CN111651559B - 一种基于事件抽取的社交网络用户关系抽取方法 - Google Patents
一种基于事件抽取的社交网络用户关系抽取方法 Download PDFInfo
- Publication number
- CN111651559B CN111651559B CN202010474094.1A CN202010474094A CN111651559B CN 111651559 B CN111651559 B CN 111651559B CN 202010474094 A CN202010474094 A CN 202010474094A CN 111651559 B CN111651559 B CN 111651559B
- Authority
- CN
- China
- Prior art keywords
- event
- triplet
- text
- framework
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000001514 detection method Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000003892 spreading Methods 0.000 description 4
- 230000009193 crawling Effects 0.000 description 3
- 241000219112 Cucumis Species 0.000 description 2
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 2
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于事件抽取的社交网络用户关系抽取方法,涉及文本信息处理技术领域。该方法首先获取社交网络数据中的文本信息并进行预处理后进行三元组框架抽取;将多个三元组框架看作是一个事件,三元组框架中的任意子元素集看作是三元组框架的子集,用于表示事件的特征;通过三元组框架的突发值来选择事件的特征,进而确定多个事件簇中心;再对三元组框架进行特征聚类,得到多个事件簇,构成事件簇集合;根据事件簇集合,判断两用户所发布的内容是否在同一事件簇中,若在,则两用户之间存在关系,形成用户对;利用非监督模型对用户之间的关系进行抽取,得到用户关系三元组。本发明方法提高了用户关系抽取的准确性以及实时性。
Description
技术领域
本发明涉及文本信息处理技术领域,尤其涉及一种基于事件抽取的社交网络用户关系抽取方法。
背景技术
目前,社交网络逐渐成为人们生活中不可或缺的一部分,成为一种超越新闻、报纸、论坛等的消息传播工具,扩大了社会舆情的范围,带来了信息生产与传播方式的新革命。据大数据分析,2020年中国网民数量达到11亿。由此可知,越来越多的网民用户通过微博、微信平台来发表与传播各种话题,而不同的话题与用户之间也存在着一定的联系。
微信、微博等社交平台对用户进行关系抽取主要是根据不同用户之间的互粉情况、转发、以及评论热点事件等文本信息来提取用户的关系特征,从而获得用户之间的关系。然而现存的信息抽取方法并不能采集到完整的用户文本信息,准确性也相对较低,不能准确的推导出在一定时间段内用户之间的关系。
因此,需要一种新的用户关系抽取方法,进一步提高用户关系抽取的准确性以及实时性。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于事件抽取的社交网络用户关系抽取方法,抽取通过爬取社交网络所获得信息的数据特征,实现更有效的挖掘社交网络用户关系。
为解决上述技术问题,本发明所采取的技术方案是:一种基于事件抽取的社交网络用户关系抽取方法,包括以下步骤:
步骤1:获取社交网络数据中的文本信息,并存储到文本数据库中;利用已知的用户id,批量爬取用户的社交网络数据,并从社交网络数据中获取用户所发布的文本信息,存储到文本数据库中;同时,针对社交网络中的图片及视频,通过OCR识别工具来获取图片或视频中的文本信息,并存储到文本数据库中;
步骤2:对文本数据库中的文本数据进行预处理;对文本数据中的中文文本进行中文筛选与归一化处理,并对中文文本进行实体识别;
采用语言检测方法去除文本数据中的非中文文本,利用基于文本抽取的单词级归一化词典来对文本中的单词进行归一化,得到规范词以及对应的规范形式;再采用基于统计机器学习的方法建立LSTM+CRF模型对原始文本信息进行训练,再利用训练好的LSTM+CRF模型识别出文本中的实体;
步骤3:对预处理后的文本数据进行三元组框架抽取;利用三元组抽取工具抽取文本数据中的三元组框架;
首先从文本中抽取谓语动词,其次,再抽取与谓语动词相关的包含主语和宾语的实体对;最后,针对抽取到的三元组框架进行筛选,将抽取到的三元组框架与MicrosoftWeb N-gram在线服务匹配,去除掉不满足三元组框架语法约束的噪声;
步骤4:基于三元组框架的事件检测;将多个三元组框架看作是一个事件,三元组框架中的任意子元素集看作是三元组框架的子集,用于表示事件的特征;通过三元组框架的突发值来选择事件的特征,进而确定多个事件簇中心;再对三元组框架进行特征聚类,得到多个事件簇,构成事件簇集合;
步骤4.1:将三元组框架在文本中分布的概率值作为突发值,并基于突发值获取的事件特征作为事件簇中心;
设定时间段D包含n个时间窗口,D={d1,d2,...,dn};每个文本内容为一个三元组框架集合T={f1,f2,...,fl},其中,l为文本中三元组框架的总数;在时间窗口d内计算文本中每个短语在所有三元组框架内作为任意子元素的概率,如下公式所示:
Ps,d~N(Ndps,Ndps(1-ps))
其中,N()表示二项分布,Nd表示为时间窗口d中所包含的文本数量,ps表示为任意时间窗口内观察到的包含短语s的文本的期望概率,Ps,d表示时间窗口d内短语s在三元组框架内作为任意子元素中的分布概率,也即短语s在窗口d中的突发值;则该短语所在三元组框架的突发值为三元组框架内所有短语的突发值之和;
选取文本中短语个数的t%作为事件的特征数量L,基于短语突发值,通过PageRank方法得到文本中所有短语的排名序列,并从排名序列中前L个具有高突发值的短语作为事件的特征S′={s1,s2,...,sm,...,sL},并将事件的特征作为特征聚类的多个事件簇中心;
步骤4.2:对三元组框架进行特征聚类,得到多个事件簇;
采用基于时序模型的相似度计算方法,在时间窗口d内,划分H个子时间窗口,计算三元组框架的任意子元素与作为事件簇中心的事件特征之间的相似度,如下公式所示:
其中,sim(sa,sm,d)表示在时间窗口d中三元组框架的子元素sa与作为事件特征的短语sm的相似值,w(sa,dh)与w(sm,dh)分别表示sa和sm在子时间窗口dh中的时序特征权重,表示sa和sm所在的文本/>与文本/>在子时间窗口dh中的文本相似值;
判断在时间窗口d中三元组框架的子元素sa与作为事件特征的短语sm的相似值sim(sa,sm,d)是否大于设定的阈值δ,若大于,则将该三元组框架的子元素sa划入事件特征sm作为事件簇中心的事件簇内;反之,则三元组框架的子元素sa不在该事件簇内;所得到的事件簇集合表示为set(d);
步骤5:用户关系抽取;根据步骤4所得到的事件簇集合,判断两用户所发布的内容是否在同一事件簇中,若在,则两用户之间存在关系,形成用户对;利用非监督模型对用户之间的关系进行抽取,得到用户关系三元组;
对用户发布的内容执行步骤2、3获得用户发布内容的三元组框架,将获得的三元组框架与事件簇进行相似性比较,若大于设定的阈值,则将该三元组框架划分到该事件簇中;反之,则计算三元组框架与其他事件簇的相似值,直到将该三元组框架分到某事件簇内;若两用户所发布内容提取的三元组框架均在同一事件簇中,则两用户之间存在关系,形成用户对;
根据得到的用户对,利用非监督模型对用户之间的关系进行抽取,得到用户关系三元组(Uset1,relation,User2)。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于事件抽取的社交网络用户关系抽取方法,从用户发布的文本信息中提取三元组框架,通过三元组框架的突发值来选择事件的特征,基于事件的特征,对事件簇进行划分,根据事件簇更好的判定用户之间的关系。本发明方法从用户的角度出发,按照用户所发布的内容来获取到特征,结合从图与视频中抽取的内容,更准确的分析用户所表达的真实想法,提高了用户关系抽取的准确性以及实时性。
附图说明
图1为本发明实施例提供的用于社交网络用户关系抽取的电子设备结构示意图;
图2为本发明实施例提供的一种基于事件抽取的社交网络用户关系抽取方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
由于社交网络平台的开放型,许多用户之间会通过文本信息进行沟通,实现社交活动,从而构成了在线社交网络,并可以利用该网络中的文本信息进行分析,获得社交网络中用户之间的真实关系。本申请实施例可以自动提取社交网络文本中两个用户之间的关系,预测用户之间的关系,更好的为用户推荐与他相似的用户,构建更好的用户社交网络。
本实施例基于如图1所示的电子设备进行社交网络用户关系的抽取,该电子设备可以是个人电脑、服务器等,但不限于此。图1中的存储器、处理器以及通信单元相互之间通过直接或间接的连接,实现数据交互。
本实施例中,一种基于事件抽取的社交网络用户关系抽取方法,如图2所示,包括以下步骤:
步骤1:获取社交网络数据中的文本信息,并存储到文本数据库中;
利用已知的用户id,批量爬取用户的社交网络数据,并从社交网络数据中获取用户所发布的文本信息,存储到文本数据库中;同时,针对社交网络中的图片及视频,通过OCR识别工具来获取图片或视频中的文本信息,并存储到文本数据库中;
在本实施例中,使用Scrapy爬取框架获取到社交网络数据。通过开源的Scrapy爬虫框架爬取html网页源码,定位到与文本相关的指定位置,抽取相关文本。例如,在网页中存在一些广告以及推送信息等噪声信息,在网页源码中找到用户所发布的文本信息,利用Scrapy爬取框架抽取出正文部分,获取到社交网络数据。
步骤2:对文本数据库中的文本数据进行预处理;原始的文本内容包含多种语言的文本,且包含噪声数据,例如重复信息、用户自创词以及表达不准确等。本发明主要针对中文文本进行事件抽取。对文本数据中的中文文本进行中文筛选与归一化处理,为了更好的获得到文本中的框架,并对中文文本进行实体识别;
采用语言检测方法去除文本数据中的非中文文本,利用基于文本抽取的单词级归一化词典来对文本中的单词进行归一化,得到规范词以及对应的规范形式;其次,由于中文中包含着名词短语、代词等实体,本发明采用基于统计机器学习的方法建立LSTM+CRF模型对原始文本信息进行训练,再利用训练好的LSTM+CRF模型识别出文本中的实体;
在获取到的社交网络数据中,存在着一些语言表达有误、用户自创词、发布重复信息的伪信息。本实施例中采用语言检测方法langid工具包去除掉非中文文本,利用单词级词典去除掉伪信息。通过统计机器学习方法建立LSTM+CRF模型识别出文本中的实体。例如,在给定文本信息“我今天开始了一段美好的美好的旅程[吃瓜][摊手]”,首先通过语言检测方法去除掉该句中的表情词[吃瓜][摊手];随后,通过单词级的词典进行比对,去除掉重复词“美好的”;接下来,通过训练好的模型LSTM+CRF提取出该句中的实体对一我和旅程。
步骤3:对预处理后的文本数据进行三元组框架抽取;本发明为获取包含事件信息的三元组框架,包含事件的主体以及谓语。从无结构化的文本中抽取信息。利用三元组抽取工具抽取文本数据中的三元组框架;首先从文本中抽取谓语动词,其次,再抽取与谓语动词相关的包含主语和宾语的实体对;最后,针对抽取到的三元组框架进行筛选,将抽取到的三元组框架与Microsoft Web N-gram在线服务匹配,去除掉不满足三元组框架语法约束的噪声;该种方法不依赖于任何外部资源,利用自身的数据集,达到更好的事件抽取效果。
本实施例中利用ReVerb工具抽取三元组框架,表示为(ar gs,verb,ar g0),其中,ar gs表示为框架中的主语,verb表示为框架中的谓语,ar go表示为框架中的宾语;将原始文本作为输入,经过ReVerb工具,输出三元组框架;首先从文本中抽取谓语动词,其次,再抽取与谓语动词相关的实体对;最后,针对抽取到的三元组框架进行筛选,将抽取到的三元组框架与Microsoft Web N-gram在线服务匹配,去除掉不满足三元组语法约束的噪声,保留至少包含一个主语ar gs或宾语ar go,不可或缺的成分为谓语verb的三元组框架;在此基础上,对三元组框架进行再次筛选,过滤包含不规范缩写、用户自定义词、表情词或表达不充分的句子的三元组框架;例如,给定用户的文本信息“今天我开始了一段新的旅程,我感受到了开心的苹果”,首先,抽取出谓语动词开始和感受,其次,根据开始与感受匹配对应的实体对——我和旅程以及我和苹果,构成新的三元组a(我,开始,旅程)以及a’(我,感受,苹果),利用Microsoft Web N-gram在线服务匹配三元组中的内容,可以得出a’是不合理的三元组,得出的三元组为(我,开始,旅程),将三元组形式看作是框架,实现了对数据的框架抽取。
步骤4:基于三元组框架的事件检测;将多个三元组框架看作是一个事件,三元组框架中的任意子元素(ar gs和verb,verb和ar g0,或args和arg0)集看作是三元组框架的子集,用于表示事件的特征;通过三元组框架的突发值来选择事件的特征,进而确定多个事件簇中心;再对三元组框架进行特征聚类,得到多个事件簇,构成事件簇集合;事件指的是包含时间地点人物行为等描述向量,是对三元组框架的拓展,可以将多个三元组看作是一个事件;
步骤4.1:将三元组框架在文本中分布的概率值作为突发值,并基于突发值获取的事件特征作为事件簇中心;
设定时间段D包含n个时间窗口,D={d1,d2,...,dn};每个文本内容为一个三元组框架集合T={f1,f2,...,fl},其中,l为文本中三元组框架的总数;在时间窗口d内计算文本中每个短语在所有三元组框架内作为任意子元素的概率,如下公式所示:
Ps,d~N(Ndps,Ndps(1-ps))
其中,N()表示二项分布,Nd表示为时间窗口d中所包含的文本数量,ps表示为任意时间窗口内观察到的包含短语s的文本的期望概率,Ps,d表示时间窗口d内短语s在三元组框架内作为任意子元素中的分布概率,也即短语s在窗口d中的突发值;则该短语所在三元组框架的突发值为三元组框架内所有短语的突发值之和;
本实施例选取文本中短语数量的20%作为事件的特征数量L,,基于短语突发值,通过PageRank方法得到文本中所有短语的排名序列,并从排名序列中前L个具有高突发值的短语作为事件的特征S′={s1,s2,...,sm,...,sL},并将事件的特征作为特征聚类的多个事件簇中心;
步骤4.2:对三元组框架进行特征聚类,得到多个事件簇;
采用基于时序模型的相似度计算方法,在时间窗口d内,划分H个子时间窗口,计算三元组框架的任意子元素与作为事件簇中心的事件特征之间的相似度,如下公式所示:
其中,sim(sa,sm,d)表示在时间窗口d中三元组框架的子元素sa与作为事件特征的短语sm的相似值,w(sa,dh)与w(sm,dh)分别表示sa和sm在子时间窗口dh中的时序特征权重,表示sa和sm所在的文本/>与文本/>在子时间窗口dh中的文本相似值;本实施例采用TF-IDF方法计算两短语所在文本的文本相似值;
作为事件特征的短语sm在子时间窗口dh中的时序特征权重w(sm,dh)如下公式所示:
判断在时间窗口d中三元组框架的子元素sa与作为事件特征的短语sm的相似值sim(sa,sm,d)是否大于设定的阈值δ,若大于,则将该三元组框架的子元素sa划入事件特征sm作为事件簇中心的事件簇内;反之,则三元组框架的子元素sa不在该事件簇内;所得到的事件簇集合表示为set(d);
步骤5:用户关系抽取;根据步骤4所得到的事件簇集合,判断两用户所发布的内容是否在同一事件簇中,若在,则两用户之间存在关系,形成用户对;利用非监督模型对用户之间的关系进行抽取,得到用户关系三元组。
对用户发布的内容执行步骤2、3获得用户发布内容的三元组框架,将获得的三元组框架与事件簇进行相似性比较,若大于设定的阈值,则将该三元组框架划分到该事件簇中;反之,则计算三元组框架与其他事件簇的相似值,直到将该三元组框架分到某事件簇内;若两用户所发布内容提取的三元组框架均在同一事件簇中,则两用户之间存在关系,形成用户对;
根据得到的用户对,利用非监督模型对用户之间的关系进行抽取,得到用户关系三元组(User1,relation,User2)。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (5)
1.一种基于事件抽取的社交网络用户关系抽取方法,包括以下步骤:
步骤1:获取社交网络数据中的文本信息,并存储到文本数据库中;
步骤2:对文本数据库中的文本数据进行预处理;对文本数据中的中文文本进行中文筛选与归一化处理,并对中文文本进行实体识别;
步骤3:对预处理后的文本数据进行三元组框架抽取;
步骤4:基于三元组框架的事件检测;将多个三元组框架看作是一个事件,三元组框架中的任意子元素集看作是三元组框架的子集,用于表示事件的特征;通过三元组框架的突发值来选择事件的特征,进而确定多个事件簇中心;再对三元组框架进行特征聚类,得到多个事件簇,构成事件簇集合;
步骤4.1:将三元组框架在文本中分布的概率值作为突发值,并基于突发值获取的事件特征作为事件簇中心;
设定时间段D包含n个时间窗口,D={d1,d2,...,dn};每个文本内容为一个三元组框架集合T={f1,f2,...,fl},其中,l为文本中三元组框架的总数;在时间窗口d内计算文本中每个短语在所有三元组框架内作为任意子元素的概率,如下公式所示:
Ps,d~N(Ndps,Ndps(1-ps))
其中,N()表示二项分布,Nd表示为时间窗口d中所包含的文本数量,ps表示为任意时间窗口内观察到的包含短语s的文本的期望概率,Ps,d表示时间窗口d内短语s在三元组框架内作为任意子元素中的分布概率,也即短语s在窗口d中的突发值;则该短语所在三元组框架的突发值为三元组框架内所有短语的突发值之和;
选取文本中短语个数的t%作为事件的特征数量L,基于短语突发值,通过PageRank方法得到文本中所有短语的排名序列,并从排名序列中选取前L个具有高突发值的短语作为事件的特征S′={s1,s2,...,sm,...,sL},并将事件的特征作为特征聚类的多个事件簇中心;
步骤4.2:对三元组框架进行特征聚类,得到多个事件簇;
采用基于时序模型的相似度计算方法,在时间窗口d内,划分H个子时间窗口,计算三元组框架的任意子元素与作为事件簇中心的事件特征之间的相似度,如下公式所示:
其中,sim(sa,sm,d)表示在时间窗口d中三元组框架的子元素sa与作为事件特征的短语sm的相似值,w(sa,dh)与w(sm,dh)分别表示sa和sm在子时间窗口dh中的时序特征权重,表示sa和sm所在的文本/>与文本/>在子时间窗口dh中的文本相似值;
判断在时间窗口d中三元组框架的子元素sa与作为事件特征的短语sm的相似值sim(sa,sm,d)是否大于设定的阈值δ,若大于,则将该三元组框架的子元素sa划入事件特征sm作为事件簇中心的事件簇内;反之,则三元组框架的子元素sa不在该事件簇内;所得到的事件簇集合表示为set(d);
步骤5:用户关系抽取;根据步骤4所得到的事件簇集合,判断两用户所发布的内容是否在同一事件簇中,若在,则两用户之间存在关系,形成用户对;利用非监督模型对用户之间的关系进行抽取,得到用户关系三元组。
2.根据权利要求1所述的一种基于事件抽取的社交网络用户关系抽取方法,其特征在于:所述步骤1的具体方法为:
利用己知的用户id,批量爬取用户的社交网络数据,并从社交网络数据中获取用户所发布的文本信息,存储到文本数据库中;同时,针对社交网络中的图片及视频,通过OCR识别工具来获取图片或视频中的文本信息,并存储到文本数据库中。
3.根据权利要求1所述的一种基于事件抽取的社交网络用户关系抽取方法,其特征在于:所述步骤2的具体方法为:
采用语言检测方法去除文本数据中的非中文文本,利用基于文本抽取的单词级归一化词典来对文本中的单词进行归一化,得到规范词以及对应的规范形式;再采用基于统计机器学习的方法建立LSTM+CRF模型对原始文本信息进行训练,再利用训练好的LSTM+CRF模型识别出文本中的实体。
4.根据权利要求1所述的一种基于事件抽取的社交网络用户关系抽取方法,其特征在于:
利用三元组抽取工具抽取文本数据中的三元组框架;首先从文本中抽取谓语动词,其次,再抽取与谓语动词相关的包含主语和宾语的实体对;最后,针对抽取到的三元组框架进行筛选,将抽取到的三元组框架与Microsoft Web N-gram在线服务匹配,去除掉不满足三元组框架语法约束的噪声。
5.根据权利要求2到4任一项所述的一种基于事件抽取的社交网络用户关系抽取方法,其特征在于:所述步骤5的具体方法为:
对用户发布的内容执行步骤2、3获得用户发布内容的三元组框架,将获得的三元组框架与事件簇进行相似性比较,若大于设定的阈值,则将该三元组框架划分到该事件簇中;反之,则计算三元组框架与其他事件簇的相似值,直到将该三元组框架分到某事件簇内;若两用户所发布内容提取的三元组框架均在同一事件簇中,则两用户之间存在关系,形成用户对;
根据得到的用户对,利用非监督模型对用户之间的关系进行抽取,得到用户关系三元组(User1,relation,User2)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010474094.1A CN111651559B (zh) | 2020-05-29 | 2020-05-29 | 一种基于事件抽取的社交网络用户关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010474094.1A CN111651559B (zh) | 2020-05-29 | 2020-05-29 | 一种基于事件抽取的社交网络用户关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651559A CN111651559A (zh) | 2020-09-11 |
CN111651559B true CN111651559B (zh) | 2023-05-26 |
Family
ID=72348691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010474094.1A Active CN111651559B (zh) | 2020-05-29 | 2020-05-29 | 一种基于事件抽取的社交网络用户关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651559B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI759877B (zh) * | 2020-09-24 | 2022-04-01 | 台達電子工業股份有限公司 | 網頁內文抽取方法 |
CN112527960A (zh) * | 2020-12-17 | 2021-03-19 | 华东师范大学 | 基于关键词聚类的突发事件检测方法 |
CN114610905B (zh) * | 2022-03-23 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及相关装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102843420A (zh) * | 2012-07-02 | 2012-12-26 | 上海交通大学 | 基于模糊划分的社交网络数据分发系统 |
CN107862037A (zh) * | 2017-11-03 | 2018-03-30 | 哈尔滨工业大学 | 一种基于实体连通图的事件模版构造方法 |
EP3364364A1 (en) * | 2017-02-21 | 2018-08-22 | Privately Sàrl | Method to detect incidents from social network use |
CN109145114A (zh) * | 2018-08-29 | 2019-01-04 | 电子科技大学 | 基于Kleinberg在线状态机的社交网络事件检测方法 |
CN110232158A (zh) * | 2019-05-06 | 2019-09-13 | 重庆大学 | 基于多模态数据的突发公共安全事件检测方法 |
CN110390099A (zh) * | 2019-06-28 | 2019-10-29 | 河海大学 | 一种基于模板库的对象关系抽取系统和抽取方法 |
CN110543590A (zh) * | 2019-01-23 | 2019-12-06 | 北京信息科技大学 | 一种微博突发事件的检测方法 |
-
2020
- 2020-05-29 CN CN202010474094.1A patent/CN111651559B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102843420A (zh) * | 2012-07-02 | 2012-12-26 | 上海交通大学 | 基于模糊划分的社交网络数据分发系统 |
EP3364364A1 (en) * | 2017-02-21 | 2018-08-22 | Privately Sàrl | Method to detect incidents from social network use |
CN107862037A (zh) * | 2017-11-03 | 2018-03-30 | 哈尔滨工业大学 | 一种基于实体连通图的事件模版构造方法 |
CN109145114A (zh) * | 2018-08-29 | 2019-01-04 | 电子科技大学 | 基于Kleinberg在线状态机的社交网络事件检测方法 |
CN110543590A (zh) * | 2019-01-23 | 2019-12-06 | 北京信息科技大学 | 一种微博突发事件的检测方法 |
CN110232158A (zh) * | 2019-05-06 | 2019-09-13 | 重庆大学 | 基于多模态数据的突发公共安全事件检测方法 |
CN110390099A (zh) * | 2019-06-28 | 2019-10-29 | 河海大学 | 一种基于模板库的对象关系抽取系统和抽取方法 |
Non-Patent Citations (4)
Title |
---|
一种基于PDBMLCA聚类的网络突发事件发现算法;温源;王星;刘云;行新香;;北京交通大学学报(第02期);全文 * |
一种基于主题相似性和网络拓扑的微博社区发现方法;王卫平;范田;;计算机系统应用(第06期);全文 * |
基于突发主题词和凝聚式层次聚类的微博突发事件检测研究;丁晟春;龚思兰;李红梅;;现代图书情报技术(第Z1期);全文 * |
微博网络地域Top-k突发事件检测;仲兆满;管燕;李存华;刘宗田;;计算机学报(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111651559A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093854B2 (en) | Emoji recommendation method and device thereof | |
US9720901B2 (en) | Automated text-evaluation of user generated text | |
CN111651559B (zh) | 一种基于事件抽取的社交网络用户关系抽取方法 | |
US9317498B2 (en) | Systems and methods for generating summaries of documents | |
CN106250513B (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
US9189473B2 (en) | System and method for resolving entity coreference | |
CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
US20130159277A1 (en) | Target based indexing of micro-blog content | |
Jha et al. | DHOT-repository and classification of offensive tweets in the Hindi language | |
US20100153320A1 (en) | Method and arrangement for sim algorithm automatic charset detection | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN108363699A (zh) | 一种基于百度贴吧的网民学业情绪分析方法 | |
CN112989208A (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
WO2019080428A1 (zh) | 目标文档获取方法及应用服务器 | |
CN113076735A (zh) | 目标信息的获取方法、装置和服务器 | |
US20140101259A1 (en) | System and Method for Threat Assessment | |
US11514258B2 (en) | Table header detection using global machine learning features from orthogonal rows and columns | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN112492606B (zh) | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 | |
Sagcan et al. | Toponym recognition in social media for estimating the location of events | |
Michelbacher | Multi-word tokenization for natural language processing | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
Sweeney et al. | Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach. | |
CN111310066B (zh) | 一种基于主题模型和关联规则算法的好友推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |