CN103207860A - 舆情事件的实体关系抽取方法和装置 - Google Patents

舆情事件的实体关系抽取方法和装置 Download PDF

Info

Publication number
CN103207860A
CN103207860A CN2012100076942A CN201210007694A CN103207860A CN 103207860 A CN103207860 A CN 103207860A CN 2012100076942 A CN2012100076942 A CN 2012100076942A CN 201210007694 A CN201210007694 A CN 201210007694A CN 103207860 A CN103207860 A CN 103207860A
Authority
CN
China
Prior art keywords
phrase
theme
cluster
theme phrase
freq
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100076942A
Other languages
English (en)
Other versions
CN103207860B (zh
Inventor
郑妍
于晓明
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201210007694.2A priority Critical patent/CN103207860B/zh
Publication of CN103207860A publication Critical patent/CN103207860A/zh
Application granted granted Critical
Publication of CN103207860B publication Critical patent/CN103207860B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种舆情事件的实体关系抽取方法,包括:对舆情事件的文本集合进行分词;从分词得到的切分单元中抽取主题短语;基于聚类方法从主题短语中获取子主题;从子主题中获取实体关系。本发明还提供了一种舆情事件的实体关系抽取装置,包括:分词模块,用于对舆情事件的文本集合进行分词;主题短语模块,用于从分词得到的切分单元中抽取主题短语;子主题模块,用于基于聚类方法从主题短语中获取子主题;实体关系模块,用于从子主题中获取实体关系。本发明提高了抽取舆情事件的实体关系的性能。

Description

舆情事件的实体关系抽取方法和装置
技术领域
本发明涉及互联网信息技术领域,具体而言,涉及一种舆情事件的实体关系抽取方法和装置。
背景技术
随着互联网全民普及率的提高,互联网日渐成为人们发布信息、获取信息和传递信息的主要载体,一定程度地反映了社会公众对社会现实的主观情感,即舆情。在互联网上对于热门舆情事件(即热点事件)往往有大量网站对其转载报道,如何从这些无结构的文本中提取出真正对用户有用的信息,日益成为人们关注的问题。因此,信息抽取技术应运而生,而实体关系抽取是其中的一个子任务。实体是指事件中的人、地点和机构,实体关系是指这些人、地点和机构之间的关系。
相关的实体关系抽取技术主要采取有监督实体关系抽取方法和弱监督实体关系抽取方法。有监督实体关系抽取方法的流程一般为:对训练文本预处理,进行关系词对及关系的人工标记,抽取特征向量化,用分类算法进行训练生成模型,用模型进行关系的类别标记。弱监督实体关系抽取方法与上一种方法的主要不同之处在于对标注语料的依赖程度。弱监督用少量的标注语料集,利用bootstrapping(自学习)框架,结合各种分类算法进行实体关系抽取。
弱监督实体关系抽取方法因为采用小规模标注语料库,所以性能较差。而有监督实体关系抽取方法依赖大规模标注语料库,而这部分工作需要根据任务情况,人工进行标注。需要耗费巨大的人力物力,在此基础上采用各种算法训练模型,对生成的模型的性能无法准确估计,存在较大风险。
发明内容
本发明旨在提供一种,以解决相关技术的实体关系抽取技术的性能问题。
在本发明的实施例中,提供了一种舆情事件的实体关系抽取方法,包括:对舆情事件的文本集合进行分词;从分词得到的切分单元中抽取主题短语;基于聚类方法从主题短语中获取子主题;从子主题中获取实体关系。
在本发明的实施例中,提供了一种舆情事件的实体关系抽取装置,包括:分词模块,用于对舆情事件的文本集合进行分词;主题短语模块,用于从分词得到的切分单元中抽取主题短语;子主题模块,用于基于聚类方法从主题短语中获取子主题;实体关系模块,用于从子主题中获取实体关系。
本发明上述实施例的舆情事件的实体关系抽取方法和装置,属于无监督的实体关系抽取,不依赖语料库,提高了抽取实体关系的性能。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明实施例的舆情事件的实体关系抽取方法的流程图;
图2示出了根据本发明优选实施例的舆情事件的实体关系抽取方法的流程图;
图3示出了根据本发明实施例的舆情事件的实体关系抽取装置的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明实施例的舆情事件的实体关系抽取方法的流程图,包括:
步骤S10,对舆情事件的文本集合进行分词之类的预处理;
步骤S20,从分词得到的切分单元中抽取主题短语;
步骤S30,基于聚类方法从主题短语中获取子主题;
步骤S40,从子主题中获取实体关系。
本方法属于无监督的实体关系抽取,不依赖语料库,因此提高了抽取实体关系的性能。
另外,现有研究中大多针对各种及关系的标注,标注的关系比较局限在朋友、上下级、家庭、同学、合作等方面,或者出现关系词的获取不十分准确的现象。而本实施例的方法不依赖于标注的关系,所以还解决了关系词获取不准确的问题。
优选地,步骤S10包括:
对文本集合进行预处理,预处理主要包括分词、词性标注、命名实体识别、禁用词标注,断句。命名实体可以包括人名、地名、机构名。文本由句组成,句由分词的切分单元组成;
对于断句得到的每一句中连续的切分单元进行组合,对生成的词串统计词频,以词频作为指标进行过滤,其中,被标记为禁用词的切分单元不作为组合单元,词性打分低于第一预设阀值的切分单元,不作为词串的开头与结尾;
利用改进的C-Value算法计算词串的词频,以词串计算后的词频作为指标进行过滤,改进的C-Value算法公式为:
log2|a|*f(a)    当a没有被包含现象
log 2 | a | * f ( a ) - Σ b ∈ T a f ( b ) 其它
其中,a表示词串,||表示取词串的长度,f(a)表示a的词频,b表示包含了a的长串特征项,Ta表示b的集合;
计算过滤的词串之间的重复度,对于重复度大于第二预设阀值的词串进行合并得到主题短语。
优选地,词串x与y的重复度dup的计算公式如下:
dup ( x , y ) = ( freq ( x , y ) freq ( x ) + freq ( x , y ) freq ( y ) ) / 2
其中,freq(x,y)表示词串x与y的共现句子数,freq(x)表示词串x出现的句子总数,freq(y)表示词串y出现的句子总数。
优选地,步骤S30包括:
将得到的N个主题短语构建一个N*N的二维共现关系度矩阵;
利用互信息计算二维共现关系度矩阵中每两个主题短语x和y的共现关系度I(x,y),计算公式如下:
I ( x , y ) = freq ( x , y ) · log freq ( x , y ) min ( freq ( x ) , freq ( y ) ) , 其中freq(x,y)表示x和y的出现频率;
对大于第三预设阀值的共现关系度按值从大到小排序,生成集合I;
确定生成的二维共现关系度矩阵中与x有共现关系度的y列表;
将所有x的y列表构成集合X。
例如主题短语分别为:你、我、他,常见的构建N*N的二维共现关系度矩阵如下:
你,你    你,我    你,他
我,你    我,我    我,他
他,你    他,我    他,她
从N个主题短语中,依次取各个短语与所有短语依次地构成N个共现关系对;将各个短语的N个共现关系对构成N行,即得到N*N的二维共现关系度矩阵。
优选地,对N个主题短语执行基于共现关系度的凝聚式层次聚类包括:
1、从集合I中取一个关系(x,y);
2、判断在所有已有聚类Ck中是否存在满足包含x的聚类Cx,包含y的聚类Cy
3、若Cx与Cy同时不存在,则创建新的聚类C={x,y|I(x,y)};
4、若Cx与Cy只存在一个,如为Cy,则从集合X中得到x的y列表,计算当将y列表中第i个主题短语yi归入Cy聚类中时,Cy聚类的平均点共现关系度
Figure BSA00000656268100061
如下:
ρ c y = 1 n c y Σ I ( x , y ) ∈ c y I ( x , y )
Figure BSA00000656268100063
的值增加,则将yi归入聚类Cy,依次计算y列表中的所有主题短语;
否则创建新的聚类Ck={y|Φ};
若Cx与Cy只存在一个,如为Cx,则从集合X中得到x的y列表,计算当将y列表中第i个主题短语xi归入Cx聚类中时,Cx聚类的平均点共现关系度
Figure BSA00000656268100064
如下:
ρ c x = 1 n c x Σ I ( x , y ) ∈ c x I ( x , y )
Figure BSA00000656268100071
的值增加,则将xi归入聚类Cx,依次计算x列表中的所有主题短语;否则创建新的聚类Ck={y|Φ};
5、若Cx与Cy都存在,则计算当将聚类Cx与聚类Cy合并时的平均点共现关系度
Figure BSA00000656268100073
的值增加,则合并聚类Cx与聚类Cy,否则保持两个聚类不变;
6、重复执行1到5,直至集合I中所有关系全部被取出;
7、生成的聚类Ck是由具有相关性的主题短语构成,构成了舆情事件的一个子主题。
优选地,步骤S40包括:以子主题创建有向图;从有向图中获取实体关系。
优选地,以子主题创建有向图包括:
将一个子主题内部的主题短语作为点集合,主题短语之间的共现关系度作为边集合,共现关系度的值越大,两点的距离越小,边由早时间指向晚时间,由索引号小的主题短语指向索引号大的主题短语,由此得到一个有向图,用于表示舆情事件的发展脉络。
优选地,从有向图中获取实体关系包括:
对有向图中存在共现关系对的主题短语A与B按切分单元进行分解;
对于主题短语A与B中的人名,将人名前的名词、形容词和/或命名实体作为人名的修饰性属性;
对于主题短语A与B中的非人名的命名实体,则将该命名实体左右连续的名词进行合并;
对于主题短语A与B中的连续的名词进行合并;
对于主题短语A与B中的连续的动词进行合并;
对于主题短语A与B中的多个名词性结构之间无动词性结构,则将前者变为后者的修饰属性;
对于主题短语A与B中的多个名词性结构之间存在动词性结构,则将多个名词性结构并列成为短语主体,将动词性结构添加到关系词列表中;
将主题短语A与B分别用其短语主体表示,将主题短语A与B的关系词列表合并后,作为关系A与B的关系词;
其中,若其中一主题短语没有短语主体,则将此主题短语退化为关系词。
优选地,本方法还包括:通过对切分单元进行词频分析,消除文本集合中重复的文本。具体可包括:
如果文本x和y的文本向量维度差距不大于第四预设阀值,则利用动态规划算法计算其相似度sim,计算公式为:
sim ( x , y ) = lcs ( x , y ) max ( | x | , | y | )
其中,Lcs()是最大公共子序列函数,用于求取文本x和y的最大公共子序列;
如果sim大于第五预设阈值,则消除文本x和y中的一个。
上世纪40年代,Richard Bellman最早使用动态规划这一概念表述通过遍历寻找最优决策解问题的求解过程。1953年,RichardBellman将动态规划赋予现代意义,该领域被IEEE纳入系统分析和工程中。为纪念Bellman的贡献,动态规划的核心方程被命名为贝尔曼方程,该方程以递归形式重申了一个优化问题。
图2示出了根据本发明优选实施例的舆情事件的实体关系抽取方法的流程图,包括以下步骤:
步骤101,对文本集合进行预处理;
对于文本集合中的每篇文本,主要根据常见断句的标点符号对文本进行断句。利用分词和词性标注工具对每个句子进行分词及词性标注,根据自然语言处理领域中常用的禁用词表对分词得到的切分单元进行禁用词标注。对不同词性进行打分,对于名词,动作,形容词,前接成分,后接成分等几种词性重点考虑。可以利用各种工具进行命名实体的获取,例如分词、词性标注、命名实体识别工具均来自方正智思系统软件,文本集合来源于方正智思互联网舆情监控系统软件。这里的文本集合,是针对互联网上出现的一个具体舆情事件的文本集合。
步骤102,对几乎相同文本的消重;
由于一个舆情事件的文本集合中往往包含大量被转载的信息,重复性很大,而一个舆情事件即使是内容不一样的文本,所使用的词汇本身就具有很高的关系度,因此对几乎相同的转载文本进行消重。此类相似文本所使用的主要词汇及顺序具有很高相似性。据此对每篇文本,统计切分单元及其词频。只考虑对于文本语义指示性较大的名词及动词,按照词频由大到小抽取一定数量关键词形成向量来代表此文本。具体判定步骤为:
(1)对于不同的文本向量维度(一个文本用若干个词来表示,一个词是一维。)差距大于预设阀值的,判定为不相似。
(2)利用动态规划(dynamic programming)算法计算非连续最长公共子串,如有以下两个向量:AYBYCYD及AXBXCXD,两者最长公共子串为ABCD。设置较大阀值,相似度大于阀值的,不考虑。两个文本的相似度sim计算公式为:
sim ( x , y ) = lcs ( x , y ) max ( | x | , | y | )
其中,分子表示最长公共子串长度,分母表示两个文本向量维度的最大值。Lcs()是最大公共子序列函数,用于求取文本x和y的最大公共子序列。
步骤103,舆情主题短语的自动抽取;
舆情主题短语的自动抽取主要包括三个步骤:
(1)对连续的切分单元进行重组,对于每句中的切分单元,从第1个切分单元开始进行组合,组合窗口最长为句子长度。但对于在步骤101中被标记为禁用词的切分单元,不能作为重组单元。对于在步骤101中词性打分低于预设阀值的切分单元,不能作为词串的开头与结尾。如有序切分单元序列“AYCX”,X为禁用词,Y为低于词性打分阀值的切分单元,则生成词串的组合只包括:AYC。对生成的词串统计词频。以词频作为指标进行过滤,对词频大于等于阈值的词串保留,小于阈值的词串剔除,可以调整阈值对保留的范围进行控制。
(2)此时得到的大量词串之间,互相包含现象比较严重,一般而言,长词串的词频会低于其子词串的词频,但这并不合理(长词串比短词串具有更强的语义信息,比子词串更重要,这里的词频是衡量词重要程序的重要依据)。因此利用改进的C-Value算法重新计算词频,再以计算后的词串的词频作为指标进行过滤,对词频大于等于阈值的词串保留,小于阈值的词串剔除,可以调整阈值,对保留的范围进行控制。改进的C-Value算法公式为:
log2|a|*f(a)    当a没有被包含现象
log 2 | a | * f ( a ) - Σ b ∈ T a f ( b ) 其它
其中,a表示特征项;f(a)表示a的词频;b表示包含了a的长串特征项;Ta表示b的集合。
(3)经过两次过滤,生成了和舆情事件相关的主题词串,但要对以下两种情况进行合并,得到主题短语:
●对于词串ABCD与词串AB,将合并成一个ABCD。
●对于词串ABCD与词串BCDE,将合并成一个ABCDE。
这两种情况要计算词串之间重复度,对于大于预设阀值的词串进行合并,重复度dup计算公式如下:
dup ( x , y ) = ( freq ( x , y ) freq ( x ) + freq ( x , y ) freq ( y ) ) / 2
其中,freq(x,y)表示词串x与y的共现句子数,freq(x)表示词串x出现的句子总数。
步骤104,基于聚类方法的子主题获取;
基于聚类方法的子主题获取,利用统计学中的互信息方法来度量主题短语间的共现关系度。利用基于共现的层次聚类算法对主题词短语进行聚类,生成若干个子主题。
基于聚类方法的子主题获取主要包括两个步骤:
(1)对于步骤103得到主题短语共N个,构建一个N*N的二维共现关系度矩阵。利用互信息计算每两个主题短语的共现关系度,当共现关系度大于预设阀值时保留两者的关系,计算公式如下:
I ( x , y ) = freq ( x , y ) · log freq ( x , y ) min ( freq ( x ) , freq ( y ) )
对生成的二维矩阵中的关系按值从大到小排序,生成集合I。
对生成的二维矩阵中按x统计与其有共现关系度的y列表。统计所有N个主题短语,生成集合X。
(2)基于共现关系度的凝聚式层次聚类的算法流程如下:
1、从集合I中取一个关系(x,y);
2、在所有已有聚类中,判断是否存在聚类,使得x属于Cx,y属于Cy
3、若Cx与Cy同时不存在,则创建新的聚类C={x,y|I(x,y)}
4、若Cx与Cy只存在一个,如为Cy,则从集合X中得到x的y列表,假设将列表中一个主题短语yi归入Cy聚类中,计算增加此主题短语后的聚类Cy的平均点共现关系度。计算公式如下:
ρ c y = 1 n c y Σ I ( x , y ) ∈ c y I ( x , y )
Figure BSA00000656268100132
的值增加,则将yi归入Cy聚类,依次计算y列表中的所有主题短语;否则创建新的聚类C={x|Φ}
5、若Cx与Cy都存在,则计算聚类Cx与聚类Cy合并后的平均点共现关系度,若
Figure BSA00000656268100133
的值增加,则合并聚类Cx与聚类Cy,否则保持两个聚类不变。
6、重复执行1到5,直至集合I中所有关系全部被取出。
7、返回生成的词类集合C。
此算法生成的聚类数目自动确定,且每个聚类Ck是由具有相关性的主题短语构成,构成了舆情事件的一个子主题。
步骤105,舆情事件子主题的发展脉络获取;
将一个子主题内部的主题短语当作无向图的点集合,主题短语之间的共现关系度当作无向图的边集合,由点和边相连形成一个局部连通图。共现关系度的值越大,两点的距离越小。若考虑主题短语所属文本的时间属性,关系边由早时间画向晚时间,若考虑主题短语所属句子的顺序属性,关系边由索引号小的画向索引号大的。据此,获取到一个有向图或有向链,由于每个主题短语都是尽量语义完整的短语,链接后将表示一个子主题事件的发展脉络。
步骤106,舆情事件关系网的获取。
舆情事件关系网是在若干个子主题局部连通图的基础上构建。目的是抽取出事件主体及事件主体之间的关系,这里的事件主体主要包括命名实体、名词性结构、动词性结构。这里的关系从词性角度来讲,主要有对事件发展起指示性作用的名词性结构和动词性结构。在一个主题短语中,表示的信息有限,一般常见语义信息有事件主体,事件主体及其动作,事件主体、动作及其对象。本方法抽取的主题短语的繁杂情况较为少见。
在子主题发展脉络图中,对一个主题短语进行分析,抽取短语主体,步骤如下:
●将主题短语按切分单元进行分解。
●若存在人名,则将人名实体前的若干个名词、形容词、命名实体作为该命名实体的修饰性属性,如,派出所所长[人名]。
●若存在其它类型的命名实体,则将该命名实体左右连续的名词进行合并,如,北京警方。
●若存在连续的名词,则将连续的名词进行合并。
●若存在连续的动词,则将连续的动词进行合并。
●考虑主题短语内词性顺序,若名词性结构之间无动词性结构,则将前者变为后者的修饰属性。若存在动词性结构则将若干个名词性结构并列成为短语主体,若干个动词性结构添加到关系词列表中。
在子主题发展脉络图中,对存在共现关系对的主题短语A与B按照上述方法进行分析后,进行关系词抽取,步骤如下:
●将主题短语A用其短语主体表示,主题短语B用其短语主体表示,将A与B的关系词列表合并后,作为此关系的关系词。
●若其中一主题短语没有短语主体,则将此主题短语退化为关系词
至此,将一个子主题的发展脉络图变为一个子主题关系网。若干个子主题关系网中,会存在相同的短语主体,这些短语主体将作为连接子主题关系网的纽带和桥梁,两个子主题关系网通过此结点进行连通。
图2示出了根据本发明实施例的舆情事件的实体关系抽取装置的示意图,包括:
分词模块,用于对舆情事件的文本集合进行分词;
主题短语模块,用于从分词得到的切分单元中抽取主题短语;
子主题模块,用于基于聚类方法从主题短语中获取子主题;
实体关系模块,用于从子主题中获取实体关系。
本装置属于无监督的实体关系抽取,不依赖语料库,因此提高了抽取实体关系的性能。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种舆情事件的实体关系抽取方法,其特征在于,包括:
对舆情事件的文本集合进行分词;
从分词得到的切分单元中抽取主题短语;
基于聚类方法从所述主题短语中获取子主题;
从所述子主题中获取所述实体关系。
2.根据权利要求1所述的方法,其特征在于,从分词得到的切分单元中抽取主题短语包括:
对所述文本集合进行分词时还对所述文本集合进行断句、词性标注和禁用词标记;
对于断句得到的每一句中连续的所述切分单元进行组合,对生成的词串统计词频,以词频作为指标进行过滤,其中,被标记为禁用词的切分单元不作为组合单元,词性打分低于第一预设阀值的切分单元,不作为词串的开头与结尾;
利用改进的C-Value算法计算所述词串的词频,以词串计算后的词频作为指标进行过滤,改进的C-Value算法公式为:
log2|a|*f(a)    当a没有被包含现象
log 2 | a | * f ( a ) - Σ b ∈ T a f ( b ) 其它
其中,a表示所述词串,||表示取词串的长度,f(a)表示a的词频,b表示包含了a的长串特征项,Ta表示b的集合;
计算过滤的词串之间的重复度,对于重复度大于第二预设阀值的词串进行合并得到所述主题短语。
3.根据权利要求2所述的方法,其特征在于,词串x与y的重复度dup的计算公式如下:
dup ( x , y ) = ( freq ( x , y ) freq ( x ) + freq ( x , y ) freq ( y ) ) / 2
其中,freq(x,y)表示词串x与y的共现句子数,freq(x)表示词串x出现的句子总数,freq(y)表示词串y出现的句子总数。
4.根据权利要求1所述的方法,其特征在于,基于聚类方法从所述主题短语中获取子主题包括:
将得到的N个所述主题短语构建一个N*N的二维共现关系度矩阵;
利用互信息计算所述二维共现关系度矩阵中每两个主题短语x和y的共现关系度I(x,y),计算公式如下:
I ( x , y ) = freq ( x , y ) · log freq ( x , y ) min ( freq ( x ) , freq ( y ) ) , 其中freq(x,y)表示x和y的出现频率;
对大于第三预设阀值的共现关系度按值从大到小排序,生成集合I;
确定所述二维共现关系度矩阵中与x有共现关系度的y列表;
将所有x的y列表构成集合X。
5.根据权利要求4所述的方法,其特征在于,对N个所述主题短语执行基于所述共现关系度的凝聚式层次聚类包括:
1、从集合I中取一个关系(x,y);
2、判断在所有已有聚类Ck中是否存在满足包含x的聚类Cx,包含y的聚类Cy
3、若Cx与Cy同时不存在,则创建新的聚类C={x,y|I(x,y)};
4、若Cx与Cy只存在一个,如为Cy,则从集合X中得到x的y列表,计算当将y列表中第i个主题短语yi归入Cy聚类中时,Cy聚类的平均点共现关系度
Figure FSA00000656268000031
如下:
ρ c y = 1 n c y Σ I ( x , y ) ∈ c y I ( x , y )
Figure FSA00000656268000033
的值增加,则将yi归入聚类Cy,依次计算y列表中的所有主题短语;否则创建新的聚类Ck={x|Φ};
若Cx与Cy只存在一个,如为Cx,则从集合X中得到x的y列表,计算当将y列表中第i个主题短语xi归入Cx聚类中时,Cx聚类的平均点共现关系度如下:
ρ c x = 1 n c x Σ I ( x , y ) ∈ c x I ( x , y )
Figure FSA00000656268000036
的值增加,则将xi归入聚类Cx,依次计算x列表中的所有主题短语;否则创建新的聚类Ck={x|Φ};
5、若Cx与Cy都存在,则计算当将聚类Cx与聚类Cy合并时的平均点共现关系度
Figure FSA00000656268000038
的值增加,则合并聚类Cx与聚类Cy,否则保持两个聚类不变;
6、重复执行1到5,直至集合I中所有关系全部被取出;
7、生成的聚类Ck构成所述舆情事件的一个子主题。
6.根据权利要求1所述的方法,其特征在于,从所述发展脉络中获取所述实体关系包括:
以所述子主题创建有向图;
从所述有向图中获取所述实体关系。
7.根据权利要求6所述的方法,其特征在于,以所述子主题创建有向图包括:
将一个子主题内部的主题短语作为点集合,所述主题短语之间的共现关系度作为边集合,共现关系度的值越大,两点的距离越小,边由早时间指向晚时间,由索引号小的所述主题短语指向索引号大的所述主题短语,由此得到一个有向图。
8.根据权利要求6所述的方法,其特征在于,从所述有向图中获取所述实体关系包括:
对所述有向图中存在共现关系对的主题短语A与B按切分单元进行分解;
对于主题短语A与B中的人名,将所述人名前的名词、形容词和/或命名实体作为所述人名的修饰性属性;
对于主题短语A与B中的非人名的命名实体,则将该命名实体左右连续的名词进行合并;
对于主题短语A与B中的连续的名词进行合并;
对于主题短语A与B中的连续的动词进行合并;
对于主题短语A与B中的多个名词性结构之间无动词性结构,则将前者变为后者的修饰属性;
对于主题短语A与B中的多个名词性结构之间存在动词性结构,则将所述多个名词性结构并列成为短语主体,将所述动词性结构添加到关系词列表中;
将主题短语A与B分别用其短语主体表示,将主题短语A与B的关系词列表合并后,作为A与B的关系词;
其中,若其中一主题短语没有短语主体,则将此主题短语退化为关系词。
9.根据权利要求1所述的方法,其特征在于,还包括:
通过对所述切分单元进行词频分析,消除所述文本集合中重复的文本。
10.根据权利要求9所述的方法,其特征在于,通过对所述切分单元进行词频分析,消除所述文本集合中重复的文本包括:
如果文本x和y的文本向量维度差距不大于第四预设阀值,则利用动态规划算法计算其相似度sim,计算公式为:
sim ( x , y ) = lcs ( x , y ) max ( | x | , | y | )
其中,Lcs()是最大公共子序列函数,用于求取文本x和y的最大公共子序列;
如果sim大于第五预设阈值,则消除文本x和y中的一个。
11.一种舆情事件的实体关系抽取装置,其特征在于,包括:
分词模块,用于对舆情事件的文本集合进行分词;
主题短语模块,用于从分词得到的切分单元中抽取主题短语;
子主题模块,用于基于聚类方法从所述主题短语中获取子主题;
实体关系模块,用于从所述子主题中获取所述实体关系。
CN201210007694.2A 2012-01-11 2012-01-11 舆情事件的实体关系抽取方法和装置 Expired - Fee Related CN103207860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210007694.2A CN103207860B (zh) 2012-01-11 2012-01-11 舆情事件的实体关系抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210007694.2A CN103207860B (zh) 2012-01-11 2012-01-11 舆情事件的实体关系抽取方法和装置

Publications (2)

Publication Number Publication Date
CN103207860A true CN103207860A (zh) 2013-07-17
CN103207860B CN103207860B (zh) 2017-08-25

Family

ID=48755085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210007694.2A Expired - Fee Related CN103207860B (zh) 2012-01-11 2012-01-11 舆情事件的实体关系抽取方法和装置

Country Status (1)

Country Link
CN (1) CN103207860B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045900A (zh) * 2015-08-05 2015-11-11 石河子大学 数据提取的方法及装置
CN105468583A (zh) * 2015-12-09 2016-04-06 百度在线网络技术(北京)有限公司 一种实体关系的获取方法及装置
CN106257457A (zh) * 2016-07-15 2016-12-28 合肥指南针电子科技有限责任公司 一种舆情收集整理方法
CN106598944A (zh) * 2016-11-25 2017-04-26 中国民航大学 一种民航安保舆情情感分析方法
CN106649844A (zh) * 2016-12-30 2017-05-10 浙江工商大学 非结构化文本数据增强型分布式大规模数据维度抽取方法
CN106991090A (zh) * 2016-01-20 2017-07-28 北京国双科技有限公司 舆情事件实体的分析方法及装置
CN107180045A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
WO2017193685A1 (zh) * 2016-05-11 2017-11-16 华为技术有限公司 社交网络中数据的处理方法和装置
WO2018141144A1 (zh) * 2017-02-06 2018-08-09 华为技术有限公司 一种文本和语音信息的处理方法以及终端
CN108614897A (zh) * 2018-05-10 2018-10-02 四川长虹电器股份有限公司 一种面向自然语言的内容多样化搜索方法
CN108897810A (zh) * 2018-06-19 2018-11-27 苏州大学 一种实体匹配方法、系统、介质及设备
CN109189901A (zh) * 2018-08-09 2019-01-11 北京中关村科金技术有限公司 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109471936A (zh) * 2018-10-11 2019-03-15 上海叔本华智能科技有限公司 一种用于对设备维护信息进行特征分类的方法和系统
CN109635074A (zh) * 2018-11-13 2019-04-16 平安科技(深圳)有限公司 一种基于舆情信息的实体关系分析方法及终端设备
CN109710918A (zh) * 2018-11-26 2019-05-03 平安科技(深圳)有限公司 舆情关系识别方法、装置、计算机设备和存储介质
CN110147443A (zh) * 2017-08-03 2019-08-20 北京国双科技有限公司 话题分类评判方法及装置
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN111444717A (zh) * 2018-12-28 2020-07-24 天津幸福生命科技有限公司 医学实体信息的抽取方法、装置、存储介质及电子设备
CN112507059A (zh) * 2020-12-07 2021-03-16 宁波深擎信息科技有限公司 金融领域舆情监控中的事件抽取方法、装置和计算机设备
CN112818138A (zh) * 2021-04-19 2021-05-18 中译语通科技股份有限公司 知识图谱本体构建方法、装置、终端设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452470A (zh) * 2007-10-18 2009-06-10 石忠民 摘要式网络搜索引擎系统及其搜索方法与应用
CN101593204A (zh) * 2009-06-05 2009-12-02 北京大学 一种基于新闻评论网页的情感倾向性分析系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452470A (zh) * 2007-10-18 2009-06-10 石忠民 摘要式网络搜索引擎系统及其搜索方法与应用
CN101593204A (zh) * 2009-06-05 2009-12-02 北京大学 一种基于新闻评论网页的情感倾向性分析系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王萌,徐超,李春贵,何婷婷: "基于子主题区域划分的多文档自动文摘方法", 《计算机工程》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045900A (zh) * 2015-08-05 2015-11-11 石河子大学 数据提取的方法及装置
CN105468583A (zh) * 2015-12-09 2016-04-06 百度在线网络技术(北京)有限公司 一种实体关系的获取方法及装置
CN106991090A (zh) * 2016-01-20 2017-07-28 北京国双科技有限公司 舆情事件实体的分析方法及装置
CN107180045B (zh) * 2016-03-10 2020-10-16 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
CN107180045A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
WO2017193685A1 (zh) * 2016-05-11 2017-11-16 华为技术有限公司 社交网络中数据的处理方法和装置
CN106257457A (zh) * 2016-07-15 2016-12-28 合肥指南针电子科技有限责任公司 一种舆情收集整理方法
CN106598944B (zh) * 2016-11-25 2019-03-19 中国民航大学 一种民航安保舆情情感分析方法
CN106598944A (zh) * 2016-11-25 2017-04-26 中国民航大学 一种民航安保舆情情感分析方法
CN106649844B (zh) * 2016-12-30 2019-10-18 浙江工商大学 非结构化文本数据增强型分布式大规模数据维度抽取方法
CN106649844A (zh) * 2016-12-30 2017-05-10 浙江工商大学 非结构化文本数据增强型分布式大规模数据维度抽取方法
WO2018141144A1 (zh) * 2017-02-06 2018-08-09 华为技术有限公司 一种文本和语音信息的处理方法以及终端
US11308952B2 (en) 2017-02-06 2022-04-19 Huawei Technologies Co., Ltd. Text and voice information processing method and terminal
CN110147443A (zh) * 2017-08-03 2019-08-20 北京国双科技有限公司 话题分类评判方法及装置
CN110147443B (zh) * 2017-08-03 2021-04-27 北京国双科技有限公司 话题分类评判方法及装置
CN108614897A (zh) * 2018-05-10 2018-10-02 四川长虹电器股份有限公司 一种面向自然语言的内容多样化搜索方法
CN108614897B (zh) * 2018-05-10 2021-04-27 四川长虹电器股份有限公司 一种面向自然语言的内容多样化搜索方法
CN108897810A (zh) * 2018-06-19 2018-11-27 苏州大学 一种实体匹配方法、系统、介质及设备
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN110717034A (zh) * 2018-06-26 2020-01-21 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN109189901A (zh) * 2018-08-09 2019-01-11 北京中关村科金技术有限公司 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109471936A (zh) * 2018-10-11 2019-03-15 上海叔本华智能科技有限公司 一种用于对设备维护信息进行特征分类的方法和系统
CN109635074A (zh) * 2018-11-13 2019-04-16 平安科技(深圳)有限公司 一种基于舆情信息的实体关系分析方法及终端设备
CN109635074B (zh) * 2018-11-13 2024-05-07 平安科技(深圳)有限公司 一种基于舆情信息的实体关系分析方法及终端设备
CN109710918A (zh) * 2018-11-26 2019-05-03 平安科技(深圳)有限公司 舆情关系识别方法、装置、计算机设备和存储介质
CN111444717A (zh) * 2018-12-28 2020-07-24 天津幸福生命科技有限公司 医学实体信息的抽取方法、装置、存储介质及电子设备
CN112507059A (zh) * 2020-12-07 2021-03-16 宁波深擎信息科技有限公司 金融领域舆情监控中的事件抽取方法、装置和计算机设备
CN112507059B (zh) * 2020-12-07 2022-05-24 宁波深擎信息科技有限公司 金融领域舆情监控中的事件抽取方法、装置和计算机设备
CN112818138A (zh) * 2021-04-19 2021-05-18 中译语通科技股份有限公司 知识图谱本体构建方法、装置、终端设备及可读存储介质

Also Published As

Publication number Publication date
CN103207860B (zh) 2017-08-25

Similar Documents

Publication Publication Date Title
CN103207860A (zh) 舆情事件的实体关系抽取方法和装置
Ghosh et al. Fracking sarcasm using neural network
Shen et al. LIEGE: link entities in web lists with knowledge base
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN106372061A (zh) 基于语义的短文本相似度计算方法
Kamal Subjectivity classification using machine learning techniques for mining feature-opinion pairs from web opinion sources
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
Lee Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams
CN104991891A (zh) 一种短文本特征提取方法
CN106407113A (zh) 一种基于Stack Overflow和commit库的bug定位方法
CN103150381A (zh) 一种高精度汉语谓词识别方法
Nandi et al. Bangla news recommendation using doc2vec
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
Remus et al. Three knowledge-free methods for automatic lexical chain extraction
CN112183059A (zh) 一种中文结构化事件抽取方法
CN114997288A (zh) 一种设计资源关联方法
Wen et al. Structure regularized neural network for entity relation classification for chinese literature text
CN102779119B (zh) 一种抽取关键词的方法及装置
CN113139599A (zh) 一种融合词向量扩充和主题模型的服务分布式聚类方法
Xu et al. Chinese event detection based on multi-feature fusion and BiLSTM
CN110162651B (zh) 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法
Li et al. Phrase embedding learning based on external and internal context with compositionality constraint

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220622

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170825