CN102436480B - 一种面向文本的知识单元关联关系挖掘方法 - Google Patents
一种面向文本的知识单元关联关系挖掘方法 Download PDFInfo
- Publication number
- CN102436480B CN102436480B CN 201110312882 CN201110312882A CN102436480B CN 102436480 B CN102436480 B CN 102436480B CN 201110312882 CN201110312882 CN 201110312882 CN 201110312882 A CN201110312882 A CN 201110312882A CN 102436480 B CN102436480 B CN 102436480B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- blocks
- text
- term
- bunch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向文本的知识单元关联关系挖掘方法,按照如下步骤:(1)对文本集合进行聚类,找到具有相似主题的文本子集合,在此基础上,利用文本中术语分布的不对称性,挖掘文本间的线性关联关系;(2)利用知识单元对关联关系的局部性,产生候选知识单元对;(3)基于知识单元对的术语词频、距离和语义类型特征,对候选的知识单元对进行二值分类,识别知识单元对的关联关系。本发明可大大减少候选知识单元个数,在保证精度的前提下,有效地降低了关系挖掘的时间复杂度。
Description
技术领域
本发明涉及一种网络数据的检索方法,特别涉及一种面向文本的知识单元关联关系挖掘方法。
背景技术
随着计算机网络的迅速发展和日益普及,因特网上的信息以指数增长。信息时代带来了海量的数字化文本,日益积累的数据使得信息的获取越来越困难。人们的时间和精力是有限的,面对如此巨大的数字资源,无法从大量数据中迅速而准确地找到有用的信息,因而需要自动化的抽取工具,来帮助人们检索海量数据。申请人经过查新,没有找到面向文本的知识单元关联关系挖掘方法的专利,因而检索了三篇与关系挖掘相关的专利,它们分别是:
1.Relation extraction system[International Publication Number:WO2009/017464A1];
2.Method and a system for semantic relation extraction[PublicationNumber:US 2009/0019032 A1];
3.一种词关系挖掘方法和装置[申请公布号:CN 102129427 A]。
在专利1中,发明人提出一种将有监督学习和半监督学习相结合的方法,抽取出文本间的关系,在专利2中,发明人提出一种基于概率统计模型抽取出两个词条间的语义关系,在专利3中,发明人提出一种通过计算候选关系、关系频度以及词条的词频计算互信息,根据互信息对关系进行排序,将符合预设阈值的关系作为词条关系输出。上述三种相关专利发明所述方法都需要对所有可能的关系对进行分类,存在计算量大、计算复杂度高的缺点。
发明内容
本发明的目的是提供一种面向文本的知识单元关联关系挖掘方法,通过挖掘文本间的关系、筛选候选知识单元对和知识单元特征抽取的方法,对文本中的知识单元关联关系进行挖掘,从而可以大大减少计算量,降低计算复杂度。所述知识单元是指具有完备知识表达的最小单元。所述知识单元关联关系是指知识单元间内在的语义关系。
为达到以上目的,本发明是采取如下技术方案予以实现的:
一种面向文本的知识单元关联关系挖掘方法,包括如下步骤:
(1)文本关联挖掘:对文本集合进行聚类,找到具有相似主题的文本对,并利用核心术语分布的不对称性,挖掘文本间的线性关联关系;
(2)生成候选知识单元对:利用知识单元关联关系的局部性,产生候选的知识单元对;
(3)特征选择及知识单元关联关系挖掘:基于知识单元对的术语词频、距离和语义类型特征,使用SVM分类器将候选的知识单元对进行二值分类,挖掘知识单元间的关联关系。
其中,步骤(1)所述挖掘文本间的线性关联关系按照如下过程:
1)依据向量空间模型VSM,将文本转换为对应的术语向量;
2)根据欧式距离的定义,计算任意两个术语向量之间的距离;
3)基于术语向量之间的距离,使用AGNES聚类方法对文本集合进行聚类,在AGNES聚类过程中,以下三种情况生成文本对k=(ti,tj):
a.如果文本ti与文本tj的术语向量距离最小,将文本ti和文本tj合并为一个簇;
b.如果文本ti与文本tj的术语向量距离最小,且ti属于簇S中,将文本tj放入簇S中;
c.如果文本ti与文本tj的术语向量距离最小,且ti属于簇S,tj属于簇S′,将簇S和簇S′合并为一个新的簇;
当集合中只存在一个簇,且所有文本都在此簇中,则聚类过程结束;
4)在文本线性关联关系已知的文本集合T中,文本tm线性关联于文本tn,计算其术语分布特征值F(m,n);
术语分布特征值F(m,n)的定义如下:
在式(1)中,Cm表示文本tm中的核心术语集合,ck表示Cm中的第k个核心术语,tf(ck,tn)表示ck在文本tn中的频率;
设置阈值参数F0的值,使其大于文本集合T中90%的F(i,j)且F0<1;对于文本线性关联未知的文本ti和tj,若F(i,j)∈[F0,1/F0],则文本ti及文本tj判为不关联;否则文本ti及文本tj判为关联。
步骤(2)所述的候选知识单元对符合下述两种情况之一:
a、Ai={(uix,uiy)|uix,uiy∈ti∧x<y∧r(uix,uiy)},其中x,y是知识单元uix和知识单元uiy在文本ti中的序号,r(uix,uiy)表示知识单元uix和知识单元uiy具有相同的术语;
b、Ai′={(uix,ujx)|uix∈ti∧ujx∈tj∧r(uix,ujx)},其中r(uix,ujx)表示知识单元uix和知识单元ujx具有相同的术语,并且文本ti和文本tj线性关联。
所述步骤(3)的具体方法如下:
1)知识单元对的术语词频特征:
知识单元uf和知识单元ub之间的术语词频特征Ffb定义如下:
其中Ff代表知识单元uf的核心术语出现在知识单元ub内容中的次数;同理,Fb代表知识单元ub的核心术语出现在知识单元uf内容中的次数;
2)知识单元对的距离特征:
知识单元对k=(uf,ub)的距离dfb的定义如下:
知识单元uf和知识单元ub之间的距离dfb可以按照以下规则进行计算:
a.如果知识单元uf和知识单元ub属于相同文本,则距离dfb可以表示为:
dfb=|f′-b′| (3)
在式(3)中,f′和b′分别表示知识单元uf和知识单元ub在文本中的序号值;
b.如果知识单元uf属于文本ta,知识单元ub属于文本tb,且ta线性关联于tb,则距离dfb可以表示为:
dfb=b′-f′+na (4)
在式(4)中,f′和b′分别表示知识单元uf和知识单元ub在文本中的序号值,na是文本ta中知识单元的个数;
知识单元uf和知识单元ub之间的距离特征Dfb的定义如下:
dfb表示知识单元uf和知识单元ub之间的距离;β是指数系数,一般定义在0.15到0.3之间;
3)知识单元对间的语义类型特征:
5种最常见的知识单元类型对KPmax和5种最不常见的知识单元类型对KPmin,如下式所示:
对于知识单元uf和知识单元ub,知识单元对间的语义类型特征KPfb定义如下:
本发明的优点是,利用文本中核心术语分布的不对称性,挖掘文本间的线性关联关系,并发现了知识单元对关联关系所具有的局部性,将距离小且具有相同术语的知识单元作为候选知识单元对,从而大大减少候选知识单元个数,在保证精度的前提下,有效地降低了关系挖掘的时间复杂度。
附图说明
图1是对5个知识单元之间的学习依赖关系的说明。
图2是面向文本的知识单元关联关系的挖掘过程。
具体实施方式
以下结合附图对本发明的具体技术方案作进一步的详细描述。
如图2所示,本发明的面向文本的知识单元关联关系的挖掘方法包括3个步骤,其具体流程为:
1、文本关联挖掘:
文本是存储知识单元的一种载体。知识单元是指具有完备知识表达的最小单元。知识单元之间存在关联关系(也称作学习依赖关系),学习一个知识单元之前往往需要先学习某些其它的知识单元。例如,在平面几何中,需要先学习知识单元“三角形的定义”,才能学习知识单元“三角形的内角和定理”,因此知识单元“三角形的内角和定理”和知识单元“三角形的定义”具有关联关系,知识单元“三角形的定义”是知识单元“三角形的内角和定理”的前驱(图1)。
表1是平面几何课程中部分知识单元与学习依赖关系的例子。
从表1中可以看出,知识单元5的前驱是知识单元1、2、3、4,即在学习知识单元“三角形外角定理”之前,需要先学习知识单元“内角的定义”、“三角形的定义”、“外角的定义”和“三角形内角和定理”。
如果文本ti和文本tj内容相关,且文本ti中的知识单元大多为文本tj中知识单元的前驱,则称文本ti线性关联于文本tj。通过对已有标注数据的统计分析,发现在大部分具有线性关联关系的文本之间存在核心术语分布不对称的现象,即若文本ti线性依赖于文本tj,则文本ti中的核心术语出现在文本tj中的次数会远远大于文本tj中的核心术语出现在文本ti中的次数。我们用术语分布特征值F(m,n)【其中参数i、j与权利要求中的m、n不一致?下同】描述这一特征,用于挖掘文本间的线性关联关系。
表1知识单元和学习依赖关系
术语分布特征值F(m,n)的定义如下:
在式(1)中,Cn表示文本tn中的核心术语集合,ck表示Cm中的第k个核心术语,tf(ck,tn)表示ck在tn中出现的次数。
文本关联挖掘按照如下过程:
(1)依据向量空间模型VSM,将文本转换为对应的术语向量;
(2)根据欧式距离的定义,计算任意两个术语向量之间的距离;
(3)基于术语向量之间的距离,使用AGNES聚类方法对文本集合进行聚类,在AGNES聚类过程中,以下三种情况生成文本对k=(ti,tj):
a.如果文本ti与文本tj的术语向量距离最小,将文本ti和文本tj合并为一个簇;
b.如果文本ti与文本tj的术语向量距离最小,且ti属于簇S中,将文本tj放入簇S中;
c.如果文本ti与文本tj的术语向量距离最小,且ti属于簇S,tj属于簇S′,将簇S和簇S′合并为一个新的簇;
当集合中只存在一个簇,且所有文本都在此簇中,则聚类过程结束。
(4)在已经标注的数据中,文本线性关联关系已知,计算出其中所有线性关联文本的术语分布特征值F(m,n)(文本tm线性关联于文本tn);设置阈值参数F0的值,使其大于文本集合T中90%的F(i,j)且F0<1。
在AGNES聚类过程中生成了文本对k=(ti,tj),若其术语分布特征值F(i,j)∈[F0,1/F0],则文本ti及文本tj不存在线性关联关系;否则文本ti及文本tj存在线性关联关系。
2.生成候选知识单元对:
知识单元uf和知识单元ub之间的距离根据以下两种情况分别定义为:
a.如果知识单元uf和知识单元ub属于同一文本,则两个知识单元之间的距离dfb为:
dfb=|f′-b′| (3)
其中,f′和b′分别表示知识单元uf和知识单元ub在文本中的序号值。
b.如果知识单元uf属于文本ta,知识单元ub属于文本tb,且文本ta线性关联于文本tb,则距离dfb定义为:
dfb=b′-f′+na (4)
在式(4)中,f′和b′分别表示知识单元uf和知识单元ub在文本中的序号值,na是文本ta中知识单元的个数。
根据上述对知识单元间距离的定义,对标注数据中的具有学习依赖关系的知识单元对进行统计分析,得到学习依赖关系的知识单元的距离分布,对该数据进行曲线拟合,得到以下结果:
sd∝e-βd (9)
其中sd表示存在学习依赖关系且距离为d的知识单元的比例,β是指数分布系数且β>0,若β的值越小,则具有学习依赖关系的知识单元的分布就越紧密。
知识单元间距离的局部性说明若两个知识单元之间存在学习依赖关系,则这两个知识单元间的距离很有可能较小,因而在判断知识单元间是否存在关联关系时,就没有必要将某个知识单元与所有其他知识单元进行匹配,而只需要与其距离小于某一阈值的知识单元进行匹配(将一个文本中存在的知识单元个数的最大值作为该阈值),作为候选的知识单元对,从而大大地减少了计算量,由于将计算的复杂度由原来的O(n2)降低为O(n),从而提高了效率。
基于以上分析,我们将符合下述两种情况之一的知识单元对定义为候选知识单元对:
(1)Ai={(uix,uiy)|uix,uiy∈ti∧x<y∧r(uix,uiy)},其中x,y是知识单元uix和知识单元uiy在文本ti中的序号,r(uix,uiy)表示知识单元uix和知识单元uiy具有相同的术语;
(2)Ai′={(uix,ujx)|uix∈ti∧ujx∈tj∧r(uix,ujx)},其中r(uix,ujx)表示知识单元uix和知识单元ujx具有相同的术语,并且文本ti和文本tj线性关联。
3.特征选择及知识单元关联挖掘:
选定候选知识单元对之后,抽取出知识单元的特征,使用支持向量机对其进行二值分类,判断两个知识单元之间是否存在关联关系。通过对标注过的数据的分析,我们提取了三种对判断关联关系影响最大的特征,其分别为知识单元对的术语词频特征、知识单元对的距离特征以及知识单元对间的语义类型特征。
(1)知识单元对的术语词频特征:
知识单元uf和知识单元ub之间的术语词频特征Ffb定义如下:
其中Ff代表知识单元uf的核心术语出现在知识单元ub内容中的次数;类似地,Fb代表知识单元ub的核心术语出现在知识单元uf内容中的次数。
(2)知识单元对的距离特征:
知识单元uf和知识单元ub之间的距离特征Dfb的定义如下:
dfb表示知识单元uf和知识单元ub之间的距离,Dfb说明uf和ub之间存在关联关系的可能性随着距离dfb的增加而指数减少。
(3)知识单元对间的语义类型特征:
知识单元具有8种语义类型:定义类、属性类、示例类、实例类、方法类、分类类、区别类和演化类。通过统计分析已标注的数据,挖掘出5种最常见的知识单元类型对KPmax和5种最不常见的知识单元类型对KPmin,如下所示:
对于知识单元uf和知识单元ub,知识单元对间的语义类型特征KPfb定义如下:
基于上述三种特征,对候选知识单元对进行二值分类。通过实验比较,发现使用支持向量机分类器可以得到较为理想的分类结果,从而实现了面向文本的知识单元关联关系挖掘功能。
Claims (2)
1.一种面向文本的知识单元关联关系挖掘方法,其特征在于,按照如下步骤:
(1)文本关联挖掘:对文本集合进行聚类,找到具有相似主题的文本对,并利用核心术语分布的不对称性,挖掘文本间的线性关联关系;
(2)生成候选知识单元对:利用知识单元关联关系的局部性,产生候选的知识单元对;
(3)特征选择及知识单元关联关系挖掘:基于知识单元对的术语词频、距离和语义类型特征,使用SVM分类器将候选的知识单元对进行二值分类,挖掘知识单元间的关联关系;
其中,步骤(1)所述挖掘文本间的线性关联关系按照如下过程:
1)依据向量空间模型VSM,将文本转换为对应的术语向量;
2)根据欧式距离的定义,计算任意两个术语向量之间的距离;
3)基于术语向量之间的距离,使用AGNES聚类方法对文本集合进行聚类,在AGNES聚类过程中,以下三种情况生成文本对k=(ti,tj):
a.如果文本ti与文本tj的术语向量距离最小,将文本ti和文本tj合并为一个簇;
b.如果文本ti与文本tj的术语向量距离最小,且ti属于簇S中,将文本tj放入簇S中;
c.如果文本ti与文本tj的术语向量距离最小,且ti属于簇S,tj属于簇S',将簇S和簇S'合并为一个新的簇;
当集合中只存在一个簇,且所有文本都在此簇中,则聚类过程结束;
4)在文本线性关联关系已知的文本集合T中,文本tm线性关联于文本tn,计算其术语分布特征值F(m,n);
术语分布特征值F(m,n)的定义如下:
在式(1)中,Cm表示文本tm中的核心术语集合,ck表示Cm中的第k个核心术语,tf(ck,tn)表示ck在文本tn中的频率;
设置阈值参数F0的值,使其大于文本集合T中90%的F(i,j)且F0<1;对于文本线性关联未知的文本ti和tj,若F(i,j)∈[F0,1/F0],则文本ti及文本tj判为不关联;否则文本ti及文本tj判为关联。
2.根据权利要求1所述的一种面向文本的知识单元关联关系挖掘方法,其特征在于,所述步骤(3)的具体方法如下:
1)知识单元对的术语词频特征:
知识单元uf和知识单元ub之间的术语词频特征Ffb定义如下:
其中Ff代表知识单元uf的核心术语出现在知识单元ub内容中的次数;同理,Fb代表知识单元ub的核心术语出现在知识单元uf内容中的次数;
2)知识单元对的距离特征:
知识单元对k=(uf,ub)的距离dfb的定义如下:
知识单元uf和知识单元ub之间的距离dfb按照以下规则进行计算:
a.如果知识单元uf和知识单元ub属于相同文本,则距离dfb表示为:
dfb=|f'-b'| (3)
在式(3)中,f'和b'分别表示知识单元uf和知识单元ub在文本中的序号值;
b.如果知识单元uf属于文本ta,知识单元ub属于文本tb,且ta线性关联于tb,则距离dfb表示为:
dfb=b'-f'+na (4)
在式(4)中,f'和b'分别表示知识单元uf和知识单元ub在文本中的序号值,na是文本ta中知识单元的个数;
知识单元uf和知识单元ub之间的距离特征Dfb的定义如下:
Dfb=e-βdfb (5)
dfb表示知识单元uf和知识单元ub之间的距离;β是指数系数,定义在0.15到0.3之间;
3)知识单元对间的语义类型特征:
5种最常见的知识单元类型对KPmax和5种最不常见的知识单元类型对KPmin,如下式所示:
对于知识单元uf和知识单元ub,知识单元对间的语义类型特征KPfb定义如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110312882 CN102436480B (zh) | 2011-10-15 | 2011-10-15 | 一种面向文本的知识单元关联关系挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110312882 CN102436480B (zh) | 2011-10-15 | 2011-10-15 | 一种面向文本的知识单元关联关系挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102436480A CN102436480A (zh) | 2012-05-02 |
CN102436480B true CN102436480B (zh) | 2013-11-06 |
Family
ID=45984543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110312882 Expired - Fee Related CN102436480B (zh) | 2011-10-15 | 2011-10-15 | 一种面向文本的知识单元关联关系挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102436480B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902809B (zh) * | 2012-10-19 | 2016-02-24 | 东南大学 | 一种新型语义关联挖掘方法 |
CN103034691B (zh) * | 2012-11-30 | 2016-01-06 | 南京航空航天大学 | 一种基于支持向量机的专家系统知识获取方法 |
CN103226577A (zh) * | 2013-04-01 | 2013-07-31 | 儒豹(苏州)科技有限责任公司 | 一种新闻聚类方法 |
CN104103026B (zh) * | 2013-04-11 | 2017-08-29 | 中国中医科学院中国医史文献研究所 | 基于知识元的中医概念关注度和相关度的计算系统及方法 |
CN105183780B (zh) * | 2015-08-12 | 2018-09-18 | 中国工程物理研究院计算机应用研究所 | 基于改进agnes算法的协议分类方法 |
CN106354715B (zh) * | 2016-09-28 | 2019-04-16 | 医渡云(北京)技术有限公司 | 医疗词汇处理方法及装置 |
CN106649259B (zh) * | 2016-09-30 | 2019-05-24 | 西安交通大学 | 一种从课件文本自动抽取知识单元间学习依赖关系的方法 |
CN109657052B (zh) * | 2018-12-12 | 2023-01-03 | 中国科学院文献情报中心 | 一种论文摘要蕴含细粒度知识元的抽取方法及装置 |
CN112101486B (zh) * | 2020-11-16 | 2021-01-29 | 成都天锐星通科技有限公司 | 芯片筛选方法、装置、电子设备和可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1180377C (zh) * | 2002-08-29 | 2004-12-15 | 北京北大方正技术研究院有限公司 | 一种对半结构化文档集进行文本挖掘的方法 |
CN102129427B (zh) * | 2010-01-13 | 2013-06-05 | 腾讯科技(深圳)有限公司 | 一种词关系挖掘方法和装置 |
CN102136006A (zh) * | 2011-03-30 | 2011-07-27 | 上海大学 | 基于人类概念学习的文本理解复杂度的度量方法 |
-
2011
- 2011-10-15 CN CN 201110312882 patent/CN102436480B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN102436480A (zh) | 2012-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102436480B (zh) | 一种面向文本的知识单元关联关系挖掘方法 | |
CN106528642B (zh) | 一种基于tf-idf特征提取的短文本分类方法 | |
Tian et al. | A probabilistic model for learning multi-prototype word embeddings | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN103617157A (zh) | 基于语义的文本相似度计算方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN104239554A (zh) | 跨领域跨类别的新闻评论情绪预测方法 | |
CN105183715B (zh) | 一种基于词分布和文档特征的垃圾评论自动分类方法 | |
CN106202032A (zh) | 一种面向微博短文本的情感分析方法及其系统 | |
CN102722709A (zh) | 一种垃圾图片识别方法和装置 | |
CN104794500A (zh) | 一种tri-training半监督学习方法及装置 | |
CN104281653A (zh) | 一种针对千万级规模微博文本的观点挖掘方法 | |
CN106547875A (zh) | 一种基于情感分析和标签的微博在线突发事件检测方法 | |
CN104504024A (zh) | 基于微博内容的关键词挖掘方法及系统 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN104809105A (zh) | 基于最大熵的事件论元及论元角色的识别方法及系统 | |
CN110226179A (zh) | 通过神经网络整合情境信息来自动检测支付交易流中的欺诈 | |
Kathuria et al. | Real time sentiment analysis on twitter data using deep learning (Keras) | |
CN104008177A (zh) | 面向图像语义标注的规则库结构优化与生成方法及系统 | |
CN103617245A (zh) | 一种双语情感分类方法及装置 | |
CN110795533A (zh) | 面向长文本的主题检测方法 | |
CN104834718A (zh) | 基于最大熵模型的事件论元识别方法及系统 | |
CN114912425A (zh) | 演示文稿生成方法及装置 | |
CN104572613A (zh) | 数据处理装置、数据处理方法和程序 | |
CN103927176A (zh) | 一种基于层次主题模型的程序特征树的生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131106 Termination date: 20171015 |
|
CF01 | Termination of patent right due to non-payment of annual fee |