CN102750316A

CN102750316A - 基于语义共现模型的概念关系标签抽取方法

Info

Publication number: CN102750316A
Application number: CN2012101257729A
Authority: CN
Inventors: 张辉; 赵元浩; 胡红萍; 马永星
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2012-04-25
Filing date: 2012-04-25
Publication date: 2012-10-24
Anticipated expiration: 2032-04-25
Also published as: CN102750316B

Abstract

本发明公开了一种基于语义共现模型的概念关系标签抽取方法，包括在基于语义共现模型的关系标签抽取过程中，通过带偏移量的倒排搜索获取概念关系对共现上下文语段；结合浅层句法分析和加权词窗过滤得到候选关系标签；经过语义相关性聚类后选取权重最大的类簇标签作为概念关系标签。采用本发明所提供的基于语义共现模型的概念关系标签抽取方法，提高了概念关系抽取的准确率和召回率，并且实现了在海量概念间稀疏语义关系概念关系标签的自动化抽取，提高了概念标签抽取质量。

Description

基于语义共现模型的概念关系标签抽取方法

技术领域

本发明涉及一种概念关系标签抽取方法，尤其涉及一种基于语义共现模型的概念关系标签抽取方法，属于语义网络技术领域。

背景技术

在当前信息社会中，互联网无疑是数据的最大载体，以超链接关联的超文本信息日益增长，构成了信息网络世界，已经彻底改变了现代人类的工作和生活的方式。随着计算技术、信息技术和互联网的发展，人们对文本信息处理有了更高的要求，从自然语言描述的文本中挖掘和发现概念实体(比如，机构，人物，时间，地点等)，以及概念之间的关系(比如“人物”在“机构”中任职，“人物”毕业于“地点”等)，就是相关研究的重要内容之一。信息提取主要是从文本中获取所需要的信息，目前已经受到越来越多研究者的关注。

在自然语言世界中，概念是对客观实体的抽象描述，是客观实体属性特征的集合。由于客观实体的相互作用，概念之间亦产生千丝万缕的关联，我们称之为概念关系。概念及概念关系共同构成了自然语言世界的基础，如果说自然语言世界是一个语义网络，那么概念就是语义的载体，而概念关系就是语义载体间的纽带。通过研究概念关系可以反射得出客观世界中实体关联的内容与性质，进而为人类的工作和生活服务。

为适应语义推理和智能化服务的需求，语义Web为代表的下一代信息互联网络试图在任何微小数据间构建连接，而概念关系正是构建语义网络的基础。因此，概念关系抽取技术是人类信息第二次变革的基础。

概念关系抽取在自然语言处理、人工智能、数据挖掘等领域都有着广泛应用。本体知识库WordNet、HowNet等均包含丰富的概念关系，已广泛应用于信息检索、自动问答和机器翻译技术的研究与系统实现。概念关系标签的抽取依赖于已经发现的概念关系对，在具有语义关系的概念对共现上下文中一定存在着词语模式可以作为此概念关系的标签。

开放百科包含的概念数目超过300万，而语义关系相对稀疏，如何保证概念关系发现的准确性和快速有效性是现有技术中存在的难点。但由于中文句法结构和语用习惯复杂多变，概念关系标签的自动化抽取仍然是目前尚待解决的问题之一。

发明内容

针对现有技术所存在的不足，本发明所要解决的技术问题在于提供一种基于语义共现模型的概念关系标签抽取方法。该概念关系标签抽取方法实现了概念关系自动化，提高了概念关系标签抽取的有效性。

为实现上述的发明目的，本发明采用下述的技术方案：

一种基于语义共现模型的概念关系标签抽取方法，包括：

通过带偏移量的倒排搜索获取共现语段；

结合浅层句法分析和加权词窗得到候选关系标签；

经过语义相关性聚类后选取概念关系标签。

更进一步地，所述通过带偏移量的倒排搜索获取共现语段的步骤包括：

使用开源搜索引擎对元数据描述信息及百科全文进行倒排索引预处理，对概念共现语段的快速定位；

设定概念之间的偏移量，获取有效的局部语段。

更进一步地，所述开源搜索引擎是全文检索引擎。

更进一步地，所述结合浅层句法分析和加权词窗得到候选关系标签的步骤包括：

对语料段落进行分词和词性标注，过滤除名词、动词、标点之外的其他词语；

设置主干序列；

以词语之间距离设定词窗，得到候选关系标签。

更进一步地，所述词语之间距离通过下式计算：

dis(t₁，t₂)＝num(tv_between(t₁，t₂))+num(tn_between(t₁，t₂))+num(pi_between(t₁，t₂))

其中，名词记为tn，动词记为tv，标点符号记为pi，dis(t₁，t₂)表示词语t1和词语t 2之间的距离；num函数表示词语个数，tn_between(t₁，t₂)表示t₁，t₂之间的名词，tv_between(t₁，t₂)表示t₁，t₂之间的动词，pi_between(t₁，t₂)表示t₁，t₂之间的标点符号。

更进一步地，动词到名词对的距离通过下式计算：

\{\begin{matrix} 2 [dis (tv, {tn}_{1}) + dis (tv, {tn}_{2})] - dis ({tn}_{1}, {tn}_{2}) & if (dis (tv, {tn}_{1}) + dis (tv, {tn}_{2}) > dis ({tn}_{1}, {tn}_{2})) \\ dis ({tn}_{1}, {tn}_{2}) & if (dis (tv, {tn}_{1}) + dis (tv, {tn}_{2}) = dis ({tn}_{1}, {tn}_{2})) \end{matrix}

其中，(tn₁，tn₂)表示名词对，dis(tv，tn₁，tn₂)表示tv到名词对(tn₁，tn₂)的距离。

更进一步地，所述经过语义相关性聚类后选取概念关系标签的步骤包括：

使用C-均值聚类方法对候选三元组进行聚类；

将表征相同概念关系的三元组聚成元组簇；

然后对元组簇进行频率阈值过滤，选取概念关系标签。

更进一步地，所述对元组簇进行频率阈值过滤的步骤包括：

选取频率最大的元组作为代表，使用簇内各元组的频率之和作为代表的频率，然后对元组簇进行频率阈值过滤。

更进一步地，所述语义相关性通过下式计算：

sim(G₁₂，G₃₄)＝sim[(tn₁，tn₂)，(tn₃，tn₄)]·sim(tv₁₂，tv₃₄)

其中，sim(t₁，t₂)表示词语t₁，t₂的语义相似度，G(tn₁，tn₂，tv₁₂)表示候选概念关系三元组，sim[(tn₁，tn₂)，(tn₃，tn₄)]表示概念对之间的语义相似度，G₁₂表示候选三元组G(tn₁，tn₂，tv₁₂)，G₃₄表示三元组G(tn₃，tn₄，tv₃₄)，sim(G₁₂，G₃₄)表示候选三元组G₁₂和三元组G₃₄的语义相似度。

更进一步地，所述语义相似度通过下式计算：

sim[(tn₁，tn₂)，(tn₃，tn₄)]＝Max[sim(tn₁，tn₃)·sim(tn₂，tn₄)，sim(tn₁，tn₄)·sim(tn₂，tn₃)]

其中，sim(t₁，t₃)表示词语t₁，t₃的语义相似度，sim(t₂，t₄)表示词语t₂，t₄的语义相似度，sim(t₁，t₄)表示词语t₁，t₄的语义相似度，sim(t₂，t₃)表示词语t₂，t₃的语义相似度。

本发明所提供的基于语义共现模型的概念关系标签抽取方法通过带偏移量的倒排搜索获取共现语段，结合浅层句法分析和加权词窗过滤得到候选关系标签，最后经过语义相关性聚类后选取权重最大的类簇标签作为概念关系标签，有效提高了概念关系抽取的准确率和召回率，并实现了在海量概念间稀疏语义关系概念关系标签的自动化抽取。

附图说明

下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1是三元组语义关系聚类示意图；

图2是基于规则的关系标签质量人工抽样判断结果示意图；

图3是概念关系准确率对比示意图；

图4是概念关系三元组召回率对比示意图；

图5是概念关系三元组F值对比示意图。

具体实施方式

概念共现是指在文档段落中，经常共同出现的概念之间以较大概率存在某种关系。在自然语言的使用习惯中，主动宾结构常常用来表述概念之间的关系，例如：“大白兔喜欢吃胡萝卜”，“老师培育学生”等等。因此，能够表述共现概念之间关系的特征动词常常也会同关联概念共现。通过对概念共现的语段进行词性分析，可以挖掘伴随概念共现的动词性特征，形成概念关系的共现三元组，由此得到的动词性特征很大程度上可以表示共现概念之间的关系。

类属关系是概念关系中非常重要的一种。它构成了概念的层次类别，为概念的展示提供了很大便利。类属关系可以使用统一的关系标签描述，例如“属于”、“是一种”等等。由于类属关系类型同一，便于描述，是概念关系标签的重要来源之一。

在部分在线百科全书如百度百科的部分词条页面，具有“属性”信息。例如，“李开复”词条中的“属性”信息如表1所示：

表1″李开复″词条中的属值关系

在此对于词条的属性信息做出如下的定义：

定义1：一个存在“属性”的词条k，其“属性”信息Attributes_k由一系列的“属性项”AttrEntry_k，j组成，即Attributes_k＝{AttrEntry_k，l，AttrEntry_k，2...，AttrEntry_k，m......}。

其中，每个属性项AttrEntry_k，j是一个二元组，由“属性名”AttrKey_k，j和“属性值”AttrValue_k，j两部分构成，即AttrEntry_k，j＝<AttrKey_k，j，AttrValue_k，j>。例如“出生地：中国台湾”即为一个属性项。其中，“出生地”为属性名，“中国台湾”为属性值。

经过分析可以发现，属性信息中的各个属性项包含了丰富的较高质量的关系元组。一般而言，属性值AttrValue_k，j的文本中包含的实体词x与实体词k存在关系，该关系的描述词即为属性名AttrKey_k，j。例如“李开复”词条中有属性项“毕业院校：美国卡耐基梅隆大学”，属性值“美国卡耐基梅隆大学”中包含了实体词“卡耐基梅隆大学”，可以得到关系<李开复，卡耐基梅隆大学，毕业院校>。

因此可以对含属性的词条k的每个属性项AttrEntry_k，j，用“实体识别器”对属性值AttrValue_k，j进行分词，识别出其中的所有实体词。对于得到的每个实体词x，将x与k形成一个关系对，关系描述词取为属性名AttrKey_k，j，即得到<k，x，AttrKey_k，j>。

但是这样可能存在误差，例如：属性值“美国卡耐基梅隆大学”，识别后得到实体词“美国”，“卡耐基梅隆大学”，形成了两个关系元组<李开复，美国，毕业院校>、<李开复，卡耐基梅隆大学，毕业院校>，显然<李开复，美国，毕业院校>这个并不适合保留。而恰好<李开复，美国>不会是子任务2中发现的关系对。因此继续规定：从属性信息中得到的关系元组(e_i，e_j，r_i，j)，仅当<e_i，e_j>是子任务2中得到的关系对时，(e_i，e_j，r_i，j)才被保留。

定义2：概念关系三元组，概念关系三元组是指由概念对及概念之间的关系构成的三元组合。

符号c表示概念，符号r表示概念关系，概念对可表示为C(c₁，c₂)，概念关系三元组可表示为G(c₁，c₂，r)。在自然语言中，概念经常以概念性名词的形式出现，关系经常以关系性动词的形式出现。例如：“老师培育学生”这一常用自然语言表述形式可使用三元组表示为G(老师，学生，培育)。“共现”即两个词语在一定的范围内同时出现，对于共现情况进行统计分析，是自然语言处理中一项常用的技术。

定义3：在一个句子中，如果句子中所含的某两个实体词A和B之间的词距小于或等于词窗大小值M，则认为这两个实体词在该句子中共现，记为A和B的一次共现。A和B称为为一对共现词，或者共现词对。如果共现词存在概念关系，则关系标签一定在上下文语段中共现，称为共现标签。

此定义有两个特殊的地方：一，共现的范围限制在一个完整的句子；二，词窗大小以词的个数为单位。将共现范围限制在一个完整的句子，可以降低分析复杂度，具体实现时，可采用指代分析将句子中的代词替换为实体概念词。词窗大小以词的个数为单位更能体现词语的语义原子性，符合中文语用习惯。

如果一个句子阐述了词A和词B间的一个关系，一般情况下，按照语言规律这两个词不会离得特别远。因此很有可能在设置的词窗范围内共现，这样存在关系的A和B就会是一对共现词。反过来，如果去寻找出句子中的所有共现词对，结果中会包含两部分词对：存在关系且共现了的词对、不存在关系却共现了的词对。前一部分是本发明想要的结果，后一部分是应该过滤掉的结果。如果能够找到一个过滤方法(例如评分后阈值过滤)来过滤掉后一部分结果，就能够达到利用共现分析进行关系对发现的目的。

百度百科语料属于大规模语料，大规模语料具有“冗余性(redundancy)”的特点，即同一个事实、关系可能被重复的表达，多次出现。比如“怀进鹏教授是北航的校长”这一事实，可能会在多篇文本中多个位置多次的出现，那么“怀进鹏”和“北航”就会共现多次。可以对“存在关系且共现的词对”和“不存在关系却共现的词对”这两种词对的某些统计指标(如共现次数等)的特点进行对比分析，进而利用这些指标设计出一个公式来为每个共现词对计算一个分数。利用这个分数来区分这两部分共现词对，就可以实现第一点中提到的过滤效果。

百度、谷歌等搜索引擎收录了几十亿网页，而且检索速度快，结果排序较为精准，已经成为互联网用户不可或缺的知识搜索工具。百度开放了检索结果的页面抓取权限，谷歌有专门的开放搜索API，都可以方便用户获取任意检索关键词的检索结果。使用“概念A+概念B”形式的关键字执行搜索，可以得到命中结果数、排名前1000位的网页命中部分的摘要及网页链接等有效信息。同时，通过搜索引擎自动生成的摘要可以方便的获取同时包含两个概念的局部语义段落。因此，搜索引擎是获取概念共现语料的有效途径。

数量庞大的元数据描述信息以及质量较高的百科全文也都是抽取概念关系的理想语料。使用开源搜索引擎Lucene(用于全文检索和搜寻的开放源码程式库)对元数据描述信息及百科全文进行倒排索引预处理，同样可以实现对概念共现语段的快速定位，并且可以方便地设定概念之间的偏移量，获取更加有效的局部语段。

随着自然语言处理技术的不断发展，词性标注技术已经比较成熟。在共现概念的局部语料中标注动词性特征，并通过词语特征的间隔距离设定窗口，可以发现潜在的概念关系三元组。

首先对语料段落进行分词和词性标注，过滤除名词、动词、标点之外的其他词语。由于形容词、副词、冠词等在语言段落中只起修饰作用，语义主体由动词和名词表证，所以过滤掉非名词动词的词语。而标点符号对描述词语间隔距离有比较特殊的作用，故而保留。

定义4：语义主干序列，语义主干序列是指由能够表征语句语义的名词、动词和标点分隔符构成的词语序列。

名词(名词性短语)记为tn，动词(动词性短语)记为tv，标点符号记为pi。语言段落可最终表征为D(...tn...tv...pi...)语义主干序列。词语之间的距离使用相隔词语个数(包括标点符号)表征，计算公式如式(1)所示：

dis(t₁，t₂)＝num(tv_between(t₁，t₂))+num(tn_between(t₁，t₂))+num(pi_between(t₁，t₂))(1)

其中num函数表示词语个数，tn_between(t₁，t₂)表示t₁，t₂之间的名词，tv_between(t₁，t₂)表示t₁，t₂之间的动词，pi_between(t₁，t₂)表示t₁，t₂之间的标点符号。

动词tv到名词对(tn₁，tn₂)的距离计算考虑动词tv相对(tn₁，tn₂)的分布位置，根据中文的使用习惯和主动宾的主干结构形式，动词出现在两名词之间比出现在两名词同侧更有可能表征名词概念的关系，即(tn₁，...，tv，...，tn₂)的分布结构比(tn₁，...，tn₂，...，tv)更有可能组成概念关系三元组。动词tv到名词对(tn₁，tn₂)的距离dis(tv，tn₁，tn₂)计算公式如式(2)所示：

\{\begin{matrix} 2 [dis (tv, {tn}_{1}) + dis (tv, {tn}_{2})] - dis ({tn}_{1}, {tn}_{2}) & if (dis (tv, {tn}_{1}) + dis (tv, {tn}_{2}) > dis ({tn}_{1}, {tn}_{2})) \\ dis ({tn}_{1}, {tn}_{2}) & if (dis (tv, {tn}_{1}) + dis (tv, {tn}_{2}) = dis ({tn}_{1}, {tn}_{2})) \end{matrix} - - - (2)

词窗是指通过以对象词语为中心设定左右距离窗口而形成的过滤器。在语言段落的语义序列中以待研究概念为中心，选择合适的窗口，将出现在窗口内的概念名词作为候选的关联概念。以待研究的概念对为中心，选择合适的窗口，将出现在窗口范围内的动词作为候选概念关系。至此，就可以得到候选的概念关系三元组。

窗口的选择依赖于自然语言的表述习惯，中科院的鲁松、白硕等人通过实验将中文特征词信息范围设定在左8个、右9个词。本发明所处理的词语序列经过了词性过滤，理论上窗口值小于左8右9，通过对标注语料实验可以得到合适的窗口值。

通过庞大的科技领域元数据库以及百科知识库和搜索引擎，可以获取丰富的概念关系语料。使用基于词性分析和词窗过滤的抽取方法，可以抽取数量可观的概念关系，构成候选概念关系三元组集合。然而，准确率较低是关系抽取方法普遍存在的缺点，如何提高关系抽取的准确率是相关研究的热点。

依据常识和经验，能够正确表示概念关系的候选三元组会在三元组集合中以较高的频率出现(后续的实验证明的确如此)。因此，使用频率阈值过滤的方法可以一定程度上排除错误的候选三元组。

由于相同的概念常常具有不同的表示形式，例如，“狗”在很多语料中以“犬”的形式出现，“北京”的别称有“首都”、“京城”等等。同样，关系动词也普遍具有同义词，如“吃”的同义词有“食用”、“充饥”，“抚养”的同义词有“养育”、“抚育”等等。因此，简单的统计三元组频率会出现较大的误差。

《知网》定义了1600余个义元(语义的原子单位)用于表征词语的语义，通过词语的义元表示和义元关系可以计算词语之间的语义相似度，效果得到相关研究和应用领域的认可。使用《知网》可以计算多数概念名词之间、关系动词之间的语义相似度。

使用sim(t₁，t₂)表示词语t₁，t₂的语义相似度，使用G(tn₁，tn₂，tv₁₂)表示候选概念关系三元组，使用sim[(tn₁，tn₂)，(tn₃，tn₄)]表示概念对之间的语义相似度。概念对的语义相似度可通过式(3)计算得到：

sim[(tn₁，tn₂)，(tn₃，tn₄)]＝Max[sim(tn₁，tn₃)·sim(tn₂，tn₄)，sim(tn₁，tn₄)·sim(tn₂，tn₃)](3)

即计算两种概念组合的相似度乘积，选取较大值作为概念对的语义相似度。使用G₁₂表示候选三元组G(tn₁，tn₂，tv₁₂)，使用G₃₄表示G(tn₃，tn₄，tv₃₄)，进而候选三元组的语义相似度表示为sim(G₁₂，G₃₄)。考虑概念对语义相似度和关系动词相似度的综合影响，候选三元组的语义相似度计算式如式(4)所示：

sim(G₁₂，G₃₄)＝sim[(tn₁，tn₂)，(tn₃，tn₄)]·sim(tv₁₂，tv₃₄) (4)

结合以上候选三元组语义相似度计算方法，使用C-均值聚类方法对候选三元组进行聚类，将表征相同概念关系的三元组聚成元组簇，选取频率最大的元组作为代表，用簇内各元组的频率之和作为代表的频率，然后对元组簇进行频率阈值过滤，淘汰错误的候选元组。如图1所示，白色方块和白色圆圈表示的候选元组均可聚成类簇，被视为正确的概念关系三元组，而黑色的矩形候选元组零散分布，被视为错误元组。

在此基础上，进一步对本发明所提供的基于语义共现模型的概念关系标签抽取方法进行实验验证，通过实验确定语义簇中强连通分量大小阈值、概念对窗口阈值和概念关系窗口阈值，统计基于概念关系三元组模型的关系抽取准确率和召回率，并寻找各项阈值与关系抽取准确率和召回率之间的关系，据此对各项阈值进行修正。

由于准确率和召回率在理论上互斥，因此本实验使用能够平衡准确率、召回率的评价标准F值来评价抽取效果，评价标准F通过式(5)计算得到。

F = \frac{2 \times recall \times precision}{recall + precesion} - - - (5)

其中，recall表示召回率，precision表示准确率。

通过实验验证了基于规则的概念关系标签抽取方法所得到的类属关系和属值关系的关系标签。实验发现：在开放关系发现得到的关系对中，有406,135个关系对通过百科属性信息找到了关系标签，有10,034个关系对通过类属关系找到了关系标签。

为了分析抽取结果的准确性，在获得的含关系描述词的关系对中随机抽样了5个样本、每个样本的容量为50，对其进行人工判断(描述词正确或不正确)。人工判断结果如图2所示。依据图2所示的5个样本的平均数据，可计算得本方法的平均准确率约86％。通过观察发现，“出生地”、“毕业院校”、“所属地区”等一些属性名中得到的描述词质量较高，因为这些属性名的属性值比较简单唯一(例如，“出生地”的属性值可能是“北京”、“湖北”等，属性值的结构简单)；而“代表作品”等一些属性名中，属性值比较复杂(例如可能是一个书名，而书名可能是一个句子，结构复杂)，出错的可能性就大。

设定概念关系窗口，抽取得到候选概念关系三元组。在进行聚类计算后，设定最小聚类簇频率，得到概念关系三元组。进一步计算概念关系抽取的准确率、召回率和F值，在这个过程中反复调整窗口和最小聚类簇频率阈值，观察F值的变化，最终确定F值最大时的各项阈值作为训练成果，应用到本体自动化构建中的概念关系抽取环节。

鉴于预处理环节对概念关系共现语段进行了去重，加之选取的语料质量较好，实验选取聚类簇频率阈值时不宜太大。由于关系动词到概念对的距离大于等于到两个概念之间的距离之和，因此概念关系窗口值至少为2。

选取七组聚类簇三元组频率阈值1、2、3、4、5、7、10，2到10九组概念关系窗口值进行交叉实验，抽取得到概念关系，计算准确率、召回率和F值，进行对比分析。

如图3所示，图3中每条折线代表一定的聚类簇三元组频率阈值条件下，概念关系三元组准确率随概念关系窗口值的改变而产生的变化。容易看出，频率阈值为1时，当窗口值发生改变，准确率起伏较大，但在窗口值大于3时，准确率呈整体下降趋势。其他频率阈值下，准确率基本随着窗口值的增大而减小，当窗口值超过7时，减小幅度明显。

如图4所示，图中每条折线代表一定的聚类簇三元组频率阈值条件下，概念关系三元组召回率随概念关系窗口值的改变而产生的变化。容易看出，在一定的频率阈值下，随着窗口值的增大，概念关系召回率基本呈上升趋势，但在窗口值超过7后，大部分频率阈值下的折线上升不显著，甚至出现了下降。当频率阈值大于1时，在一定的窗口阈值下，召回率基本随频率阈值的增加而降低。

图5示出了概念关系三元组F值对比示意图，如图5所示，每条折线代表一定的聚类簇三元组频率阈值条件下，概念关系三元组F值随概念关系窗口值的改变而产生的变化。容易看出F值的变化趋势基本上相似，在频率阈值一定的条件下，先升后降，极值点出现在3到5的范围内；而在一定的窗口阈值下，频率阈值为2和3时F值最大。从F值的绝对值大小看，频率阈值为2，窗口阈值为5时最大，但是比频率阈值为3窗口阈值为4的极值点优势并不明显。在做概念关系三元组抽取时，选用(2，5)或者(3，4)的阈值组合应该说都是可行的。

通过大量的数据对比发现概念关系标签抽取的质量与参数阈值之间的关系。求解到的语料阈值最优解可以作为科技领域本体抽取时的重要参考。

实验中得到的最佳概念关系窗口为5，这和本发明计算关系动词与概念对之间距离的方法有关。计算关系动词与概念对之间的词长距离总是大于等于概念对之间的距离，因此，概念关系窗口大于概念对窗口符合常理逻辑。实验中得到的最佳聚类簇三元组频率为3，这同本发明在预处理阶段过滤了重复语段有关，相同的语义主干序列仅计算一次频率。

综上，实验结果比较成功，虽然概念关系抽取的F值仅约为0.6，但已经实现了一半以上概念关系的抽取。

上面对本发明所提供的基于语义共现模型的概念关系标签抽取方法进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种基于语义共现模型的概念关系标签抽取方法，其特征在于包括如下步骤：

(1)通过带偏移量的倒排搜索获取共现语段：使用开源搜索引擎对元数据描述信息及百科全文进行倒排索引预处理，实现对概念共现语段的快速定位；

(2)结合浅层句法分析和加权词窗得到候选关系标签；

(3)经过语义相关性聚类后选取概念关系标签。

2.如权利要求1所述的概念关系标签抽取方法，其特征在于：

所述步骤(1)中，所述开源搜索引擎是全文检索引擎。

3.如权利要求1所述的概念关系标签抽取方法，其特征在于：

所述步骤(2)中，结合浅层句法分析和加权词窗得到候选关系标签的步骤包括：

设置主干序列；

以词语之间距离设定词窗，得到候选关系标签。

4.如权利要求3所述的概念关系标签抽取方法，其特征在于：

所述词语之间距离通过下式计算：

其中，名词记为tn，动词记为tv，标点符号记为pi，dis(t₁，t₂)表示词语t1和词语t2之间的距离；num函数表示词语个数，tn_between(t₁，t₂)表示t₁，t₂之间的名词，tv_between(t₁，t₂)表示t₁，t₂之间的动词，pi_between(t₁，t₂)表示t₁，t₂之间的标点符号。

5.如权利要求3或4所述的概念关系标签抽取方法，其特征在于：

动词到名词对的距离通过下式计算：

\{\begin{matrix} 2 [dis (tv, {tn}_{1}) + dis (tv, {tn}_{2})] - dis ({tn}_{1}, {tn}_{2}) & if (dis (tv, {tn}_{1}) + dis (tv, {tn}_{2}) > dis ({tn}_{1}, {tn}_{2})) \\ dis ({tn}_{1}, {tn}_{2}) & if (dis (tv, {tn}_{1}) + dis (tv, {tn}_{2}) = dis ({tn}_{1}, {tn}_{2})) \end{matrix}

6.如权利要求1所述的概念关系标签抽取方法，其特征在于：

所述步骤(3)中，经过语义相关性聚类后选取概念关系标签的步骤包括：

使用C-均值聚类方法对候选三元组进行聚类；

将表征相同概念关系的三元组聚成元组簇；

对元组簇进行频率阈值过滤，选取概念关系标签。

7.如权利要求6所述的概念关系标签抽取方法，其特征在于：

所述对元组簇进行频率阈值过滤的步骤进一步包括：

选取频率最大的元组作为代表，用簇内各元组的频率之和作为代表的频率，然后对元组簇进行频率阈值过滤。

8.如权利要求1所述的概念关系标签抽取方法，其特征在于：

所述语义相关性聚类通过下式计算：

9.如权利要求8所述的概念关系标签抽取方法，其特征在于：

所述语义相似度通过下式计算：