CN105808525A

CN105808525A - 一种基于相似概念对的领域概念上下位关系抽取方法

Info

Publication number: CN105808525A
Application number: CN201610186810.XA
Authority: CN
Inventors: 刘春阳; 赵志云; 庞琳; 张旭; 李雄; 王萌; 陈新蕾; 贾岩涛
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-03-29
Filing date: 2016-03-29
Publication date: 2016-07-27
Anticipated expiration: 2036-03-29
Also published as: CN105808525B

Abstract

本发明提供一种基于相似概念对的领域概念上下位关系抽取方法，包括以下步骤：步骤1，领域概念集合由若干个领域概念组成；基于概念聚类的方法从领域概念集合中抽取相似的领域概念；步骤2，获得可能存在上下位关系的候选概念对，然后根据步骤1获取的相似概念产生相似候选概念对；步骤3，利用知识库获取部分训练数据，并通过相似候选概念对共同表征关系特征，实现基于多句特征的关系抽取，从而抽取到领域概念上下位关系。优点为：本发明可以突破语料规模的限制，利用多句特征抽取领域概念的上下位关系，可提升领域概念上下位关系抽取的准确率。

Description

一种基于相似概念对的领域概念上下位关系抽取方法

技术领域

本发明属于领域概念上下位关系抽取技术领域，具体涉及一种基于相似概念对的领域概念上下位关系抽取方法。

背景技术

领域概念以及领域概念关系的语义理解，是自然语言处理相关技术的综合应用，也是该领域的难题。领域概念关系主要包括上下位关系、同义关系、整体-部分关系等。其中，上下位关系是一种基本的语义关系，是构建层次本体的基础。上下位关系是指上位词和下位词之间的关系，其中，上位词为概念上外延更广的主题词，下位词为概念上内涵更窄的主题词。例如对于“中国”，“国家”两个词语，“国家”为上位词，“中国”为下位词。领域概念的上下位关系抽取主要关注如何对领域概念的上下位关系进行识别，并进一步用于构建领域知识库。

目前，领域概念上下位关系抽取的方法主要有基于模板的关系抽取方法和基于机器学习模型的关系抽取方法：

1.基于模板的关系抽取方法：利用文本中词与词之间的顺序信息，对不同关系编写不同的句法模板，依照句法模板自动从大量语料中抽取上下位关系。该种方法对于语言结构简单的英文有着较好的效果，但仍存在如下几个问题：1)模板需要人工制定，耗时耗力；2)在中文处理上，很难找到完全准确的模板；3)模板抽取的召回率较低；4)由于领域概念具有多义性，在多次迭代的模板抽取中容易出现语义漂移，导致大量错误数据引入，准确率急速下降。

2.基于机器学习模型的关系抽取方法：根据采用的模型和训练数据获取方式不同，可以分为有监督、半监督、弱监督、无监督的学习模型。

(1)有监督的关系抽取方法：主要采用候选概念对共现的句子作为训练数据，认为每一个概念对共现的句子就表示了概念对的一种关系。通过手工标注训练数据，从每个句子中获取词法、词性、句法、依存关系等特征作为训练数据的特征，通过训练数据构建分类器模型实现关系类型的预测。此方法准确率高，但需要手工标注训练数据，费时费力，并且受语料质量限制较多，无法满足大规模、多种类、多语言的关系抽取。

(2)半监督的关系抽取方法：给定抽取系统一些种子实体或种子关系，通过抽取系统获取更多含有种子实体或种子关系的实例，通过这些实例获取新的抽取模板或者抽取实体对，并对这些新的模板和实体对评估，选择质量较好的模板作为下一轮抽取的模板，多次迭代抽取。此方法只需少量数据标注，在小规模大数据结合上抽取效果较好，但由于模板筛选存在误差，多次迭代之后会导致语义漂移。

(3)弱监督的关系抽取方法。利用已知的知识库信息和未标注的语料共同产生训练数据。在未标注数据中查找从知识库中获取的候选概念对共现的句子作为关系预测模型的训练数据。这种方法能获得更多的训练数据，极大提高召回率，但在数据规模有限、面向特定领域的语料中，由于训练数据过少，不能很好利用句子的特征。

(4)无监督的关系抽取方法。多使用聚类方法实现关系类型的识别，这种方法不需要手工标注训练数据，而是利用共现句中的词法、句法、词向量等特征，利用聚类方法将相似特征的数据聚在一起，认为聚类在一团中的语句表示同一种关系。此方法较节省人力，但准确率不如其他抽取方法，在实际系统中应用较少，而且还可能错误地将不同的实体识别为同一个。

在上述各类基于机器学习模型的关系抽取方法，弱监督的关系抽取方法应用更为普遍。该方法认为两个候选领域概念共现的所有句子的集合共同表达概念之间的关系。然而在数据规模有限的情况下，候选概念对共同出现在同一个句子中的情况少之又少，大多数情况下候选概念对共现次数仅为1。在这种情况下，基于共现句子集合的弱监督关系抽取方法退化为基于单句级别特征的关系抽取方法，导致抽取结果准确率低。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于相似概念对的领域概念上下位关系抽取方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种基于相似概念对的领域概念上下位关系抽取方法，包括以下步骤：

步骤1，领域概念集合由若干个领域概念组成；基于概念聚类的方法从领域概念集合中抽取相似的领域概念；

步骤2，获得可能存在上下位关系的候选概念对，然后根据步骤1获取的相似概念产生相似候选概念对；

步骤3，利用知识库获取部分训练数据，并通过相似候选概念对共同表征关系特征，实现基于多句特征的关系抽取，从而抽取到领域概念上下位关系。

优选的，步骤1中，基于概念聚类的方法从领域概念集合中抽取相似的领域概念，包括以下步骤：

步骤101，对于领域概念集合，基于公式1计算领域概念集合中任意两个领域概念之间的相似度，从而构造得到所有领域概念的相似度矩阵SimMatrix[c_i,c_j]；

S i m (c_{i}, c_{j}) = \frac{1}{2} \cdot {Sim}_{s t r i n g} (c_{i}, c_{j}) + \frac{1}{2} \cdot {Sim}_{s e m a t i c} (c_{i}, c_{j})

其中，c_i,c_j为领域概念集合中任意两个领域概念；Sim_string(c_i,c_j)表示领域概念c_i,c_j的字符串字面相似度，Sim_semantic(c_i,c_j)为根据同义词词林计算的领域概念语义相似度；

步骤102，将每个领域概念c_i作为一类(C_i)，对于与分类C_i相似度最高的分类C_j，合并分类C_i和分类C_j为新分类C_k；

重复执行步骤102，直到聚类的数目达到设定聚类数目阈值，从而将相似的若干个领域概念聚合成一个聚类团。

优选的，所述设定聚类数目阈值为领域概念总数的1％。

优选的，步骤2中，通过以下三种方式获得可能存在上下位关系的候选概念对：

(1)对于短语形式的领域概念，对短语本身进行句法分析，获得可能存在上下位关系的候选概念对；

(2)对于在百度百科中有分类信息的领域概念，基于百度百科词条的上下级分类关系，获得可能存在上下位关系的候选概念对；

(3)对步骤102获得的每个聚类团进行分析，获得可能存在上下位关系的候选概念对。

优选的，步骤2中，所述相似候选概念对是指符合如下两个定义的概念对：

定义1：如果两个概念c₁,c₂在同一聚类团中，并且有共同的候选上位概念c₃，则：pair(c₁,c₃)和pair(c₂,c₃)是相似候选概念对；

定义2：设两个概念c₁,c₂的上位概念分别为c₃,c₄，如果两个概念c₁,c₂在同一聚类团中，并且，c₃,c₄也在同一聚类团中，则：pair(c₁,c₃)和pair(c₂,c₄)是相似候选概念对。

优选的，步骤3中，基于多句特征的关系抽取是指：如果有相似候选概念对pair(c₁,c₃)和pair(c₂,c₄)，对于各自概念对的共现句子集合Set(pair(c₁,c₃))、Set(pair(c₂,c₄))，这两个句子集合能够共同表征同一种关系，这种方法即为基于多句特征的关系抽取方法，具体包括以下两步：

步骤301，利用训练数据进行分类模型的训练：

获取训练数据，训练数据由两部分组成：标注的训练数据和利用相似候选概念对扩展的训练数据；其中，对于标注的训练数据，直接抽取所标注训练数据的词性特征用于SVM分类模型的训练；对于利用相似候选概念对扩展的训练数据，针对每个候选概念对及其利用步骤2得到的相似候选概念对，查找它们所有的共现句子并抽取词性特征，用以训练上下位关系抽取的SVM分类模型；

步骤302，在对SVM分类模型进行训练后，得到最终的分类模型；采用所述最终的分类模型基于词性特征进行上下位关系的抽取，得到上下位关系的抽取结果。

本发明提供的基于相似概念对的领域概念上下位关系抽取方法具有以下优点：

传统的上下位关系抽取方法由于语料规模的限制，导致候选领域概念共同出现的训练语句过少。本发明可以突破语料规模的限制，利用多句特征抽取领域概念的上下位关系，可提升领域概念上下位关系抽取的准确率。

附图说明

图1为本发明提供的基于相似概念对的领域概念上下位关系抽取方法的整体流程示意图；

图2为本发明提供的对领域概念聚类之后形成的聚类团示意图；

图3为本发明提供的步骤3中领域概念上下位关系训练和抽取过程流程示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提出一种基于相似概念对的领域概念上下位关系抽取方法，本发明主要针对训练数据特征不明显的问题，基于多句特征对领域概念的上下位关系进行抽取。该方法的主要思想是：认为具有相似意义的概念对组成的句子集合可以表达同一种关系特征，首先抽取相似概念对，然后在此基础之上融合多句特征，对领域概念的上下位关系进行抽取，可以在数据规模有限、存在噪声的语料中得到有效表征关系特征的领域概念关系，提高关系抽取的准确率。

结合图1，本发明提供的基于相似概念对的领域概念上下位关系抽取方法，包括以下步骤：

本步骤中，基于概念聚类的方法从领域概念集合中抽取相似的领域概念，所采用的聚类方法为层次聚类方法，包括以下步骤：

S i m (c_{i}, c_{j}) = \frac{1}{2} \cdot {Sim}_{s t r i n g} (c_{i}, c_{j}) + \frac{1}{2} \cdot {Sim}_{s e m a t i c} (c_{i}, c_{j})

其中，c_i,c_j为领域概念集合中任意两个领域概念；Sim_string(c_i,c_j)表示领域概念c_i,c_j的字符串字面相似度，Sim_semantic(c_i,c_j)为根据同义词词林计算的领域概念语义相似度；其中，同义词词林是梅家驹等人于1983年编纂而成，该词典不仅包括一个词语的同义词，也包含了一定数量的同类词，即广义的相关词。

重复执行步骤102，直到聚类的数目达到设定聚类数目阈值，例如，达到领域概念总数的1％时终止，从而将相似的若干个领域概念聚合成一个聚类团。参考图2，为对领域概念聚类之后形成的聚类团示意图。

步骤2，获得可能存在上下位关系的候选概念对，例如pair(“美国”,“北美洲”)。然后根据步骤1获取的相似概念产生相似候选概念对；

候选概念对pair(c₁,c₂)表示领域概念对包含的两个领域概念c₁,c₂之间存在关系。存在潜在上下位关系的概念对来源主要有三个：从领域概念短语本身抽取、百科词条对应的分类信息、聚类结果，这三种来源产生的候选概念对质量较高：

(1)领域概念本身。一般来说，较长的领域概念表示的较为抽象，多为短语的形式。相对容易从概念本身抽取潜在的上位关系。由于短语形式的领域概念在领域概念的抽取结果中占有相当数量的比重，所以这是一种较为快速有效的潜在领域概念对的抽取方法。例如，对于“C-17A环球霸王运输机”，根据句法分析可以找到潜在的上位概念“运输机”。

(2)百科分类。部分领域概念在百度百科中有分类信息，这些分类信息很好表征了领域概念的上位概念。将领域概念和领域概念在百科中的分类信息作为概念对的准确率更高。例如“奥巴马”在百度百科词条的上级分类“美国总统”、“政治人物”、“人物”、“国家首脑”等都是准确率高的上位概念。

(3)聚类结果。由于在聚类中使用了概念的上下文特征和同义词词林的语义特征作为相似度计算的部分，所以在步骤1)得到的领域概念聚类的团中包含潜在的上下位概念关系。如图2中所示聚类团，岛屿和海岛存在上下位关系、争端和领土争端存在上下位关系等。

本发明中，相似候选概念对是指符合如下两个定义的概念对：

步骤3，利用知识库，例如百度百科知识库，获取部分训练数据，并通过相似候选概念对共同表征关系特征，实现基于多句特征的关系抽取，从而抽取到领域概念上下位关系。

其中，基于多句特征的关系抽取是指：如果有相似候选概念对pair(c₁,c₃)和pair(c₂,c₄)，对于各自概念对的共现句子集合Set(pair(c₁,c₃))、Set(pair(c₂,c₄))，这两个句子集合能够共同表征同一种关系，这种方法即为基于多句特征的关系抽取方法，如图3所示，具体包括以下两步：

步骤301，利用训练数据进行分类模型的训练：

也就是说，本发明中，用以训练上下位关系抽取的分类模型需要用到各个训练数据的词性特征(使用Stanford的词性分析工具，并且把词性分为名词、动词、形容词、副词、数量词、外文词和其他，共7种)。这里用到的分类模型是SVM，SVM支持向量机，是一个有监督的二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解的分类方法。

为了进一步验证本发明的技术效果，使用南海方面的包含29822篇文本的领域文本集合进行上下位关系抽取的测试。将本发明提出的基于弱监督的多句特征的方法与传统的从单句中抽取特征的分类方法在数据集合上做实验进行比较，实验结果表明：多句特征在准确率上较单句特征有所下降，但召回率上升了4％。这也说明多句特征的方法将某种关系较为共性的特征更加显著化，在损失一定准确率的情况下提高了同类型的关系召回率。多句特征的方法在F1值方面较单句特征提高了3％，证明了多句特征提取的上下位关系抽取方法的有效性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于相似概念对的领域概念上下位关系抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于相似概念对的领域概念上下位关系抽取方法，其特征在于，步骤1中，基于概念聚类的方法从领域概念集合中抽取相似的领域概念，包括以下步骤：

S i m (c_{i}, c_{j}) = \frac{1}{2} \cdot {Sim}_{s t r i n g} (c_{i}, c_{j}) + \frac{1}{2} \cdot {Sim}_{s e m a t i c} (c_{i}, c_{j})

3.根据权利要求2所述的基于相似概念对的领域概念上下位关系抽取方法，其特征在于，所述设定聚类数目阈值为领域概念总数的1％。

4.根据权利要求2所述的基于相似概念对的领域概念上下位关系抽取方法，其特征在于，步骤2中，通过以下三种方式获得可能存在上下位关系的候选概念对：

5.根据权利要求2所述的基于相似概念对的领域概念上下位关系抽取方法，其特征在于，步骤2中，所述相似候选概念对是指符合如下两个定义的概念对：

6.根据权利要求2所述的基于相似概念对的领域概念上下位关系抽取方法，其特征在于，步骤3中，基于多句特征的关系抽取是指：如果有相似候选概念对pair(c₁,c₃)和pair(c₂,c₄)，对于各自概念对的共现句子集合Set(pair(c₁,c₃))、Set(pair(c₂,c₄))，这两个句子集合能够共同表征同一种关系，这种方法即为基于多句特征的关系抽取方法，具体包括以下两步：

步骤301，利用训练数据进行分类模型的训练：