CN108763353A

CN108763353A - 基于规则和远程监督的百度百科关系三元组抽取方法

Info

Publication number: CN108763353A
Application number: CN201810466172.6A
Authority: CN
Inventors: 王珩; 毛明志; 潘嵘
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2018-11-06
Anticipated expiration: 2038-05-14
Also published as: CN108763353B

Abstract

本发明提供一种基于规则和远程监督的百度百科关系三元组抽取方法，该方法对信息框这种信息集中的结构化文本，本发明主要采用基于规则、正则表达式的方法抽取关系三元组，这些三元组后续又可以作为远程监督算法的输入。对正文这种信息零散的非结构化文本，本发明一方面通过撰写简单的、准确的、显而易见的规则，抽取小部分关系三元组，另一方面，将前面所有基于规则得到的三元组作为远程监督算法的输入，将所有正文文本中包含头实体和尾实体的句子标记出来，按关系分类，训练分类器，再将分类器应用到正文文本的其他句子上，藉此发现更多的三元组。

Description

基于规则和远程监督的百度百科关系三元组抽取方法

技术领域

本发明涉及知识图谱领域，更具体地，涉及一种基于规则和远程监督的百度百科关系三元组抽取方法。

背景技术

知识图谱，从本质上讲，是一种揭示实体之间关系的语义网络，它可以对现实世界的事物及其相互关系进行形式化的描述，在命名实体识别、词义消歧、信息抽取、智能搜索、智能问答、对话机器人等越来越多的自然语言处理领域得到了广泛应用。

在知识库中，结构化的知识通常使用三元组的方式表达，即(h,r,t)，h、r、t分别代表头实体、关系、尾实体。因此，关系三元组抽取是构建知识库最基础的工作，只有保证获取一定数量和质量的三元组，知识图谱的后续应用才有坚实的根基。

关系三元组抽取最原始的方法，是人工抽取并将其录入知识库。这种方法需要耗费大量的人力资源，效率低，只适用于专业知识库，且要求知识库复杂度较低。对于开放域知识库，则需要利用计算机计算能力强且不知疲倦的特性，应用一定的算法，进行三元组抽取。

传统的方法通常基于正则表达式，或者基于语法规则。例如Culotta等人(CulottaA,Sorensen J.Dependency Tree Kernels for Relation Extraction[C].42nd AnnualMeeting on Association for Computational Linguistics,2004,423-429)以语义依存树为基础构造支持向量机的核函数，并以此从新闻文章中检测和分类关系三元组。Banko等人(Banko M,Cafarella M J,Soderland S,et al.Open Information Extraction fromthe Web[C].IJCAI,2007,2670-2676)则通过制定语法规则和字段匹配规则，从网络文本中抽取三元组。由于人类能枚举的规则是有限的，因此总会存在很多三元组，它们不能被我们列出的规则抽取到，造成知识库的遗漏。因此，Mintz等人(Mintz M,Bills S,Snow R,etal.Distant Supervision for Relation Extraction without Labeled Data[C].JointConference of the 47th Annual Meeting of the ACL and the 4th InternationalJoint Conference on Natural Language Processing of the AFNLP,2009,1003-1011)基于相同关系有相似表达的假设，提出了远程监督的方法，首先通过人工输入、简单句子规则匹配，抽取高质量的三元组，然后在开放域文本中，将同时包含一对头实体和尾实体的句子标记出来，训练logistic分类器，使之学到相同关系对应句子的相似性和不同关系对应句子的区别，随后将该分类器运用到开放域文本，抽取更多三元组，如滚雪球一般。这种基于半监督的方法，避免了人工书写复杂规则，充分利用了算法的学习能力，受到业界的青睐，后续又有学者以远程监督为基础，提出了改进算法，如Min等人(Min B,Grishman R,WanL,et al.Distant Supervision for Relation Extraction with an IncompleteKnowledge Base[C].Conference of the North American Chapter of the Associationfor Computational Linguistics:Human Language Technologies,2013,777-782)只在正样本和未标注标签上学习关系的语言特征，减轻了假负例的影响；Bing等人(Bing L,Chaudhari S,Wang R,et al.Improving Distant Supervision for InformationExtraction Using Label Propagation through Lists[C].Conference on EmpiricalMethods in Natural Language Processing,2015,524-529)则利用文档中的标签信息辅助训练分类器。

以上研究的源语言都是英文，要将这些方法运用到中文上，需要解决更多的问题，如分词、断句、消歧等。

百度百科是由众多网友自发编写的大型中文知识库，具有内容丰富、格式规范、时效性强等特点。百度百科的词条大体可分为两部分，上半部分是信息框(infobox)，展示的是某个词条重要特征的摘要信息，下半部分是正文，对该词条作进一步具体的阐述。信息框高度结构化，内容零碎化，更适合使用规则抽取，而正文是无结构化文本，使用规则效果将会很差。

发明内容

本发明提供一种基于规则和远程监督的百度百科关系三元组抽取方法，该方法通过撰写简单的、准确的、显而易见的规则，抽取小部分关系三元组，另一方面，将前面所有基于规则得到的三元组作为远程监督算法的输入，将所有正文文本中包含头实体和尾实体的句子标记出来，按关系分类，训练分类器，再将分类器应用到正文文本的其他句子上，藉此发现更多的三元组。

为了达到上述技术效果，本发明的技术方案如下：

一种基于规则和远程监督的百度百科关系三元组抽取方法，包括以下步骤：

S1：从信息框中抽取关系三元组：将HTML源码中属于信息框的部分取出；信息框的每一行，第一个属性作为关系，第二个属性作为尾实体，词条名则是头实体；将出现次数累计不少于阈值N的关系，作为有意义的关系继续考察，并以此为基础，筛选出连接的头尾实体主要是名词、命名实体的关系；随后，将尾实体完全被书名号括起来的三元组全数保留；将带有并列关系的尾实体拆开，简化为多个具有相同头实体和关系的三元组；凡是材料、配料、用料相关的关系三元组，只要实体，不要数字；尾实体不是都由名词或者命名实体组成的，也不予保留；

S2：应用简单的规则从正文中抽取关系三元组：使用正则表达式，将语法简单且蕴含关系三元组的句子标记出来，直接抽取关系；

S3：以S1、S2两步得到的关系三元组为基础，运用远程监督算法，训练关系分类器，学习不同关系在开放域文本表达的不同特征，随后将该分类器运用到百度百科正文的所有句子上，抽取所要的关系。

进一步地，所述步骤S1的具体过程是：

S11：将HTML源码中class为basicInfo-item的标签抽取出来，其中带有dt子标签的是关系，带有dd子标签的是尾实体，词条名则为头实体，整理出信息框中所有显式的关系三元组；

S12：统计各个关系的出现次数，筛选出次数不少于某个阈值N的关系作进一步考察，因为信息框中出现的许多低频关系，要么是网友编辑的笔误，要么是网友将本该出现在正文的内容强行关系化，要么远离生活，脱离实际；将低频关系筛选掉有助于提升知识库中三元组的质量，也有助于后续远程监督算法的抽取质量，N由知识库规模决定，在百度百科中通常取5000；

S13：进一步筛选有考察意义的关系，具体地，“中文名”“名字”关系不要，分类关系不要，形容词不要，数字属性不要；

S14：凡是尾实体完全由书名号括起来的，均认为是命名实体，对应关系均予以保留，不再做后续处理；

S15：对未在S14中涉及到的关系继续处理，尾实体中包含并列关系的，按上文提到的分隔符拆开，但如果出现括号，括号中的内容则全数保留；

S16：对于材料、配料、用料相关的关系，尾实体只保留前面的实体，后面的数字去除；

S17：尾实体不完全由命名实体或名词组成的，则对应三元组予以剔除；具体步骤是，先对尾实体分词，然后做词性分析和命名实体分析，如果所有词是命名实体或者名词，则可以保留。

进一步地，所述步骤S2中应用简单的规则从正文中抽取关系三元组，具体包括：

撰写正则表达式，匹配简单句子，抽取三元组：“t是h的r”，“h的r是t”，均可抽取出三元组(h,r,t)。

进一步地，所述在步骤S3中，运用远程监督算法从正文中抽取关系，具体包括：

S31：使用NLP工具，对正文分词；

S32：应用word2vecⁱⁱ工具，在正文训练词向量，维数为d_w；

S33：对步骤S1和步骤S2得到的关系三元组(h,r,t)，抽取出正文中所有包括h和t的句子。一个句子会被h和t分成三部分，对句子中的每个单词，计算出其与h和t的相对距离，对每个相对距离的值，均唯一对应一个d_p维向量，随机初始化相对距离向量矩阵，句子中每个词的向量表示，由词向量、与头实体的相对距离向量、与尾实体的相对距离向量拼接而成，称为词拼接，维数为d＝d_w+2d_p；

S34：卷积操作获取句子的所有潜在特征。假设卷积过滤器的长度为w，则权重向量wm＝w*d，假设句子S由s个词组成，每个词对应一个d维的词拼接向量，则S可以表示为{q₁,q₂,…,q_s}，其中i＝1,2,…s，卷积操作是权重向量与所有w元词拼接向量分别点乘，令q_i:j表示从q_i到q_j共j-i+1个向量的拼接，则卷积向量其中c_j＝wq_j-w+1:j,j＝1,2,…,s+w-1，对i＜1或i>s的部分，q_i设为0；

为了捕捉不同的特征，需要使用多个卷积过滤器，假设过滤器的数量为n，则过滤器集合W＝{w₁,w₂,…,w_n}。故卷积操作可以进一步表示为c_ij＝w_iq_j-w+1:j,1≤i≤n，卷积结果是一个矩阵C＝{c₁,c₂,…,c_n}；

S35：最大池化操作抽取句子的最显著特征，实现降维，为了避免传统的最大池化操作降维速度过快，引发过高的稀疏性，本发明使用分块最大池化的策略，对第i个卷积过滤器的输出c_i，以头实体和尾实体为分割符，切成三段{c_i1,c_i2,c_i3}，则分块最大池化操作可表示为：

p_ij＝max(c_ij),≤1i≤n,1≤j≤3

经过这一步，过滤器i会得到一个3维向量p_i＝{p_i1,p_i2,p_i3}，将n个向量拼接成p_i:n，应用非线性函数，得到句子的特征向量g，这里使用双曲正切，即g＝tanh(p_i:n)，此时g的维数只与过滤器的数量n有关，而与句子包含的词个数s无关；

S36：计算softmax概率,令o＝W₁g+b为网络的输出，其中对o的每个值o_i，计算softmax概率得分如下：

损失函数采用交叉熵，即

其中p为训练集中句子的个数，r为考察的关系数量，t_ij是句子i蕴含关系j的概率，y_ij是模型对句子i预测其蕴含关系j的概率；

S37：训练网络模型，使用反向传播法更新参数，直到网络收敛，为了减轻过拟合带来的影响，采用dropout策略，即在正向传播的过程中，以一定的概率q将隐含神经元丢弃；

S38：用得到的模型，从正文中没有被标记的句子抽取关系三元组，首先用NLP工具，从句子中识别出命名实体，如果该句子没有命名实体或者只有1个命名实体，则不能从中抽取出关系，模型不执行，如果有3个或3个以上的命名实体，则只考虑概率最大的两个，对符合条件的句子，执行模型的算法，得到每个关系的归一化概率，将概率最大的关系作为这两个命名实体的关系，为了避免两个实体实际不蕴含关系，而被误标记为概率最大的关系，要求最大的概率值至少为第二大概率值的z倍。

与现有技术相比，本发明技术方案的有益效果是：

本发明的目的在于提供一种基于规则和远程监督的百度百科关系三元组抽取方法，该方法充分利用百度百科每个词条页面的丰富信息，考虑了结构化文本和非结构化文本在文字组织、信息展示方面的不同，使用不同的算法进行处理。对信息框这种信息集中的结构化文本，本发明主要采用基于规则、正则表达式的方法抽取关系三元组，这些三元组后续又可以作为远程监督算法的输入。对正文这种信息零散的非结构化文本，本发明一方面通过撰写简单的、准确的、显而易见的规则，抽取小部分关系三元组，另一方面，将前面所有基于规则得到的三元组作为远程监督算法的输入，将所有正文文本中包含头实体和尾实体的句子标记出来，按关系分类，训练分类器，再将分类器应用到正文文本的其他句子上，藉此发现更多的三元组。

附图说明

图1为本发明的基于规则和远程监督相结合的百度百科关系三元组抽取方法框架；

图2为从信息框中抽取关系三元组的流程图；

图3为远程监督算法的神经网络模型示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1-3所示，一种基于规则和远程监督的百度百科关系三元组抽取方法，包括以下步骤：

进一步地，所述步骤S1的具体过程是：

S31：使用NLP工具，对正文分词；

S32：应用word2vecⁱⁱⁱ工具，在正文训练词向量，维数为d_w；

S34：卷积操作获取句子的所有潜在特征。假设卷积过滤器的长度为w，则权重向量wm＝w*d，假设句子S由s个词组成，每个词对应一个d维的词拼接向量，则S可以表示为{q₁,q₂,…,q_s}，其中i＝1,2,…s，卷积操作是权重向量与所有w元词拼接向量分别点乘，令q_i:j表示从q_i到q_j共j-i+1个向量的拼接，则卷积向量其中c_j＝wq_j-w＋1:j,j＝1,2,…,s+w-1，对i＜1或i>s的部分，q_i设为0；

p_ij＝max(c_ij),1≤i≤n,1≤j≤3

损失函数采用交叉熵，即

本发明基于规则和远程监督相结合的百度百科关系三元组抽取方法的效果实验

1、实验环境：操作系统是Ubuntu 16.04LTS(Xenial Xerus),处理器是Inter XeonCPU E5-2620v4@2.10GHz，内存128G，用4块Nvidia Titan X(4×12G)运行神经网络模型的计算。

2、实现语言：Python 3.6。

3、实验数据集：写爬虫程序爬取百度百科网页，共获得10,631,111个词条的页面。

4、从词条页面的HTML源码中抽取信息框部分，统计信息框中出现的关系，保留出现阈值N不少于5,000的关系，并按上文S13步骤列出的规则作进一步筛选，最后留下213个关系。表1是出现次数最多的10个关系，列出了出现次数、是否保留、不保留的理由。

表1信息框中出现次数最多的10个关系

5、保留尾实体被书名号括起来的关系三元组，共1,390,650个。剩余的12,497,272个三元组，则按S15步骤拆分、整理，得到46,645,944个三元组，例如表2。

表2从信息框中抽取出的关系三元组例子

6、材料、配料、用料相关的关系，经认定共有主料、主要原料、主要食材、原料、组成、调料、辅料、配料，共8个关系，累计276,576个三元组。按S16步骤简化。

7、按S17步骤将尾实体完全由命名实体或名词组成的三元组保留下来，最终保留13,904,676个三元组。表2为其中的例子。

8、执行步骤S2，从简单句子中抽取三元组，共得到110,677个。表3为其中的例子。

表3运用简单规则从正文中抽取出的关系三元组例子

9、执行步骤S3。分词工具使用jieba分词，词性标注和命名实体识别则使用哈工大语言技术平台(LTP)。模型参数经调试，选择如下：

词向量维数d_w为100；

相对距离向量维数d_p为10；

卷积过滤器长度w为3；

卷积过滤器数量n为300；

训练过程中，使用Adam作为优化器，学习率lr设为0.001，β参数为(0.9,0.999)，∈参数为1e-08；

dropout概率q为0.5；

抽取阶段，要求最大的概率值至少为第二大概率值的e倍，即z＝e。

最终抽取出470,540个关系，表4为其中的例子。

表4运用远程监督算法从正文中抽取出的关系三元组例子

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于规则和远程监督的百度百科关系三元组抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于规则和远程监督的百度百科关系三元组抽取方法，其特征在于，所述步骤S1的具体过程是：

3.根据权利要求2所述的基于规则和远程监督的百度百科关系三元组抽取方法，其特征在于，所述步骤S2中应用简单的规则从正文中抽取关系三元组，具体包括：

4.根据权利要求3所述的基于规则和远程监督的百度百科关系三元组抽取方法，其特征在于，所述在步骤S3中，运用远程监督算法从正文中抽取关系，具体包括：

S31：使用NLP工具，对正文分词；

S32：应用word2vecⁱ工具，在正文训练词向量，维数为d_w；

S34：卷积操作获取句子的所有潜在特征。假设卷积过滤器的长度为w，则权重向量假设句子S由s个词组成，每个词对应一个d维的词拼接向量，则S可以表示为{q₁,q₂,…,q_s}，其中卷积操作是权重向量与所有w元词拼接向量分别点乘，令q_i:j表示从q_i到q_j共j-i+1个向量的拼接，则卷积向量其中c_j＝wq_j-w+1:j,j＝1,2,…,s+w-1，对i＜1或i＞s的部分，q_i设为0；

p_ij＝max(c_ij),1≤i≤n,1≤j≤3

损失函数采用交叉熵，即