CN108763353A - 基于规则和远程监督的百度百科关系三元组抽取方法 - Google Patents
基于规则和远程监督的百度百科关系三元组抽取方法 Download PDFInfo
- Publication number
- CN108763353A CN108763353A CN201810466172.6A CN201810466172A CN108763353A CN 108763353 A CN108763353 A CN 108763353A CN 201810466172 A CN201810466172 A CN 201810466172A CN 108763353 A CN108763353 A CN 108763353A
- Authority
- CN
- China
- Prior art keywords
- relationship
- entity
- sentence
- triple
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于规则和远程监督的百度百科关系三元组抽取方法,该方法对信息框这种信息集中的结构化文本,本发明主要采用基于规则、正则表达式的方法抽取关系三元组,这些三元组后续又可以作为远程监督算法的输入。对正文这种信息零散的非结构化文本,本发明一方面通过撰写简单的、准确的、显而易见的规则,抽取小部分关系三元组,另一方面,将前面所有基于规则得到的三元组作为远程监督算法的输入,将所有正文文本中包含头实体和尾实体的句子标记出来,按关系分类,训练分类器,再将分类器应用到正文文本的其他句子上,藉此发现更多的三元组。
Description
技术领域
本发明涉及知识图谱领域,更具体地,涉及一种基于规则和远程监督的百度百科关系三元组抽取方法。
背景技术
知识图谱,从本质上讲,是一种揭示实体之间关系的语义网络,它可以对现实世界的事物及其相互关系进行形式化的描述,在命名实体识别、词义消歧、信息抽取、智能搜索、智能问答、对话机器人等越来越多的自然语言处理领域得到了广泛应用。
在知识库中,结构化的知识通常使用三元组的方式表达,即(h,r,t),h、r、t分别代表头实体、关系、尾实体。因此,关系三元组抽取是构建知识库最基础的工作,只有保证获取一定数量和质量的三元组,知识图谱的后续应用才有坚实的根基。
关系三元组抽取最原始的方法,是人工抽取并将其录入知识库。这种方法需要耗费大量的人力资源,效率低,只适用于专业知识库,且要求知识库复杂度较低。对于开放域知识库,则需要利用计算机计算能力强且不知疲倦的特性,应用一定的算法,进行三元组抽取。
传统的方法通常基于正则表达式,或者基于语法规则。例如Culotta等人(CulottaA,Sorensen J.Dependency Tree Kernels for Relation Extraction[C].42nd AnnualMeeting on Association for Computational Linguistics,2004,423-429)以语义依存树为基础构造支持向量机的核函数,并以此从新闻文章中检测和分类关系三元组。Banko等人(Banko M,Cafarella M J,Soderland S,et al.Open Information Extraction fromthe Web[C].IJCAI,2007,2670-2676)则通过制定语法规则和字段匹配规则,从网络文本中抽取三元组。由于人类能枚举的规则是有限的,因此总会存在很多三元组,它们不能被我们列出的规则抽取到,造成知识库的遗漏。因此,Mintz等人(Mintz M,Bills S,Snow R,etal.Distant Supervision for Relation Extraction without Labeled Data[C].JointConference of the 47th Annual Meeting of the ACL and the 4th InternationalJoint Conference on Natural Language Processing of the AFNLP,2009,1003-1011)基于相同关系有相似表达的假设,提出了远程监督的方法,首先通过人工输入、简单句子规则匹配,抽取高质量的三元组,然后在开放域文本中,将同时包含一对头实体和尾实体的句子标记出来,训练logistic分类器,使之学到相同关系对应句子的相似性和不同关系对应句子的区别,随后将该分类器运用到开放域文本,抽取更多三元组,如滚雪球一般。这种基于半监督的方法,避免了人工书写复杂规则,充分利用了算法的学习能力,受到业界的青睐,后续又有学者以远程监督为基础,提出了改进算法,如Min等人(Min B,Grishman R,WanL,et al.Distant Supervision for Relation Extraction with an IncompleteKnowledge Base[C].Conference of the North American Chapter of the Associationfor Computational Linguistics:Human Language Technologies,2013,777-782)只在正样本和未标注标签上学习关系的语言特征,减轻了假负例的影响;Bing等人(Bing L,Chaudhari S,Wang R,et al.Improving Distant Supervision for InformationExtraction Using Label Propagation through Lists[C].Conference on EmpiricalMethods in Natural Language Processing,2015,524-529)则利用文档中的标签信息辅助训练分类器。
以上研究的源语言都是英文,要将这些方法运用到中文上,需要解决更多的问题,如分词、断句、消歧等。
百度百科是由众多网友自发编写的大型中文知识库,具有内容丰富、格式规范、时效性强等特点。百度百科的词条大体可分为两部分,上半部分是信息框(infobox),展示的是某个词条重要特征的摘要信息,下半部分是正文,对该词条作进一步具体的阐述。信息框高度结构化,内容零碎化,更适合使用规则抽取,而正文是无结构化文本,使用规则效果将会很差。
发明内容
本发明提供一种基于规则和远程监督的百度百科关系三元组抽取方法,该方法通过撰写简单的、准确的、显而易见的规则,抽取小部分关系三元组,另一方面,将前面所有基于规则得到的三元组作为远程监督算法的输入,将所有正文文本中包含头实体和尾实体的句子标记出来,按关系分类,训练分类器,再将分类器应用到正文文本的其他句子上,藉此发现更多的三元组。
为了达到上述技术效果,本发明的技术方案如下:
一种基于规则和远程监督的百度百科关系三元组抽取方法,包括以下步骤:
S1:从信息框中抽取关系三元组:将HTML源码中属于信息框的部分取出;信息框的每一行,第一个属性作为关系,第二个属性作为尾实体,词条名则是头实体;将出现次数累计不少于阈值N的关系,作为有意义的关系继续考察,并以此为基础,筛选出连接的头尾实体主要是名词、命名实体的关系;随后,将尾实体完全被书名号括起来的三元组全数保留;将带有并列关系的尾实体拆开,简化为多个具有相同头实体和关系的三元组;凡是材料、配料、用料相关的关系三元组,只要实体,不要数字;尾实体不是都由名词或者命名实体组成的,也不予保留;
S2:应用简单的规则从正文中抽取关系三元组:使用正则表达式,将语法简单且蕴含关系三元组的句子标记出来,直接抽取关系;
S3:以S1、S2两步得到的关系三元组为基础,运用远程监督算法,训练关系分类器,学习不同关系在开放域文本表达的不同特征,随后将该分类器运用到百度百科正文的所有句子上,抽取所要的关系。
进一步地,所述步骤S1的具体过程是:
S11:将HTML源码中class为basicInfo-item的标签抽取出来,其中带有dt子标签的是关系,带有dd子标签的是尾实体,词条名则为头实体,整理出信息框中所有显式的关系三元组;
S12:统计各个关系的出现次数,筛选出次数不少于某个阈值N的关系作进一步考察,因为信息框中出现的许多低频关系,要么是网友编辑的笔误,要么是网友将本该出现在正文的内容强行关系化,要么远离生活,脱离实际;将低频关系筛选掉有助于提升知识库中三元组的质量,也有助于后续远程监督算法的抽取质量,N由知识库规模决定,在百度百科中通常取5000;
S13:进一步筛选有考察意义的关系,具体地,“中文名”“名字”关系不要,分类关系不要,形容词不要,数字属性不要;
S14:凡是尾实体完全由书名号括起来的,均认为是命名实体,对应关系均予以保留,不再做后续处理;
S15:对未在S14中涉及到的关系继续处理,尾实体中包含并列关系的,按上文提到的分隔符拆开,但如果出现括号,括号中的内容则全数保留;
S16:对于材料、配料、用料相关的关系,尾实体只保留前面的实体,后面的数字去除;
S17:尾实体不完全由命名实体或名词组成的,则对应三元组予以剔除;具体步骤是,先对尾实体分词,然后做词性分析和命名实体分析,如果所有词是命名实体或者名词,则可以保留。
进一步地,所述步骤S2中应用简单的规则从正文中抽取关系三元组,具体包括:
撰写正则表达式,匹配简单句子,抽取三元组:“t是h的r”,“h的r是t”,均可抽取出三元组(h,r,t)。
进一步地,所述在步骤S3中,运用远程监督算法从正文中抽取关系,具体包括:
S31:使用NLP工具,对正文分词;
S32:应用word2vecii工具,在正文训练词向量,维数为dw;
S33:对步骤S1和步骤S2得到的关系三元组(h,r,t),抽取出正文中所有包括h和t的句子。一个句子会被h和t分成三部分,对句子中的每个单词,计算出其与h和t的相对距离,对每个相对距离的值,均唯一对应一个dp维向量,随机初始化相对距离向量矩阵,句子中每个词的向量表示,由词向量、与头实体的相对距离向量、与尾实体的相对距离向量拼接而成,称为词拼接,维数为d=dw+2dp;
S34:卷积操作获取句子的所有潜在特征。假设卷积过滤器的长度为w,则权重向量wm=w*d,假设句子S由s个词组成,每个词对应一个d维的词拼接向量,则S可以表示为{q1,q2,…,qs},其中i=1,2,…s,卷积操作是权重向量与所有w元词拼接向量分别点乘,令qi:j表示从qi到qj共j-i+1个向量的拼接,则卷积向量其中cj=wqj-w+1:j,j=1,2,…,s+w-1,对i<1或i>s的部分,qi设为0;
为了捕捉不同的特征,需要使用多个卷积过滤器,假设过滤器的数量为n,则过滤器集合W={w1,w2,…,wn}。故卷积操作可以进一步表示为cij=wiqj-w+1:j,1≤i≤n,卷积结果是一个矩阵C={c1,c2,…,cn};
S35:最大池化操作抽取句子的最显著特征,实现降维,为了避免传统的最大池化操作降维速度过快,引发过高的稀疏性,本发明使用分块最大池化的策略,对第i个卷积过滤器的输出ci,以头实体和尾实体为分割符,切成三段{ci1,ci2,ci3},则分块最大池化操作可表示为:
pij=max(cij),≤1i≤n,1≤j≤3
经过这一步,过滤器i会得到一个3维向量pi={pi1,pi2,pi3},将n个向量拼接成pi:n,应用非线性函数,得到句子的特征向量g,这里使用双曲正切,即g=tanh(pi:n),此时g的维数只与过滤器的数量n有关,而与句子包含的词个数s无关;
S36:计算softmax概率,令o=W1g+b为网络的输出,其中对o的每个值oi,计算softmax概率得分如下:
损失函数采用交叉熵,即
其中p为训练集中句子的个数,r为考察的关系数量,tij是句子i蕴含关系j的概率,yij是模型对句子i预测其蕴含关系j的概率;
S37:训练网络模型,使用反向传播法更新参数,直到网络收敛,为了减轻过拟合带来的影响,采用dropout策略,即在正向传播的过程中,以一定的概率q将隐含神经元丢弃;
S38:用得到的模型,从正文中没有被标记的句子抽取关系三元组,首先用NLP工具,从句子中识别出命名实体,如果该句子没有命名实体或者只有1个命名实体,则不能从中抽取出关系,模型不执行,如果有3个或3个以上的命名实体,则只考虑概率最大的两个,对符合条件的句子,执行模型的算法,得到每个关系的归一化概率,将概率最大的关系作为这两个命名实体的关系,为了避免两个实体实际不蕴含关系,而被误标记为概率最大的关系,要求最大的概率值至少为第二大概率值的z倍。
与现有技术相比,本发明技术方案的有益效果是:
本发明的目的在于提供一种基于规则和远程监督的百度百科关系三元组抽取方法,该方法充分利用百度百科每个词条页面的丰富信息,考虑了结构化文本和非结构化文本在文字组织、信息展示方面的不同,使用不同的算法进行处理。对信息框这种信息集中的结构化文本,本发明主要采用基于规则、正则表达式的方法抽取关系三元组,这些三元组后续又可以作为远程监督算法的输入。对正文这种信息零散的非结构化文本,本发明一方面通过撰写简单的、准确的、显而易见的规则,抽取小部分关系三元组,另一方面,将前面所有基于规则得到的三元组作为远程监督算法的输入,将所有正文文本中包含头实体和尾实体的句子标记出来,按关系分类,训练分类器,再将分类器应用到正文文本的其他句子上,藉此发现更多的三元组。
附图说明
图1为本发明的基于规则和远程监督相结合的百度百科关系三元组抽取方法框架;
图2为从信息框中抽取关系三元组的流程图;
图3为远程监督算法的神经网络模型示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1-3所示,一种基于规则和远程监督的百度百科关系三元组抽取方法,包括以下步骤:
S1:从信息框中抽取关系三元组:将HTML源码中属于信息框的部分取出;信息框的每一行,第一个属性作为关系,第二个属性作为尾实体,词条名则是头实体;将出现次数累计不少于阈值N的关系,作为有意义的关系继续考察,并以此为基础,筛选出连接的头尾实体主要是名词、命名实体的关系;随后,将尾实体完全被书名号括起来的三元组全数保留;将带有并列关系的尾实体拆开,简化为多个具有相同头实体和关系的三元组;凡是材料、配料、用料相关的关系三元组,只要实体,不要数字;尾实体不是都由名词或者命名实体组成的,也不予保留;
S2:应用简单的规则从正文中抽取关系三元组:使用正则表达式,将语法简单且蕴含关系三元组的句子标记出来,直接抽取关系;
S3:以S1、S2两步得到的关系三元组为基础,运用远程监督算法,训练关系分类器,学习不同关系在开放域文本表达的不同特征,随后将该分类器运用到百度百科正文的所有句子上,抽取所要的关系。
进一步地,所述步骤S1的具体过程是:
S11:将HTML源码中class为basicInfo-item的标签抽取出来,其中带有dt子标签的是关系,带有dd子标签的是尾实体,词条名则为头实体,整理出信息框中所有显式的关系三元组;
S12:统计各个关系的出现次数,筛选出次数不少于某个阈值N的关系作进一步考察,因为信息框中出现的许多低频关系,要么是网友编辑的笔误,要么是网友将本该出现在正文的内容强行关系化,要么远离生活,脱离实际;将低频关系筛选掉有助于提升知识库中三元组的质量,也有助于后续远程监督算法的抽取质量,N由知识库规模决定,在百度百科中通常取5000;
S13:进一步筛选有考察意义的关系,具体地,“中文名”“名字”关系不要,分类关系不要,形容词不要,数字属性不要;
S14:凡是尾实体完全由书名号括起来的,均认为是命名实体,对应关系均予以保留,不再做后续处理;
S15:对未在S14中涉及到的关系继续处理,尾实体中包含并列关系的,按上文提到的分隔符拆开,但如果出现括号,括号中的内容则全数保留;
S16:对于材料、配料、用料相关的关系,尾实体只保留前面的实体,后面的数字去除;
S17:尾实体不完全由命名实体或名词组成的,则对应三元组予以剔除;具体步骤是,先对尾实体分词,然后做词性分析和命名实体分析,如果所有词是命名实体或者名词,则可以保留。
进一步地,所述步骤S2中应用简单的规则从正文中抽取关系三元组,具体包括:
撰写正则表达式,匹配简单句子,抽取三元组:“t是h的r”,“h的r是t”,均可抽取出三元组(h,r,t)。
进一步地,所述在步骤S3中,运用远程监督算法从正文中抽取关系,具体包括:
S31:使用NLP工具,对正文分词;
S32:应用word2veciii工具,在正文训练词向量,维数为dw;
S33:对步骤S1和步骤S2得到的关系三元组(h,r,t),抽取出正文中所有包括h和t的句子。一个句子会被h和t分成三部分,对句子中的每个单词,计算出其与h和t的相对距离,对每个相对距离的值,均唯一对应一个dp维向量,随机初始化相对距离向量矩阵,句子中每个词的向量表示,由词向量、与头实体的相对距离向量、与尾实体的相对距离向量拼接而成,称为词拼接,维数为d=dw+2dp;
S34:卷积操作获取句子的所有潜在特征。假设卷积过滤器的长度为w,则权重向量wm=w*d,假设句子S由s个词组成,每个词对应一个d维的词拼接向量,则S可以表示为{q1,q2,…,qs},其中i=1,2,…s,卷积操作是权重向量与所有w元词拼接向量分别点乘,令qi:j表示从qi到qj共j-i+1个向量的拼接,则卷积向量其中cj=wqj-w+1:j,j=1,2,…,s+w-1,对i<1或i>s的部分,qi设为0;
为了捕捉不同的特征,需要使用多个卷积过滤器,假设过滤器的数量为n,则过滤器集合W={w1,w2,…,wn}。故卷积操作可以进一步表示为cij=wiqj-w+1:j,1≤i≤n,卷积结果是一个矩阵C={c1,c2,…,cn};
S35:最大池化操作抽取句子的最显著特征,实现降维,为了避免传统的最大池化操作降维速度过快,引发过高的稀疏性,本发明使用分块最大池化的策略,对第i个卷积过滤器的输出ci,以头实体和尾实体为分割符,切成三段{ci1,ci2,ci3},则分块最大池化操作可表示为:
pij=max(cij),1≤i≤n,1≤j≤3
经过这一步,过滤器i会得到一个3维向量pi={pi1,pi2,pi3},将n个向量拼接成pi:n,应用非线性函数,得到句子的特征向量g,这里使用双曲正切,即g=tanh(pi:n),此时g的维数只与过滤器的数量n有关,而与句子包含的词个数s无关;
S36:计算softmax概率,令o=W1g+b为网络的输出,其中对o的每个值oi,计算softmax概率得分如下:
损失函数采用交叉熵,即
其中p为训练集中句子的个数,r为考察的关系数量,tij是句子i蕴含关系j的概率,yij是模型对句子i预测其蕴含关系j的概率;
S37:训练网络模型,使用反向传播法更新参数,直到网络收敛,为了减轻过拟合带来的影响,采用dropout策略,即在正向传播的过程中,以一定的概率q将隐含神经元丢弃;
S38:用得到的模型,从正文中没有被标记的句子抽取关系三元组,首先用NLP工具,从句子中识别出命名实体,如果该句子没有命名实体或者只有1个命名实体,则不能从中抽取出关系,模型不执行,如果有3个或3个以上的命名实体,则只考虑概率最大的两个,对符合条件的句子,执行模型的算法,得到每个关系的归一化概率,将概率最大的关系作为这两个命名实体的关系,为了避免两个实体实际不蕴含关系,而被误标记为概率最大的关系,要求最大的概率值至少为第二大概率值的z倍。
本发明基于规则和远程监督相结合的百度百科关系三元组抽取方法的效果实验
1、实验环境:操作系统是Ubuntu 16.04LTS(Xenial Xerus),处理器是Inter XeonCPU E5-2620v4@2.10GHz,内存128G,用4块Nvidia Titan X(4×12G)运行神经网络模型的计算。
2、实现语言:Python 3.6。
3、实验数据集:写爬虫程序爬取百度百科网页,共获得10,631,111个词条的页面。
4、从词条页面的HTML源码中抽取信息框部分,统计信息框中出现的关系,保留出现阈值N不少于5,000的关系,并按上文S13步骤列出的规则作进一步筛选,最后留下213个关系。表1是出现次数最多的10个关系,列出了出现次数、是否保留、不保留的理由。
表1信息框中出现次数最多的10个关系
5、保留尾实体被书名号括起来的关系三元组,共1,390,650个。剩余的12,497,272个三元组,则按S15步骤拆分、整理,得到46,645,944个三元组,例如表2。
表2从信息框中抽取出的关系三元组例子
6、材料、配料、用料相关的关系,经认定共有主料、主要原料、主要食材、原料、组成、调料、辅料、配料,共8个关系,累计276,576个三元组。按S16步骤简化。
7、按S17步骤将尾实体完全由命名实体或名词组成的三元组保留下来,最终保留13,904,676个三元组。表2为其中的例子。
8、执行步骤S2,从简单句子中抽取三元组,共得到110,677个。表3为其中的例子。
表3运用简单规则从正文中抽取出的关系三元组例子
9、执行步骤S3。分词工具使用jieba分词,词性标注和命名实体识别则使用哈工大语言技术平台(LTP)。模型参数经调试,选择如下:
词向量维数dw为100;
相对距离向量维数dp为10;
卷积过滤器长度w为3;
卷积过滤器数量n为300;
训练过程中,使用Adam作为优化器,学习率lr设为0.001,β参数为(0.9,0.999),∈参数为1e-08;
dropout概率q为0.5;
抽取阶段,要求最大的概率值至少为第二大概率值的e倍,即z=e。
最终抽取出470,540个关系,表4为其中的例子。
表4运用远程监督算法从正文中抽取出的关系三元组例子
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (4)
1.一种基于规则和远程监督的百度百科关系三元组抽取方法,其特征在于,包括以下步骤:
S1:从信息框中抽取关系三元组:将HTML源码中属于信息框的部分取出;信息框的每一行,第一个属性作为关系,第二个属性作为尾实体,词条名则是头实体;将出现次数累计不少于阈值N的关系,作为有意义的关系继续考察,并以此为基础,筛选出连接的头尾实体主要是名词、命名实体的关系;随后,将尾实体完全被书名号括起来的三元组全数保留;将带有并列关系的尾实体拆开,简化为多个具有相同头实体和关系的三元组;凡是材料、配料、用料相关的关系三元组,只要实体,不要数字;尾实体不是都由名词或者命名实体组成的,也不予保留;
S2:应用简单的规则从正文中抽取关系三元组:使用正则表达式,将语法简单且蕴含关系三元组的句子标记出来,直接抽取关系;
S3:以S1、S2两步得到的关系三元组为基础,运用远程监督算法,训练关系分类器,学习不同关系在开放域文本表达的不同特征,随后将该分类器运用到百度百科正文的所有句子上,抽取所要的关系。
2.根据权利要求1所述的基于规则和远程监督的百度百科关系三元组抽取方法,其特征在于,所述步骤S1的具体过程是:
S11:将HTML源码中class为basicInfo-item的标签抽取出来,其中带有dt子标签的是关系,带有dd子标签的是尾实体,词条名则为头实体,整理出信息框中所有显式的关系三元组;
S12:统计各个关系的出现次数,筛选出次数不少于某个阈值N的关系作进一步考察,因为信息框中出现的许多低频关系,要么是网友编辑的笔误,要么是网友将本该出现在正文的内容强行关系化,要么远离生活,脱离实际;将低频关系筛选掉有助于提升知识库中三元组的质量,也有助于后续远程监督算法的抽取质量,N由知识库规模决定,在百度百科中通常取5000;
S13:进一步筛选有考察意义的关系,具体地,“中文名”“名字”关系不要,分类关系不要,形容词不要,数字属性不要;
S14:凡是尾实体完全由书名号括起来的,均认为是命名实体,对应关系均予以保留,不再做后续处理;
S15:对未在S14中涉及到的关系继续处理,尾实体中包含并列关系的,按上文提到的分隔符拆开,但如果出现括号,括号中的内容则全数保留;
S16:对于材料、配料、用料相关的关系,尾实体只保留前面的实体,后面的数字去除;
S17:尾实体不完全由命名实体或名词组成的,则对应三元组予以剔除;具体步骤是,先对尾实体分词,然后做词性分析和命名实体分析,如果所有词是命名实体或者名词,则可以保留。
3.根据权利要求2所述的基于规则和远程监督的百度百科关系三元组抽取方法,其特征在于,所述步骤S2中应用简单的规则从正文中抽取关系三元组,具体包括:
撰写正则表达式,匹配简单句子,抽取三元组:“t是h的r”,“h的r是t”,均可抽取出三元组(h,r,t)。
4.根据权利要求3所述的基于规则和远程监督的百度百科关系三元组抽取方法,其特征在于,所述在步骤S3中,运用远程监督算法从正文中抽取关系,具体包括:
S31:使用NLP工具,对正文分词;
S32:应用word2veci工具,在正文训练词向量,维数为dw;
S33:对步骤S1和步骤S2得到的关系三元组(h,r,t),抽取出正文中所有包括h和t的句子。一个句子会被h和t分成三部分,对句子中的每个单词,计算出其与h和t的相对距离,对每个相对距离的值,均唯一对应一个dp维向量,随机初始化相对距离向量矩阵,句子中每个词的向量表示,由词向量、与头实体的相对距离向量、与尾实体的相对距离向量拼接而成,称为词拼接,维数为d=dw+2dp;
S34:卷积操作获取句子的所有潜在特征。假设卷积过滤器的长度为w,则权重向量假设句子S由s个词组成,每个词对应一个d维的词拼接向量,则S可以表示为{q1,q2,…,qs},其中卷积操作是权重向量与所有w元词拼接向量分别点乘,令qi:j表示从qi到qj共j-i+1个向量的拼接,则卷积向量其中cj=wqj-w+1:j,j=1,2,…,s+w-1,对i<1或i>s的部分,qi设为0;
为了捕捉不同的特征,需要使用多个卷积过滤器,假设过滤器的数量为n,则过滤器集合W={w1,w2,…,wn}。故卷积操作可以进一步表示为cij=wiqj-w+1:j,1≤i≤n,卷积结果是一个矩阵C={c1,c2,…,cn};
S35:最大池化操作抽取句子的最显著特征,实现降维,为了避免传统的最大池化操作降维速度过快,引发过高的稀疏性,本发明使用分块最大池化的策略,对第i个卷积过滤器的输出ci,以头实体和尾实体为分割符,切成三段{ci1,ci2,ci3},则分块最大池化操作可表示为:
pij=max(cij),1≤i≤n,1≤j≤3
经过这一步,过滤器i会得到一个3维向量pi={pi1,pi2,pi3},将n个向量拼接成pi:n,应用非线性函数,得到句子的特征向量g,这里使用双曲正切,即g=tanh(pi:n),此时g的维数只与过滤器的数量n有关,而与句子包含的词个数s无关;
S36:计算softmax概率,令o=W1g+b为网络的输出,其中对o的每个值oi,计算softmax概率得分如下:
损失函数采用交叉熵,即
其中p为训练集中句子的个数,r为考察的关系数量,tij是句子i蕴含关系j的概率,yij是模型对句子i预测其蕴含关系j的概率;
S37:训练网络模型,使用反向传播法更新参数,直到网络收敛,为了减轻过拟合带来的影响,采用dropout策略,即在正向传播的过程中,以一定的概率q将隐含神经元丢弃;
S38:用得到的模型,从正文中没有被标记的句子抽取关系三元组,首先用NLP工具,从句子中识别出命名实体,如果该句子没有命名实体或者只有1个命名实体,则不能从中抽取出关系,模型不执行,如果有3个或3个以上的命名实体,则只考虑概率最大的两个,对符合条件的句子,执行模型的算法,得到每个关系的归一化概率,将概率最大的关系作为这两个命名实体的关系,为了避免两个实体实际不蕴含关系,而被误标记为概率最大的关系,要求最大的概率值至少为第二大概率值的z倍。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810466172.6A CN108763353B (zh) | 2018-05-14 | 2018-05-14 | 基于规则和远程监督的百度百科关系三元组抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810466172.6A CN108763353B (zh) | 2018-05-14 | 2018-05-14 | 基于规则和远程监督的百度百科关系三元组抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763353A true CN108763353A (zh) | 2018-11-06 |
CN108763353B CN108763353B (zh) | 2022-03-15 |
Family
ID=64008065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810466172.6A Active CN108763353B (zh) | 2018-05-14 | 2018-05-14 | 基于规则和远程监督的百度百科关系三元组抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763353B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582800A (zh) * | 2018-11-13 | 2019-04-05 | 北京合享智慧科技有限公司 | 一种训练结构化模型、文本结构化的方法及相关装置 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110046351A (zh) * | 2019-04-19 | 2019-07-23 | 福州大学 | 规则驱动下基于特征的文本关系抽取方法 |
CN110263226A (zh) * | 2019-05-10 | 2019-09-20 | 平安科技(深圳)有限公司 | 针对药品的数据库更新方法、装置及电子装置 |
CN110390099A (zh) * | 2019-06-28 | 2019-10-29 | 河海大学 | 一种基于模板库的对象关系抽取系统和抽取方法 |
CN111126067A (zh) * | 2019-12-23 | 2020-05-08 | 北大方正集团有限公司 | 实体关系抽取方法及装置 |
CN111324743A (zh) * | 2020-02-14 | 2020-06-23 | 平安科技(深圳)有限公司 | 文本关系抽取的方法、装置、计算机设备及存储介质 |
CN111597349A (zh) * | 2020-04-30 | 2020-08-28 | 西安理工大学 | 一种基于人工智能的轨道交通规范实体关系自动补全方法 |
CN111783463A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 知识抽取方法和装置 |
CN112232074A (zh) * | 2020-11-13 | 2021-01-15 | 完美世界控股集团有限公司 | 实体关系抽取方法、装置、电子设备及存储介质 |
CN112948535A (zh) * | 2019-12-10 | 2021-06-11 | 复旦大学 | 一种文本的知识三元组抽取方法、装置及存储介质 |
CN113807518A (zh) * | 2021-08-16 | 2021-12-17 | 中央财经大学 | 基于远程监督的关系抽取系统 |
CN114091464A (zh) * | 2022-01-24 | 2022-02-25 | 南京万得资讯科技有限公司 | 一种融合五维特征的高普适性多对多关系三元组抽取方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN104133848A (zh) * | 2014-07-01 | 2014-11-05 | 中央民族大学 | 藏语实体知识信息抽取方法 |
CN106294593A (zh) * | 2016-07-28 | 2017-01-04 | 浙江大学 | 结合从句级远程监督和半监督集成学习的关系抽取方法 |
CN106570148A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于卷积神经网络的属性抽取方法 |
CN106933804A (zh) * | 2017-03-10 | 2017-07-07 | 上海数眼科技发展有限公司 | 一种基于深度学习的结构化信息抽取方法 |
CN107169079A (zh) * | 2017-05-10 | 2017-09-15 | 浙江大学 | 一种基于Deepdive的领域文本知识抽取方法 |
CN107220237A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 一种基于卷积神经网络的企业实体关系抽取的方法 |
CN107239481A (zh) * | 2017-04-12 | 2017-10-10 | 北京大学 | 一种面向多源网络百科的知识库构建方法 |
-
2018
- 2018-05-14 CN CN201810466172.6A patent/CN108763353B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN104133848A (zh) * | 2014-07-01 | 2014-11-05 | 中央民族大学 | 藏语实体知识信息抽取方法 |
CN106294593A (zh) * | 2016-07-28 | 2017-01-04 | 浙江大学 | 结合从句级远程监督和半监督集成学习的关系抽取方法 |
CN106570148A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于卷积神经网络的属性抽取方法 |
CN106933804A (zh) * | 2017-03-10 | 2017-07-07 | 上海数眼科技发展有限公司 | 一种基于深度学习的结构化信息抽取方法 |
CN107239481A (zh) * | 2017-04-12 | 2017-10-10 | 北京大学 | 一种面向多源网络百科的知识库构建方法 |
CN107169079A (zh) * | 2017-05-10 | 2017-09-15 | 浙江大学 | 一种基于Deepdive的领域文本知识抽取方法 |
CN107220237A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 一种基于卷积神经网络的企业实体关系抽取的方法 |
Non-Patent Citations (5)
Title |
---|
曾道建等: "Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks", 《PROCEEDINGS OF THE 2015 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 * |
曾道建等: "面向非结构化文本的开放式实体属性抽取", 《江西师范大学学报(自然科学版)》 * |
李文华等: "基于正则表达式的HTML信息提取", 《电脑开发与应用》 * |
杨宇飞: "面向中文网络百科的属性关系抽取研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊 )》 * |
熊志斌等: "正则表达式在旅游突发事件信息抽取中的应用", 《软件》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582800A (zh) * | 2018-11-13 | 2019-04-05 | 北京合享智慧科技有限公司 | 一种训练结构化模型、文本结构化的方法及相关装置 |
CN109902145B (zh) * | 2019-01-18 | 2021-04-20 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110046351A (zh) * | 2019-04-19 | 2019-07-23 | 福州大学 | 规则驱动下基于特征的文本关系抽取方法 |
CN110046351B (zh) * | 2019-04-19 | 2022-06-14 | 福州大学 | 规则驱动下基于特征的文本关系抽取方法 |
CN110263226A (zh) * | 2019-05-10 | 2019-09-20 | 平安科技(深圳)有限公司 | 针对药品的数据库更新方法、装置及电子装置 |
CN110390099A (zh) * | 2019-06-28 | 2019-10-29 | 河海大学 | 一种基于模板库的对象关系抽取系统和抽取方法 |
CN110390099B (zh) * | 2019-06-28 | 2023-01-31 | 河海大学 | 一种基于模板库的对象关系抽取系统和抽取方法 |
CN112948535B (zh) * | 2019-12-10 | 2022-06-14 | 复旦大学 | 一种文本的知识三元组抽取方法、装置及存储介质 |
CN112948535A (zh) * | 2019-12-10 | 2021-06-11 | 复旦大学 | 一种文本的知识三元组抽取方法、装置及存储介质 |
CN111126067A (zh) * | 2019-12-23 | 2020-05-08 | 北大方正集团有限公司 | 实体关系抽取方法及装置 |
CN111324743A (zh) * | 2020-02-14 | 2020-06-23 | 平安科技(深圳)有限公司 | 文本关系抽取的方法、装置、计算机设备及存储介质 |
CN111597349A (zh) * | 2020-04-30 | 2020-08-28 | 西安理工大学 | 一种基于人工智能的轨道交通规范实体关系自动补全方法 |
CN111597349B (zh) * | 2020-04-30 | 2022-10-11 | 西安理工大学 | 一种基于人工智能的轨道交通规范实体关系自动补全方法 |
CN111783463A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 知识抽取方法和装置 |
CN112232074A (zh) * | 2020-11-13 | 2021-01-15 | 完美世界控股集团有限公司 | 实体关系抽取方法、装置、电子设备及存储介质 |
CN112232074B (zh) * | 2020-11-13 | 2022-01-04 | 完美世界控股集团有限公司 | 实体关系抽取方法、装置、电子设备及存储介质 |
CN113807518A (zh) * | 2021-08-16 | 2021-12-17 | 中央财经大学 | 基于远程监督的关系抽取系统 |
CN113807518B (zh) * | 2021-08-16 | 2024-04-05 | 中央财经大学 | 基于远程监督的关系抽取系统 |
CN114091464A (zh) * | 2022-01-24 | 2022-02-25 | 南京万得资讯科技有限公司 | 一种融合五维特征的高普适性多对多关系三元组抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108763353B (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763353A (zh) | 基于规则和远程监督的百度百科关系三元组抽取方法 | |
CN107066446B (zh) | 一种嵌入逻辑规则的循环神经网络文本情感分析方法 | |
Saha et al. | Proposed approach for sarcasm detection in twitter | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
CN108763477A (zh) | 一种短文本分类方法及系统 | |
Basiri et al. | A framework for sentiment analysis in persian | |
Goel et al. | Sentiment analysis of multilingual twitter data using natural language processing | |
CN110362833A (zh) | 一种基于文本的情感分析方法及相关装置 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
Van Hee et al. | Monday mornings are my fave:)# not exploring the automatic recognition of irony in english tweets | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
CN106599824B (zh) | 一种基于情感对的gif动画情感识别方法 | |
Anagha et al. | Fuzzy logic based hybrid approach for sentiment analysisl of malayalam movie reviews | |
de Diego et al. | A visual framework for dynamic emotional web analysis | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
Iqbal et al. | Sentiment analysis of social media content in pashto language using deep learning algorithms | |
Arora et al. | Sentimental Analysis on IMDb Movies Review using BERT | |
Dayalani et al. | Emoticon-based unsupervised sentiment classifier for polarity analysis in tweets | |
CN108694165A (zh) | 面向产品评论的跨领域对偶情感分析方法 | |
Emam et al. | Opinion mining techniques and tools: a case study on an Arab newspaper | |
Shekhar et al. | A pun identification framework for retrieving equivocation terms based on HLSTM learning model | |
Mehta et al. | Parameter tuning in updating the sentiment polarity of objective words in SentiWordNet | |
Patil et al. | Text Summarizer using NLP (Natural Language Processing) | |
Savanur et al. | ABSADM-Aspect-Based Sentiment Analysis using Distance Matrix |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |