CN114330293A - 一种基于图同构网络的谓词抽取方法 - Google Patents
一种基于图同构网络的谓词抽取方法 Download PDFInfo
- Publication number
- CN114330293A CN114330293A CN202111638017.6A CN202111638017A CN114330293A CN 114330293 A CN114330293 A CN 114330293A CN 202111638017 A CN202111638017 A CN 202111638017A CN 114330293 A CN114330293 A CN 114330293A
- Authority
- CN
- China
- Prior art keywords
- vector
- word
- node
- embedding
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012512 characterization method Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于图同构网络的谓词抽取方法。本发明使用了DDParser工具对文本句子进行解析,并利用句子解析后得到的词性结果对分词序列中的专用名词进行泛化。对Bert的嵌入部分做调整,加入对词性信息的编码,将泛化后的词序列输入到微调后的Bert模型中进行编码。使用GIN网络来获取依存树中每一个节点的嵌入向量以及依存子树的表征向量。再这之后通过一层注意力机制,将语义信息还有依存结构信息融合起来得到最终的节点嵌入向量。最后,本发明将最终的词嵌入向量集合输入到一个二分类器中,得到谓词结果。本发明使用了深度学习的方式学习句子的结构模板特征,大大减少了人们的工作量,有着较强的跨领域性和适应能力,有效提升了谓词抽取方法的准确性。
Description
技术领域
本发明涉及信息抽取领域,具体来讲是一种基于图同构网络的谓词抽取方法。
背景技术
信息抽取,即从自然语言文本中,抽取出特定的事实或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体、关系、事件等等。比如从新闻信息中抽取时间、地点、人物等信息,从病例数据中抽取患者症状、用药情况、疾病等信息。与其他自然语言任务相比,信息抽取任务更具有目的性,并能将抽取到的信息以指定的结构展现出现,从而达到从自然语言中提取用户感兴趣的事实信息的目的,在知识图谱领域中有着广泛的应用。
三元组抽取事一种经典的信息抽取任务,常见的三元组抽取结果可以用SPO三结构的三元组来表示,即Subject、Predication和Object。例如从文本“胡歌出演了《仙剑奇侠传》”中,可以提取出一个SPO三元组(“胡歌”,“出演”,“仙剑奇侠传”)。
在三元组抽取中,如何抽取出谓词是一个非常重要的问题。过去常用的谓词抽取方法有人工模板方法、统计生成方法和基于依存的方法。其中,人工模板和统计生成方法都将三元组抽取视为一个整体任务,通过制定模板来匹配文本中存在的三元组。人工模板方法的基本出发点是通过大量人工的统计和总结模式信息,由领域专家定义寻找谓词在上下文中表达的字符、语法特征等,将其作为一种模式与文本进行匹配,最后获取想要的三元组结果。为了减少人们的工作量,统计生成的方法被提出,该方法主要基于搜索引擎进行模板的生成工作,具体来说,该方法将已知的三元组事实作为查询语句,通过搜索引擎返回的前n个结果文档并保留包含该三元组的句子集合,最后将包含三元组的最长字符串作为统计模板并保留置信度较高的模板用于三元组抽取。这两种方法具有较高的准确率,但是它们的适用性有限,难以移植。基于依存句法的方法则是将三元组抽取分成两个步骤,首先通过文本的词性、依存结构等信息抽取谓词,然后再以这个谓词作为出发点,利用句子中各个成分之间的联系和关系构建规则抽取主体和客体。该方法相对于人工模板和统计模板的方法具有更高的准确率,且适用于小规模的数据集,但是它同样存在着耗时耗力、难以维护等问题。
发明内容
在综合考量上述问题后,本发明针对现有技术存在的问题,提出一种基于图同构网络的谓词抽取方法。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)使用DDParser工具对输入句子进行解析,得到分词结果、词性和句法依存树信息;
步骤(2)根据词性和分词结果,对分词中专有词进行泛化处理。对Bert的词嵌入部分进行微调,加入对词性信息的编码。将泛化后的词序列及步骤(1)中的词性数据作为微调后的Bert模型的输入,输出隐藏向量的集合;
步骤(3)遍历步骤(1)中的句法依存树中任意两个节点构成的子树,把这棵子树中每条边的信息转换为边向量,然后再将这棵子树的信息以及步骤(2)的隐藏向量输入到GIN网络中,获得节点嵌入向量,对节点嵌入向量做池化处理,得到子树的表征向量;
步骤(4)利用步骤(3)中的子树表征向量和步骤(2)中的每一个隐藏向量计算注意力权重,再将这个权重乘到步骤(3)中每个节点的嵌入向量中,得到最终的节点嵌入向量集合;
步骤(5)将步骤(4)中得到的带有语义信息的节点嵌入向量集合输入到一个二分类器中,得到一个二进制序列,序列中每一个二进制指示对应的词是否为谓词。
本发明有益效果如下:
本发明提出了一种基于图同构网络的谓词抽取方法。首先,本发明使用了DDParser工具对文本句子进行解析,并利用句子解析后得到的词性结果对分词序列中的专用名词进行泛化,以弱化一些无用语义信息对结果产生影响。于此同时,本发明对Bert的嵌入部分做了调整,加入了对词性信息的编码,将泛化后的词序列输入到微调后的Bert模型中进行编码。另外,为了强调原本句子中的依存结构信息,本发明使用了GIN网络来获取依存树中每一个节点的嵌入向量以及依存子树的表征向量。再这之后通过一层注意力机制,将语义信息还有依存结构信息融合起来得到最终的节点嵌入向量。最后,本发明将最终的词嵌入向量集合输入到一个二分类器中,得到谓词结果。对比现有的技术,本发明使用了深度学习的方式学习句子的结构模板特征,大大减少了人们的工作量,有着较强的跨领域性和适应能力,有效提升了谓词抽取方法的准确性。
附图说明
图1本发明的整体实施方案流程图
图2本发明的模型整体架构图
图3本发明的词嵌入构建图
图4本发明的注意力机制增强信息图
具体实施方式
下面结合附图对本发明作进一步描述。
如图1和2所示,一种基于图同构网络的谓词抽取方法,包括以下步骤:
一种基于图同构网络的谓词抽取方法,包括如下步骤:
步骤(1)使用DDParser工具对输入句子进行解析,得到分词结果、词性和句法依存树信息;
步骤(2)根据词性对分词中专有词进行泛化处理,得到泛化处理后输入句子对应的泛化词序列;对Bert模型的词嵌入部分进行微调,在词嵌入部分加入词性信息的编码;将泛化词序列及步骤(1)中的词性信息作为微调后的Bert模型的输入,输出隐藏向量集合;
步骤(3)遍历步骤(1)中句法依存树信息中任意一棵子树,把这棵子树中每条边的信息转换为边向量,然后再将这棵子树的信息以及步骤(2)的隐藏向量集合输入到GIN网络中,获得节点嵌入向量,对节点嵌入向量做池化处理,得到子树的表征向量;
步骤(4)利用步骤(3)中子树的表征向量和步骤(2)中的每一个隐藏向量计算注意力权重,再将这个注意力权重与步骤(3)中每个节点嵌入向量相乘,得到最终节点嵌入向量集合;
步骤(5)将步骤(4)中得到的带有语义信息的最终节点嵌入向量集合输入到一个二分类器中,得到一个二进制序列,序列中每一个二进制指示对应的词是否为谓词。
进一步的,所述步骤(1)具体实现过程如下:
使用DDParser对文本句子进行解析,得到结果:
X=(x1,x2,…,xn) (1)
T(X)=(t1,t2,…,tn) (2)
D(X)=Dependency_Parser(X) (3)
其中,X表示分词后的序列,公式(1)中x1,x2,…,xn表示分词结果,公式(2)中t1,t2,…,tn对应于公式(1)中x1,x2,…,xn的词性标注结果,D(X)是句法依存树。
进一步的,所述步骤(2)具体实现过程如下:
2-1根据词性标注结果T(X)对原序列X进行泛处理,具体的规则内容如下:将词性标注结果为“LOC”、“f”、“s”、“<TIME>”、“<LOC>”、“<PER>”、“<ORG>”、“nw”、“nz”的词替换为“PN”标签,得到泛化词序列X':
X'=(x'1,x'2,…,x'n) (4)
其中,x'1,x'2,…,x'n表示泛化后的词汇;
2-2如图3所示,对Bert模型的embedding结构做微调,在原来embedding结构中加入了Postag Embedding层用以添加词性信息;对泛化词序列X'做词嵌入处理,将泛化词序列X'送入Token Embedding层从而将每一个词转换为向量形式,将泛化词序列X'送入Position Embedding层获取每个词的顺序特征,将词性标注结果T(X)送入PostagEmbedding层获取每个词的词性特征,最后将这三个结果进行拼接输入到Bert模型中得到最终的词嵌入,得到输出隐藏向量集合;
词嵌入过程可以表达为如下式:
H=BERT(X',T(X))={h1,h2,…,hn} (5)
其中,H为输出的隐藏向量Ⅰ集合,h1,h2,…,hn为隐藏向量。
进一步的,所述步骤(3)具体实现过程如下:
3-1遍历依存树中的任意两个节点,计算这两个节点的最近公共祖先节点,获得以公共祖先节点为根、两个节点为叶的子树d(X);把子树d(X)中所有边信息转换为边向量,得到结果:
E={e1,e2,…,eq} (6)
其中q表示当前子树中边的总数;
3-2将隐藏向量集合H和子树d(X)输入到GIN网络中获取节点嵌入信息,其中,GIN网络由m层图同构卷积层组,每一层的计算过程如下式:
其中,表示节点i在第k层图同构卷积层输出的隐藏向量,在第1层图同构卷积层中为步骤(2)中Bert输出的隐藏向量,ε是一个可学习参数,N(i)表示节点i的所有邻接节点的集合,E(i)表示节点i的所有邻接边的集合,ep为对应边的边嵌入,MLP是多层感知机算法;
3-3对步骤3-2中得到的最终节点嵌入向量做最大池化处理,获取子树的表征向量:
进一步的,如图4所示,步骤(4)具体实现过程如下:
4-1采用注意力机制对表征向量中的有效信息进行增强,将子树表征向量hchild-tree作为Q,Bert模型输出的隐藏向量集合{h1,h2,…,hn}作为K,GIN网络输出的节点嵌入向量作为V,首先利用Q和K计算注意力权重wi,详细计算过程如下式:
接下来,模型将注意力权重pi应用对应的V中,得到最终节点嵌入向量oi,详细计算过程如下式:
进一步的,所述步骤(5)具体实现过程如下:
将最终的隐藏向量输入到一个二元分类器中,对每一个词分配一个二进制标签,该标签指示当前词是否为谓词,详细计算过程如下式:
pi=σ(Woi+b) (11)
其中W和b都是可学习参数,σ是sigmoid函数;
训练过程中,损失函数定义为:
Loss=CE(P,Y) (12)
其中P表示对标签的预测结果,Y表示真实标签,CE表示交叉熵损失函数。
Claims (6)
1.一种基于图同构网络的谓词抽取方法,其特征在于包括如下步骤:
步骤(1)使用DDParser工具对输入句子进行解析,得到分词结果、词性和句法依存树信息;
步骤(2)根据词性对分词中专有词进行泛化处理,得到泛化处理后输入句子对应的泛化词序列;对Bert模型的词嵌入部分进行微调,在词嵌入部分加入词性信息的编码;将泛化词序列及步骤(1)中的词性信息作为微调后的Bert模型的输入,输出隐藏向量集合;
步骤(3)遍历步骤(1)中句法依存树信息中任意一棵子树,把这棵子树中每条边的信息转换为边向量,然后再将这棵子树的信息以及步骤(2)的隐藏向量集合输入到GIN网络中,获得节点嵌入向量,对节点嵌入向量做池化处理,得到子树的表征向量;
步骤(4)利用步骤(3)中子树的表征向量和步骤(2)中的每一个隐藏向量计算注意力权重,再将这个注意力权重与步骤(3)中每个节点嵌入向量相乘,得到最终节点嵌入向量集合;
步骤(5)将步骤(4)中得到的带有语义信息的最终节点嵌入向量集合输入到一个二分类器中,得到一个二进制序列,序列中每一个二进制指示对应的词是否为谓词。
2.根据权利要求1所述的一种基于图同构网络的谓词抽取方法,其特征在于所述步骤(1)具体实现过程如下:
使用DDParser对文本句子进行解析,得到结果:
X=(x1,x2,…,xn) (1)
T(X)=(t1,t2,…,tn) (2)
D(X)=Dependency_Parser(X) (3)
其中,X表示分词后的序列,公式(1)中x1,x2,…,xn表示分词结果,公式(2)中t1,t2,…,tn对应于公式(1)中x1,x2,…,xn的词性标注结果,D(X)是句法依存树。
3.根据权利要求2所述的一种基于图同构网络的谓词抽取方法,其特征在于所述步骤(2)具体实现过程如下:
2-1根据词性标注结果T(X)对原序列X进行泛处理,具体的规则内容如下:将词性标注结果为“LOC”、“f”、“s”、“<TIME>”、“<LOC>”、“<PER>”、“<ORG>”、“nw”、“nz”的词替换为“PN”标签,得到泛化词序列X':
X'=(x'1,x'2,…,x'n) (4)
其中,x'1,x'2,…,x'n表示泛化后的词汇;
2-2对Bert模型的embedding结构做微调,在原来embedding结构中加入了PostagEmbedding层用以添加词性信息;对泛化词序列X'做词嵌入处理,将泛化词序列X'送入Token Embedding层从而将每一个词转换为向量形式,将泛化词序列X'送入PositionEmbedding层获取每个词的顺序特征,将词性标注结果T(X)送入Postag Embedding层获取每个词的词性特征,最后将这三个结果进行拼接输入到Bert模型中得到最终的词嵌入,得到输出隐藏向量集合;
词嵌入过程可以表达为如下式:
H=BERT(X',T(X))={h1,h2,…,hn} (5)
其中,H为输出的隐藏向量Ⅰ集合,h1,h2,…,hn为隐藏向量。
4.根据权利要求3所述的一种基于图同构网络的谓词抽取方法,其特征在于所述步骤(3)具体实现过程如下:
3-1遍历依存树中的任意两个节点,计算这两个节点的最近公共祖先节点,获得以公共祖先节点为根、两个节点为叶的子树d(X);把子树d(X)中所有边信息转换为边向量,得到结果:
E={e1,e2,…,eq} (6)
其中q表示当前子树中边的总数;
3-2将隐藏向量集合H和子树d(X)输入到GIN网络中获取节点嵌入信息,其中,GIN网络由m层图同构卷积层组,每一层的计算过程如下式:
其中,表示节点i在第k层图同构卷积层输出的隐藏向量,在第1层图同构卷积层中为步骤(2)中Bert输出的隐藏向量,ε是一个可学习参数,N(i)表示节点i的所有邻接节点的集合,E(i)表示节点i的所有邻接边的集合,ep为对应边的边嵌入,MLP是多层感知机算法;
3-3对步骤3-2中得到的最终节点嵌入向量做最大池化处理,获取子树的表征向量:
6.根据权利要求5所述的一种基于图同构网络的谓词抽取方法,其特征在于所述步骤(5)具体实现过程如下:
将最终的隐藏向量输入到一个二元分类器中,对每一个词分配一个二进制标签,该标签指示当前词是否为谓词,详细计算过程如下式:
pi=σ(Woi+b) (11)
其中W和b都是可学习参数,σ是sigmoid函数;
训练过程中,损失函数定义为:
Loss=CE(P,Y) (12)
其中P表示对标签的预测结果,Y表示真实标签,CE表示交叉熵损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111638017.6A CN114330293A (zh) | 2021-12-29 | 2021-12-29 | 一种基于图同构网络的谓词抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111638017.6A CN114330293A (zh) | 2021-12-29 | 2021-12-29 | 一种基于图同构网络的谓词抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114330293A true CN114330293A (zh) | 2022-04-12 |
Family
ID=81016398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111638017.6A Pending CN114330293A (zh) | 2021-12-29 | 2021-12-29 | 一种基于图同构网络的谓词抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114330293A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484870A (zh) * | 2022-09-09 | 2023-07-25 | 北京百度网讯科技有限公司 | 提取文本信息的方法、装置、设备、介质及计算机产品 |
-
2021
- 2021-12-29 CN CN202111638017.6A patent/CN114330293A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484870A (zh) * | 2022-09-09 | 2023-07-25 | 北京百度网讯科技有限公司 | 提取文本信息的方法、装置、设备、介质及计算机产品 |
CN116484870B (zh) * | 2022-09-09 | 2024-01-05 | 北京百度网讯科技有限公司 | 提取文本信息的方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177394B (zh) | 基于句法注意力神经网络的知识图谱关系数据分类方法 | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
Boyd-Graber et al. | Syntactic topic models | |
CN112069408B (zh) | 一种融合关系抽取的推荐系统及方法 | |
US7734556B2 (en) | Method and system for discovering knowledge from text documents using associating between concepts and sub-concepts | |
CN115688776B (zh) | 面向中文金融文本的关系抽取方法 | |
CN110597998A (zh) | 一种结合句法分析的军事想定实体关系抽取方法及装置 | |
CN109684642B (zh) | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 | |
CN111353306B (zh) | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN109062904B (zh) | 逻辑谓词提取方法和装置 | |
CN112559656A (zh) | 基于水文事件的事理图谱构建方法 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN111581954A (zh) | 一种基于语法依存信息的文本事件抽取方法及装置 | |
CN110347796A (zh) | 向量语义张量空间下的短文本相似度计算方法 | |
CN117236338B (zh) | 一种稠密实体文本的命名实体识别模型及其训练方法 | |
WO2023155303A1 (zh) | 网页数据的提取方法和装置、计算机设备、存储介质 | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN115496072A (zh) | 一种基于对比学习的关系抽取方法 | |
CN116628186A (zh) | 文本摘要生成方法及系统 | |
CN114330293A (zh) | 一种基于图同构网络的谓词抽取方法 | |
CN110633468B (zh) | 一种关于对象特征提取的信息处理方法及装置 | |
CN115310429B (zh) | 一种多轮倾听对话模型中的数据压缩与高性能计算方法 | |
CN116483314A (zh) | 一种自动化智能活动图生成方法 | |
CN116383357A (zh) | 面向知识图谱的查询图生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |