CN113553828A - 基于义原编码的层次级远程监督关系抽取方法 - Google Patents
基于义原编码的层次级远程监督关系抽取方法 Download PDFInfo
- Publication number
- CN113553828A CN113553828A CN202110823952.3A CN202110823952A CN113553828A CN 113553828 A CN113553828 A CN 113553828A CN 202110823952 A CN202110823952 A CN 202110823952A CN 113553828 A CN113553828 A CN 113553828A
- Authority
- CN
- China
- Prior art keywords
- sentence
- relation
- semantic
- vector
- super
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于义原编码的层次级远程监督关系抽取方法,包括如下步骤:步骤1:将训练数据集中的所有句子,将包含相同实体对的句子分配到同一包中;步骤2:词向量编码;步骤3:位置向量编码;步骤4:PCNN特征提取;步骤5:层次级关系注意力机制;步骤6:构建超包级别训练实例;步骤7:训练调优,最终得到关系抽取模型。本发明利用关系之间的联系来丰富训练数据,通过顶层关系的粗粒度特征弥补训练数据不足的长尾部分,再从关系层次上构建超包,降低学到错误关系特征的影响并近似忽略整个句子包都是错误实例的可能,有效减少对数据的依赖,降低数据质量对最终结果的波动影响,从而提高关系抽取的准确率。
Description
技术领域
本发明属于自然语言处理和人工智能技术,具体的说是一种基于义原编码的缓解长尾关系问题的知识图谱关系抽取方法。
背景技术
知识图谱(Knowledge Graph)由Google于2012年首次提出,通过结构化形式将客观世界中的概念、实体结合在一起,将互联网中存在的海量数据信息进行有效的组织、管理并理解,使之更接近人类的认知世界。
实体关系抽取是知识图谱生成过程中的重要环节,致力于挖掘出文本中实体对之间的语义关系,也是自然语言处理、信息检索等领域的关键任务。传统的基于深度学习技术的有监督关系抽取,需要大量人工标注好的训练数据集,前期工作量较大。为了从繁重的样本标注工作中解放出来,远程监督关系抽取应运而生:通过知识库和自然语言文本的自动对齐生成标记数据。但这种简单的自动对齐机制也带来了一系列的噪声影响,
Daojian Zeng、Kang Liu、Yubo Chen和Jun Zhao发表了Distant Supervisionfor Relation Extraction via Piecewise Convolutional Neural Networks,Zeng等人提出了多实例学习的假设,认为句子包中至少有一个实例是正确的,并使用分段卷积神经网络提取文本特征。
Y Lin,S Shen,Z Liu,H Luan和M Sun发表了Neural Relation Extraction withSelective Attention over Instances,Lin等人提出了基于句子级注意力机制的关系抽取模型,通过给每个句子分配权重以动态降低错误样本的影响。
He D、Zhang H、Hao W、Zhang R、Chen G、Jin D和Cheng K.发表了Distantsupervised relation extraction via long short term memory networks with sentence embedding.Intelligent Data Analysis,He等人提出利用SE-LSTM提取实体对方向信息,结合多实例学习解决错误传播问题,释放了对NLP工具包的依赖。
然而这些方法都依赖数据驱动,在语料库性能不够稳定的情况下,对下游任务具有一定影响;同时,目前的工作大部分局限于孤立的处理每种关系,忽略了关系之间的联系,而这种联系的挖掘有助于发现潜在的关系特征,进一步丰富训练数据少的样本。
发明内容
远程监督关系抽取的最大优势是将知识库自动对齐自然语言文本,生成标记数据,在省去大量人力成本的同时但也不可避免的会带来噪声数据影响。目前的研究集中于使用神经网络自动提取特征,但该方法局限于数据驱动,语料库的好坏对最终结果会产生较大波动,为了解决现有技术中的缺陷,本发明利用HowNet人工知识库作为先验知识,降低对低频词的词向量生成效果较差的影响。针对语料库普遍存在的长尾问题,句子实例相对较少的句子包训练不充分,研究通过利用关系之间的联系来丰富训练数据,从基本关系得到细粒度特征,顶层抽象关系捕获多个相关子关系共享的公共特征,从而提供粗粒度特征,通过利用关系之间的联系来丰富训练数据不足的长尾部分;同时,为降低学到错误关系特征影响,考虑从关系层次上构建超包,将超包设置为训练实例,进而从更高层次上减少错误标签噪声的影响,以提高关系抽取的准确率。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明一种基于义原编码的层次级远程监督关系抽取方法,包括如下步骤:
步骤1:将训练数据集中的所有句子,将包含相同实体对的句子分配到同一包中;
步骤2:利用HowNet知识库,为每个单词标注了精确的语义,并将语义拆解为多个义原组合,根据单词所在上下文迭代执行词义消歧,直到学习出单词的义原向量组合表示。利用注意力机制选择出最符合语境的语义,得到单词的向量表征,最符合语境的语义的选择通过注意力机制为语义分配权重,代表单词w的第j种语义向量;
步骤3:根据步骤1中每个句子的每个单词相对实体对的距离训练得到位置向量;
步骤4:将步骤2通过义原编码的词向量和步骤3的位置向量拼接在一起得到句子向量,句子向量Xi表示为:Xi∈Rd(d=dw+dp×2)其中:dw是单词义原编码后长度,dp是位置向量长度,将句子向量输入PCNN即分段卷积神经网络,与给定的卷积核W进行卷积操作,卷积是指针对相同维度,矩阵A=(aij)m×n,矩阵B=(bij)m×n,进行操作,因此将Xi与给定卷积核W={w1,w2,...,w|m|},进行卷积操作后,根据实体对在句子中分成3段后的每一段做最大池化:pi1=max(ci1);
步骤5:对于步骤1给定的一组包含相同实体对的句子集,将经过PCNN特征提取后的低维的句子向量在关系层次结构的每一层上都进行注意力计算也就是说步骤5中句子向量与给定基本关系的每一个层次关系,例如:/地点/国家/首都与/地点/国家和/地点分别进行注意力计算,最终将不同层次上的向量信息进行拼接形成完整的句子集向量;
步骤6:构建超包级别训练实例:得到每个包针对不同关系层级的句子集向量表示后,从关系的角度重新打包,即为每种关系构造一个超包,并将超包设置为训练实例。计算超包中每一组包的注意力权重,得到超包的特征,模型最终在超包级别上进行训练调优;此步骤中超包其中,ns是超包的大小,Bi是标注了第k种关系的句子包。因此,超包B的特征其中
步骤7:关系抽取模型:使用交叉熵目标损失函数J,采用随机梯度下降来最小化损失函数进行训练调优,最终得到关系抽取模型。
本发明的有益效果是:
1、使用HowNet人工知识库作为先验知识,降低纯数据驱动向量编码对低频词的词向量生成效果较差的影响。
2、针对语料库普遍存在的长尾关系数据稀疏问题,利用关系之间的联系来丰富训练数据:从基本关系得到细粒度特征,顶层抽象关系捕获多个相关子关系共享的公共特征,从而提供粗粒度特征,通过利用关系之间的联系来丰富训练数据不足的长尾部分。
3、从更高的关系层次上构建超包,不仅能降低学到错误关系特征的影响,而且能近似忽略整个句子包都是错误实例的可能,进而从更高层次上减少错误标签噪声的影响,以提高关系抽取的准确率。
附图说明
图1是本发明基于义原编码的层次级远程监督关系抽取算法流程图。
图2是本发明“联想”的义原树演示示例。
图3是本发明层次级注意力机制模型结构。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
如图1所示,本发明是一种基于义原编码的层次级远程监督关系抽取方法,主要分为向量编码、PCNN特征提取,层次级关系注意力机制、以超包构建训练实例四步。其中,向量编码由基于HowNet先验知识的词向量和相对实体对的位置向量拼接而成。
义原指词义的最小语义单位,包括词在内的所有概念的语义都可使用一个有限的义原集合去表示。
基于HowNet人工知识库,HowNet知识库为每个单词都标注了语义,并将每种语义拆解为多个义原组合。图2以“联想”为例给出了义原、义项、词语的三层结构。“联想”有两种含义:一种是指精神上的连接,另一种是电脑品牌。第三层及以下将每种词义拆解为多个细粒度的义原组合用于解释词义。
为降低目前广泛使用的如CBOW、Skip-gram等纯数据驱动向量编码对低频词的词向量生成效果较差的影响,将义原知识融入到词表征学习中,在低维语义空间中学习改进的词嵌入,提高词向量的表征能力。
具体地说,将每个词义视为其义原的组合,根据单词所在上下文迭代执行词义消歧,并通过扩展word2vec中的Skip-gram学习义原、义项和单词的表示。主要利用上下文信息对中心词词义的关注程度,从而选择出符合语境的义原信息,为中心词的生成表示提供必要的辅助,也就提升了中心词的向量表示能力。其中,使用注意力机制为不同语义分配权重,代表单词w的第j种语义向量。
得到词向量后,对单词进行位置编码,位置信息表明每个单词在句子中相对实体对的距离。位置信息在开始时被随机初始化为位置向量,并在训练期间不断更新,最后把词向量和位置向量拼接在一起。因此句子向量Xi表示为:Xi∈Rd(d=dw+dp×2),dw是单词义原编码后长度,dp是位置向量长度。
卷积是指针对相同维度,矩阵A=(aij)m×n,矩阵B=(bij)m×n,进行操作。将上述步骤得到的句子向量Xi与给定卷积核W={w1,w2,...,w|m|},进行卷积操作后,根据实体对在句子中位置将其分成3段,对每一段做最大池化,即取每一段的最大值:pij=max(cij),j∈1,2,3。
针对语料库普遍存在的长尾关系数据稀疏问题,将句子向量与给定基本关系的每一个层次关系如:/地点/国家/首都与/地点/国家和/地点分别进行注意力计算。注意力计算是指计算每个句子与给定关系的匹配程度,s是每一个句子向量,qr i是每一个层级关系向量。因此,句子集S在每一层上的分布式向量表示为:最终将不同层次上的向量信息进行拼接形成完整的句子集向量。
得到每个包针对不同关系层级的向量表示后,从关系的角度重新打包,即为每种关系构造一个超包其中,ns是超包的大小,Bi是标注了第k种关系的句子包,并将超包设置为训练实例。计算超包中每一组包的注意力权重,得到超包B的特征其中模型最终在超包级别上进行训练调优。
本发明主要解决远程监督关系抽取将知识库自动对齐自然语言文本生成标记数据这种强假设条件所带来的噪声问题,与目前研究广泛使用的数据驱动方式不同,利用HowNet人工知识库作为先验知识,降低对低频词的词向量生成效果较差的影响。通过顶层关系的粗粒度特征弥补训练数据不足的长尾部分,降低学到错误关系特征的影响并近似忽略整个句子包都是错误实例的可能。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。
Claims (6)
1.一种基于义原编码的层次级远程监督关系抽取方法,其特征在于:所述关系抽取方法包括如下步骤:
步骤1:将训练数据集中的所有句子,将包含相同实体对的句子分配到同一包中;
步骤2:词向量编码:基于HowNet人工知识库,为步骤1中的每个句子的每个单词分配义原组合,选择出最符合语境的语义,得到单词的向量表征;
步骤3:位置向量编码:根据步骤1中每个句子的每个单词相对实体对的距离训练得到位置向量;
步骤4:PCNN特征提取:将步骤2通过义原编码的词向量和步骤3的位置向量拼接在一起得到句子向量,将句子向量输入PCNN,与给定的卷积核W进行卷积操作,然后根据实体对在句子中的位置,将卷积后的结果分成3段,每段取最大值做最大池化;
步骤5:层次级关系注意力机制:对于步骤1给定的一组包含相同实体对的句子集,将经过PCNN特征提取后的低维的句子向量在关系层次结构的每一层上都进行注意力计算,最终将不同层次上的向量信息进行拼接形成完整的句子集向量;
步骤6:构建超包级别训练实例:得到每个包针对不同关系层级的句子集向量表示后,从关系的角度重新打包,即为每种关系构造一个超包,并将超包设置为训练实例。计算超包中每一组包的注意力权重,得到超包的特征,模型最终在超包级别上进行训练调优;
步骤7:关系抽取模型:使用交叉熵目标损失函数J,采用随机梯度下降来最小化损失函数进行训练调优,最终得到关系抽取模型。
3.根据权利要求1所述基于义原编码的层次级远程监督关系抽取方法,其特征在于:所述步骤4中,句子向量Xi表示为:
Xi∈Rd(d=dw+dp×2)
其中:dw是单词义原编码后长度,dp是位置向量长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110823952.3A CN113553828B (zh) | 2021-07-21 | 2021-07-21 | 基于义原编码的层次级远程监督关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110823952.3A CN113553828B (zh) | 2021-07-21 | 2021-07-21 | 基于义原编码的层次级远程监督关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553828A true CN113553828A (zh) | 2021-10-26 |
CN113553828B CN113553828B (zh) | 2023-06-16 |
Family
ID=78103736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110823952.3A Active CN113553828B (zh) | 2021-07-21 | 2021-07-21 | 基于义原编码的层次级远程监督关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553828B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1164537A2 (en) * | 2000-06-16 | 2001-12-19 | Canon Kabushiki Kaisha | Apparatus and method for detecting or recognizing pattern by employing a plurality of feature detecting elements |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN109635124A (zh) * | 2018-11-30 | 2019-04-16 | 北京大学 | 一种结合背景知识的远程监督关系抽取方法 |
US20200117856A1 (en) * | 2017-04-03 | 2020-04-16 | Siemens Aktiengesellschaft | A method and apparatus for performing hierarchiacal entity classification |
-
2021
- 2021-07-21 CN CN202110823952.3A patent/CN113553828B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1164537A2 (en) * | 2000-06-16 | 2001-12-19 | Canon Kabushiki Kaisha | Apparatus and method for detecting or recognizing pattern by employing a plurality of feature detecting elements |
US20200117856A1 (en) * | 2017-04-03 | 2020-04-16 | Siemens Aktiengesellschaft | A method and apparatus for performing hierarchiacal entity classification |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN109635124A (zh) * | 2018-11-30 | 2019-04-16 | 北京大学 | 一种结合背景知识的远程监督关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
李枫林;柯佳;: "基于深度学习框架的实体关系抽取研究进展", 情报科学, no. 03 * |
Also Published As
Publication number | Publication date |
---|---|
CN113553828B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Deep Neural Networks in Machine Translation: An Overview. | |
CN109472024B (zh) | 一种基于双向循环注意力神经网络的文本分类方法 | |
CN109635124B (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN107967262B (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN108717574B (zh) | 一种基于连词标记和强化学习的自然语言推理方法 | |
CN107273358B (zh) | 一种基于管道模式的端到端英文篇章结构自动分析方法 | |
Yang et al. | Generating thematic chinese poetry using conditional variational autoencoders with hybrid decoders | |
CN107203511A (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN108280112A (zh) | 摘要生成方法、装置及计算机设备 | |
CN108334495A (zh) | 短文本相似度计算方法及系统 | |
CN105938485A (zh) | 一种基于卷积循环混合模型的图像描述方法 | |
CN109885824A (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN111753557A (zh) | 融合emd最小化双语词典的汉-越无监督神经机器翻译方法 | |
CN110516244B (zh) | 一种基于bert的句子自动填充方法 | |
CN110619034A (zh) | 基于Transformer模型的文本关键词生成方法 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN108268449A (zh) | 一种基于词项聚类的文本语义标签抽取方法 | |
CN112905795A (zh) | 文本意图分类的方法、装置和可读介质 | |
CN104462072A (zh) | 面向计算机辅助翻译的输入方法与装置 | |
CN111914555B (zh) | 基于Transformer结构的自动化关系抽取系统 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN113204674A (zh) | 基于局部-整体图推理网络的视频-段落检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |