CN110633467B - 一种基于改进特征融合的语义关系抽取方法 - Google Patents

一种基于改进特征融合的语义关系抽取方法 Download PDF

Info

Publication number
CN110633467B
CN110633467B CN201910811049.8A CN201910811049A CN110633467B CN 110633467 B CN110633467 B CN 110633467B CN 201910811049 A CN201910811049 A CN 201910811049A CN 110633467 B CN110633467 B CN 110633467B
Authority
CN
China
Prior art keywords
semantic
training
participle
layer
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910811049.8A
Other languages
English (en)
Other versions
CN110633467A (zh
Inventor
庞宁
谭真
赵翔
张啸宇
殷风景
唐九阳
葛斌
肖卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910811049.8A priority Critical patent/CN110633467B/zh
Publication of CN110633467A publication Critical patent/CN110633467A/zh
Application granted granted Critical
Publication of CN110633467B publication Critical patent/CN110633467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于改进特征融合的语义关系抽取方法,包括以下步骤:建立训练样本集;构建语义关系抽取模型;训练语义关系抽取模型;建立待抽取语义的数据集;利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。本发明设计了一种保留谓词的依存路径,所述的依存路径包含两个子路径,子路径分别为根节点分别到两个实体的最短路径,与原本的分词序列同时作为输入,用于实体对之间语义关系的抽取,从而达到更准确的关系预测;加入多实例学习方法,用于在样本稀疏条件下的噪声抑制,与注意力机制相比,该机制不存在欠拟合问题,更适合稀疏样本下的中文文本语义关系抽取问题。

Description

一种基于改进特征融合的语义关系抽取方法
技术领域
本发明属于中文文本语义关系抽取领域,具体涉及一种基于改进特征融合的在稀疏中文文本中进行实体语义关系抽取的方法。
背景技术
近年来,知识图谱在一系列知识驱动的应用中发挥极其重要的作用,例如,机器翻译、推荐系统和问答系统等,而关系抽取技术是知识图谱自动构建的关键一环,具有重要的现实意义。关系抽取是通过理解非结构化文本所包含的语义信息,获得标注实体对的语义关系的过程。当前,主流的关系抽取方法是基于有监督和远程监督的关系抽取方法。
传统的有监督关系抽取方法受自然语言处理工具中错误累积的影响,为了避免这一问题,神经网络开始广泛用于文本的嵌入表示,自动提取文本语义特征。监督方法需要明确的人工注释文本,标注过程耗时耗力。为了解决这一问题,提出了一种替代范式,即远程监督。该范式利用现有知识图谱Freebase提供监督,启发式地将文本与Freebase对齐,来生成大量弱注释数据。很明显,这种启发式对齐方法会带来噪声数据,这会严重影响关系抽取器的性能。
为了解决错误的注释问题,多实例学习方法被提出可以用来缓解远程监督下的错误标注问题,另外,选择性注意机制具有可训练的参数,通过学习,拟合在噪声上的概率分布,并动态地去削弱噪声实例影响。然而,在数据稀疏情况下,传统的注意力机制和多实例学习并不能很好地拟合在噪声数据上的概率分布,使得从含噪的稀疏文本中对语义关系进行抽取的效果并不理想。另外,现有的关系抽取方法在英文语料上发展较为先进,而在中文语料的关系抽取研究相对落后。
发明内容
有鉴于此,本发明的目的在于提出一种基于改进特征融合的语义关系抽取方法,用于从非结构的语料中抽取结构化的知识,特别是从含噪稀疏的中文文本中进行语义关系抽取。
基于上述目的,本发明提供的一种基于改进特征融合的语义关系抽取方法,包括以下步骤:
步骤1,建立中文文本训练样本集;
步骤2,构建语义关系抽取模型;
步骤3,训练语义关系抽取模型;
步骤4,建立待抽取语义的数据集;
步骤5,利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。
所述的训练样本集是利用知识图谱远程监督维基百科上的语料自动生成弱标注的数据,每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签;
所述的依存路径为保留谓词的依存路径,所述的依存路径包含两个子路径,子路径分别为根节点分别到两个实体的最短路径。
进一步地,所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层,上述各层先后依次连接,所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口;所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间;所述卷积层为两个独立的卷积网络,分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征;所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合;所述全连接层将实例映射至已定义的关系集合上,获得实体对之间的语义关系。
进一步地,所述的语义关系抽取模型还包括多实例学习机制模块,从全连接层中获取数据,将学习的结果反馈到卷积层,指导卷积层的计算操作;所述的多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例,丢弃其他实例,抑制噪声实例影响。
具体地,步骤3中,训练语义关系抽取模型的过程为:初始化后,以交叉熵作为损失函数,通过多实例学习方法,采用随机梯度下降法对所述的语义关系抽取模型进行迭代更新模型参数,每迭代一次检验一次梯度,以寻求各网络层权重和偏置的最优解,迭代多次后得到本次训练的最优语义关系抽取模型。
由此,在步骤5中,利用训练好的语义关系抽取模型,对含有噪声的中文文本进行语义关系抽取,从非结构文本数据中获得结构化知识。
与现有技术相比,本发明以下优点和有益效果:
(1)本发明提出的依存路径为根节点到实体对最短路径,定义为:该路径包含两个子路径,子路径分别为根节点分别到两个实体的最短路径,优点在于这样的路径设计可以最大可能地保留谓词,谓词在实体对之间的语义关系确定过程中十分关键。
(2)本发明充分利用关系实例的两种信息表示,即分词序列和依存路径,通过特征融合层将二者有效结合,为准确预测目标实体对的语义关系提供更全面的信息。
(3)本发明在模型基础上,加入多实例学习方法,用于在中文样本稀疏条件下的噪声抑制,与注意力机制相比,该机制不存在欠拟合问题,更适合稀疏样本下的语义关系抽取问题。
附图说明
图1为本发明实施例的整体流程示意图;
图2为本发明设计保留谓词的依存路径优势示意图;
图3为本发明的语义关系抽取模型的结构示意图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
如图1所示,一种基于改进特征融合的语义关系抽取方法,包括以下步骤:
步骤1,建立中文文本训练样本集;
步骤2,构建语义关系抽取模型;
步骤3,训练语义关系抽取模型;
步骤4,建立待抽取语义的数据集;
步骤5,利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。
所述的训练样本集是利用知识图谱远程监督维基百科上的语料自动生成弱标注的数据,每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签。对于每一条中文文本,预先确定其中包含的实体对,通过分词工具得到原文本的分词序列,通过句法分析工具得到句法分析树,并从中提取出依存路径。将相同实体对的实例放在一起,成为一个实例包,为后续的多实例学习机制的去噪做数据准备。
现有技术中的依存路径是最短依存路径,定义为:在句法分析依存树中实体对之间的最短路径。本发明提出的依存路径为根节点到实体对最短路径,定义为:该路径包含两个子路径,子路径分别为根节点分别到两个实体的最短路径。保留谓词的依存路径实际上是从根词到两实体的两条最短路径的拼接。好处在于这样的路径设计可以最大可能地保留谓词,谓词在实体对之间的语义关系确定过程中十分关键。
如图2所示,在现有技术中的最短依存路径中,导致了谓词丢失,而在本发明中所设计的结构,谓词“结婚”被保留下来,这对于预测冯光荣与马维欣的“夫妻”关系十分关键。
如图3所示,所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层,上述各层先后依次连接,所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口;所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间;所述卷积层为两个独立的卷积网络,分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征;所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合;所述全连接层将实例映射至已定义的关系集合上,获得实体对之间的语义关系。
所述的语义关系抽取模型还包括多实例学习机制模块,从全连接层中获取数据,将学习的结果反馈到卷积层,指导卷积层的计算操作;所述的多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例,丢弃其他实例,抑制噪声实例影响。
具体地,所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口,在本实施例下,输入接口数量为2,分别对应分词序列和依存路径,每一条实例的输入定义如下:
Figure BDA0002184599950000061
Figure BDA0002184599950000062
其中,x代表输入的分词序列,
Figure BDA0002184599950000063
代表分词序列中的第i个分词,s代表输入的依存路径,
Figure BDA0002184599950000064
代表依存路径上的第i个分词,在该实施例下m和n设为固定值100和40。
具体地,所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间,该层分别将输入的分词序列和依存路径上的每一个分词映射为向量表示,在本实施例中,每个分词的向量表示包含词向量、位置向量和词性标注向量三部分,其中词向量通过Word2Vec算法预先训练得到,包含分词的语义信息,维度为50,位置向量通过随机初始化得到,包含分词在分词序列或依存路径中的位置信息,维度为10,词性标注向量表示为单位向量,包含分词的词性信息,维度为15。因此,在分词序列或者依存路径中的任意一个分词可以进行如下的向量表示:wi=[vword:vposition:vtag],其中,vword,vposition和vtag分别表示分词的词向量,位置向量和词性标注向量,wi的维度为k,在本实施例中k为75。
将每一个分词向量表示按照分词序列和依存路径中的顺序先后水平连接,得到分词序列和依存路径的向量表示,表示为:
Figure BDA0002184599950000065
Figure BDA0002184599950000066
其中,X代表分词序列经过嵌入层之后的向量表示,Wi x代表分词序列中第i个分词的向量表示,S代表依存路径经过嵌入层之后的向量表示,Wi s代表依存路径中第i个分词的向量表示。
所述卷积层为两个独立的卷积网络,分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征。因为两个卷积网络具有相同的运算机制,再此仅以分词序列为例说明在该实施例下该层的定义和运算。为从数据中获得更多有用信息,每一个卷积网络设置多个卷积滤子,表示为
Figure BDA0002184599950000071
在本实施例中,卷积滤子数量d设置为230,窗口大小设w为3,卷积操作定义为:
Figure BDA0002184599950000072
Figure BDA0002184599950000073
其中,1<i<d,1≤j≤m-w+1,
Figure BDA0002184599950000074
为第i个卷积滤子,si:j为第i个分词到第j个分词向量表示的水平串联,
Figure BDA0002184599950000075
表示矩阵的点积运算,最终每一个卷积滤子生成一个中间特征向量
Figure BDA0002184599950000076
因此,全部卷积滤子生成的中间特征向量序列为C={c1,c2,…,cd}。在卷积运算后,最大池化用来提取每一个维度中最显著的特征,定义为:
Figure BDA0002184599950000077
cij为C中对应位置的元素。最终生成每一条分词序列的特征向量
Figure BDA0002184599950000078
类似地,对于每条依存路径可以生成特征向量
Figure BDA0002184599950000079
所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合,本质上,是对来自分词序列和对应依存路径两方面的特征向量的加权求和,定义为:p=αpx+(1-α)ps,其中,α为权重稀疏,在本实施例中取值为0.5。ps为每条依存路径的特征向量,px为每条分词序列的特征向量。
所述全连接层将实例映射至已定义的关系集合上,获得实体对之间的语义关系,其定义为:o=Up+v,其中,
Figure BDA00021845999500000710
为系数矩阵,
Figure BDA00021845999500000711
为偏置,
Figure BDA00021845999500000712
为对应于所有关系类型的置信分数,其中nr是所有关系的数量,本实施例中设为5,置信分数最高的关系被认为是该实体对之间的语义关系。
所述多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例,丢弃其他实例,抑制噪声实例影响。训练数据有一系列实例包,表示为B={B1,B2,…,BN}。任一个实例包Bi中包含|Bi|个实例,在该机制下,损失函数定义为:
Figure BDA00021845999500000713
Figure BDA0002184599950000081
其中,
Figure BDA0002184599950000082
为实例包Bi中的一个实例,okr为实例
Figure BDA0002184599950000083
对应关系j的置信分数,θ为模型中的全部参数。θ更新的原则为:
Figure BDA0002184599950000084
其中,η为学习率。
故步骤3中,训练语义关系抽取模型的过程为:初始化后,以交叉熵作为损失函数,通过多实例学习方法,采用随机梯度下降法对所述的语义关系抽取模型进行迭代更新模型参数,每迭代一次检验一次梯度,以寻求各网络层权重和偏置的最优解,迭代多次后得到本次训练的最优语义关系抽取模型。
由于在不同的初始化条件下用随机梯度下降法训练模型,所以每一次预测结果都不一样,可以将不同初始条件训练得到的模型的预测做统计平均后作为整个系统的输出,最终得到语义关系的预测系统。
具体地,训练语义关系抽取模型的具体步骤如下:
步骤301,将训练样本数据集中的实例包写入到数据文件中,数据文件的数据格式与语义关系抽取模型的读入数据接口相符;
步骤302,设定训练参数:包括读入文件路径,迭代次数,学习率,设定每一网络层的所用维度和尺寸,初始训练权重和训练偏置;
步骤303,加载训练文件:加载语义关系抽取模型定义文件、网络层参数定义文件和训练数据数据组成的训练集;
步骤304,通过多实例学习方法,采用随机梯度下降法对语义关系抽取模型进行迭代更新模型参数,每迭代一次检验一次梯度,以寻求各网络层权重和偏置的最优解,迭代多次后得到本次训练的最优语义关系抽取模型;
步骤305,将样本集中后30%的数据作为测试样本集,将测试样本集采取训练样本集相同预处理方式,利用得到的语义关系预测系统对测试样本集中的数据进行测试。
现有的关系抽取方法在英文语料上发展较为先进,而在中文语料的关系抽取研究相对落后,因此,利用远程监督所构造的训练数据相对较少,不足以使注意力机制充分拟合,针对注意力机制欠拟合的问题,本发明采用多实例学习方法,该机制无需学习参数,更适用于样本稀疏的中文文本情况。此外,当前的关系抽取方法采用单一输入,词序列或者依存路径,而实际上,二者存在互补关系,词序列为依存路径提供补充信息,依存路径去除词序列中的噪声分词,受到这一观察的启发,本发明设计了一种保留谓词的依存路径,叫做根节点到实体对最短依存路径(以下简称为依存路径),与原本的分词序列同时作为输入,用于实体对之间语义关系的抽取,从而达到更准确的关系预测。
上述实施例为本发明方法是基于改进特征融合的在含噪稀疏中文文本中的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于改进特征融合的语义关系抽取方法,其特征在于,包括以下步骤:
步骤1,建立中文文本训练样本集;
步骤2,构建语义关系抽取模型;
步骤3,训练语义关系抽取模型;
步骤4,建立待抽取语义的数据集;
步骤5,利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系;
所述的训练样本集是利用知识图谱远程监督维基百科上的语料自动生成弱标注的数据,每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签;
所述的依存路径为保留谓词的依存路径,所述的依存路径包含两个子路径,子路径分别为根节点分别到两个实体的最短路径;
所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层,上述各层先后依次连接,所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口;所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间;所述卷积层为两个独立的卷积网络,分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征;所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合;所述全连接层将实例映射至已定义的关系集合上,获得实体对之间的语义关系。
2.根据权利要求1所述的语义关系抽取方法,其特征在于,所述的语义关系抽取模型还包括多实例学习机制模块,从全连接层中获取数据,将学习的结果反馈到卷积层,指导卷积层的计算操作;所述的多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例,丢弃其他实例,抑制噪声实例影响。
3.根据权利要求2所述的语义关系抽取方法,其特征在于,训练语义关系抽取模型的过程为:初始化后,以交叉熵作为损失函数,通过多实例学习方法,采用随机梯度下降法对所述的语义关系抽取模型进行迭代更新模型参数,每迭代一次检验一次梯度,以寻求各网络层权重和偏置的最优解,迭代多次后得到本次训练的最优语义关系抽取模型。
4.根据权利要求2所述的语义关系抽取方法,其特征在于,所述输入层的输入接口数量为2,分别对应分词序列和依存路径,每一条实例的输入定义如下:
Figure FDA0003957760530000021
其中,x代表输入的分词序列,
Figure FDA0003957760530000022
代表分词序列中的第i个分词,s代表输入的依存路径,
Figure FDA0003957760530000023
代表依存路径上的第i个分词;
所述的嵌入层分别将输入的分词序列和依存路径上的每一个分词映射为向量表示,每个分词的向量表示包含词向量、位置向量和词性标注向量三部分,其中词向量通过Word2Vec算法预先训练得到,包含分词的语义信息,位置向量通过随机初始化得到,包含分词在分词序列或依存路径中的位置信息,词性标注向量表示为单位向量,包含分词的词性信息;在分词序列或者依存路径中的任意一个分词可以进行如下的向量表示:wi=[vword:vposition:vtag],其中,vword,vposition和vtag分别表示分词的词向量,位置向量和词性标注向量,wi的维度为k;
将每一个分词向量表示按照分词序列和依存路径中的顺序先后水平连接,得到分词序列和依存路径的向量表示,表示为:
Figure FDA0003957760530000024
Figure FDA0003957760530000025
其中,X代表分词序列经过嵌入层之后的向量表示,
Figure FDA0003957760530000026
代表分词序列中第i个分词的向量表示,S代表依存路径经过嵌入层之后的向量表示,Wi s代表依存路径中第i个分词的向量表示。
5.根据权利要求4所述的语义关系抽取方法,其特征在于,所述的卷积层为两个独立的卷积网络具有相同的运算机制,每一个卷积网络设置多个卷积滤子,表示为
Figure FDA0003957760530000031
卷积滤子数量为d,窗口大小为w,卷积操作定义为:
Figure FDA0003957760530000032
Figure FDA0003957760530000033
其中,1<i<d,1≤j≤m-w+1,
Figure FDA0003957760530000034
为第i个卷积滤子,si:j为第i个分词到第j个分词向量表示的水平串联,
Figure FDA0003957760530000035
表示矩阵的点积运算,最终每一个卷积滤子生成一个中间特征向量
Figure FDA0003957760530000036
全部卷积滤子生成的中间特征向量序列为C={c1,c2,…,cd},最大池化用来提取每一个维度中最显著的特征,定义为:
Figure FDA0003957760530000037
cij为C中对应位置的元素,最终生成每一条分词序列的特征向量
Figure FDA0003957760530000038
6.根据权利要求5所述的语义关系抽取方法,其特征在于,所述的特征融合层对来自分词序列和对应依存路径两方面的特征向量的加权求和,定义为:p=αpx+(1-α)ps,其中,α为权重稀疏,ps为每条依存路径的特征向量,px为每条分词序列的特征向量。
7.根据权利要求6所述的语义关系抽取方法,其特征在于,所述的全连接层将实例映射至已定义的关系集合上,获得实体对之间的语义关系,其定义为:o=Up+v,其中,
Figure FDA0003957760530000039
为系数矩阵,
Figure FDA00039577605300000310
为偏置,
Figure FDA00039577605300000311
为对应于所有关系类型的置信分数,其中nr是所有关系的数量,置信分数最高的关系被认为是该实体对之间的语义关系。
8.根据权利要求7所述的语义关系抽取方法,其特征在于,所述的多实例学习机制模块中的训练数据有一系列实例包,表示为B={B1,B2,…,BN},任一个实例包Bi中包含|Bi|个实例,在该机制下,损失函数定义为:
Figure FDA0003957760530000041
Figure FDA0003957760530000042
其中,
Figure FDA0003957760530000043
为实例包Bi中的一个实例,okr为实例
Figure FDA0003957760530000044
对应关系r的置信分数,θ为模型中的全部参数,θ更新的原则为:
Figure FDA0003957760530000045
其中,η为学习率,训练语义关系抽取模型的过程为:初始化后,以交叉熵作为损失函数,通过多实例学习方法,采用随机梯度下降法对所述的语义关系抽取模型进行迭代更新模型参数,每迭代一次检验一次梯度,以寻求各网络层权重和偏置的最优解,迭代多次后得到本次训练的最优语义关系抽取模型。
9.根据权利要求8所述的语义关系抽取方法,其特征在于,训练语义关系抽取模型包括如下步骤:
步骤301,将训练样本数据集中的实例包写入到数据文件中,数据文件的数据格式与语义关系抽取模型的读入数据接口相符;
步骤302,设定训练参数:包括读入文件路径,迭代次数,学习率,设定每一网络层的所用维度和尺寸,初始训练权重和训练偏置;
步骤303,加载训练文件:加载语义关系抽取模型定义文件、网络层参数定义文件和训练数据组成的训练集;
步骤304,通过多实例学习方法,采用随机梯度下降法对语义关系抽取模型进行迭代更新模型参数,每迭代一次检验一次梯度,以寻求各网络层权重和偏置的最优解,迭代多次后得到本次训练的最优语义关系抽取模型;
步骤305,将样本集中后30%的数据作为测试样本集,将测试样本集采取训练样本集相同预处理方式,利用得到的语义关系预测系统对测试样本集中的数据进行测试。
CN201910811049.8A 2019-08-29 2019-08-29 一种基于改进特征融合的语义关系抽取方法 Active CN110633467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910811049.8A CN110633467B (zh) 2019-08-29 2019-08-29 一种基于改进特征融合的语义关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910811049.8A CN110633467B (zh) 2019-08-29 2019-08-29 一种基于改进特征融合的语义关系抽取方法

Publications (2)

Publication Number Publication Date
CN110633467A CN110633467A (zh) 2019-12-31
CN110633467B true CN110633467B (zh) 2023-04-07

Family

ID=68969502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910811049.8A Active CN110633467B (zh) 2019-08-29 2019-08-29 一种基于改进特征融合的语义关系抽取方法

Country Status (1)

Country Link
CN (1) CN110633467B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476035B (zh) * 2020-05-06 2023-09-05 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN113742523B (zh) * 2020-05-29 2023-06-27 北京百度网讯科技有限公司 文本核心实体的标注方法及装置
CN114386411A (zh) * 2020-10-16 2022-04-22 北京金山数字娱乐科技有限公司 一种关系抽取方法及装置
CN112417170B (zh) * 2020-11-23 2023-11-14 南京大学 面向不完备知识图谱的关系链接方法
CN113590799B (zh) * 2021-08-16 2022-11-18 东南大学 一种基于多视角推理的弱监督知识图谱问答方法
CN114548325B (zh) * 2022-04-26 2022-08-02 北京大学 基于对偶对比学习的零样本关系抽取方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018076774A1 (en) * 2016-10-28 2018-05-03 Boe Technology Group Co., Ltd. Information extraction method and apparatus
CN109408642A (zh) * 2018-08-30 2019-03-01 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法
CN109783799A (zh) * 2018-12-13 2019-05-21 杭州电子科技大学 一种基于语义依存图的关系提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
CN107783960B (zh) * 2017-10-23 2021-07-23 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018076774A1 (en) * 2016-10-28 2018-05-03 Boe Technology Group Co., Ltd. Information extraction method and apparatus
CN109408642A (zh) * 2018-08-30 2019-03-01 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法
CN109783799A (zh) * 2018-12-13 2019-05-21 杭州电子科技大学 一种基于语义依存图的关系提取方法

Also Published As

Publication number Publication date
CN110633467A (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
CN110633467B (zh) 一种基于改进特征融合的语义关系抽取方法
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN107180023B (zh) 一种文本分类方法及系统
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
WO2020211720A1 (zh) 数据处理方法和代词消解神经网络训练方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN108628828A (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
US11232358B1 (en) Task specific processing of regulatory content
CN110674642B (zh) 一种用于含噪稀疏文本的语义关系抽取方法
CN108664512B (zh) 文本对象分类方法及装置
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
CN107832290B (zh) 中文语义关系的识别方法及装置
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
Sartakhti et al. Persian language model based on BiLSTM model on COVID-19 corpus
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN115017299A (zh) 一种基于去噪图自编码器的无监督社交媒体摘要方法
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN117094325B (zh) 水稻病虫害领域命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant