CN111832307A - 一种基于知识增强的实体关系抽取方法及系统 - Google Patents
一种基于知识增强的实体关系抽取方法及系统 Download PDFInfo
- Publication number
- CN111832307A CN111832307A CN202010657829.4A CN202010657829A CN111832307A CN 111832307 A CN111832307 A CN 111832307A CN 202010657829 A CN202010657829 A CN 202010657829A CN 111832307 A CN111832307 A CN 111832307A
- Authority
- CN
- China
- Prior art keywords
- entity
- features
- model
- knowledge
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 85
- 230000004927 fusion Effects 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种基于知识增强的实体关系抽取方法及系统。该方法包括:获取经预处理的领域本体,以及未标注语料库;基于经预处理的领域本体和未标注语料库获取实体知识信息,通过实体知识信息计算得到标注语料库;基于实体知识信息分别提取实体特征、词特征和实体位置特征,进一步进行位置特征融合,得到融合特征;获取PCNN模型,基于融合特征训练PCNN模型,得到实体关系抽取模型;将实体关系抽取模型的结果放入PCNN模型中,通过预设分类器得到实体关系类型分类结果。本发明实施例基于现有领域本体和未标注语料库进行训练,训练后的模型可以提供实体对对应的关系类别,可广泛应用于自然语言相关的应用,提高了关系抽取的准确率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于知识增强的实体关系抽取方法及系统。
背景技术
实体关系抽取是信息抽取的子任务,其主要目的是从非结构化的文本中抽取出结构化的关系信息。传统的关系抽取方法通常基于监督学习、半监督学习和无监督学习。基于监督学习的关系抽取方法需要充分手工标注的语料库作为训练集来训练关系抽取模型,因此需要耗费大量的人力和时间,并且对于训练集中没有的、新的实体关系预测能力差。基于半监督学习的关系抽取方法使用部分标注的语料库通过迭代训练的方式来抽取实体关系。这种方法虽然在一定程度上减少了人工标注成本,但仍需要部分标注数据。而基于无监督学习的关系抽取方法不要需要人工标注的语料库,通过聚类的方法自动将关系进行分类,这种方法通常会获得次优的结果。
远程监督结合了半监督方法和无监督方法的优势,通过将未标注语料和现有领域本体中的实体对齐来自动标注实体关系。虽然从领域本体中提取实体信息能够大大提升实体关系抽取的性能,并减少人工成本。但还存如下挑战:远程监督的主要思想是如果一个实体对在领域本体中有预定义的关系,那么在未标注语料中,所有提到这个实体对的句子都有这个预定义的关系。由于这种假设过于肯定,势必会引入噪声问题。例如:2016年,发表在AAAI,由Hao Zheng等人提出了一种基于排序的方法来提高远程监督的性能用于多标签的关系抽取。2017年,Chengsen Ru等人通过计算领域本体中实体对之间的关系词与未标注文本中实体对之间的依存词的相似性来解决远程监督方法的噪声问题。2018年,Peng Zhou等人提出了一种多层注意力机制的关系抽取模型,通过结合句子级的注意力机制和词级的注意力机制并通过piecewise convolutional neural network(PCNN)来选择实体关系最相关的句子,提高远程监督的准确率。
以上方法虽然都可以提升远程监督方法的性能,但是忽略了实体知识信息,在一些特定领域可能会造成语义模糊的问题,例如在医疗领域,一些实体的类型既可以是疾病也可以是症状。
发明内容
本发明实施例提供一种基于知识增强的实体关系抽取方法及系统,用以解决现有技术中存在的问题。
第一方面,本发明实施例提供一种基于知识增强的实体关系抽取方法,包括:
获取经预处理的领域本体,以及未标注语料库;
基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息,通过所述实体知识信息计算得到标注语料库;
基于所述实体知识信息分别提取实体特征、词特征和实体位置特征,将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合,得到融合特征;
获取PCNN模型,基于所述融合特征训练所述PCNN模型,得到实体关系抽取模型;
将所述实体关系抽取模型的结果放入PCNN模型中,通过所述PCNN模型的预设分类器得到实体关系类型分类结果。
进一步地,所述获取经预处理的领域本体,具体包括:
将已标注语料和现有的领域本体进行结合扩充;
根据所述现有的领域本体中包含的实体、标点符号、数字和空格符将待处理的文本切分为汉字字符串,并去除停用词,得到所述经预处理的领域本体。
进一步地,所述基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息,通过所述实体知识信息计算得到标注语料库,具体包括:
从所述经预处理的领域本体提取实体自身信息,从所述未标注语料库提取实体类型信息,将所述实体自身信息和所述实体类型信息进行融合得到所述实体知识信息;
通过所述实体知识信息计算所述经预处理的领域本体中的实体对和所述未标注语料库中的实体对之间的语义相似度,基于所述语义相似度自动标注所述标注语料库。
进一步地,所述基于所述实体知识信息分别提取实体特征、词特征和实体位置特征,将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合,得到融合特征,具体包括:
将所述实体知识信息用于所述实体特征;
采用CBOW模型,将未标注文本中的非实体词转化为预设维度向量,得到所述词特征;
通过卷积神经网络学习句子整体特征,计算句子中每个词与实体对之间的相对距离,得到所述实体位置特征;
将所述实体特征、所述词特征和所述实体位置特征进行向量拼接,得到融合特征。
进一步地,所述获取PCNN模型,基于所述融合特征训练所述PCNN模型,得到实体关系抽取模型,具体包括:
基于所述PCNN模型,根据实体对的位置将句子分割成若干部分,提取所述句子中的细粒度特征;
基于所述细粒度特征和所述融合特征训练所述PCNN模型,得到所述实体关系抽取模型。
进一步地,所述将所述实体关系抽取模型的结果放入PCNN模型中,通过所述PCNN模型的预设分类器得到实体关系类型分类结果,具体包括:
将所述实体关系抽取模型的结果放入PCNN模型的分类层中,通过softmax分类器产生所述实体关系类型分类结果。
第二方面,本发明实施例提供一种基于知识增强的实体关系抽取系统,包括:
数据预处理模块,用于获取经预处理的领域本体,以及未标注语料库;
标注语料库构建模块,用于基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息,通过所述实体知识信息计算得到标注语料库;
特征抽取模块,用于基于所述实体知识信息分别提取实体特征、词特征和实体位置特征,将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合,得到融合特征;
训练关系抽取模型模块,用于获取PCNN模型,基于所述融合特征训练所述PCNN模型,得到实体关系抽取模型;
实体关系分类器模块,用于将所述实体关系抽取模型的结果放入PCNN模型中,通过所述PCNN模型的预设分类器得到实体关系类型分类结果。
进一步地,所述数据预处理模块,具体用于:
将已标注语料和现有的领域本体进行结合扩充;
根据所述现有的领域本体中包含的实体、标点符号、数字和空格符将待处理的文本切分为汉字字符串,并去除停用词,得到所述经预处理的领域本体。
第三方面,本发明实施例提供一种电子设备,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述基于知识增强的实体关系抽取方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现任一项所述基于知识增强的实体关系抽取方法的步骤。
本发明实施例提供的基于知识增强的实体关系抽取方法及系统,通过基于现有的领域本体和未标注语料库进行训练,训练后的模型可以提供实体对对应的关系类别,可广泛应用于自然语言相关的应用,提高了关系抽取的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于知识增强的实体关系抽取方法流程图;
图2为本发明实施例提供的基于知识增强的实体关系抽取方法整体逻辑架构图;
图3为本发明实施例提供的一种基于知识增强的实体关系抽取系统结构图;
图4为本发明实施例提供的电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术存在的问题,本发明实施例提供了一种基于知识增强的实体关系抽取方法,同时考虑实体自身和实体类型信息可以有效的降低实体语义的歧义,降低远程监督的噪声问题。此外,通过融合实体知识信息、词特征、实体位置特征可以进一步选择远程监督方法中标注正确的实例,提高关系抽取的性能。
图1为本发明实施例提供的一种基于知识增强的实体关系抽取方法流程图,如图1所示,包括:
S1,获取经预处理的领域本体,以及未标注语料库;
将获取的现有的领域本体和已标注语料进行预处理,同时获取未标注语料库。
S2,基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息,通过所述实体知识信息计算得到标注语料库;
在获得经过预处理的领域本体基础上通过实体知识信息抽取获得实体知识信息,再通过基于知识增强的远程监督方法得到标注语料库。
S3,基于所述实体知识信息分别提取实体特征、词特征和实体位置特征,将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合,得到融合特征;
进一步地进行特征提取和特征融合,分别提取得到实体特征、词特征和实体位置特征,将上述三个特征进行特征融合,得到融合特征;
S4,获取PCNN模型,基于所述融合特征训练所述PCNN模型,得到实体关系抽取模型;
再将融合后的特征输入PCNN模型来进行模型训练,得到实体关系抽取模型。
S5,将所述实体关系抽取模型的结果放入PCNN模型中,通过所述PCNN模型的预设分类器得到实体关系类型分类结果。
最后将实体关系抽取模型的结果放入PCNN模型中,通过PCNN模型中预设的分类器来产生实体关系类型分类结果,整体的逻辑架构图如图2所示。
本发明实施例通过基于现有的领域本体和未标注语料库进行训练,训练后的模型可以提供实体对对应的关系类别,可广泛应用于自然语言相关的应用,提高了关系抽取的准确率。
基于上述实施例,该方法中步骤S1具体包括:
将已标注语料和现有的领域本体进行结合扩充;
根据所述现有的领域本体中包含的实体、标点符号、数字和空格符将待处理的文本切分为汉字字符串,并去除停用词,得到所述经预处理的领域本体。
具体地,将已标注的语料和现有的领域本体结合来扩充领域本体,根据领域本体中包含的实体、标点符号、数字和空格符将待处理的文本切分成汉字字符串,并去除停用词。
基于上述任一实施例,该方法中步骤S2包括:
从所述经预处理的领域本体提取实体自身信息,从所述未标注语料库提取实体类型信息,将所述实体自身信息和所述实体类型信息进行融合得到所述实体知识信息;
通过所述实体知识信息计算所述经预处理的领域本体中的实体对和所述未标注语料库中的实体对之间的语义相似度,基于所述语义相似度自动标注所述标注语料库。
具体地,首先进行实体知识信息抽取,通过从领域本体和未标注语料库中分别抽取实体自身信息和其对应的实体类型信息,并经过融合来获取实体知识信息。
如领域本体中包含n个实体,其中Ei∈{E1...En},那么有对应的实体类型Eitype∈{E1type...Entype}。在未标注语料库D中有Sn个句子,{S1...Si...Sn}∈D,Si为m个词组Si={W1...Gi...Go...Wm},其中,{W1...Wm}是句子Si中的词,Gi和Go为句子中包含的实体,并有对应的实体类型Gitype和Gotype.其次采用word2vec将知识库和未标注语料库中的实体自身和实体类型信息转化为d维的向量形式。最后将实体自身和实体类型信息融合来提取实体知识信息,如领域本体中的实体知识信息可以记作其中,为向量拼接操作,ei为实体Ei的向量,eitype为实体类型Eitype的向量,未标注语料库中的实体知识信息记作其中gi为实体Gi的向量,gitype为实体类型Gitype的向量。
接下来是基于知识增强的远程监督方法,通过计算领域本体中融入知识信息的实体对与未标注语料库中融入知识信息的实体对的语义相似度来自动构建标注语料作为训练集。
如领域本体中的实体对(qi,qo)和未标注语料库中的实体对(pi,po)是相似的,并qi和qo在领域本体中有关系r,表示为r(qi,qo),那么pi和po也被自动标注为关系r,表示为r(pi,po)。
相似度计算方法为:
其中,sim()表示(qi,qo)和(pi,po)的相似关系,cosine()表示余弦相似的计算方法,α为相似度阈值,初始阈值设为0.85,采用梯度下降的方法来计算误差,就是使误差函数平滑连续的计算梯度下降的斜率,越接近最小值梯度越小,直到梯度的斜率达到最小值就是相似度的最优阈值。
基于上述任一实施例,该方法中步骤S3具体包括:
将所述实体知识信息用于所述实体特征;
采用CBOW模型,将未标注文本中的非实体词转化为预设维度向量,得到所述词特征;
通过卷积神经网络学习句子整体特征,计算句子中每个词与实体对之间的相对距离,得到所述实体位置特征;
将所述实体特征、所述词特征和所述实体位置特征进行向量拼接,得到融合特征。
具体地,本发明实施例主要是进行特征提取和特征融合,细分为四个子步骤:实体特征提取、词特征提取、实体位置特征提取和特征融合。
实体特征提取是将实体知识信息抽取中未标注语料库中的实体知识信息直接用于实体特征。
词特征提取具体为:设Si={W1...Gi...Go...Wm},其中{W1...Wm}为Si中的词,Gi和Go为Si中的实体。采用CBOW模型(连续词袋模型)将句子中的非实体词转化为d维的词向量来提取词特征,转化后的词向量记作{w1 ... wm}。
实体位置特征提取具体为:通过卷积神经网络(CNN)学习句子整体特征来计算句子中每个词与实体对之间的相对距离,如句子si={w1...gi...go...wm},si为句子向量,每一个词向量wi与实体对向量gi和go之间都有两个相对距离,记作
特征融合为将实体特征、词特征、实体位置特征进行向量拼接获得新的特征作为PCNN的输入来训练实体关系抽取模型,特征融合的公式为:
基于上述任一实施例,该方法中步骤S4具体包括:
基于所述PCNN模型,根据实体对的位置将句子分割成若干部分,提取所述句子中的细粒度特征;
基于所述细粒度特征和所述融合特征训练所述PCNN模型,得到所述实体关系抽取模型。
具体地,由于PCNN模型能够根据实体对的位置将句子分割成3个部分提取出句子中细粒度的特征,因此将融合后的特征输入PCNN来训练关系抽取模型,为了防止过拟合在卷积层采用dropout操作,并采用zero padding来保持句子的有效性,具体公式如下:
cj=f(k·wi:i+h-1+b)
其中为卷积核的矩阵,b为偏差,wi:i+h-1表示结合了从第i个到i+h-1个词向量,f(·)表示非线性激活函数,通常采用ReLU,cj表示卷积操作后的一个特征图,句子si的特征图表示为:假设有l个长度为h的卷积核,特征图表示为:
分段最大池化层:首先根据句子中实体对的位置将cj分为三个部分[cj1,cj2,cj3],其次通过计算每一部分的最大值获得句子中最重要的信息,计算公式如下:最后将卷操作后的所有特征图拼接获得句子si最后的特征向量bs=ReLU(v)。
基于上述任一实施例,该方法中步骤S5具体包括:
将所述实体关系抽取模型的结果放入PCNN模型的分类层中,通过softmax分类器产生所述实体关系类型分类结果。
具体地,将实体模型训练的结果放入PCNN的分类层中,通过softmax分类器来产生最后的实体关系类型的分类结果,公式如下:
O=softmax(Wohi+bs)
rs=argmax(O)
图3为本发明实施例提供的一种基于知识增强的实体关系抽取系统结构图,如图3所示,包括:数据预处理模块31、标注语料库构建模块32、特征抽取模块33、训练关系抽取模型模块34和实体关系分类器模块35;其中:
数据预处理模块31用于获取经预处理的领域本体,以及未标注语料库;标注语料库构建模块32用于基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息,通过所述实体知识信息计算得到标注语料库;特征抽取模块33用于基于所述实体知识信息分别提取实体特征、词特征和实体位置特征,将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合;训练关系抽取模型模块34用于获取PCNN模型,基于所述融合特征训练所述PCNN模型,得到实体关系抽取模型;实体关系分类器模块35用于将所述实体关系抽取模型的结果放入PCNN模型中,通过所述PCNN模型的预设分类器得到实体关系类型分类结果。
本发明实施例提供的系统用于执行上述对应的方法,其具体的实施方式与方法的实施方式一致,涉及的算法流程与对应的方法算法流程相同,此处不再赘述。
本发明实施例通过基于现有的领域本体和未标注语料库进行训练,训练后的模型可以提供实体对对应的关系类别,可广泛应用于自然语言相关的应用,提高了关系抽取的准确率。
基于上述实施例,所述数据预处理模块31具体用于:
将已标注语料和现有的领域本体进行结合扩充;
根据所述现有的领域本体中包含的实体、标点符号、数字和空格符将待处理的文本切分为汉字字符串,并去除停用词,得到所述经预处理的领域本体。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行如下方法:获取经预处理的领域本体,以及未标注语料库;基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息,通过所述实体知识信息计算得到标注语料库;基于所述实体知识信息分别提取实体特征、词特征和实体位置特征,将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合,得到融合特征;获取PCNN模型,基于所述融合特征训练所述PCNN模型,得到实体关系抽取模型;将所述实体关系抽取模型的结果放入PCNN模型中,通过所述PCNN模型的预设分类器得到实体关系类型分类结果。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取经预处理的领域本体,以及未标注语料库;基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息,通过所述实体知识信息计算得到标注语料库;基于所述实体知识信息分别提取实体特征、词特征和实体位置特征,将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合,得到融合特征;获取PCNN模型,基于所述融合特征训练所述PCNN模型,得到实体关系抽取模型;将所述实体关系抽取模型的结果放入PCNN模型中,通过所述PCNN模型的预设分类器得到实体关系类型分类结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于知识增强的实体关系抽取方法,其特征在于,包括:
获取经预处理的领域本体,以及未标注语料库;
基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息,通过所述实体知识信息计算得到标注语料库;
基于所述实体知识信息分别提取实体特征、词特征和实体位置特征,将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合,得到融合特征;
获取PCNN模型,基于所述融合特征训练所述PCNN模型,得到实体关系抽取模型;
将所述实体关系抽取模型的结果放入PCNN模型中,通过所述PCNN模型的预设分类器得到实体关系类型分类结果。
2.根据权利要求1所述的基于知识增强的实体关系抽取方法,其特征在于,所述获取经预处理的领域本体,具体包括:
将已标注语料和现有的领域本体进行结合扩充;
根据所述现有的领域本体中包含的实体、标点符号、数字和空格符将待处理的文本切分为汉字字符串,并去除停用词,得到所述经预处理的领域本体。
3.根据权利要求1所述的基于知识增强的实体关系抽取方法,其特征在于,所述基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息,通过所述实体知识信息计算得到标注语料库,具体包括:
从所述经预处理的领域本体提取实体自身信息,从所述未标注语料库提取实体类型信息,将所述实体自身信息和所述实体类型信息进行融合得到所述实体知识信息;
通过所述实体知识信息计算所述经预处理的领域本体中的实体对和所述未标注语料库中的实体对之间的语义相似度,基于所述语义相似度自动标注所述标注语料库。
4.根据权利要求1所述的基于知识增强的实体关系抽取方法,其特征在于,所述基于所述实体知识信息分别提取实体特征、词特征和实体位置特征,将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合,得到融合特征,具体包括:
将所述实体知识信息用于所述实体特征;
采用CBOW模型,将未标注文本中的非实体词转化为预设维度向量,得到所述词特征;
通过卷积神经网络学习句子整体特征,计算句子中每个词与实体对之间的相对距离,得到所述实体位置特征;
将所述实体特征、所述词特征和所述实体位置特征进行向量拼接,得到融合特征。
5.根据权利要求1所述的基于知识增强的实体关系抽取方法,其特征在于,所述获取PCNN模型,基于所述融合特征训练所述PCNN模型,得到实体关系抽取模型,具体包括:
基于所述PCNN模型,根据实体对的位置将句子分割成若干部分,提取所述句子中的细粒度特征;
基于所述细粒度特征和所述融合特征训练所述PCNN模型,得到所述实体关系抽取模型。
6.根据权利要求1所述的基于知识增强的实体关系抽取方法,其特征在于,所述将所述实体关系抽取模型的结果放入PCNN模型中,通过所述PCNN模型的预设分类器得到实体关系类型分类结果,具体包括:
将所述实体关系抽取模型的结果放入PCNN模型的分类层中,通过softmax分类器产生所述实体关系类型分类结果。
7.一种基于知识增强的实体关系抽取系统,其特征在于,包括:
数据预处理模块,用于获取经预处理的领域本体,以及未标注语料库;
标注语料库构建模块,用于基于所述经预处理的领域本体和所述未标注语料库获取实体知识信息,通过所述实体知识信息计算得到标注语料库;
特征抽取模块,用于基于所述实体知识信息分别提取实体特征、词特征和实体位置特征,将所述实体特征、所述词特征和所述实体位置特征进行位置特征融合,得到融合特征;
训练关系抽取模型模块,用于获取PCNN模型,基于所述融合特征训练所述PCNN模型,得到实体关系抽取模型;
实体关系分类器模块,用于将所述实体关系抽取模型的结果放入PCNN模型中,通过所述PCNN模型的预设分类器得到实体关系类型分类结果。
8.根据权利要求7所述的基于知识增强的实体关系抽取系统,其特征在于,所述数据预处理模块,具体用于:
将已标注语料和现有的领域本体进行结合扩充;
根据所述现有的领域本体中包含的实体、标点符号、数字和空格符将待处理的文本切分为汉字字符串,并去除停用词,得到所述经预处理的领域本体。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于知识增强的实体关系抽取方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述基于知识增强的实体关系抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010657829.4A CN111832307B (zh) | 2020-07-09 | 2020-07-09 | 一种基于知识增强的实体关系抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010657829.4A CN111832307B (zh) | 2020-07-09 | 2020-07-09 | 一种基于知识增强的实体关系抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832307A true CN111832307A (zh) | 2020-10-27 |
CN111832307B CN111832307B (zh) | 2024-08-23 |
Family
ID=72900290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010657829.4A Active CN111832307B (zh) | 2020-07-09 | 2020-07-09 | 一种基于知识增强的实体关系抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832307B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328812A (zh) * | 2021-01-05 | 2021-02-05 | 成都数联铭品科技有限公司 | 基于自调参数的领域知识抽取方法与系统、电子设备 |
CN112668342A (zh) * | 2021-01-08 | 2021-04-16 | 中国科学院自动化研究所 | 基于孪生网络的远程监督关系抽取降噪系统 |
CN112926332A (zh) * | 2021-03-30 | 2021-06-08 | 善诊(上海)信息技术有限公司 | 一种实体关系联合抽取方法及装置 |
CN113128203A (zh) * | 2021-03-30 | 2021-07-16 | 北京工业大学 | 基于注意力机制的关系抽取方法、系统、设备及存储介质 |
CN113239184A (zh) * | 2021-07-09 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 知识库获取方法、装置、计算机设备及存储介质 |
CN113505239A (zh) * | 2021-07-09 | 2021-10-15 | 吉林大学 | 一种结合图注意力和属性聚类的实体对齐方法 |
CN114647733A (zh) * | 2022-05-23 | 2022-06-21 | 中国平安财产保险股份有限公司 | 一种问答语料评估方法、装置、计算机设备及存储介质 |
CN114925210A (zh) * | 2022-03-21 | 2022-08-19 | 中国电信股份有限公司 | 知识图谱的构建方法、装置、介质及设备 |
CN116069948A (zh) * | 2023-01-17 | 2023-05-05 | 人民网股份有限公司 | 内容风控知识库构建方法、装置、设备及存储介质 |
CN116703441A (zh) * | 2023-05-25 | 2023-09-05 | 云内控科技有限公司 | 一种基于知识图谱的医疗项目成本核算可视分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280063A (zh) * | 2018-01-19 | 2018-07-13 | 中国科学院软件研究所 | 基于半监督学习的语义分析方法及系统 |
CN109800437A (zh) * | 2019-01-31 | 2019-05-24 | 北京工业大学 | 一种基于特征融合的命名实体识别方法 |
CN110555083A (zh) * | 2019-08-26 | 2019-12-10 | 北京工业大学 | 一种基于zero-shot无监督实体关系抽取方法 |
-
2020
- 2020-07-09 CN CN202010657829.4A patent/CN111832307B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280063A (zh) * | 2018-01-19 | 2018-07-13 | 中国科学院软件研究所 | 基于半监督学习的语义分析方法及系统 |
CN109800437A (zh) * | 2019-01-31 | 2019-05-24 | 北京工业大学 | 一种基于特征融合的命名实体识别方法 |
CN110555083A (zh) * | 2019-08-26 | 2019-12-10 | 北京工业大学 | 一种基于zero-shot无监督实体关系抽取方法 |
Non-Patent Citations (2)
Title |
---|
张硕望: "一种基于远程监督的中文实体关系抽取方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 1, 15 January 2019 (2019-01-15), pages 138 - 5588 * |
王斌,等: "融合多特征的基于远程监督的 中文领域实体关系抽取", 《模式识别与人工智能》, vol. 32, no. 2, 28 February 2019 (2019-02-28), pages 133 - 143 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328812B (zh) * | 2021-01-05 | 2021-03-26 | 成都数联铭品科技有限公司 | 基于自调参数的领域知识抽取方法与系统、电子设备 |
CN112328812A (zh) * | 2021-01-05 | 2021-02-05 | 成都数联铭品科技有限公司 | 基于自调参数的领域知识抽取方法与系统、电子设备 |
CN112668342A (zh) * | 2021-01-08 | 2021-04-16 | 中国科学院自动化研究所 | 基于孪生网络的远程监督关系抽取降噪系统 |
CN112668342B (zh) * | 2021-01-08 | 2024-05-07 | 中国科学院自动化研究所 | 基于孪生网络的远程监督关系抽取降噪系统 |
CN112926332A (zh) * | 2021-03-30 | 2021-06-08 | 善诊(上海)信息技术有限公司 | 一种实体关系联合抽取方法及装置 |
CN113128203A (zh) * | 2021-03-30 | 2021-07-16 | 北京工业大学 | 基于注意力机制的关系抽取方法、系统、设备及存储介质 |
CN113239184A (zh) * | 2021-07-09 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 知识库获取方法、装置、计算机设备及存储介质 |
CN113505239A (zh) * | 2021-07-09 | 2021-10-15 | 吉林大学 | 一种结合图注意力和属性聚类的实体对齐方法 |
CN113239184B (zh) * | 2021-07-09 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 知识库获取方法、装置、计算机设备及存储介质 |
CN113505239B (zh) * | 2021-07-09 | 2022-10-28 | 吉林大学 | 一种结合图注意力和属性聚类的实体对齐方法 |
CN114925210B (zh) * | 2022-03-21 | 2023-12-08 | 中国电信股份有限公司 | 知识图谱的构建方法、装置、介质及设备 |
CN114925210A (zh) * | 2022-03-21 | 2022-08-19 | 中国电信股份有限公司 | 知识图谱的构建方法、装置、介质及设备 |
CN114647733A (zh) * | 2022-05-23 | 2022-06-21 | 中国平安财产保险股份有限公司 | 一种问答语料评估方法、装置、计算机设备及存储介质 |
CN116069948B (zh) * | 2023-01-17 | 2024-01-09 | 人民网股份有限公司 | 内容风控知识库构建方法、装置、设备及存储介质 |
CN116069948A (zh) * | 2023-01-17 | 2023-05-05 | 人民网股份有限公司 | 内容风控知识库构建方法、装置、设备及存储介质 |
CN116703441A (zh) * | 2023-05-25 | 2023-09-05 | 云内控科技有限公司 | 一种基于知识图谱的医疗项目成本核算可视分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111832307B (zh) | 2024-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832307A (zh) | 一种基于知识增强的实体关系抽取方法及系统 | |
US20230016365A1 (en) | Method and apparatus for training text classification model | |
CN108399228B (zh) | 文章分类方法、装置、计算机设备及存储介质 | |
CN112001177A (zh) | 融合深度学习与规则的电子病历命名实体识别方法及系统 | |
US20210232768A1 (en) | Machine learning model with evolving domain-specific lexicon features for text annotation | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN111274829B (zh) | 一种利用跨语言信息的序列标注方法 | |
Moradi et al. | A cross-modality neural network transform for semi-automatic medical image annotation | |
CN111832584A (zh) | 图像处理装置及其训练装置和训练方法 | |
CN111930929A (zh) | 一种文章标题生成方法、装置及计算设备 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
US11003950B2 (en) | System and method to identify entity of data | |
CN110750646B (zh) | 一种旅店评论文本的属性描述提取方法 | |
CN113159013B (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
CN113704392A (zh) | 文本中实体关系的抽取方法、装置、设备及存储介质 | |
CN111191446A (zh) | 交互信息处理方法、装置、计算机设备和存储介质 | |
CN113095063B (zh) | 一种基于遮蔽语言模型的两阶段情感迁移方法和系统 | |
CN115238026A (zh) | 一种基于深度学习的医疗文本主题分割方法和装置 | |
CN112331332A (zh) | 一种基于多粒度特征融合的疾病预测方法及系统 | |
CN115017884B (zh) | 基于图文多模态门控增强的文本平行句对抽取方法 | |
Tüselmann et al. | Recognition-free question answering on handwritten document collections | |
CN114818718A (zh) | 合同文本识别方法及装置 | |
CN112800244B (zh) | 一种中医药及民族医药知识图谱的构建方法 | |
Kadagadkai et al. | Summarization tool for multimedia data | |
US11442963B1 (en) | Method of and system for ranking subgraphs as potential explanations for graph classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |