CN110209836B - 远程监督关系抽取方法及装置 - Google Patents
远程监督关系抽取方法及装置 Download PDFInfo
- Publication number
- CN110209836B CN110209836B CN201910411697.4A CN201910411697A CN110209836B CN 110209836 B CN110209836 B CN 110209836B CN 201910411697 A CN201910411697 A CN 201910411697A CN 110209836 B CN110209836 B CN 110209836B
- Authority
- CN
- China
- Prior art keywords
- entity
- data set
- relation
- sentence
- labeled data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种远程监督关系抽取方法及装置,其中,方法包括以下步骤:通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别;通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集;通过基于循环分段卷积神经网络和sentence embedding模块对句子的实体进行实体关系抽取。该方法可以通过自然语料自动标注训练数据,完成实体识别以及实体关系抽取。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种远程监督关系抽取方法及装置。
背景技术
互联网快速发展的今天,是信息和大数据统治的时代,如何在信息爆炸时代抽取出关注的内容是非常重要的,信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。目前公司中最常用的是通过有监督方法训练关系抽取模型,但是有监督关系抽取模型主要依靠人工标注的数据,既费时又费力,所以学术界提出了远程监督关系抽取方法,该方法可以通过自动标注训练数据来解决有监督关系抽取训练数据难获取的问题。
现有的方法主要通过有监督的方式进行关系抽取任务,有监督的学习方法是目前关系抽取较为主流也是表现最好的方法,但其最大的缺点就是需要大量的人工标注语料。如何获得大量的有标注语料就成为了工作的重点,远程监督方法就由此孕育而生。远程监督方法,将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,从而训练关系抽取器。然而,已有的关系抽取装置都是基于有监督关系抽取,但是基于有监督关系抽取的装置需要大量的人工标注的数据,不仅需要大量的时间,而且需要大量的人力。
发明内容
本申请是基于发明人对以下问题的认识和发现做出的:
近年来,自然语言处理领域的研究者们开始致力于知识图谱构建的研究。知识图谱究其根本是一种语义网络图,通俗来讲,就是把多种信息按照一定的规则融合在一起而得到的关系网络。知识图谱是从“关系”的角度来分析问题的,为搜索提供了新思路:直接返回问题的答案,而不是返回包含关键词的文档序列。信息抽取则是知识图谱构建的关键一步。实体关系抽取作为信息抽取领域的重要研究课题,其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别,并形成结构化的数据以便存储和取用。
目前对于大多数企业来说,针对实体关系抽取这个任务需要人工的标注数据来训练模型,但是人工标注费时费力,所以远程监督的自动标注训练数据有着很好前景。然而远程监督现在存在两个的问题:一方面是一些方法需要利用外部知识库的实体描述来丰富实体信息,但是事实上不是所有外部知识库都很容易获取的;另一方面,目前远程监督关系抽取主要采用PCNN(PCNN-Pulse Coupled Neural Network,脉冲耦合神经网络)模型,PCNN模型虽然在一定程度上解决了池化层所造成的信息损失问题,但是通过分段池化层降维只是选取了其中信息量最大的三段,其他信息都损失掉。因此本发明实施例提出了基于递归卷积分段神经网络结构的连接关系提取的方法,并提出一种sentence embedding的方法解决模型经过池化层信息损失的问题。
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种远程监督关系抽取方法,该方法可以通过自然语料自动标注训练数据,完成实体识别以及实体关系抽取。
本发明的另一个目的在于提出一种远程监督关系抽取装置。
为达到上述目的,本发明一方面实施例提出了一种远程监督关系抽取方法,包括以下步骤:通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别;通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集;通过基于循环分段卷积神经网络和sentence embedding模块对所述句子的实体进行实体关系抽取。
本发明实施例的远程监督关系抽取方法,运用RCNN(Recurrent ConvolutionalNeural Network,循环分段卷积神经网络)网络捕捉句子中每个词的上下文语义信息,再将当前单词与其上文信息、下文信息拼接得到当前单词的最终表示,从而可以丰富句子中每个词信息,尤其增强实体对信息,进而提升关系识别的效果,且在模型的pooling层之后加入每个实例的句向量来加强每个实例中实体对间隐藏关系的信息。
另外,根据本发明上述实施例的远程监督关系抽取方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述通过bootstrapping算法生成实体识别训练数据集,包括:使用预先标注的数据集,应用选择的分类方法训练分类器,以标注未标注数据集中的标注分类;使用所述分类器对标注的数据集进行标注分类,以从所述标注的数据集中获取到标注的数据;从所述标注的数据中选择置信度满足预设条件的数据作为标注数据,并加入到标注数据集,直至满足预设迭代结束条件。
进一步地,在本发明的一个实施例中,所述自然语言语料包含实体对和实体对对应的关系的知识库,其中,所述通过远程监督方法生成实体关系抽取训练数据集,包括:通过所述远程监督方法标注训练样本,利用所述知识库中的两个entity以及对应的relation,在自然语言语料中进行回标,其中,若任意一个句子中同时包含所述两个entity,确定所述任意一个句子包含所述relation,得到所述标注数据。
进一步地,在本发明的一个实施例中,通过词嵌入与双向循环神经网络和注意力与句向量抽取所述句子中实体的实体关系。
为达到上述目的,本发明另一方面实施例提出了一种远程监督关系抽取装置,包括:实体识别模块,用于通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别;数据获取模块,用于通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集;关系抽取模块,用于通过基于循环分段卷积神经网络和sentence embedding模块对所述句子的实体进行实体关系抽取。
本发明实施例的远程监督关系抽取装置,运用RCNN网络捕捉句子中每个词的上下文语义信息,再将当前单词与其上文信息、下文信息拼接得到当前单词的最终表示,从而可以丰富句子中每个词信息,尤其增强实体对信息,进而提升关系识别的效果,且在模型的pooling层之后加入每个实例的句向量来加强每个实例中实体对间隐藏关系的信息。
另外,根据本发明上述实施例的远程监督关系抽取装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述实体识别模块进一步用于使用预先标注的数据集,应用选择的分类方法训练分类器,以标注未标注数据集中的标注分类,并使用所述分类器对标注的数据集进行标注分类,以从所述标注的数据集中获取到标注的数据,从所述标注的数据中选择置信度满足预设条件的数据作为标注数据,并加入到标注数据集,直至满足预设迭代结束条件。
进一步地,在本发明的一个实施例中,所述自然语言语料包含实体对和实体对对应的关系的知识库,其中,所述数据获取模块进一步用于通过所述远程监督方法标注训练样本,利用所述知识库中的两个entity以及对应的relation,在自然语言语料中进行回标,其中,若任意一个句子中同时包含所述两个entity,确定所述任意一个句子包含所述relation,得到所述标注数据。
进一步地,在本发明的一个实施例中,所述关系抽取模块进一步用于在进行实体关系抽取的过程中,通过词嵌入与双向循环神经网络和注意力与句向量抽取所述句子中实体的实体关系。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的远程监督关系抽取方法的流程图;
图2为根据本发明一个实施例的远程监督关系抽取方法的流程图;
图3为根据本发明实施例的知识库中的关系三元组示意图;
图4为根据本发明实施例的实体关系抽取流程示意图;
图5为根据本发明实施例的远程监督关系抽取装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的远程监督关系抽取方法及装置,首先将参照附图描述根据本发明实施例提出的远程监督关系抽取方法。
图1是本发明一个实施例的远程监督关系抽取方法的流程图。
如图1所示,该远程监督关系抽取方法包括以下步骤:
在步骤S101中,通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别。
需要说明的是,本发明实施例研究设计了一种基于循环分段卷积神经网络模型、并加入sentence embedding模块增加了句子中的语义的方法,本发明实施例的方法将关系抽取流程分为数据获取、实体识别以及实体关系抽取,从而可以通过自然语料自动标注训练数据,完成实体识别以及实体关系抽取。
可以理解的是,如图2所示,实体识别:主要通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子中的实体进行识别。
进一步地,在发明的一个实施例中,通过bootstrapping算法生成实体识别训练数据集,包括:使用预先标注的数据集,应用选择的分类方法训练分类器,以标注未标注数据集中的标注分类;使用分类器对标注的数据集进行标注分类,以从标注的数据集中获取到标注的数据;从标注的数据中选择置信度满足预设条件的数据作为标注数据,并加入到标注数据集,直至满足预设迭代结束条件。其中,本领域技术人员可以根据实际情况设置预设迭代结束条件,在此不做具体限定。
具体而言,如图2,实体识别过程包括实体识别训练数据集生成和实体识别,具体如下:
(1)实体识别训练数据集生成
Bootstrapping过程形式化描述为:
对于给定的自然语言处理任务,选取特定的有指导的训练分类模型的方法。然后需要两个数据集,一般是少量的标注数据集L和为标注的数据集U。然后逐步通过未标注的数据集U来扩大标注的数据集。从而训练处最终的分类器实现具体的自然语言处理任务。
采用Bootstrapping算法实现实体识别
主要步骤如下:
1.使用已经标注的数据集L(非常少量的数据集),应用选择的分类方法训练分类器h,h的作用主要是用于标注未标注数据集中的标注分类。
2.使用h对U进行标注分类目的是从U中获取到标注的数据。
3.在2中获取的标注数据中选择置信度较高的数据作为标注数据加入到标注数据集;
4.重复上述过程直到满足迭代结束条件。
这样可以通过少量的人工标注数据来生成实体识别训练数据集。
(2)实体识别
实体识别主要采用crf++工具来对句子中的实体进行识别。
在步骤S102中,通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集。
可以理解的是,如图2所示,获取训练数据集:通过远程监督方法来生成实体关系抽取训练数据集,通过关系知识库和自然语言语料,来生成实体关系抽取数据集。
进一步地,在发明的一个实施例中,自然语言语料包含实体对和实体对对应的关系的知识库,其中,通过远程监督方法生成实体关系抽取训练数据集,包括:通过远程监督方法标注训练样本,利用知识库中的两个entity以及对应的relation,在自然语言语料中进行回标,其中,若任意一个句子中同时包含两个entity,确定任意一个句子包含relation,得到标注数据。
具体而言,如图2所示,训练数据获取:需要准备好自然语言语料,包含实体对以及实体对对应的关系的知识库,本发明实施例通过远程监督方法可以自动标注训练样本,并利用知识库中的两个entity以及对应的某个relation,在自然语言语料中进行回标,如果某个句子中同时包含了两个entity,那么就假定这个句子包含了上述的relation.这样就可以获得大量的标注数据。
如图3所示,知识库中的关系三元组<Steve Jobs,Apple,Founder>,那么语料中Steve Jobs was the co-founder and CEO of Apple and formerly Pixar.和SteveJobs passed away the day before Apple unveilediPhone4S。两个句子都出现SteveJobs,Founder实体对,那么就将句子中的实体对的关系标为Apple。这就实现了自动标注训练数据,无需花费大量的时间人工标注数据,节省了大量人力、时间。
在步骤S103中,通过基于循环分段卷积神经网络和sentence embedding模块对句子的实体进行实体关系抽取。
可以理解的是,如图2所示,实体关系抽取:通过基于循环分段卷积神经网络和sentence embedding模块,对句子中的实体进行实体关系抽取。
进一步地,在本发明的一个实施例中,在进行实体关系抽取的过程中,通过词嵌入与双向循环神经网络和注意力与句向量抽取句子中实体的实体关系。
具体而言,如图2所示,实体关系抽主要分为以下几步:(1)词嵌入+双向循环神经网络;(2)注意力+句向量。下面将结合图4进行详细的解释。
(1)词嵌入+双向循环神经网络
1、word embedding
word embedding目的是将word转化为可以捕捉词的句法和语义信息的分布式表示。给出一个句子x={w1,w2,…,wm},m为句子的词个数,每个词都被表示成real-valuedvector,词表示通过一个embedding matrix中的对应列表示,其中embedding matrix VV代表词表的大小。
2、Word based context embedding
给出一个句子x={w1,w2,…,wm},本发明实施例想通过当前词的上下文来丰富当前词的表示信息,通过上下文信息来丰富每个词信息,这样可以不借助外部知识库等工具来丰富词信息。该模块定义cl(wi)作为wi的上文,cr(wi)作为wi的下文。
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1)) (1)
cr(wi)=f(W(l)cr(wi-1)+W(sl)e(wi-1)) (2)
x=[cl(wi);e(wi);cr(wi)] (3)
cl(wi)和cr(wi)都是|c|维的向量。cl(wi)计算公式如公式1。
cl(wi-1)是词wi-1的上文,e(wi-1)是词wi-1的word embedding,cr(wi-1)是词wi-1的下文,用|e|维的向量来表示。W(l)是将上文的隐藏层转换下一隐藏层的矩阵。W(sl)是结合当前词语义信息和上文信息的矩阵,f是非线性激活函数。cr(wi)以同样的方式计算,如公式2。随后,定义词wi-1的词表示,如公式3,词wi-1是由cl(wi)、e(wi)、cr(wi)拼接后的向量表示。这样,句子中的各个词信息就增加了该词的上下文信息,扩充了各个词的信息。
3、Position embedding
在关系抽取任务中,一般越靠近实体对的词语越能决定该实例中实体对对应的关系。使用position embedding可以帮助CNN捕捉到词语与头实体和尾实体之间的距离,以便更好地抽取出该实例的关系信息。Position embedding可以定义成当前词语与头实体和尾实体的相对距离的拼接结合。例如:“Bill Gates is the founderof Microsoft.”中,”founder”距离”Bill Gates”和”Microsoft”分别是3和2。本发明实施例将word basedcontext embedding和position embedding拼接获得词表示,那么整个句子可以表示成一个向量序列w={w1,w2,…,wm},wi∈Rdd=db+2×dp。
(2)注意力+句向量
1、Piecewise convolutional network
通过convolutional network抽取局部特征,通过局部特征来预测句子中实体对之间的关系,卷积层首先通过一个长度为l的滑动窗口抽取特征,之后,通过结合抽取出的局部特征再通过piecewise max-pooling操作,获取到固定大小的向量。卷积操作定义在输入向量序列w={w1,w2,…,wm}与卷积矩阵W之间的操作,定义qi为W矩阵的第i个窗口的序列。
qi=wi-1;i(1≤i≤m+l-1) (4),
因为每个句子长度不一样,所以当滑动窗口超出句子序列长度时,增加paddingtokens来补齐长度,Padding tokens可以用零向量进行代替。
第i个卷积层可以通过公式5计算:
pi=[Wq+b]i (5),
其中,采用piecewise max pooling操作,每个卷积层pi被头实体和尾实体分割成pi1、pi2和pi3;[x]ij=max(pij),最后的xi=[pi1;pi2;pi3]。
2、Sentence Embedding
sentence embedding可以表示一个实例的整体语义信息,进而可以间接地反映出该实例中实体对间的关系信息,所以本发明实施例在piecewise max pooling层之后的x拼接上表示整个实例sentence embedding Q,其中,Q采用sentence embedding的基于词向量的加权模型的思想,本发明实施例将piecewise max pooling层获得的三段最重要的信息[x]ij进行均值操作来表示该实例的语义信息。其中,Q计算方式基于词向量的加权模型的思想,如公式6:
s=∑αivi (6)。
在发明实施例中Piecewise max pooling层之后获得pi1、pi2和pi3,本发明实施例通过公式7获取该实例的整体语义表示。
3、Selective Attention Over Sentences
通过attention机制减少噪声数据的权重,给定本发明实施例S={s1,s2,…,sn}把集合S表示成:
s=∑αisi (8),
其中,α是每个实例的权重,α可以用以下的公式进行表示:
其中,A是带权重的对角矩阵,r是与关系r有关的查询向量。
4、Loss function
本发明实施例计算条件概率P:
其中,nr是总共的关系数量,o是神经网络的最后输出。
最后计算目标函数L:
综上,(1)本发明实施例提出变分自编码器将解决噪声问题的传统Bag-level上的关系预测方法转化为Sentence-level上的关系预测。Sentence-level上的关系预测可以给出每个实体对在所在句子中的关系,消除了传统方法只给出每个实体对描述的关系的限制,能够更精准地构建知识图谱。(2)本发明实施例提出采用Attention机制计算实体对上下文与实体对对应关系的相关程度,挑选出对关系识别贡献大的上下文,得到更优的关系抽取效果,具有一定的现实意义。
根据本发明实施例提出的远程监督关系抽取方法,运用RCNN网络捕捉句子中每个词的上下文语义信息,再将当前单词与其上文信息、下文信息拼接得到当前单词的最终表示,从而可以丰富句子中每个词信息,尤其增强实体对信息,进而提升关系识别的效果,且在模型的pooling层之后加入每个实例的句向量来加强每个实例中实体对间隐藏关系的信息。
其次参照附图描述根据本发明实施例提出的远程监督关系抽取装置。
图5是本发明一个实施例的远程监督关系抽取装置的结构示意图。
如图5所示,该远程监督关系抽取装置10包括:实体识别模块100、数据获取模块200和关系抽取模块300。
其中,实体识别模块100用于通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别。数据获取模块200用于通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集。关系抽取模块300用于通过基于循环分段卷积神经网络和sentence embedding模块对句子的实体进行实体关系抽取。本发明实施例的装置10可以通过自然语料自动标注训练数据,完成实体识别以及实体关系抽取。
进一步地,在本发明的一个实施例中,实体识别模块100进一步用于使用预先标注的数据集,应用选择的分类方法训练分类器,以标注未标注数据集中的标注分类,并使用分类器对标注的数据集进行标注分类,以从标注的数据集中获取到标注的数据,从标注的数据中选择置信度满足预设条件的数据作为标注数据,并加入到标注数据集,直至满足预设迭代结束条件。
进一步地,在本发明的一个实施例中,自然语言语料包含实体对和实体对对应的关系的知识库,其中,数据获取模块200进一步用于通过远程监督方法标注训练样本,利用知识库中的两个entity以及对应的relation,在自然语言语料中进行回标,其中,若任意一个句子中同时包含两个entity,确定任意一个句子包含relation,得到标注数据。
进一步地,在本发明的一个实施例中,关系抽取模块300进一步用于在进行实体关系抽取的过程中,通过词嵌入与双向循环神经网络和注意力与句向量抽取句子中实体的实体关系。
需要说明的是,前述对远程监督关系抽取方法实施例的解释说明也适用于该实施例的远程监督关系抽取装置,此处不再赘述。
根据本发明实施例提出的远程监督关系抽取装置,运用RCNN网络捕捉句子中每个词的上下文语义信息,再将当前单词与其上文信息、下文信息拼接得到当前单词的最终表示,从而可以丰富句子中每个词信息,尤其增强实体对信息,进而提升关系识别的效果,且在模型的pooling层之后加入每个实例的句向量来加强每个实例中实体对间隐藏关系的信息。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (2)
1.一种远程监督关系抽取方法,其特征在于,包括以下步骤:
通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别,其中,所述通过bootstrapping算法生成实体识别训练数据集,包括:使用预先标注的数据集,应用选择的分类方法训练分类器,以标注未标注数据集中的标注分类;使用所述分类器对标注的数据集进行标注分类,以从所述标注的数据集中获取到标注的数据;从所述标注的数据中选择置信度满足预设条件的数据作为标注数据,并加入到标注数据集,直至满足预设迭代结束条件;
通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集,所述自然语言语料包含实体对和实体对对应的关系的知识库,其中,所述通过远程监督方法生成实体关系抽取训练数据集,包括:通过所述远程监督方法标注训练样本,利用所述知识库中的两个entity以及对应的relation,在自然语言语料中进行回标,其中,若任意一个句子中同时包含所述两个entity,确定所述任意一个句子包含所述relation,得到所述标注数据;以及
通过基于循环分段卷积神经网络和sentence embedding模块对所述句子的实体进行实体关系抽取,其中,在进行实体关系抽取的过程中,通过词嵌入与双向循环神经网络和注意力与句向量抽取所述句子中实体的实体关系。
2.一种远程监督关系抽取装置,其特征在于,包括:
实体识别模块,用于通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别,其中,所述实体识别模块进一步用于使用预先标注的数据集,应用选择的分类方法训练分类器,以标注未标注数据集中的标注分类,并使用所述分类器对标注的数据集进行标注分类,以从所述标注的数据集中获取到标注的数据,从所述标注的数据中选择置信度满足预设条件的数据作为标注数据,并加入到标注数据集,直至满足预设迭代结束条件;
数据获取模块,用于通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集,其中,所述自然语言语料包含实体对和实体对对应的关系的知识库,其中,所述数据获取模块进一步用于通过所述远程监督方法标注训练样本,利用所述知识库中的两个entity以及对应的relation,在自然语言语料中进行回标,其中,若任意一个句子中同时包含所述两个entity,确定所述任意一个句子包含所述relation,得到所述标注数据;以及
关系抽取模块,用于通过基于循环分段卷积神经网络和sentence embedding模块对所述句子的实体进行实体关系抽取,其中,所述关系抽取模块进一步用于在进行实体关系抽取的过程中,通过词嵌入与双向循环神经网络和注意力与句向量抽取所述句子中实体的实体关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910411697.4A CN110209836B (zh) | 2019-05-17 | 2019-05-17 | 远程监督关系抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910411697.4A CN110209836B (zh) | 2019-05-17 | 2019-05-17 | 远程监督关系抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209836A CN110209836A (zh) | 2019-09-06 |
CN110209836B true CN110209836B (zh) | 2022-04-26 |
Family
ID=67787511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910411697.4A Active CN110209836B (zh) | 2019-05-17 | 2019-05-17 | 远程监督关系抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209836B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674312B (zh) * | 2019-09-18 | 2022-05-17 | 泰康保险集团股份有限公司 | 构建知识图谱方法、装置、介质及电子设备 |
CN110619121B (zh) * | 2019-09-18 | 2023-04-07 | 江南大学 | 基于改进深度残差网络和注意力机制的实体关系抽取方法 |
CN110765231A (zh) * | 2019-10-11 | 2020-02-07 | 南京摄星智能科技有限公司 | 一种基于共指融合的篇章事件抽取方法 |
CN111160005B (zh) * | 2019-11-25 | 2022-06-24 | 国家计算机网络与信息安全管理中心 | 基于事件演化知识本体的事件预测方法、装置及终端设备 |
CN111078895B (zh) * | 2019-12-18 | 2023-04-18 | 江南大学 | 基于去噪卷积神经网络的远程监督实体关系抽取方法 |
CN111241303A (zh) * | 2020-01-16 | 2020-06-05 | 东方红卫星移动通信有限公司 | 一种大规模非结构化文本数据的远程监督关系抽取方法 |
CN111310454B (zh) * | 2020-01-17 | 2022-01-07 | 北京邮电大学 | 一种基于领域迁移的关系抽取方法及装置 |
CN113468335A (zh) * | 2020-03-30 | 2021-10-01 | 海信集团有限公司 | 实体隐含关系抽取方法及设备 |
CN111597812B (zh) * | 2020-05-09 | 2021-09-17 | 北京合众鼎成科技有限公司 | 一种基于遮蔽语言模型的金融领域多重关系抽取方法 |
CN111831829B (zh) * | 2020-06-12 | 2024-04-09 | 广州多益网络股份有限公司 | 一种面向开放域的实体关系抽取方法、装置及终端设备 |
CN112002323A (zh) * | 2020-08-24 | 2020-11-27 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN112329463A (zh) * | 2020-11-27 | 2021-02-05 | 上海汽车集团股份有限公司 | 遥监督关系抽取模型的训练方法及相关装置 |
CN113051356B (zh) * | 2021-04-21 | 2023-05-30 | 深圳壹账通智能科技有限公司 | 开放关系抽取方法、装置、电子设备及存储介质 |
CN113378570B (zh) * | 2021-06-01 | 2023-12-12 | 车智互联(北京)科技有限公司 | 一种实体识别模型的生成方法、计算设备及可读存储介质 |
CN113468325A (zh) * | 2021-06-09 | 2021-10-01 | 广西电网有限责任公司 | 一种基于关联句选择和关系图推理的文档级关系抽取方法 |
CN113392216B (zh) * | 2021-06-23 | 2022-06-17 | 武汉大学 | 基于一致性文本增强的远程监督关系抽取方法及装置 |
CN113822330A (zh) * | 2021-08-11 | 2021-12-21 | 东华大学 | 基于自然语言推断分类数据集的降噪装置及方法 |
CN115168345B (zh) * | 2022-06-27 | 2023-04-18 | 天翼爱音乐文化科技有限公司 | 数据库分级分类方法、系统、装置及存储介质 |
CN116776887B (zh) * | 2023-08-18 | 2023-10-31 | 昆明理工大学 | 一种基于样本相似性计算的负采样远程监督实体识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145503A (zh) * | 2017-03-20 | 2017-09-08 | 中国农业大学 | 基于word2vec的远监督非分类关系提取方法及系统 |
CN107403067A (zh) * | 2017-07-31 | 2017-11-28 | 京东方科技集团股份有限公司 | 基于医学知识库的智能分诊服务器、终端及系统 |
CN107943847A (zh) * | 2017-11-02 | 2018-04-20 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
WO2019005722A1 (en) * | 2017-06-26 | 2019-01-03 | The Research Foundation For The State University Of New York | SYSTEM, METHOD AND COMPUTER-ACCESSIBLE MEDIA FOR VIRTUAL PANCREATOGRAPHY |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109472033A (zh) * | 2018-11-19 | 2019-03-15 | 华南师范大学 | 文本中的实体关系抽取方法及系统、存储介质、电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294593B (zh) * | 2016-07-28 | 2019-04-09 | 浙江大学 | 结合从句级远程监督和半监督集成学习的关系抽取方法 |
GB201709672D0 (en) * | 2017-06-16 | 2017-08-02 | Ucl Business Plc | A system and computer-implemented method for segmenting an image |
CN109614896A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于递归卷积神经网络的视频内容语义理解的方法 |
-
2019
- 2019-05-17 CN CN201910411697.4A patent/CN110209836B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145503A (zh) * | 2017-03-20 | 2017-09-08 | 中国农业大学 | 基于word2vec的远监督非分类关系提取方法及系统 |
WO2019005722A1 (en) * | 2017-06-26 | 2019-01-03 | The Research Foundation For The State University Of New York | SYSTEM, METHOD AND COMPUTER-ACCESSIBLE MEDIA FOR VIRTUAL PANCREATOGRAPHY |
CN107403067A (zh) * | 2017-07-31 | 2017-11-28 | 京东方科技集团股份有限公司 | 基于医学知识库的智能分诊服务器、终端及系统 |
CN107943847A (zh) * | 2017-11-02 | 2018-04-20 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109472033A (zh) * | 2018-11-19 | 2019-03-15 | 华南师范大学 | 文本中的实体关系抽取方法及系统、存储介质、电子设备 |
Non-Patent Citations (3)
Title |
---|
Shared Representation Generator for Relation Extraction With Piecewise-LSTM Convolutional Neural Networks;Danfeng Yang等;《IEEE Access》;20190114;第7卷;31672 - 31680 * |
深度学习实体关系抽取研究综述;鄂海红等;《软件学报》;20190328;第30卷(第6期);1793-1818 * |
面向领域知识库构建的实体识别及关系抽取技术;程紫光;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150315(第3期);I138-2845 * |
Also Published As
Publication number | Publication date |
---|---|
CN110209836A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209836B (zh) | 远程监督关系抽取方法及装置 | |
CN113761936B (zh) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 | |
WO2021223323A1 (zh) | 一种中文视觉词汇表构建的图像内容自动描述方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN112101028B (zh) | 一种多特征双向门控领域专家实体抽取方法及系统 | |
CN113642330A (zh) | 基于目录主题分类的轨道交通规范实体识别方法 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN112784051A (zh) | 专利术语抽取方法 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN111274829B (zh) | 一种利用跨语言信息的序列标注方法 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN110263325A (zh) | 中文分词系统 | |
CN111831789A (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
Duarte et al. | Sign language video retrieval with free-form textual queries | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN114743143A (zh) | 一种基于多概念知识挖掘的视频描述生成方法及存储介质 | |
CN111340006A (zh) | 一种手语识别方法及系统 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
Ronghui et al. | Application of Improved Convolutional Neural Network in Text Classification. | |
CN114003773A (zh) | 一种基于自构建多场景的对话追踪方法 | |
CN113255342B (zh) | 一种5g移动业务产品名称识别方法及系统 | |
CN112561474B (zh) | 一种基于多源数据融合的智能人格特性评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |