CN111241303A - 一种大规模非结构化文本数据的远程监督关系抽取方法 - Google Patents
一种大规模非结构化文本数据的远程监督关系抽取方法 Download PDFInfo
- Publication number
- CN111241303A CN111241303A CN202010045929.1A CN202010045929A CN111241303A CN 111241303 A CN111241303 A CN 111241303A CN 202010045929 A CN202010045929 A CN 202010045929A CN 111241303 A CN111241303 A CN 111241303A
- Authority
- CN
- China
- Prior art keywords
- vector
- sentence
- convolution
- entity
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 92
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 22
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种大规模非结构化文本数据的远程监督关系抽取方法,包括以下步骤:S1:对实体关系进行语料标注;S2:对文本进行词向量和位置向量进行映射;S3:引入软标签思想,利用深度残差卷积神经网络加入门控机制提取句子的语义特征;S4:利用多实例Attention机制计算实例与对应关系的相关性。本发明具有解决语料匮乏问题、标注质量高、错误少的优点。
Description
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种大规模非结构化文本数据的远程监督关系抽取方法。
背景技术
伴随互联网时代的不断发展,网络中的数据急剧增长,已逐渐成为一种资源甚至生产要素,有效抽取这些海量数据中用户所需的关键知识具有重要价值,关系抽取(Relation Extraction,RE)作为信息抽取中的关键技术,其主要目的为准确识别自然语言中实体间的语言关系,RE可将散乱的非结构化数据转换为易于理解的结构化知识,在海量信息处理、智能检索、知识问答与知识图谱构建等重要领域中均做出了卓越贡献,并逐渐成为众多研究者所关注的热点,在信息理解会议(Message Understanding Conference,MUC)及自动内容抽取(Automatic Content Extraction,ACE)测评等会议的推动下,多种RE方法被提出极大地促进了关系抽取技术的发展。
目前针对关系抽取已经有很多方法和技术,可以从不同维度进行划分,例如,从模型上的特点来看,可以分为基于规则的方法,基于传统机器学习的方法和基于深度学习的方法,从监督知识的依赖程度来看,实体关系抽取方法可以分为有监督学习方法、半监督学习方法和无监督学习方法;根据领域相关性,可以分为特定领域的关系抽取和开放领域的关系抽取,本发明是面向非结构化文本数据的关系抽取,在早期,基于有监督的方法是在正确的标注数据集上来进行关系抽取的,因此数据量很小;基于无监督的方法虽然可以在大规模数据集上进行关系抽取,不需要标注数据集,但是聚类的阈值比较难以确定,因此,随着大数据技术的发展,研究者开始考虑研究如何在大数据集上进行关系抽取,对于大数据集,基于远程监督(Distant Supervision)学习的关系抽取方法已经成为近两年的研究热点,远程监督的实体关系抽取方法不需要手动标记的种子和规则,但是需要外部知识库。
与传统有监督的实体关系抽取方法相比,基于远程监督的方法避免了训练语料数据集缺乏的问题,因此受到了广泛关注,然而,远程监督方法由于在构建语料过程中不可避免的会引入错误标签,性能将会受到极大影响。
发明内容
针对上述现有技术的不足,本专利申请所要解决的技术问题是:如何提供一种能够解决语料匮乏问题、标注质量高、错误少的大规模非结构化文本数据的远程监督关系抽取方法。
为了实现上述目的,本发明采用了如下技术方案:
一种大规模非结构化文本数据的远程监督关系抽取方法,包括以下步骤:
S1:对实体关系进行语料标注;
S2:对文本进行词向量和位置向量进行映射;
S3:引入软标签思想,利用深度残差卷积神经网络加入门控机制提取句子的语义特征;
S4:利用多实例Attention机制计算实例与对应关系的相关性。
优选的,步骤S1中,进行语料标注的具体步骤为:
A1:进行关系语料预处理,主要通过手动构建少量关系实体对,以确定关系类型;
A2:构建关系实例集,具体通过人工构建的实体对与量非结构文本数据进行匹配,从而建立关系实例集。
优选的,步骤S2的具体操作步骤包括:
B1:采用自然语言处理工具对文本数据进行分句和分词操作;
B2:将句子中的每一个单词映射到一个低维实值向量空间中,然后对句子进行词向量处理,得到句子中的每一个单词的向量表示;
B3:将句子中的每一个单词到两个实体的相对位置作为特征,并映射为位置向量;
B4:将训练数据句子中每一个单词利用预训练好的词向量和位置向量进行映射。
优选的,步骤S3中的具体操作步骤为:
C1:将句子X={x1,x2,…xn}作为卷积层的输入,提取该句子的语义特征c∈Rn-k+1,其中,n表示句子X中包含的单词个数,k为卷积核的大小;
C2:定义多个卷积核,卷积核参数是由m个二维矩阵构成的向量W'={W1,W2,…Wm},通过卷积后得到的卷积特征向量为ci={ci,1,ci,2,…ci,n-k+1};
C3:在门控机制内引入软标签的思想,弱化硬标签对噪声过滤的影响,门控机制模块连接着两个卷积网络,一个为原始CNN,另一个带有标签特征,使用两个实体间的双线性变换结果作为实体对<ei,ej>之间的关系标签;
C4:引入残差学习,设计一个残差卷积块,每个残差卷积块是两个卷积层构成的序列,每个卷积层后使用ReLU激活函数进行非线性映射,引入残差学习,得到输出特征向量c;
C5:基于分段最大池化进一步提取语义特征中最具有代表性的局部特征,为捕获句子不同结构的特征信息,将特征向量c被分成了三部分{ci,1,ci,2,ci,3},然后计算每一段中的最大值;
C6:拼接向量,将计算出的最大值拼接为一个向量p,并运用tanh函数计算,得到最终的特征向量。
优选的,步骤S4的具体操作步骤为:
D1:构建实体关系实例集合,根据文本句子是否同时包含实体ei和实体ej,如果同时包含,则假设该句子是描述了ei和ej的关系r的一个具体样本,将出现ei和ej的句子样本集合用一个包表示,每一个包表示一个实体关系实例集合;
D2:基于注意力机制计算实例向量的权重,对于描述同一实体对<ei,ej>的实例集合S=(g1,g2,g3,…gn),其中gi为卷积层输出的实例向量,n为集合S中所包含实例的数量,利用注意力机制计算实例向量gi与关系r之间的相关性,即gi的权重ai。
有益效果
(1)本发明从基对实体关系抽取进行研究,提出了面向大规模非结构化文件数据的关系抽取方法。在该方法中,针对训练语料数据集匮乏,采用远程监督的方式对关系语料进行标注,避免了人工在构建数据集上花费的时间与精力;
(2)本发明在构建语料过程中不可避免的会引入错误标签基础上,通过深度残差卷积神经网络和门控机制引入弱标签的思想,缓解了在训练过程中噪声数据带来的影响,提高了关系抽取的准确率。
附图说明:
图1为本发明所述一种大规模非结构化文本数据的远程监督关系抽取方法算法流程图;
图2为本发明的远程监督关系抽取模型图;
图3为本发明的位置向量化;
图4为本发明的残差学习单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。
实施例1:
参照图1,一种大规模非结构化文本数据的远程监督关系抽取方法,S1:对实体关系进行语料标注;
S2:对文本进行词向量和位置向量进行映射;
S3:引入软标签思想,利用深度残差卷积神经网络加入门控机制提取句子的语义特征;
S4:利用多实例Attention机制计算实例与对应关系的相关性。
本实施例中,步骤S1中,进行语料标注的具体步骤为:
A1:进行关系语料预处理,主要通过手动构建少量关系实体对,以确定关系类型;
A2:构建关系实例集,具体通过人工构建的实体对与大量非结构文本数据进行匹配,从而建立关系实例集。
本实施例中,步骤S2的具体操作步骤包括:
B1:采用自然语言处理工具对文本数据进行分句和分词操作;
B2:将句子中的每一个单词映射到一个低维实值向量空间中,然后对句子进行词向量处理,得到句子中的每一个单词的向量表示;
B3:将句子中的每一个单词到两个实体的相对位置作为特征,并映射为位置向量;
B4:将训练数据句子中每一个单词利用预训练好的词向量和位置向量进行映射。
本实施例中,步骤S3中的具体操作步骤为:
C1:将句子X={x1,x2,...xn}作为卷积层的输入,提取该句子的语义特征c∈Rn-k+1,其中,n表示句子X中包含的单词个数,k为卷积核的大小;
C2:定义多个卷积核,卷积核参数是由m个二维矩阵构成的向量W'={W1,W2,…Wm},通过卷积后得到的卷积特征向量为ci={ci,1,ci,2,…ci,n-k+1};
C3:在门控机制内引入软标签的思想,弱化硬标签对噪声过滤的影响,门控机制模块连接着两个卷积网络,一个为原始CNN,另一个带有标签特征,使用两个实体间的双线性变换结果作为实体对<ei,ej>之间的关系标签;
C4:引入残差学习,设计一个残差卷积块,每个残差卷积块是两个卷积层构成的序列,每个卷积层后使用ReLU激活函数进行非线性映射,引入残差学习,得到输出特征向量c;
C5:基于分段最大池化进一步提取语义特征中最具有代表性的局部特征,为捕获句子不同结构的特征信息,将特征向量c被分成了三部分{ci,1,ci,2,ci,3},然后计算每一段中的最大值;
C6:拼接向量,将计算出的最大值拼接为一个向量p,并运用tanh函数计算,得到最终的特征向量。
本实施例中,步骤S4的具体操作步骤为:
D1:构建实体关系实例集合,根据文本句子是否同时包含实体ei和实体ej,如果同时包含,则假设该句子是描述了ei和ej的关系r的一个具体样本,将出现ei和ej的句子样本集合用一个包表示,每一个包表示一个实体关系实例集合;
D2:基于注意力机制计算实例向量的权重,对于描述同一实体对<ei,ej>的实例集合S=(g1,g2,g3,…gn),其中gi为卷积层输出的实例向量,n为集合S中所包含实例的数量,利用注意力机制计算实例向量gi与关系r之间的相关性,即gi的权重ai。
实施例2:
参考图2-4所示:
(一)利用远程监督的方法构建了训练数据集,最终通过人工的标注实体对的方式,定义多种关系类型,并以这些关系实体对组成网络安全实体关系集合K。在得到关系实体对集合K后,从而构建关系实例集,将搜索引擎(例如维基百科)中的文本数据D与集合K中包含的实体对<ei,ej>进行匹配,自动获取D中包含的实体对<ei,ej>的句子,作为实体对<ei,ej>所对应的关系r的安全实体关系实例;但是,本发明基于远程监督的方式数据标注,假设性太强,不可避免的带来了很多噪声数据,例如含有中国和北京的句子全都是首都关系,比如说中国的面积比北京的面积大,就不是。这就说明远程监督的数据里存在大量的噪声,把真正含有指定关系的句子叫做实例,实际上不含任何关系的句子叫NA,其余的都是反例,这个噪声问题被叫做错误标签问题,这是本发明利用远程监督关系抽取的首要解决的问题。
(二)在关系语料数据集的基础上,本方案的输入训练语句的词向量表示是由预先训练词向量文件和位置向量映射拼接而成。
给定一个由n个单词组成的句子X={x1,x2,...xn},利用word2vec将每一个词映射到一个低维实值向量空间中,然后对句子进行词向量处理,最终得到句子中的每一单词的向量表示,从而组成词向量查询矩阵Dc,维度为dc,每个输入的训练序列可由词向量查询矩阵Dc进行映射得到对应的实值向量xt={w1,w2,…wn}。
在关系抽取任务中,往往靠近实体的单词更加能够突显出两个实体之间的关系。本发明将当前词与实体e1和实体e2的相对距离拼接并通过映射将其转换成向量表示,如图2所示。在句子位置向量化中,若词向量的维度是dc,位置向量的维度是dp,则句子向量的维度如公式1所示。
ds=dc+dp*2
(三)在将输入训练语句中的单词用词向量和位置向量映射表示之后,引入软标签思想,利用深度残差卷积神经网络加入门控机制提取句子的语义特征;在关系抽取模型中,本发明将句子X={x1,x2,…xn}作为卷积层的输入,其中n表示句子X中包含的单词个数,xi={w1,w2,…wn}表示其中第i个单词并且用xi表示其向量,本发明首先定义了卷积核的高度为k,宽度为d,则卷积核为一个二维矩阵W,Xi,j=[xi,xi+1,…xj]为一个由xi到xj水平拼接矩阵,那么句子X和卷积核之间进行卷积运算会产生一个特征向量c∈Rn-k+1:
cj=f(W·Xj,j+k-1+b)
其中1≤j≤n-k+1,b为是偏置向量。
于传统的CNN模型,本发明对卷积层进行了改进,加入了门控机制,并在此基础上,引入了软标签的思想,使得模型可以更好地过滤词级别噪声,基于GTU和GLU的门控机制在语言模型中被广泛应用,且取得了良好效果,综合计算性能和有效性的考虑,本发明对基于GTU的门控机制进行了改进,将其命名为GAU(Gated Activation Units)模块,对应的运算结构为:
其中relu函数会根据自身的输出来限制tanh函数的输出,以达到过滤句内噪声的目的。
在基于硬标签的方法中,实体对的关系标签(无论它们是否正确)在训练期间是不可变的,这在一定程度上扩大了远程监督错误标注问题对模型性能产生的负面影响,针对于此,本发明在门控机制内引入了软标签策略,即训练时将标签替换为实体对之间的动态信息来指导特征过滤。
如图1所示,GAU模块连接着两个卷积网络(一个为原始CNN,另一个带有标签特征),使用两个实体间的双线性变换结果lrelation=eiWBej(WB模型参数)作为实体对<ei,ej>之间的关系标签,指导模型在词级别上对不相关特征进行过滤,具体来说,通过以下方式获得特征:
cGAU,j=mj×nj
然而在实际实验中,为了获得更多的语义特征,会使用多个卷积核,卷积参数是由m个二维矩阵构成的向量W'={W1,W2,…Wm},那么整个模型的卷积操作计算如下公式所示。
cij=cGAU,j=mi,j×ni,j
其中1≤i≤m,1≤j≤n-k+1。经过以上运算,卷积层的整体输出结果
ci={ci,1,ci,2,…ci,n-k+1}
从图2可看出,本发明利用残差学习设计了一个残差卷积块,每个残差卷积块是两个卷积层构成的序列,每个卷积层后使用ReLU激活函数进行非线性映射,随后利用局部最大池化提取特征,残差卷积模块所有的卷积操作的核大小为k,通过边界填充(padding)操作保证新生成的特征与原始的大小一致,两层卷积的卷积核为W1,W2∈Rk*1,以下是残差卷积块中的第一层:
ci,1=f(W1·ci,i+k-1+b1)
第二层:
ci,2=f(W2·ci,i+k-1+b2)
其中b1,b2为偏置向量,引入残差学习单元进行优化,如图4所示,能够解决梯度消失和梯度爆炸问题,在训练更深的关系抽取模型同时又能够保证良好的性能。残差卷积块的输出向量c,这个操作是由快速连接(Shortcut Connection)和逐元素添加(Element-wise Addition)完成的,在本方案模型中多次拼接残差卷积块,
c=ci,1+ci,2
在通过卷积层获取语义特征之后,利用池化层进一步提取语义特征中最具有代表性的局部特征,传统的卷积神经网络方法在池化计算时,往往是在第i个卷积向量ci中取一个最大值代表该卷积向量的最显著特征,但是这种传统的最大池化不适用于关系抽取,它过快地减少了隐藏层的大小,并且太粗糙而无法捕获用于关系提取的细粒度特征,由于本发明是针对网络安全实体关系,数据中的句子既有英文实体又有中文实体,具有一定句子结构,因此,本发明提出了一个分段最大池化(Piecewise Max Pooling)过程,它返回每个段中的最大值而不是单个最大值。为了捕获句子不同结构的特征信息,本方案将输入的句子基于所选实体分成三段,然后在每一段中取最大,如图2所示,将通过残差卷积快获得的卷积向量c被分成了三部分{ci,1,ci,2,ci,3},然后计算每一段中的最大值:
pi,j=max(ci,j)
其中1≤i≤m,1≤j≤3,然后对所有的卷积向量都进行相同的操作,将计算出的最大值拼接为一个向量p={pi,1,pi,2,pi,3},然后连接所有向量p并应用非线性函数,例如双曲正切,最后,分段最大池输出一个向量如公式所示:
g=tanh(p)
其中g∈R3*m,g为最终得到的向量,作为当前句子的特征表示。
(四)使用多个实例上构建句子级别的注意力,期望动态地减少那些有噪声的实例的权重,充分利用这些句子中的语义信息得到最终的句子向量表示。
对于描述同一实体对<ei,ej>的实例集合S=(g1,g2,g3,…gn),其中gi为卷积层输出的实例向量,n为集合S中所包含实例的数量,本发明将计算实例向量gi与关系r之间的相关程度,为降低噪声数据的影响并充分利用集合中每个实例所包含的语义信息,实例集合向量S的计算将依赖于集合中的每个实例gi:
其中ai是输入的实例向量gi的权重,衡量了所对应的关系r的相关性。αi的计算公式如下:
其中ei被称为基于查询的函数,表示对输入实例向量gi和预测关系r的匹配程度进行评分,本发明选择了双线性形式,在不同的替代方案中获得了最好的性能:
ei=giAR
其中A为加权对角矩阵,R表示关系r对应的向量表示,然后在通过softmax函数计算预测关系的条件概率p(R|S):
实施例3:
为了验证本方案的有效性,本方案在实验中用到两个数据集,通用数据集NYT以及本发明标注的实体关系数据集,NYT中有53种关系,训练数据包含522611个句子,281270个实体对,测试集包含172448个句子,96678个实体对,第二个数据集是网络安全实体关系数据集,本方案基于远程监督的方式标记关系语料,最终获得实体关系实例70000条,共标注了7关系种类,本方案随机选取了55000个句子作为训练数据,其中包含了12000个实体对,选取15000条句子作为测试数据,其中包含了3000个实体对。
(1)不同模型对比实验
本方案对比实验主要是对比算法模型的两个方面,一方面是采用不同性能的CNN算法对训练数据进行编码,提取句子中的语义特征,主要包括传统PCNN、ResPCNN、GAU-ResPCNN三种算法;第二个方面是在PCNN/ResPCNN/GAU-ResPCNN的基础之上,如何使用bag中的信息进行实验对比,本发明采用不同3种方式对bag中的信息进行处理,分别是AVE、ONE以及ATT。AVE就是将包中同对实体对的所有句子的权重都看做一样的,即ONE表示取置信度最高的一个实例向量,从每个bag中找一个得分最高的句子来表示整个bag。本发明所有的模型都在NYT数据集和标注的关系数据集上进行训练并测试,实验结果表明,本发明提出的模型关系抽取准备率高于其它模型。
1)模型深度对比实验
为了进一步验证本发明提出的关系抽取模型,本发明通过增加GAU-ResPCNN-ATT模型的深度,验证引入残差学习的有效性,设计了在不同层数的卷积层的对比实验。本发明通过增加残差卷积块的个数,从而增加卷积层的层数,并且在NYT数据集和NSER数据集上进行实验对比。实验结果表明,NYT数据集在GAU-ResPCNN-ATT层数为9和标注的关系数据集在ResPCNN-ATT层数为4的时候,关系抽取性能最好,由于标注的关系数据集数据量不大,所以在训练时,模型的深度不会太深
有益效果
(1)本发明从基对实体关系抽取进行研究,提出了面向大规模非结构化文件数据的关系抽取方法。在该方法中,针对训练语料数据集匮乏,采用远程监督的方式对关系语料进行标注,避免了人工在构建数据集上花费的时间与精力;
(2)本发明在构建语料过程中不可避免的会引入错误标签基础上,通过深度残差卷积神经网络和门控机制引入弱标签的思想,缓解了在训练过程中噪声数据带来的影响,提高了关系抽取的准确率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种大规模非结构化文本数据的远程监督关系抽取方法,其特征在于:包括以下步骤:
S1:对实体关系进行语料标注;
S2:对文本进行词向量和位置向量进行映射;
S3:引入软标签思想,利用深度残差卷积神经网络加入门控机制提取句子的语义特征;
S4:利用多实例Attention机制计算实例与对应关系的相关性。
2.根据权利要求1所述的一种大规模非结构化文本数据的远程监督关系抽取方法,其特征在于,步骤S1中,进行语料标注的具体步骤为:
A1:进行关系语料预处理,主要通过手动构建少量关系实体对,以确定关系类型;
A2:构建关系实例集,具体通过人工构建的实体对与大量非结构文本数据进行匹配,从而建立关系实例集。
3.根据权利要求2所述的一种大规模非结构化文本数据的远程监督关系抽取方法,其特征在于,步骤S2的具体操作步骤包括:
B1:采用自然语言处理工具对文本数据进行分句和分词操作;
B2:将句子中的每一个单词映射到一个低维实值向量空间中,然后对句子进行词向量处理,得到句子中的每一个单词的向量表示;
B3:将句子中的每一个单词到两个实体的相对位置作为特征,并映射为位置向量;
B4:将训练数据句子中每一个单词利用预训练好的词向量和位置向量进行映射。
4.根据权利要求3所述的一种大规模非结构化文本数据的远程监督关系抽取方法,其特征在于,步骤S3中的具体操作步骤为:
C1:将句子X={x1,x2,...xn}作为卷积层的输入,提取该句子的语义特征c∈Rn-k+1,其中,n表示句子X中包含的单词个数,k为卷积核的大小;
C2:定义多个卷积核,卷积核参数是由m个二维矩阵构成的向量W'={W1,W2,…Wm},通过卷积后得到的卷积特征向量为ci={ci,1,ci,2,…ci,n-k+1};
C3:在门控机制内引入软标签的思想,弱化硬标签对噪声过滤的影响,门控机制模块连接着两个卷积网络,一个为原始CNN,另一个带有标签特征,使用两个实体间的双线性变换结果作为实体对<ei,ej>之间的关系标签;
C4:引入残差学习,设计一个残差卷积块,每个残差卷积块是两个卷积层构成的序列,每个卷积层后使用ReLU激活函数进行非线性映射,引入残差学习,得到输出特征向量c;
C5:基于分段最大池化进一步提取语义特征中最具有代表性的局部特征,为捕获句子不同结构的特征信息,将特征向量c被分成了三部分{ci,1,ci,2,ci,3},然后计算每一段中的最大值;
C6:拼接向量,将计算出的最大值拼接为一个向量p,并运用tanh函数计算,得到最终的特征向量。
5.根据权利要求4所述的一种大规模非结构化文本数据的远程监督关系抽取方法,其特征在于,步骤S4的具体操作步骤为:
D1:构建实体关系实例集合,根据文本句子是否同时包含实体ei和实体ej,如果同时包含,则假设该句子是描述了ei和ej的关系r的一个具体样本,将出现ei和ej的句子样本集合用一个包表示,每一个包表示一个实体关系实例集合;
D2:基于注意力机制计算实例向量的权重,对于描述同一实体对<ei,ej>的实例集合S=(g1,g2,g3,…gn),其中gi为卷积层输出的实例向量,n为集合S中所包含实例的数量,利用注意力机制计算实例向量gi与关系r之间的相关性,即gi的权重ai。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010045929.1A CN111241303A (zh) | 2020-01-16 | 2020-01-16 | 一种大规模非结构化文本数据的远程监督关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010045929.1A CN111241303A (zh) | 2020-01-16 | 2020-01-16 | 一种大规模非结构化文本数据的远程监督关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111241303A true CN111241303A (zh) | 2020-06-05 |
Family
ID=70874590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010045929.1A Pending CN111241303A (zh) | 2020-01-16 | 2020-01-16 | 一种大规模非结构化文本数据的远程监督关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241303A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329463A (zh) * | 2020-11-27 | 2021-02-05 | 上海汽车集团股份有限公司 | 遥监督关系抽取模型的训练方法及相关装置 |
CN112668342A (zh) * | 2021-01-08 | 2021-04-16 | 中国科学院自动化研究所 | 基于孪生网络的远程监督关系抽取降噪系统 |
CN113268985A (zh) * | 2021-04-26 | 2021-08-17 | 华南理工大学 | 基于关系路径的远程监督关系抽取方法、装置及介质 |
CN113312907A (zh) * | 2021-06-18 | 2021-08-27 | 广东工业大学 | 基于混合神经网络的远程监督关系抽取方法及装置 |
CN113869056A (zh) * | 2021-10-14 | 2021-12-31 | 国网电子商务有限公司 | 一种基于远程监督的关系抽取方法及装置 |
CN114254130A (zh) * | 2022-02-28 | 2022-03-29 | 南京众智维信息科技有限公司 | 网络安全应急响应知识图谱的关系提取方法 |
CN115438190A (zh) * | 2022-09-06 | 2022-12-06 | 国家电网有限公司 | 一种配电网故障辅助决策知识抽取方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
CN109472033A (zh) * | 2018-11-19 | 2019-03-15 | 华南师范大学 | 文本中的实体关系抽取方法及系统、存储介质、电子设备 |
CN109635124A (zh) * | 2018-11-30 | 2019-04-16 | 北京大学 | 一种结合背景知识的远程监督关系抽取方法 |
CN109871451A (zh) * | 2019-01-25 | 2019-06-11 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
CN110209836A (zh) * | 2019-05-17 | 2019-09-06 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
CN110543640A (zh) * | 2019-08-09 | 2019-12-06 | 沈阳雅译网络技术有限公司 | 一种基于注意力机制神经机器翻译推断加速方法 |
CN110619121A (zh) * | 2019-09-18 | 2019-12-27 | 江南大学 | 基于改进深度残差网络和注意力机制的实体关系抽取方法 |
-
2020
- 2020-01-16 CN CN202010045929.1A patent/CN111241303A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
CN109472033A (zh) * | 2018-11-19 | 2019-03-15 | 华南师范大学 | 文本中的实体关系抽取方法及系统、存储介质、电子设备 |
CN109635124A (zh) * | 2018-11-30 | 2019-04-16 | 北京大学 | 一种结合背景知识的远程监督关系抽取方法 |
CN109871451A (zh) * | 2019-01-25 | 2019-06-11 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
CN110209836A (zh) * | 2019-05-17 | 2019-09-06 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
CN110543640A (zh) * | 2019-08-09 | 2019-12-06 | 沈阳雅译网络技术有限公司 | 一种基于注意力机制神经机器翻译推断加速方法 |
CN110619121A (zh) * | 2019-09-18 | 2019-12-27 | 江南大学 | 基于改进深度残差网络和注意力机制的实体关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
秦娅: ""网络安全知识图谱构建关键技术研究"", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329463A (zh) * | 2020-11-27 | 2021-02-05 | 上海汽车集团股份有限公司 | 遥监督关系抽取模型的训练方法及相关装置 |
CN112668342A (zh) * | 2021-01-08 | 2021-04-16 | 中国科学院自动化研究所 | 基于孪生网络的远程监督关系抽取降噪系统 |
CN112668342B (zh) * | 2021-01-08 | 2024-05-07 | 中国科学院自动化研究所 | 基于孪生网络的远程监督关系抽取降噪系统 |
CN113268985A (zh) * | 2021-04-26 | 2021-08-17 | 华南理工大学 | 基于关系路径的远程监督关系抽取方法、装置及介质 |
CN113268985B (zh) * | 2021-04-26 | 2023-06-20 | 华南理工大学 | 基于关系路径的远程监督关系抽取方法、装置及介质 |
CN113312907A (zh) * | 2021-06-18 | 2021-08-27 | 广东工业大学 | 基于混合神经网络的远程监督关系抽取方法及装置 |
CN113869056A (zh) * | 2021-10-14 | 2021-12-31 | 国网电子商务有限公司 | 一种基于远程监督的关系抽取方法及装置 |
CN114254130A (zh) * | 2022-02-28 | 2022-03-29 | 南京众智维信息科技有限公司 | 网络安全应急响应知识图谱的关系提取方法 |
CN115438190A (zh) * | 2022-09-06 | 2022-12-06 | 国家电网有限公司 | 一种配电网故障辅助决策知识抽取方法及系统 |
CN115438190B (zh) * | 2022-09-06 | 2023-06-06 | 国家电网有限公司 | 一种配电网故障辅助决策知识抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN111241303A (zh) | 一种大规模非结构化文本数据的远程监督关系抽取方法 | |
WO2021164199A1 (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN110598005B (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
WO2021223323A1 (zh) | 一种中文视觉词汇表构建的图像内容自动描述方法 | |
CN108399163B (zh) | 结合词聚合与词组合语义特征的文本相似性度量方法 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
WO2020062770A1 (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN112883738A (zh) | 基于神经网络和自注意力机制的医学实体关系抽取方法 | |
CN110083682A (zh) | 一种基于多轮注意力机制的机器阅读理解答案获取方法 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110619121B (zh) | 基于改进深度残差网络和注意力机制的实体关系抽取方法 | |
CN109214001A (zh) | 一种中文语义匹配系统及方法 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN111291556A (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN110765755A (zh) | 一种基于双重选择门的语义相似度特征提取方法 | |
CN113628059B (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN111460818A (zh) | 一种基于增强胶囊网络的网页文本分类方法及存储介质 | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN116362243A (zh) | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 | |
CN111353032B (zh) | 面向社区问答的问题分类方法及系统 | |
CN116883746A (zh) | 一种基于分区池化超图神经网络的图节点分类方法 | |
CN111737470A (zh) | 文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200605 |