CN111428505A - 一种融合触发词识别特征的实体关系抽取方法 - Google Patents
一种融合触发词识别特征的实体关系抽取方法 Download PDFInfo
- Publication number
- CN111428505A CN111428505A CN202010212651.2A CN202010212651A CN111428505A CN 111428505 A CN111428505 A CN 111428505A CN 202010212651 A CN202010212651 A CN 202010212651A CN 111428505 A CN111428505 A CN 111428505A
- Authority
- CN
- China
- Prior art keywords
- sentence
- entity
- vector
- word
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 71
- 239000013598 vector Substances 0.000 claims abstract description 140
- 230000006870 function Effects 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 29
- 230000004927 fusion Effects 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种融合触发词识别特征的实体关系抽取方法,属于自然语言处理中的信息抽取技术领域。所述方法先对数据集中的句子标记触发词;再利用句子中触发词、两个实体和根据两个实体相对位置计算的句子类型计算标签向量,然后计算标签向量与模型中注意力机制捕捉的句子特征表示的相对熵;再设计一个实体关系抽取的目标函数;将相对熵与实体关系抽取的目标函数进行优化用于训练实体关系抽取的模型。不仅解决了现有实体关系抽取方法对句子中的所有词一视同仁的缺点,还能帮助实体关系抽取模型提取对实体关系分类更有用的特征;所述实体关系抽取方法在标准的中文关系抽取数据集ACE2005上比现有最好实体关系抽取方法的F1得分高出2.5%。
Description
技术领域
本发明涉及一种融合触发词识别特征的实体关系抽取方法,属于自然语言处理中的信息抽取技术领域。
背景技术
实体关系抽取任务是给定标注了两个实体的句子,返回两个实体之间的语义关系。例如“姚明在父亲姚志源的影响下,他也十分热爱篮球运动”,句子中两个实体分别是“姚明”和“姚志源”,两个实体之间的关系是“父子”。
实体关系抽取是信息检索和问答系统等信息系统的重要支撑技术。实体关系抽取使信息系统的输出结果由粗粒度的文档级转变为细粒度的实体级。比如在传统的信息检索技术中,输入“姚明的父亲是谁?”,会输出结果是带有“姚明”和“父亲”词条的所有文档;将实体关系抽取技术应用到信息检索后,会直接输出结果是“姚志源”。
现有的实体关系抽取方法,对输入的标注了两个实体的句子直接建模提取用于实体关系分类的特征并将提取的特征输入到实体关系分类器中;但是这些方法对句子中的所有词一视同仁,因此,句子中对实体关系分类贡献小的词会引入噪声,比如上面例句中“他也十分热爱篮球”对实体关系分类贡献就小,但是将其建模并提取其特征输入到实体关系分类器中,就会对实体关系分类产生负面影响;为了解决现有实体关系抽取方法对句子中所有词一视同仁带来的噪声问题,我们启发式的假设句子中对实体关系抽取贡献大的词为“触发词”,即触发词是句子中能够直接或间接表达两个实体间关系的词或词组,比如上面例句中“父亲”就是触发词。提出了一种识别句子中触发词的方法。
将识别句子中触发词的方法与实体关系抽取方法融合,即我们提出一种融合触发词识别特征的实体关系抽取方法。先对数据集中句子标注触发词,用于训练一个能识别句子中触发词的模型。然后将识别触发词的模型与实体关系抽取模型融合用于实体关系抽取;我们的方法显著的提高了实体关系抽取的性能。
发明内容
本发明的目的在于针对现有的实体关系抽取方法对句子中的所有词一视同仁而带来的噪声问题,提出了一种融合触发词识别特征的实体关系抽取方法。
所述融合触发词识别特征的实体关系抽取方法,包括识别句子中触发词和实体关系抽取,具体包括以下步骤:
1.一种融合触发词识别特征的实体关系抽取方法,包括识别句子中触发词和实体关系抽取,具体包括以下步骤:
步骤1:提取句子中触发词的特征;
步骤1.1:对数据集中的句子标注触发词,输出标注触发词后的数据集;
其中,数据集包括训练集和测试集;
步骤1.1具体包括以下子步骤:
步骤1.1.1:对数据集中含有触发词的句子,使用大括号标注触发词,用于记录触发词在句子中的位置;
步骤1.1.2:对于数据集中不含有触发词的句子,打上<omit>标记;
步骤1.2:从步骤1.1输出的数据集的训练集中选取一个训练样本(Sh,lh),对句子Sh进行分类再计算该句子的标签向量v;
其中,Sh和lh分别表示训练集中第h个样本中的句子和句子对应的实体关系类型标签,h的取值范围是1到H,H是训练集中样本的总数;
步骤1.2具有包括以下子步骤:
步骤1.2.1:对句子Sh进行分类;根据句子Sh中两个实体之间的相对位置,通过公式(1)得到句子类型t:
步骤1.2.2:通过公式(2)得到句子Sh的标签向量v:
其中,用x是句子Sh去掉标注触发词的大括号和<omit>标签后的句子,形式上为文字的序列,即x=[x1,x2,...,xM],xi表示x中第i个文字,i的取值范围为1到M,M是句子x的长度;one_hot(·)是嵌入函数,实体xi对应的vi为1,其他字xj对应的vj为0,触发词在句子x中的位置i对应的vi为1;t是经步骤2.1计算输出的句子类型;符号代表的是向量的拼接;
步骤1.3:计算带有实体位置信息的字向量,具体为:将句子x中的字转化为字向量,计算实体在句子x中的相对位置,将实体相对位置转换为位置向量,最后计算带有实体位置信息的字向量,具体包括以下子步骤:
步骤1.3.1:对句子x中的每个字通过公式(3)的嵌入函数转化为其字向量:
ei=embed(xi) (3)
其中,embed(·)是嵌入函数,对于输入的每一个字xi,查找得到对应的字向量ei;
步骤1.5:计算实体的向量表示并根据该向量表示计算句子x的句子类型的向量表示;
步骤1.5具体包括以下子步骤:
步骤1.5.1:通过公式(7)从经步骤1.4输出的高阶特征向量e*中计算实体k的向量表示entity_embk:
步骤1.5.2:通过公式(8)计算句子x的句子类型的向量表示te:
te=Relu(WT(concat(entityemb k))+b) (8)
步骤1.7:使用注意力机制捕捉句子中触发词的特征;通过公式(10)对经步骤1.6输出的向量e#使用注意力机制计算得到其权重向量α:
α=softmax(wTtanh(e#)) (10)
步骤2:提取句子中用于实体关系抽取的特征;
步骤2的具体子步骤如下:
步骤2.1:通过公式(11)将经步骤1.6输出的字级别向量e#与经步骤1.7输出的权重向量α的转置做运算,输出句子级别的向量e∷:
e∷=e#αT (11)
步骤2.2:对经步骤2.1输出的句子级别的向量e∷通过公式(12)映射到实体关系空间并得到用于实体关系分类的向量o;
o=We∷+b (12)
步骤3:融合识别句子中触发词的模型与实体关系抽取的模型;
步骤3.1:采用相对熵衡量经步骤1.2.2输出的句子标签向量v与经步骤1.7输出的权重向量α之间的分布差异性;具体为:计算句子标签向量的概率分布,计算该概率分布与经步骤1.7输出的权重向量之间的相对熵;
步骤3.1的具体子步骤如下:
步骤3.1.1:通过公式(13)计算句子标签向量v的概率分布αv:
αv=softmax(v) (13)
其中,v经过softmax(·)函数将值映射到(0,1)区间;
步骤3.1.2:通过公式(14)计算经步骤3.1.1输出的概率分布αv与经步骤1.7输出的权重向量α之间的相对熵作为识别句子中触发词的模型的目标函数;
其中,H表示总的训练样本数,h表示第h个训练样本,其中θ是模型中可被训练的参数;
步骤3.2:采用交叉熵衡量真实概率与实体关系类型预测概率的之间分布的差异性;具体为:计算实体关系类型的预测概率,计算该概率与真实概率概率之间的相对熵;
其中,真实概率是指句子对应实体关系标签lh的概率为1;
步骤3.2.1:通过公式(15)对经步骤2.2输出的用于实体关系分类的向量o计算得到实体关系类型的预测概率p(lh|Sh):
p(lh|Sh)=softmax(o) (15)
其中,Sh和lh分别表示训练集中第h个样本中的句子和句子对应的实体关系类型标签;
步骤3.2.2:通过公式(16)计算真实概率与经步骤3.2.1输出的每种实体关系类型的预测概率p(lh|Sh)之间的交叉熵作为实体关系抽取模型的目标函数:
其中,H表示训练样本的总数,h表示第h个训练样本,θ是模型中可被训练的参数;
步骤3.3:将经步骤3.1.2计算的交叉熵J(θ)与经步骤3.2.2计算的相对熵D(αv||α,θ)相加得到融合识别句子中触发词的模型与实体关系抽取的模型的目标函数J*(θ),如下公式(17)所示:
J*(θ)=J(θ)+D(αv||α,θ) (17)
步骤3.4:使用随机梯度下降方法对步骤3.3的目标函数进行优化,对训练集中的所有训练样本进行N次迭代训练,输出被训练好的融合触发词识别特征的实体关系抽取模型;
步骤4:使用步骤3.4输出的实体关系抽取模型识别句子中两个实体之间的关系;任意输入一句标注好两个实体的句子到被训练好的关系抽取模型,输出两个实体间的语义关系。
有益效果
本发明是一种融合触发词识别特征的实体关系抽取方法,与现有实体关系抽取方法相比,具有如下有益效果:
1.所述方法解决了现有实体关系抽取方法对句子中的所有词一视同仁的缺点,提出一种识别句子中触发词的方法,用于帮助实体关系抽取模型能提取对实体关系分类更有用的特征;
2.所述方法将识别句子中触发词的方法与实体关系抽取的方法相融合,因此,将句子中触发词的特征用于实体关系抽取,提高了实体关系抽取任务的性能;在标准的中文实体关系抽取数据集ACE2005上,所述方法的F1得分比之前模型最高的F1得分提升了2.5个百分点;
附图说明
图1是本发明一种融合触发词识别特征的实体关系抽取方法的流程图。
具体实施方式
下面结合具体实施例1以及附图1对本发明一种融合触发词识别特征的实体关系抽取方法进行细致阐述。
实施例1
本实施例阐述了本发明所述的一种融合触发词识别特征的实体关系抽取方法中的具体实施。
图1所示,是所述方法的流程图。
步骤1.设计识别句子中触发词的模型;
步骤1.1对数据集中的句子标记触发词,对有触发词的句子,例如“在中国科学院自动化研究所里,有一个中法自动化与应用数学联合实验室”;这个句子的两个实体是“中国科学院自动化研究所”和“中法自动化与应用数学联合实验室”,表达的实体关系是“ART/User-Owner-Inventor-Manufacturer”。句子中的词“有”能够直接的表达实体关系,使用大括号将这个词标记为触发词,用于记录触发词在句子中的位置;对于不含有触发词的句子,在句子的结尾标记<omit>标签;
步骤1.2计算经过步骤1.1的数据集中句子的标签向量v;
步骤1.2具体包括以下子步骤:
步骤1.2.1先计算句子的类型;根据句子中两个实体的相对位置计算句子的类型t,计算句子的类型是为了考虑不含触发词的句子在哪些位置相对两个实体省略触发词;例如“在中国科学院自动化研究所里,有一个中法自动化与应用数学联合实验室”的句子类型为t=2;
步骤1.2.2计算句子标签向量v;对于不含有触发词的句子,句子的标签向量v由句子的类型和两个实体决定,例如“中国基督教协会会长”中,两个实体是“中国基督教协会会长”和“中国基督教协会”,表达的实体关系是“ORG-AFF/Employment”,句子的类型为t=1,句子的长度为M=9,假设数据集中句子的类型总数为N=3,则其标签向量v=[1,1,1,1,1,1,1,1,1,1,0,0]并且长度为M+N;对含有触发词的句子,句子的标签向量v由触发词、句子类型和两个实体决定,例如“在中国科学院自动化研究所里,有一个中法自动化与应用数学联合实验室”中,触发词是“有”,句子类型为t=2,句子长度M=32,触发词在句子中的位置为15,其标签向量v=[0,1,1,1,1,1,1,1,1,1,1,1,0,0,1,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,0]并且长度为M+N;
步骤1.3使用嵌入技术,将初始输入的自然语言句子中的每个字转化为其嵌入向量;计算实体相对于句子中其他字的相对位置信息并使用嵌入技术将位置信息转化为其嵌入向量;将字嵌入向量与位置嵌入向量拼接得到模型的输入向量e;例如初始输入的自然语言句子句子“姚明出生于上海”,两个实体分别是“姚明”和“上海”,触发词是“出生于”,实体关系是“出生地”,实体“姚明”相对于句子中其他字的位置信息是[0,0,1,2,3,4,5],通过实体相对于句子中其他字的位置信息指明是抽取句子中两个实体的位置;
步骤1.4将经步骤1.3输出的向量e输入到机器学习模型中,比如BiLSTM深度神经网络,学习得到高阶特征向量e*;
步骤1.5.计算句子类型的向量表示;
步骤1.5具体包括以下子步骤:
步骤1.5.2拼接步骤1.5.1输出的实体1的向量entity_emb1和实体2的向量entity_emb2得到向量然后通过一个非线性变换得到句子类型的向量其中向量表示的初始化取值全为0,N表示句子类型的总数;
步骤1.7采用注意力机制计算经步骤1.6输出的向量e#对应的权重向量α,用于捕捉句子中关于触发词的特征;
步骤1.8使用相对熵衡量经步骤1.2输出的向量标签与经步骤1.7输出的权重向量之间分布的差异性并作为识别触发词模型的目标函数;
步骤2.设计实体关系抽取模型;
步骤2.1使用注意力机制将将字级别的向量e#合并为句子级别的向量e∷;
步骤2.2将经步骤2.1输出的句子级别的向量e∷经过非线性变换映射到实体关系空间得到向量o;
步骤2.3将经步骤2.2输出的向量o输入softmax(·)函数得关系的预测概率P;
步骤2.4使用交叉熵衡量句子的真实概率与经步骤2.3计算得到的预测概率P之间分布差异性并作为实体关系抽取模型的目标函数;
步骤3.融合识别触发词模型和实体关系抽取模型;
步骤3.1将步骤2.3交叉熵和步骤1.7.2相对熵一起定义为优化目标函数,交叉熵越小表示关系预测的越准确。相对熵越小表示注意力机制学习到的触发词特征越准确;
步骤3.2使用随机梯度下降算法优化步骤3.1的目标函数,对训练集中的所有训练样本进行N次迭代训练;最终得到一个被训练好的融合触发词识别特征的实体关系抽取模型;
步骤4任意输入标注好两个实体的句子到经步骤3.2得到的被训练好的融合触发词识别特征的实体关系抽取模型中,将会输出这个句子中两个实体对应的实体关系;例如,输入句子“姚明在父亲姚志源的影响下,他也十分热爱篮球运动”,其中两个实体为“姚明”和“姚志源”,被训练好的实体关系抽取模型输出的实体关系是“父子”,将两个实体和实体关系构成三元组(“姚明”,“姚志源”,“父子”),在信息检索时,在搜索框内输入“姚明的爸爸是谁?”,查找对应的三元组直接输出“姚志源”的词条;与之前传统的信息检索的方法在所有文档中搜索“姚明”和“爸爸”词条相比,复杂性更低且速度更快;
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (8)
1.一种融合触发词识别特征的实体关系抽取方法,其特征在于:包括识别句子中触发词和实体关系抽取,具体包括以下步骤:
步骤1:提取句子中触发词的特征;
步骤1.1:对数据集中的句子标注触发词,输出标注触发词后的数据集;
其中,数据集包括训练集和测试集;
步骤1.2:从步骤1.1输出的数据集的训练集中选取一个训练样本(Sh,lh),对句子Sh进行分类再计算该句子的标签向量v;
其中,Sh和lh分别表示训练集中第h个样本中的句子和句子对应的实体关系类型标签;
步骤1.2具有包括以下子步骤:
步骤1.2.1:对句子Sh进行分类;根据句子Sh中两个实体之间的相对位置,通过公式(1)得到句子类型t:
步骤1.2.2:通过公式(2)得到句子Sh的标签向量v:
其中,用x是句子Sh去掉标注触发词的大括号和<omit>标签后的句子,形式上为文字的序列,即x=[x1,x2,...,xM],xi表示x中第i个文字,i的取值范围为1到M,M是句子x的长度;one_hot(·)是嵌入函数,实体xi对应的vi为1,其他字xj对应的vj为0,触发词在句子x中的位置i对应的vi为1;t是经步骤2.1计算输出的句子类型;符号代表的是向量的拼接;
步骤1.3:计算带有实体位置信息的字向量,具体为:将句子x中的字转化为字向量,计算实体在句子x中的相对位置,将实体相对位置转换为位置向量,最后计算带有实体位置信息的字向量,具体包括以下子步骤:
步骤1.3.1:对句子x中的每个字通过公式(3)的嵌入函数转化为其字向量:
ei=embed(xi) (3)
其中,embed(·)是嵌入函数,对于输入的每一个字xi,查找得到对应的字向量ei;
步骤1.5:计算实体的向量表示并根据该向量表示计算句子x的句子类型的向量表示;
步骤1.5具体包括以下子步骤:
步骤1.5.1:通过公式(7)从经步骤1.4输出的高阶特征向量e*中计算实体k的向量表示entity_embk:
步骤1.5.2:通过公式(8)计算句子x的句子类型的向量表示te:
te=Relu(WT(concat(entityemb k))+b) (8)
步骤1.7:使用注意力机制捕捉句子中触发词的特征;通过公式(10)对经步骤1.6输出的向量e#使用注意力机制计算得到其权重向量α:
α=softmax(wTtanh(e#)) (10)
步骤2:提取句子中用于实体关系抽取的特征;
步骤2的具体子步骤如下:
步骤3:融合识别句子中触发词的模型与实体关系抽取的模型;
步骤3.1:采用相对熵衡量经步骤1.2.2输出的句子标签向量v与经步骤1.7输出的权重向量α之间的分布差异性,具体子步骤如下:
步骤3.1.1:通过公式(13)计算句子标签向量v的概率分布αv:
αv=softmax(v) (13)
步骤3.1.2:通过公式(14)计算经步骤3.1.1输出的概率分布αv与经步骤1.7输出的权重向量α之间的相对熵作为识别句子中触发词的模型的目标函数;
其中,H是训练集中样本的总数;h表示第h个训练样本,θ是模型中可被训练的参数;
步骤3.2:采用交叉熵衡量真实概率与实体关系类型预测概率的之间分布的差异性,具体为:
步骤3.2.1:通过公式(15)对经步骤2.2输出的用于实体关系分类的向量o计算得到实体关系类型的预测概率p(lh|Sh):
p(lh|Sh)=softmax(o) (15)
其中,Sh和lh分别表示训练集中第h个样本中的句子和句子对应的实体关系类型标签;
步骤3.2.2:通过公式(16)计算真实概率与经步骤3.2.1输出的每种实体关系类型的预测概率p(lh|Sh)之间的交叉熵作为实体关系抽取模型的目标函数:
其中,H表示训练样本的总数,h表示第h个训练样本,θ是模型中可被训练的参数;
步骤3.3:将经步骤3.1.2计算的交叉熵J(θ)与经步骤3.2.2计算的相对熵D(αv||α,θ)相加得到融合识别句子中触发词的模型与实体关系抽取的模型的目标函数J*(θ);
步骤3.4:使用随机梯度下降方法对步骤3.3的目标函数进行优化,对训练集中的所有训练样本进行N次迭代训练,输出被训练好的融合触发词识别特征的实体关系抽取模型;
步骤4:使用步骤3.4输出的实体关系抽取模型识别句子中两个实体之间的关系;任意输入一句标注好两个实体的句子到被训练好的关系抽取模型,输出两个实体间的语义关系。
2.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤1.1具体包括以下子步骤:
步骤1.1.1:对数据集中含有触发词的句子,使用大括号标注触发词,用于记录触发词在句子中的位置;
步骤1.1.2:对于数据集中不含有触发词的句子,打上<omit>标记。
3.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤1.2中h的取值范围是1到H,H是训练集中样本的总数。
4.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤3.1具体为:计算句子标签向量的概率分布,计算该概率分布与经步骤1.7输出的权重向量之间的相对熵。
5.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤3.1.1中,v经过softmax(·)函数将值映射到(0,1)区间。
6.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤3.2具体为:计算实体关系类型的预测概率,计算该概率与真实概率之间的相对熵。
7.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤3.2中,真实概率是指句子对应实体关系标签lh的概率为1。
8.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤3.3中通过公式(17)得到融合识别句子中触发词的模型与实体关系抽取的模型的目标函数J*(θ):
J*(θ)=J(θ)+D(αv||α,θ) (17)。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2020100530249 | 2020-01-17 | ||
CN202010053024 | 2020-01-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111428505A true CN111428505A (zh) | 2020-07-17 |
CN111428505B CN111428505B (zh) | 2021-05-04 |
Family
ID=71549681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010212651.2A Active CN111428505B (zh) | 2020-01-17 | 2020-03-24 | 一种融合触发词识别特征的实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428505B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468865A (zh) * | 2021-06-28 | 2021-10-01 | 西安理工大学 | 基于深度学习的地铁设计领域规范的实体间关系抽取方法 |
CN114048741A (zh) * | 2021-11-10 | 2022-02-15 | 辽宁工程技术大学 | 一种基于触发词注意力的关系抽取方法 |
CN114722817A (zh) * | 2020-12-22 | 2022-07-08 | 北京金山数字娱乐科技有限公司 | 事件处理方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562772A (zh) * | 2017-07-03 | 2018-01-09 | 南京柯基数据科技有限公司 | 事件抽取方法、装置、系统和存储介质 |
US20180336192A1 (en) * | 2017-05-18 | 2018-11-22 | Wipro Limited | Method and system for generating named entities |
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110196978A (zh) * | 2019-06-04 | 2019-09-03 | 重庆大学 | 一种关注关联词的实体关系抽取方法 |
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
CN110377753A (zh) * | 2019-07-01 | 2019-10-25 | 吉林大学 | 基于关系触发词与gru模型的关系抽取方法及装置 |
CN110555083A (zh) * | 2019-08-26 | 2019-12-10 | 北京工业大学 | 一种基于zero-shot无监督实体关系抽取方法 |
-
2020
- 2020-03-24 CN CN202010212651.2A patent/CN111428505B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180336192A1 (en) * | 2017-05-18 | 2018-11-22 | Wipro Limited | Method and system for generating named entities |
CN107562772A (zh) * | 2017-07-03 | 2018-01-09 | 南京柯基数据科技有限公司 | 事件抽取方法、装置、系统和存储介质 |
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110196978A (zh) * | 2019-06-04 | 2019-09-03 | 重庆大学 | 一种关注关联词的实体关系抽取方法 |
CN110377753A (zh) * | 2019-07-01 | 2019-10-25 | 吉林大学 | 基于关系触发词与gru模型的关系抽取方法及装置 |
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
CN110555083A (zh) * | 2019-08-26 | 2019-12-10 | 北京工业大学 | 一种基于zero-shot无监督实体关系抽取方法 |
Non-Patent Citations (3)
Title |
---|
YUBO CHEN 等: "Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks", 《PROCEEDINGS OF THE 53RD ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS AND THE 7TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》 * |
丁思远: "基于线索挖掘与特征分析的事件关系分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
胡新辰: "基于LSTM的语义关系分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722817A (zh) * | 2020-12-22 | 2022-07-08 | 北京金山数字娱乐科技有限公司 | 事件处理方法及装置 |
CN113468865A (zh) * | 2021-06-28 | 2021-10-01 | 西安理工大学 | 基于深度学习的地铁设计领域规范的实体间关系抽取方法 |
CN113468865B (zh) * | 2021-06-28 | 2024-04-09 | 西安理工大学 | 基于深度学习的地铁设计领域规范的实体间关系抽取方法 |
CN114048741A (zh) * | 2021-11-10 | 2022-02-15 | 辽宁工程技术大学 | 一种基于触发词注意力的关系抽取方法 |
CN114048741B (zh) * | 2021-11-10 | 2024-07-23 | 辽宁工程技术大学 | 一种基于触发词注意力的关系抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111428505B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061843B (zh) | 一种知识图谱引导的假新闻检测方法 | |
CN110083831B (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN110232192A (zh) | 电力术语命名实体识别方法及装置 | |
CN108536754A (zh) | 基于blstm和注意力机制的电子病历实体关系抽取方法 | |
CN112069921A (zh) | 一种基于自监督知识迁移的小样本视觉目标识别方法 | |
WO2021212749A1 (zh) | 命名实体标注方法、装置、计算机设备和存储介质 | |
CN112541355A (zh) | 一种实体边界类别解耦的少样本命名实体识别方法与系统 | |
CN111428505B (zh) | 一种融合触发词识别特征的实体关系抽取方法 | |
CN108959566B (zh) | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 | |
CN108268447A (zh) | 一种藏文命名实体的标注方法 | |
CN110457690A (zh) | 一种专利创造性的判断方法 | |
CN111597420A (zh) | 基于深度学习的轨道交通规范关系抽取方法 | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN115017266A (zh) | 一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备 | |
CN114444507A (zh) | 基于水环境知识图谱增强关系的上下文参数中文实体预测方法 | |
CN113159071A (zh) | 一种跨模态图像-文本关联异常检测方法 | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 | |
CN116524521B (zh) | 一种基于深度学习的英文字符识别方法和系统 | |
CN118396104A (zh) | 基于深度学习albert模型的集成电路知识图谱提取与构建方法 | |
CN118072349A (zh) | 一种基于跨模态语义对齐的文本行人重识别方法 | |
CN114881038B (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
CN116861908A (zh) | 一种基于细粒度悬浮标记和嵌套实体图的实体识别方法 | |
CN115033689B (zh) | 一种基于小样本文本分类原型网络欧氏距离计算方法 | |
CN114580421A (zh) | 一种基于改进神经网络的页岩气实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |