CN112417871B - 一种基于神经网络模型的文本实体间关系预测方法 - Google Patents

一种基于神经网络模型的文本实体间关系预测方法 Download PDF

Info

Publication number
CN112417871B
CN112417871B CN202011506008.7A CN202011506008A CN112417871B CN 112417871 B CN112417871 B CN 112417871B CN 202011506008 A CN202011506008 A CN 202011506008A CN 112417871 B CN112417871 B CN 112417871B
Authority
CN
China
Prior art keywords
entities
text
neural network
model
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011506008.7A
Other languages
English (en)
Other versions
CN112417871A (zh
Inventor
苏华权
周昉昉
廖鹏
蔡雄
易仕敏
彭泽武
杨秋勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202011506008.7A priority Critical patent/CN112417871B/zh
Publication of CN112417871A publication Critical patent/CN112417871A/zh
Application granted granted Critical
Publication of CN112417871B publication Critical patent/CN112417871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开的基于神经网络模型的文本实体间关系预测方法,涉及文本处理技术领域,通过将文本输入双向长短期记忆BI‑LSTM模型,得到文本中的多个实体,将多个实体分别输入卷积神经网络CNN模型,得到各个实体对应的特征向量,将处于两个实体左边的词及右边的词分别输入BI‑LSTM模型,得到处于两个实体左边词的特征向量fleft和处于两个实体右边词的特征向量fright,将处于两个实体之间的词输入CNN模型,得到两个实体之间词的特征向量fmid,将fe1、fe2、fmid、fleft、fright、fdist拼接为一个向量输入前馈神经网络模型,将概率值最大的标签作为文本中两个实体之间的关系,提高了文本实体间关系预测的准确性及适用性。

Description

一种基于神经网络模型的文本实体间关系预测方法
技术领域
本发明涉及文本处理技术领域,具体涉及一种基于神经网络模型的文本实体间关系预测方法。
背景技术
在中文的自然语言处理中,实体关系抽取是指针对一段随机的文本,识别出文本中的实体并抽取出命名实体之间的关系。所谓实体,就是指文本中出现的时间,地点等;所谓关系就是指实体之间存在的语义联系。
目前的实体关系预测方法大部分都是采用流水线的方式进行,如输入一个句子,先进行实体识别,然后将实体两两组合,再进行关系抽取。这种方法存在以下缺点:
(1)实体识别模块的错误选择会影响到关系抽取的性能,导致错误率较高;
(2)不能提取两个子任务之间的关系,如针对文本“任正非受雇于华为”,任正非和华为存在雇佣关系,可以知道一个实体属于组织类型,后一个实体属于人物类型,但流水线无法利用这种信息,适用性不强;
(3)会产生冗余信息,对实体识别出来的实体两两配对,再进行关系抽取,没有关系的实体对会带来多余的信息,错误率较高。
发明内容
为解决现有技术的不足,本发明实施例提供了一种基于神经网络模型的文本实体间关系预测方法,该方法包括以下步骤:
将文本输入双向长短期记忆BI-LSTM模型,得到所述文本中的多个实体;
将所述多个实体分别输入卷积神经网络CNN模型,得到各个实体对应的特征向量;
将处于两个实体左边的词及右边的词分别输入BI-LSTM模型,得到处于所述两个实体左边词的特征向量fleft和处于所述两个实体右边词的特征向量fright,以独热编码one-hot特征向量fdist表示两个实体间的距离信息;
将处于所述两个实体之间的词输入CNN模型,得到两个实体之间词的特征向量fmid
将fe1、fe2、fmid、fleft、fright、fdist拼接为一个向量输入前馈神经网络模型,得到所述两个实体之间关系的多个标签及各个标签对应的概率值,其中,fe1、fe2分别为所述两个实体对应的特征向量;
将概率值最大的标签作为文本中两个实体之间的关系。
优选地,将文本输入双向长短期记忆BI-LSTM模型,得到所述文本中的多个实体包括:
将所述文本中的各个词输入Bi-LSTM模型的隐含层,得到的向量与所述向量的标签对应的独热编码one-hot特征向量拼接起来,得到所述文本中的多个实体。
优选地,所述方法还包括:
使用dropout算法对BI-LSTM模型进行正则化并利用Adadelta优化器,优化BI-LSTM模型的损失函数。
优选地,所述方法还包括:
使用dropout算法对前馈神经网络模型进行正则化并利用Adadelta算法,优化前馈神经网络模型的损失函数。
优选地,所述前馈神经网络模型为多层感知机。
本发明实施例提供的基于神经网络模型的文本实体间关系预测方法,具有以下有益效果:
利用长短期记忆BI-LSTM模型及卷积神经网络CNN模型,分别获取各个实体及各个实体对应的特征向量,利用向量输入前馈神经网络模型预测实体之间的关系,提高了文本实体间关系预测的准确性及适用性。
具体实施方式
以下结合具体实施例对本发明作具体的介绍。
本发明提供的实施例提供的基于神经网络模型的文本实体间关系预测方法,包括以下步骤:
S101,将文本输入双向长短期记忆BI-LSTM模型,得到文本中的多个实体。
作为本发明一个具体的实施例,文本“青年报的记者李明在北京工作”中,“李明”是一个人名实体,“青年报”是一个组织实体,它们之间存在着工作关系。
其中,BI-LSTM模型由两个长短期记忆网络组成,一个前向记忆网络和一个后向记忆网络,前者用于学习前向的序列信息,后者用于学习后向的序列信息,得到每个隐层的表示。在句子的每个位置,前向的记忆网络会收集从句子开始到当前位置的信息,得到向量表示后向的记忆网络收集从句子末尾到当前位置的信息。
S102,将多个实体分别输入卷积神经网络CNN模型,得到各个实体对应的特征向量。
作为本发明一个具体的实施例,为表示句子中的实体,我们采用BILUO标签为每个词分配一个标签,其中B,I和L表示实体的开始,内部和结尾,U表示单个词实体,O表示不是实体。例如:对于实体“歼-20战机”,将标签(B,AIRCRAFT)分给“歼”,将标签(I,AIRCRAFT)分配给“-”,“20”,将标签(L,AIRCRAFT)分配给战机。给定一个句子,实体的识别模型会通过标注好的实体序列来学习预测的标签。
S103,将处于两个实体左边的词及右边的词分别输入BI-LSTM模型,得到处于两个实体左边词的特征向量fleft和处于两个实体右边词的特征向量fright,以独热编码one-hot特征向量fdist表示两个实体间的距离信息。
S104,将处于两个实体之间的词输入CNN模型,得到两个实体之间词的特征向量fmid
S105,将fe1、fe2、fmid、fleft、fright、fdist拼接为一个向量输入前馈神经网络模型,得到两个实体之间关系的多个标签及各个标签对应的概率值,其中,fe1、fe2分别为两个实体对应的特征向量。
作为本发明一个具体的实施例,利用向量输入前馈神经网络模型得到的关系模型标签的后验分布函数为:
其中,是关系模型的参数,ReLU是线性整流函数,W1、W2是词向量。
S106,将概率值最大的标签作为文本中两个实体之间的关系。
可选地,将文本输入双向长短期记忆BI-LSTM模型,得到文本中的多个实体包括:
将文本中的各个词输入Bi-LSTM模型的隐含层,得到的向量与向量的标签对应的独热编码one-hot特征向量拼接起来,得到文本中的多个实体。
可选地,该方法还包括:
使用dropout算法对BI-LSTM模型进行正则化并利用Adadelta优化器,优化BI-LSTM模型的损失函数。
可选地,该方法还包括:
使用dropout算法对前馈神经网络模型进行正则化并利用Adadelta算法,优化前馈神经网络模型的损失函数。
可选地,前馈神经网络模型为多层感知机。
本发明实施例提供的基于神经网络模型的文本实体间关系预测方法,通过将文本输入双向长短期记忆BI-LSTM模型,得到文本中的多个实体,将多个实体分别输入卷积神经网络CNN模型,得到各个实体对应的特征向量,将处于两个实体左边的词及右边的词分别输入BI-LSTM模型,得到处于两个实体左边词的特征向量fleft和处于两个实体右边词的特征向量fright,以独热编码one-hot特征向量fdist表示两个实体间的距离信息,将处于两个实体之间的词输入CNN模型,得到两个实体之间词的特征向量fmid,将fe1、fe2、fmid、fleft、fright、fdist拼接为一个向量输入前馈神经网络模型,得到两个实体之间关系的多个标签及各个标签对应的概率值,将概率值最大的标签作为文本中两个实体之间的关系,提高了文本实体间关系预测的准确性及适用性。
本发明实施例提供的在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (4)

1.一种基于神经网络模型的文本实体间关系预测方法,其特征在于,包括:
将文本输入双向长短期记忆BI-LSTM模型,得到所述文本中的多个实体;
将所述文本中的各个词输入Bi-LSTM模型的隐含层,得到的向量与所述向量的标签对应的独热编码one-hot特征向量拼接起来,得到所述文本中的多个实体;
将所述多个实体分别输入卷积神经网络CNN模型,得到各个实体对应的特征向量;
将处于两个实体左边的词及右边的词分别输入BI-LSTM模型,得到处于所述两个实体左边词的特征向量fleft和处于所述两个实体右边词的特征向量fright,以独热编码one-hot特征向量fdist表示两个实体间的距离信息;
将处于所述两个实体之间的词输入CNN模型,得到两个实体之间词的特征向量fmid
将fe1、fe2、fmid、fleft、fright、fdist拼接为一个向量输入前馈神经网络模型,得到所述两个实体之间关系的多个标签及各个标签对应的概率值,其中,fe1、fe2分别为所述两个实体对应的特征向量;
将概率值最大的标签作为文本中两个实体之间的关系。
2.根据权利要求1所述的基于神经网络模型的文本实体间关系预测方法,其特征在于,所述方法还包括:
使用dropout算法对BI-LSTM模型进行正则化并利用Adadelta优化器,优化BI-LSTM模型的损失函数。
3.根据权利要求1所述的基于神经网络模型的文本实体间关系预测方法,其特征在于,所述方法还包括:
使用dropout算法对前馈神经网络模型进行正则化并利用Adadelta算法,优化前馈神经网络模型的损失函数。
4.根据权利要求1所述的基于神经网络模型的文本实体间关系预测方法,其特征在于,所述前馈神经网络模型为多层感知机。
CN202011506008.7A 2020-12-18 2020-12-18 一种基于神经网络模型的文本实体间关系预测方法 Active CN112417871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011506008.7A CN112417871B (zh) 2020-12-18 2020-12-18 一种基于神经网络模型的文本实体间关系预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011506008.7A CN112417871B (zh) 2020-12-18 2020-12-18 一种基于神经网络模型的文本实体间关系预测方法

Publications (2)

Publication Number Publication Date
CN112417871A CN112417871A (zh) 2021-02-26
CN112417871B true CN112417871B (zh) 2024-03-15

Family

ID=74782712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011506008.7A Active CN112417871B (zh) 2020-12-18 2020-12-18 一种基于神经网络模型的文本实体间关系预测方法

Country Status (1)

Country Link
CN (1) CN112417871B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法

Also Published As

Publication number Publication date
CN112417871A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112632980B (zh) 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN111324784B (zh) 一种字符串处理方法及装置
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN112711660B (zh) 文本分类样本的构建方法和文本分类模型的训练方法
CN112905868B (zh) 事件抽取方法、装置、设备及存储介质
CN111046671A (zh) 基于图网络融入词典的中文命名实体识别方法
CN112395412B (zh) 文本分类的方法、装置以及计算机可读介质
CN113590784A (zh) 三元组信息抽取方法、装置、电子设备、及存储介质
CN109189848B (zh) 知识数据的抽取方法、系统、计算机设备和存储介质
CN112800239A (zh) 意图识别模型训练方法、意图识别方法及装置
CN114428862A (zh) 基于油气管道的知识图谱构建方法及处理器
CN116228383A (zh) 风险预测方法及装置、存储介质和电子设备
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
EP4089568A1 (en) Cascade pooling for natural language document processing
CN102063460A (zh) 信息处理方法和装置
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN112651226B (zh) 基于依存句法树的知识解析系统及方法
CN113902569A (zh) 数字资产中的绿色资产的占比的识别方法及相关产品
CN112417871B (zh) 一种基于神经网络模型的文本实体间关系预测方法
CN115640810B (zh) 一种电力系统通信敏感信息识别方法、系统及存储介质
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113705662B (zh) 一种协同训练方法、装置及计算机可读存储介质
CN114398489A (zh) 一种基于Transformer的实体关系联合抽取方法、介质及系统
CN112818687B (zh) 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant