CN117574895A - 实体关系识别的方法和装置 - Google Patents

实体关系识别的方法和装置 Download PDF

Info

Publication number
CN117574895A
CN117574895A CN202311586409.1A CN202311586409A CN117574895A CN 117574895 A CN117574895 A CN 117574895A CN 202311586409 A CN202311586409 A CN 202311586409A CN 117574895 A CN117574895 A CN 117574895A
Authority
CN
China
Prior art keywords
entity
word
word segmentation
relationship
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311586409.1A
Other languages
English (en)
Inventor
张雷
赵新宇
邱小霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Currency Institute of the Peoples Bank of China
Original Assignee
Digital Currency Institute of the Peoples Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Currency Institute of the Peoples Bank of China filed Critical Digital Currency Institute of the Peoples Bank of China
Priority to CN202311586409.1A priority Critical patent/CN117574895A/zh
Publication of CN117574895A publication Critical patent/CN117574895A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种实体关系识别的方法和装置,涉及自然语言处理技术领域。该方法的一具体实施方式包括:对文本序列进行分词处理得到分词集,并结合预先设置的扩充分词集生成汇总分词集;对汇总分词集中的每个分词,分别生成分词对应的分词向量分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量;对每个分词对应的分词向量、字向量和笔画向量进行拼接处理得到文本序列对应的特征向量;基于特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型;使用实体关系识别模型进行实体关系识别。该实施方式提高了深度学习神经网络模型的收敛速度,提高了实体关系识别的准确率。

Description

实体关系识别的方法和装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种实体关系识别的方法和装置。
背景技术
现有基于深度学习和自然语言进行实体关系识别的方法中,在对输入的文本序列进行编码后,一般直接输入到深度学习神经网络模型中进行特征的学习,以训练得到实体关系识别模型,并使用该模型进行实体关系识别。然而,现有的实体关系识别方法,仅依赖于文本序列训练数据进行实体关系识别模型训练,使得深度学习神经网络模型的收敛速度较慢,实体关系识别结果的准确率不高。
发明内容
有鉴于此,本发明实施例提供一种实体关系识别的方法和装置,能够在对文本序列进行分词处理时结合领域经验知识(即预先设置的扩充分词集),可以提高分词集的质量;在实体关系识别模型的训练中,将领域经验知识(即预先设置的实体集与关系集)作为先验知识,辅助深度学习神经网络模型的计算和预测,从而有效地提高了深度学习神经网络模型的收敛速度,提高了实体关系识别的准确率。另外,将领域经验知识(即预先设置的实体集、关系集和实体对关联关系集)作为后验知识,在特定领域应用中,使用领域经验知识对模型识别结果进行错误检测,能够进一步排除模型的错误预测结果,从而进一步提高了实体关系识别的准确率,取得良好的预测效果。
为实现上述目的,根据本发明实施例的一个方面,提供了一种实体关系识别的方法,包括:
对文本序列进行分词处理得到分词集,并结合预先设置的扩充分词集生成汇总分词集;
对所述汇总分词集中的每个分词,分别生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量;
对每个分词对应的分词向量、字向量和笔画向量进行拼接处理得到所述文本序列对应的特征向量;
基于所述特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型;
使用所述实体关系识别模型进行实体关系识别。
可选地,在使用所述实体关系识别模型进行实体关系识别之后,还包括:获取使用所述实体关系识别模型进行实体关系识别得到的实体关系识别结果;基于预先设置的实体集、关系集和实体对关联关系集对所述实体关系识别结果进行检测。
可选地,基于预先设置的实体集、关系集和实体对关联关系集对所述实体关系识别结果进行检测,包括:基于预先设置的实体集、关系集和实体对关联关系集对所述实体关系识别结果进行实体错误检测、关系错误检测和实体对的关联关系错误检测。
可选地,对所述汇总分词集中的每个分词,分别生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量,包括:对所述汇总分词集中的每个分词,分别通过向量嵌入函数生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量。
可选地,基于所述特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型,包括:通过深度学习神经网络模型的编码器对所述特征向量进行特征学习,得到隐藏状态矩阵和权重矩阵;将所述隐藏状态矩阵和所述权重矩阵输入至所述深度学习神经网络模型的解码器,并结合预先设置的实体集与关系集得到所述文本序列的实体关系预测结果;基于所述文本序列的实体关系预期识别结果和所述实体关系预测结果计算损失函数,并根据所述损失函数对所述权重矩阵进行调整;重复执行上述操作,直至所述深度学习神经网络模型收敛,得到实体关系识别模型。
可选地,通过深度学习神经网络模型的编码器对所述特征向量进行特征学习,得到隐藏状态矩阵和权重矩阵,包括:通过深度学习神经网络模型的编码器对所述文本序列对应的特征向量进行特征学习,得到隐藏状态矩阵;应用注意力机制对所述文本序列对应的特征向量构建特定的句子表征,得到关系注意力,经过关系门控处理得到权重矩阵。
可选地,将所述隐藏状态矩阵和所述权重矩阵输入至所述深度学习神经网络模型的解码器,并结合预先设置的实体集与关系集得到所述文本序列的实体关系预测结果,包括:将所述隐藏状态矩阵和所述权重矩阵输入至所述深度学习神经网络模型的解码器得到第一实体关系预测结果;结合预先设置的实体集与关系集对所述第一实体关系预测结果进行校正,得到所述文本序列的实体关系预测结果。
根据本发明实施例的另一方面,提供了一种实体关系识别的装置,包括:
分词处理模块,用于对文本序列进行分词处理得到分词集,并结合预先设置的扩充分词集生成汇总分词集;
向量提取模块,用于对所述汇总分词集中的每个分词,分别生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量;
向量拼接模块,用于对每个分词对应的分词向量、字向量和笔画向量进行拼接处理得到所述文本序列对应的特征向量;
模型训练模块,用于基于所述特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型;
实体关系识别模块,用于使用所述实体关系识别模型进行实体关系识别。
根据本发明实施例的又一方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所提供的实体关系识别的方法。
根据本发明实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例所提供的实体关系识别的方法。
上述发明中的一个实施例具有如下优点或有益效果:通过对文本序列进行分词处理得到分词集,并结合预先设置的扩充分词集生成汇总分词集;对汇总分词集中的每个分词,分别生成分词对应的分词向量分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量;对每个分词对应的分词向量、字向量和笔画向量进行拼接处理得到文本序列对应的特征向量;基于特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型;使用实体关系识别模型进行实体关系识别的技术方案,实现了在对文本序列进行分词处理时结合领域经验知识(即预先设置的扩充分词集),可以提高分词集的质量;在实体关系识别模型的训练中,将领域经验知识(即预先设置的实体集与关系集)作为先验知识,辅助深度学习神经网络模型的计算和预测,从而有效地提高了深度学习神经网络模型的收敛速度,提高了实体关系识别的准确率。另外,根据本发明的其他实施例,将领域经验知识(即预先设置的实体集、关系集和实体对关联关系集)作为后验知识,在特定领域应用中,使用领域经验知识对模型识别结果进行错误检测,能够进一步排除模型的错误预测结果,从而进一步提高了实体关系识别的准确率,取得良好的预测效果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的实体关系识别的方法的主要步骤示意图;
图2是本发明一个实施例的笔画向量的生成原理示意图;
图3是本发明一个实施例的实体关系识别模型训练过程示意图;
图4是根据本发明实施例的实体关系识别的装置的主要模块示意图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,本发明公开的技术方案中,所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面,均符合相关法律法规的规定,被用于合法的用途,且不违背公序良俗。对用户个人信息采取必要措施,防止对用户个人信息数据的非法访问,维护用户个人信息安全、网络安全和国家安全。
为了解决现有技术中存在的技术问题,本发明提供了一种结合领域经验知识进行实体关系识别的方法。通过将领域知识作为先验知识、后验知识以及纳入模型训练的过程,辅助深度学习神经网络模型进行学习,从而加快了模型的收敛速度,提高了实体关系识别的准确率。
图1是根据本发明实施例的实体关系识别的方法的主要步骤示意图。如图1所示,本发明实施例的实体关系识别的方法主要包括如下的步骤S101至步骤S105。
步骤S101:对文本序列进行分词处理得到分词集,并结合预先设置的扩充分词集生成汇总分词集。在本发明的实施例中,可使用隐马尔可夫分词模型、N元文法模型、最大熵模型、条件随机场模型等来进行分词处理,其中,隐马尔可夫分词模型可以预先训练生成。使用隐马尔可夫分词模型对项目文档或指定领域的测试用例文档等进行分词处理并整理分词结果,得到分词集。然后,整理预设的指定领域的专用词汇作为扩充分词集,并将分词得到的分词集和扩充分词集进行汇总得到汇总分词集。如此,即可结合指定领域的专用词汇来丰富文本序列对应的分词集,将领域知识作为先验知识来进行实体关系识别模型的训练,以便于加快模型的收敛速度,提高了实体关系识别的准确率。
根据本发明的一个实施例,在对文本序列进行分词处理得到分词集之前,还可以包括:对数据集中的每个文本序列进行实体关系标注得到每个文本序列对应的实体关系标签,以构建标签空间。根据本发明的实施例,在对文本序列进行实体关系标注时,是对数据集按照实体和关系维度进行标注。如果对文档包括的文本序列中报文发送关系感兴趣,则会将其与发送报文的机构和报文本身组成一个三元组。例如对文本序列“机构计时时间内未收到“XX报文”,机构主动发起状态查询报文”,进行实体关系标注后得到三元组(机构,状态查询报文,发送)。
在对文本序列进行实体关系标注处理之前,可以先对获取的大量的文本序列数据集进行数据清洗,对存在的质量问题进行处理,例如对于那些表述不清晰的数据,不能从数据中提取出实体关系,应该进行适当的处理;对于缺失、不全的数据进行补全,或者直接从数据集中删除。
在本发明的一个实施例中,还可以结合实体在文本序列中的位置对文本序列中的实体关系进行标注,具体地,结合实体在文本序列中的位置,对文本序列中在不同位置出现的同名实体,在同名实体后追加位置编码信息,以对文本序列中的实体关系进行标注。其中,位置编码信息为同名实体在文本序列中出现的次数序号。具体地,在对文本序列进行实体关系的标注过程中,对于在不同位置出现的同名实体(即:名称相同的实体),为精准定位标注结果中实体的位置,在标注结果三元组(头实体,尾实体,关系)的实体后追加位置编码信息。在本发明的实施例中,位置编码信息例如是实体在文本序列中出现的次数,对于仅出现一次的实体,在进行标注时即可无需在实体后追加位置编码信息,如此,即可在结合实体在文本序列中的位置进行实体关系标注时尽量减少标注数据量,降低标注复杂度,实现了对文本序列的快速标注,提高实体关系识别模型的训练效率。通过结合实体在文本序列中的位置进行实体关系标注,可以精准将标注结果映射成预期识别结果。在本发明的其他实施例中,位置编码信息可以是实体对应的字符位置。
在本发明的一个实施例中,假设原始的文本序列为:“付款机构计时时间内未收到“XX报文”,付款机构主动发起交易状态查询”,其中,实体“付款机构”出现了两次,实体“交易状态查询”出现了一次,关系为“报文/发起”,则对该文本序列进行标注后得到的标注结果为“(付款机构<pst>2,交易状态查询,报文/发起)”。其中,<pst>为位置标识信号,<pst>后的数字为该实体在中文序列中的具体位置编码信息,即该序列中实体的次数序号。位置标识信号也可使用其他字符来表示。
在对文本序列进行实体关系标注之后,即可对标注后的文本序列进行分词处理得到分词集,并结合预先设置的扩充分词集生成汇总分词集。
步骤S102:对汇总分词集中的每个分词,分别生成分词对应的分词向量、分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量。
根据本发明的一个实施例,在对所述汇总分词集中的每个分词,分别生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量时,具体可以包括:对所述汇总分词集中的每个分词,分别通过向量嵌入函数生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量。
根据本发明的实施例,在得到汇总分词集之后,将对其中的每个分词(包括指定领域的专用词汇)生成分词嵌入向量,将每个分词对应的嵌入向量拼接成一个向量,用于表示文本序列的词语特征。然后,对每个字包括的笔画生成笔画嵌入向量。在本发明的实施例中,从字的笔画库中找到对应的字,获得字的笔画笔顺,由于笔画与笔画之间存在一定的关联,将笔画按照n画为一组,获得字的笔画编码n-gram,对笔画编码n-gram进行向量嵌入计算得到该字的笔画嵌入向量。具体地,可以使用Pytorch(Pytorch是一个开源的Python机器学习库)自带的向量嵌入函数,来生成分词的嵌入向量。
图2是本发明一个实施例的笔画向量的生成原理示意图。如图2所示,在本发明的实施例中,以“阿”字为例,首先得到其包括的检索笔画:“横折折折钩、竖、横、竖、横折、横、竖钩”;之后,使用ID对各个笔画进行表示,得到“阿:5,2,1,2,3,1,4”;然后,对于每n个笔画,生成笔画编码n-gram,如图中的(d)表中所示。如此,即可得到每个字的笔画向量。
步骤S103:对每个分词对应的分词向量、字向量和笔画向量进行拼接处理得到文本序列对应的特征向量。在得到分词、字、笔画等维度对应的嵌入向量后,对这些嵌入向量进行拼接、运算等加工步骤,得到文本序列对应的特征向量。此处在进行拼接时,是将文本序列的分词向量、字向量、笔画向量进行拼接;此处的运算是为了使拼接向量的其中一个维度的大小相同而进行的矩阵运算,便于拼接操作。
步骤S104:基于特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型。在本发明的实施例中,深度学习神经网络模型例如可使用双向长短期记忆网络LSTM、预训练模型Bert、序列标注模型Bi-LSTM-CRF(一种基于双向LSTM与CRF(条件随机场)的序列标注模型)等。
根据本发明的一个实施例,基于所述特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型,具体可以包括:通过深度学习神经网络模型的编码器对所述特征向量进行特征学习,得到隐藏状态矩阵和权重矩阵;将所述隐藏状态矩阵和所述权重矩阵输入至所述深度学习神经网络模型的解码器,并结合预先设置的实体集与关系集得到所述文本序列的实体关系预测结果;基于所述文本序列的实体关系预期识别结果和所述实体关系预测结果计算损失函数,并根据所述损失函数对所述权重矩阵进行调整;重复执行上述操作,直至所述深度学习神经网络模型收敛,得到实体关系识别模型。
其中,通过深度学习神经网络模型的编码器对所述特征向量进行特征学习,得到隐藏状态矩阵和权重矩阵,具体可以包括:通过深度学习神经网络模型的编码器对所述文本序列对应的特征向量进行特征学习,得到隐藏状态矩阵;应用注意力机制对所述文本序列对应的特征向量构建特定的句子表征,得到关系注意力,经过关系门控处理得到权重矩阵。
其中,将所述隐藏状态矩阵和所述权重矩阵输入至所述深度学习神经网络模型的解码器,并结合预先设置的实体集与关系集得到所述文本序列的实体关系预测结果,具体可以包括:将所述隐藏状态矩阵和所述权重矩阵输入至所述深度学习神经网络模型的解码器得到第一实体关系预测结果;结合预先设置的实体集与关系集对所述第一实体关系预测结果进行校正,得到所述文本序列的实体关系预测结果。根据本发明的实施例,在使用深度学习神经网络模型的解码器进行解码处理时,可以结合预先设置的实体集与关系集对第一实体关系预测结果进行校正,实现了在解码过程中利用领域知识作为模型先验知识,如特定应用领域的关系集、实体集,从而提高了模型的正确预测概率,使模型能够更快收敛,并有效减少深度学习神经网络的计算量。
在本发明的实施例中,在进行实体关系识别模型的训练时,具体地,首先,将通过前述步骤S103得到的文本序列对应的特征向量作为深度学习神经网络模型(在该实施例中,以双向长短期记忆网络为例)编码器的输入,计算隐藏状态矩阵,并应用注意力机制来构建特定的句子表征,即为每种关系的上下文词赋予不同的权重,得到关系注意力,再经过关系门控处理后得到权重矩阵;然后,将权重矩阵与隐藏状态矩阵进行连接(其中,在进行两者连接时,可以参考现有的深度学习神经网络模型的结构来进行),作为神经网络解码器的输入;之后,由深度学习神经网络模型的解码器对输入进行基于特定于关系的解码,并结合预先设置的实体集与关系集,准确识别出对应的实体关系,得到如下实体关系三元组:(头实体,尾实体,关系);然后,再根据识别出的实体关系三元组映射得到文本序列的实体关系预测结果;之后,基于文本序列的实体关系预期识别结果和实体关系预测结果计算损失函数,并根据损失函数对权重矩阵进行调整。最后,重复执行上述从计算隐藏状态矩阵开始直至根据损失函数对权重矩阵进行调整的操作,直到深度学习神经网络模型收敛,将最后得到的深度学习神经网络模型作为实体关系识别模型。
其中,本发明的实施例中使用负对数似然函数来训练实体关系识别模型,损失函数定义如下:
其中,n为序列长度,ns为正关系和负关系数,y为预测值,即实体关系预测结果,为真实值,即实体关系预期识别结果。对于一个文本序列来说,如果该文本序列中存在标注出的实体关系类别就是正样本,不存在标注出的实体关系类别作为负样本,则根据正样本和负样本的个数即可得到正关系和负关系数。
同样地,本发明中所使用的损失函数可以为其他的损失函数,如均方误差损失、平均绝对误差损失、交叉熵损失等。
在计算得到损失函数后,可计算损失函数对于深度学习神经网络模型中每个神经元的输出值的梯度,以更新神经元的权重矩阵。
图3是本发明一个实施例的实体关系识别模型训练过程示意图。如图3所示,在本发明的一个实施例中,在进行实体关系识别模型训练时,首先将获取大量的原始数据文本序列作为训练样本,并对训练样本进行数据清洗后得到数据集;然后,对数据集中的每个文本序列进行实体关系标注后,划分为训练集和测试集,训练集用于训练实体关系识别模型,测试集用于对训练得到的模型进行评价。之后,对于训练集中的每个文本序列,进行分词得到分词集,然后根据分词集、分词集中的每个字以及笔画分别生成嵌入向量,再将分词集、字和笔画对应的嵌入向量进行拼接得到文本序列对应的特征向量。之后,将每个文本序列对应的特征向量输入到深度学习神经网络模型的编码器中,计算得到隐藏状态矩阵,并应用注意力机制来构建特定的句子表征,即为每种关系的上下文词赋予不同的权重,得到关系注意力,再经过关系门控处理后得到权重矩阵。然后,将权重矩阵与隐藏状态矩阵进行连接,输入到神经网络解码器;之后,由深度学习神经网络模型的解码器对输入进行基于特定于关系的解码,并基于预先设置的实体集与关系集,准确识别出对应的实体,得到如下实体关系三元组:(头实体,尾实体,关系)。如此,即可训练得到实体关系识别模型。之后,还可以使用测试集对训练得到的实体关系识别模型进行评价。
步骤S105:使用实体关系识别模型进行实体关系识别。在得到实体关系识别模型进之后,即可使用实体关系识别模型进行实体关系识别。在进行实体关系识别时,具体是将待识别的文本序列输入至该实体关系识别模型中,以得到实体关系识别结果。
在本发明的一个实施例中,在使用所述实体关系识别模型进行实体关系识别之后,还可以包括:获取使用所述实体关系识别模型进行实体关系识别得到的实体关系识别结果;基于预先设置的实体集、关系集和实体对关联关系集对所述实体关系识别结果进行检测。
在本发明的实施例中,基于预先设置的实体集、关系集和实体对关联关系集对所述实体关系识别结果进行检测,具体可以包括:基于预先设置的实体集、关系集和实体对关联关系集对所述实体关系识别结果进行实体错误检测、关系错误检测和实体对的关联关系错误检测。
根据本发明实施例的技术方案,在实体关系识别模型训练完毕后,在特定应用场景,可以结合该特定应用场景的实体范围(即实体集)、关系范围(即关系集)、实体对的关联关系集等,对模型的预测进行错误检测,以避免错误预测影响模型的有效使用。下面以金融领域常见的报文交换场景为例进行具体说明错误检测规则:
(1)实体、关系错误检测,在金融领域报文交互的实体包括接收机构、发送机构、请求报文、应答报文、报文相应状态等,关系包括发起、应答、状态等,状态一般也有一个范畴,比如“处理成功”、“处理失败”、“处理中”等,在此范畴之外的实体和关系一般为预测错误;
(2)实体对的关联关系错误检测,此处实体对以报文对为例,在报文交换场景中,报文以“请求—应答”的报文对形式出现,一个请求报文,对应的应答报文必须为对应的业务应答报文或者通用应答报文,不符合报文对的关联关系的预测一般为错误预测。例如,付款请求报文的应答报文应为付款应答报文,识别结果(付款机构,付款请求报文,发起)、(收款机构,订单查询应答报文,应答)则为实体对的关联关系错误的识别结果。
经测试验证,本发明实施例的实体关系识别方法,在基于深度学习和自然语言进行实体关系识别时,充分利用领域经验知识,在文本序列向量提取、模型训练等过程中使用领域经验知识,能够有效地提高深度学习神经网络模型的收敛速度,提高实体关系识别的准确率,在特定领域应用中,使用领域经验知识进行错误检测,能够进一步排除模型的错误预测结果,取得良好效果。
在本发明的又一个实施例中,本发明提供了一种结合领域经验知识进行实体关系识别的系统,包括数据清洗标注模块、序列编码模块、深度学习模块、后验排错模块四个部分,基于该实体关系识别系统进行实体关系联合识别的方法为:第一步,对原始数据进行清洗,并根据领域需求对数据进行标注;第二步,利用领域经验知识将标注后的序列进行特征编码,得到深度学习模型的输入序列;第三步,使用深度学习神经网络模型进行实体关系识别模型的训练,该步骤利用领域的实体和关系的经验知识作为先验知识,加快模型的收敛速度,提高模型的准确率;第四步,利用领域的实体、关系、实体间的关联关系对实体关系识别模型的输出结果进行排错,进一步避免模型使用时的错误预测。
图4是根据本发明实施例的实体关系识别的装置的主要模块示意图。如图4所示,本发明实施例的实体关系识别的装置400主要包括分词处理模块401、向量提取模块402、向量拼接模块403、模型训练模块404和实体关系识别模块405。
分词处理模块401,用于对文本序列进行分词处理得到分词集,并结合预先设置的扩充分词集生成汇总分词集;
向量提取模块402,用于对所述汇总分词集中的每个分词,分别生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量;
向量拼接模块403,用于对每个分词对应的分词向量、字向量和笔画向量进行拼接处理得到所述文本序列对应的特征向量;
模型训练模块404,用于基于所述特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型;
实体关系识别模块405,用于使用所述实体关系识别模型进行实体关系识别。
根据本发明的一个实施例,实体关系识别的装置400还可以包括错误检测模块(图中未示出),用于:在使用所述实体关系识别模型进行实体关系识别之后,获取使用所述实体关系识别模型进行实体关系识别得到的实体关系识别结果;基于预先设置的实体集、关系集和实体对关联关系集对所述实体关系识别结果进行检测。
根据本发明的另一个实施例,错误检测模块(图中未示出)还可以用于:基于预先设置的实体集、关系集和实体对关联关系集对所述实体关系识别结果进行实体错误检测、关系错误检测和实体对的关联关系错误检测。
根据本发明的又一个实施例,向量提取模块402还可以用于:对所述汇总分词集中的每个分词,分别通过向量嵌入函数生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量。
根据本发明的又一个实施例,模型训练模块403还可以用于:通过深度学习神经网络模型的编码器对所述特征向量进行特征学习,得到隐藏状态矩阵和权重矩阵;将所述隐藏状态矩阵和所述权重矩阵输入至所述深度学习神经网络模型的解码器,并结合预先设置的实体集与关系集得到所述文本序列的实体关系预测结果;基于所述文本序列的实体关系预期识别结果和所述实体关系预测结果计算损失函数,并根据所述损失函数对所述权重矩阵进行调整;重复执行上述操作,直至所述深度学习神经网络模型收敛,得到实体关系识别模型。
根据本发明的又一个实施例,模型训练模块403在通过深度学习神经网络模型的编码器对所述特征向量进行特征学习,得到隐藏状态矩阵和权重矩阵时,具体可以用于:通过深度学习神经网络模型的编码器对所述文本序列对应的特征向量进行特征学习,得到隐藏状态矩阵;应用注意力机制对所述文本序列对应的特征向量构建特定的句子表征,得到关系注意力,经过关系门控处理得到权重矩阵。
根据本发明的又一个实施例,模型训练模块403在将所述隐藏状态矩阵和所述权重矩阵输入至所述深度学习神经网络模型的解码器,并结合预先设置的实体集与关系集得到所述文本序列的实体关系预测结果时,具体可以用于:将所述隐藏状态矩阵和所述权重矩阵输入至所述深度学习神经网络模型的解码器得到第一实体关系预测结果;结合预先设置的实体集与关系集对所述第一实体关系预测结果进行校正,得到所述文本序列的实体关系预测结果。
根据本发明实施例的技术方案,通过对文本序列进行分词处理得到分词集,并结合预先设置的扩充分词集生成汇总分词集;对汇总分词集中的每个分词,分别生成分词对应的分词向量分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量;对每个分词对应的分词向量、字向量和笔画向量进行拼接处理得到文本序列对应的特征向量;基于特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型;使用实体关系识别模型进行实体关系识别的技术方案,实现了在对文本序列进行分词处理时结合领域经验知识(即预先设置的扩充分词集),可以提高分词集的质量;在实体关系识别模型的训练中,将领域经验知识(即预先设置的实体集与关系集)作为先验知识,辅助深度学习神经网络模型的计算和预测,从而有效地提高了深度学习神经网络模型的收敛速度,提高了实体关系识别的准确率。另外,根据本发明的其他实施例,将领域经验知识(即预先设置的实体集、关系集和实体对关联关系集)作为后验知识,在特定领域应用中,使用领域经验知识对模型识别结果进行错误检测,能够进一步排除模型的错误预测结果,从而进一步提高了实体关系识别的准确率,取得良好的预测效果。
图5示出了可以应用本发明实施例的实体关系识别的方法或实体关系识别的装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如金融类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的实体关系识别请求等数据进行对文本序列进行分词处理得到分词集,并结合预先设置的扩充分词集生成汇总分词集;对所述汇总分词集中的每个分词,分别生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量;对每个分词对应的分词向量、字向量和笔画向量进行拼接处理得到所述文本序列对应的特征向量;基于所述特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型;使用所述实体关系识别模型进行实体关系识别等处理,并将处理结果(例如实体关系识别结果--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的实体关系识别的方法一般由服务器505执行,相应地,实体关系识别的装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本发明实施例的终端设备或服务器的计算机系统600的结构示意图。图6示出的终端设备或服务器仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括分词处理模块、向量提取模块、向量拼接模块、模型训练模块和实体关系识别模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,实体关系识别模块还可以被描述为“用于使用所述实体关系识别模型进行实体关系识别的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:对文本序列进行分词处理得到分词集,并结合预先设置的扩充分词集生成汇总分词集;对所述汇总分词集中的每个分词,分别生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量;对每个分词对应的分词向量、字向量和笔画向量进行拼接处理得到所述文本序列对应的特征向量;基于所述特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型;使用所述实体关系识别模型进行实体关系识别。
根据本发明实施例的技术方案,通过对文本序列进行分词处理得到分词集,并结合预先设置的扩充分词集生成汇总分词集;对汇总分词集中的每个分词,分别生成分词对应的分词向量分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量;对每个分词对应的分词向量、字向量和笔画向量进行拼接处理得到文本序列对应的特征向量;基于特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型;使用实体关系识别模型进行实体关系识别的技术方案,实现了在对文本序列进行分词处理时结合领域经验知识(即预先设置的扩充分词集),可以提高分词集的质量;在实体关系识别模型的训练中,将领域经验知识(即预先设置的实体集与关系集)作为先验知识,辅助深度学习神经网络模型的计算和预测,从而有效地提高了深度学习神经网络模型的收敛速度,提高了实体关系识别的准确率。另外,根据本发明的其他实施例,将领域经验知识(即预先设置的实体集、关系集和实体对关联关系集)作为后验知识,在特定领域应用中,使用领域经验知识对模型识别结果进行错误检测,能够进一步排除模型的错误预测结果,从而进一步提高了实体关系识别的准确率,取得良好的预测效果。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种实体关系识别的方法,其特征在于,包括:
对文本序列进行分词处理得到分词集,并结合预先设置的扩充分词集生成汇总分词集;
对所述汇总分词集中的每个分词,分别生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量;
对每个分词对应的分词向量、字向量和笔画向量进行拼接处理得到所述文本序列对应的特征向量;
基于所述特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型;
使用所述实体关系识别模型进行实体关系识别。
2.根据权利要求1所述的方法,其特征在于,在使用所述实体关系识别模型进行实体关系识别之后,还包括:
获取使用所述实体关系识别模型进行实体关系识别得到的实体关系识别结果;
基于预先设置的实体集、关系集和实体对关联关系集对所述实体关系识别结果进行检测。
3.根据权利要求2所述的方法,其特征在于,基于预先设置的实体集、关系集和实体对关联关系集对所述实体关系识别结果进行检测,包括:
基于预先设置的实体集、关系集和实体对关联关系集对所述实体关系识别结果进行实体错误检测、关系错误检测和实体对的关联关系错误检测。
4.根据权利要求1所述的方法,其特征在于,对所述汇总分词集中的每个分词,分别生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量,包括:
对所述汇总分词集中的每个分词,分别通过向量嵌入函数生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量。
5.根据权利要求1所述的方法,其特征在于,基于所述特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型,包括:
通过深度学习神经网络模型的编码器对所述特征向量进行特征学习,得到隐藏状态矩阵和权重矩阵;
将所述隐藏状态矩阵和所述权重矩阵输入至所述深度学习神经网络模型的解码器,并结合预先设置的实体集与关系集得到所述文本序列的实体关系预测结果;
基于所述文本序列的实体关系预期识别结果和所述实体关系预测结果计算损失函数,并根据所述损失函数对所述权重矩阵进行调整;
重复执行上述操作,直至所述深度学习神经网络模型收敛,得到实体关系识别模型。
6.根据权利要求5所述的方法,其特征在于,通过深度学习神经网络模型的编码器对所述特征向量进行特征学习,得到隐藏状态矩阵和权重矩阵,包括:
通过深度学习神经网络模型的编码器对所述文本序列对应的特征向量进行特征学习,得到隐藏状态矩阵;
应用注意力机制对所述文本序列对应的特征向量构建特定的句子表征,得到关系注意力,经过关系门控处理得到权重矩阵。
7.根据权利要求5所述的方法,其特征在于,将所述隐藏状态矩阵和所述权重矩阵输入至所述深度学习神经网络模型的解码器,并结合预先设置的实体集与关系集得到所述文本序列的实体关系预测结果,包括:
将所述隐藏状态矩阵和所述权重矩阵输入至所述深度学习神经网络模型的解码器得到第一实体关系预测结果;
结合预先设置的实体集与关系集对所述第一实体关系预测结果进行校正,得到所述文本序列的实体关系预测结果。
8.一种实体关系识别的装置,其特征在于,包括:
分词处理模块,用于对文本序列进行分词处理得到分词集,并结合预先设置的扩充分词集生成汇总分词集;
向量提取模块,用于对所述汇总分词集中的每个分词,分别生成所述分词对应的分词向量、所述分词包括的每个字对应的字向量以及字包括的笔画所对应的笔画向量;
向量拼接模块,用于对每个分词对应的分词向量、字向量和笔画向量进行拼接处理得到所述文本序列对应的特征向量;
模型训练模块,用于基于所述特征向量和预先设置的实体集与关系集进行模型训练,得到实体关系识别模型;
实体关系识别模块,用于使用所述实体关系识别模型进行实体关系识别。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202311586409.1A 2023-11-24 2023-11-24 实体关系识别的方法和装置 Pending CN117574895A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311586409.1A CN117574895A (zh) 2023-11-24 2023-11-24 实体关系识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311586409.1A CN117574895A (zh) 2023-11-24 2023-11-24 实体关系识别的方法和装置

Publications (1)

Publication Number Publication Date
CN117574895A true CN117574895A (zh) 2024-02-20

Family

ID=89889669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311586409.1A Pending CN117574895A (zh) 2023-11-24 2023-11-24 实体关系识别的方法和装置

Country Status (1)

Country Link
CN (1) CN117574895A (zh)

Similar Documents

Publication Publication Date Title
US10650102B2 (en) Method and apparatus for generating parallel text in same language
US11151177B2 (en) Search method and apparatus based on artificial intelligence
US11481562B2 (en) Method and apparatus for evaluating translation quality
US11062089B2 (en) Method and apparatus for generating information
CN107491534B (zh) 信息处理方法和装置
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
WO2019174450A1 (zh) 一种对话生成的方法和装置
CN108416059B (zh) 图像描述模型的训练方法和装置、设备、介质
US11132996B2 (en) Method and apparatus for outputting information
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN112163434B (zh) 基于人工智能的文本翻译方法、装置、介质及电子设备
US20240078385A1 (en) Method and apparatus for generating text
CN113408272A (zh) 摘要生成模型的训练方法、装置、设备和存储介质
CN111368551A (zh) 一种确定事件主体的方法和装置
CN113743101A (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN116434752A (zh) 语音识别纠错方法和装置
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN112307738A (zh) 用于处理文本的方法和装置
CN113421551B (zh) 语音识别方法、装置、计算机可读介质及电子设备
CN115527520A (zh) 异常检测方法、装置、电子设备和计算机可读存储介质
CN117574895A (zh) 实体关系识别的方法和装置
CN115357710A (zh) 表格描述文本生成模型的训练方法、装置及电子设备
CN117574894A (zh) 一种实体关系识别的方法和装置
CN117591410A (zh) 一种软件测试的方法和装置
CN117574893A (zh) 实体关系识别的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination