CN111428493A - 实体关系获取方法、装置、设备及存储介质 - Google Patents

实体关系获取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111428493A
CN111428493A CN202010149505.XA CN202010149505A CN111428493A CN 111428493 A CN111428493 A CN 111428493A CN 202010149505 A CN202010149505 A CN 202010149505A CN 111428493 A CN111428493 A CN 111428493A
Authority
CN
China
Prior art keywords
vector
entity
word
model
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010149505.XA
Other languages
English (en)
Other versions
CN111428493B (zh
Inventor
戚思骅
张灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202010149505.XA priority Critical patent/CN111428493B/zh
Publication of CN111428493A publication Critical patent/CN111428493A/zh
Application granted granted Critical
Publication of CN111428493B publication Critical patent/CN111428493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术领域,公开了一种实体关系获取方法、装置、设备及存储介质,用于提高实体词组间实体关系预测的准确性。所述方法包括:对待识别的语料文本进行实体抽取,获得实体词组;使用预设向量提取模型对预置字词块进行字词向量表征及提取,得到待识别的语料文本对应的字词向量;使用预设向量提取模型对预先得到的实体词组进行字词向量表征及提取,得到实体词组的字词向量;将待识别语料文本的字词向量与实体词组的字词向量进行向量融合处理,得到融合向量;使用预设特征向量提取模型对融合向量进行特征向量提取,得到特征向量,特征向量包含实体关系;使用多类别多标签识别模型对特征向量进行预测,得到对应的所有实体关系集合。

Description

实体关系获取方法、装置、设备及存储介质
技术领域
本发明涉及人工智能的语义解析技术领域,尤其涉及一种实体关系获取方法、装置、设备及存储介质。
背景技术
现有技术中信息抽取的方法有一定的缺陷,一般的做法是先抽取主语,再同时抽取宾语以及两者的对应关系,或者是同时抽取主语宾语以及两者的对应关系。然而在知识抽取中经常会遇到同一组主语宾语对应多种关系的情况,但是现有的信息抽取方法无法获取文本语料中同一组实体词组的多种对应关系。
发明内容
本发明的主要目的在于解决现有的信息抽取方法无法获取文本语料中同一组实体词组的多种对应关系的技术问题。
为实现上述目的,本发明第一方面提供了一种实体关系获取方法,包括:
对待识别的语料文本进行实体抽取,获得对应的具有实体关系的实体词组;
使用预设分词算法对所述待识别的语料文本进行分词处理,获取对应的预置字词块;
使用预设向量提取模型对预置字词块进行字词向量表征及提取,得到所述待识别的语料文本对应的字词向量;
使用所述预设向量提取模型对预先得到的实体词组进行字词向量表征及提取,得到所述实体词组的字词向量;
将所述待识别语料文本的字词向量与所述实体词组的字词向量进行向量融合处理,得到对应的融合向量,所述向量融合处理包括采用向量拼接处理、向量平均化处理、向量池化处理、向量加权和处理中至少一种处理方式、或至少两种处理方式的组合处理方式;
使用预设特征向量提取模型对所述融合向量进行特征向量提取,得到对应的特征向量,所述特征向量包含实体关系;
使用预设的多类别多标签识别模型对所述特征向量进行预测,得到所述实体词组对应的所有实体关系集合。
可选的,在本发明第一方面的另一种实现方式中,所述对待识别的语料文本进行实体抽取,获得对应的具有实体关系的实体词组,包括:
对待识别的语料文本进行切分处理,得到对应的预置字块;
使用至少包含两个标签类型的标签对所述预置字块进行标签标记处理,得到根据标签类型分类的待训练数据,所述标签类型代表对应的预置字块的实体类型,所述标签类型间的关系代表实体关系;
使用预设向量提取模型对所述待训练数据进行向量化表征及提取,从而得到每个所述标签类型对应字块的字向量;
将每个所述标签类型对应字块的字向量,分别输入第一长短期记忆网络-条件随机场模型、第二长短期记忆网络-条件随机场模型进行预测处理,得到每个所述标签类型对应的预测标签序列;
将每个所述标签类型对应的预测标签序列进行合并,得到合并后的预测标签序列;
对所述合并后的预测标签序列进行去标签解码处理,得到具有实体关系的实体词组;所述去标签解码处理为对所述合并后的预测标签序列进行删除标签处理。
可选的,在本发明第一方面的另一种实现方式中,所述将每个所述标签类型对应字块的字向量,分别输入第一长短期记忆网络-条件随机场模型、第二长短期记忆网络-条件随机场模型进行预测处理,得到每个所述标签类型对应的预测标签序列具体包括:
将每个所述标签类型对应字块的字向量分别输入第一长短期记忆网络模型、第二长短期记忆网络模型进行预测处理,得到对应的第一预测结果、第二预测结果;
将所述对应的第一预测结果、第二预测结果分别输入第一条件随机场模型、第二条件随机场模型进行预测处理,得到每个所述标签类型对应的预测标签序列。
可选的,在本发明第一方面的另一种实现方式中,所述预设向量提取模型为独热编码模型、共现矩阵模型、词频-逆文本频率指数模型中的至少一种模型;
所述预设特征向量提取模型为长短期记忆网络模型、卷积神经网络模型、自编码器模型、循环神经网络模型中的至少一种模型。
可选的,在本发明第一方面的另一种实现方式中,所述预设向量提取模型为独热编码模型、共现矩阵模型、词频-逆文本频率指数模型中的至少一种模型;
所述预设特征向量提取模型为长短期记忆网络模型、卷积神经网络模型、自编码器模型、循环神经网络模型中的至少一种模型。
可选的,在本发明第一方面的另一种实现方式中,所述预设的多类别多标签识别模型为所述待识别语料文本对应目标领域中的语料进行特征向量提取,并输入到长短期记忆网络模型经训练得到的多类别多标签识别模型。
本发明第二方面提供了一种实体关系获取装置,包括:
实体词组获取模块,用于对待识别的语料文本进行实体抽取,获得对应的具有实体关系的实体词组;
预置字词块获取模块,用于使用预设分词算法对所述待识别的语料文本进行分词处理,获取对应的预置字词块;
预置字词块表征及提取模块,用于使用预设向量提取模型对预置字词块进行字词向量表征及提取,得到所述待识别的语料文本对应的字词向量;
实体词组表征及提取模块,用于使用所述预设向量提取模型对预先得到的实体词组进行字词向量表征及提取,得到所述实体词组的字词向量;
向量融合处理模块,用于将所述待识别语料文本的字词向量与所述实体词组的字词向量进行向量融合处理,得到对应的融合向量,所述向量融合处理包括采用向量拼接处理、向量平均化处理、向量池化处理、向量加权和处理中至少一种处理方式、或至少两种处理方式的组合处理方式;
特征向量提取模块,用于使用预设特征向量提取模型对所述融合向量进行特征向量提取,得到对应的特征向量,所述特征向量包含实体关系;
多标签识别模块,用于使用预设的多类别多标签识别模型对所述特征向量进行预测,得到所述实体词组对应的所有实体关系集合。
可选的,在本发明第二方面的另一种实现方式中,所述实体词组获取模块包括:
预置字词块获取单元,用于对待识别的语料文本进行切分处理,得到对应的预置字块;
待训练数据获取单元,用于使用至少包含两个标签类型的标签对所述预置字块进行标签标记处理,得到根据标签类型分类的待训练数据,所述标签类型代表对应的预置字块的实体类型,所述标签类型间的关系代表实体关系;
向量化表征单元,用于使用预设向量提取模型对所述待训练数据进行向量化表征及提取,从而得到每个所述标签类型对应字块的字向量;
预测标签序列获取单元,用于将每个所述标签类型对应字块的字向量,分别输入第一长短期记忆网络-条件随机场模型、第二长短期记忆网络-条件随机场模型进行预测处理,得到每个所述标签类型对应的预测标签序列;
合并单元,用于将每个所述标签类型对应的预测标签序列进行合并,得到合并后的预测标签序列;
去标签解码处理单元,用于对所述合并后的预测标签序列进行去标签解码处理,得到具有实体关系的实体词组;所述去标签解码处理为对所述合并后的预测标签序列进行删除标签处理。
可选的,在本发明第二方面的另一种实现方式中,所述预测标签序列获取单元具体用于:
将每个所述标签类型对应字块的字向量分别输入第一长短期记忆网络模型、第二长短期记忆网络模型进行预测处理,得到对应的第一预测结果、第二预测结果;
将所述对应的第一预测结果、第二预测结果分别输入第一条件随机场模型、第二条件随机场模型进行预测处理,得到每个所述标签类型对应的预测标签序列。
可选的,在本发明第二方面的另一种实现方式中,所述预设向量提取模型为独热编码模型、共现矩阵模型、词频-逆文本频率指数模型中的至少一种模型;
所述预设特征向量提取模型为长短期记忆网络模型、卷积神经网络模型、自编码器模型、循环神经网络模型中的至少一种模型。
可选的,在本发明第二方面的另一种实现方式中,所述预设的多类别多标签识别模型为所述待识别语料文本对应目标领域中的语料进行特征向量提取,并输入到长短期记忆网络模型经训练得到的多类别多标签识别模型。
本发明第三方面提供了一种实体关系获取设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互联;所述至少一个处理器调用所述存储器中的所述指令,以使得所述实体关系获取设备执行上述第一方面所述的方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本发明提供的技术方案中,对待识别的语料文本进行实体抽取,获得对应的具有实体关系的实体词组;使用预设分词算法对所述待识别的语料文本进行分词处理,获取对应的预置字词块;使用预设向量提取模型对预置字词块进行字词向量表征及提取,得到所述待识别的语料文本对应的字词向量;使用所述预设向量提取模型对预先得到的实体词组进行字词向量表征及提取,得到所述实体词组的字词向量;将所述待识别语料文本的字词向量与所述实体词组的字词向量进行向量融合处理,得到对应的融合向量;使用预设特征向量提取模型对所述融合向量进行特征向量提取,得到对应的特征向量,所述特征向量包含实体关系;使用预设的多类别多标签识别模型对所述特征向量进行预测,得到所述实体词组对应的所有实体关系集合。本发明实施例中,采用预设的训练模型对待识别的文本语料中的实体词组进行预测;并对待识别的文本语料、以及经预测得出的实体词组进行向量化处理,得到各自对应的字词向量;进一步地将各自对应的字词向量进行向量融合得到融合向量;并使用特征向量提取模型对所述融合向量进行特征向量提取;最后通过多类别多标签的识别模型对所述特征向量进行多标签关系预测,从而预测得到所述实体词组所对应的所有关系集合,本发明通过使用多种联合训练模型并结合多标签分类的策略进行实体关系预测,提高了对文本语料进行实体词组间实体关系预测的准确性。
附图说明
图1为本发明实施例中实体关系获取方法的一个实施例示意图;
图2为本发明实施例中实体关系获取方法的另一个实施例示意图;
图3为本发明实施例中实体关系获取装置的一个实施例示意图;
图4为本发明实施例中实体关系获取装置的另一个实施例示意图;
图5为本发明实施例中实体关系获取设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种实体关系获取方法、装置、设备及存储介质,用于提高对文本语料进行实体词组间实体关系预测的准确性,适用于构建知识图谱等应用场景。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例进行描述。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中实体关系获取方法的一个实施例包括:
101、对待识别的语料文本进行实体抽取,获得对应的具有实体关系的实体词组。
具体的,服务器通过对待识别的语料文本进行实体抽取,获得对应的具有实体关系的实体词组。譬如,若待识别的语料文本为“周杰伦作曲并演唱了《龙卷风》”,则经过实体预测可获得该句子里具有主宾关系的词组{“周杰伦”,“龙卷风”},具体实施时,如果待识别的语料文本包含其它实体关系的实体词组,则也可得到对应的具有实体关系的实体词组。
102、使用预设分词算法对待识别的语料文本进行切分处理,得到对应的预置字块。
具体的,服务器通过预设分词算法对待识别的语料文本进行切分处理,得到对应的预置字块。具体实施时,若待识别的语料文本为“周杰伦作曲并演唱了《龙卷风》”,则经分词处理得到的预置字词块包括{“周杰伦”,“作曲”,“并”,“演唱”,“了”,“《龙卷风》”},本发明对分词预处理所采用的分词模型或算法不作限定。
103、使用预设向量提取模型对预置字词块进行字词向量表征及提取,得到待识别的语料文本对应的字词向量。
具体的,服务器使用预设向量提取模型对预置字词块进行字词向量表征及提取,得到待识别的语料文本对应的字词向量。具体实施时,本发明的预设向量提取模型可以为独热编码模型、共现矩阵模型、词频-逆文本频率指数模型中的至少一种模型。譬如,若待识别的语料文本为“周杰伦作曲并演唱了《龙卷风》”,则经分词处理得到的预置字词块包括{“周杰伦”,“作曲”,“并”,“演唱”,“了”,“《龙卷风》”},并进一步采用预设向量提取模型对得到的预置字词块进行向量化表征及提取,将以向量或矩阵形式表示上述预置字词块,从而实现将待识别的语料文本以向量化形式进行表征。本发明采用预设向量提取模型用于进行字词向量表征及提取,从而得到对应的字词向量,实现了将待识别的语料文本通过向量化形式进行表征,以便于后续进行模型训练的数据处理。
104、使用预设向量提取模型对预先得到的实体词组进行字词向量表征及提取,得到实体词组的字词向量。
具体的,服务器还使用预设向量提取模型对预先得到的实体词组进行字词向量表征及提取,得到实体词组的字词向量。具体实施时,预先得到的实体词组为根据待识别的语料文本输入相应模型并经预测得出的具有实体关系的实体词块,与步骤101实施方式相同,服务器采用上述预设向量提取模型对具有实体关系的实体词组进行向量化处理,得到对应的字词向量,以便于通过该数据形式在后续模型训练过程中以向量形式进行融合处理。
105、将待识别语料文本的字词向量与实体词组的字词向量进行向量融合处理,得到对应的融合向量,向量融合处理包括采用向量拼接处理、向量平均化处理、向量池化处理、向量加权和处理中至少一种处理方式、或至少两种处理方式的组合处理方式。
具体的,服务器将待识别语料文本的字词向量与实体词组的字词向量进行向量融合处理,得到对应的融合向量。具体实施时,向量融合处理包括采用向量拼接处理、向量平均化处理、向量池化处理、向量加权和处理中至少一种处理方式、或至少两种处理方式的组合处理方式;本发明对于多维度输入的向量进行向量融合处理,这种融合方式是多样的,可以是拼接、平均化、池化、加权和等向量融合处理方式。
本发明通过实体预测将得到实体词组的预测序列的最优结果,本发明得到的实体词组用于与待识别语料文本中提取的字词向量进行进一步地向量融合处理。譬如,获得的待识别语料文本中预置字词块对应字词向量为三维向量v1=[1,2,3,];获取的对应实体词组对应字词向量为三维向量v2=[4,5,6],因此,可以选择一种向量融合方式进行衔接扩展将上述两个三维向量进行融合,从而成为一个六维的向量[v1,v2]=[1,2,3,4,5,6],本发明通过向量融合处理可以衔接扩展输入的向量,使待预测的实体词组的范围更加广,从而提高了对实体词组间多种实体关系预测的多样性。
106、使用预设特征向量提取模型对融合向量进行特征向量提取,得到对应的特征向量,特征向量包含实体关系。
具体的,服务器使用预设特征向量提取模型对融合向量进行特征向量提取,得到对应的特征向量,特征向量包含实体关系。具体实施时,预设特征向量提取模型为长短期记忆网络模型、卷积神经网络模型、自编码器模型、循环神经网络模型中的至少一种模型。进一步的,本发明使用的特征向量提取模型可以是多样的,不仅仅局限于长短期记忆网络模型、也可以是卷积神经网络模型、自编码器模型、循环神经网络模型等深度学习模型,也可以是普通的机器学习模型。由于特征向量包含实体关系,对于上述待识别的语料文本为“周杰伦作曲并演唱了《龙卷风》”,对于实体词组:“周杰伦”和“龙卷风”而言,二者的实体关系是主语宾语的对应关系,则对应的特征向量为四维向量,譬如以四维向量[0,1,1,0]表示该包括实体关系的特征向量。本发明采用预设特征向量提取模型用于对融合向量进行特征向量提取,可以得出包含实体关系的特征向量,为下一步输入多类别多标签识别模型对得到的特征向量进行实体关系预测作好准备。
107、使用预设的多类别多标签识别模型对特征向量进行预测,得到实体词组对应的所有实体关系集合。
具体的,服务器使用预设的多类别多标签识别模型对特征向量进行预测,得到实体词组对应的所有实体关系集合。进一步地,预设的多类别多标签识别模型为待识别语料文本对应目标领域中的语料进行特征向量提取,并输入到长短期记忆网络模型经训练得到的多类别多标签识别模型,具体的,对于该多类别多标签识别模型为输入特征向量得到输出的实体关系的预测模块,其通过获取目标领域中一定的训练数据输入长短期记忆网络模型,该训练数据包括目标领域中的文本语料以及文本语料中区分实体类型的标签,从而训练得到对应的多类别多标签识别模型,该实体类型的标签代表实体关系、用于区别实体词组间的实体关系。因此将待识别语料文本对应的特征向量输入至该多类别多标签识别模型就能得到对应的根据标签识别实体关系的实体词组。譬如,上述待识别语料文本中的实体词组:“周杰伦”和“龙卷风”,对应的特征向量为[0,1,1,0],则将该特征向量输入预设的多类别多标签识别模型则可以得到对应的实体关系标签,如果待识别语料文本中的实体词组有若干个,对应的实体关系标签也有若干个,则通过该预设的多类别多标签识别模型可以输出得到对应的多个实体关系标签集合。
由上可知,本发明方法实施例采用预设的训练模型对待识别的文本语料中的实体词组进行预测;并对待识别的文本语料、以及经预测得出的实体词组进行向量化处理,得到各自对应的字词向量;进一步地将各自对应的字词向量进行向量融合得到融合向量;并使用特征向量提取模型对融合向量进行特征向量提取;最后通过多类别多标签的识别模型对特征向量进行多标签关系预测,从而预测得到实体词组所对应的所有关系集合,本发明通过使用多种联合训练模型并结合多标签分类的策略进行实体关系预测,提高了对文本语料进行实体词组间实体关系预测的准确性。
可选的,如图2所示,本发明实施例中实体关系获取方法的另一个实施例中,对待识别的语料文本进行实体抽取,获得对应的具有实体关系的实体词组,包括:
201、对待识别的语料文本进行切分处理,得到对应的预置字块。
具体实施时,若待识别的语料文本为“周杰伦作曲并演唱了《龙卷风》”,则经直接切分处理得到的预置字块包括{“周”、“杰”、“伦”、“作”、“曲”、“并”“演”、“唱”、“了”、“龙”、“卷”、“风”}。
202、使用至少包含两个标签类型的标签对预置字词块进行标签标记处理,得到根据标签类型分类的待训练数据,所述标签类型代表对应的预置字块的实体类型,所述标签类型间的关系代表实体关系。
具体实施时,在对预置字词块进行标签标记处理过程中,使用至少包含两个标签类型的标签对预置字词块进行标签标记处理,标签类型代表对应的预置字块的实体类型,标签类型间的关系代表实体关系。譬如,在处理普通的实体识别任务时使用标签标记形式如:“词标签”,以主语宾语实体词组为例,在抽取主语和宾语时,由于同一词既有可能是主语,同时也有可能是宾语,因此采用一般标签标记形式无法满足同时捕获两者信息,因此采用的标签标记处理方式分成两列标记,标记形式如:“词主语标签宾语标签”,即将实体可能包含的标签统一标记出来,本发明通过对预置字词块进行标签标记处理,得到根据标签类型分类的待训练数据。因此,本发明实施时可以根据对词语进行标签标记处理,以区分各词语的实体类型,通过不同的实体类型即可以知道词语间是否具有实体关系,本发明采用同时抽取输入文本中所有的主语与宾语,相对于单独预测主语或宾语,更有效提升了主宾抽取的召回率。
203、使用预设向量提取模型对待训练数据进行向量化表征及提取、从而得到每个标签类型对应字块的字向量。
具体的,服务器还使用上述预设向量提取模型对待训练数据进行字词向量表征及提取,从而得到每个词块的向量序列,即得到每个标签类型对应字块的字向量,具体实施过程与步骤101实施方式相同,仅将向量化表征对象换成上述得到的待训练数据。
204、将每个标签类型对应字块的字向量,分别输入第一长短期记忆网络-条件随机场模型、第二长短期记忆网络-条件随机场模型进行预测处理,得到每个标签类型对应的预测标签序列。
具体的,服务器将所得到每个标签类型对应字块的向量序列分别输入第一长短期记忆网络-条件随机场模型、第二长短期记忆网络-条件随机场模型进行预测处理,上述第一长短期记忆网络-条件随机场模型、第二长短期记忆网络-条件随机场模型在模型训练时,在待训练数据中,训练输入的语料文本相同,训练输入的“标签序列”不相同,譬如第一长短期记忆网络-条件随机场模型输出为“主语的测标签序列”、第二长短期记忆网络-条件随机场模型输出为“主语的测标签序列”。因此输出的结果中,当输入的待识别语料文本为包含主宾关系词组的句子,从而能同时得到两个模型训练的预测结果,即输出“主语的测标签序列”和“宾语预测标签序列”。
进一步地,服务器在将每个标签类型对应字块的字向量,分别输入第一长短期记忆网络-条件随机场模型、第二长短期记忆网络-条件随机场模型进行预测处理时具体实施包括:服务器先将每个标签类型对应字块的字向量分别输入第一长短期记忆网络模型、第二长短期记忆网络模型进行预测处理,得到对应的第一预测结果、第二预测结果;再将对应的第一预测结果、第二预测结果分别输入第一条件随机场模型、第二条件随机场模型进行预测处理,得到每个标签类型对应的预测标签序列。本发明通过在训练时将表征向量分别输入第一长短期记忆网络-条件随机场模型、第二长短期记忆网络-条件随机场模型进行实体词组预测,譬如主语预测和宾语预测,从而能同时得到两个模型训练的预测结果,基于预测结果之和进行下一步训练。
205、将每个标签类型对应的预测标签序列进行合并,得到合并后的预测标签序列。
具体的,服务器通过相加两个预测模型的预测结果之和,起到长短期记忆网络模型与条件随机场模型联合训练得到最优预测效果的作用,该训练实施过程将得到主语预测序列与宾语预测序列的全局最优结果。
206、对合并后的预测标签序列进行去标签解码处理,得到具有实体关系的实体词组,去标签解码处理为对合并后的预测标签序列进行删除标签处理。
具体的,服务器在预测结果时,根据合并得到的预测标签序列,譬如对于上述待识别的语料文本,其合并得到的预测标签序列为{“主语的测标签序列”,“宾语预测标签序列”},将输入的句子的主语和宾语解码出来,可获得该句子里所有具有主宾关系的词组{“周杰伦”,“龙卷风”},具体实施时,如果待识别的语料文本包含其它实体关系的实体词组,则对具有实体关系的词组进行全排列组合匹配,也可得到对应的具有实体关系的实体词组。
上面对本发明实施例中实体关系获取方法进行了描述,下面对本发明实施例中实体关系获取装置进行描述,请参阅图3,本发明实施例中实体关系获取装置的一个实施例包括:
实体词组获取模块301,用于对待识别的语料文本进行实体抽取,获得对应的具有实体关系的实体词组;
预置字词块获取模块302,用于使用预设分词算法对所述待识别的语料文本进行分词处理,获取对应的预置字词块;
预置字词块表征及提取模块303,用于使用预设向量提取模型对预置字词块进行字词向量表征及提取,得到待识别的语料文本对应的字词向量;
实体词组表征及提取模块304,用于使用预设向量提取模型对预先得到的实体词组进行字词向量表征及提取,得到实体词组的字词向量;
向量融合处理模块305,用于将待识别语料文本的字词向量与实体词组的字词向量进行向量融合处理,得到对应的融合向量,向量融合处理包括采用向量拼接处理、向量平均化处理、向量池化处理、向量加权和处理中至少一种处理方式、或至少两种处理方式的组合处理方式;
特征向量提取模块306,用于使用预设特征向量提取模型对融合向量进行特征向量提取,得到对应的特征向量,特征向量包含实体关系;
多标签识别模块307,用于使用预设的多类别多标签识别模型对特征向量进行预测,得到实体词组对应的所有实体关系集合。
请参阅图4,本发明实施例中实体关系获取装置的另一个实施例中,实体词组获取模块301包括:
预置字词块获取单元3011,用于对待识别的语料文本进行切分处理,得到对应的预置字块;
待训练数据获取单元3012,用于使用至少包含两个标签类型的标签对预置字词块进行标签标记处理,得到根据标签类型分类的待训练数据,标签类型代表对应的预置字块的实体类型,标签类型间的关系代表实体关系;
向量化表征单元3013,用于使用预设向量提取模型对待训练数据进行向量化表征及提取,从而得到每个标签类型对应字块的字向量;
预测标签序列获取单元3014,用于将每个标签类型对应字块的字向量,分别输入第一长短期记忆网络-条件随机场模型、第二长短期记忆网络-条件随机场模型进行预测处理,得到每个标签类型对应的预测标签序列;
合并单元3015,用于将每个标签类型对应的预测标签序列进行合并,得到合并后的预测标签序列;
去标签解码处理单元3016,用于对合并后的预测标签序列进行去标签解码处理,得到具有实体关系的实体词组;去标签解码处理为对合并后的预测标签序列进行删除标签处理。
可选的,本发明实施例中实体关系获取装置的另一个实施例中,预测标签序列获取单元3014具体用于:
将每个标签类型对应字块的字向量分别输入第一长短期记忆网络模型、第二长短期记忆网络模型进行预测处理,得到对应的第一预测结果、第二预测结果;
将对应的第一预测结果、第二预测结果分别输入第一条件随机场模型、第二条件随机场模型进行预测处理,得到每个标签类型对应的预测标签序列。
可选的,本发明实施例中实体关系获取装置的另一个实施例中,预设向量提取模型为独热编码模型、共现矩阵模型、词频-逆文本频率指数模型中的至少一种模型;
预设特征向量提取模型为长短期记忆网络模型、卷积神经网络模型、自编码器模型、循环神经网络模型中的至少一种模型。
可选的,本发明实施例中实体关系获取装置的另一个实施例中,预设的多类别多标签识别模型为待识别语料文本对应目标领域中的语料进行特征向量提取,并输入到长短期记忆网络模型经训练得到的多类别多标签识别模型。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置或系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上面图3和图4从模块化功能实体的角度对本发明实施例中的实体关系获取装置进行详细描述,下面从硬件处理的角度对本发明实施例中实体关系获取设备进行详细描述。
图5是本发明实施例提供的一种实体关系获取设备的结构示意图,该实体关系获取设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)501(例如,一个或一个以上处理器)和存储器509,一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中,存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对实体关系获取中的一系列指令操作。更进一步地,处理器501可以设置为与存储介质508通信,在实体关系获取设备500上执行存储介质508中的一系列指令操作。
实体关系获取设备500还可以包括一个或一个以上电源502,一个或一个以上有线或无线网络接口503,一个或一个以上输入输出接口504,和/或,一个或一个以上操作系统505,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5中示出的实体关系获取设备结构并不构成对实体关系获取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种实体关系获取方法,其特征在于,包括:
对待识别的语料文本进行实体抽取,获得对应的具有实体关系的实体词组;
使用预设分词算法对所述待识别的语料文本进行分词处理,获取对应的预置字词块;
使用预设向量提取模型对预置字词块进行字词向量表征及提取,得到所述待识别的语料文本对应的字词向量;
使用所述预设向量提取模型对预先得到的实体词组进行字词向量表征及提取,得到所述实体词组的字词向量;
将所述待识别语料文本的字词向量与所述实体词组的字词向量进行向量融合处理,得到对应的融合向量,所述向量融合处理包括采用向量拼接处理、向量平均化处理、向量池化处理、向量加权和处理中至少一种处理方式、或至少两种处理方式的组合处理方式;
使用预设特征向量提取模型对所述融合向量进行特征向量提取,得到对应的特征向量,所述特征向量包含实体关系;
使用预设的多类别多标签识别模型对所述特征向量进行预测,得到所述实体词组对应的所有实体关系集合。
2.根据权利要求1所述的实体关系获取方法,其特征在于,所述对待识别的语料文本进行实体抽取,获得对应的具有实体关系的实体词组,包括:
对待识别的语料文本进行切分处理,得到对应的预置字块;
使用至少包含两个标签类型的标签对所述预置字块进行标签标记处理,得到根据标签类型分类的待训练数据,所述标签类型代表对应的预置字块的实体类型,所述标签类型间的关系代表实体关系;
使用预设向量提取模型对所述待训练数据进行向量化表征及提取,从而得到每个所述标签类型对应字块的字向量;
将每个所述标签类型对应字块的字向量,分别输入第一长短期记忆网络-条件随机场模型、第二长短期记忆网络-条件随机场模型进行预测处理,得到每个所述标签类型对应的预测标签序列;
将每个所述标签类型对应的预测标签序列进行合并,得到合并后的预测标签序列;
对所述合并后的预测标签序列进行去标签解码处理,得到具有实体关系的实体词组;所述去标签解码处理为对所述合并后的预测标签序列进行删除标签处理。
3.根据权利要求2所述的实体关系获取方法,其特征在于,所述将每个所述标签类型对应字块的字向量,分别输入第一长短期记忆网络-条件随机场模型、第二长短期记忆网络-条件随机场模型进行预测处理,得到每个所述标签类型对应的预测标签序列具体包括:
将每个所述标签类型对应字块的字向量分别输入第一长短期记忆网络模型、第二长短期记忆网络模型进行预测处理,得到对应的第一预测结果、第二预测结果;
将所述对应的第一预测结果、第二预测结果分别输入第一条件随机场模型、第二条件随机场模型进行预测处理,得到每个所述标签类型对应的预测标签序列。
4.根据权利要求1所述的实体关系获取方法,其特征在于,所述预设向量提取模型为独热编码模型、共现矩阵模型、词频-逆文本频率指数模型中的至少一种模型;
所述预设特征向量提取模型为长短期记忆网络模型、卷积神经网络模型、自编码器模型、循环神经网络模型中的至少一种模型。
5.根据权利要求1所述的实体关系获取方法,其特征在于,所述预设的多类别多标签识别模型为所述待识别语料文本对应目标领域中的语料进行特征向量提取,并输入到长短期记忆网络模型经训练得到的多类别多标签识别模型。
6.一种实体关系获取装置,其特征在于,包括:
实体词组获取模块,用于对待识别的语料文本进行实体抽取,获得对应的具有实体关系的实体词组;
预置字词块获取模块,用于使用预设分词算法对所述待识别的语料文本进行分词处理,获取对应的预置字词块;
预置字词块表征及提取模块,用于使用预设向量提取模型对预置字词块进行字词向量表征及提取,得到所述待识别的语料文本对应的字词向量;
实体词组表征及提取模块,用于使用所述预设向量提取模型对预先得到的实体词组进行字词向量表征及提取,得到所述实体词组的字词向量;
向量融合处理模块,用于将所述待识别语料文本的字词向量与所述实体词组的字词向量进行向量融合处理,得到对应的融合向量,所述向量融合处理包括采用向量拼接处理、向量平均化处理、向量池化处理、向量加权和处理中至少一种处理方式、或至少两种处理方式的组合处理方式;
特征向量提取模块,用于使用预设特征向量提取模型对所述融合向量进行特征向量提取,得到对应的特征向量,所述特征向量包含实体关系;
多标签识别模块,用于使用预设的多类别多标签识别模型对所述特征向量进行预测,得到所述实体词组对应的所有实体关系集合。
7.根据权利要求6所述的实体关系获取装置,其特征在于,所述实体词组获取模块包括:
预置字词块获取单元,用于对待识别的语料文本进行切分处理,得到对应的预置字块;
待训练数据获取单元,用于使用至少包含两个标签类型的标签对所述预置字块进行标签标记处理,得到根据标签类型分类的待训练数据,所述标签类型代表对应的预置字块的实体类型,所述标签类型间的关系代表实体关系;
向量化表征单元,用于使用预设向量提取模型对所述待训练数据进行向量化表征及提取,从而得到每个所述标签类型对应字块的字向量;
预测标签序列获取单元,用于将每个所述标签类型对应字块的字向量,分别输入第一长短期记忆网络-条件随机场模型、第二长短期记忆网络-条件随机场模型进行预测处理,得到每个所述标签类型对应的预测标签序列;
合并单元,用于将每个所述标签类型对应的预测标签序列进行合并,得到合并后的预测标签序列;
去标签解码处理单元,用于对所述合并后的预测标签序列进行去标签解码处理,得到具有实体关系的实体词组;所述去标签解码处理为对所述合并后的预测标签序列进行删除标签处理。
8.根据权利要求7所述的实体关系获取装置,其特征在于,所述预测标签序列获取单元具体用于:
将每个所述标签类型对应字块的字向量分别输入第一长短期记忆网络模型、第二长短期记忆网络模型进行预测处理,得到对应的第一预测结果、第二预测结果;
将所述对应的第一预测结果、第二预测结果分别输入第一条件随机场模型、第二条件随机场模型进行预测处理,得到每个所述标签类型对应的预测标签序列。
9.一种实体关系获取设备,其特征在于,所述实体关系获取设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互联;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述实体关系获取设备执行如权利要求1-5中任意一项所述的方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任意一项所述方法的步骤。
CN202010149505.XA 2020-03-06 2020-03-06 实体关系获取方法、装置、设备及存储介质 Active CN111428493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010149505.XA CN111428493B (zh) 2020-03-06 2020-03-06 实体关系获取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010149505.XA CN111428493B (zh) 2020-03-06 2020-03-06 实体关系获取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111428493A true CN111428493A (zh) 2020-07-17
CN111428493B CN111428493B (zh) 2024-08-30

Family

ID=71546151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010149505.XA Active CN111428493B (zh) 2020-03-06 2020-03-06 实体关系获取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111428493B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463960A (zh) * 2020-10-30 2021-03-09 完美世界控股集团有限公司 一种实体关系的确定方法、装置、计算设备及存储介质
CN112926332A (zh) * 2021-03-30 2021-06-08 善诊(上海)信息技术有限公司 一种实体关系联合抽取方法及装置
CN113392648A (zh) * 2021-06-02 2021-09-14 北京三快在线科技有限公司 实体关系获取方法及装置
CN113434695A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 金融事件抽取方法、装置、电子设备及存储介质
CN113515945A (zh) * 2021-04-26 2021-10-19 科大讯飞股份有限公司 一种获取文本信息的方法、装置、设备及存储介质
CN113535896A (zh) * 2021-06-23 2021-10-22 北京达佳互联信息技术有限公司 搜索方法、装置、电子设备及存储介质
CN113569574A (zh) * 2021-07-16 2021-10-29 阳光电源股份有限公司 工单类型的识别方法、终端和存储介质
CN113888760A (zh) * 2021-09-29 2022-01-04 平安银行股份有限公司 基于软件应用的违规信息监控方法、装置、设备及介质
CN114077831A (zh) * 2020-08-21 2022-02-22 北京金山数字娱乐科技有限公司 一种问题文本分析模型的训练方法及装置
CN114528418A (zh) * 2022-04-24 2022-05-24 杭州同花顺数据开发有限公司 一种文本处理方法、系统和存储介质
WO2022166613A1 (zh) * 2021-02-02 2022-08-11 北京有竹居网络技术有限公司 文本中角色的识别方法、装置、可读介质和电子设备
CN115186669A (zh) * 2022-08-30 2022-10-14 北京睿企信息科技有限公司 一种实体关系抽取方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN110263323A (zh) * 2019-05-08 2019-09-20 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN110263323A (zh) * 2019-05-08 2019-09-20 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114077831A (zh) * 2020-08-21 2022-02-22 北京金山数字娱乐科技有限公司 一种问题文本分析模型的训练方法及装置
CN112463960A (zh) * 2020-10-30 2021-03-09 完美世界控股集团有限公司 一种实体关系的确定方法、装置、计算设备及存储介质
WO2022166613A1 (zh) * 2021-02-02 2022-08-11 北京有竹居网络技术有限公司 文本中角色的识别方法、装置、可读介质和电子设备
CN112926332A (zh) * 2021-03-30 2021-06-08 善诊(上海)信息技术有限公司 一种实体关系联合抽取方法及装置
CN113515945A (zh) * 2021-04-26 2021-10-19 科大讯飞股份有限公司 一种获取文本信息的方法、装置、设备及存储介质
CN113515945B (zh) * 2021-04-26 2024-06-04 中国科学技术大学 一种获取文本信息的方法、装置、设备及存储介质
CN113392648A (zh) * 2021-06-02 2021-09-14 北京三快在线科技有限公司 实体关系获取方法及装置
CN113535896A (zh) * 2021-06-23 2021-10-22 北京达佳互联信息技术有限公司 搜索方法、装置、电子设备及存储介质
CN113535896B (zh) * 2021-06-23 2024-04-19 北京达佳互联信息技术有限公司 搜索方法、装置、电子设备及存储介质
CN113434695A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 金融事件抽取方法、装置、电子设备及存储介质
CN113569574A (zh) * 2021-07-16 2021-10-29 阳光电源股份有限公司 工单类型的识别方法、终端和存储介质
CN113569574B (zh) * 2021-07-16 2024-02-09 阳光电源股份有限公司 工单类型的识别方法、终端和存储介质
CN113888760A (zh) * 2021-09-29 2022-01-04 平安银行股份有限公司 基于软件应用的违规信息监控方法、装置、设备及介质
CN113888760B (zh) * 2021-09-29 2024-04-23 平安银行股份有限公司 基于软件应用的违规信息监控方法、装置、设备及介质
CN114528418A (zh) * 2022-04-24 2022-05-24 杭州同花顺数据开发有限公司 一种文本处理方法、系统和存储介质
CN115186669A (zh) * 2022-08-30 2022-10-14 北京睿企信息科技有限公司 一种实体关系抽取方法及系统

Also Published As

Publication number Publication date
CN111428493B (zh) 2024-08-30

Similar Documents

Publication Publication Date Title
CN111428493A (zh) 实体关系获取方法、装置、设备及存储介质
CN107679039B (zh) 用于确定语句意图的方法和装置
CN112464662B (zh) 医学短语匹配方法、装置、设备及存储介质
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN107085581B (zh) 短文本分类方法和装置
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN110705206B (zh) 一种文本信息的处理方法及相关装置
CN112560912A (zh) 分类模型的训练方法、装置、电子设备和存储介质
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN109783801B (zh) 一种电子装置、多标签分类方法及存储介质
CN112188311B (zh) 用于确定新闻的视频素材的方法和装置
CN112528658B (zh) 层次化分类方法、装置、电子设备和存储介质
CN109558482B (zh) 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法
CN111160191A (zh) 一种视频关键帧提取方法、装置及存储介质
CN111597297A (zh) 物品召回方法、系统、电子设备及可读存储介质
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN111401065A (zh) 实体识别方法、装置、设备及存储介质
CN112328655B (zh) 文本标签挖掘方法、装置、设备及存储介质
CN111666766A (zh) 数据处理方法、装置和设备
CN112257452A (zh) 情感识别模型的训练方法、装置、设备和存储介质
CN108205524B (zh) 文本数据处理方法和装置
CN112528030A (zh) 一种用于文本分类的半监督学习方法和系统
CN114818710A (zh) 表格信息提取方法、装置、设备及介质
CN116127060A (zh) 一种基于提示词的文本分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant