CN111241826B - 实体名称识别方法、装置、设备及存储介质 - Google Patents
实体名称识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111241826B CN111241826B CN202010024497.6A CN202010024497A CN111241826B CN 111241826 B CN111241826 B CN 111241826B CN 202010024497 A CN202010024497 A CN 202010024497A CN 111241826 B CN111241826 B CN 111241826B
- Authority
- CN
- China
- Prior art keywords
- entity
- node
- vocabulary
- nodes
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及金融科技领域,公开了实体名称识别方法、装置、设备及存储介质,所述方法包括:获取待检测文本,并获取所述待检测文本的多个实体名称;在预设的知识节点图谱中确定各实体名称对应的实体节点,若根据所述知识节点图谱确定各实体节点之间不存在第一统一实体,则获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征;对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体;输出所述第二统一实体的第二统一实体名称。本发明解决传统命名提取方法中实体命名的识别匹配率低下,无法实现实体融合统一的技术问题。
Description
技术领域
本发明涉及金融科技技术领域,尤其涉及一种实体名称识别方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融工业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
命名实体识别(NER,Name Entity Recognition)是深度学习领域较成熟的应用,其作用是将文本里面与业务相关的目标主体(例如人名、企业名、地理位置等)提取位置信息并进行分类。但是现有的提取方法存在实体融合问题,即同一实体在所提取的命名中可能存在名称不统一的问题,从而导致实体命名的识别匹配率低下,无法实现实体融合统一。
因此,如何提高实体命名的识别匹配率,实现实体的融合统一,是当前亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种实体名称识别方法、装置、设备及存储介质,旨在解决传统命名提取方法中实体命名的识别匹配率低下,无法实现实体融合统一的技术问题。
为实现上述目的,本发明实施例提供一种实体名称识别方法,所述实体名称识别方法包括:
获取待检测文本,并获取所述待检测文本的多个实体名称;
在预设的知识节点图谱中确定各实体名称对应的实体节点,若根据所述知识节点图谱确定各实体节点之间不存在第一统一实体,则获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征;
对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体;
输出所述第二统一实体的第二统一实体名称。
可选地,所述获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征,包括:
对所述实体节点进行特征预测,以获得节点权重特征;
对所述实体节点进行特征检索,以获得各实体节点对应的关联文本,并对所述关联文本进行特征化处理,以获得互联网词汇嵌入特征;
对所述实体节点和所述关联文本进行语句特征提取,以获取目标文本词汇嵌入特征。
可选地,所述对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体包括:
基于各实体节点以及各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征,生成各实体节点的特征值;
根据各实体节点的特征值,分别确定两两实体节点之间的特征相似值;
将所述数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称。
可选地,所述将所述数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称,包括:
判断所述数值最大的特征相似值是否大于预设值;
若是,则将所述数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称。
可选地,所述判断所述数值最大的特征相似值是否大于预设值之后,还包括:
若否,则输出为各实体节点之间不存在第二统一实体的提示信息。可选地,
可选地,所述实体名称识别方法包括:
根据所述第二统一实体更新所述知识节点图谱,并将所述第二统一实体进行统一关联,并保存。
可选地,所述在预设的知识节点图谱中确定各实体名称对应的实体节点之后,还包括:
若根据所述知识节点图谱确定各实体节点之间存在第一统一实体,则输出所述第一统一实体的第一统一实体名称。
本发明还提供一种实体名称识别装置,所述实体名称识别装置包括:
获取模块,用于获取待检测文本,并获取所述待检测文本的多个实体名称;
特征模块,用于在预设的知识节点图谱中确定各实体名称对应的实体节点,若根据所述知识节点图谱确定各实体节点之间不存在第一统一实体,则获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征;
统一模块,用于对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体;
第一输出模块,用于输出所述第二统一实体的第二统一实体名称。
可选地,所述特征模块包括:
特征预测单元,用于对所述实体节点进行特征预测,以获得节点权重特征;
特征检索单元,用于对所述实体节点进行特征检索,以获得各实体节点对应的关联文本,并对所述关联文本进行特征化处理,以获得互联网词汇嵌入特征;
特征提取单元,用于对所述实体节点和所述关联文本进行语句特征提取,以获取目标文本词汇嵌入特征。
可选地,所述统一模块包括:
生成单元,用于基于各实体节点以及各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征,生成各实体节点的特征值;
确定单元,用于根据各实体节点的特征值,分别确定两两实体节点之间的特征相似值;
统一单元,用于将所述数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称。
可选地,所述统一单元包括:
判断子单元,用于判断所述数值最大的特征相似值是否大于预设值;
第一判断子单元,用于若是,则将所述数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称。
可选地,所述统一单元还包括:
第二判断子单元,用于若否,则输出为各实体节点之间不存在第二统一实体的提示信息。可选地,
可选地,所述实体名称识别装置包括:
关联模块,用于根据所述第二统一实体更新所述知识节点图谱,并将所述第二统一实体进行统一关联,并保存。
可选地,所述实体名称识别装置还包括:
第二输出模块,用于若根据所述知识节点图谱确定各实体节点之间存在第一统一实体,则输出所述第一统一实体的第一统一实体名称。
此外,为实现上述目的,本发明还提供一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的实体名称识别程序,其中:
所述实体名称识别程序被所述处理器执行时实现如上所述的实体名称识别方法的步骤。
此外,为实现上述目的,本发明还提供计算机存储介质;
所述计算机存储介质上存储有实体名称识别程序,所述实体名称识别程序被处理器执行时实现如上述的实体名称识别方法的步骤。
本发明获取待检测文本,并获取所述待检测文本的多个实体名称;在预设的知识节点图谱中确定各实体名称对应的实体节点,若根据所述知识节点图谱确定各实体节点之间不存在第一统一实体,则获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征;对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体;输出所述第二统一实体的第二统一实体名称。通过以上方案,本发明有效地解决了传统实体命名匹配率低下,实体无法融合统一的技术问题,提高了实体命名的识别匹配率,实现了实体命名的融合统一,将命名文本和业务信息相互结合,降低了实体命名的互耦率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明实体名称识别方法一实施例的流程示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例设备可以是PC机或服务器设备。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及实体名称识别程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的实体名称识别程序,并执行下述实体名称识别方法各个实施例中的操作。
本发明实施例方案的主要思路是:本发明获取待检测文本,并获取所述待检测文本的多个实体名称;在预设的知识节点图谱中确定各实体名称对应的实体节点,若根据所述知识节点图谱确定各实体节点之间不存在第一统一实体,则获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征;对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体;输出所述第二统一实体的第二统一实体名称。通过以上方案,本发明有效地解决了传统实体命名匹配率低下,实体无法融合统一的技术问题,提高了实体命名的识别匹配率,实现了实体命名的融合统一,将命名文本和业务信息相互结合,降低了实体命名的互耦率。
本发明实施例考虑到,由于现有技术中存在实体融合问题,即同一实体在所提取的命名中可能存在名称不统一的问题,从而导致实体命名的识别匹配率低下,无法实现实体融合统一。
本发明提供一种解决方案,可以有效地解决了传统实体命名匹配率低下,实体无法融合统一的技术问题,提高了实体命名的识别匹配率,实现了实体命名的融合统一,将命名文本和业务信息相互结合,降低了实体命名的互耦率。
本发明各实施例结合知识图谱和NLP技术对统一实体进行融合,可理解的是:
(1)实体和实体之间关系利用图数据库保存,分词系统通过加载实体词汇构建自定义词库的分词系统,将业务语料库丢进分词系统分词,获取大量标注数据。并利用这些标注的数据训练序实体识别模型。
(2)实体之间的关系可能不够完成或者存在动态更新,可以通过信息抽取的技术补充图数据库中的实体节点或者关系。这一做法有助于持续优化实体融合的效果和效率。
基于上述硬件结构,提出本发明实体名称识别方法实施例。
本发明属于金融科技领域(Fintech),本发明提供一种实体名称识别方法,该实体名称识别方法可应用于设备上,在实体名称识别方法一实施例中,参照图2,所述实体名称识别方法包括:
步骤S10,获取待检测文本,并获取所述待检测文本的多个实体名称;
待检测文本中包含有实体名称时,本实施例将从文本中获取到所有的实体名称。例如待检测文本中包括“a银行”、“a上海股份公司”和“b财富宝”等等,本实施例将通过实体名称识别,解析获取到待检测文本中的“a银行”、“a上海股份公司”和“b财富宝”等实体名称。
步骤S20,在预设的知识节点图谱中确定各实体名称对应的实体节点,若根据所述知识节点图谱确定各实体节点之间不存在第一统一实体,则获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征;
所述预设的知识节点图谱指的是收录有大量实体名称的实体节点关系图谱,用以作为存储各实体节点之间的关系逻辑检索库。在本实施例中,获取到各实体名称之后,可将实体名称输入到知识节点图谱,确定各实体名称在知识节点图谱中的实体节点。例如根据“a银行”确定“a银行”实体节点,根据“a上海股份公司”确定“a上海股份公司”实体节点,根据“b财富宝”确定“b财富宝”实体节点。
通常情况下知识节点图谱用于检索各实体节点是是否映射着统一实体的实体节点。不同表述的多个实体节点指代同一实体,则所述多个实体节点存在统一实体,同时,例如在知识节点图谱中,“a银行”节点映射着实体节点a集团、“a上海股份公司”节点映射着实体节点a集团、“b财富宝”节点映射着实体节点b集团。由此可知,“a银行”节点和“a上海股份公司”节点之间存在统一实体a集团,而“a银行”和“b财富宝”,以及“a上海股份公司”和“b财富宝”不存在统一实体。如果能通过知识节点图谱查询到统一实体,则直接输出融合后的统一实体名称。
但是,假设知识节点图谱中存在“a银行”节点和“b财富宝”节点,而没有“a上海股份公司”节点与“a银行”节点的关联关系,以及与“b财富宝”节点的关联关系。那么此时无法根据知识节点图谱确定“a银行”节点和“b财富宝”节点之间是否有第一统一实体,也无法确定“a上海股份公司”节点和“b财富宝”节点之间是否有第一统一实体。
具体地,所述获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征,包括:
步骤A1,对所述实体节点进行特征预测,以获得节点权重特征;
为方便理解,本实施例以两个实体节点进行举例解释。分别利用两个实体节点在知识点图谱中的邻近节点进行矩阵化的特征化,具体为:利用onehot处理为实体节点A和实体节点B两个节点各自对应的邻近节点进行初始化,得到所有邻近节点对应的初始矩阵。假设当前邻近节点为一万个,若邻近节点与实体节点A和实体节点B相关联,则节点值为1,若不相关联,则节点值为0,从而生成各个节点的初始矩阵。利用负采样的方法对当前邻近节点进行预测,即只对节点值为0的邻近节点进行预测,获得各邻近节点的预测值。预测方式为通过初始矩阵,计算各个邻近节点与当前实体节点A和实体节点B之间的关联值。例如邻近节点1的初始矩阵与实体节点A的初始矩阵,计算所获得的特征向量值即为邻近节点1的预测值,邻近节点2的初始矩阵与实体节点A的初始矩阵,计算所获得的特征向量值即为邻近节点2与实体节点A的预测值。同理,邻近节点1的初始矩阵与实体节点B的初始矩阵,计算所获得的特征向量值即为邻近节点1的预测值,邻近节点2的初始矩阵与实体节点B的初始矩阵,计算所获得的特征向量值即为邻近节点2与实体节点B的预测值。
预测值与节点权重特征之间的关系
综合实体节点A的各个邻近节点对应的预测值,利用平均值法对各个邻近节点进行均值计算,从而获得当前实体节点A的节点权重特征;同理可获取到实体节点B的节点权重特征。
通过图谱模型与训练的方式优化初始化矩阵,通过两两节点预测关系的结果,优化初始化矩阵中各节点的节点权重值。
可以理解的是,权重值的调整幅度可以根据实际算法确定。通过以上算法对整个网络进行预测迭代,从而获得稳定的最终矩阵,而最终矩阵中的权重值将作为节点权重特征,可以理解的是,所述特征预测处理方式可采用Node2Vec技术。
步骤A2,对所述实体节点进行特征检索,以获得各实体节点对应的关联文本,并对所述关联文本进行特征化处理,以获得互联网词汇嵌入特征;
本实施例中,将对所述实体节点进行特征检索,所述特征检索指的是将实体节点的名称作为关键字输入搜索引擎,以从搜索引擎中检索到对应的关联文本。所述关联文本指的是与实体节点名称关联程度最高的前N篇互联网文本。通过NLP技术对所述关联文本进行特征化处理。所述特征化处理指的是将关联文本进行文本预测,以获得文本向量特征。
为方便理解,以下通过一个例子进行解释说明,并不代表本发明只限以下例子所指代的内容。假设当前有多篇关联文本,本实施例对关联文本进行分词以获得各个文本词汇,并分析各个文本词汇之间的关联关系,从而建立词汇关联矩阵。例如,a词汇与b词汇之间存在业务的关联关系,b词汇与c词汇之间存在公司集团的关联关系。这样就能够构建a词汇,b词汇和c词汇之间完整的词汇关联矩阵。
在各个文本词汇之间去掉其中任一文本词汇,建立被去掉的文本词汇的前一个文本词汇与后一个文本词汇之间的关联关系,以形成被去掉的文本词汇的文本向量特征,该文本向量特征利用了前一个文本词汇与后一个文本词汇,预测了被去掉的文本词汇的关联关系,即文本向量特征预测了前一个文本词汇与后一个文本词汇之间的关联关系,若相关联则预测值为1,若不相关联则预测值为0。一个文本词汇相当于一个文本向量特征,当前关联文本中包含有大量的文本词汇,因此本实施例将获取到大量的文本向量特征。进一步地,本实施例对所述大量的文本向量特征进行矩阵化,量化所有文本向量特征。根据各文本向量特征建立词汇向量矩阵,所述词汇向量矩阵中包括了对文本词汇的预测。将所述词汇向量矩阵与词汇关联矩阵进行比对,若预测成功,则提高词汇向量矩阵中该文本词汇的预测权重值,以加强该文本词汇的预测表征能力,若预测失败,则降低词汇向量矩阵中该文本词汇的预测权重值,从而得到稳定的优化词汇向量矩阵。所述优化词汇向量矩阵即为互联网词汇嵌入特征。
步骤A3,对所述实体节点和所述关联文本进行语句特征提取,以获取目标文本词汇嵌入特征。
本实施例中,获取关联文本中与所述实体节点相关联的所有语句。例如a,b,c语句中都包含了实体节点名称A,提取实体节点名称A在各语句之间的关联关系,建立语句关联矩阵。例如a语句与b语句之间存在业务的关联关系,b语句与c语句之间存在公司集团的关联关系。这样就能够构建a语句,b语句和c语句之间完整的语句关联矩阵。
在各个语句之间去掉其中任一语句,例如将a语句,b语句和c语句中的b语句去掉,建立b语句的语句向量特征,该语句向量特征预测了a语句与c语句之间的关联关系,若相关联则预测值为1,若不相关联则预测值为0。进一步地,本实施例将获取到大量的语句向量特征,并将所述语句向量特征进行矩阵化,量化所有语句向量特征,根据各语句向量特征建立语句向量矩阵,该语句向量矩阵中包括了对各语句的预测。将所述语句向量矩阵与语句关联矩阵进行比对,若预测成功,则提高语句向量矩阵中该语句的预测权重值,以加强该语句的预测表征能力,若预测失败,则降低语句向量矩阵中该语句的预测权重值,从而得到稳定的优化语句向量矩阵,所述优化语句向量矩阵即为目标文本词汇嵌入特征。
进一步地,所述在预设的知识节点图谱中确定各实体名称对应的实体节点之后,还包括:
步骤a,若根据所述知识节点图谱确定各实体节点之间存在第一统一实体,则输出所述第一统一实体的第一统一实体名称。
可以理解的是,若根据知识节点图谱可以确定各实体节点之间的第一统一实体,则直接输出统一实体的第一统一实体名称。
步骤S30,对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体;
为方便区分,本发明将能够直接通过知识节点图谱确定的统一实体确定为第一统一实体,将需要经过分析的统一实体确定为第二统一实体。在本实施例中,第一统一实体通过知识节点图谱中各实体节点之间的映射关系获取到,而第二统一实体需要通过各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征共同进行特征提取而获取到。
具体地,获取到各个实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征之后,本实施例将对以上所述特征进行特征提取。所述特征提取指的是将节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征作为深度学习网络模型的3种特征进行输入,流入深度学习网络模型采用3个CNN(即卷积神经网络,ConvolutionalNeural Networks)网络层提取特征,即将由节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征等三种特征组成三维数据矩阵输入到CNN网络层中提取特征,获取到一维数据的输出结果,并将该一维数据的输出结果作为隐藏层神经网络的输入,从而利用深度学习网络模型判断两两实体是否为第二统一实体。
具体地,所述对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体,包括:
步骤B1,基于各实体节点以及各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征,生成各实体节点的特征值;
所述矩阵降维处理,指的是将由节点权重特征,互联网词汇嵌入特征和目标文本词汇嵌入特征组成的三维特征矩阵转化为一维特征矩阵。在本实施例中矩阵降维处理可利用CNN神经网络模型进行降维,将节点权重特征,互联网词汇嵌入特征和目标文本词汇嵌入特征作为CNN神经网络模型的输入,获得模型的输出值,即为各实体节点的特征值。
步骤B2,根据各实体节点的特征值,分别确定两两实体节点之间的特征相似值;
不同的实体节点有各自的特征值,该特征值代表了各实体节点的特征属性,而不同实体节点之间的特征值可能有相似部分,也可能有不同部分等等,因此需要对各实体节点之间的特征值进行比对。例如h节点的特征值为H,j节点的特征值为J。那么特征值H和特征值J之间的数据可能存在相似部分,本实施例将根据特征值H和特征值J计算h节点和j节点之间的特征相似值。需要注意的是,本实施例中特征相似值是两两实体节点之间的相似值,例如存在h节点,i节点和j节点,那么本实施例将计算h节点和i节点之间的特征相似值1,h节点和j节点之间的特征相似值2,以及i节点和j节点之间的特征相似值3。
步骤B3,将所述数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称。
通过比对特征相似值,确定最大的特征相似值,由于特征相似值最大,即代表最大特征相似值对应的两个实体节点为同一个实体节点的两种不同表述,因此将该最大的特征相似值对应的两个实体节点确定为第二统一实体,并且可将该第二统一实体其中任一个实体节点的实体名称确定为第二统一实体名称。
更进一步地,所述将所述数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称,包括:
步骤B31,判断所述数值最大的特征相似值是否大于预设值;
步骤B32,若是,则将所述数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称。
本实施例通过对特征相似值进行数值判断,只有大于预设值的特征相似值才确定为第二统一实体。例如最大的特征相似值仅为49%,那么此时,该最大的特征相似值不足以确定两个实体节点为第二统一实体。因此,预设值作为判断标准,当最大的特征相似值大于预设值,则将最大的特征相似值对应的两个实体节点确定为第二统一实体,在根据第二统一实体确定第二统一实体名称。
进一步地,所述判断所述数值最大的特征相似值是否大于预设值之后,还包括:
若否,则输出为各实体节点之间不存在第二统一实体的提示信息。
若最大的特征相似值不大于预设值,说明当前数值最大的特征相似值达不到判断标准,无法确定最大的特征相似值对应的两个实体节点为第二统一实体。此时,本实施例将直接输出不存在第二统一实体的提示信息。例如,当前预设值为50%,特征相似值为49%,特征相似值小于预设值,此时输出“各实体节点之间不存在第二统一实体”的提示信息,以告知用户。
步骤S40,输出所述第二统一实体的第二统一实体名称。
输出所述第二统一实体对应的第二统一实体名称。假设所获取到的各实体节点的第二统一实体为“C公司”,则将“C公司”输出显示,以告知用户。
本发明获取待检测文本,并获取所述待检测文本的多个实体名称;在预设的知识节点图谱中确定各实体名称对应的实体节点,若根据所述知识节点图谱确定各实体节点之间不存在第一统一实体,则获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征;对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体;输出所述第二统一实体的第二统一实体名称。通过以上方案,本发明有效地解决了传统实体命名匹配率低下,实体无法融合统一的技术问题,提高了实体命名的识别匹配率,实现了实体命名的融合统一,将命名文本和业务信息相互结合,降低了实体命名的互耦率。通过以上方案,本发明有效地解决了传统实体命名匹配率低下,实体无法融合统一的技术问题,提高了实体命名的识别匹配率,实现了实体命名的融合统一,将命名文本和业务信息相互结合,降低了实体命名的互耦率。
进一步地,基于第一实施例,提出本发明实体名称识别方法的第二实施例,在该实施例中,所述实体名称识别方法包括:
步骤b,根据所述第二统一实体更新所述知识节点图谱,并将所述第二统一实体进行统一关联,并保存。
本实施例为实体知识图谱维护步骤,为第二统一实体两两节点之间添加统一关联关系,以便下次能快速的高效的识别。第二统一实体有多种不同表述名称,为方便后续查询和匹配,需要将检测出来的第二统一实体添加到知识节点图谱中,具体为在知识节点图谱中根据第二统一实体名称设置一个第二统一实体,同时将该第二统一实体的不同表述的实体节点与该第二统一实体进行绑定关联,从而形成统一关联关系,并保存在所述知识节点图谱中。
例如,当前的第二统一实体包括X节点、Y节点和Z节点,此时将X节点、Y节点和Z节点添加至知识节点图谱中,并将X节点分别与Y节点和Z节点建立统一关联关系,同时将Y节点与Z节点建立统一关联关系,所述统一关联关系为双向关联关系,在本实施例中,通过其中任一节点,均可获得与该节点的统一关联关系的其它节点,如通过X节点可直接识别到X节点统一关联关系对应的Y节点和Z节点。
此外,本发明实施例还提出一种实体名称识别装置,所述实体名称识别装置包括:
获取模块,用于获取待检测文本,并获取所述待检测文本的多个实体名称;
特征模块,用于在预设的知识节点图谱中确定各实体名称对应的实体节点,若根据所述知识节点图谱确定各实体节点之间不存在第一统一实体,则获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征;
统一模块,用于对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体;
第一输出模块,用于输出所述第二统一实体的第二统一实体名称。
可选地,所述特征模块包括:
特征预测单元,用于对所述实体节点进行特征预测,以获得节点权重特征;
特征检索单元,用于对所述实体节点进行特征检索,以获得各实体节点对应的关联文本,并对所述关联文本进行特征化处理,以获得互联网词汇嵌入特征;
特征提取单元,用于对所述实体节点和所述关联文本进行语句特征提取,以获取目标文本词汇嵌入特征。
可选地,所述统一模块包括:
生成单元,用于基于各实体节点以及各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征,生成各实体节点的特征值;
确定单元,用于根据各实体节点的特征值,分别确定两两实体节点之间的特征相似值;
统一单元,用于将所述数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称。
可选地,所述统一单元包括:
判断子单元,用于判断所述数值最大的特征相似值是否大于预设值;
第一判断子单元,用于若是,则将所述数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称。
可选地,所述统一单元还包括:
第二判断子单元,用于若否,则输出为各实体节点之间不存在第二统一实体的提示信息。可选地,
可选地,所述实体名称识别装置包括:
关联模块,用于根据所述第二统一实体更新所述知识节点图谱,并将所述第二统一实体进行统一关联,并保存。
可选地,所述实体名称识别装置还包括:
第二输出模块,用于若根据所述知识节点图谱确定各实体节点之间存在第一统一实体,则输出所述第一统一实体的第一统一实体名称。
此外,本发明实施例还提出一种设备,设备包括:存储器109、处理器110及存储在存储器109上并可在处理器110上运行的实体名称识别程序,所述实体名称识别程序被处理器110执行时实现上述的实体名称识别方法各实施例的步骤。
此外,本发明还提供了一种计算机存储介质,所述计算机存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述实体名称识别方法各实施例的步骤。
本发明设备及存储介质(即计算机存储介质)的具体实施方式的拓展内容与上述实体名称识别方法各实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种实体名称识别方法,其特征在于,所述实体名称识别方法包括:
获取待检测文本,并获取所述待检测文本的多个实体名称;
在预设的知识节点图谱中确定各实体名称对应的实体节点,若根据所述知识节点图谱确定各实体节点之间不存在第一统一实体,则获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征;
对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体;
输出所述第二统一实体的第二统一实体名称;
其中,所述节点权重特征为最终矩阵中的权重值,所述最终矩阵中的权重值是由所述实体节点的邻近节点对应的初始矩阵中的各节点的节点权重值进行优化得到的;
所述互联网词汇嵌入特征为优化词汇向量矩阵,所述优化词汇向量矩阵是基于所述实体节点对应的关联文本构建的词汇关联矩阵和词汇向量矩阵进行比对得到的;
所述目标文本词汇嵌入特征为优化语句向量矩阵,所述优化语句向量矩阵是基于所述实体节点及其对应的关联文本构建的语句关联矩阵和语句向量矩阵进行比对得到的;
其中,所述获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征,包括:
对所述实体节点进行特征预测,以获得节点权重特征;
对所述实体节点进行特征检索,以获得各实体节点对应的关联文本,并对所述关联文本进行特征化处理,以获得互联网词汇嵌入特征;
对所述实体节点和所述关联文本进行语句特征提取,以获取目标文本词汇嵌入特征。
2.如权利要求1所述的实体名称识别方法,其特征在于,所述对所述实体节点进行特征预测,以获得节点权重特征,包括:
利用onehot为所述实体节点的邻近节点进行初始化,得到各个邻近节点对应的初始矩阵;
通过图谱模型与训练的方式优化初始矩阵,通过两两节点预测关系的结果,优化初始矩阵中各节点的节点权重值,并对整个网络进行预测迭代,获得最终矩阵,所述最终矩阵中的权重值将作为节点权重特征;
所述对所述实体节点进行特征检索,以获得各实体节点对应的关联文本,并对所述关联文本进行特征化处理,以获得互联网词汇嵌入特征,包括:
对所述实体节点进行特征检索,以获得各实体节点对应的关联文本;对所述关联文本进行分词以获得各个文本词汇,分析各个文本词汇之间的关联关系,建立词汇关联矩阵;
在各个文本词汇之间去掉其中任一文本词汇,预测被去掉的文本词汇的前一个文本词汇与后一个文本词汇之间的关联关系,以形成被去掉的文本词汇的文本向量特征,并对文本向量特征进行矩阵化,量化各个文本向量特征;
根据各文本向量特征建立词汇向量矩阵,将所述词汇向量矩阵和所述词汇关联矩阵进行比对,以得到稳定的优化词汇向量矩阵,所述优化词汇向量矩阵为互联网词汇嵌入特征;
所述对所述实体节点和所述关联文本进行语句特征提取,以获取目标文本词汇嵌入特征,包括:
获取所述关联文本中与各个实体节点相关联的语句,提取实体节点在各语句之间的关联关系,建立语句关联矩阵;
在各个语句之间去掉其中任一语句,预测被去掉的语句的前一个语句与后一个语句之间的关联关系,以形成被去掉的语句的语句向量特征,并对语句向量特征进行矩阵化,量化各个语句向量特征;
根据各语句向量特征建立语句向量矩阵,所述语句向量矩阵包括对各语句的预测;将所述语句向量矩阵和所述语句关联矩阵进行比对,以获得优化语句向量矩阵;所述优化语句向量矩阵为目标文本词汇嵌入特征。
3.如权利要求1所述的实体名称识别方法,其特征在于,所述对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体,包括:
基于各实体节点以及各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征,生成各实体节点的特征值;
根据各实体节点的特征值,分别确定两两实体节点之间的特征相似值;
将数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称。
4.如权利要求3所述的实体名称识别方法,其特征在于,所述将数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称,包括:
判断所述数值最大的特征相似值是否大于预设值;
若是,则将所述数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称。
5.如权利要求4所述的实体名称识别方法,其特征在于,所述判断所述数值最大的特征相似值是否大于预设值之后,还包括:
若否,则输出为各实体节点之间不存在第二统一实体的提示信息。
6.如权利要求1所述的实体名称识别方法,其特征在于,所述实体名称识别方法包括:
根据所述第二统一实体更新所述知识节点图谱,并将所述第二统一实体进行统一关联,并保存。
7.如权利要求1所述的实体名称识别方法,其特征在于,所述在预设的知识节点图谱中确定各实体名称对应的实体节点之后,还包括:
若根据所述知识节点图谱确定各实体节点之间存在第一统一实体,则输出所述第一统一实体的第一统一实体名称。
8.一种实体名称识别装置,其特征在于,所述实体名称识别装置包括:
获取模块,用于获取待检测文本,并获取所述待检测文本的多个实体名称;
特征模块,用于在预设的知识节点图谱中确定各实体名称对应的实体节点,若根据所述知识节点图谱确定各实体节点之间不存在第一统一实体,则获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征;
统一模块,用于对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体;
第一输出模块,用于输出所述第二统一实体的第二统一实体名称;
其中,所述节点权重特征为最终矩阵中的权重值,所述最终矩阵中的权重值是由所述实体节点的邻近节点对应的初始矩阵中的各节点的节点权重值进行优化得到的;
所述互联网词汇嵌入特征为优化词汇向量矩阵,所述优化词汇向量矩阵是基于所述实体节点对应的关联文本构建的词汇关联矩阵和词汇向量矩阵进行比对得到的;
所述目标文本词汇嵌入特征为优化语句向量矩阵,所述优化语句向量矩阵是基于所述实体节点及其对应的关联文本构建的语句关联矩阵和语句向量矩阵进行比对得到的;
所述特征模块,还用于对所述实体节点进行特征预测,以获得节点权重特征;
对所述实体节点进行特征检索,以获得各实体节点对应的关联文本,并对所述关联文本进行特征化处理,以获得互联网词汇嵌入特征;
对所述实体节点和所述关联文本进行语句特征提取,以获取目标文本词汇嵌入特征。
9.一种计算机设备,其特征在于,所述计算机设备包括:存储器、处理器及存储在所述存储器上并可在处理器上运行的实体名称识别程序,所述实体名称识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的实体名称识别方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有实体名称识别程序,所述实体名称识别程序被处理器执行时实现如权利要求1至7中任一项所述的实体名称识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010024497.6A CN111241826B (zh) | 2020-01-09 | 2020-01-09 | 实体名称识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010024497.6A CN111241826B (zh) | 2020-01-09 | 2020-01-09 | 实体名称识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241826A CN111241826A (zh) | 2020-06-05 |
CN111241826B true CN111241826B (zh) | 2023-07-25 |
Family
ID=70865480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010024497.6A Active CN111241826B (zh) | 2020-01-09 | 2020-01-09 | 实体名称识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241826B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681647B (zh) * | 2020-06-10 | 2023-09-05 | 北京百度网讯科技有限公司 | 用于识别词槽的方法、装置、设备以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
CN109871542A (zh) * | 2019-03-08 | 2019-06-11 | 广东工业大学 | 一种文本知识提取方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6778979B2 (en) * | 2001-08-13 | 2004-08-17 | Xerox Corporation | System for automatically generating queries |
-
2020
- 2020-01-09 CN CN202010024497.6A patent/CN111241826B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
CN109871542A (zh) * | 2019-03-08 | 2019-06-11 | 广东工业大学 | 一种文本知识提取方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
赵谦 等.一种基于语义与句法结构的短文本相似度计算方法.计算机工程与科学.2018,第40卷(第7期),第1287-1294页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111241826A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310438B (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN109635273B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN110097085B (zh) | 歌词文本生成方法、训练方法、装置、服务器及存储介质 | |
WO2021164200A1 (zh) | 一种基于深度分层编码的智能语义匹配方法和装置 | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
CN113326377B (zh) | 一种基于企业关联关系的人名消歧方法及系统 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN110580281A (zh) | 一种基于语义相似度的相似案件匹配方法 | |
CN110619051A (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN113298197B (zh) | 数据聚类方法、装置、设备及可读存储介质 | |
CN113065358A (zh) | 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法 | |
CN112632252B (zh) | 对话应答方法、装置、计算机设备和存储介质 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN112861524A (zh) | 一种基于深度学习的多层次中文细粒度情感分析方法 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN112084769A (zh) | 依存句法模型优化方法、装置、设备及可读存储介质 | |
CN111241826B (zh) | 实体名称识别方法、装置、设备及存储介质 | |
CN111666379B (zh) | 一种事件元素提取方法和装置 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
CN113268588A (zh) | 文本摘要提取方法、装置、设备、存储介质及程序产品 | |
CN114239565A (zh) | 一种基于深度学习的情绪原因识别方法及系统 | |
CN113569578A (zh) | 一种用户意图识别方法、装置和计算机设备 | |
CN113688636A (zh) | 扩展问的推荐方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |