CN114330319A - 实体处理方法、装置、电子设备及存储介质 - Google Patents
实体处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114330319A CN114330319A CN202111582713.XA CN202111582713A CN114330319A CN 114330319 A CN114330319 A CN 114330319A CN 202111582713 A CN202111582713 A CN 202111582713A CN 114330319 A CN114330319 A CN 114330319A
- Authority
- CN
- China
- Prior art keywords
- entity
- alignment
- link
- candidate
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请提供一种实体处理方法、装置、电子设备及存储介质,该方法包括:对待处理领域短文本进行实体识别;对于从所述待处理领域短文本中识别出的实体,依据所述待处理领域短文本中所述实体的描述文本,对所述实体进行实体处理;其中,所述实体处理包括实体对齐和/或实体链接。该方法可以提高实体处理的准确性。
Description
技术领域
本申请涉及数据处理技术,尤其涉及一种实体处理方法、装置、电子设备及存储介质。
背景技术
实体识别是指识别和抽取文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。基于通过实体识别得到的实体,可以进行实体对齐和链接等实体处理。
目前的实体对齐和链接技术多数都以实体的属性信息作为特征来实现的,但由于短文本场景下较难获取到实体的属性信息,因此,短文本场景下的实体对齐和链接等处理的准确性较难保证。
发明内容
有鉴于此,本申请提供一种实体处理方法、装置、电子设备及存储介质。
具体地,本申请是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种实体处理方法,包括:
对待处理领域短文本进行实体识别;
对于从所述待处理领域短文本中识别出的实体,依据所述待处理领域短文本中所述实体的描述文本,对所述实体进行实体处理;其中,所述实体处理包括实体对齐和/或实体链接。
根据本申请实施例的第二方面,提供一种实体处理装置,包括:
实体识别单元,用于对待处理领域短文本进行实体识别;
处理单元,用于对于从所述待处理领域短文本中识别出的实体,依据所述待处理领域短文本中所述实体的描述文本,对所述实体进行实体处理;其中,所述实体处理包括实体对齐和/或实体链接。
根据本申请实施例的第三方面,提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器用于执行机器可执行指令,以实现第一方面提供的方法。
根据本申请实施例的第四方面,提供一种机器可读存储介质,所述机器可读存储介质内存储有机器可执行指令,所述机器可执行指令被处理器执行时实现第一方面提供的方法。
本申请实施例的实体处理方法,对于从领域短文本中识别出的实体,依据该领域短文本中该实体的描述文本,对该实体进行实体对齐和/或实体链接等实体处理,提高了实体处理的准确性。
附图说明
图1是本申请一示例性实施例示出的一种实体处理方法的流程示意图;
图2是本申请一示例性实施例示出的一种实体对齐/链接的整体流程示意图;
图3是本申请一示例性实施例示出的一种字典树的示意图;
图4是本申请一示例性实施例示出的一种模型训练数据的构造的示意图;
图5是本申请一示例性实施例示出的一种实体对齐流程示意图;
图6是本申请一示例性实施例示出的一种实体链接流程示意图;
图7是本申请一示例性实施例示出的一种实体处理装置的结构示意图;
图8是本申请一示例性实施例示出的一种电子设备的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面先对本申请实施例涉及的部分技术术语进行简单说明。
1、知识图谱:一种以网络结构形式可视化展现客观世界中的实体(概念、人、事物)及其之间关系的知识库。
2、知识图谱构建:一种从非结构化文本中抽取实体和关系,并对实体进行对齐和链接的全流程技术。
3、领域短文本:对某个特定领域内的相关事物进行描述,且字数不超过预设字数(通常为20个)的文本。
4、字典树:一种有序树,树中除根节点外其余每个节点都对应一个文字,从根节点的子节点开始的每条路径上的节点就对应一个字符串,从根节点的子节点开始的每条路径上的节点对应一个字符串,一个节点的全部叶子节点路径具有相同的字符串前缀。
5、实体识别:识别和抽取文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。
6、实体提及:实体识别得到的实体标识,用于唯一标识一个实体。
7、实体对齐:判断两个或多个不同信息来源的实体是否指向真实世界中的同一个对象,若这些实体表征同一个对象,则在这些实体之间构建对齐关系,对这些实体包含的属性信息进行融合和聚集。
8、实体链接:从已有知识库/知识图谱中找到与某个外部实体表征同一个事物的实体,并将外部实体与从知识库/知识图谱中找到的实体所包含的属性信息进行融合和聚集。
9、BERT(Bidirectional Encoder Representations from Transformers):一种用于自然语言处理(Natuarl Language Processing,NLP)领域内的预训练语言表征模型。
为了使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
请参见图1,为本申请实施例提供的一种实体处理方法的流程示意图,如图1所示,该实体处理方法可以包括以下步骤:
步骤S100、对待处理领域短文本进行实体识别。
步骤S110、对于从待处理领域短文本中识别出的实体,依据待处理领域短文本中该实体的描述文本,对该实体进行实体处理;其中,该实体处理包括实体对齐和/或实体链接。
本申请实施例中,考虑到领域短文本的字数通常比较少,从领域短文本中较难抽取到实体的属性特征,因此,针对领域短文本的实体处理方案中,若依据实体的属性特征进行实体对齐或实体链接等实体处理,由于很难获取到足够的实体的属性特征,无法保证处理的准确性。
为了提高实体处理的准确性,在本申请实施例中,对于从待处理领域短文本中识别出的实体,可以依据待处理领域文本中该实体的描述文本,对该实体进行实体处理,通过使用实体的描述文本作为实体处理的输入特征,不仅丰富了输入特征,还可以使用到实体的上下文语义信息,有效提升实体处理的准确性。
示例性的,对于任一领域短文本中识别出的实体,该实体的描述文本可以为该领域短文本中该实体所在的语句。
示例性的,由于领域短文本的字数一般比较少,因此,从领域短文本中识别出的实体一般为实体的实体提及,如实体的名称。
可见,在图1所示方法流程中,对于从领域短文本中识别出的实体,依据该领域短文本中该实体的描述文本,对该实体进行实体对齐和/或实体链接等实体处理,提高了实体处理的准确性。
在一些实施例中,对待处理领域短文本进行实体识别,包括:
对于任一待处理领域短文本,遍历该待处理领域短文本;
对于该待处理领域短文本的任一文字,依据该文字查询字典树的根节点的子节点集合;其中,字典树为依据领域知识库构建的有序树,字典树中除根节点之外的每个节点对应一个文字,从根节点的子节点开始的每条路径上的节点对应一个字符串,一个节点的全部叶子节点路径具有相同的字符串前缀;
若该文字与该子节点集合中的目标子节点匹配,则将该文字以及后续的文字与字典树中从目标子节点开始的各路径进行匹配;
若该文字以及后续的文字与字典树中从目标子节点开始的目标路径匹配成功,则将与目标路径匹配的字符串确定为该待处理领域短文本中的一个实体。
示例性的,考虑到在实际应用场景中,各领域一般会有其专有的领域知识库,其中包含了该领域内所有实体的标准名称以及别名,因此,对于针对领域短文本场景的实体识别,可以依据领域知识库构建出包括该领域中各实体的字典树,并依据字典树对领域短文本进行实体识别。
示例性的,对于任一待处理领域短文本,可以遍历该待处理短文本中的每一个文字。
对于该待处理领域短文本中的任一文字,可以依据该文字查询字典树的根节点的子节点集合,以确定该文字是否与根节点的任一子节点匹配成功,即该文字与根节点的该子节点相同。
对于该待处理领域短文本中的任一文字,若该文字与字典树的根节点的子节点集合中的任一子节点(本文中称为目标子节点)匹配成功,则可以将领域短文本中该文字以及该文字后续的文字与字典树中从目标子节点开始的各路径进行匹配。
举例来说,假设领域短文本中的“一”与字典树的根节点的子节点“一”匹配成功,且字典树中从“一”开始的各路径包括“一二三四”和“一三五七”,则可以依据领域短文本中的“一”及后续文字,与字典树中从“一”开始的各路径进行匹配。
示例性的,若该文字以及后续的文字与字典树中从目标子节点开始的目标路径匹配成功,则可以将与目标路径匹配的字符串确定为该待处理领域短文本中的一个实体。
仍以上一示例为例,假设领域短文本中,“一”的后续文字依次为“二”、“三”、“四”,则可以确定字典树中从“一”开始的路径“一二三四”为目标路径,此时,可以将领域短文本中的“一二三四”确定为领域短文本中的一个实体。
可见,通过依据领域知识库构建字典树,并依据字典树对领域短文本进行实体识别,可以准确高效地识别出领域短文本中的实体,并避免了实体边界识别错误的问题,有效地避免了当前实体识别技术出现的分词错误以及实体边界识别错误等问题。
在一些实施例中,上述实体处理包括实体对齐;
步骤S110中,依据待处理领域短文本中实体的描述文本,对该实体进行实体处理,可以包括:
对于任一实体,从识别出的其它实体中确定该实体的候选对齐实体;
对于包括该实体以及任一候选对齐实体的待对齐实体对,依据该待对齐实体对中各实体的描述文本,利用训练好的实体对齐模型,对该待对齐实体对进行实体对齐。
示例性的,以对识别出的实体进行实体对齐为例。
对于从领域短文本中识别出的任一实体,可以从识别出的其它实体中确定该实体的候选对齐实体,并依据该实体与各候选对齐实体,分别组成对应的待对齐实体对。
示例性的,一个待对齐实体对包括该实体以及一个候选对齐实体。
示例性的,对于任一待对齐实体对,可以依据该待对齐实体对中各实体的描述文本,利用训练好的实体对齐模型,对该待对齐实体对进行实体对齐。
在一个示例中,上述依据该待对齐实体对中各实体的描述文本,利用训练好的实体对齐模型,对该待对齐实体对进行实体对齐,可以包括:
依据该待对齐实体对中该实体的描述文本,以及该候选对齐实体的描述文本,利用训练好的实体对齐模型,确定该实体与该候选对齐实体的对齐概率;
在该实体与该候选对齐实体的对齐概率超过预设对齐概率阈值的情况下,对该实体与该候选对齐实体进行融合处理。
示例性的,对于任一实体的任一待对齐实体对,可以依据该待对齐实体对中该实体的描述文本,以及,该待对齐实体对中包括的该实体的候选对齐实体的描述文本,利用训练好的实体对齐模型,确定该实体与该候选对齐实体的对齐概率。
例如,可以对待对齐实体对中该实体的描述文本以及该候选对齐实体的描述文本进行拼接,并将拼接的描述文本作为输入特征,利用训练好的实体对齐模型,得到该实体与该候选对齐实体的对齐概率。
在得到了该实体与该候选对齐实体的对齐概率的情况下,可以确定该实体与该候选对齐实体的对齐概率是否超过预设对齐概率阈值。
若该实体与该候选对齐实体的对齐概率超过预设对齐概率阈值,则确定该实体与该候选对齐实体对齐,在该情况下,可以对该实体与该候选对齐实体进行融合处理。
需要说明的是,若该实体与该候选对齐实体的对齐概率未超过预设对齐概率阈值,则可以确定该实体与该候选对齐实体未对齐。
可见,通过利用实体的描述文本作为输入特征进行实体对齐,丰富了模型的输入特征,且使用了实体的上下文语义信息,进一步提升了实体对齐的准确性。
在一个示例中,实体处理还可以包括实体链接;
上述依据待处理领域短文本中实体的描述文本,对该实体进行实体对齐之后,还可以包括:
对于实体对齐之后的任一实体,从领域知识库或领域知识图谱中确定该实体的候选链接实体;
以该实体的描述文本,以及各候选链接实体的描述文本,利用训练好的实体链接模型,对该实体进行实体链接。
示例性的,在对识别出的实体进行实体对齐之后,还可以对实体对齐之后的实体进行实体链接处理。
示例性的,实体对齐之后的实体可以包括成功对齐并进行了融合的实体和/或未成功对齐的实体。
示例性的,对于实体对齐之后的任一实体,可以从领域知识库或领域知识图谱中确定该实体的候选链接实体,并以该实体的描述文本,以及各候选链接实体的描述文本,利用训练好的实体链接模型,对该实体进行实体链接。
需要说明的是,对于成功对齐的实体,在对其进行融合时,还可以对各实体的描述文本进行合并,将合并后的描述文本作为融合后的实体的描述文本。
在一个示例中,上述以该实体的描述文本,以及各候选链接实体的描述文本,利用训练好的实体链接模型,对该实体进行实体链接,可以包括:
对于任一候选链接实体,依据该实体的描述文本,以及该候选链接实体的描述文本,利用训练好的实体链接模型,确定该候选链接实体的链接概率;
在存在链接概率高于预设链接概率阈值的候选链接实体的情况下,该链接概率最高的候选链接实体,确定为该实体的目标链接实体;
对该实体与该实体的目标链接实体进行实体链接。
示例性的,对于实体对齐后的任一实体,在确定了该实体的候选链接实体的情况下,对于任一候选链接实体,可以依据该实体的描述文本,以及该候选链接实体的描述文本,利用训练好的实体链接模型,确定该候选链接实体的链接概率。
例如,可以对该实体的描述文本以及该候选链接实体的描述文本进行拼接,并将拼接后的描述文本作为输入特征,利用训练好的实体链接模型,确定该文本与该候选链接实体的链接概率。
示例性的,在确定了该实体与各候选链接实体的链接概率的情况下,可以确定各链接概率中是否存在高于预设链接概率阈值的链接概率,并在存在链接概率高于预设概率阈值的候选链接实体的情况下,将链接概率最高的候选链接实体,确定为该实体的实际链接实体(本文中称为目标链接实体),并对该实体与该实体的目标链接实体进行实体链接。
在一些实施例中,对于目标实体,该目标实体的候选对齐实体或候选链接实体包括满足以下条件之一的实体:
实体提及与目标实体的实体提及相同;
实体提及与目标实体的实体提及不同,但属于同义词;
实体提及与目标实体的实体提及不同、且不属于同义词,但编辑距离小于预设距离阈值。
示例性的,为了提高实体对齐以及实体链接的处理效率和准确性,对于任一实体(本文中称为目标实体),在对该实体进行实体对齐或实体链接时,可以将满足以下条件之一的实体确定为该实体的候选对齐实体或候选链接实体:
实体提及与目标实体的实体提及相同;
实体提及与目标实体的实体提及不同,但属于同义词;
实体提及与目标实体的实体提及不同、且不属于同义词,但编辑距离小于预设距离阈值。
示例性的,对于任一实体,在对该实体进行实体对齐处理时,候选实体可以包括从领域短文本中识别出的其它实体;在对该实体进行实体链接处理时,候选实体可以包括领域知识库和领域知识图谱中的实体。
需要说明的是,在本申请实施例中,对于从领域短文本中识别出的实体,在对该实体进行实体链接之前,可以不需要先进行实体对齐处理,其实体链接的具体实现与上述对实体对齐之后的实体进行实体链接的处理类似,本申请实施例在此不做赘述。
在一些实施例中,上述实体对齐模型和实例链接模型为实体对齐/链接模型;
该实体对齐/链接模型的训练数据包括:
实体识别得到的实体构成的实体对、实体识别得到的实体与领域知识库中实体构成的实体对、实体识别得到的实体与领域知识图谱中实体构成的实体对。
示例性的,为了提高实体对齐的准确性以及提高实体链接的效率,可以通过训练同一模型(本文中称为实体对齐/链接模型)来实现实体对齐和实体链接任务。
示例性的,在对实体对齐/链接模型进行训练时,训练数据可以包括对训练样本进行实体识别得到的实体构成是的实体对、实体识别得到的实体与领域知识库中实体构成的实体对,以及,实体识别得到的实体与领域知识图谱中实体构成的实体对,在模型训练时同时使用抽取得到的数据以及已有知识库/知识图谱的数据,从而实现训练得到的一个模型能够同时覆盖实体对齐和链接两个场景。
在一个示例中,上述实体对齐/链接模型包括BERT模型+深度神经网络模型构建的二分类器的结构。
示例性的,考虑到目前的实体对齐和链接技术大多都是相似度计算任务,即模型只是得到每个实体的embedding(表征)向量表示,最终需要通过某种相似度计算规则计算两两实体之间的相似度,进而完成实体对齐和链接任务,其实现较为复杂,且无法实现端到端的实体对齐和链接任务。
为了降低任务的复杂性,实现端到端的实体对齐和链接任务,在构建实体对齐/链接模型时,可以采用BERT模型+深度神经网络模型构建的二分类器的结构,将实体对齐和链接任务转换成二分类任务,无需再接后续的相似度计算流程。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面结合具体实例对本申请实施例提供的技术方案进行说明。
在该实施例中,领域短文本的实体对齐和链接方案可以包括三个部分:领域短文本实体识别、实体对齐以及实体链接,其示意图可以如图2所示。
下面分别对各部分进行说明。
一、领域短文本实体识别
示例性的,当前的实体识别多采用自然语言处理技术,其将实体识别任务转换成序列标注任务进而抽取目标实体。但这种序列标注的实体识别技术由于分词错误以及实体边界识别不准确的问题通常会造成实体识别的不准确,而这种误差会在后续的实体对齐和链接过程中一直存在,且对后续任务的影响较大,尤其在短文本场景下,由于只能识别出实体提及,较难识别出实体属性,大多数模型只能将实体提及作为特征输入模型进行训练,因此上游实体识别的准确性会极大地影响下游实体对齐和链接任务的最终模型效果。
为了解决实体识别过程中出现的分词错误以及实体边界识别不准确问题,本申请实施例提供的实体处理方案采用字典树的方式来进行实体识别。
当对领域短文本进行实体识别时,可以遍历整个领域短文本,依次将文本中的每个字与字典树的根节点的子节点进行匹配,若匹配成功,则判断该文字与后续文字是否与字典树中从该子节点开始的某路径匹配。
举例来说,以图3所示字典树为例,如图3所示,字典树的根节点的子节点集合中包括子节点“一”和“二”,从“一”开始的路径分别包括“一三科技”、“一四汽车科技”,从“二”开始的路径包括“二五汽车”。
基于图3所示的字典树,在遍历领域短文本的过程中,依次遍历领域短文本中的各个文字,当遍历到“一”或“二”时(以“一”为例),可以将领域短文本中该“一”之后的其它文字与字典树中从“一”开始的路径进行匹配,若领域短文本中该“一”之后的文字依次为“三科技”或“四汽车科技”,则该领域短文本中的实体为“一三科技”或“一四汽车科技”。
在该实施例中,基于字典树的实体识别技术可以又快又准地识别出领域短文本中的实体,并且不会出现实体边界识别错误的问题,有效地避免了当前实体识别技术出现的分词错误以及实体边界识别错误等问题。
示例性的,在实际应用场景中,构建知识图谱的任务通常是针对于特定领域展开的,而特定领域一般会有其专有的领域知识库,其中包含了该领域内所有实体的标准名称以及别名,而本申请实施例提供的实体处理方案是针对领域短文本场景下的实体对齐和链接任务所提出的,因此可以基于特定领域的知识库快速构建出如上所示的字典树。在实体识别时,遍历文本中的每个字,从字典树的root(根)节点出发,找到当前遍历的字在字典树中的子节点,然后以该子节点为起始节点,依次往下匹配文本中后续出现的字,若可以匹配,一条从该子节点到目标节点的路径就代表了一个命名实体。
示例性的,字典树通过字符串的公共前缀来降低查询时间的开销以达到提高查询效率的目的,可以最大限度地减少无谓的字符串比较,查询效率高于哈希表,且知识库中实体名称的长度是有限的,因而树的深度是可控制的。因此基于字典树的实体识别技术可以很好地覆盖领域实体识别的场景。
二、领域短文本实体对齐
在该实施例中,在依据字典树识别出领域短文本中的实体后,需要进行实体对齐的情况至少包括但不限于以下三种情况:
2.1、相同的实体提及;
2.2、不同的实体提及,但两者属于同义词;
2.3、不同的实体提及,且两者不属于同义词,但两者的编辑距离小于预设距离阈值。
针对上述三种情况,若判断为相同实体,则可以融合对齐的实体属性,然后,作为后续实体链接任务的输入。
示例性的,由于从领域短文本中较难抽取到实体的属性特征,因此,本申请实施例提供的实体处理方案可以将领域短文本中实体所在的文本描述作为特征输入至实体对齐/链接模型中进行训练,该方法在丰富了模型输入特征的基础上,还使用了实体的上下文语义信息,进一步提升了模型的准确性。
在该实施例中,采用BERT加深度神经网络模型构建的二分类器作为实体对齐/链接模型的主体框架。将实体识别出的同一实体提及/同义词实体提及/编辑距离在预设距离阈值内的实体提及所在的描述文本进行拼接,作为模型输入,且在模型训练数据中也加入了领域知识库/知识图谱中的实体数据,因此训练得到的模型可以同时用于实体对齐和链接任务。
示例性的,模型训练数据的构造可以参见图4,如图4所示,模型的训练数据来源可以包括三部分:实体识别得到的实体提及对、实体识别得到的实体提及与领域知识库中实体构成的实体对、实体识别得到的实体提及与领域知识图谱中实体构成的实体对。
示例性的,模型输入为实体对中两实体的描述文本拼接而成的句子。
示例性的,对于领域知识图谱中的实体,其描述文本可以为实体的属性信息拼接得到的文本。
需要说明的是,由于BERT是一类预训练的语言表征模型,为了使得BERT能够在本本申请实施例提供的技术方案所在场景下取得较好的效果,在模型训练过程中同时也重新训练了BERT模型中的所有参数。
示例性的,模型训练完成后,在实体对齐场景下的使用流程可以参见图5。
如图5所示,实体对齐流程可以包括:
对于从领域短文本中识别出的任一实体(可以称为待对齐实体),依据完全匹配(即相同实体,也可以称为精准匹配)、同义词匹配以及编辑距离阈值匹配,从识别出的其它实体中筛选出候选对齐实体集。
对于待对齐实体,分别将该待对齐实体与各候选对齐实体构成待对齐实体对,并将待对齐实体对中各实体的描述文本拼接输入实体对齐/链接模型,得到对齐实体。
将对齐实体进行融合处理(描述文本合并),完成实体对齐。
三、领域短文本链接
在该实施例中,由于模型训练过程中除了使用识别出的实体数据之外,还使用了领域知识库和领域知识图谱的数据,因此训练得到的模型可以同时覆盖实体对齐和链接场景。
示例性的,实体链接流程可以参见图6。如图6所示,实体链接流程可以包括:
对于对齐后的任一实体(可以称为待链接实体),依据完全匹配、同义词匹配以及编辑距离阈值匹配,从领域知识库/领域知识图谱中查询候选链接实体,构成候选链接实体集。
示例性的,对于对齐后的实体,其描述文本为对齐的实体的描述文本融合之后的描述文本;领域知识库/领域知识图谱中的实体,其描述文本为将属性信息拼接成的描述文本。
对于对齐后的任一待链接实体,将该待链接实体与候选链接实体的描述文本拼接后输入实体对齐/链接模型,得到各候选拼接实体的链接概率。
当存在链接概率高于预设概率阈值的候选链接实体时,确定可以链接,此时,可以将链接概率最高的候选链接实体确定为目标链接实体,并对该待链接实体与目标链接实体进行实体链接处理。
示例性的,对于待链接实体与目标链接实体进行实体链接可以包括:对待链接实体与目标链接实体进行合并,并输出领域知识库/领域知识图谱中目标链接实体的属性和关系,完成搜索。
当不存在链接概率高于预设概率阈值的候选链接实体时,确定不可以链接,此时,将该实体作为新实体插入已有领域知识库/领域知识图谱。
以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述:
请参见图7,为本申请实施例提供的一种实体处理装置的结构示意图,如图7所示,该实体处理装置可以包括:
实体识别单元710,用于对待处理领域短文本进行实体识别;
处理单元720,用于对于从所述待处理领域短文本中识别出的实体,依据所述待处理领域短文本中所述实体的描述文本,对所述实体进行实体处理;其中,所述实体处理包括实体对齐和/或实体链接。
在一些实施例中,所述实体识别单元710对待处理领域短文本进行实体识别,包括:
对于任一待处理领域短文本,遍历该待处理领域短文本;
对于该待处理领域短文本的任一文字,依据该文字查询字典树的根节点的子节点集合;其中,所述字典树为依据领域知识库构建的有序树,所述字典树中除根节点之外的每个节点对应一个文字,从根节点的子节点开始的每条路径上的节点对应一个字符串,一个节点的全部叶子节点路径具有相同的字符串前缀;
若该文字与该子节点集合中的目标子节点匹配成功,则将该文字以及后续的文字与所述字典树中从所述目标子节点开始的各路径进行匹配;
若该文字以及后续的文字与所述字典树中从所述目标子节点开始的目标路径匹配成功,则将与所述目标路径匹配的字符串确定为该待处理领域短文本中的一个实体。
在一些实施例中,所述实体处理包括实体对齐;
所述处理单元720依据所述待处理领域短文本中所述实体的描述文本,对所述实体进行实体处理,包括:
对于任一实体,从识别出的其它实体中确定该实体的候选对齐实体;
对于包括该实体以及任一候选对齐实体的待对齐实体对,依据该待对齐实体对中各实体的描述文本,利用训练好的实体对齐模型,对该待对齐实体对进行实体对齐。
在一些实施例中,所述处理单元720依据该待对齐实体对中各实体的描述文本,利用训练好的实体对齐模型,对该待对齐实体对进行实体对齐,包括:
依据该待对齐实体对中该实体的描述文本,以及该候选对齐实体的描述文本,利用训练好的实体对齐模型,确定该实体与该候选对齐实体的对齐概率;
在该实体与该候选对齐实体的对齐概率超过预设对齐概率阈值的情况下,对该实体与该候选对齐实体进行融合处理。
在一些实施例中,所述实体处理还包括实体链接;
所述处理单元720依据所述待处理领域短文本中所述实体的描述文本,对所述实体进行实体对齐之后,还包括:
对于实体对齐之后的任一实体,从领域知识库或领域知识图谱中确定该实体的候选链接实体;
以该实体的描述文本,以及各候选链接实体的描述文本,利用训练好的实体链接模型,对该实体进行实体链接。
在一些实施例中,所述处理单元720以该实体的描述文本,以及各候选链接实体的描述文本,利用训练好的实体链接模型,对该实体进行实体链接,包括:
对于任一候选链接实体,依据该实体的描述文本,以及该候选链接实体的描述文本,利用所述训练好的实体链接模型,确定该候选链接实体的链接概率;
在存在链接概率高于预设链接概率阈值的候选链接实体的情况下,该链接概率最高的候选链接实体,确定为该实体的目标链接实体;
对该实体与该实体的目标链接实体进行实体链接。
在一些实施例中,对于目标实体,该目标实体的候选对齐实体或候选链接实体包括满足以下条件之一的实体:
实体提及与所述目标实体的实体提及相同;
实体提及与所述目标实体的实体提及不同,但属于同义词;
实体提及与所述目标实体的实体提及不同、且不属于同义词,但编辑距离小于预设距离阈值。
在一些实施例中,所述实体对齐模型和所述实体链接模型为实体对齐/链接模型;
所述实体对齐/链接模型的训练数据包括:
实体识别得到的实体构成的实体对、实体识别得到的实体与领域知识库中实体构成的实体对、实体识别得到的实体与领域知识图谱中实体构成的实体对。
在一些实施例中,所述实体对齐/链接模型包括预训练语言表征模型BERT+深度神经网络模型构建的二分类器的结构。
请参见图8,为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可包括处理器801、存储有机器可执行指令的存储器802。处理器801与存储器802可经由系统总线803通信。并且,通过读取并执行存储器802中与实体对齐控制逻辑对应的机器可执行指令,处理器801可执行上文描述的实体对齐方法。
本文中提到的存储器802可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(RadomAccess Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
在一些实施例中,还提供了一种机器可读存储介质,如图8中的存储器802,该机器可读存储介质内存储有机器可执行指令,所述机器可执行指令被处理器执行时实现上文描述的实体对齐方法。例如,所述机器可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (13)
1.一种实体处理方法,其特征在于,包括:
对待处理领域短文本进行实体识别;
对于从所述待处理领域短文本中识别出的实体,依据所述待处理领域短文本中所述实体的描述文本,对所述实体进行实体处理;其中,所述实体处理包括实体对齐和/或实体链接。
2.根据权利要求1所述的方法,其特征在于,所述对待处理领域短文本进行实体识别,包括:
对于任一待处理领域短文本,遍历该待处理领域短文本;
对于该待处理领域短文本的任一文字,依据该文字查询字典树的根节点的子节点集合;其中,所述字典树为依据领域知识库构建的有序树,所述字典树中除根节点之外的每个节点对应一个文字,从根节点的子节点开始的每条路径上的节点对应一个字符串,一个节点的全部叶子节点路径具有相同的字符串前缀;
若该文字与该子节点集合中的目标子节点匹配成功,则将该文字以及后续的文字与所述字典树中从所述目标子节点开始的各路径进行匹配;
若该文字以及后续的文字与所述字典树中从所述目标子节点开始的目标路径匹配成功,则将与所述目标路径匹配的字符串确定为该待处理领域短文本中的一个实体。
3.根据权利要求1所述的方法,其特征在于,所述实体处理包括实体对齐;
所述依据所述待处理领域短文本中所述实体的描述文本,对所述实体进行实体处理,包括:
对于任一实体,从识别出的其它实体中确定该实体的候选对齐实体;
对于包括该实体以及任一候选对齐实体的待对齐实体对,依据该待对齐实体对中各实体的描述文本,利用训练好的实体对齐模型,对该待对齐实体对进行实体对齐。
4.根据权利要求3所述的方法,其特征在于,所述依据该待对齐实体对中各实体的描述文本,利用训练好的实体对齐模型,对该待对齐实体对进行实体对齐,包括:
依据该待对齐实体对中该实体的描述文本,以及该候选对齐实体的描述文本,利用训练好的实体对齐模型,确定该实体与该候选对齐实体的对齐概率;
在该实体与该候选对齐实体的对齐概率超过预设对齐概率阈值的情况下,对该实体与该候选对齐实体进行融合处理。
5.根据权利要求3所述的方法,其特征在于,所述实体处理还包括实体链接;
依据所述待处理领域短文本中所述实体的描述文本,对所述实体进行实体对齐之后,还包括:
对于实体对齐之后的任一实体,从领域知识库或领域知识图谱中确定该实体的候选链接实体;
以该实体的描述文本,以及各候选链接实体的描述文本,利用训练好的实体链接模型,对该实体进行实体链接。
6.根据权利要求5所述的方法,其特征在于,所述以该实体的描述文本,以及各候选链接实体的描述文本,利用训练好的实体链接模型,对该实体进行实体链接,包括:
对于任一候选链接实体,依据该实体的描述文本,以及该候选链接实体的描述文本,利用所述训练好的实体链接模型,确定该候选链接实体的链接概率;
在存在链接概率高于预设链接概率阈值的候选链接实体的情况下,该链接概率最高的候选链接实体,确定为该实体的目标链接实体;
对该实体与该实体的目标链接实体进行实体链接。
7.根据权利要求5所述的方法,其特征在于,对于目标实体,该目标实体的候选对齐实体或候选链接实体包括满足以下条件之一的实体:
实体提及与所述目标实体的实体提及相同;
实体提及与所述目标实体的实体提及不同,但属于同义词;
实体提及与所述目标实体的实体提及不同、且不属于同义词,但编辑距离小于预设距离阈值。
8.根据权利要求5所述的方法,其特征在于,所述实体对齐模型和所述实体链接模型为实体对齐/链接模型;
所述实体对齐/链接模型的训练数据包括:
实体识别得到的实体构成的实体对、实体识别得到的实体与领域知识库中实体构成的实体对、实体识别得到的实体与领域知识图谱中实体构成的实体对。
9.根据权利要求8所述的方法,其特征在于,所述实体对齐/链接模型包括预训练语言表征模型BERT+深度神经网络模型构建的二分类器的结构。
10.一种实体处理装置,其特征在于,包括:
实体识别单元,用于对待处理领域短文本进行实体识别;
处理单元,用于对于从所述待处理领域短文本中识别出的实体,依据所述待处理领域短文本中所述实体的描述文本,对所述实体进行实体处理;其中,所述实体处理包括实体对齐和/或实体链接。
11.根据权利要求10所述的装置,其特征在于,所述实体识别单元对待处理领域短文本进行实体识别,包括:
对于任一待处理领域短文本,遍历该待处理领域短文本;
对于该待处理领域短文本的任一文字,依据该文字查询字典树的根节点的子节点集合;其中,所述字典树为依据领域知识库构建的有序树,所述字典树中除根节点之外的每个节点对应一个文字,从根节点的子节点开始的每条路径上的节点对应一个字符串,一个节点的全部叶子节点路径具有相同的字符串前缀;
若该文字与该子节点集合中的目标子节点匹配成功,则将该文字以及后续的文字与所述字典树中从所述目标子节点开始的各路径进行匹配;
若该文字以及后续的文字与所述字典树中从所述目标子节点开始的目标路径匹配成功,则将与所述目标路径匹配的字符串确定为该待处理领域短文本中的一个实体;
和/或,
所述实体处理包括实体对齐;
所述处理单元依据所述待处理领域短文本中所述实体的描述文本,对所述实体进行实体处理,包括:
对于任一实体,从识别出的其它实体中确定该实体的候选对齐实体;
对于包括该实体以及任一候选对齐实体的待对齐实体对,依据该待对齐实体对中各实体的描述文本,利用训练好的实体对齐模型,对该待对齐实体对进行实体对齐;
其中,所述处理单元依据该待对齐实体对中各实体的描述文本,利用训练好的实体对齐模型,对该待对齐实体对进行实体对齐,包括:
依据该待对齐实体对中该实体的描述文本,以及该候选对齐实体的描述文本,利用训练好的实体对齐模型,确定该实体与该候选对齐实体的对齐概率;
在该实体与该候选对齐实体的对齐概率超过预设对齐概率阈值的情况下,对该实体与该候选对齐实体进行融合处理;
其中,所述实体处理还包括实体链接;
所述处理单元依据所述待处理领域短文本中所述实体的描述文本,对所述实体进行实体对齐之后,还包括:
对于实体对齐之后的任一实体,从领域知识库或领域知识图谱中确定该实体的候选链接实体;
以该实体的描述文本,以及各候选链接实体的描述文本,利用训练好的实体链接模型,对该实体进行实体链接;
其中,所述处理单元以该实体的描述文本,以及各候选链接实体的描述文本,利用训练好的实体链接模型,对该实体进行实体链接,包括:
对于任一候选链接实体,依据该实体的描述文本,以及该候选链接实体的描述文本,利用所述训练好的实体链接模型,确定该候选链接实体的链接概率;
在存在链接概率高于预设链接概率阈值的候选链接实体的情况下,该链接概率最高的候选链接实体,确定为该实体的目标链接实体;
对该实体与该实体的目标链接实体进行实体链接;
其中,对于目标实体,该目标实体的候选对齐实体或候选链接实体包括满足以下条件之一的实体:
实体提及与所述目标实体的实体提及相同;
实体提及与所述目标实体的实体提及不同,但属于同义词;
实体提及与所述目标实体的实体提及不同、且不属于同义词,但编辑距离小于预设距离阈值;
其中,所述实体对齐模型和所述实体链接模型为实体对齐/链接模型;
所述实体对齐/链接模型的训练数据包括:
实体识别得到的实体构成的实体对、实体识别得到的实体与领域知识库中实体构成的实体对、实体识别得到的实体与领域知识图谱中实体构成的实体对;
其中,所述实体对齐/链接模型包括预训练语言表征模型BERT+深度神经网络模型构建的二分类器的结构。
12.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器用于执行机器可执行指令,以实现如权利要求1-9任一项所述的方法。
13.一种机器可读存储介质,其特征在于,所述机器可读存储介质内存储有机器可执行指令,所述机器可执行指令被处理器执行时实现如权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111582713.XA CN114330319A (zh) | 2021-12-22 | 2021-12-22 | 实体处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111582713.XA CN114330319A (zh) | 2021-12-22 | 2021-12-22 | 实体处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114330319A true CN114330319A (zh) | 2022-04-12 |
Family
ID=81054627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111582713.XA Pending CN114330319A (zh) | 2021-12-22 | 2021-12-22 | 实体处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114330319A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115796280A (zh) * | 2023-01-31 | 2023-03-14 | 南京万得资讯科技有限公司 | 一种适用于金融领域高效可控的实体识别实体链接系统 |
-
2021
- 2021-12-22 CN CN202111582713.XA patent/CN114330319A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115796280A (zh) * | 2023-01-31 | 2023-03-14 | 南京万得资讯科技有限公司 | 一种适用于金融领域高效可控的实体识别实体链接系统 |
CN115796280B (zh) * | 2023-01-31 | 2023-06-09 | 南京万得资讯科技有限公司 | 一种适用于金融领域高效可控的实体识别实体链接系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110968700B (zh) | 融合多类事理与实体知识的领域事件图谱构建方法和装置 | |
CN108763510B (zh) | 意图识别方法、装置、设备及存储介质 | |
CN106328147B (zh) | 语音识别方法和装置 | |
CN112711948B (zh) | 一种中文句子的命名实体识别方法及装置 | |
CN112989005B (zh) | 一种基于分阶段查询的知识图谱常识问答方法及系统 | |
CN106909655B (zh) | 基于产生式别名挖掘的知识图谱实体发现和链接方法 | |
CN110414004B (zh) | 一种核心信息提取的方法和系统 | |
CN116151132B (zh) | 一种编程学习场景的智能代码补全方法、系统及储存介质 | |
CN112307364B (zh) | 一种面向人物表征的新闻文本发生地抽取方法 | |
US11947910B2 (en) | Device and method for determining at least one part of a knowledge graph | |
CN112149386A (zh) | 一种事件抽取方法、存储介质及服务器 | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN111858894A (zh) | 语义缺失的识别方法及装置、电子设备、存储介质 | |
CN114764566B (zh) | 用于航空领域的知识元抽取方法 | |
CN116127013A (zh) | 一种个人敏感信息知识图谱查询方法和装置 | |
CN113779190B (zh) | 事件因果关系识别方法、装置、电子设备与存储介质 | |
CN114330319A (zh) | 实体处理方法、装置、电子设备及存储介质 | |
CN113128224B (zh) | 一种中文纠错方法、装置、设备以及可读存储介质 | |
CN111104520B (zh) | 一种基于人物身份的人物实体链接方法 | |
CN117272142A (zh) | 一种日志异常检测方法、系统及电子设备 | |
CN114003708B (zh) | 基于人工智能的自动问答方法、装置、存储介质及服务器 | |
CN113807102B (zh) | 建立语义表示模型的方法、装置、设备和计算机存储介质 | |
CN114595338A (zh) | 基于混合特征表示的实体关系联合抽取系统及方法 | |
CN115129818A (zh) | 基于知识驱动多分类的情绪原因对提取方法及系统 | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |