CN115859987B

CN115859987B - 实体提及识别模块及其链接方法、设备和介质

Info

Publication number: CN115859987B
Application number: CN202310058846.XA
Authority: CN
Inventors: 鲁新新; 张�浩; 马朋坤; 马瑞祥; 李天宁
Original assignee: Ali Health Technology China Co ltd
Current assignee: Ali Health Technology China Co ltd
Priority date: 2023-01-19
Filing date: 2023-01-19
Publication date: 2023-06-16
Anticipated expiration: 2043-01-19
Also published as: CN115859987A

Abstract

本说明书实施方式提供了一种实体提及识别模块及其链接方法、设备和介质。所述实体提及识别模块包括：向量生成层，用于对应输入的实体提及，生成提及特征向量；向量匹配层，用于将所述提及特征向量与指定特征向量集合中的特征向量进行向量匹配运算，得到所述提及特征向量的关联特征向量；其中，所述关联特征向量表示的实体与所述提及特征向量表示的实体至少相近似；向量识别层，用于基于所述提及特征向量对所述关联特征向量进行识别，输出识别结果；其中，所述识别结果包括表示关联特征向量与所述提及特征向量表达相同实体的第一识别结果，或，表示关联特征向量与所述提及特征向量表达不相同实体的第二识别结果。可以实现提升知识图谱的构建效率。

Description

实体提及识别模块及其链接方法、设备和介质

技术领域

本说明书中实施方式涉及知识图谱数据处理领域，具体涉及一种实体提及识别模块及其链接方法、装置、设备和介质。

背景技术

知识图谱可以将知识数据可视化，以便于对于知识数据的学习和使用。具体的，例如，知识图谱在医学知识领域得到了较多的使用。如此，可以促进医学领域的知识研究。

现有技术中，知识图谱的构建，主要是基于专家人工处理。具体的，例如，可以收集某一个领域的相关医学知识，该领域的专家人员依照经验，构建多元组数据，进而基于多元组数据建立知识图谱。

然而，这种知识图谱的构建方式，需要耗费大量人力，导致效率较低。

发明内容

本说明书中多个实施方式提供一种实体提及识别模块及其链接方法、装置、设备和介质。可以一定程度上，提升知识图谱的构建效率。

本说明书的一个实施方式提供一种实体提及识别模块，所述实体提及识别模块包括：向量生成层，用于对应输入的实体提及，生成提及特征向量；向量匹配层，用于将所述提及特征向量与指定特征向量集合中的特征向量进行向量匹配运算，得到所述提及特征向量的关联特征向量；其中，所述关联特征向量表示的实体与所述提及特征向量表示的实体至少相近似；向量识别层，用于基于所述提及特征向量对所述关联特征向量进行识别，输出识别结果；其中，所述识别结果包括表示关联特征向量与所述提及特征向量表达相同实体的第一识别结果，或，表示关联特征向量与所述提及特征向量表达不相同实体的第二识别结果。

本说明书的一个实施方式提供一种实体提及的链接方法，所述方法包括：接收实体提及；以知识图谱作为所述指定特征向量集合，将所述实体提及输入至如前述实施方式所述的实体提及识别模块，得到所述实体提及识别模块输出的识别结果；在所述知识图谱中不存在与所述提及特征向量表达相同实体的目标关联特征向量的情况下，将所述提及特征向量链接入所述知识图谱。

本说明书的一个实施方式提供一种实体提及处理模型的训练装置，包括：样本获取模块，用于获取样本数据和基于样本数据生成的对比样本数据；其中，所述对比样本数据包括表征正样本的实体提及，和表示负样本的实体提及；分词模块，用于将所述样本数据和所述对比样本数据分别进行分词处理，分别得到多个分词；输入模块，用于分别将所述样本数据的多个分词和所述对比样本数据的多个分词输入所述实体提及处理模型，以使所述实体提及处理模型构建每个分词的分词特征向量，并将对应同一个样本数据的多个分词的分词特征向量融合得到每个样本数据的提及特征向量，以及将对应同一个对比样本数据的多个分词的分词特征向量融合得到每个对比样本数据的提及特征向量；编码损失模块，用于将多个样本数据的提及特征向量输入联合编码模型，计算多个样本数据的编码损失；对比损失模块，用于基于所述样本数据的提及特征向量和相应的对比样本数据的提及特征向量，构建对比损失；模型修正模块，用于使用所述编码损失和所述对比损失修正所述实体提及处理模型。

本说明书的一个实施方式提供一种电子设备，所述电子设备包括：存储器，以及与所述存储器通信连接的一个或多个处理器；所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行，以使所述一个或多个处理器实现前述所述的实体提及的链接方法，或者使所述一个或多个处理器实现前述所述的实体提及处理模型的训练方法。

本说明书的一个实施方式提供一种计算机存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的实体提及的链接方法，或者实现上述所述的实体提及处理模型的训练方法。

本说明书提供的多个实施方式，通过对应新增的实体提及生成提及特征向量，如此，可以使用提及特征向量与知识图谱中已经存在的特征向量，进行向量匹配运算，可以快速找出与新增的实体提及表达的实体至少相近似的关联特征向量，如此便可以进一步判断关联特征向量中是否存在表达的实体与新增的实体提及表示相同实体的目标关联特征向量，并在认定新增的实体提及表达的实体是新增知识的情况下，可以将该新增的实体提及的提及特征向量作为特征向量加入所述知识图谱。可以得出，通过向量匹配运算，可以快速的得到关联特征向量，进而只需要在关联特征向量中确定是否存在目标特征向量，可以快速的从大量的实体提及中识别出可以加入知识图谱的目标实体提及，提升了知识图谱的构建效率，而且还可以大幅度降低了电子设备的运算量。

附图说明

图1所示为本说明书的一个场景示例提供的使用实体提及识别模块的场景逻辑示意图。

图2所示为本说明书的一个实施方式提供的实体提及识别模块的向量识别层的数据处理逻辑示意图。

图3所示为本说明书的一个实施方式提供的指定规则树的示意图。

图4所示为本说明书的一个实施方式提供的实体提及的链接方法的流程示意图。

图5所示为本说明书的一个实施方式提供的实体提及处理模型的训练方法的流程图。

图6所示为本说明书的一个实施方式提供的实体提及处理模型的训练装置的模块示意图。

图7所示为本说明书的一个实施方式提供的电子设备示意图。

具体实施方式

请参阅图1。本说明书实施方式提供一种实体提及识别模块的应用场景示例。在该应用场景示例中，用于构建医学知识领域的知识图谱。

在构建出医学知识领域的知识图谱之后，可以继续根据收集到的实体提及，对知识图谱进行进一步的更新维护。具体的，可以使用新增的实体提及向知识图谱增加新知识。也可以，在维护知识图谱过程中，修正知识图谱中的特征向量，以使得知识图谱更加准确。

在本场景实例中，针对新增实体提及的处理，可以包括多个处理阶段。具体的，多个处理阶段可以包括：前置处理阶段、识别阶段和后置处理阶段。

在本场景示例中，假设新增两个实体提及“小儿麻痹症”和“小儿麻痹”。在前置处理阶段，可以将该两个实体提及输入所述实体提及识别模块。如此，可以将所述实体提及识别模块配置为前置处理模块使用。该前置处理模块可以用于去除实体提及中的冗余数据。具体的，前置处理模块可以包括向量生成层。所述向量生成层可以将实体提及进行分词处理。具体的，可以将“小儿麻痹症”进行分词得到“小儿”、“麻痹”和“症”，将“小儿麻痹”进行分词得到“小儿”和“麻痹”。

向量生成层可以将多个实体提及的分词分别建立分词特征向量。具体的，对应“小儿麻痹症”的分词“小儿”、“麻痹”和“症”，分别生成分词特征向量。同理，对应“小儿麻痹”的分词，也生成分词特征向量。

在本场景示例中，向量生成层可以使用分词特征向量进行融合得到相应实体提及的提及特征向量。具体的，可以将分词“小儿”、“麻痹”和“症”的分词特征向量进行融合，得到“小儿麻痹症”的提及特征向量。具体的，多个分词特征向量可以具有相同数量的向量维度，如此可以直接将多个分词特征向量进行对位相加之后求取均值，便可以实现将多个分词特征向量进行融合得到提及特征向量。同理，可以得到实体提及“小儿麻痹”的提及特征向量。

进一步的，前置处理模块可以包括向量匹配层和向量识别层。所述向量匹配层可以计算多个提及特征向量之间的余弦相似度，并可以在该多个提及特征向量中，存在余弦相似度大于指定相似度阈值的关联特征向量情况下，可以将关联特征向量输入至所述向量识别层，由向量识别层针对关联特征向量进行识别，输出识别结果。具体的，识别结果可能会表示“小儿麻痹症”和“小儿麻痹”的特征向量都是表达同一个实体。此时，可以将“小儿麻痹症”和“小儿麻痹”执行审核确认流程。进一步的，前置处理模块也可以将提及特征向量计算与作为知识图谱的骨架schema的特征向量的余弦相似度。如此，也可以将认定表达相同实体的特征向量和提及特征向量，一并作为审核确认流程的输入。此时，审核确认流程可能会认定多个实体提及相同。例如，可以仅仅保留“小儿麻痹症”这个实体提及。

经过前置处理阶段之后，在识别阶段可以将“小儿麻痹症”交由术语识别模块。所述术语识别模块也可以由所述实体提及识别模块配置形成。所述术语识别模块可以包括向量生成层、向量匹配层和向量识别层。向量生成层可以将医学数据进行分词处理得到分词，建立分词的分词特征向量，并进一步的融合分词特征向量得到实体提及“小儿麻痹症”的提及特征向量。

在本场景示例中，术语识别模块的向量匹配层可以基于实体提及“小儿麻痹症”的提及特征向量，在知识图谱的特征向量中进行匹配运算，得到提及特征向量的多个关联特征向量。具体的，可以计算提及特征向量与知识图谱中的特征向量的余弦相似度，将可以将余弦相似度作为匹配度。如此，可以将匹配度大于指定匹配度的特征向量作为关联特征向量。具体的，指定匹配度可以为0.6，如此，便可以将与提及特征向量的匹配度大于0.6的特征向量，都作为关联特征向量。具体的，例如多个关联特征向量中可以包括“脊髓灰质炎”的特征向量。

向量匹配层输出的关联特征向量，可以输入给向量识别层。向量识别层可以从知识图谱中获取与关联特征向量之间存在层级依附关系的依附特征向量。具体的，向量识别层可以具有指定层级步长。指定层级步长用于指示从知识图谱中与关联特征向量的存在层级依附关系的特征向量的数量。例如，指定层级步长的取值可以为1，此时可以从知识图谱中，关联特征向量的父节点的特征向量，和关联特征向量的子节点的特征向量，作为依附特征向量。

在本场景示例中，向量识别层可以将“小儿麻痹症”的提及特征向量，和包括“脊髓灰质炎”的关联特征向量，以及关联特征向量的依附特征向量，以及表示关联特征向量和依附特征向量之间层级依附关系的关系数据等，采用图嵌入算法模型为每个关联特征向量、每个关联特征向量的依附知识向量和关系数据建立图嵌入特征向量。具体的，也会对应“脊髓灰质炎”的关联特征向量、依附知识向量和关系数据建立图嵌入特征向量。当然，也还可以把指定层级步长也作为一部分，输入图嵌入算法模型。

可以将提及特征向量、图嵌入特征向量和相应关联特征向量的匹配度，一并输入指定分类器得到分类结果。指定分类器可以是依照医学领域的语料进行训练得到的。具体的，例如，所述指定分类器可以是全连接网络层（fully connected layers，FC）。

在本场景示例中，将提及特征向量和“脊髓灰质炎”的图嵌入特征向量以及匹配度，一并输入指定分类器，得到的分类结果可以表示提及特征向量表示的医学知识与“脊髓灰质炎”相同。此时，“脊髓灰质炎”的关联特征向量便可以作为目标关联特征向量。

同理，假设知识图谱中不存在“脊髓灰质炎”的特征向量。此时，在将提及特征向量和多个关联特征向量都进行前述处理之后，认定关联知识向量中不存在与提及特征向量表达相同知识的目标关联特征向量。此时，便可以将提及特征向量作为新增加特征向量，添加入知识图谱。当然，还可以增加针对提及特征向量进行质量评估的流程，在质量评估“小儿麻痹症”确定是新的医学知识的情况下，再将提及特征向量添加入所述知识图谱。

在一些情况下，知识图谱会有多个知识主题，不同知识主题之间可能会使用到相同的医学知识。然而，在知识图谱构建过程中，不同知识主题针对同一个医学知识的特征向量，或者，不同知识主题中特征向量对应的作为医学知识文本描述的实体提及，可能会存在差异。

在本场景示例中，目标关联特征向量的数量可能是多个，并且分属于不同的知识主题。在后置处理阶段，可以设置有后置处理模块。所述后置处理模块也可以由所述实体识别模块配置形成。具体的，可以将多个目标关联特征向量形成指定特征向量集合。可以将多个目标关联特征向量的实体提及输入至后置处理模块的向量生成层，并进行后续的处理，得到识别结果。或者，可以直接将多个目标关联特征向量输入给向量匹配层，并进行后续的处理，得到识别结果。或者，也可以直接将多个目标关联特征向量输入给向量识别层，以直接得到识别结果。通过后置处理模块将认定表达相同实体的目标关联特征向量的实体提及，执行审核确认流程，在进一步认定多个目标特征向量表达相同医学实体之后，可以将分属于多个知识主题的目标关联特征向量进行归一化处理。具体的，可以将目标关联特征向量和实体提及，进行归一化。如此，使得知识图谱中，关于同一个知识的特征向量和实体提及相同。

请参阅图1。本说明书的一个实施方式提供一种实体提及识别模块。所述实体提及识别模块可以包括向量生成层、向量匹配层和向量识别层。

向量生成层，可以用于对应输入的实体提及，生成提及特征向量。

在一些情况下，随着科学技术的进步，以及社会的快速发展，会不断的产生大量的新增知识。再者，即使针对已经存在的知识，可能也会不断产生新的表达术语。如果，全由人工建立知识图谱，以及维护知识图谱，会耗费大量的人力和时间。因此，可以在知识图谱领域结合人工智能的机器学习算法，大幅提升知识图谱的建立和维护的效率。

在本实施方式中，实体提及可以用于表示表达知识的实体。实体提及的来源可以包括相关知识领域的学术期刊、书籍、词典、知识库、权威网站、医学权威人士或机构的发言等。实体提及本身可以是一个词汇，或者一句话。该实体提及本身可以是实体的一个表达方式。实体可以是一个知识概念，或者一个属性。具体的，例如，实体提及涉及的实体属于医学领域的医学术语，实体提及也可以包括医学概念、医学关系和医学属性。其中医学关系用于表示所述医学属性与所述医学概念之间的关联关系。

在本实施方式中，向量生成层可以对应实体提及生成提及特征向量，如此，通过提及特征向量表征相应的实体提及，可以便于进一步匹配运算。具体的，例如，向量生成层可以是基于Bert或Transformer构建。当然，所属领域技术人员还可以采用其他机器学习模型构建所述向量生成层，在此不再赘述。

在本实施方式中，实体提及的提及特征向量用于与指定特征向量集合中的特征向量进行匹配运算。所以，在构建提及特征向量时，可以以指定特征向量集合中的特征向量的向量维度数量为基准，使得构建的提及特征向量与指定特征向量集合中的知识向量，具有相同的向量维度数量。如此，可以为后续将提及特征向量与指定特征向量集合的特征向量进行匹配运算提供便利。

向量匹配层，用于将所述提及特征向量与指定特征向量集合中的特征向量进行向量匹配运算，得到所述提及特征向量的关联特征向量；其中，所述关联特征向量表示的实体与所述提及特征向量表示的实体至少相近似。

在本实施方式中，向量匹配层可以将提及特征向量与多个特征向量进行匹配运算，如此，从指定特征向量中快速筛选出与所述提及特征向量表达的实体至少相近似的关联特征向量。具体的，在将提及特征向量与特征向量进行匹配运算的过程中，可以设定一个指定匹配度阈值，在认定提及特征向量与特征向量之间的匹配度高于所述指定匹配阈值的情况下，将相应特征向量作为关联特征向量。即，认定匹配度高于指定匹配度阈值的特征向量表示的实体，与提及特征向量表示的实体至少相近似。具体的，例如，匹配运算可以采用余弦相似度(CosineSimilarity)运算、欧氏距离等运算方式。如此，可以相应的将余弦相似度、欧氏距离值作为所述匹配度，并相应设置指定匹配度阈值。

在本实施方式中，关联特征向量表示的知识与提及特征向量表示的实体至少相近似，可以包括：关联特征向量表示的实体与提及特征向量表示的实体相似但不相同，或者，关联特征向量表示的实体与属于特征向量表示的实体相同。

向量识别层，用于基于所述提及特征向量对所述关联特征向量进行识别，输出识别结果；其中，所述识别结果包括表示关联特征向量与所述提及特征向量表达相同实体的第一识别结果，或，表示关联特征向量与所述提及特征向量表达不相同实体的第二识别结果。

在一些情况下，通过将提及特征向量与特征向量的匹配运算，可以实现快速的从知识图谱大量的数据中，筛选出所表示的知识与提及特征向量表示的知识至少相近似的关联特征向量。然而，筛选得到关联特征向量之后，还需要进一步的识别多个关联医学实施向量表示的知识是否与提及特征向量表示的知识相同。

在本实施方式中，在得到关联特征向量之后，可以通过识别层进一步判断关联特征向量中，是否存在与提及特征向量表达相同实体的目标关联特征向量。具体的，可以将关联特征向量和提及特征向量输入向量识别层，可以由该向量识别层的结果数据，表达关联特征向量中是否存在目标关联特征向量。

在本实施方式中，向量识别层可以采集关联特征向量相关的相关信息，如此，可以联合相关信息和关联特征向量，从关联特征向量中识别出与提及特征向量表达相同实体的目标关联特征向量。具体的，向量识别层输出的识别结果可以包括第一识别结果和第二识别结果。

本说明书实施方式提供的实体提及识别模块，可以作为一个独立的功能模块，并通过为该实体提及识别模块配置指定特征向量集，便可以判断指定特征向量集与输入的实体提及之间的关系。具体的，实体提及识别模块可以对应输入的实体提及，判断指定特征向量集中是否存在表达相同实体的特征向量。如此，可以非常便捷的针对指定特征向量集进行更新维护。再者，也可以依照实际使用需求，较为快速判断指定特征向量集合包括的特征向量表达的实体是否已经包括实体提及表达的实体。

在一些实施方式中，所述向量生成层包括：分词单元，用于将所述实体提及进行分词处理得到多个分词；向量构建单元，用于分别构建每个所述分词的分词特征向量；融合单元，用于将所述实体提及的多个分词的分词特征向量进行融合，得到所述提及特征向量。

在一些情况下，实体提及可以是包括多个词汇的长词，或者句子。可以将实体提及进行分词处理得到多个分词，进而通过处理分词生成实体提及的提及特征向量。可以使得提及特征向量可以携带较多的信息量，能够更加准确代表证实体提及。

在本实施方式中，分词单元可以包括自然语言处理模型。如此，可以使用分词单元针对实体提及进行分词处理。进一步的，自然语言处理模型可以是经过指定领域样本进行训练得到的，如此，可以较为准确将实体提及划分为多个分词。

在本实施方式中，向量构建单元可以对应每个分词建立分词特征向量，使得每个分词特征向量在建立过程中，可以只关注携带表征相应分词的特征数据。如此，使得每个分词特征向量可以较为准确的表征相应的分词。进而，在将多个分词的分词特征向量融合得到提及特征向量后，提及特征向量可以较好的表征实体提及，携带较多的信息量。

再者，向量构建单元生成的分词特征向量可以具有相同的向量维度。如此，融合单元在将多个分词特征向量进行向量融合时，可以将多个分词特征向量进行对应向量维度相加，将相加之后得到的多维特征向量作为提及特征向量。当然，所属领域技术人员，还可以设置其他的进行分词特征向量融合的运算方式，本说明书不再赘述。

在一些实施方式中，所述向量匹配层在进行向量匹配运算的过程中，对应所述关联特征向量生成有表示所述关联特征向量与所述提及特征向量的匹配程度的匹配度。

所述向量识别层包括：实体向量获取单元，用于从所述指定特征向量集合的特征向量中获取与所述关联特征向量存在依附关系的依附特征向量，和所述依附特征向量与所述关联特征向量之间的关系数据；其中，所述依附特征向量包括：所述关联特征向量在所述指定特征向量集合中所处节点的父节点和/或子节点的特征向量，或者，在所述指定特征向量集合中指定的指定特征向量。图嵌入向量建立单元，用于使用所述关联特征向量、所述依附特征向量和所述关系数据建立图嵌入特征向量。输出单元，用于将所述提及特征向量、所述图嵌入特征向量和所述匹配度，输入指定分类器得到所述识别结果。

在一些情况下，为了更加准确的判断关联特征向量中，是否存在与提及特征向量表达相同实体的目标关联特征向量，可以从指定特征向量集合中获取关联特征向量存在关联关系的数据，如此实现更加强化了关联特征向量的信息量，以便于准确识别出目标关联特征向量。

在本实施方式中，指定特征向量集合本身可以存在一定的层级关系。该层级关系可以是依照特征向量所表征的知识进行划分。在本实施方式中，层级依附关系可以包括关联特征向量所附属的父节点，和从属于所述关联特征向量的子节点。当然，层级关系可以包括关联特征向量所直接依附的父节点，还可以包括间接依附的父节点，还可以包括间接依附于所述关联中特征向量的子节点。

如此，可以将父节点的特征向量，作为依附特征向量。再者，可以将子节点的特征向量，也作为依附特征向量。相应的，关系数据可以用于表示关联特征向量与依附特征向量之间的依附关系。在一些实施方式中，关系数据还可以包括依附特征向量与依附特征向量之间的距离。在一些实施方式中，可以采用随机策略、pageRank粗略、多跳策略随机等算法，在知识图谱中指定所述依附知识向量。

在本实施方式中，图嵌入向量建立单元可以为所述关联特征向量、所述依附特征向量和所述关系数据建立图嵌入特征向量。具体的，例如，图嵌入向量建立单元可以是基于Node2vec构建的图嵌入算法模型。当然，所属领域技术人员还可以采用其他的图嵌入算法模型，例如，Deepwalk（深度游走算法）等，在此不再赘述。

在本实施方式中，输入单元可以将所述提及特征向量、所述图嵌入特征向量和所述匹配度，输入指定分类器得到分类结果。指定分类器可以是依照医学领域的语料进行训练得到的。具体的，例如，所述指定分类器可以是全连接网络层（fully connected layers，FC）。当然，所属领域技术人员还可以采用其他的分类器，例如，支持向量机（supportvector machines，SVM）等，在此不再赘述。

在一些实施方式中，向指定分类器输入的提及特征向量，还可以是将实体提及和依附特征向量的医学制式文本描述共同输入向量生成层得到的提及特征向量。

在一些实施方式中，请参阅图2，可以引入注意力机制，为提及特征向量、图嵌入特征向量和匹配度，相应设置权重。如此，输入给指定分类器的提及特征向量、图嵌入特征向量和匹配度已经与注意力机制设置的权重相结合。如此，可以提升指定分类器的准确率。

所述分类结果可以用于表示针对关联特征向量中是否存在目标关联特征向量的识别结果。指定分类器可以是二分类分类器，具体的，指定分类器可以只有两个输出取值。例如，输出取值可以为0和1。其中，0和1分别代表不同的识别结果。其中，取值1可以表示第一识别结果，即关联特征向量中存在目标关联知识向量。取值0可以表示第二识别结果，即关联特征向量中不存在目标关联知识向量。

在一些实施方式中，所述向量匹配层包括：识别单元，用于将所述提及特征向量和所述关联特征向量，依照指定规则树规定的匹配条件进行匹配运算得出所述识别结果；其中，所述指定规则树包括划分多个层级的多个规则节点和依附于规则节点的叶子节点，每个规则节点包括匹配条件，所述叶子节点用于表示所依附的规则节点的匹配条件输出的识别结果。

在一些情况下，可以依照知识领域的知识特性，构建指定规则树。如此，可以将提及特征向量和关联特征向量与指定规则树中规定的匹配条件，快速运算得出匹配结果。

在本实施方式中，请参阅图3。指定规则树可以包括多个规则节点，该多个规则节点可以被划分为多个层级。如此，在将提及特征向量和关联特征向量完成父节点的匹配条件的匹配之后，才会进行子节点的匹配条件的匹配。在一些实施方式中，每个规则节点都可以分别具有一个叶子节点和一个子节点。具体的，在将提及特征向量和关联特征向量作为规则节点的匹配条件的输入数据，没有使得匹配条件成立的情况下，便可以将该规则节点的叶子节点作为识别结果输出。提及特征向量和关联特征向量作为规则节点的匹配条件的输入，使得匹配条件成立的情况下，便可以进一步将提及特征向量和关联特征向量与该规则节点的子节点的匹配条件进行匹配运算。指定规则树可以具有处于末尾的规则节点，该规则节点可以具有两个叶子节点。所述两个叶子节点可以包括第一叶子节点和第二叶子节点。所述第一叶子节点可以表示第一识别结果，即表示提及特征向量和关联特征向量之间符合规则节点的匹配条件，此时该关联特征向量可以作为所述目标关联特征向量。所述第二叶子节点可以表示第二识别结果，即表示关联特征向量不是目标关联特征向量。在一些实施方式中，例如第一叶子节点的匹配结果为1，第二叶子节点的匹配结果为2。具体的，例如，指定规则树中作为根节点的规则节点的匹配条件可以是提及特征向量与关联特征向量之间的余弦相似度大于0.8，该根节点具有一个叶子节点，该叶子节点用于在输入的提及特征向量和关联特征向量没有符合所述根节点的匹配条件的情况下，作为输出的识别结果。所述根节点的叶子节点可以用于表示当前输入的关联特征向量，不是目标关联特征向量。当然，匹配条件还可以包括依照编辑距离或欧氏距离指定的阈值等，不再赘述。

请参阅图4。本说明书的一个实施方式提供一种实体提及的连接方法。所述实体提及的链接方法可以应用于计算机设备中。计算机设备可以是具有一定运算处理能力的电子设备。所述实体提及的链接方法可以包括以下步骤。

步骤S110：接收实体提及。

步骤S112：以知识图谱作为所述指定特征向量集合，将所述实体提及输入至如前述实施方式任一所述的实体提及识别模块，得到所述实体提及识别模块输出的识别结果。

步骤S114：在所述知识图谱中不存在与所述提及特征向量表达相同实体的目标关联特征向量的情况下，将所述提及特征向量链接入所述知识图谱。

在一些情况下，随着科学技术的进步，以及社会的快速发展，会不断的产生大量的新增知识。再者，即使针对已经存在的知识，可能也会不断产生新的表达术语。如果，全由人工建立知识图谱，以及维护知识图谱，会耗费大量的人力和时间。具体的，以医学领域为例，医学领域对于知识的准确性有着非常高的要求，使得传统知识图谱需要花费很多医学专家的精力和时间。因此，可以在知识图谱领域结合人工智能的机器学习算法，大幅提升知识图谱的建立和维护的效率。

在本实施方式中，实体提及可以用于表示医学领域的实体。实体提及的来源可以包括医学领域的学术期刊、医学书籍、医学词典、医学知识库、权威医学网站、医学权威人士或机构的发言等。实体提及本身可以是一个词汇，或者一句话。该实体提及本身可以表示一个医学概念，或者一个医学属性。当然，在一些情况下，实体提及也可以包括医学概念、医学关系和医学属性。其中医学关系用于表示所述医学属性与所述医学概念之间的关联关系。

通常情况下，知识图谱中可以包括多个节点数据和节点数据之间的边数据。节点数据可以用于表示实体，边数据可以用于表示相连的两个节点数据之间的关联关系。节点数据和边数据都可以用于表示一定程度的医学知识，如此，可以将节点数据和边数据都作为特征向量。

在一些情况下，通过将实体提及输入至实体提及识别模块，可以实现快速的判断知识图谱大量的数据中，识别多个关联特征向量表示的实体是否与提及特征向量表示的实体相同。

在本实施方式中，在认定关联特征向量中不存在目标关联特征向量的情况下，可以得出，提及特征向量表示的实体可能是相对于知识图谱的新知识，可以将该提及特征向量加入所述知识图谱中。如此，可以更加完善知识图谱，实现对于知识图谱的更新维护。在一些实施方式中，在认定关联特征向量中存在目标关联特征向量的情况下，可以认为知识图谱中已经存在提及特征向量表示的实体。此时，已经无需将提及特征向量作为特征向量加入知识图谱。

本说明书提供的多个实施方式，通过对应新增的实体提及输入实体提及识别模块，可以快速的从大量的实体提及中识别出可以加入知识图谱的目标实体提及，提升了知识图谱的构建效率，而且还可以大幅度降低了电子设备的运算量。

在一些实施方式中，所述实体提及的数量为多个，将多个实体提及分别输入所述实体提及识别模块的向量生成层，得到多个提及特征量向量；将所述多个提及特征向量作为所述指定特征向量集合，分别将提及特征向量输入至所述向量匹配层和所述向量识别层，得到识别结果；将基于所述识别结果，术语特征向量将多个提及特征向量中表示相同知识实体的目标候选术语特征向量提及特征向量分别融合为一个术语特征向量提及特征向量。

在一些情况下，实体提及可能会源于多个数据源。使得多个实体提及可能会存在一定的冗余数据。该些冗余数据会增加进一步与知识图谱中知识向量进行向量匹配运算的运算量。

在本实施方式中，在分别生成每个实体提及的提及特征向量之后，可以将多个提及特征向量总体作为指定特征向量集合，先针对该多个提及特征向量之间进行向量匹配运算，以筛选出表示相同知识的目标候选提及特征向量。如此，可以将提及特征向量中表示相同知识的目标候选提及特征向量融合为一个提及特征向量。如此可以实现减少了冗余数据，降低了运算量。

在本实施方式中，可以将提及特征向量输入给实体提及识别模块的向量匹配层和向量识别层，便可以得到识别结果。向量匹配层可以将多个提及特征向量相互之间进行向量匹配运算，如此可以得到多个提及特征向量之间的匹配度。进而可以将该匹配度与一个指定匹配度进行比较，将匹配度大于指定匹配度的多个提及特征向量，作为候选提及特征向量。

在本实施方式中，在确定候选提及特征向量之后，向量识别层可以在候选提及特征向量进一步识别出，表示相同实体的目标候选提及特征向量。

在一些实施方式中，可以将匹配度大于指定匹配度的多个候选提及特征向量，输入向量识别层。向量识别层可以包括指定图嵌入算法模型，以建立图嵌入特征向量。并将候选提及特征向量和图嵌入特征向量输入指定分类器，得到指定分类器输出的识别结果。

在一些实施方式中，可以在在所述识别结果为所述第一识别结果的情况下，将所述提及特征向量融合入与所述提及特征向量表达相同实体的目标关联特征向量。

在一些情况下，可能会判定关联特征向量中存在目标关联特征向量，此时会认为目标关联特征向量表示的实体与所述提及特征向量相同。为了，进一步强化目标关联特征向量携带的信息量，可以将提及特征向量融入目标关联特征向量。

在本实施方式中，即使认定目标关联特征向量与提及特征向量表达相同的知识，但目标关联特征向量和提及特征向量本身可能并不相同，这种差异可能是生成提及特征向量的实体提及，与生成目标关联特征向量的实体提及之间的差异。因此，为了进一步强化目标关联特征向量携带的信息量，将提及特征向量与目标关联特征向量进行融合，可以增强目标关联特征向量携带的信息量。

在一些实施方式中，所述知识图谱包括多个知识主题，至少部分目标关联特征向量属于不同的知识主题。所述医疗术语的处理方法还可以包括：将所述目标关联特征向量进行归一化处理，以使分属于不同所述知识主题的目标关联特征向量相同。

在一些情况下，知识图谱中不同的知识主题中，可能会存在表达相同知识的多个特征向量。主要在于，在医学领域可能会出现同一个身体部位，因病灶或病因不同，会将相关的医学知识划分到不同的知识主题。然而，如果同一个医学知识，在不同知识主题的特征向量如果不相同，会导致知识图谱在使用时，准确率下降。

在本实施方式中，可以将目标关联特征向量进行归一化处理，如此，使得不同知识主题下同一个医学知识的特征向量相同，可以提升知识图谱的准确性。具体的，可以将多个目标关联特征向量形成指定特征向量集合。可以将多个目标关联特征向量的实体提及输入向量生成层，并进行后续的处理，得到识别结果。或者，可以直接将多个目标关联特征向量输入给向量匹配层，并进行后续的处理，得到识别结果。或者，也可以直接将多个目标关联特征向量输入给向量识别层，以直接得到识别结果。在所述识别结果表示多个目标特征向量表达相同医学实体之后，可以将分属于多个知识主题的目标关联特征向量进行归一化处理。在一些实施方式方式中，通过实体提及识别模块将认定表达相同实体的目标关联特征向量的实体提及，进一步执行审核确认流程，在进一步认定多个目标特征向量表达相同医学实体之后，可以将分属于多个知识主题的目标关联特征向量进行归一化处理。

请参阅图5，本说明书的一个实施方式还提供一种实体提及处理模型的训练方法。所述训练方法可以包括以下步骤。

步骤S210：获取样本数据和基于样本数据生成的对比样本数据；其中，所述对比样本数据包括表征正样本的实体提及，和表示负样本的实体提及。

在本实施方式中，可以提供有样本数据集，所述样本数据集中可以包括多个可以作为样本数据的实体提及。从样本数据集中读取样本数据之后，可以基于读取的样本数据生成对比样本数据。具体的，生成对比样本数据的方式可以包括，在样本数据集中筛选与样本数据表达相似语义的样本数据作为对比样本数据的正样本。或者，将样本数据包括的部分词汇替换成近义词，作为对比样本数据的正样本，将样本数据包括的部分词汇替换成反义词或不相干的词汇，作为对比样本数据的负样本。

步骤S212：将所述样本数据和所述对比样本数据分别进行分词处理，分别得到多个分词。

在本实施方式中，可以使用自然语言处理模型针对实体提及进行分词处理。进一步的，自然语言处理模型可以是经过医学领域样本进行训练得到的，如此，可以较为准确将实体提及划分为多个分词。

步骤S214：分别将所述样本数据的多个分词和所述对比样本数据的多个分词输入所述实体提及处理模型，以使所述实体提及处理模型构建每个分词的分词特征向量，并将对应同一个样本数据的多个分词的分词特征向量融合得到每个样本数据的提及特征向量，以及将对应同一个对比样本数据的多个分词的分词特征向量融合得到每个对比样本数据的提及特征向量。

在本实施方式中，可以将样本数据的多个分词和对比样本数据的多个分词分别输入实体提及处理模型，如此可以通过实体提及处理模型生成样本数据的提及特征向量，和对比样本数据的提及特征向量。具体的，实体提及处理模型可以包括编码层和池化处理层。所述编码层可以将输入的分词生成分词特征向量，如此，样本数据和对比样本数据可以分别对应有多个分词特征向量。所述池化处理层可以用于分别将输入的对应样本数据的多个分词特征向量，进行对位相加之后求均值，得到样本数据的提及特征向量。同理，可以得到对比样本数据的提及特征向量。具体的，例如，编码层可以为SM-Bert或Transformer。

步骤S216：将多个样本数据的提及特征向量输入联合编码模型，计算多个样本数据的编码损失。

在本实施方式中，可以将多个样本数据的提及特征向量输入至联合编码模型，如此可以通过联合编码模型进行联合训练，提升模型的准确率。具体的，例如，联合编码模型可以采用Sentence-Bert构建。如此，联合编码模型可以与编码层的实体提及处理模型形成双塔模型结构。

步骤S218：基于所述样本数据的提及特征向量和相应的对比样本数据的提及特征向量，构建对比损失。

步骤S220：使用所述编码损失和所述对比损失修正所述实体提及处理模型。

在本实施方式中，通过建立编码损失和对比损失，共同修正实体提及处理模型，可以使得最终得到的实体提及处理模型具有较好的鲁棒性和准确性。

具体的，例如，本实施方式可以提供一个计算编码损失L_BMloss的损失函数，以及计算对比损失L_DBloss的损失函数的计算公式如下。

/>

其中，i、j和k的取值为正整数，r_i用于表示样本数据的提及特征向量，r_j用于表示对比样本数据中正样本的提及特征向量，r_k用于表示对比样本数据中负样本的提及特征向量，I用于表示判别函数，N用于表示指样本数据的Batch-size，exp用于表示指数函数，sim表示余弦相似度函数。当然，上述仅仅提供一个实例，所属领域技术人员在本说明书多个实施方式启示下，可以依照所知悉的技术，针对上述损失函数进行修改或替换，但只要其实现的功能和效果都和本说明书多个实施方式相同或相似，均应涵盖于本发明保护范围内。

在本实施方式中，可以将编码损失和对比损失相加之后得到的联合损失，修正实体提及处理模型和联合编码模型的模型参数。具体的，联合损失L_LHloss可以表达为如下公式。

请参阅图6。本说明书的一个实施方式还提供一种实体提及处理模型的训练装置，包括：样本获取模块，用于获取样本数据和基于样本数据生成的对比样本数据；其中，所述对比样本数据包括表征正样本的实体提及，和表示负样本的实体提及；分词模块，用于将所述样本数据和所述对比样本数据分别进行分词处理，分别得到多个分词；输入模块，用于分别将所述样本数据的多个分词和所述对比样本数据的多个分词输入所述实体提及处理模型，以使所述实体提及处理模型构建每个分词的分词特征向量，并将对应同一个样本数据的多个分词的分词特征向量融合得到每个样本数据的提及特征向量，以及将对应同一个对比样本数据的多个分词的分词特征向量融合得到每个对比样本数据的提及特征向量；编码损失模块，用于将多个样本数据的提及特征向量输入联合编码模型，计算多个样本数据的编码损失；对比损失模块，用于基于所述样本数据的提及特征向量和相应的对比样本数据的提及特征向量，构建对比损失；模型修正模块，用于使用所述编码损失和所述对比损失修正所述实体提及处理模型。

关于实体提及处理模型的训练装置实现的具体功能和效果，可以参照本说明书其他实施方式对照解释，在此不再赘述。所述实体提及处理模型的训练装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。所述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参阅图7，本说明实施方式可以提供一种电子设备，所述电子设备包括：存储器，以及与所述存储器通信连接的一个或多个处理器；所述存储器中存储有可被所述一个或多个处理器执行的指令，该指令被该一个或多个处理器执行，以使该一个或多个处理器实现上述任一实施方式中的方法。

在一些实施方式中，所述电子设备可以包括被系统总线连接的处理器、非易失性存储介质、内存储器、通信接口、显示装置和输入装置。所述非易失性存储介质可以存储有操作系统和相关的计算机程序。

本说明书实施方式还提供一种计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序用于被处理器执行时实现上述任一实施方式中的方法。

本说明书实施方式还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述任一实施方式中的方法。

可以理解，本文中的具体的例子只是为了帮助本领域技术人员更好地理解本说明书实施方式，而非限制本发明的范围。再者，本说明书记载的多个实施方式之间可以互相对照解释。

可以理解，在本说明书中的各种实施方式中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本说明书实施方式的实施过程构成任何限定。

可以理解，本说明书中描述的各种实施方式，既可以单独实施，也可以组合实施，本说明书实施方式对此并不限定。

除非另有说明，本说明书实施方式所使用的所有技术和科学术语与本说明书的技术领域的技术人员通常理解的含义相同。本说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在限制本说明书的范围。本说明书所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。在本说明书实施方式和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

可以理解，本说明书实施方式的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施方式的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(ApplicationSpecific IntegratedCircuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本说明书实施方式中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(programmableROM，PROM)、可擦除可编程只读存储器(erasablePROM，EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施方式描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本说明书的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施方式中的对应过程，在此不再赘述。

在本说明书所提供的几个实施方式中，应所述理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本说明书各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本说明书的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本说明书的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种实体提及识别模块，其特征在于，所述实体提及识别模块包括：

向量生成层，用于对应输入的实体提及，生成提及特征向量；实体提及涉及的实体属于医学领域的医学术语；

向量匹配层，用于将所述提及特征向量与指定特征向量集合中的特征向量进行向量匹配运算，得到所述提及特征向量的关联特征向量；其中，关联特征向量表示的实体与提及特征向量表示的实体相似但不相同，或者，关联特征向量表示的实体与提及特征向量表示的实体相同；所述向量匹配层在进行向量匹配运算的过程中，对应所述关联特征向量生成有表示所述关联特征向量与所述提及特征向量匹配程度的匹配度；

向量识别层，用于基于所述提及特征向量对所述关联特征向量进行识别，输出识别结果；其中，所述识别结果包括表示关联特征向量与所述提及特征向量表达相同实体的第一识别结果，或，表示关联特征向量与所述提及特征向量表达不相同实体的第二识别结果；其中，所述第二识别结果对应的提及特征向量用于构建知识图谱；所述向量识别层包括：实体向量获取单元，用于从所述指定特征向量集合的特征向量中获取与所述关联特征向量存在依附关系的依附特征向量，和所述依附特征向量与所述关联特征向量之间的关系数据；其中，所述依附特征向量包括：所述关联特征向量在所述指定特征向量集合中所处节点的父节点和/或子节点的特征向量，或者，在所述指定特征向量集合中指定的指定特征向量；图嵌入向量建立单元，用于使用所述关联特征向量、所述依附特征向量和所述关系数据建立图嵌入特征向量；输出单元，用于将所述提及特征向量、所述图嵌入特征向量和所述匹配度，输入指定分类器得到所述识别结果。

2.根据权利要求1所述的实体提及识别模块，其特征在于，所述向量生成层包括：分词单元，用于将所述实体提及进行分词处理得到多个分词；向量构建单元，用于分别构建每个所述分词的分词特征向量；融合单元，用于将所述实体提及的多个分词的分词特征向量进行融合，得到所述提及特征向量。

3.根据权利要求1所述的实体提及识别模块，其特征在于，所述向量匹配层包括：识别单元，用于将所述提及特征向量和所述关联特征向量，依照指定规则树规定的匹配条件进行匹配运算得出所述识别结果；其中，所述指定规则树包括划分多个层级的多个规则节点和依附于规则节点的叶子节点，每个规则节点包括匹配条件，所述叶子节点用于表示所依附的规则节点的匹配条件输出的识别结果。

4.一种实体提及的链接方法，其特征在于，所述方法包括：

接收实体提及；

以知识图谱作为所述指定特征向量集合，将所述实体提及输入至如权利要求1至3中任一所述的实体提及识别模块，得到所述实体提及识别模块输出的识别结果；

在所述知识图谱中不存在与所述提及特征向量表达相同实体的目标关联特征向量的情况下，将所述提及特征向量链接入所述知识图谱。

5.根据权利要求4所述的方法，其特征在于，所述实体提及的数量为多个；

所述方法还包括：

将多个实体提及分别输入所述实体提及识别模块的向量生成层，得到多个提及特征量向量；

将所述多个提及特征向量作为所述指定特征向量集合，分别将提及特征向量输入至所述向量匹配层和所述向量识别层，得到识别结果；

基于所述识别结果，将多个提及特征向量中表示相同实体的目标候选提及特征向量分别融合为一个提及特征向量。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在所述识别结果为所述第一识别结果的情况下，将所述提及特征向量融合入与所述提及特征向量表达相同实体的目标关联特征向量。

7.根据权利要求6所述的方法，其特征在于，所述知识图谱包括多个知识主题，至少部分目标关联特征向量属于不同的知识主题；所述方法还包括：

将所述目标关联特征向量进行归一化处理，以使分属于不同所述知识主题的目标关联特征向量相同。

8.一种电子设备，其特征在于，所述电子设备包括：

存储器，以及与所述存储器通信连接的一个或多个处理器；

所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行，以使所述一个或多个处理器实现如权利要求1至3中任一项所述的实体提及识别模块，或者使所述一个或多个处理器实现如权利要求4至7中任一所述的实体提及的链接方法。

9.一种计算机存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1至3中任一项所述的实体提及识别模块，或者实现上述权利要求4至7中任一所述的实体提及的链接方法。