CN111967270B

CN111967270B - 一种基于字符与语义融合的方法和设备

Info

Publication number: CN111967270B
Application number: CN202010822251.3A
Authority: CN
Inventors: 史亚飞
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-08-16
Filing date: 2020-08-16
Publication date: 2023-11-21
Anticipated expiration: 2040-08-16
Also published as: CN111967270A

Abstract

本发明提出的一种基于字符与语义融合的方法和设备，方法包括：在预设数据库中获取与待挖掘医疗术语最相似的多个实体；基于多个字符相似度算法确定实体与待挖掘医疗术语的字符相似度；若字符相似度大于或等于预设阈值，则保留实体作为第一候选实体；若保留的实体的数量小于预设数量，则通过对待挖掘医疗术语与实体两者进行分解后，确定两者的语义相似度；基于语义相似度选择保留指定数量的实体作为第二候选实体，以使候选实体的总数为预设数量；对预设数量的候选实体进行人工标注，以确定预设数量的候选实体与待挖掘医疗术语的关系。本方案基于术语间精确地字符信息和语义拆分信息，解决了孤立术语融合知识图谱的问题。

Description

一种基于字符与语义融合的方法和设备

技术领域

本发明涉及语义识别技术领域，特别涉及一种基于字符与语义融合的方法和设备。

背景技术

在医学领域，在某些应用场景中存在孤立的医学术语，这使得孤立的医学术语难于理解，也对孤立的医学术语所在的文档的理解造成困难，特别当孤立的医学术语出现的数量达到一定程度时，非常容易使得所在的文档解读困难或者容易出现误解。

为此，需要将孤立的医学术语融合到已有的医学知识图谱中，但是目前没有这种方案，由此，目前需要有一种可以融合孤立的医学术语的方案。

发明内容

针对现有技术中的缺陷，本发明提出了一种基于字符与语义融合的方法和设备，基于字符与语义来计算相似度的方案，若相似度达到一定值，则进行融合的方式，实现了融合孤立的医学术语到已有的医学知识图谱中。

具体的，本发明提出了一下具体的实施例：

本发明实施例提出了一种基于字符与语义融合的方法，包括：

在预设数据库中获取与待挖掘医疗术语最相似的多个实体；所述预设数据库中存储有预设医疗知识图谱的术语；

针对各所述实体，基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度；

若所述字符相似度大于或等于预设字符相似度阈值，则保留所述实体作为第一候选实体；

若保留的所述实体的数量小于预设数量，则通过对所述待挖掘医疗术语与所述实体两者进行分解后，确定两者的语义相似度；

基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体，以使候选实体的总数为预设数量；所述候选实体由所述第一候选实体与所述第二候选实体组成；

对预设数量的所述候选实体进行人工标注，以确定预设数量的所述候选实体与所述待挖掘医疗术语的关系。

在一个具体的实施例中，所述“在预设数据库中获取与待挖掘医疗术语最相似的多个实体”，包括：

在预设的数据库中基于待挖掘医疗术语进行检索，得到最相似的多个术语；

将所述术语设置为实体。

在一个具体的实施例中，所述字符相似度算法包括：以下任意多个的组合：编辑距离相似度算法、Jaccard系数算法、LCS算法、TF-IDF算法，加权算法。

在一个具体的实施例中，所述基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度，是通过下列公式来进行计算的：

其中，所述score_(a,b)表示字符相似度；所述f_i(a,b)表示字符相似度算法，w_i表示字符相似度算法的权重；所述a表示所述待挖掘医疗术语；所述b表示所述实体；若score_(a,b)大于等于预设字符相似度阈值，则实体b保留。

在一个具体的实施例中，所述“通过对所述待挖掘医疗术语与所述实体两者进行分解后，确定两者的语义相似度”，包括：

对所述待挖掘医疗术语与所述实体两者进行成分解析；

基于两者的成分确定所述待挖掘医疗术语与各所述实体的语义相似度。

在一个具体的实施例中，所述“通过对所述待挖掘医疗术语与所述实体两者进行分解后，确定两者的语义相似度”，是基于下列公式来计算的：

S_i＝I*W*P*R₁*R₂；

其中，所述S_i表示语义相似度；所述I表示成分是否为同一类型，所述I的取值为1或0；所述W表示成分的类型权重；所述P表示成分字符匹配权重，成分字符匹配权重越高，匹配程度越高，完全相等情况下的成分字符匹配权重为1；R₁和R₂分别为两个成分数目的倒数。

在一个具体的实施例中，所述“基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体，以使候选实体的总数为预设数量”，包括：

针对各所述实体，判断所述语义相似度是否大于或等于所述预设语义相似度阈值；

若判断结果为是，则保留所述语义相似度最高的指定数量的所述实体作为第二候选实体，以使候选实体的总数为预设数量。

在一个具体的实施例中，该方法还包括：

若保留的所述实体的数量小于预设数量，则从所述第一候选实体中选择预设数量的所述实体作为所述候选实体。

在一个具体的实施例中，所述候选实体与所述待挖掘医疗术语的关系包括：同义、上位或下位。

本发明实施例还提出一种基于字符与语义融合的设备，包括处理器，其中所述处理器用于执行上述的方法。

本发明实施例提出的一种基于字符与语义融合的方法和设备，其中，该方法包括：在预设数据库中获取与待挖掘医疗术语最相似的多个实体；所述预设数据库中存储有预设医疗知识图谱的术语；针对各所述实体，基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度；若所述字符相似度大于或等于预设字符相似度阈值，则保留所述实体作为第一候选实体；若保留的所述实体的数量小于预设数量，则通过对所述待挖掘医疗术语与所述实体两者进行分解后，确定两者的语义相似度；基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体，以使候选实体的总数为预设数量；所述候选实体由所述第一候选实体与所述第二候选实体组成；对预设数量的所述候选实体进行人工标注，以确定预设数量的所述候选实体与所述待挖掘医疗术语的关系。本方案基于术语间精确地字符信息和语义拆分信息，解决了孤立术语融合知识图谱的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种基于字符与语义融合的方法的流程示意图；

图2为本发明实施例提出的一种基于字符与语义融合的方法的流程示意图；

图3为本发明实施例提出的一种基于字符与语义融合的方法中语义相似度相关流程的流程示意图；

图4为本发明实施例提出的一种基于字符与语义融合的设备的结构示意图。

具体实施方式

在下文中，将更全面地描述本公开的各种实施例。本公开可具有各种实施例，并且可在其中做出调整和改变。然而，应理解：不存在将本公开的各种实施例限于在此公开的特定实施例的意图，而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用，单数形式意在也包括复数形式，除非上下文清楚地另有指示。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本公开的各种实施例中被清楚地限定。

实施例1

本发明实施例1公开了一种基于字符与语义融合的方法，如图1和图2所示，包括以下步骤：

步骤101、在预设数据库中获取与待挖掘医疗术语最相似的多个实体；所述预设数据库中存储有预设医疗知识图谱的术语；

具体的，在步骤101中所述“在预设数据库中获取与待挖掘医疗术语最相似的多个实体”，包括：

将所述术语设置为实体。

具体的，可以将医疗知识图谱中的术语存储在Elasticsearch数据库中，检索出术语a最相似的N个实体，组成实体集合B，作为术语a的待融合候选集，其中每个实体记为实体b，满足b∈B。

步骤102、针对各所述实体，基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度；

具体的，所述字符相似度算法包括：以下任意多个的组合：编辑距离相似度算法、Jaccard系数算法、LCS算法、TF-IDF算法，加权算法。

具体的步骤102中的所述基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度，是通过下列公式来进行计算的：

其中，所述score_(a,b)表示字符相似度；所述f_i(a,b)表示字符相似度算法(也即编辑距离相似度算法、Jaccard系数算法、LCS算法、TF-IDF算法，加权算法的任意一个或多个的组合)，w_i表示字符相似度算法的权重；所述a表示所述待挖掘医疗术语；所述b表示所述实体；

步骤103、若所述字符相似度大于或等于预设字符相似度阈值，则保留所述实体作为第一候选实体；

具体的，仍以上述为例来进项说明，若score_(a,b)大于等于预设阈值，则实体b保留。具体保留的b的数量记为X。

此外，该方法还包括：

具体的，若X大于等于M，则直接返回M个相似实体作为候选实体，候选实体按照字符相似度从高到低排列。

若保留的所述实体的数量不小于预设数量，则执行步骤104。

步骤104、若保留的所述实体的数量小于预设数量，则通过对所述待挖掘医疗术语与所述实体两者进行分解后，确定两者的语义相似度；

具体的，步骤104中的所述“通过对所述待挖掘医疗术语与所述实体两者进行分解后，确定两者的语义相似度”，包括：

对所述待挖掘医疗术语与所述实体两者进行成分解析；

此外，所述“通过对所述待挖掘医疗术语与所述实体两者进行分解后，确定两者的语义相似度”，是基于下列公式来计算的：

S_i＝I*W*P*R₁*R₂；

具体的，若X小于M,需要从语义的角度对候选进行补充。对实体a和实体b进行成分解析，基于实体a和实体b的成分计算两个实体间的语义相似度，如果实体a和实体b分别是症状“头反复性刺痛”和“胸部阵发性疼痛”。具体的解析过程如图3所示：

步骤105、基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体，以使候选实体的总数为预设数量；所述候选实体由所述第一候选实体与所述第二候选实体组成；

具体的步骤105中的所述“基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体，以使候选实体的总数为预设数量”，包括：

具体的，仍以上述为例，若分数S大于等于预设语义相似度阈值，则实体b保留，实体b的数量记为Y；从Y中选择(M-X)数量个最相似实体作为候选实体。

步骤106、对预设数量的所述候选实体进行人工标注，以确定预设数量的所述候选实体与所述待挖掘医疗术语的关系。

具体的，所述候选实体与所述待挖掘医疗术语的关系包括：同义、上位或下位。具体的步骤106中，是将通过字符相似和语义相似方法获得的候选实体交给标注人员进行人工标注，得到候选实体与医疗术语a之间的关系。

实施例2

本发明实施例2还公开了一种基于字符与语义融合的设备，如图4所示，包括处理器，其中所述处理器用于执行实施例1中所述的方法。

具体的，本发明实施例2还公开有其他相应的特征，具体相应的特征请参加实施例1中的记载，在此不再进行赘述。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于字符与语义融合的方法，其特征在于，包括：

其中，所述基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度，是通过下列公式来进行计算的：

其中，所述score_(a,b)表示字符相似度；所述f_i(a,b)表示字符相似度算法，w_i表示字符相似度算法的权重；所述a表示所述待挖掘医疗术语；所述b表示所述实体；若score_(a,b)大于等于预设字符相似度阈值，则实体b保留，i表示字符个数；

若保留的所述实体的数量小于预设数量，则通过对所述待挖掘医疗术语与所述第一候选实体两者进行分解后，确定两者的语义相似度；

其中，所述通过对所述待挖掘医疗术语与所述实体两者进行分解后，确定两者的语义相似度，包括：对所述待挖掘医疗术语与所述实体两者进行成分解析；基于两者的成分确定所述待挖掘医疗术语与各所述实体的语义相似度；

2.如权利要求1所述的方法，其特征在于，所述“在预设数据库中获取与待挖掘医疗术语最相似的多个实体”，包括：

将所述术语设置为实体。

3.如权利要求1所述的方法，其特征在于，所述字符相似度算法包括：以下任意多个的组合：编辑距离相似度算法、Jaccard系数算法、LCS算法、TF-IDF算法、加权算法。

4.如权利要求1所述的方法，其特征在于，所述“通过对所述待挖掘医疗术语与所述第二候选实体两者进行分解后，确定两者的语义相似度”，是基于下列公式来计算的：

S_i＝I*W*P*R₁*R₂；

5.如权利要求1所述的方法，其特征在于，所述“基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体，以使候选实体的总数为预设数量”，包括：

6.如权利要求1所述的方法，其特征在于，还包括：

若保留的所述实体的数量大于预设数量，则从所述第一候选实体中选择预设数量的所述实体作为所述候选实体。

7.如权利要求1所述的方法，其特征在于，所述候选实体与所述待挖掘医疗术语的关系包括：同义、上位或下位。

8.一种基于字符与语义融合的设备，其特征在于，包括处理器，其中所述处理器用于执行权利要求1-7中任意一项所述的方法。