CN112712866A

CN112712866A - 一种确定文本信息相似度的方法及装置

Info

Publication number: CN112712866A
Application number: CN202011564504.8A
Authority: CN
Inventors: 杨宝山; 强晟
Original assignee: Yidu Cloud Beijing Technology Co Ltd
Current assignee: Yidu Cloud Beijing Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-27

Abstract

本发明公开一种确定文本信息相似度的方法及装置，包括：获取第一类文本信息和第二类文本信息的至少一个特征维度；确定所述第一类文本信息分别对应于各所述特征维度的第一特征集合；确定所述第二类文本信息分别对应于各所述特征维度的第二特征集合；根据所述第一特征集合和第二特征集合，确定所述第一类文本信息和所述第二类文本信息在各所述特征维度的相似度分数；根据各所述相似度分数，确定所述第一类文本信息和所述第二类文本信息的相似度指数；实现了不同类的文本信息之间的相似度计算，以便于从大量的临床文档和电子病历等文本信息中，准确的找到“同类”信息，可为后续的数据分析过程提供更有效的支持。

Description

一种确定文本信息相似度的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种确定文本信息相似度的方法及装置。

背景技术

目前结合人工智能的大数据分析技术，已经开始应用在各个传统领域，其中包括医疗领域。从目前的实际情况来看，可以认为大数据分析技术在医疗领域有着非常重大的应用价值，能够在显著的提升临床医疗和医学研究的效率。

大数据分析的基础，是需要采集海量的且满足特定格式要求的数据，以作为分析的对象。例如临床文档、电子病历等重要的文本信息，均可以用来进行数据分析挖掘，以在医疗过程中提供更深层次的参考价值，可以更好的发挥数据本身的价值和意义。

在数据分析的过程中，将“同类”的数据一同进行分析，可能会更有效的挖掘到数据价值。但是现有技术中，难以从大量的临床文档和电子病历等文本信息中，准确的找到“同类”的数据。

发明内容

本发明提供一种确定文本信息相似度的方法及装置，以至少解决现有技术中存在的以上技术问题。

第一方面，本发明提供一种确定文本信息相似度的方法，包括：

获取第一类文本信息和第二类文本信息的至少一个特征维度；

确定所述第一类文本信息分别对应于各所述特征维度的第一特征集合；

确定所述第二类文本信息分别对应于各所述特征维度的第二特征集合；

根据所述第一特征集合和第二特征集合，确定所述第一类文本信息和所述第二类文本信息在各所述特征维度的相似度分数；

根据各所述相似度分数，确定所述第一类文本信息和所述第二类文本信息的相似度指数。

优选的，所述确定所述第一类文本信息分别对应于各所述特征维度的第一特征集合包括：

根据所述特征维度，确定所述第一类文本信息中的关键字段，以及所述关键字段对应的键值，以作为第一特征；

根据所述第一特征确定所述特征维度对应的第一特征集合。

优选的，所述确定所述第二类文本信息分别对应于各所述特征维度的第二特征集合包括：

根据所述特征维度，确定所述第二类文本信息中的关键字段，以及所述关键字段对应的键值，以作为第二特征；

根据所述第二特征确定所述特征维度对应的第二特征集合。

优选的，所述根据所述第一特征确定所述第一特征集合，或根据所述第二特征确定所述第二特征集合包括：

根据满足预设的命中率阈值的第一特征确定所述第一特征集合；

根据满足预设的命中率阈值的第二特征确定所述第二特征集合。

优选的，所述根据所述第一特征集合和第二特征集合，确定所述第一类文本信息和所述第二类文本信息在各所述特征维度的相似度分数包括：

根据特定的特征维度对应的第一特征集合和第二特征集合进行余弦距离计算，以确定所述第一类文本信息和所述第二类文本信息在所述特定的特征维度的相似度分数。

优选的，所述根据各所述相似度分数，确定所述第一类文本信息和所述第二类文本信息的相似度指数包括：

基于预设的权重系数，对各所述相似度分数进行加权计算，以确定所述第一类文本信息和所述第二类文本信息的相似度指数。

优选的，所述第一类文本信息和第二类文本信息包括：

xml格式或html格式的电子病历文本；

则所述特征维度包括；标签信息特征、属性信息特征和自然语言信息特征。

第二方面，本发明提供一种确定文本信息相似度的装置，包括：

特征维度获取模块，用于获取第一类文本信息和第二类文本信息的至少一个特征维度；

特征集合确定模块，用于确定所述第一类文本信息分别对应于各所述特征维度的第一特征集合；确定所述第二类文本信息分别对应于各所述特征维度的第二特征集合；

相似度分数确定模块，用于根据所述第一特征集合和第二特征集合，确定所述第一类文本信息和所述第二类文本信息在各所述特征维度的相似度分数；

相似度指数确定模块，用于根据各所述相似度分数，确定所述第一类文本信息和所述第二类文本信息的相似度指数。

第三方面，本发明提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本发明所述的确定文本信息相似度的方法。

第四方面，本发明提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本发明所述的确定文本信息相似度的方法。

与现有技术相比，本发明提供的一种确定文本信息相似度的方法及装置，确定第一类文本信息和第二类文本信息在各个特征维度之下的第一特征集合和第二特征集合，进而计算得到各特征维度相应的相似性分数，结合各特征维度的相似度分数确定相似度指数；从而实现了不同类的文本信息之间的相似度计算，以便于从大量的临床文档和电子病历等文本信息中，准确的找到“同类”信息，确定文本信息之间的相似性与关联性；可为后续的数据分析过程提供更有效的支持。

附图说明

图1为本发明一实施例提供的一种确定文本信息相似度的方法的流程示意图；

图2为本发明一实施例提供的另一种确定文本信息相似度的方法的流程示意图；

图3为本发明一实施例提供的一种确定文本信息相似度的装置的结构示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

申请概述

临床文档(即CDA，全称Clinical Document Architecture)和电子病历(即EMR，全称Electronic Medical Record)，是目前医疗领域信息化过程中，非常重要的文本信息。也是医疗领域中推进大数据分析、人工智能运算进程中重要的数据基础。在针对临床文档、电子病历等医疗领域的文本信息进行分析的过程中，将“同类”的信息一同进行分析，可能会更有效的挖掘到其潜在的价值。所谓“同类”是指文本信息之间具有某些潜在的“同质性”或者“关联性”。所以针对“同类”信息的分析，更容易得出更为准确、具体的结论性成果。

但是现有技术中，难以从大量的临床文档和电子病历等文本信息中，准确的找到“同类”信息。也就是，无法从逻辑上确定文本信息之间的相似性与关联性。因此，不能够对于后续的数据分析过程提供更有效的支持，使得数据分析的效率和效果均有待提高。

示例性方法

因此，本发明实施例将提供一种确定文本信息相似度的方法，以至少解决现有技术中存在的以上技术问题。如图1所示，本实施例中方法包括以下步骤：

步骤101、获取第一类文本信息和第二类文本信息的至少一个特征维度。

第一类文本信息和第二类文本信息，可以是从临床文档或电子病历中提取得到的电子病历文本。上述的电子病历文本通常可以是xml格式或html格式。其中，所谓“第一类”与“第二类”的区别，代表了文本信息的不同来源。例如，可以将来自两个不同单位(公司或医院)的文本信息，分别定义为第一类文本信息和第二类文本信息。或者可以将来自同单位中两个不同科室的文本信息，分别定义为第一类文本信息和第二类文本信息。

本步骤中，将根据获取的第一类文本信息和第二类文本信息的实际情况，来确定出相应的特征维度，以便于对二者进行后续的分析运算。结合文本信息的具体内容，可以将文本信息中的特征按照若干特征维度进行分类。本实施例中，特征维度具体可以包括；标签信息特征、属性信息特征和自然语言信息特征。其中，标签信息特征，可以是开发者在xml格式或html格式中定义的标签体系，能够反应特征的空间结构。属性信息特征，可以是xml格式或html格式中的结构化标记或者索引信息，能够反应数据的结构化特性。上述两种信息特征，与文本信息的数据格式，即xml格式或html格式有密切关联。自然语言信息特征，则是只文本信息的具体文本内容，在医疗领域中可以指医护人员输入的病例文本、诊断、处方等诊疗内容。

步骤102、确定第一类文本信息分别对应于各特征维度的第一特征集合。

本实施例中可以根据各个特征维度，分别从第一文本信息中筛选出符合该特征维度的第一特征，从而建立第一特征集合。具体的，可以根据特征维度，确定第一类文本信息中的关键字段，以及关键字段对应的键值，以作为第一特征。然后根据第一特征确定特征维度对应的第一特征集合。

在不同的特征维度之下，关键字段以及键值有不同的表现形式。在标签信息特征中，关键字段可以是标签名，键值可以是标签的路径。在属性信息特征中，关键字段和键值可以是数据结构中常见的key-value结构。在自然语言信息特征中，关键字段可以是某些关键字词，例如主诉、病史、诊断、处方等；键值则是关键字词对应的具体诊疗内容。

一个特定的关键字段与相应的键值，二者共同构成了一个“特征”，即本步骤中涉及的第一特征。而将第一类文本信息在同一个特征维度之下的所有第一特征建立集合，即为第一特征集合。则显然，每个特征维度有一个相应的第一特征集合。

步骤103、确定第二类文本信息分别对应于各特征维度的第二特征集合。

建立第二特征集合的过程与第一特征集合实质上一致，即根据特征维度，确定第二类文本信息中的关键字段，以及关键字段对应的键值，以作为第二特征；根据第二特征确定特征维度对应的第二特征集合。在此不重复叙述。

步骤104、根据第一特征集合和第二特征集合，确定第一类文本信息和第二类文本信息在各特征维度的相似度分数。

确定第一特征集合和第二特征集合之后，即可结合同一特征维度对应的第一特征集合和第二特征集合进行相似性的运算，从而确定第一类文本信息和第二类文本信息在该特征维度的相似度分数。相似度分数意味着第一类文本信息和第二类文本信息在该维度上的相似性与关联性，即为二者整体的相似性与关联性的一部分。

本实施例中，对于相似度分数的计算方式不做限定，凡是能够起到相同或类似效果的算法均可结合在本实施例的整体技术方案当中。

步骤105、根据各相似度分数，确定第一类文本信息和第二类文本信息的相似度指数。

特定特征维度上的相似度分数，意味着第一类文本信息和第二类文本信息整体的相似性与关联性的一部分。那么结合各特征维度的相似度分数进行综合运算，即可权衡多个维度从而确定第一类文本信息和第二类文本信息整体的相似性与关联性，也就是确定二者间的相似度指数。

通过以上技术方案可知，本实施例存在的有益效果是：确定第一类文本信息和第二类文本信息在各个特征维度之下的第一特征集合和第二特征集合，进而计算得到各特征维度相应的相似性分数，结合各特征维度的相似度分数确定相似度指数；从而实现了不同类的文本信息之间的相似度计算，以便于从大量的临床文档和电子病历等文本信息中，准确的找到“同类”信息，确定文本信息之间的相似性与关联性；可为后续的数据分析过程提供更有效的支持。

图1所示仅为本发明所述方法的基础实施例，在其基础上进行一定的优化和拓展，还能够得到所述方法的其他优选实施例。

如图2所示，为本发明所述确定文本信息相似度的方法的另一个具体实施例。本实施例在前述实施例的基础上，进行进一步拓展。所述方法具体包括以下步骤：

步骤201、获取第一类文本信息和第二类文本信息的至少一个特征维度。

上述步骤201与前述实施例中相关步骤内容一致，在此不重复叙述。

步骤202、确定第一类文本信息分别对应于各特征维度的第一特征集合。

步骤203、确定第二类文本信息分别对应于各特征维度的第二特征集合。

本实施例在确定第一特征集合和第二特征集合过程中，优选的还可包括一个筛选步骤，例如通过特征出现的频率或命中率进行筛选，从而确保特征的价值度并避免冗余。具体的，可以根据满足预设的命中率阈值的第一特征确定第一特征集合；根据满足预设的命中率阈值的第二特征确定第二特征集合。

以第一特征为例，假设第一类文本信息的总数量为b，某个特定的第一特征在第一类文本信息中的命中数量为a，则该第一特征的命中率p＝a/b。预设的命中率阈值为t时，则当p＞t可认为该第一特征满足预设的命中率阈值，即该第一特征可以加入第一特征集合。第二特征的筛选与此同理，在此不重复叙述。

在本实施例中，第一特征集合的具体表现形式可参考以下。

标签特征信息对应的第一特征集合A1为：

{keyA1:0.8,keyA2:0.9,keyA3:0.2,keyA4:0.2}；

其中keyA1～keyA4为4个关键字段，对应的数字为其相应的键值。则第一特征集合A1对应的特征向量为，[0.8,0.9,0.2,0.2]。

属性信息特征对应的第一特征集合B1为：

{keyB1:0.6,keyB2:0.8,keyB3:0.6}；

其中keyB1～keyB3为3个关键字段，对应的数字为其相应的键值。则第一特征集合B1对应的特征向量为，[0.6,0.8,0.6]。

自然语言信息特征对应的第一特征集合C1为：

{keyC1:0.9,keyC2:0.2,keyC3:0.3,keyC4:0.7}；

其中keyC1～keyC4为4个关键字段，对应的数字为其相应的键值。则第一特征集合C1对应的特征向量为，[0.9,0.2,0.3,0.7]。

第二特征集合的具体表现形式可参考以下。

标签特征信息对应的第二特征集合A2为：

{keya1:0.6,keya2:0.5,keya3:0.2,keya4:0.0}；

其中keya1～keya4为4个关键字段，对应的数字为其相应的键值。则第一特征集合A2对应的特征向量为，[0.6,0.5,0.2,0.0]。需要说明的是，某个特征对应的键值为0时，意味着该类的文本信息中不包括这一特征。

属性信息特征对应的第二特征集合B2为：

{keyb1:0.6,keyb2:0.8,keyb3:0.6}；

其中keyb1～keyb3为3个关键字段，对应的数字为其相应的键值。则第一特征集合B2对应的特征向量为，[0.6,0.8,0.6]。

自然语言信息特征对应的第二特征集合C2为：

{keyc1:0.9,keyc2:0.2,keyc3:0.8,keyc4:0.7}；

其中keyc1～keyc4为4个关键字段，对应的数字为其相应的键值。则第一特征集合C1对应的特征向量为，[0.9,0.2,0.8,0.7]。

步骤204、根据第一特征集合和第二特征集合，确定第一类文本信息和第二类文本信息在各特征维度的相似度分数。

本实施例中相似度分数的计算过程可以是，根据特定的特征维度对应的第一特征集合和第二特征集合进行余弦距离计算，以确定第一类文本信息和第二类文本信息在特定的特征维度的相似度分数。根据上述示例性的第一特征集合和第二特征集合，即是分别计算第一特征集合A1与第二特征集合A2，第一特征集合B1与第二特征集合B2，第一特征集合C1与第二特征集合C2之间的相似度分数。

以第一特征集合A1与第二特征集合A2为例，可取第一特征集合A1的特征向量[0.8,0.9,0.2,0.2]，和第二特征集合A2的特征向量[0.6,0.5,0.2,0.0]进行余弦举例计算。具体计算公式可参考以下：

其中，s1代表第一特征集合A1与第二特征集合A2的相似度分数，

代表第一特征集合A1与第二特征集合A2的余弦距离，

代表第一特征集合A1的特征向量，

代表第二特征集合A2的特征向量，

代表

和

的内积，

代表

的二范数，

代表

的二范数。

同理的，可计算第一特征集合B1与第二特征集合B2的相似度分数s2，以及第一特征集合C1与第二特征集合C2之间的相似度分数s3。在此不赘述。

步骤205、基于预设的权重系数，对各相似度分数进行加权计算，以确定第一类文本信息和第二类文本信息的相似度指数。

综合各个相似度分数可计算得到相似度指数。本实施例中将采用加权计算的方式进行此综合计算。具体的，可为相似度分数s1配置权重系数x，为相似度分数s2配置权重系数y，相似度分数s3配置权重系数z。且满足x+y+z＝1。权重系数x、y、z的具体数值可根据需求进行设定，本实施例中不做限定。

则相似度指数S＝x*s1+y*s2+z*s3。

至此，本实施例中在具体的示例性场景下实现了对于相似度指数的计算。

示例性装置

如图3所示，为本发明所述确定文本信息相似度的装置的一个具体实施例。本实施例装置，即用于执行图1～2所述方法的实体装置。其技术方案本质上与上述实施例一致，上述实施例中的相应描述同样适用于本实施例中。本实施例中装置包括：

特征维度获取模块301，用于获取第一类文本信息和第二类文本信息的至少一个特征维度。

特征集合确定模块302，用于确定第一类文本信息分别对应于各特征维度的第一特征集合；确定第二类文本信息分别对应于各特征维度的第二特征集合。

相似度分数确定模块303，用于根据第一特征集合和第二特征集合，确定第一类文本信息和第二类文本信息在各特征维度的相似度分数。

相似度指数确定模块304，用于根据各相似度分数，确定第一类文本信息和第二类文本信息的相似度指数。

另外在图3所示实施例的基础上，优选的，还包括：

特征集合确定模块302包括：

第一特征确定单元321，用于根据特征维度，确定第一类文本信息中的关键字段，以及关键字段对应的键值，以作为第一特征。

第一集合确定单元322，用于根据第一特征确定特征维度对应的第一特征集合。

第二特征确定单元323，用于根据特征维度，确定第二类文本信息中的关键字段，以及关键字段对应的键值，以作为第二特征。

第二集合确定单元324，用于根据第二特征确定特征维度对应的第二特征集合。

命中筛选单元325，用于根据满足预设的命中率阈值的第一特征确定第一特征集合；根据满足预设的命中率阈值的第二特征确定第二特征集合。

相似度分数确定模块303包括：

余弦计算单元331，用于根据特定的特征维度对应的第一特征集合和第二特征集合进行余弦距离计算，以确定第一类文本信息和第二类文本信息在特定的特征维度的相似度分数。

相似度指数确定模块304包括：

加权计算单元341，用于基于预设的权重系数，对各相似度分数进行加权计算，以确定第一类文本信息和第二类文本信息的相似度指数。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。

还需要指出的是，在本发明的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种确定文本信息相似度的方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于，所述确定所述第一类文本信息分别对应于各所述特征维度的第一特征集合包括：

根据所述第一特征确定所述特征维度对应的第一特征集合。

3.根据权利要求2所述方法，其特征在于，所述确定所述第二类文本信息分别对应于各所述特征维度的第二特征集合包括：

根据所述第二特征确定所述特征维度对应的第二特征集合。

4.根据权利要求3所述方法，其特征在于，所述根据所述第一特征确定所述第一特征集合，或根据所述第二特征确定所述第二特征集合包括：

5.根据权利要求1所述方法，其特征在于，所述根据所述第一特征集合和第二特征集合，确定所述第一类文本信息和所述第二类文本信息在各所述特征维度的相似度分数包括：

6.根据权利要求1所述方法，其特征在于，所述根据各所述相似度分数，确定所述第一类文本信息和所述第二类文本信息的相似度指数包括：

7.根据权利要求1～6任意一项所述方法，其特征在于，所述第一类文本信息和第二类文本信息包括：

xml格式或html格式的电子病历文本；

8.一种确定文本信息相似度的装置，其特征在于，包括：

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一项所述的确定文本信息相似度的方法。

10.一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一项所述的确定文本信息相似度的方法。