CN112307763B

CN112307763B - 术语标准化方法、系统及相应设备和存储介质

Info

Publication number: CN112307763B
Application number: CN202011601761.4A
Authority: CN
Inventors: 张俊锋; 程煜华; 黄俊杰; 侯丹丹; 翟文丽
Original assignee: Wanghai Kangxin Beijing Technology Co ltd
Current assignee: Wanghai Kangxin Beijing Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-06
Anticipated expiration: 2040-12-30
Also published as: CN112307763A

Abstract

本申请公开了术语标准化方法、系统及相应设备和存储介质，其中所述方法包括：对每一标准术语进行分词和词性标注以及进行实体识别；根据每一标准术语分别生成第一参考文本空间向量，其中实体识别结果包含词语类型标签；根据第一参考文本空间向量构建向量搜索模型；对待标准化的术语进行分词和词性标注以及进行实体识别；生成待标准化文本空间向量；从向量搜索模型搜索相似度最高的M个参考文本空间向量；计算每一词语类型标签维度的相似度；计算总相似度；将总相似度最高的参考文本空间向量对应的标准术语作为待标准化的术语的标准术语。本发明既能确保召回率，又能提高匹配准确度。

Description

术语标准化方法、系统及相应设备和存储介质

技术领域

本申请涉及电数字数据处理领域，尤其涉及术语标准化方法、系统及相应设备和存储介质。

背景技术

很多行业，由于历史、地区等原因，各个单位的数据都有自己的一套术语名称，这些术语的不统一对信息化的发展有非常大的制约作用。随着技术的发展，国家有关部门相继出台了各个领域的术语规范和标准。但是，为了和国家的标准进行映射又是一个非常头疼的事情，如果没有好的技术手段，只能依赖人工的方式进行映射，非常耗时耗力。目前业界流行的方式是采用计算机程序算法进行标准化映射，通过计算原始术语和标准术语的相似度，当相似度超过某个阈值时则认为匹配，在某两个阈值的区间内时则认为可以参考，低于某个阈值时则认为不匹配。然而，基于传统算法计算的相似度是一个标量值，无法满足一些特定领域的术语标准化，经常出现顾头不顾尾的情况。一些术语彼此之间具有较高的相似度，采用阈值方式，无法分辨出来。阈值过高，影响召回率，阈值过低，影响准确率，很难折中。

发明内容

为了克服现有技术中存在的不足，本发明提供一种术语标准化方法、系统及相应设备和存储介质，其既能确保召回率，又能提高匹配准确度。

在本发明的第一方面，提供一种术语标准化方法，该方法包括：

对每一标准术语进行分词和词性标注以及进行实体识别；

根据每一标准术语的分词结果和实体识别结果分别生成第一参考文本空间向量，其中所述实体识别结果包含词语类型标签；

根据第一参考文本空间向量构建向量搜索模型，所述向量搜索模型提供前M个向量搜索功能，M≥1；

对待标准化的术语进行分词和词性标注以及进行实体识别；

根据待标准化的术语的分词结果和实体识别结果生成待标准化文本空间向量；

根据待标准化文本空间向量从所述向量搜索模型搜索相似度最高的M个参考文本空间向量；

计算M个参考文本空间向量在每一所包含的词语类型标签维度分别与待标准化文本空间向量的相似度；

根据各个词语类型标签维度的相似度计算M个参考文本空间向量分别与待标准化文本空间向量的总相似度；

将总相似度最高的参考文本空间向量对应的标准术语作为待标准化的术语的标准术语。

在实施例中，所述方法还包括：在第一参考文本空间向量的词语中寻找同义词或近义词；响应于存在同义词或近义词，将第一参考文本空间向量的相应词语替换为同义词或近义词，生成第二参考文本空间向量；其中所述向量搜索模型还根据第二参考文本空间向量构建。

在实施例中，所述方法还包括：读取术语别名数据；对每一术语别名数据进行分词和词性标注以及进行实体识别；根据每一术语别名数据的分词结果和实体识别结果分别生成第三参考文本空间向量；其中所述向量搜索模型还根据第三参考文本空间向量构建。

在实施例中，所述第一参考文本空间向量和所述待标准化文本空间向量采用2-gram方式生成。

在实施例中，所述方法还包括：用预先形成的权重表初始化第一参考文本空间向量的权重。

在本发明的第二方面，提供一种术语标准化系统，该系统包括：

第一预处理模块，用于对每一标准术语进行分词和词性标注以及进行实体识别；

参考文本空间向量生成模块，用于根据每一标准术语的分词结果和实体识别结果分别生成第一参考文本空间向量，其中所述实体识别结果包含词语类型标签；

向量搜索模型构建模块，用于根据第一参考文本空间向量构建向量搜索模型，所述向量搜索模型提供前M个向量搜索功能，M≥1；

第二预处理模块，用于对待标准化的术语进行分词和词性标注以及进行实体识别；

待标准化文本空间向量生成模块，用于根据待标准化的术语的分词结果和实体识别结果生成待标准化文本空间向量；

搜索模块，用于根据待标准化文本空间向量从所述向量搜索模型搜索相似度最高的M个参考文本空间向量；

词标签维度相似度计算模块，用于计算M个参考文本空间向量在每一所包含的词语类型标签维度分别与待标准化文本空间向量的相似度；

总相似度计算模块，用于根据各个词语类型标签维度的相似度计算M个参考文本空间向量分别与待标准化文本空间向量的总相似度；

标准术语确定模块，用于将总相似度最高的参考文本空间向量对应的标准术语作为待标准化的术语的标准术语。

在本发明的第三方面，提供一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现根据本发明的第一方面的方法的步骤或者实现根据本发明的第二方面的系统的功能。

根据本发明的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据本发明的第一方面的方法的步骤或者实现根据本发明的第二方面的系统的功能。

按照本发明，将传统只根据一维进行相似度计算的匹配模型改为基于词语类型标签的多维度匹配，多维之间共同作用，只有每个维度都匹配了才能给出匹配结果，既保证了召回率，又能提高匹配的准确度，更加贴合特定行业如医疗行业的术语特点和精度要求。

结合附图阅读本发明实施方式的详细描述后，本发明的其它特点和优点将变得更加清楚。

附图说明

图1为根据本发明方法的一实施例的流程图；

图2为根据本发明系统的一实施例的框图。

为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。

具体实施方式

下面参照附图对本发明的实施方式和实施例进行详细说明。

通过下面给出的详细描述，本发明的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。

一些领域例如医疗领域的一些术语彼此之间具有很高的相似度。例如，下面的几个标准医疗服务项目术语：肺动脉瓣置换术、主动脉瓣置换术、心瓣膜置换手术和主动脉瓣直视成形术，彼此之间都有较高的相似度，通过传统的相似度算法很难将它们区分开，从而在标准化时可能无法准确匹配。本发明可很好地解决该问题。

图1示出了根据本发明的术语标准化方法的一优选实施例的流程图。

在此以国家2012年医疗服务项目标准和医保局出台的耗材标准数据作为标准术语集的例子。

在步骤S102，将标准术语集中的每条标准术语通过中文分词程序进行分词并标注每一词语的词性。分词后的每一词语可包含1个字、2个字或3个以上的字。中文分词程序可以是本领域已知的任何中文分词程序，词性包括动词、名词、形容词、连接词、副词等。例如，对于术语“混合淋巴细胞培养”，可分为混合、淋巴、细胞、培养四个词，分别标注词性为副词、名词、名词、动词。

在步骤S104，对每条标准术语进行实体识别，将所包含词语及其词性转换为词语类型标签。例如，材质、人体部位都是名词词性的词语识别而来，人体部位可基于白名单来识别，等等。实体识别算法可采用本领域已知的适当算法。在本实施例中，词语类型可包括症状、人体部位、操作、材质、化学物质等。

在步骤S106，根据每一标准术语的分词结果和实体识别结果分别生成标准术语的第一参考文本空间向量。在优选实施例中，生成第一参考文本空间向量时采用2-gram方式生成。例如，对于术语“混合淋巴细胞培养”，分词并2-gram会生成：混合、淋巴、细胞、培养、混合淋巴、淋巴细胞、细胞培养7个词语，每个词语作为文本空间向量的一个维度。文本空间向量里面的每个词都有其词性标注或者词语类型。这样，每个标准术语都有一个对应的文本空间向量，这些向量还关联了其对应的词语类型标签。文本空间向量的权重初始时为IDF（Inverse Document Frequency，逆文本频率指数）（自然语言处理NLP领域的专有名词）。如果有事先人工准备的权重表，则可用这个权重表初始化，权重表代表了人工知识，标识了哪些词是核心词，哪些词无足轻重。

在步骤S108，根据第一参考文本空间向量构建向量搜索模型。向量搜索模型可采用本领域已知的任何高性能向量搜索模型，例如BallTree，只要其能提供前M个（Top M）向量搜索功能从而保证召回率即可，M≥1且为整数。向量搜索模型的相似度算法可选择众所周知的余弦相似度算法。

在实施例中，还可根据同义词或近义词表在第一参考文本空间向量的词语中寻找同义词或近义词，如果存在同义词或近义词，将相应第一参考文本空间向量的相应词语替换为同义词或近义词，生成第二（新的）参考文本空间向量。在该情形下，向量搜索模型根据第一和第二参考文本空间向量构建。

在实施例中，还可读取术语别名数据，对每一术语别名数据进行分词和词性标注以及进行实体识别，根据每一术语别名数据的分词结果和实体识别结果分别生成第三参考文本空间向量。在该情形下，向量搜索模型根据第一和第三参考文本空间向量或者根据第一、第二和第三参考文本空间向量构建。

通过加载核心词权重、加载同义词表和/或加载术语别名表，可以将专家经验融合到纯技术方案里面，使得方案更有适应性。一些靠技术解决不了的映射，能通过人工知识的增补而解决，提高匹配准确度。

在步骤S110，对待标准化的术语进行分词和词性标注以及进行实体识别。该步骤除对象不一样之外，与上面的步骤S102和S104类似。

在步骤S112，根据待标准化的术语的分词结果和实体识别结果生成待标准化文本空间向量。同样，该步骤与上面的步骤S106类似。

在步骤S114，根据待标准化文本空间向量从向量搜索模型搜索相似度最高的M个参考文本空间向量。从向量搜索类型如BallTree返回的搜索结果中，含有标准术语的参考文本空间向量里面的词语类型标签。例如，有的医疗服务项目术语由含有部位的词语和手术操作的词语组成，如髋关节脱位切开复位术，有的耗材术语由材质部分的词语和耗材分类名的词语组成，如α-淀粉酶测定试剂盒。

在步骤S116，对于M个参考文本空间向量中的每一参考文本空间向量，分别计算参考文本空间向量在每一所包含的词语类型标签维度与待标准化文本空间向量的相似度。计算某个词语类型标签维度的匹配度的时候，将该词语类型标签对应的词语的权重增加为原来的N倍，N为输入文本分词后的长度。通过增加某个维度的权重，表示所计算的相似度主要关注点就是这个维度。

例如，待标准化文本为“髋关节脱位切开复位术”，标准术语为“膝关节脱位切开复位术”。

经过分词和多维度标签后生成如下A和B两个向量：

A：髋关节（人体部位）：0.34（该数值表示IDF权重，下同）

脱位：0.24

切开： 0.31

复位术（操作）：0.45

B：膝关节（人体部位）：0.30

脱位： 0.24

切开： 0.31

复位术（操作）：0.45

如果按照传统的标准余弦相似度计算，这两个文本的相似度为0.72，相似度比较高，难以区分开。

按照本发明的多维度标签计算相似度如下：

这两个术语有2种标签：人体部位和操作。由于“髋关节脱位切开复位术”分词为髋关节、脱位、切开、复位术，“膝关节脱位切开复位术”分词为膝关节、脱位、切开、复位术，因而N为4。

在人体部位这个标签维度下，会生成（*表示乘号）：

A1：髋关节（人体部位）：0.34*4

脱位：0.24

切开： 0.31

复位术（操作）：0.45

B1：膝关节（人体部位）：0.30*4

脱位： 0.24

切开： 0.31

复位术（操作）：0.45

人体部位标签维度计算的余弦相似度值为0.48。

在操作这个标签维度下，会生成：

A2：髋关节（人体部位）：0.34

脱位：0.24

切开： 0.31

复位术（操作）：0.45*4

B2：膝关节（人体部位）：0.30

脱位： 0.24

切开： 0.31

复位术（操作）：0.45*4

操作标签维度计算的余弦相似度值为0.92。

在步骤S118，对于M个参考文本空间向量中的每一参考文本空间向量，根据各词语类型标签维度的相似度计算参考文本空间向量与待标准化文本空间向量的总相似度（最终的匹配度）。在实施例中，总相似度是各个词语类型标签维度的相似度之乘积。从而，只要有一个维度不匹配，最终匹配度就会不匹配。在上面的例子中，总相似度为人体部位标签维度的余弦相似度值与操作标签维度的余弦相似度值的乘积，即总相似度为0.48*0.92=0.44。可见两个术语之间只有一个字不同，但通过本发明得出的总相似度比较低，表示这是两个不同的术语，能容易地将它们区分开，从而提高匹配准确度。

在步骤S120，将M个参考文本空间向量中总相似度最高的参考文本空间向量对应的标准术语作为待标准化术语的标准术语。在实施例中，本发明方法还可包括确定最高的总相似度是否高于预定阈值，如果是，则将总相似度最高的参考文本空间向量对应的标准术语作为待标准化术语的标准术语；否则，给出未找到对应的标准术语的提示。

图2示出了根据本发明的术语标准化系统的一优选实施例的框图。该实施例的系统包括：

第一预处理模块202，用于对每一标准术语进行分词和词性标注以及进行实体识别；

参考文本空间向量生成模块204，用于根据每一标准术语的分词结果和实体识别结果分别生成第一参考文本空间向量，其中所述实体识别结果包含词语类型标签；

向量搜索模型构建模块206，用于根据第一参考文本空间向量构建向量搜索模型，所述向量搜索模型提供前M个向量搜索功能，M≥1；

第二预处理模块208，用于对待标准化的术语进行分词和词性标注以及进行实体识别；

待标准化文本空间向量生成模块210，用于根据待标准化的术语的分词结果和实体识别结果生成待标准化文本空间向量；

搜索模块212，用于根据待标准化文本空间向量从所述向量搜索模型搜索相似度最高的M个参考文本空间向量；

词标签维度相似度计算模块214，用于计算M个参考文本空间向量在每一所包含的词语类型标签维度分别与待标准化文本空间向量的相似度；

总相似度计算模块216，用于根据各个词语类型标签维度的相似度计算M个参考文本空间向量分别与待标准化文本空间向量的总相似度；

标准术语确定模块218，用于将总相似度最高的参考文本空间向量对应的标准术语作为待标准化的术语的标准术语。

在另一实施例中，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现结合图1所示和所述的方法实施例或其它相应方法实施例的步骤或者实现结合图2所示和所述的系统实施例或其它相应系统实施例的功能，在此不再赘述。

在另一实施例中，本发明提供一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现结合图1所示和所述的方法实施例或其它相应方法实施例的步骤或者实现结合图2所示和所述的系统实施例或其它相应系统实施例的功能，在此不再赘述。

在此所述的多个不同实施方式或者其特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。另外，在某些情形下，只要适当，流程图中和/或流水处理描述的步骤顺序可修改，并不必须精确按照所描述的顺序执行。另外，本发明的多个不同方面可使用软件、硬件、固件或者其组合和/或执行所述功能的其它计算机实施的模块或装置进行实施。本发明的软件实施可包括保存在计算机可读介质中并由一个或多个处理器执行的可执行代码。计算机可读介质可包括计算机硬盘驱动器、ROM、RAM、闪存、便携计算机存储介质如CD-ROM、DVD-ROM、闪盘驱动器和/或具有通用串行总线（USB）接口的其它装置，和/或任何其它适当的有形或非短暂计算机可读介质或可执行代码可保存于其上并由处理器执行的计算机存储器。本发明可结合任何适当的操作系统使用。

除非明确指出，在此所用的单数形式“一”、“该”均包括复数含义（即具有“至少一”的意思）。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。

前面说明了本发明的一些优选实施例，但是应当强调的是，本发明不局限于这些实施例，而是可以本发明主题范围内的其它方式实现。本领域技术人员可以在本发明技术构思的启发和不脱离本发明内容的基础上对本发明做出各种变型和修改，这些变型或修改仍落入本发明的保护范围之内。

Claims

1.一种术语标准化方法，其特征在于，所述方法包括：

对每一标准术语进行分词和词性标注以及进行实体识别；

对待标准化的术语进行分词和词性标注以及进行实体识别；

计算M个参考文本空间向量在每一所包含的词语类型标签维度分别与待标准化文本空间向量的相似度，其中计算词语类型标签维度的相似度包括将所计算的词语类型标签维度对应的词语的权重增加为原来的N倍，其中N为输入文本分词后的长度；

将各个词语类型标签维度的相似度的乘积作为M个参考文本空间向量分别与待标准化文本空间向量的总相似度；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在第一参考文本空间向量的词语中寻找同义词或近义词；

响应于存在同义词或近义词，将第一参考文本空间向量的相应词语替换为同义词或近义词，生成第二参考文本空间向量；

其中所述向量搜索模型还根据第二参考文本空间向量构建。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

读取术语别名数据；

对每一术语别名数据进行分词和词性标注以及进行实体识别；

根据每一术语别名数据的分词结果和实体识别结果分别生成第三参考文本空间向量；

其中所述向量搜索模型还根据第三参考文本空间向量构建。

4.根据权利要求1所述的方法，其特征在于，所述第一参考文本空间向量和所述待标准化文本空间向量采用2-gram方式生成。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

用预先形成的权重表初始化第一参考文本空间向量的权重。

6.一种术语标准化系统，其特征在于，所述系统包括：

词标签维度相似度计算模块，用于计算M个参考文本空间向量在每一所包含的词语类型标签维度分别与待标准化文本空间向量的相似度，其中计算词语类型标签维度的相似度包括将所计算的词语类型标签维度对应的词语的权重增加为原来的N倍，其中N为输入文本分词后的长度；

总相似度计算模块，用于将各个词语类型标签维度的相似度的乘积作为M个参考文本空间向量分别与待标准化文本空间向量的总相似度；

7.一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现根据权利要求1-5任一所述的方法的步骤或者实现根据权利要求6所述的系统的功能。

8.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1-5任一所述的方法的步骤或者实现根据权利要求6所述的系统的功能。