CN116955538B

CN116955538B - 医疗字典数据匹配方法及装置、电子设备及存储介质

Info

Publication number: CN116955538B
Application number: CN202311032672.6A
Authority: CN
Inventors: 刘辉; 李彬槐; 李艾劲; 何梦娜; 李辉
Original assignee: Chengdu Yixing Technology Co ltd
Current assignee: Chengdu Yixing Technology Co ltd
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2024-03-19
Anticipated expiration: 2043-08-16
Also published as: CN116955538A

Abstract

本申请提供一种医疗字典数据匹配方法及装置、电子设备及存储介质，其中方法包括：将输入的第一医疗字典的字典数据值作为匹配值，根据匹配值从第二医疗字典获取被匹配数据列表，并对匹配值进行分词处理，获得分词列表；将分词列表中的每个分词值依次与被匹配数据列表中的所有被匹配数据分别进行相似度计算，判断被匹配数据是否包含分词值，若有包含，则表示匹配成功，将对应的分词值和被匹配数据放入相似度预选KV集合；对相似度预选KV集合中的被匹配数据进行权重排序，包括内容匹配成功权重和匹配值顺序权重。本申请的方案应用于平台系统与三方系统之间的医疗字典对照，实现秒级匹配且准确率高，硬件资源消耗低，易于实施。

Description

医疗字典数据匹配方法及装置、电子设备及存储介质

技术领域

本发明属于医疗信息数据交互技术，涉及医疗字典对照，具体涉及一种医疗字典数据匹配方法及装置、电子设备及存储介质。

背景技术

在进行医疗字典数据匹配时，传统的方法是简单的字典对码系统，通过数据库的模糊查询方式进行模糊匹配，由于每次都是通过数据库的模糊匹配方法，只能做到包含方式的匹配，如果将查询词语通过简单的分词进行多次匹配则在数据库中查询效率将极大的降低。比如，在医疗业务中较大的字典如ICD10字典，不同版本长度在2万-6万不等，原有方法数据库模糊匹配方式筛选效率低、模糊结果效果差，不能按照相似度从高到低进行排序，字典对码效率低；使用数据库的模糊匹配方式进行存储，在数据量在1W以下效率较为优势，超过1W对数据库性能要求极具上升，并且针对不通类型数据库函数支持能力各不相同，局限性较大。

目前，在市面上也有许多的大数据辅助工具，通过人工智能方式进行快速的字典匹配，但是资源占用大，且前期准备工作多，对前期训练的依赖性大。另一方面，每个医院的独特的业务系统，有独特的字典信息，单独进行训练将极大的影响效率；并且医院大小不同，硬件能力不同，往往不希望在这个基础的工作上提供大量的硬件资源。

发明内容

为解决上述相关现有技术不足，本发明提供一种医疗字典数据匹配方法及装置、电子设备及存储介质，应用于平台系统与三方系统之间的医疗字典对照，实现秒级匹配且准确率高，硬件资源消耗低，易于实施。

为了实现本发明的目的，拟采用以下方案：

一种医疗字典数据匹配方法，包括步骤：

将输入的第一医疗字典的字典数据值作为匹配值，根据匹配值从第二医疗字典获取被匹配数据列表，并对匹配值进行分词处理，获得分词列表；

将分词列表中的每个分词值依次与被匹配数据列表中的所有被匹配数据分别进行相似度计算，判断被匹配数据是否包含分词值，若有包含，则表示匹配成功，将对应的分词值和被匹配数据放入相似度预选KV集合；

对相似度预选KV集合中的被匹配数据进行权重排序，包括内容匹配成功权重和匹配值顺序权重，内容匹配成功权重根据被匹配数据成功匹配的次数及相似度预选KV集合中的分词长度之和与匹配值长度的接近程度计算设置，匹配值顺序权重根据相似度预选KV集合中的分词列表与进行相似度计算之前的分词列表顺序一致性计算设置，其中，内容匹配成功权重和匹配值顺序权重均取值在0-1之间，且内容匹配成功权重和匹配值顺序权重加和等于1。

一种医疗字典数据匹配装置，包括：

列表获取模块，用于将输入的第一医疗字典的字典数据值作为匹配值，根据匹配值从第二医疗字典获取被匹配数据列表，并对匹配值进行分词处理，获得分词列表；

相似度计算模块，用于将分词列表中的每个分词值依次与被匹配数据列表中的所有被匹配数据分别进行相似度计算，判断被匹配数据是否包含分词值，若有包含，则表示匹配成功，将对应的分词值和被匹配数据放入相似度预选KV集合；

权重排序模块，用于对相似度预选KV集合中的被匹配数据进行权重排序，包括内容匹配成功权重和匹配值顺序权重，内容匹配成功权重根据被匹配数据成功匹配的次数及相似度预选KV集合中的分词长度之和与匹配值长度的接近程度计算设置，匹配值顺序权重根据相似度预选KV集合中的分词列表与进行相似度计算之前的分词列表顺序一致性计算设置，其中，内容匹配成功权重和匹配值顺序权重均取值在0-1之间，且内容匹配成功权重和匹配值顺序权重加和等于1。

一种电子设备，包括：至少一个处理器和存储器；其中，所述存储器存储有计算机执行指令；在所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如所述的医疗字典数据匹配方法。

一种计算机可读存储介质，其上存储有计算机程序，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行所述的医疗字典数据匹配方法。

本发明的有益效果：

应用于平台系统与三方系统之间的医疗字典对照，实现秒级匹配且准确率高，硬件资源消耗低，易于实施；在单个字典数据量10W以下可以做到模糊计算秒级别匹配，并且硬件资源消耗较低，只需要Java虚拟机环境，最低启动内存256M，基于现场的数据量较大一般设置在1-2G即可；并且相似度匹配准确率达到99%以上，可以按照匹配次数、关键词顺序、助词的重要性进行匹配率的调整。

附图说明

图1示出了本申请实施例的匹配方法整体流程图。

图2示出了本申请实施例的根据匹配值获取被匹配数据示例图。

图3示出了本申请实施例的相似度计算步骤的流程示意图。

图4示出了本申请实施例的匹配装置结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面结合附图对本发明的实施方式进行详细说明，但本发明所描述的实施例是本发明一部分实施例，而不是全部的实施例。

本申请实施例的一个方面，提供一种医疗字典数据匹配方法，应用于平台系统与三方系统之间的医疗字典对照，可采用Java语言开发，为了便于描述，将平台系统的医疗数据字典称为第一医疗字典，将三方系统的医疗数据字典称为第二医疗字典，根据实际应用情况，两者的名称也可以互换。整体方法流程如图1所示，包括如下步骤：

步骤A）用户操作：

响应于用户的操作，将输入的第一医疗字典的字典数据值作为匹配值，如图2所示，当用户点击图2左侧的字典数据时，比如字典数据值“大脑着色真菌病”，即作为匹配值。

然后并行进行步骤B）被匹配数据获取和步骤C)分词子流程：

在步骤B）中，根据步骤A）中的用户操作，图2右侧就会根据步骤A）中的匹配值从第二医疗字典获取被匹配数据列表，具体是根据所输入的匹配值所处在的第一医疗字典中的类别，从第二医疗字典中获取相同类别的字典数据值作为被匹配数据列表。

在步骤C）中，对步骤A）中匹配值进行分词处理，获得分词列表；具体是根据预制的医疗术语词库并采用IK分词器来实现分词处理，比如是将医疗术语词库放入到IK分词器中，通过分词方法，得到分词列表的一个数据集合。例如：匹配值“大脑着色真菌病”，分词为“大脑”、“着色”、“真菌病”。具体的，在分词处理中，如果匹配值中有语气助词，将会被忽略，比如匹配值“未特指的着色菌”，将会被分词为“未”、“特指”、“着色菌”，其中的“的”将暂时被忽略。

然后进行步骤D)相似度计算，将“被匹配数据列表”进行循环与“分词列表”进行相似度计算，直到循环完成，得到“结果列表”。

具体的，如图3所示，步骤D）中，先将匹配值、匹配值分词列表、被匹配值列表，三个参数输入。

然后进行相似度初步计算：循环匹配值分词列表与缓存中的被匹配数据列表进行匹配，具体将分词列表中的每个分词值依次与被匹配数据列表中的所有被匹配数据分别进行相似度计算，判断被匹配数据是否包含分词值，若有包含，则表示匹配成功，将对应的分词值和被匹配数据放入相似度预选KV集合。这里K代表key，为匹配值，V代表Value为对象，包括三个属性：①匹配成功的匹配值分词列表matchList；②匹配成功的匹配值分词列表的长度之和matchLen，matchLen根据matchList计算得出；③被匹配数据。如果匹配成功，而相似度预选KV集合的key已经存在，表示“被匹配数据”已经命中1次以上，则将当前“分词”添加到“匹配成功的匹配值分词列表”。

在相似度初步计算后，已经得到与“匹配值”与“被匹配数据”之间的相似的初步计算结果，然后对相似度预选KV集合中的被匹配数据进行权重排序，按照业务的需求进行相似度的调整，具体有三种权重配属属性：

①内容匹配成功权重timesWeight，取值在0-1之间；根据被匹配数据成功匹配的次数及相似度预选KV集合中的分词长度之和与匹配值长度的接近程度计算设置，成功匹配的次数越多、长度接近程度越高，匹配率越高。

②匹配值顺序权重orderWeight，取值在0-1之间，且orderWeight+ timesWeight= 1。根据相似度预选KV集合中的分词列表与进行相似度计算之前的分词列表顺序一致性计算设置，具体顺序可以通过“匹配成功的匹配值分词列表”与最初的“匹配值分词列表”进行对比得出，如果两个列表的长度相同，出现在同一索引位置的分词相同值个数越高，则顺序越一致。

③根据列表获取时是否进行过语气助词忽略，调整“匹配值助词参数”，若进行过语气助词忽略，则需要计算助词，用1表示，若未进行过语气助词忽略，则不计算助词，用0表示。表示为0时，需要根据匹配值长度与相似度预选KV集合中的分词长度之和获得被忽略的语气助词长度auxiliaryLen，将auxiliaryLen补充到①内容匹配成功权重timesWeight的长度计算中，具体需要将auxiliaryLen补充到相似度预选KV集合中的分词长度中，再进行内容匹配成功权重计算设置。

对应计算公式大致如下：

其中：matchList—匹配成功的匹配值分词列表、matchLen—匹配成功的匹配值的长度之合、keywordsLen—匹配值的长度、auxiliaryLen—助词的长度、praticpleList—匹配值分词列表、praticpleLen—匹配值分词列表的长度之合。

其中：((matchList[0]==praticpleList[0])?1:0)为三目运算符，表示如果matchList[0]==praticpleList[0]为真，则取1，如果matchList[0]==praticpleList[0]为假，则取0，其中“==”为C语言中的关系运算符，表示等于。具体matchList[x]==praticpleList[x]是表示在匹配成功的匹配值分词列表和匹配值分词列表中，从第1个分词开始（x从0,1,……开始取值），看看是否完全匹配。

本申请实施例的匹配方法在单个字典数据量10W以下可以做到模糊计算秒级别匹配，并且硬件资源消耗较低，只需要Java虚拟机环境，最低启动内存256M，基于现场的数据量较大一般设置在1G-2G即可；并且相似度匹配准确率达到99%以上，并可以按照匹配次数、关键词顺序、助词的重要性进行匹配率的调整。

本申请实施例的另一个方面，提供一种医疗字典数据匹配装置，如图4所示，应用于平台系统与三方系统之间的医疗字典对照，包括列表获取模块、相似度计算模块、权重排序模块。为了便于描述，将平台系统的医疗数据字典称为第一医疗字典，将三方系统的医疗数据字典称为第二医疗字典，根据实际应用情况，两者的名称也可以互换。

列表获取模块用于将输入的第一医疗字典的字典数据值作为匹配值，根据匹配值从第二医疗字典获取被匹配数据列表，并对匹配值进行分词处理，获得分词列表。

具体的，列表获取模块响应于用户的操作，将输入的第一医疗字典的字典数据值作为匹配值，当用户点击图2左侧的字典数据时，比如字典数据值“大脑着色真菌病”，即作为匹配值。图2右侧就会根据匹配值从第二医疗字典获取被匹配数据列表，具体是根据所输入的匹配值所处在的第一医疗字典中的类别，从第二医疗字典中获取相同类别的字典数据值作为被匹配数据列表。

分词处理时，根据预制的医疗术语词库并采用IK分词器来实现分词处理，比如是将医疗术语词库放入到IK分词器中，通过分词方法，得到分词列表的一个数据集合。例如：匹配值“大脑着色真菌病”，分词为“大脑”、“着色”、“真菌病”。具体的，在分词处理中，如果匹配值中有语气助词，将会被忽略，比如匹配值“未特指的着色菌”，将会被分词为“未”、“特指”、“着色菌”，其中的“的”将暂时被忽略。

相似度计算模块用于将分词列表中的每个分词值依次与被匹配数据列表中的所有被匹配数据分别进行相似度计算，判断被匹配数据是否包含分词值，若有包含，则表示匹配成功，将对应的分词值和被匹配数据放入相似度预选KV集合。

具体相似度计算模块在进行处理时，将匹配值、匹配值分词列表、被匹配值列表，三个参数输入。

权重排序模块用于对相似度预选KV集合中的被匹配数据进行权重排序，包括内容匹配成功权重和匹配值顺序权重，内容匹配成功权重根据被匹配数据成功匹配的次数及相似度预选KV集合中的分词长度之和与匹配值长度的接近程度计算设置，匹配值顺序权重根据相似度预选KV集合中的分词列表与进行相似度计算之前的分词列表顺序一致性计算设置，其中，内容匹配成功权重和匹配值顺序权重均取值在0-1之间，且内容匹配成功权重和匹配值顺序权重加和等于1。

具体的，按照业务的需求进行相似度的调整，具体有三种权重配属属性：

本申请实施例的又一方面，提供一种电子设备，包括：至少一个处理器和存储器；其中，所述存储器存储有计算机执行指令；在所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行前文实施例所述的医疗字典数据匹配方法。

本申请实施例的再一方面，一种计算机可读存储介质，其上存储有计算机程序，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行前文实施例所述的医疗字典数据匹配方法。

以上所述仅为本发明的优选实施例，并不表示是唯一的或是限制本发明。本领域技术人员应理解，在不脱离本发明的范围情况下，对本发明进行的各种改变或同等替换，均属于本发明保护的范围。

Claims

1.一种医疗字典数据匹配方法，其特征在于，包括步骤：

将输入的第一医疗字典的字典数据值作为匹配值，根据匹配值所处在的第一医疗字典中的类别，从第二医疗字典中获取相同类别的字典数据值作为被匹配数据列表，并根据预制的医疗术语词库采用IK分词器对匹配值进行分词处理，获得分词列表；

2.根据权利要求1所述的医疗字典数据匹配方法，其特征在于，对匹配值进行分词处理时，忽略掉语气助词；在进行权重排序时，根据匹配值长度与相似度预选KV集合中的分词长度之和获得被忽略的语气助词长度，将语气助词长度补充到相似度预选KV集合中的分词长度中，再进行内容匹配成功权重计算设置。

3.一种医疗字典数据匹配装置，其特征在于，包括：

列表获取模块，用于将输入的第一医疗字典的字典数据值作为匹配值，根据匹配值所处在的第一医疗字典中的类别，从第二医疗字典中获取相同类别的字典数据值作为被匹配数据列表，并根据预制的医疗术语词库采用IK分词器对匹配值进行分词处理，获得分词列表；

4.根据权利要求3所述的医疗字典数据匹配装置，其特征在于，列表获取模块对匹配值进行分词处理时，忽略掉语气助词；权重排序模块在进行权重排序时，根据匹配值长度与相似度预选KV集合中的分词长度之和获得被忽略的语气助词长度，将语气助词长度补充到相似度预选KV集合中的分词长度中，再进行内容匹配成功权重计算设置。

5.一种电子设备，包括：至少一个处理器和存储器；其中，所述存储器存储有计算机执行指令；其特征在于，在所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1或2所述的医疗字典数据匹配方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1或2的医疗字典数据匹配方法。