CN116721778B

CN116721778B - 一种医学术语标准化方法、系统、设备及介质

Info

Publication number: CN116721778B
Application number: CN202311000882.7A
Authority: CN
Inventors: 郭鹏; 邓小宁; 史浩田; 浦飞飞; 张海音; 蒋昕; 唐倩
Original assignee: North Health Medical Big Data Technology Co ltd
Current assignee: North Health Medical Big Data Technology Co ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2024-01-09
Anticipated expiration: 2043-08-10
Also published as: CN116721778A

Abstract

本申请公开了一种医学术语标准化方法、系统、设备及介质，主要涉及医学术语标准化技术领域，用以解决现有医学术语在训练过程中需要提供大量标注数据，存在标注误差，影响医学术语的准确性的问题。包括：获取医学术语标注数据，使用医学术语标注数据训练预设小样本对比学习算法；通过训练好的预设小样本对比学习算法，将医学术语数据库中的医学术语进行编码，以获得对应的第一向量化表示；将第一向量化表示放入向量化搜索引擎中，以更新向量化搜索引擎；通过训练好的预设小样本对比学习算法，获取输入的待标准化医学术语对应的第二向量化表示；通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的标准医学术语。

Description

一种医学术语标准化方法、系统、设备及介质

技术领域

本申请涉及医学术语标准化技术领域，尤其涉及一种医学术语标准化方法、系统、设备及介质。

背景技术

医学术语标准化是将不同来源或格式的医学术语统一为一种标准形式的过程，旨在实现数据的互操作性。这对于数据要素共享、医疗决策支持系统、医疗科学研究等都至关重要。然而，医学术语的多样性和复杂性导致了术语间的映射和转换问题。例如，同一种疾病在不同的术语集中可能有不同的编码和名称。此外，医生在记录病人信息时可能会使用各种缩写、同义词和非正式的术语，这进一步增加了标准化的复杂性。

现有的医学术语标准化的实现方案主要为：获取医学术语原始数据；对医学术语原始数据进行分类，得到短术语类数据和长术语类数据；建立与短术语类数据对应的同义词库；根据同义词库、变体规则库、召回模型和排序模型构建医学术语标准化框架。

但是，上述方法为了使后续模型能够得到有效的训练，需要为算法提供大量的分类标注数据。而分类标注数据需要大量的时间和人力资源，也存在因为标注者的专业知识、经验和注意力等因素的不同导致同一份数据给出不同的标注结果从而导致标注结果的一致性和可靠性降低的问题。

发明内容

针对现有技术的上述不足，本申请提供一种医学术语标准化方法、系统、设备及介质，以解决现有医学术语在训练过程中需要提供大量标注数据，存在标注误差，影响医学术语的准确性的技术问题。

第一方面，本申请提供了一种医学术语标准化方法，方法包括：创建医学术语数据库和数据库对应的向量化搜索引擎；其中，医学术语数据库包含若干医学术语，医学术语至少包括非标准医学术语、标准医学术语，医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系；获取医学术语标注数据，使用医学术语标注数据训练预设小样本对比学习算法；通过训练好的预设小样本对比学习算法，将医学术语数据库中的医学术语进行编码，以获得对应的第一向量化表示；将第一向量化表示放入向量化搜索引擎中，以更新向量化搜索引擎；通过训练好的预设小样本对比学习算法，获取输入的待标准化医学术语对应的第二向量化表示；通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的标准医学术语。

进一步地，方法还包括：检测输入的待标准化医学术语是否存在于医学术语数据集中，在不存在于医学术语数据集中时，将输入的待标准化医学术语以及待标准化医学术语与标准医学术语之间的对应关系导入医学术语数据集中，以完成医学术语数据集更新；并将输入的待标准化医学术语对应的第二向量化表示，放入向量化搜索引擎中，以更新向量化搜索引擎。

进一步地，通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的标准医学术语，具体包括：通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的若干医学术语；通过相似度计算算法，确定相似度超过预设阈值的若干医学术语为校对医学术语；确定相似度最高的医学术语为参考医学术语；确定若干校对医学术语对应的标准医学术语中出现次数最多的为校对标准医学术语；确定参考医学术语对应的参考标准医学术语；当校对标准医学术语与参考标准医学术语一致时，确定校对标准医学术语为输入的待标准化医学术语对应的标准医学术语；在不一致时，生成校对任务至预设用户校对终端。

进一步地，在获取输入的待标准化医学术语对应的第二向量化表示之前，方法还包括：通过预设数据获取界面，获取输入的待标准化医学术语。

第二方面，本申请提供了一种医学术语标准化系统，系统包括：创建模块，用于创建医学术语数据库和数据库对应的向量化搜索引擎；其中，医学术语数据库包含若干医学术语，医学术语至少包括非标准医学术语、标准医学术语，医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系；更新模块，用于获取医学术语标注数据，使用医学术语标注数据训练预设小样本对比学习算法；通过训练好的预设小样本对比学习算法，将医学术语数据库中的医学术语进行编码，以获得对应的第一向量化表示；将第一向量化表示放入向量化搜索引擎中，以更新向量化搜索引擎；获取模块，用于通过训练好的预设小样本对比学习算法，获取输入的待标准化医学术语对应的第二向量化表示；通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的标准医学术语。

进一步地，系统还包括：再次更新模块，检测输入的待标准化医学术语是否存在于医学术语数据集中，在不存在于医学术语数据集中时，将输入的待标准化医学术语以及待标准化医学术语与标准医学术语之间的对应关系导入医学术语数据集中，以完成医学术语数据集更新；并将输入的待标准化医学术语对应的第二向量化表示，放入向量化搜索引擎中，以更新向量化搜索引擎。

进一步地，获取模块包括校准单元，用于通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的若干医学术语；通过相似度计算算法，确定相似度超过预设阈值的若干医学术语为校对医学术语；确定相似度最高的医学术语为参考医学术语；确定若干校对医学术语对应的标准医学术语中出现次数最多的为校对标准医学术语；确定参考医学术语对应的参考标准医学术语；当校对标准医学术语与参考标准医学术语一致时，确定校对标准医学术语为输入的待标准化医学术语对应的标准医学术语；在不一致时，生成校对任务至预设用户校对终端。

进一步地，获取模块包括获取单元，用于通过预设数据获取界面，获取输入的待标准化医学术语。

第三方面，本申请提供了一种医学术语标准化设备，设备包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被执行时，使得处理器执行如上述任一项的一种医学术语标准化方法。

第四方面，本申请提供了一种非易失性计算机存储介质，其上存储有计算机指令，计算机指令在被执行时实现如上述任一项的一种医学术语标准化方法。

本领域技术人员能够理解的是，本申请至少具有如下有益效果：

本申请通过小样本医学术语标注数据以及预设小样本对比学习算法，减少了人工标注的成本，使用向量化搜索引擎提高了系统的响应速度。另外，本申请能够自动更新医学术语数据库和向量化搜索引擎，实现了不断更新完善系统的技术效果。

附图说明

下面参照附图来描述本公开的部分实施例，附图中：

图1是本申请实施例提供的一种医学术语标准化方法流程图。

图2是本申请实施例提供的一种医学术语标准化系统内部结构示意图。

图3是本申请实施例提供的一种医学术语标准化设备内部结构示意图。

具体实施方式

本领域技术人员应当理解的是，下文所描述的实施例仅仅是本公开的优选实施例，并不表示本公开仅能通过该优选实施例实现，该优选实施例仅仅是用于解释本公开的技术原理，并非用于限制本公开的保护范围。基于本公开提供的优选实施例，本领域普通技术人员在没有付出创造性劳动的情况下所获得的其它所有实施例，仍应落入到本公开的保护范围之内。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

下面通过附图对本申请实施例提出的技术方案进行详细的说明。

本申请实施例提供了一种医学术语标准化方法，如图1所示，本申请实施例提供的方法，主要包括以下步骤：

步骤110、创建医学术语数据库和数据库对应的向量化搜索引擎。

需要说明的是，医学术语数据库包含若干医学术语，医学术语至少包括非标准医学术语、标准医学术语，医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系。向量化搜索引擎可以具体为TiDB向量化执行引擎。

另外，医学术语数据库中的具体内容由本领域技术人员自行确定。非标准医学术语至少包括医疗术语缩写、医疗术语同义词和医疗术语非正式表达等。

步骤120、获取医学术语标注数据，使用医学术语标注数据训练预设小样本对比学习算法；通过训练好的预设小样本对比学习算法，将医学术语数据库中的医学术语进行编码，以获得对应的第一向量化表示；将第一向量化表示放入向量化搜索引擎中，以更新向量化搜索引擎。

需要说明的是，医学术语标注数据为小样本数据，例如50条医学术语标注数据。预设小样本对比学习算法可以具体为simcse算法。另外，通过预设小样本对比学习算法（simcse算法）对数据进行编码，以获得对应向量化表示的具体方法可由现有技术实现，本申请对此不做限定。

另外，训练预设小样本对比学习算法的过程可由现有技术实现，本申请不做限定。

步骤130、通过训练好的预设小样本对比学习算法，获取输入的待标准化医学术语对应的第二向量化表示；通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的标准医学术语。

本申请使用向量化搜索引擎提高了系统的响应速度。

另外，在获取输入的待标准化医学术语对应的第二向量化表示之前，本申请可以通过预设数据获取界面，获取输入的待标准化医学术语。

其中，通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的标准医学术语，可以具体为：

通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的若干医学术语（医学术语数据库中的非标准医学术语、标准医学术语）；通过相似度计算算法，确定相似度超过预设阈值的若干医学术语为校对医学术语；确定相似度最高的医学术语为参考医学术语；确定若干校对医学术语对应的标准医学术语中出现次数最多的为校对标准医学术语；确定参考医学术语对应的参考标准医学术语；当校对标准医学术语与参考标准医学术语一致时，确定校对标准医学术语为输入的待标准化医学术语对应的标准医学术语；在不一致时，生成校对任务至预设用户校对终端。

需要说明的是，医学术语数据库中存在非标准医学术语和标准医学术语。因此，获取到的医学术语可能为非标准医学术语或标准医学术语。由于，医学术语数据库还存储了非标准医学术语和标准医学术语之间的对应关系，可以通过非标准医学术语找到对应的标准医学术语。

此外，本申请可以在获得输入的待标准化医学术语时更新医学术语数据集和向量化搜索引擎。作为示例地，检测输入的待标准化医学术语是否存在于医学术语数据集中，在不存在于医学术语数据集中时，将输入的待标准化医学术语以及待标准化医学术语与标准医学术语之间的对应关系导入医学术语数据集中，以完成医学术语数据集更新；并将输入的待标准化医学术语对应的第二向量化表示，放入向量化搜索引擎中，以更新向量化搜索引擎。

除此之外，图2为本申请实施例提供的一种医学术语标准化系统。如图2所示，本申请实施例提供的系统，主要包括：

创建模块210，用于创建医学术语数据库和数据库对应的向量化搜索引擎；其中，医学术语数据库包含若干医学术语，医学术语至少包括非标准医学术语、标准医学术语，医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系。

需要说明的是，创建模块210可以为任意可行的能够进行数据库创建、向量化搜索引擎创建的设备或装置等。

更新模块220，用于获取医学术语标注数据，使用医学术语标注数据训练预设小样本对比学习算法；通过训练好的预设小样本对比学习算法，将医学术语数据库中的医学术语进行编码，以获得对应的第一向量化表示；将第一向量化表示放入向量化搜索引擎中，以更新向量化搜索引擎。

需要说明的是，更新模块220可以为任意可行的能够获取数据、进行算法训练、调用算法以及获取向量化表示等数据处理操作的设备或装置等。

获取模块230，用于通过训练好的预设小样本对比学习算法，获取输入的待标准化医学术语对应的第二向量化表示；通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的标准医学术语。

需要说明的是，获取模块230可以为任意可行的能够进行数据处理的设备或装置等。

获取模块230包括校准单元231，用于通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的若干医学术语；通过相似度计算算法，确定相似度超过预设阈值的若干医学术语为校对医学术语；确定相似度最高的医学术语为参考医学术语；确定若干校对医学术语对应的标准医学术语中出现次数最多的为校对标准医学术语；确定参考医学术语对应的参考标准医学术语；当校对标准医学术语与参考标准医学术语一致时，确定校对标准医学术语为输入的待标准化医学术语对应的标准医学术语；在不一致时，生成校对任务至预设用户校对终端。

需要说明的是，校准单元231可以为和获取模块230连接能接收数据进行数据处理的设备或装置等。

获取模块230包括获取单元232，用于通过预设数据获取界面，获取输入的待标准化医学术语。

需要说明的是，获取单元232可以为和获取模块230连接能获取输入的待标准化医学术语的设备或装置等。

系统还包括：再次更新模块240，用于检测输入的待标准化医学术语是否存在于医学术语数据集中，在不存在于医学术语数据集中时，将输入的待标准化医学术语以及待标准化医学术语与标准医学术语之间的对应关系导入医学术语数据集中，以完成医学术语数据集更新；并将输入的待标准化医学术语对应的第二向量化表示，放入向量化搜索引擎中，以更新向量化搜索引擎。

需要说明的是，再次更新模块240可以为任意可行的能够进行数据更新的设备或装置等。

以上为本申请中的方法实施例，基于同样的发明构思，本申请实施例还提供了一种医学术语标准化设备。如图3所示，该设备包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被执行时，使得处理器执行如上述实施例中的一种医学术语标准化方法。

具体地，服务器端创建医学术语数据库和数据库对应的向量化搜索引擎；其中，医学术语数据库包含若干医学术语，医学术语至少包括非标准医学术语、标准医学术语，医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系；获取医学术语标注数据，使用医学术语标注数据训练预设小样本对比学习算法；通过训练好的预设小样本对比学习算法，将医学术语数据库中的医学术语进行编码，以获得对应的第一向量化表示；将第一向量化表示放入向量化搜索引擎中，以更新向量化搜索引擎；通过训练好的预设小样本对比学习算法，获取输入的待标准化医学术语对应的第二向量化表示；通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的标准医学术语。

除此之外，本申请实施例还提供了一种非易失性计算机存储介质，其上存储有可执行指令，在该可执行指令被执行时，实现如上述的一种医学术语标准化方法。

至此，已经结合前文的多个实施例描述了本公开的技术方案，但是，本领域技术人员容易理解的是，本公开的保护范围并不仅限于这些具体实施例。在不偏离本公开技术原理的前提下，本领域技术人员可以对上述各个实施例中的技术方案进行拆分和组合，也可以对相关技术特征作出等同的更改或替换，凡在本公开的技术构思和/或技术原理之内所做的任何更改、等同替换、改进等都将落入本公开的保护范围之内。

Claims

1.一种医学术语标准化方法，其特征在于，所述方法包括：

创建医学术语数据库和数据库对应的向量化搜索引擎；其中，医学术语数据库包含若干医学术语，医学术语至少包括非标准医学术语、标准医学术语，医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系；

获取医学术语标注数据，使用医学术语标注数据训练预设小样本对比学习算法；通过训练好的预设小样本对比学习算法，将医学术语数据库中的医学术语进行编码，以获得对应的第一向量化表示；将第一向量化表示放入向量化搜索引擎中，以更新向量化搜索引擎；

检测输入的待标准化医学术语是否存在于医学术语数据库中，在不存在于医学术语数据库中时，将输入的待标准化医学术语以及待标准化医学术语与标准医学术语之间的对应关系导入医学术语数据库中，以完成医学术语数据库更新；并将输入的待标准化医学术语对应的第二向量化表示，放入向量化搜索引擎中，以更新向量化搜索引擎；

通过训练好的预设小样本对比学习算法，获取输入的待标准化医学术语对应的第二向量化表示；

通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的标准医学术语；

具体地，通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的若干医学术语；通过相似度计算算法，确定相似度超过预设阈值的若干医学术语为校对医学术语；确定相似度最高的医学术语为参考医学术语；确定若干校对医学术语对应的标准医学术语中出现次数最多的为校对标准医学术语；确定参考医学术语对应的参考标准医学术语；当校对标准医学术语与参考标准医学术语一致时，确定校对标准医学术语为输入的待标准化医学术语对应的标准医学术语；在不一致时，生成校对任务至预设用户校对终端。

2.根据权利要求1所述的医学术语标准化方法，其特征在于，在获取输入的待标准化医学术语对应的第二向量化表示之前，所述方法还包括：

通过预设数据获取界面，获取输入的待标准化医学术语。

3.一种医学术语标准化系统，其特征在于，所述系统包括：

创建模块，用于创建医学术语数据库和数据库对应的向量化搜索引擎；其中，医学术语数据库包含若干医学术语，医学术语至少包括非标准医学术语、标准医学术语，医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系；

更新模块，用于获取医学术语标注数据，使用医学术语标注数据训练预设小样本对比学习算法；通过训练好的预设小样本对比学习算法，将医学术语数据库中的医学术语进行编码，以获得对应的第一向量化表示；将第一向量化表示放入向量化搜索引擎中，以更新向量化搜索引擎；

再次更新模块，检测输入的待标准化医学术语是否存在于医学术语数据库中，在不存在于医学术语数据库中时，将输入的待标准化医学术语以及待标准化医学术语与标准医学术语之间的对应关系导入医学术语数据库中，以完成医学术语数据库更新；并将输入的待标准化医学术语对应的第二向量化表示，放入向量化搜索引擎中，以更新向量化搜索引擎；

获取模块，用于通过训练好的预设小样本对比学习算法，获取输入的待标准化医学术语对应的第二向量化表示；通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的标准医学术语；

获取模块包括校准单元，

用于通过更新后的向量化搜索引擎，获取第二向量化表示在医学术语数据库中对应的若干医学术语；通过相似度计算算法，确定相似度超过预设阈值的若干医学术语为校对医学术语；确定相似度最高的医学术语为参考医学术语；确定若干校对医学术语对应的标准医学术语中出现次数最多的为校对标准医学术语；确定参考医学术语对应的参考标准医学术语；当校对标准医学术语与参考标准医学术语一致时，确定校对标准医学术语为输入的待标准化医学术语对应的标准医学术语；在不一致时，生成校对任务至预设用户校对终端。

4.根据权利要求3所述的医学术语标准化系统，其特征在于，获取模块包括获取单元，

用于通过预设数据获取界面，获取输入的待标准化医学术语。

5.一种医学术语标准化设备，其特征在于，所述设备包括：

处理器；

以及存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-2任一项所述的一种医学术语标准化方法。

6.一种非易失性计算机存储介质，其特征在于，其上存储有计算机指令，所述计算机指令在被执行时实现如权利要求1-2任一项所述的一种医学术语标准化方法。