CN116150382A

CN116150382A - 一种确定标准化医疗专业名词的方法及装置

Info

Publication number: CN116150382A
Application number: CN202310422821.3A
Authority: CN
Inventors: 赵礼悦; 齐综擎; 李格
Original assignee: Beijing Asiainfo Data Co ltd
Current assignee: Beijing Asiainfo Data Co ltd
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-05-23
Anticipated expiration: 2043-04-19
Also published as: CN116150382B

Abstract

本发明公开了一种确定标准化医疗专业名词的方法及装置。所述方法包括：获取待标准化的医疗专业名词，对该医疗专业名词分类，确定该医疗专业名词对应的类型信息；将待标准化的医疗专业名词输入至预先训练完成的医疗专业名词特征提取模型进行特征提取，得到对应的特征向量作为第一特征向量；获取该类型信息下所有标准医疗专业名词对应的特征向量，作为第二特征向量；计算第一特征向量与各第二特征向量间的相似度值；根据相似度值，确定与待标准化的医疗专业名词匹配的标准医疗专业名词。本发明先分类再映射的方式避免非同一类型下的标准医疗专业名词对映射结果的干扰，提升映射结果的准确性，并且极大地提升了医疗专业名词进行标准化的效率。

Description

一种确定标准化医疗专业名词的方法及装置

技术领域

本发明涉及医保风控领域，特别涉及一种确定标准化医疗专业名词的方法及装置。

背景技术

由于不同的医院使用的医疗信息系统不同，记录信息的方式也不同，当多家医院之间需要进行信息交换时，因为计算机只能识别代码和标识符，所以导致在语义层面上信息无法交换，无法实现跨区域医疗、跨系统医疗等医疗资源共享，因此。对医疗专业名词标准化对实现医疗资源共享具有十分重要的意义。

医护专业人员在长期从事医疗业务的过程中，积累了很多的非标准医疗专业名词，医疗专业名词是医保风控数据中重要的线索来源，因此实现风控数据中医疗专业名词标准化具有重要意义，早期对医疗名词标准化的方式依靠手工校对和手工补充的方式，这种方式对医疗专家的依赖性较强，人工处理的效率也较低，尚没有一种高效便捷的方法将非标准医疗专业名词映射成医疗专业名词。

发明内容

鉴于上述问题，发明人提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定标准化医疗专业名词的方法及装置。

第一方面，本发明实施例提供一种确定标准化医疗专业名词的方法，包括：

获取待标准化的医疗专业名词，对所述医疗专业名词分类，确定所述医疗专业名词对应的类型信息；

将待标准化的医疗专业名词输入至预先训练完成的医疗专业名词特征提取模型进行特征提取，得到对应的特征向量作为第一特征向量；获取所述类型信息下所有标准医疗专业名词对应的特征向量，作为第二特征向量；

计算所述第一特征向量与各所述第二特征向量间的相似度值；

根据相似度值，确定与待标准化的医疗专业名词匹配的标准医疗专业名词。

在一个实施例中，在所述将待标准化的医疗专业名词输入医疗专业名词特征提取模型进行特征提取的步骤之前，还包括：

将所述标准医疗专业名词库中各类型信息下的名词分别输入至所述医疗专业名词特征提取模型进行特征提取，得到所述各类型信息下的名词分别对应的特征向量并保存；

则相应地，所述获取所述类型信息下所有标准医疗专业名词对应的特征向量，包括：

提取预先保存的所述类型信息下所有标准医疗专业名词对应的特征向量。

在一个实施例中，所述医疗专业名词特征提取模型通过下述方式训练得到：

获取多个客户医疗专业名词及多个标准医疗专业名词；

根据名词间的映射关系，将所述客户医疗专业名词和所述标准医疗专业名词组合作为训练样本，生成样本集；

将所述样本集输入至孪生网络模型中进行特征提取，并根据各所述训练样本在所述孪生网络模型内提取的特征向量间的差异进行模型参数优化调整，将调整后的模型作为医疗专业名词特征提取模型。

在一个实施例中，获取待标准化的医疗专业名词，对所述医疗专业名词分类，确定所述医疗专业名词对应的类型信息，包括：

获取待分类的医疗专业名词；

将所述待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取，得到所述待分类的医疗专业名词对应的特征向量，作为第三特征向量；

将所述第三特征向量输入至第一医疗专业名词分类模型进行分类识别，得到第二类型标签，将所述第二类型标签作为所述待分类的医疗专业名词的类型结果；其中，所述第二类型标签用于表征所述待分类的医疗专业名词所属的类型信息。

在一个实施例中，上述确定标准化医疗专业名词的方法，还包括：

获取原始数据中所述待分类的医疗专业名词对应的类型信息，作为原始类型信息；

则相应地，在所述得到第二类型标签的步骤之后，还包括：

判断所述第二类型标签表征的类型信息，与所述原始类型信息是否一致；

若不一致，则对原始类型标签与所述第三特征向量进行向量拼接，得到拼接向量；其中，所述原始类型标签为所述原始类型信息对应的类型标签；

将所述拼接向量输入至第二医疗专业名词分类模型进行分类识别，得到第三类型标签，将所述第三类型标签作为所述待分类的医疗专业名词的类型结果；其中，所述第二医疗专业名词分类模型是根据医疗专业名词和对应的类型信息组合后作为样本训练得到的。

在一个实施例中，在所述判断所述第二类型标签表征的类型信息，与所述原始类型信息是否一致之前，还包括：

若所述原始类型信息与所述第二类型标签表征的类型信息对应的分类规则不同，根据预先建立的原始类型信息与第二类型标签之间的映射关系，确定所述原始类型信息映射后对应的类型信息，作为第四类型标签；

则相应地，所述判断所述第二类型标签表征的类型信息，与所述原始类型信息是否一致，具体为：判断所述第四类型标签表征的类型信息，与所述原始类型信息映射后对应的类型信息是否一致。

在一个实施例中，所述医疗专业名词分类模型通过下述训练方法训练得到：

获取数据库中各医疗专业名词及预先确定的所述医疗专业名词对应的类型标签，作为第一类型标签；

将各所述医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取，得到各所述医疗专业名词对应的特征向量，作为第四特征向量；

根据各所述医疗专业名词对应的所述第四特征向量和所述第一类型标签生成训练样本，并将所述训练样本输入至预搭建的分类模型进行训练，将训练得到的模型作为第一医疗专业名词分类模型。

第二方面，本发明实施例提供一种确定标准化医疗专业名词的装置，包括：

分类模块，用于获取待标准化的医疗专业名词，对所述医疗专业名词分类，确定所述医疗专业名词对应的类型信息；

获取模块，用于获取所述类型信息下所有标准医疗专业名词；

相似度计算模块，用于将待标准化的医疗专业名词，与对应类型信息下的所有标准医疗专业名词输入至预先训练完成的医疗名词特征提取模型中，获取医疗名词特征提取模型输出的待标准化的医疗专业名词与至少一个标准医疗专业名词之间的相似度值；

标准化模块，用于根据相似度值，确定与待标准化的医疗专业名词匹配的标准医疗专业名词。

第三方面，本发明实施例提供一种计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令被处理器执行时实现如前述的确定标准化医疗专业名词的方法。

第四方面，本发明实施例提供一种计算设备，包括：存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如前述的确定标准化医疗专业名词的方法。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的确定标准化医疗专业名词的方法，对待标准化的医疗专业名词预先进行分类，确定医疗专业名词对应的类型信息，然后将待标准化的医疗专业名词输入至医疗名词特征提取模型得到对应的特征向量，利用待标准化的医疗专业名词的特征向量与该类型信息下所有标准医疗专业名词的特征向量之间的相似度，最终确定待标准化的医疗专业名词对应的标准医疗专业名词（即确定待标准化的医疗专业名词与标准医疗专业名词之间的映射关系），这种对待标准化的医疗专业名词先分类，再确定待标准化的医疗专业名词和标准医疗专业名词之间映射关系的方式，可以避免非同一类型下的标准医疗专业名词对映射结果的干扰，提升映射结果的准确性。

另外，分别计算待标准化的医疗专业名词的特征向量与各标准医疗专业名词的特征向量之间的相似度值，将根据相似度值，确定待标准化的医疗专业名词的标准化结果，本发明实施例利用机器学习模型，并结合相似度算法，极大地提高了医疗专业名词的标准化过程的效率和准确性，克服了人工处理的效率较低，准确性不高的问题。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的确定标准化医疗专业名词的方法的流程图；

图2为本发明实施例提供的医疗专业名词特征提取模型的训练方法的流程图；

图3为本发明实施例中S2生成样本集的步骤的实现流程图；

图4为本发明实施例孪生网络模型的一个范例的结构框图；

图5为本发明实施例中医疗专业名词分类的方法的流程图；

图6为本发明实施例中反馈机制实现过程的流程图；

图7为本发明实施例中医疗专业名词分类模型的训练方法的流程图；

图8为本发明实施例中确定标准化医疗专业名词的装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种确定标准化医疗专业名词的方法，参照图1所示，包括下述步骤：

S11、获取待标准化的医疗专业名词，对医疗专业名词分类，确定医疗专业名词对应的类型信息；

待标准化的医疗专业名词可以有多种类型，例如“疾病”、“药品”、“医疗服务项目”、“耗材”和“中草药”等等，本发明实施例并不限定具体的类型划分方式。

S12、将待标准化的医疗专业名词输入至预先训练完成的医疗专业名词特征提取模型进行特征提取，得到对应的特征向量作为第一特征向量；获取类型信息下所有标准医疗专业名词对应的特征向量，作为第二特征向量；

本发明实施例中，将医疗领域内标准和规范使用的术语称为标准医疗专业名词，而将口语化的、约定俗成的术语，或者一些术语的简称等等，称为非标准医疗专业名词。待标准化的医疗专业名词，通常可能是非标准医疗专业名词。

S13、计算第一特征向量与各第二特征向量间的相似度值；

例如可分别计算第一特征向量和各个第二特征向量之间的余弦相似度值，余弦相似度越大则表征两个向量之间越接近。

S14、根据相似度值，确定与待标准化的医疗专业名词匹配的标准医疗专业名词。

以余弦相似度为例，相似度越大，则表明第二特征向量对应的标准医疗专业名词与待标准化的医疗专业名词越接近，因此，根据余弦相似度大小，就可以选出与待标准化的医疗专业名词最接近的标准医疗专业名词，作为最终标准化的结果。

在一些可选的实施例中，在上述步骤S12之前，也就是将待标准化的医疗专业名词输入医疗专业名词特征提取模型进行特征提取的步骤之前，将标准医疗专业名词库中各类型信息下的名词分别输入至医疗专业名词特征提取模型进行特征提取，得到各类型信息下的名词分别对应的特征向量并保存，以便于后续步骤S12从预先保存的标准医疗专业名词库中提取与待标准化的医疗专业名词属于同一类型信息的各名词的特征向量，得到第二特征向量，而不必在医疗专业名词标准化过程中，再来执行标准医疗专业名词向量提取的步骤，可简化实施过程，并提高医疗专业名词标准化过程的效率。

在一些可选的实施例中，上述步骤S13，可以通过下述公式，对第一特征向量与每个第二特征向量分别进行余弦相似度的计算，得到第一特征向量与各第二特征向量间的余弦相似度值：

；

上式中，A和B表征两个不同的特征向量，即第一特征向量和第二特征向量；

和 />

表征A和B的各分量。

在一些可选的实施例中，上述步骤S14中，提取最大相似度值对应的标准医疗专业名词，作为与待标准化的医疗专业名词匹配的标准医疗专业名词，其中，相似度值用于表征待标准化的医疗专业名词与每个标准医疗专业名词之间的匹配程度。

在一些可选的实施例中，还可以选择与待标准化的医疗专业名词相似度值最高开始的若干个标准医疗专业名词，再结合人工参与审核的方式，最终从所选的多个标准医疗专业名词选择出最终的标准化结果。

用一个具体的例子进行说明：待标准化的医疗专业名词“荷叶”，通过医疗专业名词特征提取模型，得到的与各标准化医疗专业名词的余弦相似度值，如下表1所示，表1中标准医疗专业名词中“荷叶”与待标准化的医疗专业名词“荷叶”的余弦相似度值最高，则标准医疗专业名词“荷叶”作为待标准化的医疗专业名词“荷叶”的标准化结果，进一步地，还可以将标准化后的结果交由医疗专家进行人工校对，进一步保证标准化结果的准确性。

表1：

本发明实施例提供的确定标准化医疗专业名词的方法中，分别计算待标准化的医疗专业名词的特征向量与各标准医疗专业名词的特征向量之间的相似度值，将相似度值最高的标准医疗专业名词作为待标准化的医疗专业名词的标准化结果，利用机器学习模型，并结合相似度算法，极大地提高了医疗专业名词的标准化过程的效率和准确性，克服了人工处理的效率较低，准确性不高的问题。

在一个实施例中，上述特征提取模型，可以通过下述医疗专业名词特征提取模型的训练方法得到。

本发明实施例提供一种医疗专业名词特征提取模型的训练方法，其流程如图2所示，包括如下步骤：

步骤S1：获取多个客户医疗专业名词及多个标准医疗专业名词；

步骤S2：根据名词间的映射关系，将客户医疗专业名词和标准医疗专业名词组合作为训练样本，生成样本集；

步骤S3：将样本集输入至孪生网络模型中进行特征提取，并根据各训练样本在孪生网络模型内提取的特征向量间的差异进行模型参数优化调整，将调整后的模型作为医疗专业名词特征提取模型。

在本发明实施例中，将来源于医疗机构信息系统的医疗专业名词，称为客户医疗专业名词。

客户医疗专业名词，可能都是非标准医疗专业名词，也有可能同时包含非标准医疗专业名词和标准医疗专业名词。

客户医疗专业名词来自于不同医院信息系统的诊疗记录中，由于不同的医院使用的信息系统不同，信息记录的方式也不同，导致客户医疗专业名词中较大比例的可能是非标准医疗专业名词，并且同一个医疗专业名词的记录可能是不唯一的、具有形式多样的表达方式，不利于实现跨区域医疗、跨系统医疗等医疗资源共享，因此需要将客户医疗专业名词进行标准化处理。

在上述步骤S2中，每个客户医疗专业名词都有对应的标准医疗专业名词，如果获取到的客户医疗专业名词本身就是标准医疗专业名词，则其对应的标准医疗专业名词也是它本身。

本发明实施例采用孪生网络模型对医疗专业名词进行特征提取，相比其他的特征提取方式，孪生网络模型（Siamese network）能够获得语义上有意义的句向量，并且在孪生网络模型内部使用余弦相似度或曼哈顿距离等方法，对输入的一组训练样本数据的特征向量进行比较，根据差异性对模型参数进行优化调整，使模型充分学习客户医疗专业名词的特征向量和标准医疗专业名词的特征向量之间的匹配关系，保证模型输出的特征向量更接近于真实标准医疗专业名词所对应的特征向量，也就是特征向量的表征更准确。为后续使用训练好的医疗专业名词特征提取模型实现医疗专业名词的标准化提供数据基础。

在一些可选的实施例中，上述步骤S1中，多个客户医疗专业名词和多个标准医疗专业名词具有映射关系，具体可能有多种情形即：1、一个客户医疗专业名词只与一个标准医疗专业名词具有映射关系，一个标准专业名词也只与一个客户医疗专业名词具有映射关系；2、多个客户医疗专业名词可与同一个标准医疗专业名词具有映射关系（通常不会出现一个客户医疗专业名词同时与多个标准医疗专业名词具有对应关系的情况）。

获取客户医疗专业名词的方式可以有多种，例如可以是从多个医院信息系统的诊疗记录中直接获取，也可以通过人工的方式预先选出多个客户医疗专业名词，本发明实施例对此不做限定。

在一些可选的实施例中，如图3所示，上述步骤S2生成样本集的步骤，例如可以通过以下步骤实现：

步骤S21：分别将具有正确映射关系的客户医疗专业名词和标准医疗专业名词组合作为正样本，生成正样本集；

步骤S22：将正样本集中各正样本的客户医疗专业名词和/或标准医疗专业名词进行混洗，生成负样本集。

正样本集的正样本中，客户医疗专业名词和标准医疗专业名词具有正确映射关系，负样本集的负样本中，客户医疗专业名词和标准医疗专业名词的组合正好与正样本相反，是具有错误映射关系。

在一些可选的实施例中，上述步骤S21中，可以按照医疗专业名词的类型，将同一个类型下的客户医疗专业名词和标准医疗专业名词的组合放在一个样本集（正样本集或负样本集）中。当然，也可以不区分医疗专业名词的类型，将不同类型的客户医疗专业名词和标准医疗专业名词的组合放在一个样本集中。

如下表2所示，下表2是同一个类型下（都是“疾病”这个类型）的客户医疗专业名词与对应的标准医疗专业名词组成的正样本集的内容示例，下表2中有两列数据，左边一列数据是客户医疗专业名词，右边一列是与左边的客户医疗专业名词有正确映射关系的标准医疗专业名词，以第一行数据为例，客户医疗专业名词“伤寒杆菌性败血症(省统一)”具有正确映射关系的标准医疗专业名词是“伤寒杆菌性败血症”。

表2：

正样本集也可以是由多个类型的客户医疗专业名词与对应的标准医疗专业名词组成的，用一个具体的例子进行说明，如下表3所示，下表3是多个类型（包括“疾病”、 “药品”、“医疗服务项目”等多个类型）下的客户医疗专业名词与对应的标准医疗专业名词组成的正样本集的内容示例，下表3中有两列数据，左边一列数据是客户医疗专业名词，右边一列是与左边的客户医疗专业名词有正确对应关系的标准医疗专业名词，以第一行数据为例，客户医疗专业名词“伤寒杆菌性败血症（省统一）”对应的标准医疗专业名词是“伤寒杆菌性败血症”。

表3：

在一些可选的实施例中，为了提高负样本的学习效果，可以将较相似但实际上不具备正确映射关系（容易混淆的医疗专业名词）的样本作为加强的负样本进行学习。

具体地，加强的负样本例如通过下述步骤得到：

（一）、将正样本集中各正样本的客户医疗专业名词和/或标准医疗专业名词进行混洗；

可以将标准医疗专业名词列的顺序进行混洗，也可以将客户医疗专业名词列的顺序进行混洗，也可以将两列分别进行混洗，用一个具体的例子说明负样本集的内容，以表3所示的正样本集的内容示例为例，将标准医疗专业名词列的顺序进行混洗，结果如表4所示将客户医疗专业名词列的顺序进行混洗，结果如表5所示，将两列分别进行混洗，结果如表6所示：

表4：

表5：

表6：

（二）、从混洗后的正样本集中，确定不存在正确映射关系且两者相似度值高于预设的相似度阈值的客户医疗专业名词和标准医疗专业名词组合，作为负样本集。

计算客户医疗专业名词和标准医疗专业名词之间的相似度值，可参照现有技术中的相似度计算方法，比如计算余弦相似度或者类似算法等等，本发明实施例对此不再赘述。

在一些可选的实施例中，参照图4所示的孪生网络模型的一个范例即SBERT模型的框架，其结构包括两路输入，即左侧的BERT和pooling输出u向量，右侧BERT和pooling输出v向量，u和v都是文本向量，u和v向量在模型内部的cosine-sim(u,v)模块可计算出两者的余弦相似度，该孪生网络模型的训练目标即：表征同一事物的不同文本，其经由左右两路的BERT和pooling输出的文本向量之间的余弦相似度会尽可能接近1（理想状态为1，表征两者相同或非常相似）。对于本发明实施例来说，使用样本集对预设的孪生网络模型进行训练的过程如下：

将样本集中的样本，即一对医疗专业名词，包括客户医疗专业名词和标准医疗专业名词，作为图4中的Sentence A和Sentence B分别输入两路的BERT，经由左右两路的BERT和pooling 分别转换成对应的特征向量，比如得到512维的客户医疗专业名词对应的特征向量和512维的标准医疗专业名词对应的特征向量，并进一步计算余弦相似度值。以客户医疗专业名词对应的特征向量，与标准医疗专业名词对应的特征向量的余弦相似度值不断提升为目标，对孪生网络模型的参数进行精调，在训练30轮（30个epoch）之后，孪生网络模型的样本集的损失函数值不再下降，代表孪生网络模型的参数调整达到了相对最优解，则停止训练，至此得到医疗专业名词特征提取模型，最终得到的医疗专业名词特征提取模型，即图4中的已训练完成的一路BERT和pooling两部分（比如左路的分支）所构成的模型。

以上是以孪生网络模型为SBERT模型为例说明的，相比其他模型，在计算语义相似度任务上SBERT模型的计算速度更快，效率更高，但本发明实施例并不限定使用上述孪生网络模型的框架进行训练，例如也可以将BERT替换成其他编码器例如transformer等，模型中也可以通过欧式距离来计算文本向量的相似度值等等。采用SBERT模型训练得到的医疗专业名词特征提取模型，也使得模型中的Bert更好地捕捉文本之间的关系，生成更优质的文本向量。

相应地，上述医疗专业名词特征提取模型训练完成之后，可通过训练好的医疗专业名词特征提取模型输出客户医疗专业名词对应的特征向量。

在一个实施例中，上述图1中的步骤S11，可利用预先训练好的第一医疗专业名词分类模型预测未知类型的待标准化的医疗专业名词的分类结果，具体来说，该步骤可通过下述医疗专业名词的分类方法实现。

本发明实施例提供的医疗专业名词分类的方法，其流程参照图5所示，包括如下步骤：

步骤S51：获取待分类的医疗专业名词；

步骤S52：将待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取，得到待分类的医疗专业名词对应的特征向量，作为第三特征向量；

步骤S53：将第三特征向量输入至第一医疗专业名词分类模型进行分类识别，得到第二类型标签，将第二类型标签作为待分类的医疗专业名词的类型结果；其中，第二类型标签用于表征待分类的医疗专业名词所属的类型信息；

在本发明实施例中，为了与训练过程中医疗专业名词所标注的类型标签相区分，将训练过程中医疗专业名词对应的粗分类信息的标签称为第一类型标签，在预测过程中第一医疗专业名词分类模型输出的标签称为第二类型标签，这两种标签均表征对应的粗分类型信息，例如前述“疾病”、“药品”、“医疗服务项目”、“耗材”和“中草药”五种。

在一些可选的实施例中，上述步骤S52中，对待分类的医疗专业名词进行特征提取，得到待分类的医疗专业名词所对应的第三特征向量，例如可以通过类似步骤S2中说明的方法实现，本发明实施例对此不再赘述。

在一些可选的实施例中，上述步骤S53中，将第三特征向量输入至第一医疗专业名词分类模型进行分类识别，得到第二类型标签，第二类型标签用于表征待分类的医疗专业名词的粗分类信息（例如前述例子中“疾病”、“药品”、“医疗服务项目”、“耗材”和“中草药”中的某一种），具体的，对于输入的每个待分类的医疗专业名词，第一医疗专业名词分类模型输出的结果例如可以是一个数值，该数值代表了对应的某个粗分类信息。用一个例子进行说明：在第一医疗专业名词分类模型训练之前，预先设定各个粗分类信息所对应的数值来作为粗分类标签，比如，预先设定数值“0”表示“疾病”、数值“1”表示“药品”、数值“2”表示“中草药”、数值“3”表示“医疗服务项目”、数值“4”表示“耗材”，比如对于医疗专业名词“84消毒液”来说，其正确的粗分类信息为“耗材”，当“84消毒液”对应的第三特征向量输入至第一医疗专业名词分类模型后，第一医疗专业名词分类模型将输出整数“4”，表示“84消毒液”对应的第二类型标签为“4”，换言之，“84消毒液”对应的粗分类信息为“耗材”。

当然，第一医疗专业名词分类模型输出也可以是其他的表现形式，本发明实施例对此不做限定。

用一个具体的例子说明第一医疗专业名词分类模型输出的结果，如下表7所示，左边一列是待分类的医疗专业名词，右边一列是第一医疗专业名词分类模型输出的与待分类的医疗专业名词对应的第二类型标签，每行数据代表某个医疗专业名词通过第一医疗专业名词分类模型得到的对应的分类结果，以第一行数据为例，医疗专业名词“医用胶带”，通过第一医疗专业名词分类模型输出第二类型标签，即输出数值4，数值4代表“耗材”，由此我们可以得出以下结论：“医用胶带”的分类结果为“耗材”：

表7：

为了保证第一医疗专业名词分类模型输出的结果的准确性，本发明实施例还提供了一种反馈机制，可对第一医疗专业名词分类模型输出的结果的准确性进行验证，并在验证发现其不准确的情况下，对其进行校正。参照图6所示，该机制可包括如下步骤：

步骤S61：获取待分类的医疗专业名词，将待分类的医疗专业名词送入至使用孪生网络训练好的文本向量化模型进行特征提取，得到待分类的医疗专业名词对应的特征向量，作为第三特征向量；将第三特征向量输入至第一医疗专业名词分类模型进行分类识别，得到第二类型标签；

步骤S62：获取原始数据中待分类的医疗专业名词对应的类型信息，作为原始类型信息；

如原始类型信息，可参照前述细分类信息的说明，在此不再赘述。

步骤S63：判断第二类型标签表征的类型信息，与原始类型信息是否一致；

步骤S64：若不一致，则对原始类型标签与第三特征向量进行向量拼接，得到拼接向量；其中，原始类型标签为原始类型信息对应的类型标签；

步骤S65：将拼接向量输入至第二医疗专业名词分类模型进行分类识别，得到第三类型标签，将第三类型标签作为待分类的医疗专业名词的类型结果；其中，第二医疗专业名词分类模型是根据医疗专业名词和对应的类型信息组合后作为样本训练得到的。

步骤S66：若一致，则使用第二类型标签得到最终的分类结果。

在一些可选的实施例中，上述步骤S61的实施，可参见前述S51-S53的步骤，本发明实施例在此不再赘述。

将第四类型标签表征的类型信息，与原始类型信息映射后对应的类型信息进行比较，判断两者是否一致的结果，可能出现以下三种情况：(1)、第二类型标签所表征的类型信息与原始类型信息不一致；(2)、待分类的医疗专业名词的原始类型信息为空；(3)、第二类型标签所表征的类型信息与原始类型信息一致。

上述不一致情况的处理过程可参见步骤S64和步骤S65，一致的情况可参见步骤S66。为空的情况，可参照S66即一致的情况下的处理方法。

在一些可选的实施例中，上述步骤S63中，若所述原始类型信息与所述第二类型标签表征的类型信息对应的分类规则不同，根据预先建立的原始类型信息与第二类型标签之间的映射关系，确定所述原始类型信息映射后对应的类型信息，作为第四类型标签；相应地，判断第二类型标签表征的类型信息，与原始类型信息是否一致，具体可以通过判断第四类型标签表征的类型信息，与原始类型信息映射后对应的类型信息是否一致来实现。

在该反馈机制中，利用原始数据中的原始类型信息（例如前述细分类信息）来判断第一医疗专业名词分类模型分类结果的准确性，并在分类结果的准确性不高的情况下，使用另外一个分类模型即第二医疗专业名词分类模型的输出结果来矫正第一分类模型的输出结果，通过两个分类模型，可充分保证最终的分类结果的准确性。

用一个具体的例子说明第二类型标签（粗分类标签）所表征的类型信息与原始类型信息不一致的情况，例如，医疗专业名词“桑枝”，在原始数据中的原始类型信息为“中草药”，将“桑枝”的特征向量输入至第一医疗专业名词分类模型中，输出的类型标签代表的类型信息为“耗材”，根据预先建立的原始类型信息与第二类型标签之间的映射关系，确定“桑枝”的第二类型标签表征的类型信息与原始类型信息不一致，则将得到的原始类型标签与第三特征向量进行向量拼接，得到拼接向量的步骤再输入到第二医疗专业名词分类模型进行分类识别，根据第二医疗专业名词分类模型输出的类型标签得到最终的分类结果。

上述步骤S65中，第二医疗专业名词分类模型是根据医疗专业名词和对应的类型信息组合后作为样本训练得到的，例如，采用某种XGBoost分类模型（与第一医疗专业名词分类模型所使用的分类模型的架构不一样）对样本数据进行学习，得到训练好的第二医疗专业名词分类模型，该模型训练使用的样本数据为医疗专业名词和所对应的细分类标签的组合，第二医疗专业名词分类模型的训练过程与第一医疗专业名词分类模型的训练过程类似，本发明实施例在此不再赘述。

上述第一医疗专业名词分类模型例如可以是通过如下述的医疗名词分类模型的训练方法得到的。

本发明实施例提供了一种医疗专业名词分类模型的训练方法，其实施流程可参照图7所示，包括如下步骤：

步骤S71：获取数据库中各医疗专业名词及预先确定的医疗专业名词对应的类型标签，作为第一类型标签；

步骤S72：将各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取，得到各医疗专业名词对应的特征向量，作为第四特征向量；

步骤S73：根据各医疗专业名词对应的第四特征向量和第一类型标签生成训练样本，并将训练样本输入至预搭建的分类模型进行训练，将训练得到的模型作为第一医疗专业名词分类模型。

上述步骤S71中，从数据库中获取各医疗专业名词及各医疗专业名词对应的类型标签，作为训练预搭建的分类模型进行训练的初始数据。

本发明实施例中，从数据库中获取的医疗专业名词可以仅为标准医疗专业名词，也可以是仅为非标准的医疗专业名词，还可以同时包含两者，本发明实施例对此不做限定。

本发明实施例中，将医疗领域内标准和规范使用的术语称为标准医疗专业名词，而将口语化的、约定俗成的术语，或者一些术语的简称等等，称为非标准医疗专业名词。

在从数据库中提取各医疗专业名词时，需要剔除数据库中除了医疗专业名词之外的数据，避免噪音数据对模型训练的干扰，提高了分类模型的训练效率和准确率。

上述步骤S72中，通过预先使用孪生网络训练好的文本向量化模型对各医疗专业名词进行向量提取，得到与各专业医疗名词对应的第四特征向量，相比现有技术中的向量提取的方式，由于采用孪生网络模型训练好的文本向量化模型进行向量提取，能够获得语义上有意义的文本向量，并且该文本向量化模型使用余弦相似度或曼哈顿距离等进行比较从而找到语义相似的文本，可使得提取的特征向量能够更好地表征原有信息（医疗专业名词），并更好地学习特征向量与对应的类别之间的匹配关系，保证训练得到第一医疗专业名词分类模型更准确。

上述步骤S73中，使用样本集，对预搭建的分类模型进行训练，例如可采用有监督的学习的训练方法，即将样本集划分为训练集和测试集，通过训练样本进行训练，并通过验证集验证学习效果，并反向调整分类模型的参数，使得模型的损失函数不断收敛，直至损失函数的损失达到预设的条件，本发明实施例对训练过程并不做限定，可根据实际采用的分类模型采用对应的训练方式，在此仅示例而已。

本发明实施例利用医疗专业名词的向量和对应的第一类型标签作为训练样本，训练预搭建的分类模型，使得分类模型可以较好地识别医疗专业名词与对应类型之间的关系，保证第一医疗专业名词分类模型输出结果的准确性，实现对医疗专业名词进行高效地、准确地分类。

在一些可选的实施例中，上述步骤S71中，获取的各医疗专业名词，在数据库的原始数据中，保存有原始类型信息，在此称为细分类信息，该细分类信息例如可以是根据医疗专业名词对应的收费类别名称来划分的，举例来说，数据库中包含16个收费类别名称，分别是： “西药费”、“床位费”、 “化验费”、 “护理费”、“治疗费”、“检查费”、“中成药费”、“诊察费”、“中草药费”、“手术费”、“其他费”、“输血费”、“空调费”、“卫生材料费”、“输氧费”和“挂号费”，那么对应的细分类别信息为：“西药”、“床位”、 “化验”、 “护理”、“治疗”、“检查”、“中成药”、“诊察”、“中草药”、“手术”、“其他”、“输血”、“空调”、“卫生材料”、“输氧”和“挂号”等，医疗专业名词“冬凌草”是一种中草药，其实际收费类别名称为“中草药费”，则“冬凌草”对应的细分类信息为“中草药”，又比如，医疗专业名词“西地碘含片”是一种西药，实际收费类别名称为“西药费”，则“西地碘含片”对应的细分类信息为“西药”。

而为了使得医疗专业名词的分类更好地与医疗行业内的字典、各种标准库中的分类相对应或适配，为后续数据分析做支撑，本发明实施例需要对训练过程中使用的医疗专业名词进行第一类型的划分，这种划分，是依据医疗行业内的字典、各种标准库中的分类来的。并针对作为训练样本的医疗专业名词的分类，需要预先确定其对应的类型标签（标注过程），这个类型标签，在本发明实施例中称为第一类型标签。第一类型标签例如可以是通过人工标注得到，或者其他模型输出的，本发明实施例并不限定。

举例来说，第一类型标签包括但不限于下述几种类型信息的标签：“疾病”、“药品”、“医疗服务项目”、“耗材”和“中草药”五种。为了与上述细分类信息相区分，将该五种分类信息的标签称为粗分类标签，比如医疗专业名词“糖尿病”，对应的粗分类标签为“疾病”，又比如医疗专业名词“磁共振平扫（0.5T一下）”，对应的粗分类标签为“医疗服务项目”等等。

在一些可选的实施例中，上述步骤S72，将各医疗专业名词输入至使用孪生网络训练好的文本向量化模型进行特征提取，得到各医疗专业名词对应的特征向量，作为第四特征向量：其中，孪生网络模型例如可以为SBERT模型。SBERT模型通过使用孪生(Siamese)网络结构来获得语义上有意义的句子向量，并通过模型内部的余弦相似度等算法对句子向量进行比较的方式，找到语义相似的句子，相比其他特征提取的模型而言，SBERT模型在文本语义相似度的计算上效率更高，参照图4所示，训练完成的SBERT模型中的BERT模型和pooling两部分（比如左路的分支）构成了最终的文本向量化模型，可根据输入的文本，输出对应的文本向量，例如，在本发明实施例中，第四特征向量可以是医疗专业名词经过文本向量化模型输出得到的含有语义的512维的向量。

在一些可选的实施例中，上述步骤S73中，将各医疗专业名词对应的第四特征向量和对应的第一类型标签作为一个训练样本，生成样本集，输入至预搭建的分类模型中进行训练，其中，分类模型可以是XGBoost模型或者随机森林模型。

由于XGBoost模型中加入了正则项，使学习出来的模型更简单，有助于防止过拟合的现象，并且XGBoost模型的计算量小，计算速度高，内部对损失函数进行了二阶泰勒展开，因此是学习出来的模型精度也更高，拥有较高精度、灵活性强、列抽样防止过拟合等优势。

随机森林模型也是常见的分类模型，是一种利用多棵树对样本进行训练并预测的分类器，具有学习率较高、准确率较高的优点。当然，本发明实施例并不限于上述两种分类模型。

在上述步骤S73生成样本集的过程中，还可以将样本集划分为训练样本集和验证样本集，例如可以是：将90%的样本作为用于训练的训练样本集，将10%的样本作为用于验证的测试样本集，将样本集输入预先选择的XGBoost模型中进行训练，并同时监控验证的结果，对XGBoost模型的参数进行调整，当损失函数不再下降时，第一医疗专业名词分类模型训练完成。

本发明实施例提供的上述医疗专业名词分类的方法，通过训练好的第一医疗专业名词分类模型，输出待分类医疗名词对应的第二类型标签，并根据输出的第二类型标签，是否与待分类医疗名词对应的原始类型信息一致，如果不一致，则将原始类型标签与第二特征向量拼接得到的拼接向量输入至第二医疗专业名词分类模型得到最终的分类结果，通过该反馈机制，使用不同的医疗专业名词分类模型来矫正第一医疗专业名词分类模型的输出结果，进一步保证了分类结果的准确性。

进一步地，在本发明实施例中，通过预先建立的原始类型信息与第二类型标签之间的映射关系，来验证第一医疗专业名词分类模型输出的分类标签表征的分类信息，与待分类的医疗专业名词对应的原始类型标签表征的分类信息是否一致，实施过程简单，结果准确。

基于同一发明构思，本发明实施例还提供一种确定标准化医疗专业名词的装置，参照图8所示，包括：

分类模块81，用于获取待标准化的医疗专业名词，对所述医疗专业名词分类，确定所述医疗专业名词对应的类型信息；

获取模块82，用于获取所述类型信息下所有标准医疗专业名词；

相似度计算模块83，用于将待标准化的医疗专业名词，与对应类型信息下的所有标准医疗专业名词输入至预先训练完成的医疗名词特征提取模型中，获取医疗名词特征提取模型输出的待标准化的医疗专业名词与至少一个标准医疗专业名词之间的相似度值；

标准化模块84，用于根据相似度值，确定与待标准化的医疗专业名词匹配的标准医疗专业名词。

本发明实施例还提供了一种计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令被处理器执行时实现如前述的确定标准化医疗专业名词的方法。

本发明实施例还提供了一种计算设备，包括：存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如前述的确定标准化医疗专业名词的方法。

除非另外具体陈述，术语比如处理、计算、运算、确定、显示等等可以指一个或更多个处理或者计算系统、或类似设备的动作和/或过程，动作和/或过程将表示为处理系统的寄存器或存储器内的物理(如电子)量的数据操作和转换成为类似地表示为处理系统的存储器、寄存器或者其他此类信息存储、发射或者显示设备内的物理量的其他数据。信息和信号可以使用多种不同的技术和方法中的任何一种来表示。例如，在贯穿上面的描述中提及的数据、指令、命令、信息、信号、比特、符号和码片可以用电压、电流、电磁波、磁场或粒子、光场或粒子或者其任意组合来表示。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种确定标准化医疗专业名词的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，在所述将待标准化的医疗专业名词输入医疗专业名词特征提取模型进行特征提取的步骤之前，还包括：

3.如权利要求2所述的方法，其特征在于，所述医疗专业名词特征提取模型通过下述方式训练得到：

获取多个客户医疗专业名词及多个标准医疗专业名词；

4.如权利要求1所述的方法，其特征在于，获取待标准化的医疗专业名词，对所述医疗专业名词分类，确定所述医疗专业名词对应的类型信息，包括：

获取待分类的医疗专业名词；

5.如权利要求4所述的方法，其特征在于，还包括：

则相应地，在所述得到第二类型标签的步骤之后，还包括：

6.如权利要求5所述的方法，其特征在于，在所述判断所述第二类型标签表征的类型信息，与所述原始类型信息是否一致之前，还包括：

7.如权利要求1所述的方法，其特征在于，所述医疗专业名词分类模型通过下述训练方法训练得到：

8.一种确定标准化医疗专业名词的装置，其特征在于，包括：

9.一种计算机存储介质，其特征在于，计算机存储介质中存储有计算机可执行指令，计算机可执行指令被处理器执行时实现如权利要求1-7任一项所述的确定标准化医疗专业名词的方法。

10.一种计算设备，其特征在于，包括：存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如权利要求1-7任一项所述的确定标准化医疗专业名词的方法。