CN116757204A

CN116757204A - 一种医疗名称的映射方法、训练方法、装置、介质及设备

Info

Publication number: CN116757204A
Application number: CN202311054500.9A
Authority: CN
Inventors: 沈丹婷; 张灏; 赵礼悦; 陈鑫
Original assignee: Beijing Asiainfo Data Co ltd
Current assignee: Beijing Asiainfo Data Co ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-09-15
Anticipated expiration: 2043-08-22
Also published as: CN116757204B

Abstract

本发明公开了一种医疗名称映射方法，包括获取待预测医疗名称；对待预测医疗名称进行分词处理，形成组合分词列表，其中，分词处理至少包括两种分词处理方式；获取目标文本向量化模型，将待预测医疗名称的整体和组合分词列表中的分词输入至目标文本向量化模型中；通过目标文本向量化模型分别对待预测医疗名称整体和组合分词列表进行计算，生成待预测医疗名称的完整嵌入向量；根据预存的所有标准医疗名称的嵌入向量和待预测医疗名称的完整嵌入向量，计算相似度并排序，选取相似度最高的标准医疗名称作为映射结果。本发明通过多个分词方式进行结合，丰富信息类型和特征信息，提高了模型对于相似名词之间细微差别的分辨水平，提高了映射的准确性。

Description

一种医疗名称的映射方法、训练方法、装置、介质及设备

技术领域

本发明属于人工智能领域，具体地说，涉及一种医疗名称的映射方法、训练方法、装置、介质及设备。

背景技术

由于不同的医疗机构或厂商对于各种医疗名称缺乏统一的规定，各个机构对于这些医疗名称都有一套各自的命名标准，所以在处理不同厂商的数据时需要将指代同一物品的名词映射到一个标准名称或代码。

现有技术中大多采用预训练语言模型在公开的大文本库中进行预训练，后再将预训练好的模型在医疗业务数据上进行微调后得到的模型对测试数据进行编码求相似度的方法来对不同的医学名称进行匹配。该方法存在的问题是模型判断的准确度不是特别高，对于两个高度相似的标准名称，模型不能够准确分辨。原因在于相似句子的向量分布在空间中高度接近，这是预训练语言模型本身的性质导致的，在使用距离计算相似度时，接近的向量表示往往得到相似的匹配度，使得结果容易出错。

申请号为202111072717.3的中国专利公开了基于预训练模型的关键短语生成方法、装置及储存介质，包括：S1、获取待处理的文本数据；S2、对获取的文本数据进行分词和词性标注；S3、建立停用词库，去除存在于停用词库中的词；过滤掉不是动词和名词的词语；S4、进行N-gram组合，得到候选词组合；S5、基于Bert的预训练模型分别对文本数据和候选词组合进行文本向量转化； S6、对文档级别的向量表示和候选词向量表示进行余弦相似度计算，进行语义相似度排序；S7、根据设定值选取S6中语义相似度排序靠前的词或短语形成关键词。上述申请通过N-gram进行组合，输出结果的容易出错，识别预测效果较差。

有鉴于此特提出本发明。

发明内容

本发明要解决的技术问题在于克服现有技术的不足，提供一种医疗名称的映射方法，通过获取待预测的医疗名称，并对待预测医疗名称多种分词方式处理组合，形成组合分词列表后，实现在映射过程中，通过目标文本向量化模型，生成待预测医疗名称的完整嵌入向量，并根据预存好的各个标准医疗名称的嵌入向量，计算相似度并排序，选取相似度最高的标准医疗名称作为映射结果，提高了模型对于相似名词之间细微差别的分辨水平，提高了映射的准确性。

为解决上述技术问题，本发明采用技术方案的基本构思是：本发明提供一种医疗名称的映射方法，包括：

获取待预测医疗名称；

对所述待预测医疗名称进行分词处理，形成组合分词列表，其中，所述分词处理至少包括两种分词处理方式；

获取目标文本向量化模型，将所述待预测医疗名称的整体和所述组合分词列表中的分词分别输入至获取到的目标文本向量化模型中，通过获取的目标文本向量化模型分别对所述待预测医疗名称的整体和所述组合分词列表进行计算，生成所述待预测医疗名称的完整嵌入向量；

根据预存的各个标准医疗名称的嵌入向量和所述待预测医疗名称的完整嵌入向量，计算相似度并排序，选取相似度最高的标准医疗名称作为映射结果。

进一步地，所述分词处理方式为通过n_gram进行分词处理，其中n为字节长度；

所述分词处理方式至少包括：2_gram处理方式、3_gram处理方式和4_gram处理方式；

所述分词列表针对所述待预测医疗名称通过2_gram分词处理、3_gram分词处理和4_gram分词处理后组合形成的列表。

进一步地，所述分词处理方式为：确定所述待预测医疗名称的字节长度为N，通过N_gram进行分词处理；

所述分词处理方式至少包括：自2_gram至N-1_gram分词处理方式。

进一步地，所述目标文本向量化模型包括对所述待预测医疗名称整体进行微调的第一目标文本向量化模型和对所述分词列表中的分词进行微调的第二目标文本向量化模型；

所述生成所述待预测医疗名称的完整嵌入向量包括：

通过将所述待预测医疗名称的整体输入至第一目标文本向量化模型，生成所述待预测医疗名称整体嵌入向量；

通过将所述组合分词列表中的分词依次输入至第二目标文本向量化模型，生成所述待预测医疗名称的所述组合分词列表的嵌入向量；

根据所述待预测医疗名称的整体嵌入向量和所述分词列表的嵌入向量进行向量连接，生成所述待预测医疗名称的完整嵌入向量。

本发明还提供一种医疗名称映射模型的训练方法，包括：

获取医疗名称数据和公开数据；

对所述医疗名称数据和公开数据进行处理，生成标准数据集和公开数据集；

获取文本向量化模型，将公开数据集输入至文本向量化模型中进行训练，生成训练后文本向量化模型；根据生成的标准数据集对训练后文本向量化模型进行微调训练，生成目标文本向量化模型。

进一步地，所述生成标准数据集包括：所述标准医疗名称的整体和对所述标准医疗名称数据进行分词处理后，组合形成的标准分词列表；

所述公开数据集包括：所述公开数据名称的整体和对所述公开数据名称进行分词处理后，组合形成的公开分词列表。

进一步地，所述生成目标文本向量化模型包括：

获取文本向量化模型，根据所述公开医疗名称的整体对获取的文本向量化模型进行训练，然后再根据所述标准医疗名称的整体的基础上进行微调训练，生成第一目标文本向量化模型；

获取文本向量化模型，根据所述公开分词列表对获取的文本向量化模型进行训练，然后再根据所述标准分词列表的基础上进行微调训练，生成第二目标文本向量化模型。

本发明还提供一种医疗名称映射装置，包括：

名称获取模块，用于获取待预测医疗名称；

名称分词模块，用于对所述待预测医疗名称进行不同方式的分词处理，得到若干个分词，并将不同分词方式处理后的若干分词，整合到一个分词列表中；

文本向量化模块，用于根据目标文本向量化模型，通过添加的所述待预测医疗名称整体和分词列表，对所述待预测医疗名称进行计算整体嵌入向量和分词列表的嵌入向量，并进行向量连接，形成所述待预测医疗名称的完整嵌入向量；

计算模块，用于计算预存好的各个标准医疗名称的嵌入向量和所述待预测医疗名称的完整嵌入向量之间的相似度；

输出模块，用于对相似度进行排序，并选取相似度最高的标准医疗名称进行输出。

本发明还提供一种可读存储介质，所述存储介质中存储可执行指令，当可执行指令被执行时，使得计算设备执行上述所述的医疗名称的映射方法和医疗名称映射模型的训练方法。

本发明还提供一种计算机设备，包括：处理器以及与所述处理器连接储存器，所述储存器储存有可执行指令，所述可执行指令执行时，使所述处理器执行上述所述的医疗名称的映射方法和医疗名称映射模型的训练方法。

采用上述技术方案后，本发明与现有技术相比具有以下有益效果：

（1）本发明通过将待预测医疗名称进行多种方式的分词处理，并将多种分词列表组合形成一个分词列表，增加分词信息类型，通过将丰富分词列表中的不同长度的分词，提高对细微分词的区别能力，提高了提取特征信息的便捷性，方便在进行医疗名称映射过程中，提高映射的准确性。

（2）本发明通过在目标向量化模型中设置第一目标文本向量化模型和第二目标文本向量化模型，分别对待预测医疗名称的整体和待预测医疗名称分词后的列表进行生成完整嵌入向量，通过两种不同的训练方式进行结合，进一步提高待预测医疗名称映射的准确性，降低映射的错误率，同时，在进行分词列表嵌入时，通过组合分词列表中每个分词的嵌入向量，再计算组合分词列表中嵌入向量的向量值的平均值或向量最高值，用于代替待预测医疗名称的分词列表的嵌入向量，提高计算相似度是便捷性和准确性，有效防止出现多个相似度重复的现象，提高智能化效果。

下面结合附图对本发明的具体实施方式作进一步详细的描述。

附图说明

附图作为本发明的一部分，用来提供对本发明的进一步的理解，本发明的示意性实施例及其说明用于解释本发明，但不构成对本发明的不当限定。显然，下面描述中的附图仅仅是一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。在附图中：

图1是本发明一种医疗名称的映射方法流程图；

图2是本发明一种医疗名称映射模型的训练方法流程图；

图3是本发明一种医疗名称映射模型的训练方法框图；

图4是本发明一种医疗名称的映射方法框图；

图5是本发明一种医疗名称映射装置框图。

需要说明的是，这些附图和文字描述并不旨在以任何方式限制本发明的构思范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件（包括固件、微代码等）的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

如图1至图4所示，本发明的一种医疗名称的映射方法，包括：

步骤S1、获取待预测医疗名称；

在步骤S1中，获取待预测医疗名称包括英文、中文及中英混合等。也可通过识别图像或表格等，转化为可读的文本要求。

在上述步骤S1过程中，在进行获取待预测的医疗名称途径有多种方式，其中，可以由用户直接输入医疗名称，或者可以从网络上进行截取，在或者可通过设置的识别方式进行获取，此处不做任何限定。需要说明的是，在用户将待预测的医疗名称上传到计算机上时，对此次输入的待预测医疗名称进行储存，以便于后续使用该医疗名称。

在上述步骤S1中的待预测医疗名称为非标准医学名称或生产厂商对自己产品所起的名称都可作为待预测的医疗名称，不限制医疗器械、医疗产品等。例如：对乙酰氨基酚缓释片、对乙酰氨基酚咀嚼片等名称，都是非标准的医学名称，其具有相同的功能用于感冒发烧，其对应的标准名称为：对乙酰氨基酚，因此，可通过本申请将待预测的对乙酰氨基酚缓释片、对乙酰氨基酚咀嚼片和对乙酰氨基酚进行医疗名称映射。

步骤S2、对待预测医疗名称进行分词处理，形成组合分词列表，其中，分词处理至少包括两种分词处理方式。

在上述步骤S2中，在通过步骤S1获取到待预测的医疗名称后，对待预测的医疗名称进行分词处理，具体地，电子设备在获取待预测的医疗名称后，识别待预测医疗名称的字节长度，根据设定的分词处理方式与不同的字节长度对应处理，以获取处理后的分词列表。

其中的分词处理方式包括：最短路径分词、n元语气分词、由字构词分词、循环神经网络分词和Transformer分词等方式，可以选择其中一种的不同方式的分词处理方式或者是最少两种分词方式组合形成的处理方式。

作为上述步骤的一种情况，在获取待预测的医疗名称后，可通过短语结构语法PSG（Phrase Structure Grammar）对待预测的医疗名称进行分词处理，采用名词短语NP、动词短语VP和介词短语PP等单一的标记方式对医疗名称进行分词处理的到一个分词列表，同时可结合其他分词方式，例如：字构词分词方式，组合形成一个分词列表。

作为上述步骤的另一种情况，在获取到待预测的医疗名称后，可通过一种分词处理中的多个分词方式进行结合，得到对待预测医疗名称的组合分词列表表，例如：使用另一种神经网络语言模型NNLM（Neural Network Language Model）通过将待预测的医疗名称前后之间的关系，先要将待分词的句子转换成适合模型输入的形式，再用模型进行分词，指定一个固定长度，对每个输入训练待预测的医疗名称，进行编码，转化为一个分词列表，同时可结合其他分词方式，例如：n元语法分词方式进行处理相同的待预测医疗名称，再形成一个分词列表，将两个不同分词方式形成的列表，组合形成一个分词列表。

在上述步骤中，组合分词列表中的分词处理方式，至少包括两种不同的分词处理方式或相同的分词处理方式中的不同分词序列的组合。

步骤S3、获取目标文本向量化模型，将待预测医疗名称的整体和组合分词列表中的分词输入至获取的目标文本向量化模型中，通过获取的目标文本向量化模型分别对待预测医疗名称整体和组合分词列表进行计算，生成待预测医疗名称的完整嵌入向量。

在上述步骤S3中，目标文本向量化模型包括所有能够实现中文文本转化为向量的预训练模型。

在上述过程中，在步骤S1获取待预测的医疗名称后，在步骤S2对已经处理好的待预测医疗名称的整体和组合分词列表后，通过目标向量化模型对待预测的医疗名称的文本生成嵌入向量时，一种文本转化过程为：将待预测医疗名称的整体输入至目标文本向量化模型中，生成一个待预测医疗名称的整体嵌入向量，然后在通过将组合分词列表输入到目标文本向量化模型中，生成一个组合分词列表的嵌入向量，最后将两个向量进行组合形成一个完成的向量进行输出，从而提高待预测医疗名称的嵌入向量的准确度。

另一种文本向量化转换过程为：将待预测的医疗名称的整体和组合分词列表分别输入不同的目标文本向量化模型中，同时输出一个整体嵌入向量和一个分词嵌入向量，在将两个向量进行结合输出一个完整的嵌入向量。本申请不限制上述两种生成文本嵌入向量的模型，还可通过其他方式获取。

步骤S5、根据预存的各个标准医疗名称的嵌入向量和待预测医疗名称的完整嵌入向量，计算相似度并排序，选取相似度最高的标准医疗名称作为映射结果。

本发明通过在进行待预测医疗名称映射时，首先获取待预测的医疗名称，然后将待预测的医疗名称进行分词处理，本发明中的分词处理至少包括两种分词处理方式，并将两种分词处理方式处理好的分词列表，进行组合形成组合分词列表，提高分词列表种类的多样性，通过在目标文本向量化模型，进行医疗名称映射，从而提高待预测医疗名称进行映射时的准确性。

本申请主要实现将同一事物的不同医疗名称映射至标准医疗名称的方法，但不限于医疗名称的映射，还可以应用在其他形式的名称，在这里不做限定。

本发明中的映射方法为将非标准医疗名称映射至同一物品的标准医疗名称上，提高同一物品医疗名称的匹配性，降低匹配成本。

本申请在步骤S2中，包括对待预测医疗名称进行分词处理，组合形成分词列表，其中，分词处理至少包括两种分词处理方式。

其中一种实施方式为：在步骤S2中，分词处理方式为通过n_gram进行分词处理，其中n为字节长度。

分词处理方式至少包括，2_gram处理方式、3_gram处理方式和4_gram三种处理方式。

在本申请中n-gram是一种统计语言模型的算法。主要作用是将文本里面的内容按照字节进行大小为n的滑动窗口操作，形成了长度是n的字节片段序列。

每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。

具体地，在步骤S2中，在进行对待预测医疗名称映射的过程中，需要对待预测医疗名称进行分词处理，本发明中采用n_gram模型进行分词处理，并通过n_gram的三种不同的处理方式处理待预测医疗名称后，并将处理好的分词列表，整合到一个列表中，形成一个组合列表，增加待预测医疗名称分词的多样性，提高在训练过程中，待预测医疗名称映射的准确性，避免单一n_gram分词，造成映射出相同的相似度，提高区别相似名称的能力。

优选地，在步骤S2中，组合分词列表针对待预测医疗名称通过2_gram分词处理、3_gram分词处理和4_gram分词处理后形成三种分词列表，然后在进行组合形成的列表。但是本发明不限于以上三种n_gram方式进行组合，也可以是四种或者更多。

具体地，2_gram是将待预测医疗名称分别进行两个字节长度进行分配，形成两个字节长度的gram列表，同理3_gram是将待预测医疗名称分别进行三个字节长度进行分配，形成三个字节长度的gram列表，4_gram是将待预测医疗名称分别进行四个字节长度进行分配，形成四个字节长度的gram列表，然后将上述不同字节的列表形成一个组合列表，进行待预测医疗名称的向量计算，增加待预测医疗名称组合列表种类的多样性，提高待预测医疗名称映射的准确性。

例如：“西地碘含片”，通过n_gram后，它会被切分为‘西地’、‘地碘’、‘碘含’、‘含片’四个2-gram的分词列表，‘西地碘’、‘地碘含’、‘碘含片’三个3-gram的分词列表，以及‘西地碘含’、‘地碘含片’两个4-gram的分词列表。所以“西地碘含片”这个医疗名称就被处理成了含有九个片段短语，三种不同分词列表组合的列表形式，丰富特征信息的类型，提高对名称微小差别的识别，解决现有技术中通过一种分词形式进行形成数据集，得到相似的匹配度，造成结果出错的问题。

本申请在步骤S2中，对待预测医疗名称进行分词处理另一种实施方式是：分词处理方式为：确定待预测医疗名称的字节长度为N，通过N_gram进行分词处理，其中N为字节长度；

分词处理方式至少包括：自2_gram至N-1_gram分词处理方式。

通过确定待预测医疗名称的字节长度后，在字节长度较长时，上述分词处理方式可进行适应性改变，例如：待预测医疗名称的文本长度为6个字节，那分词处理方式就包括2_gram、3_gram、4_gram、和5_gram四种不同字节的分词处理方式，形成四种不同方式的分词列表，然后将上述四种不同的分词列表进行组合，形成一个组合列表，增加分词种类的多样性，提高待预测医疗名称映射结果的准确性。

例如：“对乙酰氨基酚缓释片”，通过上述实施方式进行分词处理，通过n_gram后，它会被切分为‘对乙’、‘乙酰’、‘酰氨’、‘氨基’、‘基酚’、‘酚缓’、‘缓释’、‘释片’八个2-gram的分词列表；‘对乙酰’、‘乙酰氨’、‘酰氨基’、‘氨基酚’、‘基酚缓’、‘酚缓释’、‘缓释片’七个3-gram的分词列表；‘对乙酰氨’、‘乙酰氨基’、‘酰氨基酚’、‘氨基酚缓’、‘基酚缓释’、‘酚缓释片’六个4_gram的分词列表、‘对乙酰氨基’、‘乙酰氨基酚’、‘酰氨基酚缓’、‘氨基酚缓释’、‘基酚缓释片’五个5-gram的分词列表；‘对乙酰氨基酚’、‘乙酰氨基酚缓’、‘酰氨基酚缓释’、‘氨基酚缓释片’四个6_gram的分词列表；‘对乙酰氨基酚缓’、‘乙酰氨基酚缓释’、‘酰氨基酚缓释片’三个7-gram的分词列表。所以“对乙酰氨基酚缓释片”这个医疗名称就被处理成了含有三十三个片段短语，六种不同分词列表组合形成的组合分词列表的形式，丰富特征信息的类型，进一步提高对名称微小差别的识别，解决现有技术中通过一种分词形式进行形成数据集，得到相似的匹配度，造成结果出错的问题。

如图3至图4所示，进一步地，在步骤S4中，目标文本向量化模型包括对待预测医疗名称整体进行向量化转换的第一目标文本向量化模型和对组合分词列表中的分词进行向量化转换的第二目标文本向量化模型。

本发明通过将待预测医疗名称分别以整体的方式通过第一目标文本向量化模型进行文本向量化转换和将待预测医疗名称进行n_gram处理后，形成组合列表对通过第二目标文本向量化模型进行文本向量化转换，从而令模型能够更加适应本地数据，提高预测准确率。同时n-gram的引入，形成组合列表对，提高了模型对于相似名称之间细微差别的分辨水平，从而解决现在技术中分辨效果不佳的问题。

本申请中的相似度可以通过计算余弦距离来实现，也可以为欧几里得距离等其他向量相似度的计算方式，本实施例中对此不做限定。

具体地，在步骤S4中，生成待预测医疗名称的完整嵌入向量包括：

S41、通过将待预测医疗名称的整体输入至第一目标文本向量化模型，生成待预测医疗名称的整体嵌入向量。

S42、通过将组合分词列表中的分词依次输入至第二目标文本向量化模型生成待预测医疗名称的组合分词列表的嵌入向量。

S43、根据待预测医疗名称的整体嵌入向量和待预测医疗名称的组合分词列表的嵌入向量进行向量连接，生成一个待预测医疗名称的完整嵌入向量。

在步骤S42中，组合分词列表的嵌入向量和以为组合分词列表中的每个向量之间的最高相似度的向量或者是组合分词列表中的每个向量进行平均计算后的平均嵌入向量。

在本申请中，一种实施方式为，在步骤S42中，生成待预测医疗名称的组合分词列表的平均嵌入向量：

计算分词列表中每一个分词的嵌入向量；

计算分词列表中的所有嵌入向量的向量值的平均值。

具体地，首先将待预测医疗名称通过n_gram进行多种形式的分词处理，形成组合分词列表，在经分词列表输入至第二文本向量化模型中进行文本向量化转换，对分词列表中的每一个分词短语计算出嵌入向量，然后对列表中的所有嵌入向量计算其平均值，提高分词列表的嵌入向量的精度值，增加输出结果的准确性。

另一种实施方式为，在步骤S42中，生成待预测医疗名称的组合分词列表的平均嵌入向量：

计算组合分词列表中每个分词列表中，所有的分词的嵌入向量；

计算每个分词列表中的所有嵌入向量的平均值；

获取多个分词列表的平均嵌入向量，计算组个分词列表的嵌入向量。

在本申请中，至少两种不同分词处理方式，并不是简单的1-n个不同的分词进行组合形成的列表，而是，不同的分词方式形成的不同分词列表，至少两种分词方式形成的分词列表之间的组合，即分词列表的组合，并不是说是一种分词处理方式形成的分词列表。

具体地，在计算组合分词列表的嵌入向量时，通过两次平均嵌入向量进行计算得到组合分词列表的嵌入向量，具体为：首先通过计算带预测医疗名称经过多种分词处理方式形成的多个分词列表中的每个分词的嵌入向量取平均值，得到多个分词列表的多个平均嵌入向量，接着将多个平均嵌入向量，再次取平均值，最后得到多个分词列表组合形成的组合分词列表的平均嵌入向量，进一步提高了映射结果的准确性。

本申请在应用时，在进行待预测医疗名称映射时，首先将待预测的医疗名称整体，输入至第一文本向量化模型中进行向量化转换，对待预测的医疗名称进行生成嵌入向量；然后在将待预测的医疗名称输入至第二文本向量化模型中，第二文本向量化模型对待预测的医疗名称进行2_gram分词处理、3_gram分词处理和4_gram分词处理后，并生成组合列表，然后第二文本向量化模型会对组合列表中的每一个分词进行生成嵌入向量，而后接着将分词列表中的所有嵌入向量，计算出所有嵌入向量的向量值的平均值，经过上述过程，待预测医疗名称都会生成一个待预测医疗名称整体的嵌入向量和一个基于n_gram的处理后的分词列表的平均嵌入向量。接着将每个待预测医疗名称对应的两个嵌入向量连接在一起形成一个完整的嵌入向量。而后使用该形成的完整嵌入向量与预存的各个标准医疗名称的嵌入向量计算余弦相似度，最后对所有相似度进行排序，相似度最高的标准名称就是模型对于该待预测医疗名称的预测映射。

在本发明中，将每个待预测医疗名称对应的两个嵌入向量连接在一起形成一个完整的嵌入向量，也可表示为，将待预测医疗名称的整体编码与待预测医疗名称的分词编码进行向量连接，形成一个完整的嵌入向量。

如图2至图3所示，具体地，本申请还提供一种医疗名称映射模型的训练方法，包括以下步骤：

S100、获取医疗名称数据和公开数据。

在步骤S100中，获取标准医疗名称数据时，包括国家统一标准的医疗名称数据和自定义的文字描述，但是自定义文字描述的医疗名称需要与所描述物品相同，同时医疗名称数据包括将非标准名称医疗名词映射到标准的医疗名词后的医疗名称数据。

在上述步骤S100中，公开数据为非医疗领域的多种领域数据，例如：医学科普领域、互联网问诊领域、健康管理领域等领域的数据。例如医学科普，在知乎等问答平台进行发布文章和答疑中出现有关医疗的数据，医疗数据不限于医疗器械、医疗药物等数据。

由于医疗名称数据的获取难度较大，数据量较少，难以满足模型训练精度的需求，因此如何在十分有限的样本量下训练高精度模型就成为比较棘手的问题。常规方法常基于有限的样本量进行数据扩充，但是扩充后的数据与扩充前样本特征较为相似，模型泛化能力差，本实施例中提出在获取医疗名称数据的技术上，还获取非医疗领域的公开数据用于模型的大数据量初步训练，利用公开数据容易获取且数据量大的优势，实现模型的初步大规模训练，以使模型具有较强的基本识别能力，在初步训练的基础上，再利用小规模的医疗名称数据进行医疗领域下的精准识别训练，从而保证了模型既具备泛化能力，对于医疗领域的识别精度也较高，从而保证了良好的识别效果。

S200、对医疗名称数据和公开数据进行处理，生成标准数据集和公开数据集。

在步骤S200中，在获取标准医疗名称的数据和公开数据后，对标准医疗名称数据和公开数据进行处理，生成标准数据集和公开数据集，数据集的生成方式为通过人工手动方式生成数据集。

生成标准数据集包括：标准医疗名称的整体和对标准医疗名称数据进行分词处理后，组合形成的标准分词列表。

公开数据集包括：公开数据名称的整体和对公开数据名称进行分词处理后，组合形成的公开分词列表。

具体地，对所有非标准医疗名称和标准名称进行对应匹配，生成标准训练数据集，实现同一事物的标准名称和非标准名称组合到一起进行训练，提高对同一事物的不同表述的识别能力。

对所有非标准医疗名称和标准医疗名称进行随机打乱，生成错误训练数据集，实现在训练过程中，通过错误训练集，提高分辨错误的能力，提高精确性。

对所有非标准医疗名称和标准医疗名称进行n_gram处理，生成分词数据集。具体地，分词数据集中所包含的都是医疗名称对应的列表对。使用医疗名称分词对模型进行微调，可以使模型对短语中的细微差别更加敏感，更能够区别相似的句子解决了原本模型对相似语句分辨能力不足的问题。进行n_gram名词的分词处理的目的是将医疗名称分为不同长度，提取不同长度下更容易提取到的特征信息，从而丰富信息类型，增加对不同词类的应该能力。

S300、获取文本向量化模型，将公开数据集输入至文本向量化模型中进行训练，生成训练后文本向量化模型；根据生成的标准数据集对训练后文本向量化模型进行微调训练，生成目标文本向量化模型。

本申请在对医疗名称进行训练时，将步骤S200中的所有数据集分别输入到文本向量化模型中进行预训练。

文本向量化模型为Sentence-Transformers模型。在本申请中，通过S200中不同的训练数据集对Sentence-Transformers模型进行训练（基于广泛类型的大数据量预训练）。

对于预训练语言模型，Sentence-Transformers是一个可用于句子、文本和图像嵌入的Python库，是一个句子转换模块，可以实现通过获取文本得到文本的嵌入向量，通过文本的嵌入向量计算出相似度。可以为 100 多种语言计算文本的嵌入并且可以轻松地将它们用于语义文本相似性、语义搜索和同义词挖掘等常见任务。该框架基于PyTorch和Transformers，并提供了大量针对各种任务的预训练模型。将Sentence-Transformers模型在公开的中文文本数据集上进行预训练，得到训练好的模型。

在本申请中，在Sentence-Transformers模型的基础上，通过将所有标准医疗名称的整体和分词处理后的组合分词列表在Sentence-Transformers模型进行微调，从而得到本申请中的目标文本向量化模型。

在训练过程中，针对各个标准名称通过两个子训练模型得到一个完整的嵌入向量，形成具有预存有各个标准名称的嵌入向量模型，即本申请的预训练模型训练完成。在本申请中的嵌入向量计算可通过Sentence-Transformers模型可通过其调用内部的encode方法或其他方法计算得到。

具体地，首先将公开数据集输入至文本向量化模型中进行训练，生成训练后文本向量化模型，其中，公开数据集包括非医疗场景数据，此类数据内容类型复杂，数量大，为基于大数据的训练后的模型，然后再根据生成的标准数据集对训练后文本向量化模型进行微调训练，生成目标文本向量化模型。其中标准数据集包括：本地数据即纯医疗数据，包括药物、疾病、治疗项目、医疗器械等，实现基于医疗场景数据的微调训练，得到目标文本向量化模型，使得模型能够更加贴合本地任务，实现基于医疗场景数据的精准微调训练，避免造成训练信息较差，使数据紊乱，提高预训练模型的稳定性，实现训练结果的准确性。

在步骤S300中：生成目标文本向量化模型包括：

步骤S301、获取文本向量化模型，根据公开医疗名称的整体对获取的文本向量化模型进行训练，然后再根据标准医疗名称的整体的基础上进行微调训练，生成第一目标文本向量化模型。

步骤S302、获取文本向量化模型，根据公开分词列表对获取的文本向量化模型进行训练，然后再根据标准分词列表的基础上进行微调训练，生成第二目标文本向量化模型。

在本申请中，其中第一目标文本向量化模型用Sbert1表示，第二目标向量化模型用Sbert2表示。

步骤S303、将第一目标文本向量化模型Sbert1和第二目标文本向量化模型Sbert2组合形成目标文本向量化模型。

在本发明中，n_gram是指n个连续的片段。对于医疗名称，n_gram就是将名称中的n个连续的字取出，作为一个短语处理。

在本申请中，如图3所示中，大数据库预训练为在文本向量化模型在公开数据上进行训练得到的训练后的文本向量模型，然后接着在标准名称的整体数据和分词数据的基础上再次进行微调训练，得到目标文本向量化模型。其中标准数据集为基于医疗场景下的微调训练，是纯医疗数据，包括药物、疾病、治疗项目、医疗器械等。

具体地，在生成目标文本向量化模型的过程中，在生成第一目标文本向量化模型和第二目标文本向量化模型时，在对Sentence-Transformers模型进行微调时，这里需要注意的是，此处通过n_gram训练的模型与之前使用医疗名称整体进行微调的模型不是同一个，而是一个新的在公开数据集上预训练好的模型。这里的区分是为了在整体名称以及n_gram的嵌入的时候能够更加准确，而不被相互影响。

本申请的第二目标文本向量化模型，在增加n_gram对模型进行微调的时候，与之前的第一目标文本向量化模型的处理方式不同之处在于，第一目标文本向量化模型的微调方法是两个文本对直接输入模型，并使用文本对对应正确与否的标注进行训练即可，其中文本对包括相同实物的非标准名称医疗名词映射到标准的医疗名词上，而n_gram的训练方法是先输入一个列表对，对列表对中的一个列表先进行处理，列表中的所有短语都输入到模型当中，得到所有短语所对应的嵌入，而后将一个列表中的所有嵌入取平均值，另一个列表也是相同的操作，最后对两个列表操作后取得的平均嵌入形成一个完整的嵌入向量，使用标注进行训练，形成第二目标文本向量化模型，从而将两个训练好的文本向量化模型进行组合形成目标文本向量化模型。

如图5所示，本发明还一种医疗名称映射装置，包括，名称获取模块、名称分词模块、训练模块、计算模块和输出模块。

名称获取模块用于获取待预测医疗名称。

在本申请中，名称获取模块可获取用户输入的文本、文档、图片等兴盛，可通过识别形成符合要求的文本要求。在本发明中，获取待预测医疗名称的途径可有多条，其中，可以由相关人员直接进行编写，或者可以从网络上进行截取，再或者可以将一些行业的医疗名称作为样本文档，此处不做具体限定。

名称分词模块用于对医疗名称进行不同方式的分词处理，得到若干个分词，将不同分词方式处理后的若干分词，整合到一个分词列表中。

在分词模块中，通过名称获取模块获取待预测的医疗名称后，名称分词模块对待预测的医疗名称进行整体和分词处理，形成待预测的医疗名称的两个列表，其中一个为待预测的医疗名称的整体列表，另一个为经过2_gram处理、3_gram处理和4_gram处理形成的分词列表。

通过将名称分词模块进行分词处理后的待预测的医疗名称的不同方式的分析列表组合到一起，形成一个具有多种分词方式的组合列表，增加组合分词列表的类型和特征信息。

文本向量化模块用于根据目标文本向量化模型，通过添加的待预测医疗名称整体和分词列表，对待预测医疗名称进行整体嵌入向量计算和分词列表的嵌入向量计算，对整体嵌入向量和分词列表的嵌入向量进行向量连接，形成待预测医疗名称的完整嵌入向量。

通过获取后的整体列表和组合列表后，接着通过目标文本向量化模块中的多个模型，进行对整体列表和组合分词列表分别进行文本向量化转换，对整体列表中文本（待预测医疗名称）进行整体嵌入向量和组合分词列表中的所有不同种类的分词进行分词嵌入向量，最后对所有分词嵌入向量进行平均嵌入向量计算，此平均值就是组合分词列表的嵌入向量。接着对待预测医疗名称进行整体嵌入向量计算，得到待预测医疗名称的整体嵌入向量和分词嵌入向量，并对整体嵌入向量和分词嵌入向量进行向量连接。形成待预测医疗名称的完整嵌入向量。

计算模块用于计算预存好的所有标准医疗名称的嵌入向量和医疗名称的完整嵌入向量之间的相似度。

输出模块用于对相似度进行排序，并选取相似度最高的标准医疗名称进行输出。

输出模块可通过显示、语音播报等智能方式或多个方式组合输出。

进一步地，文本向量化模块包括第一训练单元和第二训练单元。

第一训练单元用于对待预测医疗名称的整体进行微调训练，对待预测医疗名称进行计算整体嵌入向量。

第二训练单元用于分词列表中的分词进行微调训练，对分词列表中的每个分词进行计算嵌入向量，对分词列表中的所有分词嵌入向量取平均值。

本发明还公开一种可读存储介质和一种计算机设备。

存储介质中存储可执行指令，当可执行指令被执行时，使得计算设备执行上述的医疗名称映射方法和医疗名称映射模型的训练方法。

计算机设备包括处理器以及与处理器连接储存器，储存器储存有可执行指令，可执行指令执行时，使处理器执行上述的医疗名称映射方法和医疗名称映射模型的训练方法。

计算机设备表示各种形式的计算机，如小型计算机、台式计算机、工作台、服务器、大型计算机或其它适合的计算机等。计算机设备还可以表示各种形式的移动装置，个人数字处理设备、智能移动设备等装置。

处理器可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、人工智能计算芯片、还包括可以实现机器学习模型算法的计算单元、数字信号处理器、以及控制器、微控制器等。

如本申请的映射方法可被实现为计算机软件程序，其被包含在机器可读介质中，例如存储单元。在本申请中，计算机程序的部分或者全部可以经由处理器和通信单元连接，将映射方法载入到计算机设备上，储存在存储单元中，等待执行。当计算机设备需要进行执行时，通过处理器可以执行上述的医疗名称映射方法和医疗名称映射模型的训练方法中的一个或多个步骤。

同样地，在本申请中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行预训练模型的生成方法（生成预训练模型的过程）。

在本申请中，可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序，可读存储介质可以是可读信号介质或可读储存介质。例如存储硬盘、随机存取存储器（RAM）、只读存储器（ROM）、光纤和光学储存设备等或者是多种组合形成的存储器

本申请中的计算机设备包括客户端和服务器，通过通信网络进行交互工作，服务器不限于本地或云服务器等其他种类，计算机设备具有识别装置、显示装置和输入装置，通过输入装置和显示装置给用户提供反馈，实现文本数据的输入。

本申请通过依次执行S1、获取待预测医疗名称；S2、对待预测医疗名称进行分词处理，形成组合分词列表，其中，分词处理至少包括两种分词处理方式；S3、获取目标文本向量化模型，将待预测医疗名称的整体和组合分词列表中的分词分别输入至获取到的目标文本向量化模型中，通过获取的目标文本向量化模型分别对待预测医疗名称的整体和组合分词列表进行计算，生成待预测医疗名称的完整嵌入向量；S4、根据预存的各个标准医疗名称的嵌入向量和待预测医疗名称的完整嵌入向量，计算相似度并排序，选取相似度最高的标准医疗名称作为映射结果，通过多个分词形式进行结合，形成组合分词列表，丰富信息类型，增加特征信息，提高对医疗名称的映射效果，同时，通过多种预训练模型相结合，提高医疗名称映射的准确性，在增引入n_gram后，提高了模型对于相似名称之间细微差别的分辨水平，解决现有技术中分辨效果不准确的技术问题。

在本申请中，在进行医疗名称的映射时，在医疗名称映射完成后，可以对未储存的医疗名称进行储存，在进行下次映射时，可直接进行输出，不需要再次映射，提高便捷性。

以上所述仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本申请的技术人员在不脱离本发明技术方案范围内，当可利用上述提示的技术内容作出些许更动或修饰为等同变化的等效实施例，上述实施例中的实施方案也可以进一步组合或者替换，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明方案的范围内。

Claims

1.一种医疗名称的映射方法，其特征在于，包括：

获取待预测医疗名称；

获取目标文本向量化模型，将所述待预测医疗名称的整体和所述组合分词列表中的分词分别输入至获取到的目标文本向量化模型中，通过获取的目标文本向量化模型分别对所述待预测医疗名称的整体和所述分词列表进行计算，生成所述待预测医疗名称的完整嵌入向量；

2.根据权利要求1所述的医疗名称的映射方法，其特征在于，所述分词处理方式为通过n_gram进行分词处理，其中n为字节长度；

所述分词列表为针对所述待预测医疗名称通过2_gram分词处理、3_gram分词处理和4_gram分词处理后组合形成的列表。

3.根据权利要求1所述的医疗名称的映射方法，其特征在于：所述分词处理方式为：确定所述待预测医疗名称的字节长度为N，通过N_gram进行分词处理；

4.根据权利要求1所述的医疗名称的映射方法，其特征在于，所述目标文本向量化模型包括对所述待预测医疗名称整体进行向量化转换的第一目标文本向量化模型和对所述分词列表中的分词进行向量化转换的第二目标文本向量化模型；

所述生成所述待预测医疗名称的完整嵌入向量包括：

根据所述待预测医疗名称的整体嵌入向量和所述组合分词列表的嵌入向量进行向量连接，生成所述待预测医疗名称的完整嵌入向量。

5.一种医疗名称映射模型的训练方法，其特征在于：包括，

获取医疗名称数据和公开数据；

6.根据权利要求5所述的医疗名称映射模型的训练方法，其特征在于：所述生成标准数据集包括：所述标准医疗名称的整体和对所述标准医疗名称数据进行分词处理后，组合形成的标准分词列表；

7.根据权利要求6所述的医疗名称映射模型的训练方法，其特征在于：所述生成目标文本向量化模型包括：

8.一种医疗名称的映射装置，其特征在于，包括：

名称获取模块，用于获取待预测医疗名称；

9.一种可读存储介质，其特征在于，所述存储介质中存储可执行指令，当可执行指令被执行时，使得计算设备执行权利要求1-7任一所述的方法步骤。

10.一种计算机设备，其特征在于，包括：处理器以及与所述处理器连接储存器，所述储存器储存有可执行指令，所述可执行指令执行时，使所述处理器执行权利要求1-7任一所述的方法步骤。