CN115994227A

CN115994227A - 医学术语标准化模型的构建方法、装置、终端设备及介质

Info

Publication number: CN115994227A
Application number: CN202310286163.XA
Authority: CN
Inventors: 余亚雄; 栗晓华; 张超
Original assignee: Beijing Zuoyi Technology Co ltd
Current assignee: Beijing Zuoyi Technology Co ltd
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-04-21
Anticipated expiration: 2043-03-23
Also published as: CN115994227B

Abstract

本发明提供了一种医学术语标准化模型的构建方法、装置、终端设备及介质，涉及医疗数字数据处理技术领域，该方法包括根据预训练模型对标准化文本进行向量编码，获得第一数组；根据第一数组对待标准化文本的数据格式进行转换，获得第二数组；将第二数组输入联合模型结构中进行训练，获得医学术语标准化模型，联合模型结构包括多分类模块和排序模块，多分类模块用于预测标准化术语个数，排序模块用于对全量标准化文本进行排序，其中排序模块的标准化文本矩阵基于第一数组和预训练模型得到。本发明能够简化模型复杂度，大幅降低迭代成本，消除多段式分别建模引入的误差传递所带来的损失，极大地提升了标准化效果。

Description

医学术语标准化模型的构建方法、装置、终端设备及介质

技术领域

本发明一般涉及医疗数字数据处理技术领域，具体涉及一种医学术语标准化模型的构建方法、装置、终端设备及介质。

背景技术

医学术语是指医学领域的专业用语，其可以用于表示疾病、药物、手术操作和检查检验等各种事物、现象以及过程。由于医学术语在临床信息系统表达医学信息时不可或缺，而各医院在实际使用过程中又具有差异性，这会造成同一个含义的医学术语表述多样化，为后续病历数据分析等工作带来很大困难。

目前，相关技术主要通过召回配合排序的方法进行医学术语标准化，但该方法采用多段式分别建模会增加复杂度，迭代成本较高，同时对于特异性数据需要额外单独配置辅助模型进行标准化术语个数的预测，并且多模型级联效应还会大幅降低标准化效果。

发明内容

鉴于相关技术中的上述缺陷或不足，期望提供一种医学术语标准化模型的构建方法、装置、终端设备及介质，能够简化模型复杂度，降低迭代成本，同时提升标准化效果。

第一方面，本发明提供一种医学术语标准化模型的构建方法，所述方法包括：

获取标准化文本，并根据预训练模型对所述标准化文本进行向量编码，获得第一数组；

获取待标准化文本，并根据所述第一数组对所述待标准化文本的数据格式进行转换，获得第二数组；

将所述第二数组输入联合模型结构中进行训练，获得医学术语标准化模型，所述联合模型结构包括多分类模块和排序模块，所述多分类模块用于预测标准化术语个数，所述排序模块用于对全量标准化文本进行排序，其中所述排序模块的标准化文本矩阵基于所述第一数组和所述预训练模型得到。

可选地，在本发明一些实施例中，所述获取标准化文本，并根据预训练模型对所述标准化文本进行向量编码，获得第一数组，包括：

输入所述标准化文本至所述预训练模型，获得第一文本向量；

分别输入所述标准化文本隶属的至少一个分类文本至所述预训练模型，获得第二文本向量；

根据所述第一文本向量和所述第二文本向量各自对应的权重，对所述第一文本向量和所述第二文本向量进行权重平滑处理，获得标准化文本向量，所述第一数组包括所述标准化文本向量。

可选地，在本发明一些实施例中，所述分别输入所述标准化文本隶属的至少一个分类文本至所述预训练模型，获得第二文本向量，包括：

将各所述分类文本对应的分类文本向量合并进行平滑操作，获得所述第二文本向量。

可选地，在本发明一些实施例中，所述多分类模块还用于根据所述预训练模型对所述第二数组进行向量化，并将向量输入所述多分类模块的编码层，经过所述多分类模块的输出层输出预测结果。

可选地，在本发明一些实施例中，所述排序模块包括第一子结构、第二子结构和第三子结构；

所述第一子结构用于将所述标准化文本矩阵输入所述第一子结构的解码层得到第一向量矩阵；所述第二子结构用于根据所述预训练模型对所述第二数组进行向量化，并将向量输入所述第二子结构的解码层，经过所述第二子结构的向量扩展层得到与所述第一向量矩阵维度相同的第二向量矩阵；所述第三子结构用于将所述第一向量矩阵、所述第二向量矩阵以及所述第一向量矩阵与所述第二向量矩阵差值的绝对值进行合并，并经过所述第三子结构的输出层输出排序结果。

可选地，在本发明一些实施例中，所述联合模型结构的损失值根据所述多分类模块的损失值和权重以及所述排序模块的损失值和权重进行融合获得。

可选地，在本发明一些实施例中，所述将所述第二数组输入联合模型结构中进行训练，获得医学术语标准化模型，所述联合模型结构包括多分类模块和排序模块，还包括：

输入所述待标准化文本至所述联合模型结构，获得所述多分类模块预测的所述标准化术语个数；

所述排序模块根据所述标准化术语个数和所述第一数组，获得所述待标准化文本对应的正确标准化结果。

第二方面，本发明提供一种医学术语标准化模型的构建装置，所述装置包括：

向量编码单元，用于获取标准化文本，并根据预训练模型对所述标准化文本进行向量编码，获得第一数组；

格式转换单元，用于获取待标准化文本，并根据所述第一数组对所述待标准化文本的数据格式进行转换，获得第二数组；

模型训练单元，用于将所述第二数组输入联合模型结构中进行训练，获得医学术语标准化模型，所述联合模型结构包括多分类模块和排序模块，所述多分类模块用于预测标准化术语个数，所述排序模块用于对全量标准化文本进行排序，其中所述排序模块的标准化文本矩阵基于所述第一数组和所述预训练模型得到。

第三方面，本发明提供一种终端设备，所述终端设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现第一方面中任意一项所述的医学术语标准化模型的构建方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现第一方面中任意一项所述的医学术语标准化模型的构建方法的步骤。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例提供了一种医学术语标准化模型的构建方法、装置、终端设备及介质，该构建方法通过对联合模型结构中的多分类模块和排序模块进行一体式训练，无需额外单独配置，进而实现了端到端建模，不仅能够简化模型复杂度，大幅降低迭代成本，还能够消除多段式分别建模引入的误差传递所带来的损失，极大地提升了标准化效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例提供的一种医学术语标准化模型的构建方法的流程示意图；

图2为本发明实施例提供的一种向量编码流程示意图；

图3为本发明实施例提供的一种联合模型结构的示意图；

图4为本发明实施例提供的一种联合模型推理的示意图；

图5为本发明实施例提供的一种医学术语标准化模型的构建装置的结构示意图；

图6为本发明实施例提供的另一种医学术语标准化模型的构建装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为便于更好地理解和说明，现对本发明实施例的应用场景进行介绍。示例性地，将一段待标准化文本输入系统或者模型中，该系统或者模型会输出一个标准化后的文本，这个文本可能是由唯一的一个标准化文本组成，也可能是由多个标准化文本拼接而成。

比如，在典型的ICD-10（International Classification of Diseases-10，疾病和有关健康问题的国际统计分类第10次修订本）标准化任务中，输入一段待标准化文本“两侧脑室旁脱髓鞘缺血”，系统或者模型需要返回两个标准化文本“脱髓鞘性脑病”和“脑血管供血不足”，输出的标准化文本为ICD-10中规定的标准文本，意味着“两侧脑室旁脱髓鞘缺血”既隶属于“脱髓鞘性脑病”，也隶属于“脑血管供血不足”。

下面通过图1至图6详细地阐述本发明实施例提供的医学术语标准化模型的构建方法、装置、终端设备及介质。

请参考图1，其为本发明实施例提供的一种医学术语标准化模型的构建方法的流程示意图，该方法具体包括以下步骤：

S101，获取标准化文本，并根据预训练模型对标准化文本进行向量编码，获得第一数组。

示例性地，由于ICD-10是一个具有多层级分类关系的标准化文本，因此本发明实施例可以将标准化文本隶属的至少一个分类文本和标准化文本本身都进行向量编码，然后通过配置相关权重来融合相关向量，构成最终的标准化文本向量。

比如图2所示，ICD-10中“脱髓鞘性脑病”隶属的一级分类文本为“神经系统疾病”、二级分类文本为“中枢神经系统的脱髓鞘疾病”、三级分类文本为“中枢神经系统的其他脱髓鞘疾病”、四级分类文本为“中枢神经系统其他特指的脱髓鞘疾病”。此时，本发明实施例可将标准化文本“脱髓鞘性脑病”输入预训练模型BERT（Bidirectional EncoderRepresentations from Transformer）中，并取BERT输出向量中CLS位置的向量作为文本的向量表示，获得第一文本向量NE。同样地，将标准化文本隶属的一级分类文本至四级分类文本分别输入BERT，并取BERT输出向量中CLS位置的向量作为文本的向量表示，即各分类文本对应的分类文本向量为CE1、CE2、CE3和CE4，然后将分类文本向量CE1、CE2、CE3和CE4合并（concat）进行平滑（average pooling）操作，获得第二文本向量CE。进而，根据第一文本向量NE和第二文本向量CE各自对应的权重，对第一文本向量NE和第二文本向量CE进行权重平滑（weighted average pooling）处理，获得标准化文本向量NCE，向量维度为（1, hidden_dim），其中hidden_dim表示预训练模型BERT的隐向量维度。最终，本发明实施例通过对ICD-10中所有标准化文本进行向量编码之后，获得的数据为<id, norm_text, NCE>构成的三元组，即第一数组，其中id表示标准化文本序号，norm_text表示原始的标准化文本，NCE表示标准化文本向量。

实际模型构建时，本发明实施例基于paddlepaddle框架，通过预训练模型BERT-BASE-CHINESE进行向量编码，并将输出的CLS向量作为输入文本的向量表示。

S102，获取待标准化文本，并根据第一数组对待标准化文本的数据格式进行转换，获得第二数组。

示例性地，仍以ICD-10为例进行说明，本发明实施例中收集到的原始训练数据可以是<text, norm_texts> 构成的二元组，其中text表示待标准化文本，norm_texts表示多条标准化文本拼接而成的文本。此时，本发明实施例可将<text, norm_texts>转换为<text, ids, norm_text_num>构成的三元组，即第二数组，其中text表示待标准化文本，ids表示第一数组<id,norm_text, NCE>中标准化文本序号拼接而成的文本，norm_text_num表示标准化文本个数，该标准化文本个数可根据训练数据集的实际情况设置最大值，比如最大值为5，则标准化文本个数可能为1、2、3、4或者5。

S103，将第二数组输入联合模型结构中进行训练，获得医学术语标准化模型，联合模型结构包括多分类模块和排序模块，多分类模块用于预测标准化术语个数，排序模块用于对全量标准化文本进行排序，其中排序模块的标准化文本矩阵基于第一数组和预训练模型得到。

需要说明的是，本发明实施例中标准化文本矩阵NM（Norm Matrix）的向量维度可以为（norm_num, hidden_dim），其中norm_num表示标准化文本总量，hidden_dim表示预训练模型的隐向量维度。而标准化文本矩阵的行标号与第一数组中的<id, norm_text, NCE>对齐，每行对应的向量则为NCE。

示例性地，如图3所示，本发明实施例中多分类模块用于根据预训练模型对第二数组进行向量化，并将向量输入多分类模块的编码层，经过多分类模块的输出层输出预测结果，其中多分类模块的编码层所采用编码器可以包括TextCNN（Convolutional NeuralNetwork）、LSTM（Long Short-Term Memory）、BiLSTM、RNN（Recurrent Neural Network）和NN（Neural Network）中的至少一种结构，或者也可以是用户自定义的其它编码器，多分类模块的输出层接入softmax，损失函数则为对数损失函数，以及损失函数中的标签为norm_text_num。

而排序模块包括第一子结构、第二子结构和第三子结构，该第一子结构能够将标准化文本矩阵NM输入第一子结构的解码层得到第一向量矩阵BE，其中第一子结构的解码层所采用解码器可以包括TextCNN、LSTM、BiLSTM、RNN和NN中的至少一种结构，或者也可以是用户自定义的其它解码器，但需保证最终的输出维度为（norm_num, dim），其中norm_num表示标准化文本个数，dim则是根据实际效果确定的一个整数；该第二子结构能够根据预训练模型对第二数组进行向量化，并将向量输入第二子结构的解码层，但需保证最终的输出维度为（1, dim），然后经过第二子结构的向量扩展层进行复制和堆叠处理，得到与第一向量矩阵BE维度相同的第二向量矩阵AE；该第三子结构能够将第一向量矩阵BE、第二向量矩阵AE以及第一向量矩阵BE与第二向量矩阵AE差值的绝对值abs（BE-AE）进行合并（concat），并经过第三子结构的输出层输出排序结果，其中第三子结构的输出层接入一层线性层和sigmoid，损失函数为对数损失函数，标签则根据第二数组中的ids在全量norm_texts的命中情况进行构造，命中ids的标签为1，未命中ids的标签为0。

进一步地，本发明实施例中联合模型结构的损失值loss根据多分类模块的损失值loss.left和权重w1以及排序模块的损失值loss.right和权重w2进行融合获得，即loss =loss.left * w1 + loss.right * w2，其中w1和w2可根据训练结果进行反复调整确定。

进一步地，如图4所示，本发明实施例还可以将待标准化文本输入联合模型结构，获得多分类模块预测的标准化术语个数K，即对应概率值最大类别K；而后排序模块根据标准化术语个数K和第一数组，获得待标准化文本对应的正确标准化结果，即将得分按照降序排序，并取topK的id，再通过基于第一数组构造的二元映射表<id, norm_text>，将id映射为norm_text，由此对整体网络结构的输出层进行微调，确保了标准化效果。

本发明实施例提供了一种医学术语标准化模型的构建方法，该构建方法通过对联合模型结构中的多分类模块和排序模块进行一体式训练，无需额外单独配置，进而实现了端到端建模，不仅能够简化模型复杂度，大幅降低迭代成本，还能够消除多段式分别建模引入的误差传递所带来的损失，极大地提升了标准化效果。

基于前述实施例，本发明实施例提供一种医学术语标准化模型的构建装置。该医学术语标准化模型的构建装置100可以应用于图1~图4对应实施例的医学术语标准化模型的构建方法中。请参考图5，该医学术语标准化模型的构建装置100包括：

向量编码单元101，用于获取标准化文本，并根据预训练模型对标准化文本进行向量编码，获得第一数组；

格式转换单元102，用于获取待标准化文本，并根据第一数组对待标准化文本的数据格式进行转换，获得第二数组；

模型训练单元103，用于将第二数组输入联合模型结构中进行训练，获得医学术语标准化模型，联合模型结构包括多分类模块和排序模块，多分类模块用于预测标准化术语个数，排序模块用于对全量标准化文本进行排序，其中排序模块的标准化文本矩阵基于第一数组和预训练模型得到。

可选地，如图6所示，本发明一些实施例中向量编码单元101包括：

第一输入子单元1011，用于输入标准化文本至预训练模型，获得第一文本向量；

第二输入子单元1012，用于分别输入标准化文本隶属的至少一个分类文本至预训练模型，获得第二文本向量；

权重平滑处理子单元1013，用于根据第一文本向量和第二文本向量各自对应的权重，对第一文本向量和第二文本向量进行权重平滑处理，获得标准化文本向量，第一数组包括标准化文本向量。

可选地，本发明一些实施例中第二输入单元1012还用于将各分类文本对应的分类文本向量合并进行平滑操作，获得第二文本向量。

可选地，本发明一些实施例中多分类模块还用于根据预训练模型对第二数组进行向量化，并将向量输入多分类模块的编码层，经过多分类模块的输出层输出预测结果。

可选地，本发明一些实施例中排序模块包括第一子结构、第二子结构和第三子结构；

第一子结构用于将标准化文本矩阵输入第一子结构的解码层得到第一向量矩阵；第二子结构用于根据预训练模型对第二数组进行向量化，并将向量输入第二子结构的解码层，经过第二子结构的向量扩展层得到与第一向量矩阵维度相同的第二向量矩阵；第三子结构用于将第一向量矩阵、第二向量矩阵以及第一向量矩阵与第二向量矩阵差值的绝对值进行合并，并经过第三子结构的输出层输出排序结果。

可选地，本发明一些实施例中联合模型结构的损失值根据多分类模块的损失值和权重以及排序模块的损失值和权重进行融合获得。

可选地，本发明一些实施例中模型训练单元103还用于输入待标准化文本至联合模型结构，获得多分类模块预测的标准化术语个数；

排序模块根据标准化术语个数和第一数组，获得待标准化文本对应的正确标准化结果。

需要说明的是，本实施例中与其它实施例中相同步骤和相同内容的说明，可以参照其它实施例中的描述，此处不再赘述。

本发明实施例提供了一种医学术语标准化模型的构建装置，该构建装置通过对联合模型结构中的多分类模块和排序模块进行一体式训练，无需额外单独配置，进而实现了端到端建模，不仅能够简化模型复杂度，大幅降低迭代成本，还能够消除多段式分别建模引入的误差传递所带来的损失，极大地提升了标准化效果。

基于前述实施例，本发明实施例提供一种终端设备，该终端设备包括处理器和存储器。存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并执行以实现图1~图4对应实施例的医学术语标准化模型的构建方法的步骤。

作为另一方面，本发明实施例提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述图1~图4对应实施例的医学术语标准化模型的构建方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。而集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例医学术语标准化模型的构建方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory， ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种医学术语标准化模型的构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的构建方法，其特征在于，所述获取标准化文本，并根据预训练模型对所述标准化文本进行向量编码，获得第一数组，包括：

3.根据权利要求2所述的构建方法，其特征在于，所述分别输入所述标准化文本隶属的至少一个分类文本至所述预训练模型，获得第二文本向量，包括：

4.根据权利要求1至3中任意一项所述的构建方法，其特征在于，所述多分类模块还用于根据所述预训练模型对所述第二数组进行向量化，并将向量输入所述多分类模块的编码层，经过所述多分类模块的输出层输出预测结果。

5.根据权利要求4所述的构建方法，其特征在于，所述排序模块包括第一子结构、第二子结构和第三子结构；

6.根据权利要求5所述的构建方法，其特征在于，所述联合模型结构的损失值根据所述多分类模块的损失值和权重以及所述排序模块的损失值和权重进行融合获得。

7.根据权利要求4所述的构建方法，其特征在于，所述将所述第二数组输入联合模型结构中进行训练，获得医学术语标准化模型，所述联合模型结构包括多分类模块和排序模块，还包括：

8.一种医学术语标准化模型的构建装置，其特征在于，所述装置包括：

9.一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至7中任意一项所述的医学术语标准化模型的构建方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至7中任意一项所述的医学术语标准化模型的构建方法的步骤。