CN116384379A

CN116384379A - 一种基于深度学习的中文临床术语标准化方法

Info

Publication number: CN116384379A
Application number: CN202310658037.2A
Authority: CN
Inventors: 曹天甲; 倪广健; 程龙龙; 田野
Original assignee: Zhongdian Yunnao Tianjin Technology Co ltd; Tianjin University
Current assignee: Zhongdian Yunnao Tianjin Technology Co ltd; Tianjin University
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-07-04

Abstract

本发明公开了一种基于深度学习的中文临床术语标准化方法，涉及到临床术语领域，针对每一个诊断原词，进行所述数据的预处理；从标准词集合中产生该诊断原词，利用所述诊断原词达到所述候选集生成；使用所述模型排序对候选集中的每个词进行排序；通过模型预测出标准词个数K，并结合所述模型排序的结果，得到前K个词作为所述标准词集合。所述数据的预处理分为数据清洗和标准词集合生成，所述数据清洗包括清洗诊断原词的无关字符，所述标准词生成包括选取ICD‑10作为标准词集合。针对候选集生成过程，本提案提出一种基于有监督学习与无监督学习融合的候选集生成方法，提高候选集生成的召回率。

Description

一种基于深度学习的中文临床术语标准化方法

技术领域

本发明涉及临床术语领域，特别涉及一种基于深度学习的中文临床术语标准化方法。

背景技术

针对中文临床术语标准化问题，已有大量的研究和探索。目前主要分为三类方法，即基于人工手动结合规则的方法、基于机器学习的方法和基于深度学习的方法。

基于人工手动结合规则的方法最早应用于国外对临床术语的标准化。然而这种方式总体学习成本较高，并且效率低下。需要大量的专业人员，并且耗时易出错，现在应用较少。

基于机器学习的方法相对于基于人工手动结合规则的方法有一定进步。但是并没有深入挖掘文本中所包含的语义信息。

随着深度学习技术的发展和计算性能的大幅提升，神经网络被广泛应用于临床信息处理领域。深度学习在文本建模上具有强大的表征能力，不仅可以更好地表示词语和文本，还可以学习到词语的上下文关系和重要词语的信息，在自然语言处理领域展现出强大的优势。因此，深度学习成为目前研究临床术语标准化的主流方法。

本提案提出一种基于深度学习的中文临床术语标准化的方法。将临床术语标准化工作分为候选集生成，模型排序，个数预测三部分。同时针对候选集生成，提出一种基于无监督与有监督学习融合的候选集生成方法，将候选集生成问题抽象成文本相似度计算问题。

发明内容

本发明的目的在于提供一种基于深度学习的中文临床术语标准化方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于深度学习的中文临床术语标准化方法，包括数据的预处理、候选集生成、模型排序、个数预测，该方法包括以下步骤：

S1、数据的预处理，数据的预处理分为数据清洗和标准词集合生成，发明数据清洗包括清洗诊断原词的无关字符，标准词生成包括选取ICD-10作为标准词集合，优化对比损失，增加正样例之间的相似性，减小负样例之间的相似性，在有监督学习场景下，将训练集中标注的诊断原词和标准词数据，作为正样例（X，X+），将训练过程中同一个Batch内除自身之外的其它所有诊断原词及其标准词作为负样例（X，X-）进行数据增强，在无监督学习场景下，构建负样例的过程则与有监督学习场景相同，针对每一个诊断原词，进行所述数据的预处理；

S2、候选集生成，候选集生成是通过给定一个诊断原词，从标准词集合中筛选出若干个标准词作为匹配候选的过程，在候选集生成过程中，将对比学习分别运用到有监督学习和无监督学习两种场景中，对比学习的核心是通过数据增强的方式构建正负样例，然后将正负样例同时输入到模型中进行特征提取进而生成句嵌入，最后优化对比损失，增加正样例之间的相似性，减小负样例之间的相似性，从标准词集合中产生该诊断原词，利用所述诊断原词达到所述候选集生成，通过迁移学习将有监督学习场景和无监督学习场景下通过对比学习生成的模型进行融合，形成最终的候选集生成模型，在推理过程中，输入一个诊断原词，通过模型生成嵌入结果，并与每一个标准词生成的嵌入结果进行相似度计算并排序，通过选取不同的召回范围（TopK值）生成最终的候选集合；

S3、模型排序，使用所述模型排序对候选集中的每个词进行排序；

S4、个数预测，通过模型预测出标准词个数K，并结合所述模型排序的结果，得到前K个词作为所述标准词集合。

优选的，所述数据的预处理分为数据清洗和标准词集合生成，所述数据清洗包括清洗诊断原词的无关字符，所述标准词生成包括选取ICD-10作为标准词集合。

优选的，所述模型排序是将所述诊断原词与候选标准词用[SEP]分隔符隔开作为BERT的输入，然后取BERT输出中[CLS]位置对应的向量作为下一个全连接层的输入，使用sigmoid函数进行激活，把诊断原词与候选标准词语义相似度计算问题抽象为二分类问题。

优选的，所述个数预测的目的是确认输出标准词的数量，在预测数量时，将原始训练集的诊断原词加入到数量预测的训练集中，将原始训练集中的标准词通过分隔符进行分割，得到标准词数量作为数量预测的类别标签。

优选的，将个数预测抽象成一个类别为{1，2，3，>3}的多分类问题，利用BERT微调参数进行数量预测K，结合步骤三排序模型的输出结果，返回前K个排名作为最后的结果。

本发明的技术效果和优点：

1、针对候选集生成过程，本提案提出一种基于有监督学习与无监督学习融合的候选集生成方法，提高候选集生成的召回率。

2、针对中文以及临床领域的特点，提出一种基于深度学习的中文临床术语标准化的方法，可以有效的解决中文临床术语统一标准化的问题。

附图说明

图1为本发明基于深度学习的中文临床术语标准化方法示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了如图1所示的一种基于深度学习的中文临床术语标准化方法，针对每一个诊断原词，进行所述数据的预处理；从标准词集合中产生该诊断原词，利用所述诊断原词达到所述候选集生成；使用所述模型排序对候选集中的每个词进行排序；通过模型预测出标准词个数K，并结合所述模型排序的结果，得到前K个词作为所述标准词集合。

实施例1

候选集生成是通过给定一个诊断原词，从标准词集合中筛选出若干个标准词作为匹配候选的过程，在候选集生成过程中，将对比学习分别运用到有监督学习和无监督学习两种场景中，对比学习的核心是通过数据增强的方式构建正负样例，然后将正负样例同时输入到模型中进行特征提取进而生成句嵌入，最后优化对比损失，增加正样例之间的相似性，减小负样例之间的相似性。

数据的预处理分为数据清洗和标准词集合生成，发明数据清洗包括清洗诊断原词的无关字符，标准词生成包括选取ICD-10作为标准词集合。最后优化对比损失，增加正样例之间的相似性，减小负样例之间的相似性。

在有监督学习场景下，将训练集中标注的数据（诊断原词，标准词）作为正样例（X，X+），将训练过程中同一个Batch内除自身之外的其它所有诊断原词及其标准词作为负样例（X，X-）进行数据增强。

实施例2

在无监督学习场景下，构建负样例的过程则与有监督学习场景相同。而在构建正样例过程中，由于缺乏标注数据，则采用“单词重复”来构建正样例。传统的做法是通过对原有句子进行随机插入或随机删除，以此来改变原有句子长度，形成的新的句子作为原有句子的正样例。但是在句子中插入随机选择的单词可能会引入额外的噪声，并扭曲句子的含义，而从句子中删除关键词则会大幅改变它的语义。而单词重复能在不改变句子语义的情况下改变句子的长度，方法描述如下：

给定一个句子s，经过分词器处理后，得到一个子词序列，X=[X1,...,XN]。将重复单词的数量dup_len定义为：

式中:dup_len是上面定义的集合中的随机采样数；dup_rate为一个超参数，表示最大重复率；N为句子序列的长度。

确定dup_len后，使用均匀分布从句子序列中随机选择需要重复的子词，组成重复单词的集合dup_set如公式所示：

式中:dup_len为公式(1)计算的重复的数量；N为句子序列的长度。

例如，如果第一个子词X1在dup_set中，则序列X变为X+=[X1,X1,X2,...,XN]。

最后，通过迁移学习将有监督学习场景和无监督学习场景下通过对比学习生成的模型进行融合，形成最终的候选集生成模型。在推理过程中，输入一个诊断原词，通过模型生成嵌入结果，并与每一个标准词生成的嵌入结果进行相似度计算并排序，通过选取不同的召回范围（TopK值）生成最终的候选集合。

模型排序是将发明诊断原词与候选标准词用[SEP]分隔符隔开作为BERT的输入，然后取BERT输出中[CLS]位置对应的向量作为下一个全连接层的输入，使用sigmoid函数进行激活，把诊断原词与候选标准词语义相似度计算问题抽象为二分类问题。

个数预测的目的是确认输出标准词的数量，在预测数量时，将原始训练集的诊断原词加入到数量预测的训练集中，将原始训练集中的标准词通过分隔符进行分割，得到标准词数量作为数量预测的类别标签，将发明个数预测抽象成一个类别为{1，2，3，>3}的多分类问题，利用BERT微调参数进行数量预测K，结合步骤三排序模型的输出结果，返回前K个排名作为最后的结果。

在本发明的描述中，需要理解的是，指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

Claims

1.一种基于深度学习的中文临床术语标准化方法，其特征在于：包括数据的预处理、候选集生成、模型排序、个数预测，该方法包括以下步骤：

S2、候选集生成，候选集生成是通过给定一个诊断原词，从标准词集合中筛选出若干个标准词作为匹配候选的过程，在候选集生成过程中，将对比学习分别运用到有监督学习和无监督学习两种场景中，对比学习的核心是通过数据增强的方式构建正负样例，然后将正负样例同时输入到模型中进行特征提取进而生成句嵌入，最后优化对比损失，增加正样例之间的相似性，减小负样例之间的相似性，从标准词集合中产生该诊断原词，利用所述诊断原词达到所述候选集生成，通过迁移学习将有监督学习场景和无监督学习场景下通过对比学习生成的模型进行融合，形成最终的候选集生成模型，在推理过程中，输入一个诊断原词，通过模型生成嵌入结果，并与每一个标准词生成的嵌入结果进行相似度计算并排序，通过选取不同的召回范围TopK值，生成最终的候选集合；

2.根据权利要求1所述的一种基于深度学习的中文临床术语标准化方法，其特征在于：所述数据的预处理分为数据清洗和标准词集合生成，所述数据清洗包括清洗诊断原词的无关字符，所述标准词生成包括选取ICD-10作为标准词集合。

3.根据权利要求1所述的一种基于深度学习的中文临床术语标准化方法，其特征在于：所述模型排序是将所述诊断原词与候选标准词用[SEP]分隔符隔开作为BERT的输入，然后取BERT输出中[CLS]位置对应的向量作为下一个全连接层的输入，使用sigmoid函数进行激活，把诊断原词与候选标准词语义相似度计算问题抽象为二分类问题。

4.根据权利要求1所述的一种基于深度学习的中文临床术语标准化方法，其特征在于：所述个数预测的目的是确认输出标准词的数量，在预测数量时，将原始训练集的诊断原词加入到数量预测的训练集中，将原始训练集中的标准词通过分隔符进行分割，得到标准词数量作为数量预测的类别标签。

5.根据权利要求4所述的一种基于深度学习的中文临床术语标准化方法，其特征在于：将个数预测抽象成一个类别为{1，2，3，>3}的多分类问题，利用BERT微调参数进行数量预测K，结合步骤三排序模型的输出结果，返回前K个排名作为最后的结果。