CN116860980B

CN116860980B - 一种实时手术反馈分类方法及系统

Info

Publication number: CN116860980B
Application number: CN202311129532.0A
Authority: CN
Inventors: 邹文; 刘新尧; 荣霞
Original assignee: 6th Medical Center of PLA General Hospital
Current assignee: 6th Medical Center of PLA General Hospital
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2024-01-26
Anticipated expiration: 2043-09-04
Also published as: CN116860980A

Abstract

本发明公开了一种实时手术反馈分类方法及系统，该方法包括数据获取、数据预处理、创建类别标签词汇库、优化类别标签词汇库和手术反馈分类预测，本发明涉及医疗信息化技术领域，具体是指一种实时手术反馈分类方法及系统。本方案利用BERT模型中的掩码语言建模任务，实现了根据待分类文本中的关键词进行快速预分类，提高了实时手术反馈分类的效率，采用先验概率结合上下文语义分析的方法，去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词，提高了实时手术反馈分类准确率，用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分，实现了将对类别标签词的预测转化为具体分类类别的预测，提高了实时手术反馈分类的可靠性。

Description

一种实时手术反馈分类方法及系统

技术领域

本发明涉及医疗信息化技术领域，具体是指一种实时手术反馈分类方法及系统。

背景技术

实时手术反馈分类是指将手术过程中进行的不同类型的操作标准化为特定的编码，以便在医疗记录、医疗保险申报、统计分析等方面进行统一的记录和处理；通过将各种手术过程操作赋予独特的编码，医疗专业人员可以更加精确地描述和标识患者接受的治疗方式，使得医疗团队能够在全球范围内进行交流与合作；但是在已有的实时手术反馈分类方法中，存在着缺少一种能够根据编码规则确定的类别制定类别标签词汇库的方法，导致无法确定待分类文本中的关键词，从而无法快速进行分类判别的问题；在已有的实时手术反馈分类方法中，存在着难以挑选高质量的类别标签指示词，导致预训练模型分类性能下降以及泛化能力不足，降低实时手术反馈分类准确性的问题；在已有的实时手术反馈分类方法中，存在着缺少一种能够将待分类文本中的关键词映射到具体分类类别的方法，导致无法实现利用类别标签词判定具体类别的问题。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供了一种实时手术反馈分类方法及系统，针对在已有的实时手术反馈分类方法中，存在着缺少一种能够根据编码规则确定的类别制定类别标签词汇库的方法，导致无法确定待分类文本中的关键词，从而无法快速进行分类判别的问题，本方案创造性地利用BERT模型中的掩码语言建模任务，根据类别名称预测关键词建立类别标签词汇库，实现了根据待分类文本中的关键词进行快速预分类，提高了实时手术反馈分类的效率；针对在已有的实时手术反馈分类方法中，存在着难以挑选高质量的类别标签词，导致预训练模型分类性能下降以及泛化能力不足，降低实时手术反馈分类准确率的问题，本方案创造性地采用先验概率结合上下文语义分析的方法，去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词，优化了类别标签词汇库，提高了实时手术反馈分类准确率；针对在已有的实时手术反馈分类方法中，存在着缺少一种能够将待分类文本中的关键词映射到具体分类类别的方法，导致无法实现利用类别标签词判定具体类别的问题，本方案创造性地利用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分，实现了将对类别标签词的预测转化为具体分类类别的预测，实现了从标签词到类别标签映射的可能性，提高了实时手术反馈分类的可靠性。

本发明采取的技术方案如下：本发明提供的一种实时手术反馈分类方法及系统，该方法包括以下步骤：

步骤S1：数据获取；

步骤S2：数据预处理；

步骤S3：创建类别标签词汇库；

步骤S4：优化类别标签词汇库；

步骤S5：手术反馈分类预测。

进一步地，在步骤S1中，所述数据获取，具体为获取疾病诊断数据、手术过程实时操作记录数据以及历史数据。

进一步地，在步骤S2中，所述数据预处理，具体为去除所述疾病诊断数据和手术过程实时操作记录数据中不必要的字符、标点符号、特殊字符并将每个句子分割成单词或词语的序列后加上换行符，得到实时手术操作记录数据集。

进一步地，在步骤S3中，所述创建类别标签词汇库具体包括以下步骤：

步骤S31：确定具体分类标签，具体为根据疾病编码规则，确定该编码规则下划分的类别标签；

步骤S32：获得类别标签指向词集合，具体包括以下步骤：

步骤S321：构建训练样本集，具体为将所述历史数据作为原始数据集，将该数据集中所有包含所述类别标签词的文本构成训练样本集；

步骤S322：计算类别标签相近词的概率分布，具体为对所述训练样本集中出现类别标签词的语句，将其上下文词嵌入向量h输入到BERT模型中，通过掩码语言建模任务计算在语义上能够替换类别标签词的相近词概率分布，公式如下：

P(w|h)＝softmax(W₂σ(W₁h+b))；

式中，P(w|h)为类别标签相近词的概率分布，w为类别标签相近词，h为类别标签词位置的词嵌入向量，σ(·)为激活函数，W₁，W₂和b为BERT模型掩码语言建模任务的可学习参数；

步骤S323：获得类别标签相近词集合，具体为根据步骤S322中得到的概率分布选取概率分布最大的前50个相近词构成类别标签相近词集合；

步骤S324：建立寻找类别标签指向词的训练任务，具体为使用[MASK]标记对所述类别标签相近词进行遮掩后再进行掩码语言建模任务，训练任务的损失函数如下：

式中，L_{cls_ind}为训练任务的损失函数，c_w为类别标签相近词所属的类别，h_w为类别标签相近词位置的词嵌入向量，p(c_w|h_w)为类别标签词的概率分布；

步骤S325：获得类别标签指向词集合，具体为对于步骤S324中所述训练任务中所预测出的可替换原类别标签的类别标签相似词中，存在超过20个与所述类别标签相近词表重合的，将该类别标签相近词作为类别标签指向词，加入到类别标签指向词集合中，得到类别标签指向词集合；

步骤S33：将步骤S325获得的类别标签指向词集合作为对应类别标签的词汇库，得到类别标签词汇库。

进一步地，在步骤S4中，所述优化类别标签词汇库具体包括以下步骤：

步骤S41：计算标签词的先验分布，具体为将类别标签词汇库中的词记为标签词，将所述原始数据集中包含标签词文本的分布记为D，通过对整个文本分布的概率进行期望，得到标签词的先验分布，计算公式如下：

式中，P_D(v)为标签词的先验分布，v为标签词，x为原始数据集中包含标签词的文本，D为原始数据集中包含标签词文本的分布，P(v|x)为包含标签词的文本在原始数据集中的分布概率；

步骤S42：上下文校准，具体为使用标签词的上下文先验概率校准标签词的预测分布，以弱化不同标签词之间的先验分布巨大差异，计算公式如下：

式中，P(v|x)为包含标签词的文本在原始数据集中的分布概率，P_D(v)为标签词的先验分布；

步骤S43：处理罕见词，具体为利用步骤S41得到的标签词的先验分布，剔除类别标签词汇库中分布概率小的标签词；

步骤S44：确定标签词与类别标签的相关性，具体为计算所述标签词与类别标签的余弦相似性，将余弦相似性作为相关性得分，计算公式如下：

r(v，y)＝cos(q^v，q^y)；

式中，r(v，y)为标签词与类别标签的余弦相似性，cos(·)为余弦函数，v为标签词，y为标签词对应的类别标签，q^v为所述BERT模型生成的标签词表示向量，q^y为所述BERT模型生成的类别标签表示向量；

步骤S45：计算标签词与其非隶属类别标签f(v)之间的相关性R(v)，公式如下：

式中，R(v)为标签词v与其非隶属类别标签f(v)的相关性，f(v)为标签词的非隶属类别标签，r(v，y)为标签词与类别标签的余弦相似性，v为标签词，y为标签词对应的类别标签，N为类别标签的数量；

步骤S46：优化不同类别标签下的标签词，具体为将步骤S45中得到的R(v)值小于1的标签词从其所属的类别标签词汇库中移除；

步骤S47：计算标准化权重，具体为所述标签词v分配一个可学习的权重w_v，计算每个类别的标准化权重，公式如下：

式中，α_v为标准化后的类别权重，v为标签词，w_v为标签词的可学习权重，Z为类别标签词汇库，u为类别标签词汇库中的标签词，w_u为标签词的可学习权重，exp为指数函数；

步骤S48：获得优化后的类别标签词汇库，具体为使用步骤S47得到的标准化权重改进BERT模型权重项，重新执行步骤S3得到优化后的类别标签词汇库。

进一步地，在步骤S5中，所述手术反馈分类预测具体包括以下步骤：

步骤S51：创建BERT模型对所述实时手术操作记录数据集中样本的掩码语言建模任务；

步骤S52：计算分类标签词汇库中标签词对类别标签的贡献得分；

步骤S53：计算类别标签的预测分数；

步骤S54：将步骤S53的类别标签的预测分数作为分类结果，得到实时手术操作记录数据集中样本的分类类别。

本发明提供的一种实时手术反馈分类系统，包括数据获取模块、数据预处理模块、创建类别标签词汇库模块、优化类别标签词汇库模块和手术反馈分类预测模块；

所述数据获取模块获取疾病诊断数据，手术过程实时操作记录数据以及历史数据，并将所述疾病诊断数据和手术过程实时操作记录数据发送至数据预处理模块，所述历史数据发送至创建类别标签词汇库模块；

所述数据预处理模块接收数据获取模块发送的疾病诊断数据和手术过程实时操作记录数据，经数据预处理后得到实时手术操作记录数据集，并将所述实时手术操作记录数据集发送至手术反馈分类预测模块；

所述创建类别标签词汇库模块接收数据获取模块发送的历史数据，根据编码类别建立类别标签词汇库，并将类别标签词汇库数据发送至优化类别标签词汇库模块；

所述优化类别标签词汇库模块接收创建类别标签词汇库模块发送的类别标签词汇库数据，对所述类别标签词汇库数据进行优化，并将优化类别标签词汇库数据发送至手术反馈分类预测模块；

所述手术反馈分类预测模块接收数据预处理模块发送的实时手术操作记录数据集和优化类别标签词汇库模块发送的类别标签词汇库数据，将预训练模型对优化类别标签词汇库中的预测分数转化为具体类别的预测分数，完成实时手术反馈分类。

采用上述方案本发明取得的有益效果如下：

(1)针对在已有的实时手术反馈分类方法中，存在着缺少一种能够根据编码规则确定的类别制定类别标签词汇库的方法，导致无法确定待分类文本中的关键词，从而无法快速进行分类判别的问题，本方案创造性地利用BERT模型中的掩码语言建模任务，根据类别名称预测关键词建立类别标签词汇库，实现了根据待分类文本中的关键词进行快速预分类，提高了实时手术反馈分类的效率；

(2)针对在已有的实时手术反馈分类方法中，存在着难以挑选高质量的类别标签词，导致预训练模型分类性能下降以及泛化能力不足，降低实时手术反馈分类准确率的问题，本方案创造性地采用先验概率结合上下文语义分析的方法，去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词，优化了类别标签词汇库，提高了实时手术反馈分类准确率；

(3)针对在已有的实时手术反馈分类方法中，存在着缺少一种能够将待分类文本中的关键词映射到具体分类类别的方法，导致无法实现利用类别标签词判定具体类别的问题，本方案创造性地利用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分，实现了将对类别标签词的预测转化为具体分类类别的预测，实现了从标签词到类别标签映射的可能性，提高了实时手术反馈分类的可靠性。

附图说明

图1为本发明提供的一种实时手术反馈分类方法流程示意图；

图2为本发明提供的一种实时手术反馈分类系统示意图；

图3为步骤S3的流程示意图；

图4为步骤S4的流程示意图；

图5为步骤S5的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一，参阅图1，本发明提供的一种实时手术反馈分类方法，该方法包括以下步骤：

步骤S1：数据获取；

步骤S2：数据预处理；

步骤S3：创建类别标签词汇库；

步骤S4：优化类别标签词汇库；

步骤S5：手术反馈分类预测。

实施例二，该实施例基于上述实施例，参阅图1和图2，在步骤S1中，所述数据获取，具体为获取疾病诊断数据、手术过程实时操作记录数据以及历史数据。

实施例三，该实施例基于上述实施例，参阅图1和图2，在步骤S2中，所述数据预处理，具体为去除所述疾病诊断数据和手术过程实时操作记录数据中不必要的字符、标点符号、特殊字符并将每个句子分割成单词或词语的序列后加上换行符，得到实时手术操作记录数据集。

实施例四，该实施例基于上述实施例，参阅图1和图3，在步骤S3中，所述创建类别标签词汇库具体包括以下步骤：

步骤S32：获得类别标签指向词集合，具体包括以下步骤：

P(w|h)＝softmax(W₂σ(W₁h+b))；

L_{cls_ind}＝-∑logp(c_w|h_w)；

步骤S33：将步骤S325获得的类别标签指向词集合作为对应类别标签的词汇库，得到类别标签词汇库；

通过上述操作，针对在已有的实时手术反馈分类方法中，存在着缺少一种能够根据编码规则确定的类别制定类别标签词汇库的方法，导致无法确定待分类文本中的关键词，从而无法快速进行分类判别的问题，本方案创造性地利用BERT模型中的掩码语言建模任务，根据类别名称预测关键词建立类别标签词汇库，实现了根据待分类文本中的关键词进行快速预分类，提高了实时手术反馈分类的效率。

实施例五，参阅图1和图4，该实施例基于上述实施例，在步骤S4中，所述优化类别标签词汇库具体包括以下步骤：

r(v，y)＝cos(q^v，q^y)；

步骤S48：获得优化后的类别标签词汇库，具体为使用步骤S47得到的标准化权重改进BERT模型权重项，重新执行步骤S3得到优化后的类别标签词汇库；

通过上述操作，针对在已有的实时手术反馈分类方法中，存在着难以挑选高质量的类别标签词，导致预训练模型分类性能下降以及泛化能力不足，降低实时手术反馈分类准确率的问题，本方案创造性地采用先验概率结合上下文语义分析的方法，去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词，优化了类别标签词汇库，提高了实时手术反馈分类准确率。

实施例六，参阅图1和图5，该实施例基于上述实施例，在步骤S5中，所述手术反馈分类预测具体包括以下步骤：

步骤S51：创建BERT模型对所述手术操作记录数据集中样本的掩码语言建模任务；

步骤S52：计算分类标签词汇库中标签词对类别标签的贡献得分，公式如下：

P(y|x_s)＝P_M([MASK]＝v|x_s)；

式中，y为标签词对应的类别标签，x_s为所述手术操作记录数据集中样本，M为BERT模型，MASK为BERT模型进行掩码语言建模所使用的掩码标记；

步骤S53：计算类别标签的预测分数，具体为使用分类标签词汇库中所有标签词的平均值作为类别标签的预测分数，公式如下：

式中，为类别标签的预测分数，y为标签词对应的类别标签，x_s为所述手术操作记录数据集中样本，|Z|为类别标签词汇库中标签词的数量；

步骤S54：将步骤S53的类别标签的预测分数作为分类结果，得到实时手术操作记录数据集中样本的分类类别；

通过上述操作，针对在已有的实时手术反馈分类方法中，存在着缺少一种能够将待分类文本中的关键词映射到具体分类类别的方法，导致无法实现利用类别标签词判定具体类别的问题，本方案创造性地利用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分，实现了将对类别标签词的预测转化为具体分类类别的预测，实现了从标签词到类别标签映射的可能性，提高了实时手术反馈分类的可靠性。

实施例七，参阅图2，该实施例基于上述实施例，本发明提供的一种实时手术反馈分类系统，包括数据获取模块、数据预处理模块、创建类别标签词汇库模块、优化类别标签词汇库模块和手术反馈分类预测模块；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程和方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程和方法所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种实时手术反馈分类方法，其特征在于：该方法包括以下步骤：

步骤S1：数据获取；

步骤S2：数据预处理；

步骤S3：创建类别标签词汇库，用于实现根据待分类文本中的关键词进行快速预分类，进而创建所述类别标签词汇库，具体为利用BERT模型中的掩码语言建模任务，根据类别名称预测关键词，建立所述类别标签词汇库，包括以下步骤：

步骤S32：获得类别标签指向词集合，具体包括以下步骤：

步骤S321：构建训练样本集，具体为将历史数据作为原始数据集，并将所述原始数据集中所有包含所述类别标签词的文本构成训练样本集；

步骤S322：计算类别标签相近词的概率分布；

步骤S323：获得类别标签相近词集合；

L_{cls_ind}＝-∑logp(c_w|h_w)；

步骤S325：获得类别标签指向词集合，具体为对于步骤S323中所述训练任务中所预测出的可替换原类别标签的类别标签相似词中，存在超过20个与所述类别标签相近词表重合的，将该类别标签相近词作为类别标签指向词，加入到类别标签指向词集合中，得到类别标签指向词集合；

步骤S4：优化类别标签词汇库，用于去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词，进而优化所述类别标签词汇库，具体为采用先验概率结合上下文语义分析的方法，得到标准化权重，并通过得到所述标准化权重，改进BERT模型权重项，并重新执行步骤S3得到优化后的类别标签词汇库，包括以下步骤：

步骤S41：计算标签词的先验分布；

步骤S42：上下文校准；

步骤S43：处理罕见词；

步骤S44：确定标签词与类别标签的相关性；

步骤S45：计算标签词与其非隶属类别标签f(v)之间的相关性R(v)；

步骤S46：优化不同类别标签下的标签词；

步骤S5：手术反馈分类预测，用于实现将对类别标签词的预测转化为具体分类类别的预测，进而实现从标签词到类别标签映射的可能性，具体为利用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分，进行手术反馈分类预测。

2.根据权利要求1所述的一种实时手术反馈分类方法，其特征在于：在步骤S322中，所述计算类别标签相近词的概率分布，具体为对所述训练样本集中出现类别标签词的语句，将其上下文词嵌入向量h输入到BERT模型中，通过掩码语言建模任务计算在语义上能够替换类别标签词的相近词概率分布，公式如下：

P(w|h)＝softmax(W₂σ(W₁h+b))；

在步骤S323中，所述获得类别标签相近词集合，具体为根据步骤S322中得到的概率分布选取概率分布最大的前50个相近词构成类别标签相近词集合；

在步骤S325中，所述获得类别标签指向词集合，具体为对于步骤S324中所述训练任务中所预测出的可替换原类别标签的类别标签相似词中，存在超过20个与所述类别标签相近词表重合的，将该类别标签相近词作为类别标签指向词，加入到类别标签指向词集合中，得到类别标签指向词集合。

3.根据权利要求1所述的一种实时手术反馈分类方法，其特征在于：在步骤S41中，所述计算标签词的先验分布，具体为将类别标签词汇库中的词记为标签词，将所述原始数据集中包含标签词文本的分布记为D，通过对整个文本分布的概率进行期望，得到标签词的先验分布，计算公式如下：

在步骤S42中，所述上下文校准，具体为使用标签词的上下文先验概率校准标签词的预测分布，以弱化不同标签词之间的先验分布巨大差异，计算公式如下：

在步骤S43中，所述处理罕见词，具体为利用步骤S41得到的标签词的先验分布，剔除类别标签词汇库中分布概率小的标签词；

在步骤S44中，所述确定标签词与类别标签的相关性，具体为计算所述标签词与类别标签的余弦相似性，将余弦相似性作为相关性得分，计算公式如下：

r(v，y)＝cos(q^v，q^y)；

在步骤S45中，所述计算标签词与其非隶属类别标签f(v)之间的相关性R(v)，公式如下：

在步骤S46中，所述优化不同类别标签下的标签词，具体为将步骤S45中得到的R(v)值小于1的标签词从其所属的类别标签词汇库中移除。

4.根据权利要求1所述的一种实时手术反馈分类方法，其特征在于：在步骤S5中，所述手术反馈分类预测具体包括以下步骤：

步骤S51：创建BERT模型对实时手术操作记录数据集中样本的掩码语言建模任务；

步骤S53：计算类别标签的预测分数；

5.根据权利要求1所述的一种实时手术反馈分类方法，其特征在于：在步骤S2中，所述数据预处理，具体为去除疾病诊断数据和手术过程实时操作记录数据中不必要的字符、标点符号、特殊字符并将每个句子分割成单词或词语的序列后加上换行符，得到实时手术操作记录数据集。

6.根据权利要求1所述的一种实时手术反馈分类方法，其特征在于：在步骤S1中，所述数据获取，具体为获取疾病诊断数据、手术过程实时操作记录数据以及历史数据。

7.一种实时手术反馈分类系统，用于实现如权利要求1-6中任一项所述的一种实时手术反馈分类方法，其特征在于：包括数据获取模块、数据预处理模块、创建类别标签词汇库模块、优化类别标签词汇库模块和手术反馈分类预测模块。

8.根据权利要求7所述的一种实时手术反馈分类系统，其特征在于：所述数据获取模块获取疾病诊断数据，手术过程实时操作记录数据以及历史数据，并将所述疾病诊断数据和手术过程实时操作记录数据发送至数据预处理模块，所述历史数据发送至创建类别标签词汇库模块；