CN116595170A

CN116595170A - 一种基于软提示的医疗文本分类方法

Info

Publication number: CN116595170A
Application number: CN202310427121.3A
Authority: CN
Inventors: 肖潇; 穆建媛; 戚庭月; 朱毅
Original assignee: Affiliated Hospital Of Yangzhou University (yangzhou First People's Hospital)
Current assignee: Affiliated Hospital Of Yangzhou University (yangzhou First People's Hospital)
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-08-15

Abstract

本发明公开了一种基于软提示的医疗文本分类方法，包括1）在原始的输入序列中插入可训练的词向量token，固定一些任务相关的锚点token，使用神经网络对其进行随机初始化；2）通过使用四种策略对原有的类别标签词空间进行扩展，将原始输入文本加入软模板后送入预训练语言模型中，利用预训练语言模型的知识库计算每个单词被填入的概率；3）将单词的概率映射到特定的类别标签，得出分类的结果；4）通过损失函数计算真实标签和预测结果之间的误差，不断更新连续模板以及模型参数。本发明不仅大大减少了对人工资源以及对大规模训练样本的依赖，也在一定程度上降低了模型训练的成本，具有较高的鲁棒性和实用性。

Description

一种基于软提示的医疗文本分类方法

技术领域

本发明涉及自然语言处理研究领域，特别涉及一种基于软提示的医疗文本分类方法。

背景技术

文本分类是自然语言处理领域的一个重要的分支，它是将同类型的数据归为一起，方便整合文本资源数据，再进行数据分析。伴随着信息的爆炸式增长，人工标注数据已经变得耗时、质量低下，且受到标注人主观意识的影响。因此，利用机器自动化对文本进行标注具有一定的现实意义，将重复且枯燥的文本标注任务交由计算机进行处理能够有效克服以上问题，同时所标注的数据具有一致性、高质量等特点。

提示学习实现了自然语言处理技术中由先前的先预训练再微调的模式，转变为预训练、提示再预测的模式。它的核心思想是对输入文本信息按照特定模板进行处理，把任务重构成一个更能充分利用预训练语言模型处理的形式。将下游任务转换为语言模型的任务，即完形填空的形式。提示学习能够广泛激发出预训练语言模型中的先验知识，其目的在于让预训练语言模型和下游任务更接近，从而更好的利用预训练语言模型。

由于医疗文本专业术语较多，资源稀缺，早期的医疗文本分类研究集中在传统机器学习模型上，计算机通过该技术实现自主学习，自动提取医疗文本的特征，进一步分类文本。如朴素贝叶斯、K近邻以及SVM等算法。随着研究的深入，传统机器学习方法已经无法满足现在的医疗文的学习需求，为了克服传统机器学习的一些缺点，基于深度学习的医疗文本分类模型逐渐成为了研究者的研究方向。大量的工作表明，基于深度学习的神经网络模型准确率通常高于传统机器学习，其模拟学习能力具有较大的优势，但是其模型往往需要大量的有监督数据，对医疗文本数据的要求较高，需求较大。随后，预训练语言模型的兴起为我们展现出了其更好的语言表示能力，比起神经网络的模型的优点是可以进行无监督学习。尽管基于深度神经网络以及预训练语言模型的医疗文本分类方法已经取得了较好的分类性能，但由于这些模型往往依赖大量的标注或是无标注医疗文本语料，在缺乏大规模的训练数据时很难取得较好的效果。

发明内容

本发明的目的是克服现有技术缺陷，提供一种基于软提示的医疗文本分类方法，能够节约大量的人力资源以及仅使用少量的样本的情况下即可达到较好的分类效果。

本发明的目的是这样实现的：一种基于软提示的医疗文本分类方法，包括以下步骤：

步骤1)在原始的输入序列中插入可训练的词向量token，固定一些任务相关的锚点token，使用神经网络对其进行随机初始化；

步骤2)通过使用四种策略对原有的类别标签词空间进行扩展，将原始输入文本加入软模板后送入预训练语言模型中，利用预训练语言模型的知识库计算每个单词被填入的概率；

步骤3)将单词的概率映射到特定的类别标签，得出分类的结果；

步骤4)通过损失函数计算真实标签和预测结果之间的误差，不断更新连续模板以及模型参数。

作为本发明的进一步限定，所述步骤1)具体包括：

步骤1.1)预训练语言模型记为M,一个离散token的输入序列为x，表示原始上下文，这个输入序列经过预训练层e∈M得到嵌入向量序列为e(x)；

步骤1.2)随后使用随机token[P_i]插入输入序列，使用神经网络以及多层感知机对其进行初始化，加入五个软模版的token；

步骤1.3)文本分类模型中一个完整的软提示模版T设置为如下：

{h₀,…h_i,e(news),e(x),h_n,…,h_m,e[MASK]}，其中h_i是一些可训练的向量，

[MASK]处是用于进行标签词的填充。

作为本发明的进一步限定，所述步骤2)具体包括：

步骤2.1)通过使用四种策略对原有的类别标签词空间进行扩展，得到所用的标签词，具体包括：a)引入BERT预测，利用预训练语言模型中的知识，重构其MLM任务，将得出一些与文本语义较为相关的词，选择排名前N的词；b)基于FastText相似度，计算每个类标签名称y的FastText向量与扩展标签词的FastText向量之间的语义相似度，选择排名前N的词；c)基于频率的筛选，从维基百科知识图谱中选择与标签词频率较高的词；d)基于上下文信息的筛选，对文本中的内容进行随机MASK后再利用bert计算交叉熵损失预测相关的词；

步骤2.2)给定一组输入数据x，将其分类到预定义好的类别y∈Y中，类别标签的集合记作V_y＝{v₁,…,v_n}，其中V是全体类别的集合；V_y中每个标签词v被填入[MASK]处的概率表示为P_M([MASK]＝v∈V_y|x_p)，随后文本分类任务转化为类别标签词的概率计算问题，p为一个prompt函数，用于组织上下文和预测目标；其公式为(1)所示：

p(y∈Y|x)＝p([MASK]＝v∈V_y|x_p) (1)。

作为本发明的进一步限定，所述步骤3)具体包括：

步骤3.1)构造好类别对应的标签词汇表后，将每个标签词上的预测概率映射到一个原先特定的类别中，类别标签词中每个词对于预测真实的标签贡献度相同，故预测得分的平均值用于最后的文本分类，最后取出预测分数最大的类别，得出最后的预测结果如式(2)所示：

作为本发明的进一步限定，所述步骤4)具体包括：

步骤4.1)由于软提示模板中的参数h_i(0≤i<m)是可学习并不断更新的词嵌入向量，通过模板的不断优化寻找到更适用于分类任务的连续提示，超出了预训练语言模型M的原始词汇表的表达范围，y表示为真实标签，固定整个模型的权重，使用如(3)的交叉熵损失函数进行不断优化软提示：

本发明采用以上技术方，与现有技术相比有益效果为：1)本发明利用软提示对医疗文本进行分类，本方法不需要手动设计提示模板，避免了耗费大量的人工工程；

2)本发明在对软提示医疗文本分类模型中的标签词空间进行扩展时使用了四种策略，实验的结果证明这项工作给实验结果带来了较大的提升；

3)本发明在对文本进行分类时冻结了预训练语言模型的参数，把下游任务的输入输出形式改造成适合预训练模型的形式，它可以统一预训练和微调的优化目标，在使用较少的训练数据的情况下有着较高的分类准确率。

附图说明

图1本发明的总体框架图。

具体实施方式

如图1所示的一种基于软提示的医疗文本分类方法，包括以下步骤：

步骤1.1)使用自动生成的模板即非自然语言构成的模板，避免了人工构建模板带来的局限性和不稳定性，预训练语言模型记为M,一个离散token的输入序列为x，表示原始上下文，这个输入序列经过预训练层e∈M得到嵌入向量序列为e(x)；

步骤1.2)随后使用随机token[P_i]插入输入序列，使用神经网络以及多层感知机对其进行初始化，加入五个软模版的token。固定任务相关的锚点token，如疾病等，随后为了实现软模板之间的相关性使用神经网络对其进行随机初始化；

步骤1.3)这样一来医学文本分类模型中一个完整的软提示模版T设置为如下：{h₀,…h_i,e(news),e(x),h_n,…,h_m,e[MASK]}，其中h_i是一些可训练的向量，[MASK]处是用于进行标签词的填充。

步骤2.1)由于先前较多的工作集中用于标签词映射的构建都是人工完成的，而且与分类标签是一对一对应的，例如将骨科映射到骨科类中，这显然未能充分利用到相应的知识，往往还有很多标签词如骨外科等也可以满足骨科这个类别，为了克服这个缺点，通过引入外部知识如知识图谱扩充标签词表已经被证明是有效的，但通过知识图谱中的概念进行过滤标签词时往往会引入许多含有噪声即与目标任务无关的标签词，所以通过引入额外的四种策略进行去噪并扩展，分别是：(a)BERT预测：利用预训练语言模型中的知识，重构其MLM任务，将得出一些与文本语义较为相关的词，选择排名前N的词；(b)基于FastText相似度：计算每个类标签名称y的fastText向量与扩展标签词的FastText向量之间的语义相似度，选择排名前N的词；(c)基于频率的筛选：从维基百科知识图谱中选择与标签词频率较高的词；(d)基于上下文信息的筛选：对文本中的内容进行随机MASK后再利用bert计算交叉熵损失预测相关的词；将以上策略融合便可得到所用的标签词。

步骤2.2)给定一组输入数据x，它们都将会被分类到预定义好的类别y∈Y中，类别标签的集合记作V_y＝{v₁,…,v_n}，其中V是全体类别的集合；V_y中每个标签词v被填入[MASK]处的概率表示为P_M([MASK]＝v∈V_y|x_p)，随后文本分类任务可以转化为类别标签词的概率计算问题，p为一个prompt函数，用于组织上下文和预测目标；其公式可以为(4)所示：

p(y∈Y|x)＝p([MASK]＝v∈V_y|x_p) (4)

如在本实施例中“坐骨神经痛的症状鉴别”的分类过程中，如果在计算过程中属于y₁＝{骨外科}包含于V₁＝{骨科}类别的概率大于y₂＝{感染科}包含于V₂＝{传染病科}类别的概率，那么该文本就会被分类到骨科中。

步骤3.1)构造好类别对应的标签词汇表后，需要将每个标签词上的预测概率映射到一个原先特定的类别中，类别标签词中每个词对于预测真实的标签贡献度相同，故预测得分的平均值可以用于最后的文本分类，最后取出预测分数最大的类别，得出最后的预测结果如式(5)所示：

步骤4)通过损失函数计算真实标签和预测结果之间的误差，不断更新连续模板以及模型参数；

步骤4.1)由于软提示模板中的参数h_i(0≤i<m)是可学习并不断更新的词嵌入向量，通过模板的不断优化我们可以寻找到更适用于分类任务的连续提示，远远超出了预训练语言模型M的原始词汇表的表达范围，y表示为真实标签，固定整个模型的权重，使用如(6)的交叉熵损失函数进行不断优化软提示：

本发明可通过以下实验进一步说明：

为了测试本发明的有效性，分别在症状诊断数据集以及妇科分类数据集上验证我们的实验结果，以下是对两种数据集的具体描述：

1)症状诊断分类数据集：该数据集包含从网络上爬取的传染病科、肛肠科、骨科、呼吸科、男科、烧伤科、心血管科、整形美容科八个类别的内容，原始数据共80000条训练集以及4000条测试集。

2)妇科多分类数据集：该数据集包含从网络上爬取的对妇科大类下不孕不育科、产科、妇科三个类别的内容，原始数据共45000条训练集以及2100条测试集。

所使用的预训练语言模型为中文的bert模型，实验所用评价指标用准确率(Acc)来显示，这个值越大，证明文本分类的准确率越高，分类方法越有效。为了表明本方法的实验性能，通过与普通提示学习方法PT、连续模板方法P-tuning以及TextCNN文本分类常用的基线方法进行对比实验，由于对比实验模型的性能不同，我们对不同的分类模型进行了不同数量的随机采样方法，分别对应主实验的方法。在模型中对于每一个k-shot实验，我们从原始的训练集中抽取每个类的k个样本数据来形成少量的shot训练集，并在每个类中抽取另外的k个样本数据来构成验证集。由于这些少样本训练集和验证集选择的不同对于实验结果有一定的影响，所以我们重复了三次随机采样，并对三次随机采样实验后的结果取平均值。在两个个数据集上的实验结果如下表1所示，由表1可知本发明在两种数据集上的分类结果准确率(Acc)指标明显优于其他方法，验证了本文所提方法的有效性。

表1在两个数据集上的实验结果

本发明提供一种基于软提示的医疗文本分类方法，冻结了预训练语言模型的参数，利用软提示对医疗文本进行分类，不需要手动设计提示模板，避免了耗费大量的人工工程。同时在对软提示医疗文本分类模型中的标签词空间进行扩展时使用了四种策略，实验的结果证明这项工作给实验结果带来了较大的提升，取得了较好的分类效果。

本发明并不局限于上述实施例，在本发明公开的技术方案的基础上，本领域的技术人员根据所公开的技术内容，不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形，这些替换和变形均在本发明的保护范围内。

Claims

1.一种基于软提示的医疗文本分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于软提示的医疗文本分类方法，其特征在于，所述步骤1)具体包括：

步骤1.3)文本分类模型中一个完整的软提示模版T设置为如下：{h₀,…h_i,e(news),e(x),h_n,…,h_m,e[MASK]}，其中h_i是一些可训练的向量，[MASK]处是用于进行标签词的填充。

3.根据权利要求1所述的一种基于软提示的医疗文本分类方法，其特征在于，所述步骤2)具体包括：

p(y∈Y|x)＝p([MASK]＝v∈V_y|x_p) (1)。

4.根据权利要求1所述的一种基于软提示的医疗文本分类方法，其特征在于，所述步骤3)具体包括：

5.根据权利要求1所述的一种基于软提示的医疗文本分类方法，其特征在于，所述步骤4)具体包括：