CN116779177A

CN116779177A - 一种基于去偏见混合标签学习的内分泌疾病分类方法

Info

Publication number: CN116779177A
Application number: CN202310790937.2A
Authority: CN
Inventors: 高尚兵; 赵可钒; 苏睿; 王腾; 蒋东山; 张浩淼; 张海艳; 王媛媛
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-09-19

Abstract

本发明公开了一种基于去偏见混合标签学习的内分泌疾病分类方法，本申请首先设定基本领域的固有偏见，再将疾病文本作为文本样本，对文本样本进行清洗和预处理，制作领域字典，在模型设计方面，使用了ND‑Fast全局网络模块,对样本模型进行语义信息的学习；接着在one‑hot编码的基础上，使用语义信息建立样本文本和各个标签之间的融合，得到融合标签；其次在输出层对语义信息进行分类，最后使用去偏见损失计算，以提高模型的性能和准确度，本申请相对于现有的分类方法，计算成本低，自由度和灵活度高，有效提高了最终分类的准确度以及分类的效率。

Description

一种基于去偏见混合标签学习的内分泌疾病分类方法

技术领域

本发明涉及自然语言文本处理技术领域，特别涉及一种基于去偏见混合标签学习的内分泌疾病分类方法。

背景技术

文本分类是一种将文本数据划分到不同类别的任务。它是自然语言处理领域的重要任务之一。在文本分类中，通过使用机器学习或深度学习技术，可以自动将给定的文本输入分配到预定义的类别中，例如情感分析、垃圾邮件过滤、新闻分类等。文本分类任务的关键在于提取文本的特征，并使用合适的算法进行模型训练和预测。通过文本分类，可以实现自动化处理大量文本数据、信息过滤和信息组织的目标，广泛应用于各种领域，如社交媒体分析、推荐系统、舆情监测等。

近年来，出现了许多提高文本分类准确性的方法，其中包括标签增强技术中的标签分布学习(Label Distribution Learning,LDL)和标签平滑(Label Smoothing,LS)。在标签分布学习中，分布标签由一个one-hot编码向量和一个标签分布噪声组成。通过根据样本在各个标签上分布的条数来生成噪声数据，并计算模型预测标签与分布标签之间的距离相似性来计算损失。标签平滑则是在原始的one-hot编码表示上为每个维度添加了一个随机噪音。尽管这种方法简单粗暴，但可以防止过拟合，并且已经在许多图像分类模型中得到应用。

在医疗领域中，病情诊断扮演着至关重要的角色。然而，相同症状可能对应不同的病因，有些疾病的临床表现又十分相似。针对这一问题，偏见去除方法为我们提供了一种有效的解决方案。在面对这种情况时，通过合理地分配带有偏见的病种，我们能够在无偏见的情况下更准确地确定患者的疾病类型。这种方法帮助我们避免了主观偏见的影响，提高了病情判断的准确性，从而更好地为患者提供医疗服务。

然而，上述方法仍存在以下不足之处：

1.使用one-hot编码作为真实标签容易导致模型过度学习并靠近某一类标签，从而导致模型过拟合。尤其是在标签相似的混淆数据集和带有错误标注的噪声数据集中，模型的分类准确性可能会降低。

2.标签通常不是完全独立的，标签之间可能存在关联，样本也可能与多个标签相关联。然而，one-hot编码无法充分反映样本和每个标签之间的关系。

3.分布标签学习中使用的标签分布噪声是根据样本在标签上的分布来生成的，但真实的标签分布往往很难获取，甚至不可获取，只能进行模拟。因此，标签分布学习无法直接应用。标签平滑方法仅在标签上添加随机噪音，无法反映标签之间的关系，可能无法有效提高模型的分类准确性，并且可能存在欠拟合的风险。

发明内容

发明目的：本发明的目的是提供一种基于去偏见混合标签学习的内分泌疾病分类方法，能够提高内分泌疾病分类的准确性以及分类的速度。

技术方案：本发明所述的一种基于去偏见混合标签学习的内分泌疾病分类方法，具体包括以下步骤：

S1：生成Identity Phrase Templates Test Sets，IPTTS，用于做评估模型的测试集，在测试集中分别计算Equality Difference，FPED和False Negative EqualityDifference，FNED这两个指标来评估模型的歧视性：

S2：构建数据集，数据集中包括有爬取的疾病文本样本，对所有疾病文本样本，制作相关词向量，按照比例并划分出训练集、验证集和试验集，通过代码构建字典；

S3：将S2中处理过的数据集分别输入到ND-Fast全局网络模型以及特征提取器中，提取文本样本的语义信息；

S4：在Mix噪声标签融合模型中，使用S2中处理过的数据集和S3中得到的文本样本的语义信息进行标签和样本的融合，获得融合标签；

S5：在输出层将S3中的语义信息输入一层的全连接神经网络作为分类器进行分类，然后再和S4中得到的融合标签的结果作为交叉熵损失，通过Adam优化器反向传播更新参数，每次更新参数后计算验证集上损失函数的值；

S6：训练分类模型，调整模型学习率和隐藏层个数这些参数来使综合考虑了精准度precision和召回率recall的metric最优，即F1-score最优，获得训练完毕的文本样本的分类模型；

S7：将目标文本样本输入训练完毕的分类模型中，得到目标文本样本的分类。

作为优选，所述S2中疾病文本样本分别归属多个内分泌疾病分类类别，且任意内分泌疾病分类类别下均包含有多条疾病文本样本。

作为优选，所述S2中构建数据集具体包括有以下步骤：

S2.1：对疾病文本样本进行预处理，可视化输出各条样本的长度进行获取模型处理的最大句长，按照6：2：2的比例划分训练集、验证集和试验集；

S2.2：对数据集内所有样本使用斯坦福GloVe词向量开源代码制作词向量，添加自定义的特殊字符来辅助分类；

S2.3：预留字典的0-19来放自定义的特殊符号，真正的字典编码从20开始。

作为优选，所述S2.1中对疾病文本样本进行预处理具体为：

S2.1.1：确定各文本样本对象分别对应预设各内分泌病分类类别中的真实分类类别，根据偏见，对疾病的类型做出偏见定义；

S2.1.2：删除特殊符号、空格和乱码这些会影响判断的字，对已有的疾病文本样本进行去重和打乱排序，更新各个疾病文本样本；

S2.1.3：针对S2.1.2中更新完毕的各个疾病文本样本打上标签存入文档，每一条数据的格式为[内容,标签]。

作为优选，所述S3提取文本样本的语义信息具体为：

S3.1：将输入的文本样本进行字编码，再经过位置编码得到向量化后的文本样本；

S3.2：将在S2中处理过的文本样本输入到Embed模块，输入句子的维度是[batch_size,seq_len]，使用在S2中构建的字典中查询每个字的字向量完成字编码，维度扩展为[batch_size,seq_len,embed_dime]，将字编码后的结果用sin和cos函数按以下公式进行位置编码：

其中pos为句中字的位置，i为字向量的维度，d_model为总共词向量的维度；得到的位置编码维度为[batch_size,seq_len,embed_dime]，将位置编码维度和字编码结果合并相加得到Xembedding，将Xembedding输入给第一层的transformer模型，合并后的位置编码维度为[batch_size,seq_len,embed_dime]；

S3.3：将在S2中处理过的文本样本输入到过程增强模块进行特征提取，得到文本样本的语义信息。

作为优选，所述特征提取模块包括7层的F-transformer模型组成的主干网络、过程增强模块和上采样模块。

作为优选，所述S3.3具体为：

S3.3.1：将S3.2的结果输入到7层的F-transformer与transformer交替模型，前三层分别是F-transformer，transformer，F-transformer的两两并联，逐层进行特征的提取，得到结果的维度是[batch_size,seq_len,embed_dime]，然后经过softmax归一化，得到输出分类结果X，其维度是[batch_size,classes]；

S3.3.2：将S3.3.1中的第一层的transformer结果输入到过程增强模块进行特征提取，使用3x3的卷积输出的结果维度为[batch_size,seq_len,embed_dime]，将结果输入给三个宽为1、3、7长的卷积核中，将结果进行池化和连接，改变维度后与经过池化层后的结果进行融合；

S3.3.3：S3.3.2中的7*7的卷积后得到维度[batch_size,seq_len,embed_dime]，依次经过一个1*1和5*5的卷积计算，接着将特征向量输入到最大池化中，最后特征进行进一步的融合，得到维度[batch_size,seq_len,embed_dime]，将结果融合到步骤2.3.2主干网络中的第7层transformer中，然后通过一个上采样模块，其中第1层F-transformer与主干网络第五层相融合，第6层F-transformer与主干网络相融合，最后两个结果相加出得到最终结果。

作为优选，所述S4具体包括以下步骤：

S4.1：在Mix噪声标签融合模型中，计算S3得到的文本样本的语义信息和S2数据集中的每一个标签特征词词条的相似度，从而得到文本样本的语义信息和每一标签的噪声标签；

S4.2：将S4.1得到的噪声标签和原one-hot编码标签进行融合，融合后的结果使用sigmoid函数进行归一化，得到最后的融合标签。

作为优选，所述S6中精准度precision的计算方式为：

召回率recall的计算方式为：

F1-score的计算方式为：

其中TP为True Positive，FP为False Positive，FN为False Negative。

作为优选，所述S7具体包括以下步骤：

S7.1：按照S2获取疾病样本文本；

S7.2：按照S3获得S7.1中疾病样本文本所对应的字向量序列与位置向量序列；

S7.3：将处理过的样本矩阵输入到S5设计的模型中进行分类，最后输出疾病样本文本的分类。

有益效果：与现有技术相比，本发明的显著优点在于：

(1)、本申请利用了去偏见的损失函数，使加权方法与数据补充方法在去偏见结果上无显著差异，表现出了加权方法能有效缓解数据集偏见对模型的影响；

(2)、本申请中由于标签的融合模型只是为了让标签更加接近于标签和样本本身的混合信息，Mix噪声标签融合模型不参与到语义学习模型的过程中，对模型分类的性能并没有影响，即特征提取器可换成任意需要的模型，有较高的自由度和灵活度；

(3)、传统的自注意力机制在计算注意力权重时需要计算所有输入位置之间的相似度，导致计算复杂度为0(n²)，其中n是输入序列的长度，而Fast-attention通过引入近似计算技巧，将计算复杂度降低到0(n)，大大减少了计算成本；

(4)、本申请中特征提取模块使用了过程增强模块，使用多个卷积来达到加速文本分类和更好的特征融合效果，在过程增强模块使用不同大小的卷积计算，最后融合提取的特征向量的鲁棒性上升，可以弥补单纯使用单一CNN无法兼顾全局感受野的缺点。主干网络的7层的F-transformer模型抽取一部分已经提取过的特征加入到特征增强模块中，可以有效的兼顾全局性和局部性。

附图说明

图1是本申请的流程图；

图2是本申请中的总体模型结构图；

图3是本申请中F-transformer模型应用示意图。

具体实施方式

下面结合具体实施例对本申请做进一步的阐述。

如图1所示，为本申请的流程图，如图2所示，为本申请总体模型结构图，在本实施例中，本申请具体包括以下步骤：

S2：构建数据集，数据集中包括有爬取的疾病文本样本，在本实施例中，爬取有垂瘤体、高血脂、甲减、甲亢、内分泌失调、糖尿病和痛风这7类内分泌疾病，各5000余条疾病文本样本，对所有疾病文本样本，制作相关词向量，按照比例并划分出训练集、验证集和试验集，通过代码构建字典，具体包括以下步骤：

S2.1：对疾病文本样本进行预处理，可视化输出各条样本的长度进行获取模型处理的最大句长，按照6：2：2的比例划分训练集、验证集和试验集，具体的：

S2.1.3：针对S2.1.2中更新完毕的各个疾病文本样本打上标签存入文档，每一条数据的格式为[内容,标签]；

S2.2：对数据集内所有样本使用斯坦福GloVe词向量开源代码制作词向量，添加自定义的特殊字符来辅助分类，在本实施例中，加入“#PAD#”、“#UNK#”、“#CLS#”、“#SEP#”、“#MASK#”、“#NUM#”等，定义的符号如下表1所示：

字典编号	符号	说明
			0	#PAD#	用来补长度和空白
1	#UNK#	用来表达未知的字,如果字典里查不到
			2	#CLS#	句子的首位的标识符
3	#SEP#	分开两个输入句子的标识符
			4	#MASK#	用来做Masked LM所做的遮罩
5	#NUM#	用来替换语句里的所有数字,例如把"23.9"直接替换成#num#

S2.3：预留字典的0-19来放自定义的特殊符号，真正的字典编码从20开始；

S3：将S2中处理过的数据集分别输入到ND-Fast全局网络模型以及特征提取器中，提取文本样本的语义信息，具体的：

S3.3：将在S2中处理过的文本样本输入到过程增强模块进行特征提取，特征提取模块包括7层的F-transformer模型组成的主干网络、过程增强模块和上采样模块，得到文本样本的语义信息，具体的：

S3.3.1：将S3.2的结果输入到7层的F-transformer与transformer交替模型，F-transformer模型如图3所示，前三层分别是F-transformer，transformer，F-transformer的两两并联，逐层进行特征的提取，得到结果的维度是[batch_size,seq_len,embed_dime]，然后经过softmax归一化，得到输出分类结果X，其维度是[batch_size,classes]；

S3.3.3：S3.3.2中的7*7的卷积后得到维度[batch_size,seq_len,embed_dime]，依次经过一个1*1和5*5的卷积计算，接着将特征向量输入到最大池化中，最后特征进行进一步的融合，得到维度[batch_size,seq_len,embed_dime]，将结果融合到步骤2.3.2主干网络中的第7层transformer中，然后通过一个上采样模块，其中第1层F-transformer与主干网络第五层相融合，第6层F-transformer与主干网络相融合，最后两个结果相加出得到最终结果；

S4：在Mix噪声标签融合模型中，使用S2中处理过的数据集和S3中得到的文本样本的语义信息进行标签和样本的融合，获得融合标签，具体的：

S4.2：将S4.1得到的噪声标签和原one-hot编码标签进行融合，融合后的结果使用sigmoid函数进行归一化，得到最后的融合标签；

S6：训练分类模型，调整模型学习率和隐藏层个数这些参数来使综合考虑了精准度precision和召回率recall的metric最优，即F1-score最优，获得训练完毕的文本样本的分类模型，其中：

精准度precision的计算方式为：

召回率recall的计算方式为：

F1-score的计算方式为：

其中TP为True Positive，FP为False Positive，FN为False Negative。

S7：将目标文本样本输入训练完毕的分类模型中，得到目标文本样本的分类，具体的：

S7.1：按照S2获取疾病样本文本；

Claims

1.一种基于去偏见混合标签学习的内分泌疾病分类方法，其特征在于：具体包括以下步骤：

2.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法，其特征在于：所述S2中疾病文本样本分别归属多个内分泌疾病分类类别，且任意内分泌疾病分类类别下均包含有多条疾病文本样本。

3.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法，其特征在于：所述S2中构建数据集具体包括有以下步骤：

4.根据权利要求3所述的一种基于去偏见混合标签学习的内分泌疾病分类方法，其特征在于：所述S2.1中对疾病文本样本进行预处理具体为：

5.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法，其特征在于：所述S3提取文本样本的语义信息具体为：

6.根据权利要求5所述的一种基于去偏见混合标签学习的内分泌疾病分类方法，其特征在于：所述特征提取模块包括7层的F-transformer模型组成的主干网络、过程增强模块和上采样模块。

7.根据权利要求5所述的一种基于去偏见混合标签学习的内分泌疾病分类方法，其特征在于：所述S3.3具体为：

8.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法，其特征在于：所述S4具体包括以下步骤：

9.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法，其特征在于：所述S6中精准度precision的计算方式为：

召回率recall的计算方式为：

F1-score的计算方式为：

其中TP为True Positive，FP为False Positive，FN为False Negative。

10.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法，其特征在于：所述S7具体包括以下步骤：

S7.1：按照S2获取疾病样本文本；