CN116779177A - 一种基于去偏见混合标签学习的内分泌疾病分类方法 - Google Patents
一种基于去偏见混合标签学习的内分泌疾病分类方法 Download PDFInfo
- Publication number
- CN116779177A CN116779177A CN202310790937.2A CN202310790937A CN116779177A CN 116779177 A CN116779177 A CN 116779177A CN 202310790937 A CN202310790937 A CN 202310790937A CN 116779177 A CN116779177 A CN 116779177A
- Authority
- CN
- China
- Prior art keywords
- text
- sample
- disease
- classification
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 208000030172 endocrine system disease Diseases 0.000 title claims abstract description 25
- 208000017701 Endocrine disease Diseases 0.000 title claims abstract description 19
- 201000010099 disease Diseases 0.000 claims abstract description 45
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 29
- 238000012360 testing method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000011084 recovery Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 abstract 1
- 239000000203 mixture Substances 0.000 description 5
- 238000009499 grossing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 201000005569 Gout Diseases 0.000 description 1
- 208000031226 Hyperlipidaemia Diseases 0.000 description 1
- 206010020850 Hyperthyroidism Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002124 endocrine Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 208000003532 hypothyroidism Diseases 0.000 description 1
- 230000002989 hypothyroidism Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于去偏见混合标签学习的内分泌疾病分类方法,本申请首先设定基本领域的固有偏见,再将疾病文本作为文本样本,对文本样本进行清洗和预处理,制作领域字典,在模型设计方面,使用了ND‑Fast全局网络模块,对样本模型进行语义信息的学习;接着在one‑hot编码的基础上,使用语义信息建立样本文本和各个标签之间的融合,得到融合标签;其次在输出层对语义信息进行分类,最后使用去偏见损失计算,以提高模型的性能和准确度,本申请相对于现有的分类方法,计算成本低,自由度和灵活度高,有效提高了最终分类的准确度以及分类的效率。
Description
技术领域
本发明涉及自然语言文本处理技术领域,特别涉及一种基于去偏见混合标签学习的内分泌疾病分类方法。
背景技术
文本分类是一种将文本数据划分到不同类别的任务。它是自然语言处理领域的重要任务之一。在文本分类中,通过使用机器学习或深度学习技术,可以自动将给定的文本输入分配到预定义的类别中,例如情感分析、垃圾邮件过滤、新闻分类等。文本分类任务的关键在于提取文本的特征,并使用合适的算法进行模型训练和预测。通过文本分类,可以实现自动化处理大量文本数据、信息过滤和信息组织的目标,广泛应用于各种领域,如社交媒体分析、推荐系统、舆情监测等。
近年来,出现了许多提高文本分类准确性的方法,其中包括标签增强技术中的标签分布学习(Label Distribution Learning,LDL)和标签平滑(Label Smoothing,LS)。在标签分布学习中,分布标签由一个one-hot编码向量和一个标签分布噪声组成。通过根据样本在各个标签上分布的条数来生成噪声数据,并计算模型预测标签与分布标签之间的距离相似性来计算损失。标签平滑则是在原始的one-hot编码表示上为每个维度添加了一个随机噪音。尽管这种方法简单粗暴,但可以防止过拟合,并且已经在许多图像分类模型中得到应用。
在医疗领域中,病情诊断扮演着至关重要的角色。然而,相同症状可能对应不同的病因,有些疾病的临床表现又十分相似。针对这一问题,偏见去除方法为我们提供了一种有效的解决方案。在面对这种情况时,通过合理地分配带有偏见的病种,我们能够在无偏见的情况下更准确地确定患者的疾病类型。这种方法帮助我们避免了主观偏见的影响,提高了病情判断的准确性,从而更好地为患者提供医疗服务。
然而,上述方法仍存在以下不足之处:
1.使用one-hot编码作为真实标签容易导致模型过度学习并靠近某一类标签,从而导致模型过拟合。尤其是在标签相似的混淆数据集和带有错误标注的噪声数据集中,模型的分类准确性可能会降低。
2.标签通常不是完全独立的,标签之间可能存在关联,样本也可能与多个标签相关联。然而,one-hot编码无法充分反映样本和每个标签之间的关系。
3.分布标签学习中使用的标签分布噪声是根据样本在标签上的分布来生成的,但真实的标签分布往往很难获取,甚至不可获取,只能进行模拟。因此,标签分布学习无法直接应用。标签平滑方法仅在标签上添加随机噪音,无法反映标签之间的关系,可能无法有效提高模型的分类准确性,并且可能存在欠拟合的风险。
发明内容
发明目的:本发明的目的是提供一种基于去偏见混合标签学习的内分泌疾病分类方法,能够提高内分泌疾病分类的准确性以及分类的速度。
技术方案:本发明所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,具体包括以下步骤:
S1:生成Identity Phrase Templates Test Sets,IPTTS,用于做评估模型的测试集,在测试集中分别计算Equality Difference,FPED和False Negative EqualityDifference,FNED这两个指标来评估模型的歧视性:
S2:构建数据集,数据集中包括有爬取的疾病文本样本,对所有疾病文本样本,制作相关词向量,按照比例并划分出训练集、验证集和试验集,通过代码构建字典;
S3:将S2中处理过的数据集分别输入到ND-Fast全局网络模型以及特征提取器中,提取文本样本的语义信息;
S4:在Mix噪声标签融合模型中,使用S2中处理过的数据集和S3中得到的文本样本的语义信息进行标签和样本的融合,获得融合标签;
S5:在输出层将S3中的语义信息输入一层的全连接神经网络作为分类器进行分类,然后再和S4中得到的融合标签的结果作为交叉熵损失,通过Adam优化器反向传播更新参数,每次更新参数后计算验证集上损失函数的值;
S6:训练分类模型,调整模型学习率和隐藏层个数这些参数来使综合考虑了精准度precision和召回率recall的metric最优,即F1-score最优,获得训练完毕的文本样本的分类模型;
S7:将目标文本样本输入训练完毕的分类模型中,得到目标文本样本的分类。
作为优选,所述S2中疾病文本样本分别归属多个内分泌疾病分类类别,且任意内分泌疾病分类类别下均包含有多条疾病文本样本。
作为优选,所述S2中构建数据集具体包括有以下步骤:
S2.1:对疾病文本样本进行预处理,可视化输出各条样本的长度进行获取模型处理的最大句长,按照6:2:2的比例划分训练集、验证集和试验集;
S2.2:对数据集内所有样本使用斯坦福GloVe词向量开源代码制作词向量,添加自定义的特殊字符来辅助分类;
S2.3:预留字典的0-19来放自定义的特殊符号,真正的字典编码从20开始。
作为优选,所述S2.1中对疾病文本样本进行预处理具体为:
S2.1.1:确定各文本样本对象分别对应预设各内分泌病分类类别中的真实分类类别,根据偏见,对疾病的类型做出偏见定义;
S2.1.2:删除特殊符号、空格和乱码这些会影响判断的字,对已有的疾病文本样本进行去重和打乱排序,更新各个疾病文本样本;
S2.1.3:针对S2.1.2中更新完毕的各个疾病文本样本打上标签存入文档,每一条数据的格式为[内容,标签]。
作为优选,所述S3提取文本样本的语义信息具体为:
S3.1:将输入的文本样本进行字编码,再经过位置编码得到向量化后的文本样本;
S3.2:将在S2中处理过的文本样本输入到Embed模块,输入句子的维度是[batch_size,seq_len],使用在S2中构建的字典中查询每个字的字向量完成字编码,维度扩展为[batch_size,seq_len,embed_dime],将字编码后的结果用sin和cos函数按以下公式进行位置编码:
其中pos为句中字的位置,i为字向量的维度,dmodel为总共词向量的维度;得到的位置编码维度为[batch_size,seq_len,embed_dime],将位置编码维度和字编码结果合并相加得到Xembedding,将Xembedding输入给第一层的transformer模型,合并后的位置编码维度为[batch_size,seq_len,embed_dime];
S3.3:将在S2中处理过的文本样本输入到过程增强模块进行特征提取,得到文本样本的语义信息。
作为优选,所述特征提取模块包括7层的F-transformer模型组成的主干网络、过程增强模块和上采样模块。
作为优选,所述S3.3具体为:
S3.3.1:将S3.2的结果输入到7层的F-transformer与transformer交替模型,前三层分别是F-transformer,transformer,F-transformer的两两并联,逐层进行特征的提取,得到结果的维度是[batch_size,seq_len,embed_dime],然后经过softmax归一化,得到输出分类结果X,其维度是[batch_size,classes];
S3.3.2:将S3.3.1中的第一层的transformer结果输入到过程增强模块进行特征提取,使用3x3的卷积输出的结果维度为[batch_size,seq_len,embed_dime],将结果输入给三个宽为1、3、7长的卷积核中,将结果进行池化和连接,改变维度后与经过池化层后的结果进行融合;
S3.3.3:S3.3.2中的7*7的卷积后得到维度[batch_size,seq_len,embed_dime],依次经过一个1*1和5*5的卷积计算,接着将特征向量输入到最大池化中,最后特征进行进一步的融合,得到维度[batch_size,seq_len,embed_dime],将结果融合到步骤2.3.2主干网络中的第7层transformer中,然后通过一个上采样模块,其中第1层F-transformer与主干网络第五层相融合,第6层F-transformer与主干网络相融合,最后两个结果相加出得到最终结果。
作为优选,所述S4具体包括以下步骤:
S4.1:在Mix噪声标签融合模型中,计算S3得到的文本样本的语义信息和S2数据集中的每一个标签特征词词条的相似度,从而得到文本样本的语义信息和每一标签的噪声标签;
S4.2:将S4.1得到的噪声标签和原one-hot编码标签进行融合,融合后的结果使用sigmoid函数进行归一化,得到最后的融合标签。
作为优选,所述S6中精准度precision的计算方式为:
召回率recall的计算方式为:
F1-score的计算方式为:
其中TP为True Positive,FP为False Positive,FN为False Negative。
作为优选,所述S7具体包括以下步骤:
S7.1:按照S2获取疾病样本文本;
S7.2:按照S3获得S7.1中疾病样本文本所对应的字向量序列与位置向量序列;
S7.3:将处理过的样本矩阵输入到S5设计的模型中进行分类,最后输出疾病样本文本的分类。
有益效果:与现有技术相比,本发明的显著优点在于:
(1)、本申请利用了去偏见的损失函数,使加权方法与数据补充方法在去偏见结果上无显著差异,表现出了加权方法能有效缓解数据集偏见对模型的影响;
(2)、本申请中由于标签的融合模型只是为了让标签更加接近于标签和样本本身的混合信息,Mix噪声标签融合模型不参与到语义学习模型的过程中,对模型分类的性能并没有影响,即特征提取器可换成任意需要的模型,有较高的自由度和灵活度;
(3)、传统的自注意力机制在计算注意力权重时需要计算所有输入位置之间的相似度,导致计算复杂度为0(n2),其中n是输入序列的长度,而Fast-attention通过引入近似计算技巧,将计算复杂度降低到0(n),大大减少了计算成本;
(4)、本申请中特征提取模块使用了过程增强模块,使用多个卷积来达到加速文本分类和更好的特征融合效果,在过程增强模块使用不同大小的卷积计算,最后融合提取的特征向量的鲁棒性上升,可以弥补单纯使用单一CNN无法兼顾全局感受野的缺点。主干网络的7层的F-transformer模型抽取一部分已经提取过的特征加入到特征增强模块中,可以有效的兼顾全局性和局部性。
附图说明
图1是本申请的流程图;
图2是本申请中的总体模型结构图;
图3是本申请中F-transformer模型应用示意图。
具体实施方式
下面结合具体实施例对本申请做进一步的阐述。
如图1所示,为本申请的流程图,如图2所示,为本申请总体模型结构图,在本实施例中,本申请具体包括以下步骤:
S1:生成Identity Phrase Templates Test Sets,IPTTS,用于做评估模型的测试集,在测试集中分别计算Equality Difference,FPED和False Negative EqualityDifference,FNED这两个指标来评估模型的歧视性:
S2:构建数据集,数据集中包括有爬取的疾病文本样本,在本实施例中,爬取有垂瘤体、高血脂、甲减、甲亢、内分泌失调、糖尿病和痛风这7类内分泌疾病,各5000余条疾病文本样本,对所有疾病文本样本,制作相关词向量,按照比例并划分出训练集、验证集和试验集,通过代码构建字典,具体包括以下步骤:
S2.1:对疾病文本样本进行预处理,可视化输出各条样本的长度进行获取模型处理的最大句长,按照6:2:2的比例划分训练集、验证集和试验集,具体的:
S2.1.1:确定各文本样本对象分别对应预设各内分泌病分类类别中的真实分类类别,根据偏见,对疾病的类型做出偏见定义;
S2.1.2:删除特殊符号、空格和乱码这些会影响判断的字,对已有的疾病文本样本进行去重和打乱排序,更新各个疾病文本样本;
S2.1.3:针对S2.1.2中更新完毕的各个疾病文本样本打上标签存入文档,每一条数据的格式为[内容,标签];
S2.2:对数据集内所有样本使用斯坦福GloVe词向量开源代码制作词向量,添加自定义的特殊字符来辅助分类,在本实施例中,加入“#PAD#”、“#UNK#”、“#CLS#”、“#SEP#”、“#MASK#”、“#NUM#”等,定义的符号如下表1所示:
字典编号 | 符号 | 说明 |
0 | #PAD# | 用来补长度和空白 |
1 | #UNK# | 用来表达未知的字,如果字典里查不到 |
2 | #CLS# | 句子的首位的标识符 |
3 | #SEP# | 分开两个输入句子的标识符 |
4 | #MASK# | 用来做Masked LM所做的遮罩 |
5 | #NUM# | 用来替换语句里的所有数字,例如把"23.9"直接替换成#num# |
S2.3:预留字典的0-19来放自定义的特殊符号,真正的字典编码从20开始;
S3:将S2中处理过的数据集分别输入到ND-Fast全局网络模型以及特征提取器中,提取文本样本的语义信息,具体的:
S3.1:将输入的文本样本进行字编码,再经过位置编码得到向量化后的文本样本;
S3.2:将在S2中处理过的文本样本输入到Embed模块,输入句子的维度是[batch_size,seq_len],使用在S2中构建的字典中查询每个字的字向量完成字编码,维度扩展为[batch_size,seq_len,embed_dime],将字编码后的结果用sin和cos函数按以下公式进行位置编码:
其中pos为句中字的位置,i为字向量的维度,dmodel为总共词向量的维度;得到的位置编码维度为[batch_size,seq_len,embed_dime],将位置编码维度和字编码结果合并相加得到Xembedding,将Xembedding输入给第一层的transformer模型,合并后的位置编码维度为[batch_size,seq_len,embed_dime];
S3.3:将在S2中处理过的文本样本输入到过程增强模块进行特征提取,特征提取模块包括7层的F-transformer模型组成的主干网络、过程增强模块和上采样模块,得到文本样本的语义信息,具体的:
S3.3.1:将S3.2的结果输入到7层的F-transformer与transformer交替模型,F-transformer模型如图3所示,前三层分别是F-transformer,transformer,F-transformer的两两并联,逐层进行特征的提取,得到结果的维度是[batch_size,seq_len,embed_dime],然后经过softmax归一化,得到输出分类结果X,其维度是[batch_size,classes];
S3.3.2:将S3.3.1中的第一层的transformer结果输入到过程增强模块进行特征提取,使用3x3的卷积输出的结果维度为[batch_size,seq_len,embed_dime],将结果输入给三个宽为1、3、7长的卷积核中,将结果进行池化和连接,改变维度后与经过池化层后的结果进行融合;
S3.3.3:S3.3.2中的7*7的卷积后得到维度[batch_size,seq_len,embed_dime],依次经过一个1*1和5*5的卷积计算,接着将特征向量输入到最大池化中,最后特征进行进一步的融合,得到维度[batch_size,seq_len,embed_dime],将结果融合到步骤2.3.2主干网络中的第7层transformer中,然后通过一个上采样模块,其中第1层F-transformer与主干网络第五层相融合,第6层F-transformer与主干网络相融合,最后两个结果相加出得到最终结果;
S4:在Mix噪声标签融合模型中,使用S2中处理过的数据集和S3中得到的文本样本的语义信息进行标签和样本的融合,获得融合标签,具体的:
S4.1:在Mix噪声标签融合模型中,计算S3得到的文本样本的语义信息和S2数据集中的每一个标签特征词词条的相似度,从而得到文本样本的语义信息和每一标签的噪声标签;
S4.2:将S4.1得到的噪声标签和原one-hot编码标签进行融合,融合后的结果使用sigmoid函数进行归一化,得到最后的融合标签;
S5:在输出层将S3中的语义信息输入一层的全连接神经网络作为分类器进行分类,然后再和S4中得到的融合标签的结果作为交叉熵损失,通过Adam优化器反向传播更新参数,每次更新参数后计算验证集上损失函数的值;
S6:训练分类模型,调整模型学习率和隐藏层个数这些参数来使综合考虑了精准度precision和召回率recall的metric最优,即F1-score最优,获得训练完毕的文本样本的分类模型,其中:
精准度precision的计算方式为:
召回率recall的计算方式为:
F1-score的计算方式为:
其中TP为True Positive,FP为False Positive,FN为False Negative。
S7:将目标文本样本输入训练完毕的分类模型中,得到目标文本样本的分类,具体的:
S7.1:按照S2获取疾病样本文本;
S7.2:按照S3获得S7.1中疾病样本文本所对应的字向量序列与位置向量序列;
S7.3:将处理过的样本矩阵输入到S5设计的模型中进行分类,最后输出疾病样本文本的分类。
Claims (10)
1.一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:具体包括以下步骤:
S1:生成Identity Phrase Templates Test Sets,IPTTS,用于做评估模型的测试集,在测试集中分别计算Equality Difference,FPED和False Negative EqualityDifference,FNED这两个指标来评估模型的歧视性:
S2:构建数据集,数据集中包括有爬取的疾病文本样本,对所有疾病文本样本,制作相关词向量,按照比例并划分出训练集、验证集和试验集,通过代码构建字典;
S3:将S2中处理过的数据集分别输入到ND-Fast全局网络模型以及特征提取器中,提取文本样本的语义信息;
S4:在Mix噪声标签融合模型中,使用S2中处理过的数据集和S3中得到的文本样本的语义信息进行标签和样本的融合,获得融合标签;
S5:在输出层将S3中的语义信息输入一层的全连接神经网络作为分类器进行分类,然后再和S4中得到的融合标签的结果作为交叉熵损失,通过Adam优化器反向传播更新参数,每次更新参数后计算验证集上损失函数的值;
S6:训练分类模型,调整模型学习率和隐藏层个数这些参数来使综合考虑了精准度precision和召回率recall的metric最优,即F1-score最优,获得训练完毕的文本样本的分类模型;
S7:将目标文本样本输入训练完毕的分类模型中,得到目标文本样本的分类。
2.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:所述S2中疾病文本样本分别归属多个内分泌疾病分类类别,且任意内分泌疾病分类类别下均包含有多条疾病文本样本。
3.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:所述S2中构建数据集具体包括有以下步骤:
S2.1:对疾病文本样本进行预处理,可视化输出各条样本的长度进行获取模型处理的最大句长,按照6:2:2的比例划分训练集、验证集和试验集;
S2.2:对数据集内所有样本使用斯坦福GloVe词向量开源代码制作词向量,添加自定义的特殊字符来辅助分类;
S2.3:预留字典的0-19来放自定义的特殊符号,真正的字典编码从20开始。
4.根据权利要求3所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:所述S2.1中对疾病文本样本进行预处理具体为:
S2.1.1:确定各文本样本对象分别对应预设各内分泌病分类类别中的真实分类类别,根据偏见,对疾病的类型做出偏见定义;
S2.1.2:删除特殊符号、空格和乱码这些会影响判断的字,对已有的疾病文本样本进行去重和打乱排序,更新各个疾病文本样本;
S2.1.3:针对S2.1.2中更新完毕的各个疾病文本样本打上标签存入文档,每一条数据的格式为[内容,标签]。
5.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:所述S3提取文本样本的语义信息具体为:
S3.1:将输入的文本样本进行字编码,再经过位置编码得到向量化后的文本样本;
S3.2:将在S2中处理过的文本样本输入到Embed模块,输入句子的维度是[batch_size,seq_len],使用在S2中构建的字典中查询每个字的字向量完成字编码,维度扩展为[batch_size,seq_len,embed_dime],将字编码后的结果用sin和cos函数按以下公式进行位置编码:
其中pos为句中字的位置,i为字向量的维度,dmodel为总共词向量的维度;得到的位置编码维度为[batch_size,seq_len,embed_dime],将位置编码维度和字编码结果合并相加得到Xembedding,将Xembedding输入给第一层的transformer模型,合并后的位置编码维度为[batch_size,seq_len,embed_dime];
S3.3:将在S2中处理过的文本样本输入到过程增强模块进行特征提取,得到文本样本的语义信息。
6.根据权利要求5所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:所述特征提取模块包括7层的F-transformer模型组成的主干网络、过程增强模块和上采样模块。
7.根据权利要求5所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:所述S3.3具体为:
S3.3.1:将S3.2的结果输入到7层的F-transformer与transformer交替模型,前三层分别是F-transformer,transformer,F-transformer的两两并联,逐层进行特征的提取,得到结果的维度是[batch_size,seq_len,embed_dime],然后经过softmax归一化,得到输出分类结果X,其维度是[batch_size,classes];
S3.3.2:将S3.3.1中的第一层的transformer结果输入到过程增强模块进行特征提取,使用3x3的卷积输出的结果维度为[batch_size,seq_len,embed_dime],将结果输入给三个宽为1、3、7长的卷积核中,将结果进行池化和连接,改变维度后与经过池化层后的结果进行融合;
S3.3.3:S3.3.2中的7*7的卷积后得到维度[batch_size,seq_len,embed_dime],依次经过一个1*1和5*5的卷积计算,接着将特征向量输入到最大池化中,最后特征进行进一步的融合,得到维度[batch_size,seq_len,embed_dime],将结果融合到步骤2.3.2主干网络中的第7层transformer中,然后通过一个上采样模块,其中第1层F-transformer与主干网络第五层相融合,第6层F-transformer与主干网络相融合,最后两个结果相加出得到最终结果。
8.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:所述S4具体包括以下步骤:
S4.1:在Mix噪声标签融合模型中,计算S3得到的文本样本的语义信息和S2数据集中的每一个标签特征词词条的相似度,从而得到文本样本的语义信息和每一标签的噪声标签;
S4.2:将S4.1得到的噪声标签和原one-hot编码标签进行融合,融合后的结果使用sigmoid函数进行归一化,得到最后的融合标签。
9.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:所述S6中精准度precision的计算方式为:
召回率recall的计算方式为:
F1-score的计算方式为:
其中TP为True Positive,FP为False Positive,FN为False Negative。
10.根据权利要求1所述的一种基于去偏见混合标签学习的内分泌疾病分类方法,其特征在于:所述S7具体包括以下步骤:
S7.1:按照S2获取疾病样本文本;
S7.2:按照S3获得S7.1中疾病样本文本所对应的字向量序列与位置向量序列;
S7.3:将处理过的样本矩阵输入到S5设计的模型中进行分类,最后输出疾病样本文本的分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310790937.2A CN116779177A (zh) | 2023-06-30 | 2023-06-30 | 一种基于去偏见混合标签学习的内分泌疾病分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310790937.2A CN116779177A (zh) | 2023-06-30 | 2023-06-30 | 一种基于去偏见混合标签学习的内分泌疾病分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116779177A true CN116779177A (zh) | 2023-09-19 |
Family
ID=87987737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310790937.2A Pending CN116779177A (zh) | 2023-06-30 | 2023-06-30 | 一种基于去偏见混合标签学习的内分泌疾病分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116779177A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117497111A (zh) * | 2023-12-25 | 2024-02-02 | 四川省医学科学院·四川省人民医院 | 一种基于深度学习实现疾病名称标准化分级的系统 |
-
2023
- 2023-06-30 CN CN202310790937.2A patent/CN116779177A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117497111A (zh) * | 2023-12-25 | 2024-02-02 | 四川省医学科学院·四川省人民医院 | 一种基于深度学习实现疾病名称标准化分级的系统 |
CN117497111B (zh) * | 2023-12-25 | 2024-03-15 | 四川省医学科学院·四川省人民医院 | 一种基于深度学习实现疾病名称标准化分级的系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177326A (zh) | 基于精标注文本的关键信息抽取方法、装置及存储介质 | |
CN112905739B (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN113312478B (zh) | 基于阅读理解的观点挖掘方法及装置 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN110472245B (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN116304984A (zh) | 基于对比学习的多模态意图识别方法及系统 | |
CN116779177A (zh) | 一种基于去偏见混合标签学习的内分泌疾病分类方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN116245110A (zh) | 基于图注意力网络的多维度信息融合用户立场检测方法 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN111339440A (zh) | 面向新闻文本基于层级状态神经网络的社会情绪排序方法 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN112434512A (zh) | 一种结合上下文语境的新词确定方法及装置 | |
CN112597299A (zh) | 文本的实体分类方法、装置、终端设备和存储介质 | |
CN115062602B (zh) | 对比学习的样本构造方法、装置及计算机设备 | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
CN115617959A (zh) | 问题解答方法及装置 | |
CN113821571A (zh) | 基于bert和改进pcnn的食品安全关系抽取方法 | |
CN117574159B (zh) | 一种预训练模型的训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |