CN111651605A

CN111651605A - 基于多标签分类的肺癌前沿趋势预测方法

Info

Publication number: CN111651605A
Application number: CN202010502501.5A
Authority: CN
Inventors: 杨路; 王小也
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-09-11
Anticipated expiration: 2040-06-04
Also published as: CN111651605B

Abstract

本发明公开了一种基于多标签分类的肺癌前沿趋势预测方法，包括：收集肺癌研究领域的论文的序列号、标题、摘要以及发表日期，组成数据集；制定类别集，对应肺癌研究领域论文的主题；根据类别集，对收集到的摘要文本进行标注；对数据集中的文本进行预处理；根据论文的发表日期，将数据集分为训练集和验证集；将训练样本输入到基于Bert的多标签分类网络，设定损失函数loss，loss值反向传播，更新权重参数，不断迭代训练网络，直至loss值不再下降；利用训练的分类网络对验证集的数据进行分类，得到分类结果。本发明改进了传统多标签算法忽视标签相关性的问题；同时，将人工智能技术与医疗相结合，提供了医疗领域趋势预测的新思路。

Description

基于多标签分类的肺癌前沿趋势预测方法

技术领域

本发明属于深度学习及自然语言处理领域，具体涉及一种基于多标签分类的肺癌前沿趋势预测方法。

背景技术

医疗问题一直以来都是人民最为关心的问题之一，而癌症作为一种恶性肿瘤由于其高死亡率、高发病率，一直以来都严重威胁着人类日常的生命健康。2019年，国际癌症研究机构评估了全球185个国家36种癌症的死亡率和发病率。其中肺癌的发病率稳居榜首。在中国肺癌发病率更是高于全球。

为了保障人民生命健康，医疗工作者对肺癌的发病机制、治疗、基因相关性等方面进行了大量的研究，取得了大量的成果。而追踪肺癌研究动态、预测肺癌未来研究趋势的可以帮助医疗工作者更好的规划未来的研究方向，对研究工作的开展有着重要的意义。

在信息获取途径方面，考虑到已发表的医学论文中蕴含丰富的医疗知识和实践经验，且具有更新速度快，权威性高的特点。医疗工作者通常会通过阅读最新一段时间发表的与肺癌的论文来获取信息，了解当下的研究热门领域，并据此调整接下来的研究计划。

实际工作中，为了掌控当下肺癌疾病的研究热点，医疗工作者需要阅读并记录大量文献，通过对大量的肺癌研究领域论文的研究方向的分析以及其出现频率的高低来判断，肺癌研究的某个方向的研究热度。而当前阶段，首先，我国存在医患比例低，医生工作量大的情况。对于临床医生而言还需同时兼顾问诊、手术和教学等工作，工作强度高。面对科研任务，在开展研究工作前跟踪最新研究热点需要耗费大量精力。另一方面，人力所能考察到的论文数量有限，面对数以万计的文献，无法对其全面掌握。所以现在急需一种辅助方法帮助医生了解最新研究动态，推测未来研究趋势，更好的安排规划下一步研究任务。

近年来，深度学习在文本处理方面展现了巨大的优势，可以通过训练一个神经网络帮助医生对近期发表的全部与肺癌相关文献的主题进行分类，并对分类结果进行统计分析，绘制不同主题占比随时间变化的折线图，跟进最新的发展动向，从而实现预测未来研究趋势的功能；而对医疗文本的分类是需要解决的任务。

发明内容

本发明所要解决的技术问题是提供一种基于多标签分类的肺癌前沿趋势预测方法。以近五年来肺癌研究领域的论文摘要文本及其标签作为输入，通过深度学习算法对网络进行训练，使训练好的神经网络对新输入的文本可以进行多标签分类，实现对医疗文献的多标签分类。进一步分析近一段时间发表的肺癌领域的论文分类结果的统计信息，实现预测研究热点的目的。

为解决上述技术问题，本发明采用的技术方案是：

一种基于多标签分类的肺癌前沿趋势预测方法，包括以下步骤：

S1：收集肺癌研究领域的论文的序列号、标题、摘要以及发表日期，组成数据集；

S2：制定类别集，对应肺癌研究领域论文的主题；

S3：根据步骤S2中制定的类别集，对收集到的摘要文本进行标注；

S4：对数据集中的文本进行预处理；

S5：对预处理后的数据集，根据论文的发表日期，将其分为训练集和验证集；

S6：将训练样本输入到基于Bert的多标签分类网络，设定损失函数loss，loss值反向传播，更新权重参数，不断迭代训练分类网络，直至loss值不再下降；

S7：利用步骤S6训练的分类网络对验证集的数据进行分类，得到分类结果。

进一步地，步骤S1具体为：爬取Pubmed网站内收录的近十年内发表的与肺癌相关的论文，筛除摘要、标题以及发表日期信息不全的论文，组成数据集。

进一步地，在步骤S2中，类别集包括：肺癌的筛查、肺癌的预防、肺癌的诊断、肺癌的发病机制、肺癌的治疗、肺癌的共患病、肺癌与空气污染的相关性分析、肺癌的基因相关性分析、肺癌的性别相关性分析、肺癌与烟草的相关性分析、肺癌的社会影响11个类别。

进一步地，在步骤S3中，设置标签为11维向量，向量的不同位置对应不同的类别，向量值’1’表示该论文属于本类别，’0’表示论文不属于该类别。

进一步地，所述步骤S4具体为：对数据集中文本形式存储的时间信息进行归一化处理，统一规范为以年份为跨度的时间单位；对摘要文本进行去除特殊字符、去停用词、统一大小写操作。

进一步地，在步骤S6中，所述损失函数loss采用交叉熵损失函数，用符号

表示；给定句子输入s，输出的真实值为

代表第i位置处类别的标签值，

代表位置1到i-1之间的类别的标签值，θ为期望学习到的网络参数，k为类别集的大小，

为已知s,

θ条件下

的后验概率；数据集的损失函数对数形式为：

进一步地，还包括步骤S8：对验证集的分类结果进行统计，与训练集的类别统计结果进行比对，验证预测准确性。

进一步地，所述步骤S8具体为：以年份为单位，统计该年内发布的所有论文数，以及各个类别对应的论文数目，计算不同标签的占比；将每年的统计数据绘制成折线图，观察不同类别标签的明显的增减趋势。

与现有技术相比，本发明的有益效果在于：

1、现有的基于Bert模型的多标签文本分类，将多标签分类问题分解为多个二分类问题，忽视了标签的内部关联。而针对医疗文本分类问题标签相关度较高这一特点，本发明提出了改进的Bert模型，在解码器阶段，将其转换为文本标注问题处理，引入标签相关性，改善分类效果。

2、目前没有关于肺癌研究趋势的预测的相关工作，本发明通过人工智能与医疗结合的方法，填补了这一领域的空缺，提供了新的解决思路。

附图说明

图1为本发明方法的流程图。

图2为本发明中Bert预训练网络结构示意图。

图3为本发明中基于Bert的多标签分类网络结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明基于多标签分类的肺癌前沿趋势预测包括以下步骤：

一、PubMed是美国国家医学图书馆(NLM)所属的国家生物技术信息中心(NCBI)的生物医学信息检索系统。具有数据更新快，覆盖范围广的特点。选择PubMed中收录的肺癌领域的论文作为数据源。搜索lung cancer关键词，并设置额外的搜索条件为发表日期在2010-2019年范围的论文。利用自行开发的爬虫程序，对搜索得到的论文的PMID、标题、摘要以及发表日期进行收集，将采集到的文本信息存储在.csv格式的文件中。对于信息不完整的论文，使用pandas数据分析工具将其从数据集中筛除。

二、为了实现肺癌前沿趋势预测，首先需要预先制定类别集，对应于论文的主题。类别集的合理性很大程度上影响了趋势预测的效果。类别集合的设置要同时满足医疗工作者关注度高以及覆盖面广的特点。基于以上的考虑，将肺癌研究分为肺癌的筛查、肺癌的预防、肺癌的诊断、肺癌的发病机制、肺癌的治疗、肺癌的共患病、肺癌与空气污染的相关性分析、肺癌的基因相关性分析、肺癌的性别相关性分析、肺癌与烟草的相关性分析、肺癌的社会影响11个领域。

三、将上述11个主题作为每一篇论文的标签，标签间并不对立，一篇论文可同时对应一个或多个标签。设置标签格式为11维向量，向量的每一个位置对应其中一个主题，若该论文属于该类别领域，则将该类别位置下的数字设置为1，反之为0。对每一篇论文都进行标注。考虑到绝大多数论文都是英文形式发表，只有极少数的论文使用其他语种，如日文，德文等形式发布。所以在标注过程中，舍弃掉其他语种形式表达的论文。标记完成后，将含有标签信息的数据以.csv形式存储，作为后续任务的数据集。

四、对数据集进行预处理。数据集中，时间信息以文本形式存储，且表达方式各不相同，如：’2019Jun’，‘2010spring’，’2010’等。给后续趋势预测结果分析带来困难。首先对以文本形式表达的非规范的时间信息进行处理，忽视季度、月份、日期等信息，统一规范为以年份为单位的数字表示，如’2010’，’2019’等。其次，数据集中的摘要信息存在大量对于分类任务无贡献的字符，例如网址，also、about、been等停用词，特殊字符如&、％、@等，删除此类字符，可以减少计算量、提高分类效果。除此之外，考虑到字母的大小写表达对分类任务无特殊贡献，将所有字母统一为小写格式，减少运算时间。

五、趋势预测的基本思路是根据已有数据的分析结果预测未来趋势变化。为了证实趋势预测的有效性，依据规范化后的时间信息，将数据集分为训练集和验证集。

六、将训练样本输入基于Bert的多标签分类网络，网络模型包括编码器和注意力层以及解码器三部分。

编码器：编码器部分采用Bert预训练神经网络提取特征。

Bert是利用大量无标签数据自监督学习的网络结构。如图2所示，Bert包含embedding层、双向Transformer层、输出层。输入Bert前首先对训练数据进行处理。输入的句子s，如：’Lung cancer is the leading cause of cancer related deathsworldwide.’。将句子分割成单个单词，并在句首端置[CLS]字符,句末置[SEP]字符。分别表示句子起始位置和终止位置。处理后的句子s′如下所示：[[CLS],Lung,cancer,is,the,leading,cause,of,cancer,related,deaths,worldwide,[SEP]]

处理后的句子输入网络中。取输出层作为句子的向量表示[h₁,h₂,h₃,…,h_T]。[CLS]位置输出向量表示作为解码器的起始输入隐变量h_[CLS]。

注意力层,：模型在预测不同标签时，不同单词对预测结果的影响力不同。通过给编码器输出的隐藏状态的语义赋予不同的权重，体现单词的影响力大小。其中权重计算方法如下：

其中

W_a,U_a是网络的权重参数，s_t为解码器在t时刻的隐变量,h_i为第i个位置处的句子的向量表示，e_ti为t时刻第i个位置的权值，α_ti为权值经过归一化后的得到的权重。

第t时刻传递给解码器的上下文向量c_t的计算公式如下：

解码器：注意力层的输出结合网络上一时刻的输出结果送入长短期记忆网络(LSTM)中，解码器的时刻t隐状态的计算公式如下：

s_t＝LSTM(s_t-1,[y_t-1；c_t-1])

其中[y_t-1；c_t-1]表示，上一时刻的标签预测结果与c_t连接得到的向量。y_t-1代表t-1时刻的输出层在标签空间下的分布，y_t计算公式如下：

y_t＝softmax(W_otanh(W_ds_t+V_dc_t)+I_t)

其中W_o,W_d,V_d是网络的权重参数。I_t是遮掩向量，为了防止解码器输出重复的标签。It的计算公式如下：

训练阶段，采用交叉熵损失函数，公式如下：

七、利用上一步训练好的多标签分类网络对验证集中的数据进行分类，使用microF1 score、hamming loss对模型的分类性能进行评价。

其中micro F1 score和hamming loss的计算公式如下：

其中tp_j,fn_j,fp_j代表第j个标签的真阳性、假阳性和假阴性的预测数目。

其中N代表样本总数，k代表标签数目，y_i,

代表第i个样本预测标签以及标签真实值，xor为异或操作。

八、对验证集的分类结果进行统计，以年份为单位，统计该年内不同主题下的论文发表数目所占该年发表论文总数的比例。以时间为横坐标，占比为纵坐标，绘制趋势波动折线图。根据折线图的走势可判断，该领域未来的趋势。

Claims

1.一种基于多标签分类的肺癌前沿趋势预测方法，其特征在于，包括以下步骤：

S2：制定类别集，对应肺癌研究领域论文的主题；

S4：对数据集中的文本进行预处理；

2.根据权利要求1所述的一种基于多标签分类的肺癌前沿趋势预测方法，其特征在于，步骤S1具体为：爬取Pubmed网站内收录的近十年内发表的与肺癌相关的论文，筛除摘要、标题以及发表日期信息不全的论文，组成数据集。

3.根据权利要求1所述的一种基于多标签分类的肺癌前沿趋势预测方法，其特征在于，在步骤S2中，类别集包括：肺癌的筛查、肺癌的预防、肺癌的诊断、肺癌的发病机制、肺癌的治疗、肺癌的共患病、肺癌与空气污染的相关性分析、肺癌的基因相关性分析、肺癌的性别相关性分析、肺癌与烟草的相关性分析、肺癌的社会影响11个类别。

4.根据权利要求3所述的一种基于多标签分类的肺癌前沿趋势预测方法，其特征在于，在步骤S3中，设置标签为11维向量，向量的不同位置对应不同的类别，向量值’1’表示该论文属于本类别，’0’表示论文不属于该类别。

5.根据权利要求1所述的一种基于多标签分类的肺癌前沿趋势预测方法，其特征在于，所述步骤S4具体为：对数据集中文本形式存储的时间信息进行归一化处理，统一规范为以年份为跨度的时间单位；对摘要文本进行去除特殊字符、去停用词、统一大小写操作。

6.根据权利要求1所述的一种基于多标签分类的肺癌前沿趋势预测方法，其特征在于，在步骤S6中，所述损失函数loss采用交叉熵损失函数，用符号

表示；给定句子输入s，输出的真实值为

代表第i位置处代表的类别的标签，

为已知

条件下

的后验概率；数据集的损失函数对数形式为：

7.根据权利要求1所述的一种基于多标签分类的肺癌前沿趋势预测方法，其特征在于，还包括步骤S8：对验证集的分类结果进行统计，与训练集的类别统计结果进行比对，验证预测准确性。

8.根据权利要求7所述的一种基于多标签分类的肺癌前沿趋势预测方法，其特征在于，所述步骤S8具体为：以年份为单位，统计该年内发布的所有论文数，以及各个类别对应的论文数目，计算不同标签的占比；将每年的统计数据绘制成折线图，观察不同类别标签的明显的增减趋势。