CN111651605A - 基于多标签分类的肺癌前沿趋势预测方法 - Google Patents

基于多标签分类的肺癌前沿趋势预测方法 Download PDF

Info

Publication number
CN111651605A
CN111651605A CN202010502501.5A CN202010502501A CN111651605A CN 111651605 A CN111651605 A CN 111651605A CN 202010502501 A CN202010502501 A CN 202010502501A CN 111651605 A CN111651605 A CN 111651605A
Authority
CN
China
Prior art keywords
lung cancer
classification
label
leading edge
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010502501.5A
Other languages
English (en)
Other versions
CN111651605B (zh
Inventor
杨路
王小也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010502501.5A priority Critical patent/CN111651605B/zh
Publication of CN111651605A publication Critical patent/CN111651605A/zh
Application granted granted Critical
Publication of CN111651605B publication Critical patent/CN111651605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多标签分类的肺癌前沿趋势预测方法,包括:收集肺癌研究领域的论文的序列号、标题、摘要以及发表日期,组成数据集;制定类别集,对应肺癌研究领域论文的主题;根据类别集,对收集到的摘要文本进行标注;对数据集中的文本进行预处理;根据论文的发表日期,将数据集分为训练集和验证集;将训练样本输入到基于Bert的多标签分类网络,设定损失函数loss,loss值反向传播,更新权重参数,不断迭代训练网络,直至loss值不再下降;利用训练的分类网络对验证集的数据进行分类,得到分类结果。本发明改进了传统多标签算法忽视标签相关性的问题;同时,将人工智能技术与医疗相结合,提供了医疗领域趋势预测的新思路。

Description

基于多标签分类的肺癌前沿趋势预测方法
技术领域
本发明属于深度学习及自然语言处理领域,具体涉及一种基于多标签分类的肺癌前沿趋势预测方法。
背景技术
医疗问题一直以来都是人民最为关心的问题之一,而癌症作为一种恶性肿瘤由于其高死亡率、高发病率,一直以来都严重威胁着人类日常的生命健康。2019年,国际癌症研究机构评估了全球185个国家36种癌症的死亡率和发病率。其中肺癌的发病率稳居榜首。在中国肺癌发病率更是高于全球。
为了保障人民生命健康,医疗工作者对肺癌的发病机制、治疗、基因相关性等方面进行了大量的研究,取得了大量的成果。而追踪肺癌研究动态、预测肺癌未来研究趋势的可以帮助医疗工作者更好的规划未来的研究方向,对研究工作的开展有着重要的意义。
在信息获取途径方面,考虑到已发表的医学论文中蕴含丰富的医疗知识和实践经验,且具有更新速度快,权威性高的特点。医疗工作者通常会通过阅读最新一段时间发表的与肺癌的论文来获取信息,了解当下的研究热门领域,并据此调整接下来的研究计划。
实际工作中,为了掌控当下肺癌疾病的研究热点,医疗工作者需要阅读并记录大量文献,通过对大量的肺癌研究领域论文的研究方向的分析以及其出现频率的高低来判断,肺癌研究的某个方向的研究热度。而当前阶段,首先,我国存在医患比例低,医生工作量大的情况。对于临床医生而言还需同时兼顾问诊、手术和教学等工作,工作强度高。面对科研任务,在开展研究工作前跟踪最新研究热点需要耗费大量精力。另一方面,人力所能考察到的论文数量有限,面对数以万计的文献,无法对其全面掌握。所以现在急需一种辅助方法帮助医生了解最新研究动态,推测未来研究趋势,更好的安排规划下一步研究任务。
近年来,深度学习在文本处理方面展现了巨大的优势,可以通过训练一个神经网络帮助医生对近期发表的全部与肺癌相关文献的主题进行分类,并对分类结果进行统计分析,绘制不同主题占比随时间变化的折线图,跟进最新的发展动向,从而实现预测未来研究趋势的功能;而对医疗文本的分类是需要解决的任务。
发明内容
本发明所要解决的技术问题是提供一种基于多标签分类的肺癌前沿趋势预测方法。以近五年来肺癌研究领域的论文摘要文本及其标签作为输入,通过深度学习算法对网络进行训练,使训练好的神经网络对新输入的文本可以进行多标签分类,实现对医疗文献的多标签分类。进一步分析近一段时间发表的肺癌领域的论文分类结果的统计信息,实现预测研究热点的目的。
为解决上述技术问题,本发明采用的技术方案是:
一种基于多标签分类的肺癌前沿趋势预测方法,包括以下步骤:
S1:收集肺癌研究领域的论文的序列号、标题、摘要以及发表日期,组成数据集;
S2:制定类别集,对应肺癌研究领域论文的主题;
S3:根据步骤S2中制定的类别集,对收集到的摘要文本进行标注;
S4:对数据集中的文本进行预处理;
S5:对预处理后的数据集,根据论文的发表日期,将其分为训练集和验证集;
S6:将训练样本输入到基于Bert的多标签分类网络,设定损失函数loss,loss值反向传播,更新权重参数,不断迭代训练分类网络,直至loss值不再下降;
S7:利用步骤S6训练的分类网络对验证集的数据进行分类,得到分类结果。
进一步地,步骤S1具体为:爬取Pubmed网站内收录的近十年内发表的与肺癌相关的论文,筛除摘要、标题以及发表日期信息不全的论文,组成数据集。
进一步地,在步骤S2中,类别集包括:肺癌的筛查、肺癌的预防、肺癌的诊断、肺癌的发病机制、肺癌的治疗、肺癌的共患病、肺癌与空气污染的相关性分析、肺癌的基因相关性分析、肺癌的性别相关性分析、肺癌与烟草的相关性分析、肺癌的社会影响11个类别。
进一步地,在步骤S3中,设置标签为11维向量,向量的不同位置对应不同的类别,向量值’1’表示该论文属于本类别,’0’表示论文不属于该类别。
进一步地,所述步骤S4具体为:对数据集中文本形式存储的时间信息进行归一化处理,统一规范为以年份为跨度的时间单位;对摘要文本进行去除特殊字符、去停用词、统一大小写操作。
进一步地,在步骤S6中,所述损失函数loss采用交叉熵损失函数,用符号
Figure BDA0002523436110000031
表示;给定句子输入s,输出的真实值为
Figure BDA0002523436110000032
Figure BDA0002523436110000033
代表第i位置处类别的标签值,
Figure BDA0002523436110000034
代表位置1到i-1之间的类别的标签值,θ为期望学习到的网络参数,k为类别集的大小,
Figure BDA0002523436110000035
为已知s,
Figure BDA0002523436110000036
θ条件下
Figure BDA0002523436110000037
的后验概率;数据集的损失函数对数形式为:
Figure BDA0002523436110000038
进一步地,还包括步骤S8:对验证集的分类结果进行统计,与训练集的类别统计结果进行比对,验证预测准确性。
进一步地,所述步骤S8具体为:以年份为单位,统计该年内发布的所有论文数,以及各个类别对应的论文数目,计算不同标签的占比;将每年的统计数据绘制成折线图,观察不同类别标签的明显的增减趋势。
与现有技术相比,本发明的有益效果在于:
1、现有的基于Bert模型的多标签文本分类,将多标签分类问题分解为多个二分类问题,忽视了标签的内部关联。而针对医疗文本分类问题标签相关度较高这一特点,本发明提出了改进的Bert模型,在解码器阶段,将其转换为文本标注问题处理,引入标签相关性,改善分类效果。
2、目前没有关于肺癌研究趋势的预测的相关工作,本发明通过人工智能与医疗结合的方法,填补了这一领域的空缺,提供了新的解决思路。
附图说明
图1为本发明方法的流程图。
图2为本发明中Bert预训练网络结构示意图。
图3为本发明中基于Bert的多标签分类网络结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明基于多标签分类的肺癌前沿趋势预测包括以下步骤:
一、PubMed是美国国家医学图书馆(NLM)所属的国家生物技术信息中心(NCBI)的生物医学信息检索系统。具有数据更新快,覆盖范围广的特点。选择PubMed中收录的肺癌领域的论文作为数据源。搜索lung cancer关键词,并设置额外的搜索条件为发表日期在2010-2019年范围的论文。利用自行开发的爬虫程序,对搜索得到的论文的PMID、标题、摘要以及发表日期进行收集,将采集到的文本信息存储在.csv格式的文件中。对于信息不完整的论文,使用pandas数据分析工具将其从数据集中筛除。
二、为了实现肺癌前沿趋势预测,首先需要预先制定类别集,对应于论文的主题。类别集的合理性很大程度上影响了趋势预测的效果。类别集合的设置要同时满足医疗工作者关注度高以及覆盖面广的特点。基于以上的考虑,将肺癌研究分为肺癌的筛查、肺癌的预防、肺癌的诊断、肺癌的发病机制、肺癌的治疗、肺癌的共患病、肺癌与空气污染的相关性分析、肺癌的基因相关性分析、肺癌的性别相关性分析、肺癌与烟草的相关性分析、肺癌的社会影响11个领域。
三、将上述11个主题作为每一篇论文的标签,标签间并不对立,一篇论文可同时对应一个或多个标签。设置标签格式为11维向量,向量的每一个位置对应其中一个主题,若该论文属于该类别领域,则将该类别位置下的数字设置为1,反之为0。对每一篇论文都进行标注。考虑到绝大多数论文都是英文形式发表,只有极少数的论文使用其他语种,如日文,德文等形式发布。所以在标注过程中,舍弃掉其他语种形式表达的论文。标记完成后,将含有标签信息的数据以.csv形式存储,作为后续任务的数据集。
四、对数据集进行预处理。数据集中,时间信息以文本形式存储,且表达方式各不相同,如:’2019Jun’,‘2010spring’,’2010’等。给后续趋势预测结果分析带来困难。首先对以文本形式表达的非规范的时间信息进行处理,忽视季度、月份、日期等信息,统一规范为以年份为单位的数字表示,如’2010’,’2019’等。其次,数据集中的摘要信息存在大量对于分类任务无贡献的字符,例如网址,also、about、been等停用词,特殊字符如&、%、@等,删除此类字符,可以减少计算量、提高分类效果。除此之外,考虑到字母的大小写表达对分类任务无特殊贡献,将所有字母统一为小写格式,减少运算时间。
五、趋势预测的基本思路是根据已有数据的分析结果预测未来趋势变化。为了证实趋势预测的有效性,依据规范化后的时间信息,将数据集分为训练集和验证集。
六、将训练样本输入基于Bert的多标签分类网络,网络模型包括编码器和注意力层以及解码器三部分。
编码器:编码器部分采用Bert预训练神经网络提取特征。
Bert是利用大量无标签数据自监督学习的网络结构。如图2所示,Bert包含embedding层、双向Transformer层、输出层。输入Bert前首先对训练数据进行处理。输入的句子s,如:’Lung cancer is the leading cause of cancer related deathsworldwide.’。将句子分割成单个单词,并在句首端置[CLS]字符,句末置[SEP]字符。分别表示句子起始位置和终止位置。处理后的句子s′如下所示:[[CLS],Lung,cancer,is,the,leading,cause,of,cancer,related,deaths,worldwide,[SEP]]
处理后的句子输入网络中。取输出层作为句子的向量表示[h1,h2,h3,…,hT]。[CLS]位置输出向量表示作为解码器的起始输入隐变量h[CLS]
注意力层,:模型在预测不同标签时,不同单词对预测结果的影响力不同。通过给编码器输出的隐藏状态的语义赋予不同的权重,体现单词的影响力大小。其中权重计算方法如下:
Figure BDA0002523436110000061
Figure BDA0002523436110000062
其中
Figure BDA0002523436110000063
Wa,Ua是网络的权重参数,st为解码器在t时刻的隐变量,hi为第i个位置处的句子的向量表示,eti为t时刻第i个位置的权值,αti为权值经过归一化后的得到的权重。
第t时刻传递给解码器的上下文向量ct的计算公式如下:
Figure BDA0002523436110000071
解码器:注意力层的输出结合网络上一时刻的输出结果送入长短期记忆网络(LSTM)中,解码器的时刻t隐状态的计算公式如下:
st=LSTM(st-1,[yt-1;ct-1])
其中[yt-1;ct-1]表示,上一时刻的标签预测结果与ct连接得到的向量。yt-1代表t-1时刻的输出层在标签空间下的分布,yt计算公式如下:
yt=softmax(Wotanh(Wdst+Vdct)+It)
其中Wo,Wd,Vd是网络的权重参数。It是遮掩向量,为了防止解码器输出重复的标签。It的计算公式如下:
Figure BDA0002523436110000072
训练阶段,采用交叉熵损失函数,公式如下:
Figure BDA0002523436110000073
七、利用上一步训练好的多标签分类网络对验证集中的数据进行分类,使用microF1 score、hamming loss对模型的分类性能进行评价。
其中micro F1 score和hamming loss的计算公式如下:
Figure BDA0002523436110000074
其中tpj,fnj,fpj代表第j个标签的真阳性、假阳性和假阴性的预测数目。
Figure BDA0002523436110000075
其中N代表样本总数,k代表标签数目,yi,
Figure BDA0002523436110000076
代表第i个样本预测标签以及标签真实值,xor为异或操作。
八、对验证集的分类结果进行统计,以年份为单位,统计该年内不同主题下的论文发表数目所占该年发表论文总数的比例。以时间为横坐标,占比为纵坐标,绘制趋势波动折线图。根据折线图的走势可判断,该领域未来的趋势。

Claims (8)

1.一种基于多标签分类的肺癌前沿趋势预测方法,其特征在于,包括以下步骤:
S1:收集肺癌研究领域的论文的序列号、标题、摘要以及发表日期,组成数据集;
S2:制定类别集,对应肺癌研究领域论文的主题;
S3:根据步骤S2中制定的类别集,对收集到的摘要文本进行标注;
S4:对数据集中的文本进行预处理;
S5:对预处理后的数据集,根据论文的发表日期,将其分为训练集和验证集;
S6:将训练样本输入到基于Bert的多标签分类网络,设定损失函数loss,loss值反向传播,更新权重参数,不断迭代训练分类网络,直至loss值不再下降;
S7:利用步骤S6训练的分类网络对验证集的数据进行分类,得到分类结果。
2.根据权利要求1所述的一种基于多标签分类的肺癌前沿趋势预测方法,其特征在于,步骤S1具体为:爬取Pubmed网站内收录的近十年内发表的与肺癌相关的论文,筛除摘要、标题以及发表日期信息不全的论文,组成数据集。
3.根据权利要求1所述的一种基于多标签分类的肺癌前沿趋势预测方法,其特征在于,在步骤S2中,类别集包括:肺癌的筛查、肺癌的预防、肺癌的诊断、肺癌的发病机制、肺癌的治疗、肺癌的共患病、肺癌与空气污染的相关性分析、肺癌的基因相关性分析、肺癌的性别相关性分析、肺癌与烟草的相关性分析、肺癌的社会影响11个类别。
4.根据权利要求3所述的一种基于多标签分类的肺癌前沿趋势预测方法,其特征在于,在步骤S3中,设置标签为11维向量,向量的不同位置对应不同的类别,向量值’1’表示该论文属于本类别,’0’表示论文不属于该类别。
5.根据权利要求1所述的一种基于多标签分类的肺癌前沿趋势预测方法,其特征在于,所述步骤S4具体为:对数据集中文本形式存储的时间信息进行归一化处理,统一规范为以年份为跨度的时间单位;对摘要文本进行去除特殊字符、去停用词、统一大小写操作。
6.根据权利要求1所述的一种基于多标签分类的肺癌前沿趋势预测方法,其特征在于,在步骤S6中,所述损失函数loss采用交叉熵损失函数,用符号
Figure FDA0002523436100000028
表示;给定句子输入s,输出的真实值为
Figure FDA0002523436100000021
Figure FDA0002523436100000022
代表第i位置处代表的类别的标签,
Figure FDA0002523436100000023
代表位置1到i-1之间的类别的标签值,θ为期望学习到的网络参数,k为类别集的大小,
Figure FDA0002523436100000024
为已知
Figure FDA0002523436100000025
条件下
Figure FDA0002523436100000026
的后验概率;数据集的损失函数对数形式为:
Figure FDA0002523436100000027
7.根据权利要求1所述的一种基于多标签分类的肺癌前沿趋势预测方法,其特征在于,还包括步骤S8:对验证集的分类结果进行统计,与训练集的类别统计结果进行比对,验证预测准确性。
8.根据权利要求7所述的一种基于多标签分类的肺癌前沿趋势预测方法,其特征在于,所述步骤S8具体为:以年份为单位,统计该年内发布的所有论文数,以及各个类别对应的论文数目,计算不同标签的占比;将每年的统计数据绘制成折线图,观察不同类别标签的明显的增减趋势。
CN202010502501.5A 2020-06-04 2020-06-04 基于多标签分类的肺癌前沿趋势预测方法 Active CN111651605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010502501.5A CN111651605B (zh) 2020-06-04 2020-06-04 基于多标签分类的肺癌前沿趋势预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010502501.5A CN111651605B (zh) 2020-06-04 2020-06-04 基于多标签分类的肺癌前沿趋势预测方法

Publications (2)

Publication Number Publication Date
CN111651605A true CN111651605A (zh) 2020-09-11
CN111651605B CN111651605B (zh) 2022-07-05

Family

ID=72347082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010502501.5A Active CN111651605B (zh) 2020-06-04 2020-06-04 基于多标签分类的肺癌前沿趋势预测方法

Country Status (1)

Country Link
CN (1) CN111651605B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN113468324A (zh) * 2021-06-03 2021-10-01 上海交通大学 基于bert预训练模型和卷积网络的文本分类方法和系统
CN113611405A (zh) * 2021-08-10 2021-11-05 平安科技(深圳)有限公司 一种体检项目推荐方法、装置、设备及介质
CN116821349A (zh) * 2023-08-29 2023-09-29 中国标准化研究院 一种基于大数据的文献分析方法及管理系统
WO2023228902A1 (ja) * 2022-05-26 2023-11-30 ダイキン工業株式会社 評価支援装置、評価方法及びプログラム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989268A (zh) * 2009-07-30 2011-03-23 上海汉光知识产权数据科技有限公司 专利技术发展趋势分析系统及分析方法
WO2014048479A1 (en) * 2012-09-27 2014-04-03 Qatar Foundation A system and method for the automatic creation or augmentation of an electronically rendered publication document
CN108073677A (zh) * 2017-11-02 2018-05-25 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
US20180157743A1 (en) * 2016-12-07 2018-06-07 Mitsubishi Electric Research Laboratories, Inc. Method and System for Multi-Label Classification
CN108520780A (zh) * 2018-03-07 2018-09-11 中国科学院计算技术研究所 一种基于迁移学习的医学数据处理和系统
CN109920508A (zh) * 2018-12-28 2019-06-21 安徽省立医院 处方审核方法及系统
CN110209822A (zh) * 2019-06-11 2019-09-06 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机
CN110309306A (zh) * 2019-06-19 2019-10-08 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法
CN110516064A (zh) * 2019-07-11 2019-11-29 同济大学 一种基于深度学习的航空科研论文分类方法
CN110851596A (zh) * 2019-10-11 2020-02-28 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989268A (zh) * 2009-07-30 2011-03-23 上海汉光知识产权数据科技有限公司 专利技术发展趋势分析系统及分析方法
WO2014048479A1 (en) * 2012-09-27 2014-04-03 Qatar Foundation A system and method for the automatic creation or augmentation of an electronically rendered publication document
US20180157743A1 (en) * 2016-12-07 2018-06-07 Mitsubishi Electric Research Laboratories, Inc. Method and System for Multi-Label Classification
CN108073677A (zh) * 2017-11-02 2018-05-25 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
CN108520780A (zh) * 2018-03-07 2018-09-11 中国科学院计算技术研究所 一种基于迁移学习的医学数据处理和系统
CN109920508A (zh) * 2018-12-28 2019-06-21 安徽省立医院 处方审核方法及系统
CN110209822A (zh) * 2019-06-11 2019-09-06 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机
CN110309306A (zh) * 2019-06-19 2019-10-08 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法
CN110516064A (zh) * 2019-07-11 2019-11-29 同济大学 一种基于深度学习的航空科研论文分类方法
CN110851596A (zh) * 2019-10-11 2020-02-28 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ANKIT PAL等: "Multi_Label Text Classification usingAttention-based Graph Neural Network", 《12TH INTERNATIONAL CONFERENCE ON AGENT AND ARTIFICIAL INTELLIGENCE》 *
DISHENG PAN等: "Multi-label Classification for Clinical Text with Feature-level Attention", 《2020 IEEE 6TH INTL CONFERENCE ON BIG DATA SECURITY ON CLOUD (BIGDATASECURITY), IEEE INTL CONFERENCE ON HIGH PERFORMANCE AND SMART COMPUTING, (HPSC) AND IEEE INTL CONFERENCE ON INTELLIGENT DATA AND SECURITY (IDS)》 *
冀先朋: "多标签文本分类算法的研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
杨彬: "基于BERT词向量和Attention-CNN的智能司法研究", 《中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅰ辑》 *
王小也: "基于BERT语义嵌入的肺部疾病文本分析及其应用", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112214599B (zh) * 2020-10-20 2022-06-24 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN113468324A (zh) * 2021-06-03 2021-10-01 上海交通大学 基于bert预训练模型和卷积网络的文本分类方法和系统
CN113611405A (zh) * 2021-08-10 2021-11-05 平安科技(深圳)有限公司 一种体检项目推荐方法、装置、设备及介质
WO2023228902A1 (ja) * 2022-05-26 2023-11-30 ダイキン工業株式会社 評価支援装置、評価方法及びプログラム
JP7403782B2 (ja) 2022-05-26 2023-12-25 ダイキン工業株式会社 評価支援装置、評価支援方法及びプログラム
CN116821349A (zh) * 2023-08-29 2023-09-29 中国标准化研究院 一种基于大数据的文献分析方法及管理系统
CN116821349B (zh) * 2023-08-29 2023-10-31 中国标准化研究院 一种基于大数据的文献分析方法及管理系统

Also Published As

Publication number Publication date
CN111651605B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN111651605B (zh) 基于多标签分类的肺癌前沿趋势预测方法
Makav et al. A new image captioning approach for visually impaired people
CN109446338B (zh) 基于神经网络的药物疾病关系分类方法
Akata et al. Evaluation of output embeddings for fine-grained image classification
Wu et al. A multi-task learning neural network for emotion-cause pair extraction
Ma et al. A deep-learning based citation count prediction model with paper metadata semantic features
CN113705238B (zh) 基于bert和方面特征定位模型的方面级情感分析方法及系统
Xu et al. Combining dynamic local context focus and dependency cluster attention for aspect-level sentiment classification
Hussein et al. Unified embedding and metric learning for zero-exemplar event detection
Sangamnerkar et al. An ensemble technique to detect fabricated news article using machine learning and natural language processing techniques
Li et al. Emotion-cause span extraction: a new task to emotion cause identification in texts
Liao et al. Fine-grained attention-based phrase-aware network for aspect-level sentiment analysis
Naithani et al. Realization of natural language processing and machine learning approaches for text‐based sentiment analysis
Srivastava et al. A recurrent neural network architecture for de-identifying clinical records
Ye et al. CT-BERT: learning better tabular representations through cross-table pre-training
Bian et al. Emotional text analysis based on ensemble learning of three different classification algorithms
Nasiri et al. Persian stance detection with transfer learning and data augmentation
Mao et al. An LSTM&Topic-CNN model for classification of online Chinese medical questions
Zhu et al. Artificial Intelligence Classification Model for Modern Chinese Poetry in Education
Tang et al. A multi-scale convolutional attention based GRU network for text classification
Palani et al. CTrL-FND: content-based transfer learning approach for fake news detection on social media
Zhang et al. Job opportunity finding by text classification
Banerjee et al. A novel centroid based sentence classification approach for extractive summarization of COVID-19 news reports
Nagesh et al. An exploration of three lightly-supervised representation learning approaches for named entity classification
Chen et al. Enhancing active learning for semantic role labeling via compressed dependency trees

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant