CN115952292A

CN115952292A - 多标签分类方法、装置及计算机可读介质

Info

Publication number: CN115952292A
Application number: CN202310242731.6A
Authority: CN
Inventors: 唐小利; 张颖; 李晓瑛; 刘懿; 李爱花; 杨雪梅
Original assignee: Institute of Medical Information CAMS
Current assignee: Institute of Medical Information CAMS
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-04-11
Anticipated expiration: 2043-03-14
Also published as: CN115952292B

Abstract

本申请公开一种多标签分类方法、装置及计算机可读介质，该方法预先构建包括第一模型和第二模型的多标签分类模型，第一模型用于对篇级文本对象的预设类型对象信息进行文本内容理解，得到对应的文本语义表示，第二模型用于基于第一模型的输出信息，预测篇级文本对象所属的多个学科类目，以得到篇级文本对象的多标签分类结果。在此基础上，针对待处理的篇级文本对象，可通过将其预设类型对象信息输入多标签分类模型，实现对其篇级粒度的学科多标签分类。本申请对文献等文本对象的分类达到了篇级，精细粒度更高，且通过学科多标签分类，可有效避免单一标签分类方式所导致的错误分类，提升了分类准确度，并一定程度上避免了漏统。

Description

多标签分类方法、装置及计算机可读介质

技术领域

本申请属于自然语言处理与人工智能技术领域，尤其涉及一种多标签分类方法、装置及计算机可读介质。

背景技术

目前，期刊文献主要根据出版物级别进行分类，期刊所包含的所有文献都被归为该期刊所属的类别，即某一领域的期刊上刊载的文献均划分到该领域范围内，或进行多层级分类，即先将文献归入某一学科大类再根据其特征细分入所在学科大类下的子类。

然而，上述分类方式存在分类准确度低、精细粒度低等一系列问题，随着信息技术的发展与科研领域的不断细化，数据规模的不断扩大，上述基于期刊一级的文献分类方式已无法满足科研等各方面应用需求。

发明内容

有鉴于此，本申请提供一种多标签分类方法、装置及计算机可读介质，用于通过基于深度学习从篇级粒度对文献等文本对象进行学科多标签分类，来解决已知技术的文献分类方式所存在的至少部分技术问题。

具体技术方案如下：

一种多标签分类方法，包括：

获取待处理的目标文本对象，所述目标文本对象为篇级的文本对象；

获取所述目标文本对象的预设类型对象信息；

将所述预设类型对象信息输入预先构建的多标签分类模型，得到所述多标签分类模型输出的所述目标文本对象的多标签分类结果，所述多标签分类结果中的不同标签分别表征所述目标文本对象所属的不同学科类目；

其中，所述多标签分类模型包括第一模型和第二模型，所述第一模型用于对篇级文本对象的预设类型对象信息进行文本内容理解，得到对应的文本语义表示，所述第二模型用于基于所述第一模型输出的文本语义表示，预测所述篇级文本对象所属的多个学科类目，以得到所述篇级文本对象的多标签分类结果。

可选的，所述获取所述目标文本对象的预设类型对象信息，包括：

提取所述目标文本对象的摘要数据和标题数据。

可选的，在提取所述目标文本对象的摘要数据之后，还包括：

提取所述摘要数据中能用于表征摘要特征的数据，得到满足数据量条件的摘要特征数据。

可选的，所述将所述预设类型对象信息输入预先构建的多标签分类模型，得到所述多标签分类模型输出的所述目标文本对象的多标签分类结果，包括：

将目标数据输入所述第一模型进行文本内容理解，得到所述第一模型输出的语义向量；所述目标数据包括所述标题数据，所述目标数据还包括所述摘要数据或所述摘要特征数据，所述语义向量包括所述标题数据的第一语义向量，所述语义向量还包括所述摘要数据或所述摘要特征数据的第二语义向量；所述目标文本对象的文本语义表示包括所述第一语义向量和所述第二语义向量；

将所述第一语义向量和所述第二语义向量输入所述第二模型进行多标签分类处理，得到所述第二模型输出的所述目标文本对象的多标签分类结果。

可选的，所述第一语义向量包括所述标题数据所包含的各词语的词向量，所述第二语义向量包括所述摘要数据或所述摘要特征数据所包含的各词语的词向量；所述第二模型基于所述第一语义向量和所述第二语义向量的多标签分类处理过程，包括：

将所述第一语义向量，按所对应标题数据中词语的时序特征拆分为多个第一语义分量，得到第一语义分量序列，每个第一语义分量包括所述第一语义向量中的至少一个词向量；将所述第二语义向量，按所对应摘要数据或摘要特征数据中词语的时序特征拆分为多个第二语义分量，得到第二语义分量序列，每个第二语义分量包括所述第二语义向量中的至少一个词向量；

将所述第一语义分量序列中的各个第一语义分量按时序依次输入所述第二模型，以由所述第二模型在对应时间步对所输入的第一语义分量进行特征化处理，得到对应时间步输入的第一语义分量的特征表示；

将所述第二语义分量序列中的各个第二语义分量按时序依次输入所述第二模型，以由所述第二模型在对应时间步对所输入的第二语义分量进行特征化处理，得到对应时间步输入的第二语义分量的特征表示；

根据最后一个第一语义分量对应的特征表示，和最后一个第二语义分量对应的特征表示，预测所述目标文本对象所属的多个学科类目；

其中，在每一时间步中，所述第二模型基于当前时间步的上一时间步输出的特征表示，对当前时间步输入的语义分量进行特征化处理；对于第一个时间步，其上一时间步输出的特征表示为空。

可选的，所述多标签分类模型的构建过程，包括：

获取预设的预训练模型，并利用样本数据按篇级文本对象的多标签分类任务需求，对所述预训练模型进行调整，得到所述第一模型；

利用样本数据构建多个能基于所述第一模型的输出信息，对篇级文本对象进行学科多标签分类的候选模型；

检测各个候选模型与所述第一模型分别组配后，各自对应的分类性能；

根据各个候选模型分别对应的分类性能，从所述各个候选模型中选取满足性能条件的候选模型作为所述第二模型。

可选的，构建所述第一模型和所述第二模型所基于的样本数据包括：根据预设的均衡策略，从多个学科类目下的篇级文本对象中进行采样，得到多个学科类目下的文本对象样本，并对所述文本对象样本进行标题和摘要提取所得的标题数据和摘要数据；或，包括所述标题数据，和所述摘要数据对应的摘要特征数据。

可选的，所述目标文本对象为癌症领域的篇级文本对象，所述多标签分类模型为基于癌症领域篇级文本对象的样本数据所训练的模型；

所述预训练模型为BERT模型，所述第二模型为基于TextRNN所训练的分类器模型。

一种多标签分类装置，包括：

第一获取单元，用于获取待处理的目标文本对象，所述目标文本对象为篇级的文本对象；

第二获取单元，用于获取所述目标文本对象的预设类型对象信息；

分类处理单元，用于将所述预设类型对象信息输入预先构建的多标签分类模型，得到所述多标签分类模型输出的所述目标文本对象的多标签分类结果，所述多标签分类结果中的不同标签分别表征所述目标文本对象所属的不同学科类目；

一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时，能用于实现如上文任一项所述的多标签分类方法。

根据以上方案可知，本申请提供的多标签分类方法、装置及计算机可读介质，预先构建了包括第一模型和第二模型的多标签分类模型，第一模型用于对篇级文本对象的预设类型对象信息进行文本内容理解，得到对应的文本语义表示，第二模型用于基于第一模型输出的文本语义表示，预测篇级文本对象所属的多个学科类目，以得到篇级文本对象的多标签分类结果。在此基础上，针对待处理的篇级文本对象，可通过获取其预设类型对象信息，并将预设类型对象信息输入多标签分类模型，实现对该文本对象篇级粒度的学科多标签分类。

与已知技术提供的期刊一级的文献分类方式相比，本申请对文献等文本对象的分类达到了篇级，精细粒度更高，且已知技术的分类方式本质上仅能实现对文献等文本对象的单一标签学科分类，难以全面体现文献特征，易导致错误分类或导致漏统，本申请通过基于构建的多标签分类模型对文本对象进行学科多标签分类，有效解决了该问题，避免了单一标签分类方式所导致的错误分类，提升了分类准确度，并可一定程度上避免漏统。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请提供的构建多标签分类模型的过程示意图；

图2是本申请提供的Text RNN原理示意图；

图3是本申请提供的多标签分类方法流程图；

图4是本申请提供的多标签分类装置的组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前期刊文献主要根据出版物级别进行分类，即某一领域的期刊上刊载的文献均划分到该领域范围内，或进行多层级分类，即先将文献归入某一学科大类，再根据其特征细分入所在学科大类下的子类。

然而，经研究发现，已知技术的分类方式，至少存在以下几方面的技术问题：首先，由于信息技术的发展与科研领域的不断细化，数据规模不断扩大，综合性期刊成为主要的信息来源，基于期刊一级的的文献分类的分类粒度较粗，已无法满足科研需求；其次，当前学术研究总体趋于国际化，数据来源众多，各国间的分类体系各不相同，由于文化差异造成出版物级别的分类难以满足实际需要；再次，现有分类方式本质上仅能实现对文献的单一标签学科分类，随着学科的交叉融合，用单一的标签对文献进行学科分类难以全面体现文献特征，并且学科的外延变得越来越大，相关文献往往分散在许多其他领域期刊，同时某一领域期刊可能会刊载与本领域相关程度较低的文献。因此，期刊级的文献学科单标签分类一方面易导致错误分类，不利于后续科研工作参考，另一方面也易造成漏统，不利于学术分析统计评价。

除此之外，近年来，随着人工智能技术的发展，现有机器学习的方法已经比较成熟，深度学习的方法实现文献有效分类也在飞速发展，并逐步取代机器学习，但目前可查的相关研究仍存在模型解释性不强、对长文本模型识别质量差等问题。

有鉴于此，本申请提供一种多标签分类方法、装置及计算机可读介质，用于通过基于深度学习从篇级粒度对文献等文本对象进行学科多标签分类，来解决已知技术中的文献分类方式所存在的至少部分技术问题。

本申请的多标签分类方法，需要以预先构建用于从篇级粒度对文献等文本对象进行学科多标签分类的多标签分类模型为基础。该多标签分类模型，包括上游的第一模型和下游的第二模型，第一模型用于对篇级文本对象的预设类型对象信息进行文本内容理解，得到对应的文本语义表示，第二模型用于基于第一模型输出的文本语义表示，预测篇级文本对象所属的多个学科类目，以得到篇级文本对象的多标签分类结果。

该多标签分类模型的模型构建，如图1所示，可以实现为：

步骤101、获取预设的预训练模型，并利用样本数据按篇级文本对象的多标签分类任务需求，对预训练模型进行调整，得到第一模型。

肿瘤作为目前人类所面对的最致命的疾病之一（2020年全球因癌症死亡人数达到996万人），也是学科交叉融合的重要领域，拥有对数量巨大的科技文献进行学科分类处理的高需求，具备成熟的学科分类体系。为满足日益增长的科研需求，解决综合性期刊文献的学科分类，实现有效精细的分类，支持癌症领域的研究发现，本申请实施例主要以面向癌症领域的文献篇级多标签学科分类为例，进行方案说明。

实际应用中，可以但不限于采用由国际癌症研究合伙组织（InternationalCancer Research Partnership，ICRP）建立并维护的ICRP CT癌症分类体系，基于深度学习方法构建分类模型，依据具体的62种癌症类别，在篇级文献的粒度上对癌症领域文献进行学科多标签分类。

本申请提出基于BERT+X的形式，对分类器即多标签分类模型进行设计，以获得1+1＞2的效果，强化模型本身的优点，解决已知技术中存在的问题，并节省模型构建时间。其中，该设计思路下，可以形象的将分类器即多标签分类模型看作一栋建筑物，使用BERT建造整座建筑物的房梁和框架，使用X作为砖和水泥进行搭建，调整砖和水泥的比例以达到X的最优效果。其中，对于X，最终通过组配与测试筛选，得出X的最优化模型选配结果。

模型训练需要先通过语料处理进行样本数据的准备。该过程可进一步实现为：

一、语料获取

实际应用中，可选的，可综合考虑系统性能、数据源质量、分类质量、工作成本等多方面因素，进行篇级文本对象的语料数据源的确定，本实施例优选Dimensions数据库作为数据集来源，Dimensions平台涵盖的数据资源包括篇级的文献、专利、临床试验等，数据量充足且种类繁多，并可依据ICRP CT提供分类标识。

经研究发现，篇级文本对象如文献的标题，能够反映其主要特定内容的逻辑组合，而摘要则包含了其所在的文献等文本内容的目的、方法、结果和结论，能明晰、准确地概括论文的主旨内容，采用这两部分信息可满足对篇级文本对象自动分类系统的训练需求，因此，优选的，为了提高运行效率，本申请实施例只采集这两部分数据，来构造用于模型训练的样本数据集。

二、语料预处理

可以但不限于去除所获取语料中的空摘要、少特征等低质量文献，最终获得符合要求的文献以用于构造样本数据，并以预设比例如5:3:2将样本数据划分为训练集、测试集、验证集。

可选的，还可以对样本数据中的文献等文本对象进行停用词去除、无用字符去除等噪声消除处理，本申请实施例中，在后续采用的摘要算法能够提供对文献的停用词去除、无用字符去除等功能，故在此环节不进行额外的噪声去除工作。

由于学科发展与数据库自身选用偏好等原因，有些类目下包含大量的文献数据，而部分类目下数据则过少，直接进行训练会由于过拟合产生一定程度的偏差，为此，在采样时可设置均衡策略来用于均衡采样。

可选的，在该均衡策略中设定一采样指标值。其中，可以但不限于对各类别学科所包含样本数量的方差、中位数、平均数进行计算，结合样本分布特征，选取中位数作为指标值。每一学科类目的样本数量相比于该指标值，允许有一定比例的误差，示例性的，该误差设置为10%，多于指标值10%的部分从语料集中随机选取并舍弃，并可基于专家咨询，将含有样本数量少于指标值10%的类别删除，以确保各个学科类目的样本均衡性，进而确保后续学科多标签分类的准确性。

在此基础上，可进一步从均衡采样所得的各类别样本数据中，进行标题和摘要提取，得到样本数据，样本数据具体为标题和摘要构成的二元组。

但不限于此，在其它实施方式中，还可以进一步对获取到的摘要数据进行降维处理，将每个篇级文本对象的摘要降维后得到的摘要特征数据，与标题数据构建成二元组，作为用于模型训练的最终样本数据。

也就是说，本申请实施例中，构建第一模型和第二模型的最终样本数据可以包括：根据预设的均衡策略，从多个学科类目下的篇级文本对象中进行采样，得到多个学科类目下的文本对象样本，并对文本对象样本进行标题和摘要提取所得的标题数据和摘要数据；或者，包括文本对象样本的标题，和摘要对应的摘要特征数据。

其中，可以但不限于使用textrank摘要算法，从摘要数据中提取能表征摘要特征的字符，形成一定字符量如255字符以内的摘要特征数据，并构建由标题和摘要特征数据组成的二元组，以作为后续模型训练所需的样本语料。且可通过textrank摘要算法，对获取的原始语料进行停用词去除、字符去除等降噪处理，以提升文档表示特征的效率，为后续文献的分类提供可靠的信息支持。

textrank算法由pagerank改进得来，是一种基于图的用于关键词抽取和文档摘要的排序算法。它利用一篇文档内部的词语间的共现信息（语义）抽取关键词，从一个给定的文本中抽取出该文本的关键词、关键词组，并使用抽取式的自动文摘方法抽取出该文本的关键句。计算公式如下：

其中，

表示句子 i的权重，右侧的求和表示每个相邻句子对本句的贡献程度。在单文档中，可以认为所有的句子都是相邻的，不需要像多文档一样进行多个窗口的生成和抽取，仅需要单一文档窗口即可。

表示两个句子的相似度。

表示上次迭代出的句子 j的权重， d是阻尼系数。

经过摘要处理，数据被处理为有序、精简、高特征属性的语料，不仅可以缩短模型训练时间，还能提高模型的分类准确度。

在此基础上，可进一步进行基于样本数据的模型训练。

其中，该步骤101中，预训练模型优选BERT模型，通过BERT模型完成上游预训练任务，得到第一模型。预训练是指将大量低成本收集的训练数据放在一起，经过某种预训方法去学习其中的共性，然后将其中的共性“移植”到特定任务的模型中，再使用相关特定领域的少量标注数据进行“微调”，由此可以达到模型只需要从“共性”出发，去“学习”该特定任务的“特殊”部分即可。

BERT的全称是BidirectionalEncoder Representations from Transformer，是一个Transformer的双向编码器，旨在通过在左右上下文中共有的条件计算来预先训练来自无标号文本的深度双向表示。BERT模型采用了Transformer Encoder block进行连接，是一个典型的双向编码模型，BERT基于整个维基百科的无标签号文本的大语料库和图书语料库开展预训练，因此具有强大的适应性。

本申请实施例采用经过预先训练的开源BERT模型，根据对篇级文本对象（如篇级文献）的学科多分类任务和任务专用数据进行微调，如通过输出层进行微调，来完成上游任务的模型预训练，得到上游的第一模型，以节省时间、提高准确率。

BERT的输入可以是一个句子对，也可以是单个句子。同时BERT增加了标志位，具体如下：

[CLS]标志，放在第一个句子的首位，经过BERT得到的表征向量C可以用于后续的分类任务；

[SEP]标志，用于分开两个输入句子；

[MASK]标志，用于遮盖句子中的一些单词，将单词用[MASK]遮盖之后，再利用BERT输出的[MASK]向量预测单词。

BERT得到输入的句子后，将句子的单词转成Embedding（嵌入向量），BERT的Embedding由三种Embedding求和而成，分别为：

Token Embeddings，是词向量，指单词的Embedding，通过训练学习得到；

Segment Embeddings，用来区别两种句子，用于区分每一个单词属于句子A还是句子B，通过训练学习得到；

Position Embeddings，和Transformer使用固定的公式计算不同，是通过学习得到的，在BERT中，假设句子最长为512。

预训练过程中，BERT的一个任务是Masked LM，即只预测[Mask]位置的单词，这样就可以同时利用上下文信息。但是在后续使用的时候，句子中并不会出现[Mask]的单词，这样会影响模型的性能，为解决该问题，本实施例在训练时采用如下策略，随机选择句子中一定比例（如15%）的单词进行Mask，在选择为Mask的单词中，进一步选取预设比例（如80%）真正使用[Mask]进行替换，剩余单词中的预设比例（如10%）不进行替换，而最终剩下的相应比例（如10%）的单词使用一个随机单词替换。

BERT的第二个预训练任务是Next Sentence Prediction（NSP），即下一句预测，给定两个句子A和B，要预测句子B是否是句子A的下一个句子。

对于sequence-level的多学科标签分类任务，BERT可以取第一个[CLS]的token的fianl hidden state C，加一层权重W后经softmax预测label proba。其中，W为矩阵形式，具体是将隐藏层上一次的值作为此次输入的权重，C表示细胞状态（cell），指目前这个节点的状态，Softmax表示激活函数，label proba表示标签概率，hidden state表示隐藏层。

在完成基于开源BERT模型的上游预训练任务后，即可得到第一模型。

步骤102、基于样本数据构建多个能基于所述第一模型的输出信息，按学科类目对篇级文本对象进行多标签分类的候选模型。

步骤103、检测各个候选模型与所述第一模型分别组配后，各自对应的分类性能。

步骤104、根据各个候选模型分别对应的分类性能，从所述各个候选模型中选取满足性能条件的候选模型作为所述第二模型。

步骤102-104用于得到作为下游模型的第二模型。

分类器设计是本申请的主体部分，在基于BERT模型完成上游任务的模型预训练，得到一个初步语言模型（即第一模型），能够完成语义理解、词向量构建的基础上，进一步设计一个用于完成下游自然语言处理实际任务的多标签分类器，以作为下游的第二模型。

本申请提出通过组配方式构建第二模型，即，首先构建多个能基于第一模型的输出信息，对篇级文本对象进行学科多标签分类的候选模型，将各个候选模型与第一模型分别组配，并对组配后的各个候选模型进行性能测试，筛选出满足性能条件的候选模型作为第二模型，通过测试，根据效果较好的候选模型，构建面向癌症等领域的篇级学科多标签分类模型。

优选的，上述性能条件可以设置为：对应的性能在各个候选模型所对应性能中最优。基于该性能条件，最终筛选出组配后性能最优的候选模型作为第二模型。

本申请实施例主要提供如下几种较优的模型，来进行候选模型训练：

11）TextRNN

RNN即循环神经网络，TextRNN是一种利用RNN循环神经网络解决文本分类问题的模型，可以使用LSTM（long short-term memory，长短期记忆网络）和GRU（Gate RecurrentUnit，门控循环单元）这种变形的RNN，并可以使用双向两层架构。

图2提供了 Text RNN的原理示意图，其中，会将输入信息拆分成多个分量， x _t是当前时间步的输入分量， h _t是对当前时间步输入分量进行特征化处理后，得到的特征表示，其中，1≤t≤T，且t、T分别为整数， h _T是输入内容迭代完成后代表的结果，是最后一个时间步的输入分量对应的特征，本质上表达的则是整个输入信息的特征，用权利阶层作线性变换后，使用softmax进行分类，产生的对应数值y即代表针对输入信息所输出的分类结果。TexRNN的网络结构中，对于每一时间步的输入，除了考虑该时间步的输入外还结合考虑了上一个时间步的特征表示输出信息，经研究发现，TexRNN的该网络结构，符合文本词与词、句与句之间有顺序的结构特征，能解决CNN无法建模更长的序列信息的问题。

12）Text CNN

CNN即卷积神经网络，一般用于视觉识别方面，但也同样适用于文本处理。TextCNN是CNN的一种变种，其先将文本分词做embeeding得到词向量，将词向量经过一层卷积，一层max-pooling，最后将输出外接softmax来做n分类。网络结构简单导致参数数目少，计算量少，训练速度快。

卷积神经网络CNN的核心思想是捕捉局部特征，对于文本来说，局部特征就是由若干单词组成的滑动窗口，类似于N-gram，所以其优势在于能够自动地对N-gram特征进行组合和筛选，获得不同抽象层次的语义信息。但是模型可解释型不强，在调优模型的时候，很难根据训练的结果去针对性的调整具体的特征。

Text CNN的网络结构包括：

输入层，输入将文本转换成词索引，每个句子是一个向量，向量中每个元素代表着该词在词典中的词索引；

卷积层，在该部分使用卷积核对embedded做卷积处理，这里使用超参数，作用是提取语义信息。同时因为卷积操作的特点参数共享，所以可以减少大部分参数，节约内存使用；

池化层，Text-CNN执行的是max_pooling，就是将列向量中最大值取出来；

全连接层，输入是池化后的向量，输出维度是需要分类的类别数。

13）Fast Text

FastText是一款集word2vec、文本分类等一体的机器学习训练工具，是一种有监督的模型，沿用了CBOW的单层神经网络的模式，速度非常快，但是对长文本的识别效果一般。

其模型结构简单来说，就是文本全部词的Embeddings由输入层输入，最后从隐藏层再经过一次非线性变换得到输出层的label。因为模型的最后要预测文本属于某个类别的概率，所以选择softmax层。当类别数较少时，直接套用softmax层并没有效率问题，但是当类别很多时，softmax层采用了和word2vec类似的方法。一种方法是使用hierarchicalsoftmax，另一种方法是采用negative sampling，即每次从除当前label外的其他label中选择几个作为负样本，并计算出现负样本的概率加到损失函数中。

除了以上三种模型外，本申请还选用了DPCNN（Deep Pyramid ConvolutionalNeural Networksfor Text Categorization，深度金字塔卷积神经网络）、DRNN（DynamicRecurrent Neural Networks，动态回归神经网络）等模型来训练所需的候选模型，但从效果上，DRNN的优点其实就是RNN的优点，能捕获长距离依赖，并且能进行反馈动态，权重随时间共享，但计算速度很慢，无法考虑到当前状态的任何未来输入。词级的DPCNN，计算量小，且可捕捉长程依赖，优点和CNN一样，且还能克服RNN的缺点，性能呈现金字塔特征，快速，但如果是短文本和文本量少的情况，效果不如TextCNN。

在基于对上述各类型模型进行任务训练得到各个候选模型后，将每个候选模型与第一模型进行组配，将候选模型作为第一模型的下游模型，并利用测试集对组配后的模型进行测试，使用准确度、召回率和F1值对其测试结果进行度量，各个模型对应的测试结果如表1所示：

表1

可以看出，Fast Text的准确率最高，Text RNN的召回率水平高于其他模型，F1值具有显著优势。这是由于在NLP领域上，CNN无法解决的问题，就是固定长度的视野，FastText是Log-linear模型，对长文本的识别也比较局限，虽然准确率高时间短，但是识别长文本的召回率低。而癌症领域的文献普遍是长文本，是RNN擅长的领域。

相应的，针对癌症领域篇级文本对象的学科多标签分类，可选取基于TextRNN所训练的候选模型作为第二模型，进而得到本申请所需的包括上游第一模型与下游第二模型的多标签分类模型。

基于构建的多标签分类模型，参见图3所示的多标签分类方法流程图，本申请提供的多标签分类方法，可以包括以下处理过程：

步骤301、获取待处理的目标文本对象，目标文本对象为篇级的文本对象。

示例性的，目标文本对象可以是癌症领域中篇级的文献、专利文本、论文等等。

步骤302、获取目标文本对象的预设类型对象信息。

可选的，预设类型对象信息，具体可以包括目标文本对象的摘要数据和标题数据。本步骤相应可提取目标文本对象的摘要和标题两部分数据，并将摘要和标题两部分数据构成二元组，来作为后续对目标文本对象进行学科多标签分类的依据。

但不限于此，在其它实施方式中，还可以提取摘要数据中能用于表征摘要特征的数据，得到满足数据量条件的摘要特征数据，例如得到255字符以内的摘要特征数据，并将降维后得到的摘要特征数据与标题数据构建成二元组，来用于对目标文本对象进行学科多标签分类。

步骤303、将所述预设类型对象信息输入预先构建的多标签分类模型，得到多标签分类模型输出的目标文本对象的多标签分类结果，多标签分类结果中的不同标签分别表征目标文本对象所属的不同学科类目；

之后，可将构建的二元组输入多标签分类模型，实现对目标文本对象的学科多标签分类，该过程包括：

21）将目标数据输入第一模型进行文本内容理解，得到第一模型输出的语义向量；所述目标数据包括所述标题数据，所述目标数据还包括所述摘要数据或所述摘要特征数据，所述语义向量包括标题数据的第一语义向量，所述语义向量还包括摘要数据或摘要特征数据的第二语义向量；目标文本对象的文本语义表示包括上述的第一语义向量和第二语义向量。

第一语义向量包括目标文本对象的标题数据所包含的各词语的词向量，第二语义向量包括目标文本对象的摘要数据或摘要特征数据所包含的各词语的词向量。

22）将上述的第一语义向量和第二语义向量输入第二模型进行多标签分类处理，得到第二模型输出的目标文本对象的多标签分类结果。

其中，第二模型基于第一语义向量和第二语义向量，所进行的多标签分类处理过程，可进一步实现为：

31）将所述第一语义向量，按所对应标题数据中词语的时序特征拆分为多个第一语义分量，得到第一语义分量序列，每个第一语义分量包括所述第一语义向量中的至少一个词向量；将所述第二语义向量，按所对应摘要数据或摘要特征数据中词语的时序特征拆分为多个第二语义分量，得到第二语义分量序列，每个第二语义分量包括所述第二语义向量中的至少一个词向量；

32）将所述第一语义分量序列中的各个第一语义分量按时序依次输入所述第二模型，以由所述第二模型在对应时间步对所输入的第一语义分量进行特征化处理，得到对应时间步输入的第一语义分量的特征表示；

33）将所述第二语义分量序列中的各个第二语义分量按时序依次输入所述第二模型，以由所述第二模型在对应时间步对所输入的第二语义分量进行特征化处理，得到对应时间步输入的第二语义分量的特征表示；

34）根据最后一个第一语义分量对应的特征表示，和最后一个第二语义分量对应的特征表示，预测所述目标文本对象所属的多个学科类目；

其中，在每一时间步中，第二模型基于当前时间步的上一时间步输出的特征表示，对当前时间步输入的语义分量进行特征化处理；对于第一个时间步，其上一时间步输出的特征表示为空。上述处理过程本质上实现了对各个语义分量的迭代式处理，以此获取较长距离的依赖关系，有效捕捉上下文信息，从而更好的解决长文本分类问题。对于本方案由于输入的语义向量有两类，分别是题目和摘要/摘要特征数据的语义向量，所以对这两类数据，都分别按上面的思路做迭代式处理。

示例性的，在将目标文件对象进行低频词、停用词去除，特殊符号去除，对摘要进行降维等预处理，得到题目和摘要特征数据后，可将题目和摘要特征数据，分别输入基于BERT构建的第一模型进行预处理，通过其embedding层得到题目对应的包含其词向量的第一语义分量，和摘要特征数据对应的包含其词向量的第二语义分量，两个语义分量作为下游第二模型的输入。

可选的，下游第二模型中，标题的下游模式，可以是一个LSTM（可以但不限于是64维）模型+1层全连接层（可以但不限于是64维）；摘要特征数据（或者也可以是摘要）的下游模式，可以是一个LSTM（可以但不限于是128维）模型+2层全连接层（可以但不限于是128维+64维），两者向量相加作为输出结果的向量，并通过1层全连接层做sigmoid（S型函数）处理，结果作为多标签进行输出。

也就是说，针对标题和摘要/摘要特征数据这两种输入信息，本申请对已有TextRNN的结构进行了相应设计与调整，其中，分别为标题和摘要/摘要特征数据设计上述的下游模式，并将现有TextRNN结构中的softmax层去除，同时增设全连接层做sigmoid（S型函数）处理，来得到基于标题和摘要/摘要特征数据的学科多标签分类结果。

根据以上方案可知，本申请提供的多标签分类方法，预先构建了包括第一模型和第二模型的多标签分类模型，第一模型用于对篇级文本对象的预设类型对象信息进行文本内容理解，得到对应的文本语义表示，第二模型用于基于第一模型输出的文本语义表示，预测篇级文本对象所属的多个学科类目，以得到篇级文本对象的多标签分类结果。在此基础上，针对待处理的篇级文本对象，可通过获取其预设类型对象信息，并将预设类型对象信息输入多标签分类模型，实现对该文本对象篇级粒度的学科多标签分类。

对应于上述的多标签分类方法，本申请实施例还公开一种多标签分类装置，参见图4示出的多标签分类装置的结构示意图，该装置包括：

第一获取单元10，用于获取待处理的目标文本对象，所述目标文本对象为篇级的文本对象；

第二获取单元20，用于获取所述目标文本对象的预设类型对象信息；

分类处理单元30，用于将所述预设类型对象信息输入预先构建的多标签分类模型，得到所述多标签分类模型输出的所述目标文本对象的多标签分类结果，所述多标签分类结果中的不同标签分别表征所述目标文本对象所属的不同学科类目；

在一实施方式中，第二获取单元20，具体用于：

提取所述目标文本对象的摘要数据和标题数据。

在一实施方式中，第二获取单元20，还用于：提取所述摘要数据中能用于表征摘要特征的数据，得到满足数据量条件的摘要特征数据。

在一实施方式中，分类处理单元30，具体用于

在一实施方式中，所述第一语义向量包括所述标题数据所包含的各词语的词向量，所述第二语义向量包括所述摘要数据或所述摘要特征数据所包含的各词语的词向量；

第二模型基于所述第一语义向量和所述第二语义向量的多标签分类处理过程，包括：

在一实施方式中，上述装置还包括模型构建单元，用于构建多标签分类模型，构建过程包括：

在一实施方式中，构建所述第一模型和所述第二模型所基于的样本数据包括：根据预设的均衡策略，从多个学科类目下的篇级文本对象中进行采样，得到多个学科类目下的文本对象样本，并对所述文本对象样本进行标题和摘要提取所得的标题数据和摘要数据；或，包括所述标题数据，和所述摘要数据对应的摘要特征数据。

在一实施方式中，目标文本对象为癌症领域的篇级文本对象，多标签分类模型为基于癌症领域篇级文本对象的样本数据所训练的模型；

预训练模型为BERT模型，第二模型为基于TextRNN所训练的分类器模型。

对于本申请实施例公开的多标签分类装置而言，由于其与上文方法实施例公开的多标签分类方法相对应，所以描述的比较简单，相关相似之处请参见上文各方法实施例的说明即可，此处不再详述。

另外，本申请还提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序包含用于执行如上文任一方法实施例公开的多标签分类方法的程序代码。

在本申请的上下文中，计算机可读介质（机器可读介质）可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是电子设备中所包含的；也可以是单独存在，而未装配入电子设备中。

综上所述，本申请实施例提供的多标签分类方法、装置及计算机可读介质，与已知技术相比，至少具备以下技术优势：

a、实现了癌症领域篇级的文献分类。传统分类仅对期刊进行学科分类，该期刊所包含的所有文献都划分至该期刊所属类别下，或先将学科归入大类再根据其特征细分入子类。由于癌症领域自身分类特点，这些分类方法在癌症领域的效率低，本申请提出的篇级的多标签分类方法，直接对篇级文献进行类别划分，有效提升了分类的精细粒度，且可以将每一篇文献进行学科多标签分类，有力支撑学术分析统计评价，可以按照学科统计科研发展成果；

b、实现了多标签分类。现有分类器大都是对文献赋予一个类别标识，但目前学科融合、学科交叉的大趋势，一篇文献大都不单单属于一个类别。本申请基于多标签分类的模型训练，最终获得多标签分类器，可以赋予文献其所属所有类别的标签，且准确度较高；

c、癌症作为目前人类生命健康的最大威胁之一，现存有巨大体量的文献数据，目前尚无一个专门针对癌症领域的文献分类器，本申请根据癌症领域文献的特征设计，具有很强的适用性，能够有效解决癌症领域文献分类问题；

d、采用BERT+X的形式组合构成分类器，简单易用，效率高，实用性强。本申请设计的分类模型在效率和准确度上做到了用简单的方法解决复杂的问题。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种多标签分类方法，其特征在于，包括：

获取所述目标文本对象的预设类型对象信息；

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标文本对象的预设类型对象信息，包括：

提取所述目标文本对象的摘要数据和标题数据。

3.根据权利要求2所述的方法，其特征在于，在提取所述目标文本对象的摘要数据之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述预设类型对象信息输入预先构建的多标签分类模型，得到所述多标签分类模型输出的所述目标文本对象的多标签分类结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一语义向量包括所述标题数据所包含的各词语的词向量，所述第二语义向量包括所述摘要数据或所述摘要特征数据所包含的各词语的词向量；所述第二模型基于所述第一语义向量和所述第二语义向量的多标签分类处理过程，包括：

6.根据权利要求1所述的方法，其特征在于，所述多标签分类模型的构建过程，包括：

7.根据权利要求6所述的方法，其特征在于，构建所述第一模型和所述第二模型所基于的样本数据包括：根据预设的均衡策略，从多个学科类目下的篇级文本对象中进行采样，得到多个学科类目下的文本对象样本，并对所述文本对象样本进行标题和摘要提取所得的标题数据和摘要数据；或，包括所述标题数据，和所述摘要数据对应的摘要特征数据。

8.根据权利要求7所述的方法，其特征在于，所述目标文本对象为癌症领域的篇级文本对象，所述多标签分类模型为基于癌症领域篇级文本对象的样本数据所训练的模型；

9.一种多标签分类装置，其特征在于，包括：

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，能用于实现如权利要求1-8任一项所述的多标签分类方法。