CN113961710B - 基于多模态分层融合网络的细粒度化论文分类方法及装置 - Google Patents

基于多模态分层融合网络的细粒度化论文分类方法及装置 Download PDF

Info

Publication number
CN113961710B
CN113961710B CN202111567384.1A CN202111567384A CN113961710B CN 113961710 B CN113961710 B CN 113961710B CN 202111567384 A CN202111567384 A CN 202111567384A CN 113961710 B CN113961710 B CN 113961710B
Authority
CN
China
Prior art keywords
fusion
paper
abstract
vector
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111567384.1A
Other languages
English (en)
Other versions
CN113961710A (zh
Inventor
胡宗海
岳潭
覃杰栋
史绪钊
范子娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202111567384.1A priority Critical patent/CN113961710B/zh
Publication of CN113961710A publication Critical patent/CN113961710A/zh
Application granted granted Critical
Publication of CN113961710B publication Critical patent/CN113961710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于多模态分层融合网络的细粒度化论文分类方法及装置,该分类方法包括:获取待分类论文的原始数据,并从获取到的原始数据中提取所述待分类论文的标题、摘要及图像,对提取到的所述标题、摘要以及图像进行数据预处理;其中,数据预处理包括数据增广;将提取到的标题输入至第一预训练模型以进行特征提取,并生成标题文本向量,将标题文本向量嵌入至图像,生成第一融合图像;将生成的第一融合图像输入至第二预训练模型进行特征提取,生成第一融合向量;将提取到的摘要输入至第三预训练模型以进行特征提取,生成摘要文本向量,将摘要文本向量与第一融合向量进行向量融合,得到融合特征向量;基于融合特征向量对待分类论文进行分类。

Description

基于多模态分层融合网络的细粒度化论文分类方法及装置
技术领域
本发明涉及论文分类技术领域,尤其涉及一种基于多模态分层融合网络的细粒度化论文分类方法及装置。
背景技术
模态是指人接受信息的特定方式。由于多媒体数据往往是多种信息的传递媒介。例如一段视频中往往会同时使得文字信息、视觉信息和听觉信息得到传播,多模态学习已逐渐发展为多媒体内容分析与理解的主要手段,国内外研究者也逐步在多模态学习领域取得了显著的研究成果。
多模态融合旨在将多个模态信息整合以得到一致、公共的模型输出,是多模态领域的一个基本问题。多模态信息的融合能获得更全面的特征,提高模型鲁棒性,并且保证模型在某些模态缺失时仍能有效工作。图1为现有技术的多模态融合网络结构图,该多模态融合技术为由Emilie等人提出的多模态晚期融合网络,此团队根据多模态信息,构建了晚期融合投票法分类模型,即将各模态信息分别输入进网络,分别进行预处理与提取特征,并最后进行融合投票。该多模态融合网络虽然进行了多模态信息融合的尝试,但该融合方式在前期先将各模态数据分别进行预处理与特征提取,仅在最后进行简单融合并采用投票法,该方法并没有将各种模态的信息互补性进行最大化利用,导致最终的分类性能提升有限,因而无法保证小样本论文的分类准确性及效率。因此,如何提高小样本细粒度化论文的分类准确率及效率是亟待解决的技术问题。
发明内容
有鉴于此,本发明提供了一种基于多模态分层融合网络的细粒度化论文分类方法及装置,以解决现有技术中存在的一个或多个问题。
根据本发明的一个方面,本发明公开了一种基于多模态分层融合网络的小样本细粒度化论文分类方法,所述方法包括:
获取待分类论文的原始数据,并从获取到的所述原始数据中提取所述待分类论文的标题、摘要及图像,对提取到的所述标题、摘要以及图像进行数据预处理;其中,所述数据预处理包括数据增广;
将提取到的所述标题输入至第一预训练模型以进行特征提取,并生成标题文本向量,将所述标题文本向量嵌入至所述图像,以生成第一融合图像;
将生成的第一融合图像输入至第二预训练模型进行特征提取,以生成第一融合向量;
将提取到的所述摘要输入至第三预训练模型以进行特征提取,以生成摘要文本向量,将所述摘要文本向量与所述第一融合向量进行向量融合,得到所述待分类论文的融合特征向量;
基于所述融合特征向量对所述待分类论文进行分类。
在本发明的一些实施例中,所述第一预训练模型为TextCNN模型,所述第二预训练模型为MobileNetV2模型,所述第三预训练模型为Albert模型。
在本发明的一些实施例中,所述方法还包括:
生成训练样本集,所述训练样本集中包括多个样本,各样本包括论文标题、论文摘要以及论文图像;
基于所述训练样本集中的多个样本分别所述第一预训练模型、第二预训练模型以及第三预训练模型进行训练及微调。
在本发明的一些实施例中,对提取到的数据进行数据增广,包括:
对提取到的所述摘要进行句子级的随机采样作为新论文摘要;
将随机采样得到的新论文摘要与提取到的所述图像进行对齐。
在本发明的一些实施例中,生成训练样本集,包括:
基于提取到的所述标题、摘要以及图像得到第一样本;
基于新论文摘要、与所述新论文摘要对齐的图像以及提取到的所述标题得到第二样本。
在本发明的一些实施例中,将所述摘要文本向量与所述第一融合向量进行向量融合,包括:
将所述第一融合向量进行矩阵转置运算,得到第一转置矩阵;
将所述第一转置矩阵与所述摘要文本向量相乘,得到所述待分类论文的融合特征向量矩阵;
对所述融合特征向量矩阵进行卷积处理及池化处理。
在本发明的一些实施例中,对所述融合特征向量矩阵进行卷积处理及池化处理,包括:
将所述融合特征向量矩阵输入至3*3二维卷积网络中以进行二维卷积处理,并得到卷积结果;
将所述卷积结果输入至池化层进行池化处理。
在本发明的一些实施例中,所述数据预处理还包括:
基于JIEBA框架进行中文分词;
基于NLTK框架进行英文分词。
根据本发明另一方面,还公开了一种基于多模态分层融合网络的小样本细粒度化论文分类系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。
根据本发明又一方面,还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一实施例所述方法的步骤。
本发明所公开的基于多模态分层融合网络的小样本细粒度化论文分类方法及装置,先将论文的标题与论文图像进行第一层融合,然后再将第一融合图像与论文摘要进行第二层融合以得到融合特征向量,该分类方法采用的多模态融合方式将各种模态的信息互补性进行最大化利用,在早期研究各模态信息表征与提取多模态信息通用特征,从而提高了小样本论文的分类准确性及效率。
另外,该论文分类方法及系统在数据处理方面,通过引入多种模态数据得到信息与特征的补充,并对原有文本进行随机采样和图片进行匹配对齐,从而进行数据扩充与增广,从而增加了训练时模型的泛化性能。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中:
图1为现有技术多模态晚期融合网络的结构示意图。
图2为本发明一实施例的基于多模态分层融合网络的小样本细粒度化论文分类方法的流程示意图。
图3为本发明一实施例的多模态分层融合网络模型结构示意图。
图4为本发明一实施例的基于多模态分层融合网络的小样本细粒度化论文分类系统的界面示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
研究生及其他科研人员在科研时,往往面临着论文管理难的问题。如之前读过的文章,过一段时间后还想再看时,往往因为没有做好记录和分类,在庞大的文件夹里迷失方向;此外,由于科技论文类别数量庞大,且科研人员对自己所研究领域方向细分度要求较高,传统的粗粒度化论文分类只能将论文大致分为较大的几个领域,而无法做到细粒度化的精细分类,而在实际使用过程中,科研人员往往在某一细分领域阅读论文数量有限,却需要单独并精准分类,这就导致了样本数量不足,存在着无法使深度学习模型精准分类的问题。本发明正是基于这些问题,在构建的论文自动进行细粒度化分类模型基础上进一步对算法进行优化,提出基于预训练模型的多模态分层融合网络,提升小样本论文分类准确率,以满足实际使用需求。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
图2为本发明一实施例的基于多模态分层融合网络的小样本细粒度化论文分类方法的流程示意图,如图2所示,该论文分类方法包括步骤S10~S50。
步骤S10:获取待分类论文的原始数据,并从获取到的所述原始数据中提取所述待分类论文的标题、摘要及图像,对提取到的所述标题、摘要以及图像进行数据预处理;其中,所述数据预处理包括数据增广。
待分类论文大多数是以PDF格式存在,因而在该步骤中可以采用pdfplumber框架提取PDF论文中摘要以及标题部分的文本内容,使用PIL框架提取PDF论文中的图像;进一步的将提取到的待分类论文的标题、摘要以及图像作为三种模态信息输入至本发明提出的基于预训练模型的多模态分层融合网络中进行学习和拟合。其中,所提取的待分类论文的标题、摘要以及图像在下文中也可被称作为待分类论文的论文标题文本、论文摘要文本以及论文图像信息。
其中,在提取待分类论文的标题、摘要及图像之前,一般还需要对获取到的原始数据进行数据预处理;数据预处理包括数据增广。数据增广方式示例性的如:对提取到的所述摘要进行句子级的随机采样作为新论文摘要;将随机采样得到的新论文摘要与提取到的图像进行对齐。除此之外,数据预处理还可包括基于中文分词以及英文分词等。具体的,中文分词框架可选用JIEBA框架,JIEBA框架使用PYTHON语言调用;JIEBA面向中文分词有着准确率较高及方便操作等优点,功能方面也十分强大,可以对不同的切词精度进行调试。英文切词方面可以采用NLTK框架,NLTK框架对于英文的切词具有较高的准确率。进一步的去除标点符号以及文本中的常用单词,如语气助词等。由于在不同的细分领域停用词的类别也有所不同,因而为了更准确的对论文进行分类处理,则需要人工比对选用不同领域的特定停用词。
目前在科技论文细粒度化分类方面的工作很少有研究者提出,这是因为:由于论文专业性较强,在进行论文细粒度化分类时,所需样本标注工作成本极高。此外,用户在实际使用论文分类系统时,由于论文细粒度化分类类别数量庞大,上传的一些论文数据库中并没有相关类别,需要用户自行上传类别标签;用户自行标记后,该类别论文数量过少,而现在的大多数深度学习算法需要大量数据训练,样本较少导致用户之后上传的论文仍无法正确被分类。并且通过多种模态信息进行样本扩充的方法一定程度上可以提升分类性能,但各模态数据之间存在较大差异,在联合表示及融合时,很难进行有效信息特征补充。由此,为了实现小样本细粒度化论文的分类,本发明针对样本数量较少的问题,进行了数据增广。而针对难进行有效信息特征补充的问题,该方法通过如下步骤S20~S40,以实现多模态数据的分层融合。
步骤S20:将提取到的所述标题输入至第一预训练模型以进行特征提取,并生成标题文本向量,将所述标题文本向量嵌入至所述图像,以生成第一融合图像。
当将提取到的论文标题文本、论文摘要文本以及论文图像信息输入至基于预训练模型的多模态分层融合网络中后,该模型网络则进一步的先将论文标题的文本向量化。具体的,第一预训练模型可为TextCNN模型,则首先可采用第一预训练模型进行文本编码,TextCNN模型的最后一层为分类层,分类层通过Softmax函数实现,而本发明去掉原有TextCNN模型的最后输出(Softmax)层,只进行特征抽取;通过TextCNN模型中的卷积层和池化层等将原本的文本信息进行向量化表示,再进行非线性变换,并将编码化且特征抽取后的论文标题对应的抽象文本信息输入至论文图像上,并以像素点的形式一一嵌入,则论文标题对应的文本特征向量即转化为像素值;此时完成文本向量嵌入的图像上即包含了一部分语义信息。此时第一融合图像则为融合了论文标题的图像。
步骤S30:将生成的第一融合图像输入至第二预训练模型进行特征提取,以生成第一融合向量。
在该步骤中,第二预训练模型可为MobileNetV2模型,即将步骤S20所生成的第一融合图像输入至该MobileNetV2模型进行特征抽取。为了进一步提高论文分类效率及准确率,则可进一步的对MobileNetV2模型进行微调。其中,如:MobileNetV2模型共154层,为了防止过拟合,我们将前100层预训练参数冻结,只对后54层参数进行训练。在该步骤中,第一融合图像被转换成向量值格式进行特征抽取,即所生成的第一融合向量为被进行特征抽取后的图像向量,该被特征抽取后的图像向量被进一步的与论文摘要文本向量进行第二层融合。
步骤S40:将提取到的所述摘要输入至第三预训练模型以进行特征提取,以生成摘要文本向量,将所述摘要文本向量与所述第一融合向量进行向量融合,得到所述待分类论文的融合特征向量。
在该步骤中,第三预训练模型可为Albert预训练模型;即在该步骤中,将提取到的摘要输入至Albert模型,Albert预训练模型进一步的对摘要进行编码与特征抽取,以得到摘要文本向量。具体的,在该步骤中可先对论文摘要文本信息进行向量化的预处理转换,之后在Albert模型预训练的基础上进行微调。
基于Albert模型生成的摘要文本向量进一步的与步骤S30所生成的第一融合向量进行第二层融合。在第二层融合过程中,摘要文本向量与所述第一融合向量进行向量融合具体的还包括如下步骤:将所述第一融合向量进行矩阵转置运算,得到第一转置矩阵;将所述第一转置矩阵与所述摘要文本向量相乘,得到所述待分类论文的融合特征向量矩阵;对所述融合特征向量矩阵进行卷积处理及池化处理。其中,在对融合特征向量矩阵进行卷积处理时,融合特征向量矩阵具体的被输入至3*3二维卷积网络进行二维卷积运算,以得到卷积结果;融合特征向量经过卷积运算之后的卷积结果被进一步的输入至池化层进行最大池化层处理,从而最大程度的抽取通用性特征,去掉导致过拟合的特异性特征,以提升模型分类性能。
步骤S50:基于所述融合特征向量对所述待分类论文进行分类。
在该步骤中,获取到该待分类论文所对应的融合特征向量之后,进一步的可通过机器学习分类器对特征进行分类,进而获得多模态分层融合后的分类结果。
其中,预训练模型的应用通常分为两步:在计算性能满足的情况下用某个较大的数据集训练出一个较好的模型;根据不同的任务,改造预训练模型,用新任务的数据集在预训练模型上进行微调。预训练模型的好处是训练代价较小,配合下游任务可以实现更快的收敛速度,并且能够有效地提高模型性能,尤其是对一些训练数据比较稀缺的任务。预训练方法可以认为是让模型基于一个更好的初始状态进行学习,从而能够达到更好的性能。而现有技术中常用的BERT(Bidirectional Encoder Representation from Transformers)预训练语言表征模型参数量较大。而迁移到本项目的细粒度化小样本论文分类任务上时,由于样本数量较少,在进行微调与训练的过程中采用BERT模型很容易发生过拟合,从而导致训练效果较差,收敛速度慢,最终导致分类性能无法满足实际使用要求。因而本发明优选的,第一预训练模型、第二预训练模型以及第三预训练模型分别采用TextCNN模型、MobileNetV2模型以及Albert模型,即本发明的多模态分层融合网络模型采用TextCNN模型、MobileNetV2模型以及Albert模型分别对论文标题、摘要以及图形进行处理。
其中,微调旨在利用其标注样本对预训练网络的参数进行调整,以BERT为例来判断两个句子是否语义相同;具体的,两个句子作为输入,经过BERT得到每个句子的对应编码表示,进一步可以简单地用预训练模型的第一个隐节点预测分类标记判断两个句子是同义句子的概率,同时需要额外加一个线性层和softmax计算得到分类标签的分布。预测损失可以反传给BERT再对网络进行微调。
在采用上述实施例的小样本细粒度化论文分类方法对论文进行分类时,为了对多模态分层融合网络模型进行训练,则该方法还包括以下步骤:生成训练样本集,所述训练样本集中包括多个样本,各样本包括论文标题、论文摘要以及论文图像;基于所述训练样本集中的多个样本分别对第一预训练模型、第二预训练模型以及第三预训练模型进行训练及微调。
在该步骤中,基于训练样本集对多模态分层融合网络模型进行训练,而由于数据传输和保存的需要,科技论文大多数以PDF格式存在,且PDF文档中的数据主要包括文本内容和图像两部分,因而在该实施例中具体的采用pdfplumber框架提取PDF中论文摘要部分的文本内容,使用PIL框架提取论文中的图像。针对样本数量较少以及样本标注工作成本较高的问题,可以对样本进行数据增广以得到满足模型训练要求的样本数量,数据扩充与增广主要依靠引入多模态数据进行信息与特征的补充。
生成训练样本集步骤具体的包括:获取论文原始数据,并从获取到的所述论文原始数据中提取第一样本,所述第一样本包括样本标题、样本摘要及样本图像,即第一样本为由论文标题、论文摘要以及论文图像组成的多模态数据样本;对所述第一样本进行数据增广得到第二样本。而由于在实际论文分类时,由于论文细粒度化分类类别数量庞大,上传的一些论文数据库中并没有相关类别;因而需要用户自行上传类别标签,用户自行标记后,该类别论文数量过少,导致对用户之后上传的论文仍无法正确分类;因而对从论文中提取到的第一样本进行数据增广以得到一个或多个第二样本,此时训练样本集中即具有多个样本,并进一步的采用多个样本可对多模态分层融合网络中的TextCNN模型、MobileNetV2模型以及Albert模型分别进行预训练。
进一步的,基于从PDF中提取到的论文摘要、论文标题以及论文图像得到第一样本,进一步的对第一样本进行数据增广即可得到第二样本,对提取到的数据进行数据增广具体的包括:对提取到的第一样本中的样本摘要进行句子级的随机采样作为新论文摘要;将随机采样得到的新论文摘要与从PDF论文中提取到的论文图形进行对齐,则基于新论文摘要、与所述新论文摘要对齐的图像以及提取到的所述标题即可得到第二样本。之所以采用上述方式进行数据增广,是由于每一篇论文中只有一个摘要却有多张图片,因而本发明对从论文中提取出的样本摘要进行句子级的随机采样,从而组合成不同的新摘要,其二组合成的摘要的数量与论文中图像的数量相等,则将多个摘要分别与多个图像进行匹配与对齐,即得到了多个样本,从而增加了训练时模型的泛化性能。应当理解的是,该实施例中所采用的样本数据增广方法仅是一种优选示例,示例性的,在对第一样本进行数据增广时,还可采用对第一样本内的样本图像进行裁剪、缩放、翻转或平移变换的方式,或对样本图像的图像亮度、饱和度、对比度等进行改变的方式得到一个或多个第二样本。由此可知,该实施例基于少量的论文即可获得大量的训练样本,从而在小样本细粒度化分类过程中通过增加样本训练样本数据进一步的更提高了论文分类准确率。
为了更好的体现本发明所公开的基于多模态分层融合网络的小样本细粒度化论文分类方法的优点,以下将参考图3对该小样本细粒度化论文分类方法进一步说明及阐述。
在采用该方法进行论文分类时,首先对论文原始数据进行预处理,在在数据预处理步骤中进行数据扩充与增广。具体的,使用pdfplumber框架提取PDF论文摘要部分的文本内容,使用PIL框架提取PDF论文中的图像。将提取出来的文本进行句子级别的随机抽样,然后与图像进行匹配与对齐。将处理好的图像与文本数据分为三个模态数据,论文标题,论文摘要与图像。三个模态数据进而作为输入信息即可进入提出的基于预训练模型的多模态分层融合网络中进行学习和拟合。
预训练模型的多模态分层融合网络基于三种模态数据进行论文分类,首先将从待分类论文中提取到的论文标题进行文本内容向量化,具体的使用TextCNN模型进行文本编码以及进行特征抽取,进一步的将编码确特征抽取后的抽象文本信息嵌入到图像上,以像素点的形式一一嵌入,文本特征向量值即转化为像素值;进而将嵌入了文本信息的图像送入预训练后的MobileNet网络模型进行特征抽取,特征抽取后的图像向量后续与论文摘要文本向量进行下一层的融合。进而使用Albert预训练模型进行编码与特征抽取,经过Albert处理后的论文摘要向量与图像向量进行第二层融合。在第二层融合过程中,将图像向量矩阵转置,然后与摘要文本向量矩阵相乘,得到多模态融合特征向量矩阵,再经过3*3二维卷积与最大池化层的处理,将最大程度抽取通用性特征,去掉导致过拟合的特异性特征;卷积处理以及池化处理后的多模态融合特征向量进一步的通过分类器进行分类则即完成了小样本论文的分类。
相应的,本发明还提供了一种基于多模态分层融合网络的小样本细粒度化论文分类系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任意实施例的基于多模态融合的小样本论文分类方法的步骤。图4为本发明一实施例的基于多模态融合的小样本论文分类系统的界面示意图,如图4所示,采用该分类系统时,用户直接上传需分类的待分类论文,则该系统则进一步的采用多模态分层融合网络模型即可对该待分类论文进行分类,并可将分类结果显示在该系统界面上。
另外,该发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一基于多模态融合的小样本论文分类方法的步骤。
通过上述实施例可以发现,本发明基于多模态融合的小样本论文分类方法搭建了完整的论文分类系统,该系统可以为学术论文的海量文档进行自动分类,极大节省研究生及其他科研工作者的时间,对学术分享及传播的效率有一定的提升效果。另外,该论文分类方法及系统在数据处理方面,通过引入多种模态数据得到信息与特征的补充,并对原有文本进行随机采样和图片的匹配对齐,从而进行数据扩充与增广,从而在论文样本数量较少的前提下,也可确保较高的分类准确率。该论文分类方法及系统开发了新的基于预训练模型的多模态分层融合网络,用来处理论文文档,在准确率和效率上均有较高提升。并且,该论文分类方法及系统中的多模态分层融合网络模型采用TextCNN模型、MobileNetV2模型以及Albert模型,训练效果较好,收敛速度快,从而使最终分类性能可满足实际使用需求。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于多模态分层融合网络的小样本细粒度化论文分类方法,其特征在于,所述方法包括:
获取待分类论文的原始数据,并从获取到的所述原始数据中提取所述待分类论文的标题、摘要及图像,对提取到的所述标题、摘要以及图像进行数据预处理;其中,所述数据预处理包括数据增广;
将提取到的所述标题输入至第一预训练模型以进行特征提取,并生成标题文本向量,对所述标题文本向量进行非线性变换,并将对标题进行编码化及特征抽取后得到的所述标题文本向量以像素点的形式一一嵌入至所述图像进行第一层融合,以生成第一融合图像;
将生成的第一融合图像输入至第二预训练模型进行特征提取,以生成第一融合向量;
将提取到的所述摘要输入至第三预训练模型以进行特征提取,以生成摘要文本向量,将所述摘要文本向量与所述第一融合向量进行第二层融合,得到所述待分类论文的融合特征向量;
基于所述融合特征向量对所述待分类论文进行分类;
其中,数据增广包括:对提取到的所述摘要进行句子级的随机采样作为新论文摘要;将随机采样得到的新论文摘要与提取到的所述图像进行对齐;
将所述摘要文本向量与所述第一融合向量进行第二层融合,包括:将所述第一融合向量进行矩阵转置运算,得到第一转置矩阵;将所述第一转置矩阵与所述摘要文本向量相乘,得到所述待分类论文的融合特征向量矩阵;对所述融合特征向量矩阵进行卷积处理及池化处理。
2.根据权利要求1所述的基于多模态分层融合网络的小样本细粒度化论文分类方法,其特征在于,所述第一预训练模型为TextCNN模型,所述第二预训练模型为MobileNetV2模型,所述第三预训练模型为Albert模型。
3.根据权利要求1所述的基于多模态分层融合网络的小样本细粒度化论文分类方法,其特征在于,所述方法还包括:
生成训练样本集,所述训练样本集中包括多个样本,各样本包括论文标题、论文摘要以及论文图像;
基于所述训练样本集中的多个样本分别所述第一预训练模型、第二预训练模型以及第三预训练模型进行训练及微调。
4.根据权利要求3所述的基于多模态分层融合网络的小样本细粒度化论文分类方法,其特征在于,生成训练样本集,包括:
基于提取到的所述标题、摘要以及图像得到第一样本;
基于新论文摘要、与所述新论文摘要对齐的图像以及提取到的所述标题得到第二样本。
5.根据权利要求1所述的基于多模态分层融合网络的小样本细粒度化论文分类方法,其特征在于,对所述融合特征向量矩阵进行卷积处理及池化处理,包括:
将所述融合特征向量矩阵输入至3*3二维卷积网络中以进行二维卷积处理,并得到卷积结果;
将所述卷积结果输入至池化层进行池化处理。
6.根据权利要求1至5中任意一项所述的基于多模态分层融合网络的小样本细粒度化论文分类方法,其特征在于,所述数据预处理还包括:
基于JIEBA框架进行中文分词;
基于NLTK框架进行英文分词。
7.一种基于多模态分层融合网络的小样本细粒度化论文分类系统,该系统包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如权利要求1至6中任意一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任意一项所述方法的步骤。
CN202111567384.1A 2021-12-21 2021-12-21 基于多模态分层融合网络的细粒度化论文分类方法及装置 Active CN113961710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111567384.1A CN113961710B (zh) 2021-12-21 2021-12-21 基于多模态分层融合网络的细粒度化论文分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111567384.1A CN113961710B (zh) 2021-12-21 2021-12-21 基于多模态分层融合网络的细粒度化论文分类方法及装置

Publications (2)

Publication Number Publication Date
CN113961710A CN113961710A (zh) 2022-01-21
CN113961710B true CN113961710B (zh) 2022-03-08

Family

ID=79473370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111567384.1A Active CN113961710B (zh) 2021-12-21 2021-12-21 基于多模态分层融合网络的细粒度化论文分类方法及装置

Country Status (1)

Country Link
CN (1) CN113961710B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384382B (zh) * 2023-01-04 2024-03-22 深圳擎盾信息科技有限公司 一种基于多轮交互的自动化长篇合同要素识别方法及装置
CN117094367B (zh) * 2023-10-19 2024-03-29 腾讯科技(深圳)有限公司 内容生成方法、模型训练方法、装置、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145974A (zh) * 2018-08-13 2019-01-04 广东工业大学 一种基于图文匹配的多层次图像特征融合方法
CN109934260A (zh) * 2019-01-31 2019-06-25 中国科学院信息工程研究所 基于随机森林的图文数据融合情感分类方法和装置
CN111563551A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备
CN112784801A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于文本和图片的双模态胃部疾病分类方法及装置
CN113158875A (zh) * 2021-04-16 2021-07-23 重庆邮电大学 基于多模态交互融合网络的图文情感分析方法及系统
CN113177961A (zh) * 2021-06-07 2021-07-27 傲雄在线(重庆)科技有限公司 一种用于印章图文比对的多模态深度模型训练方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200349414A1 (en) * 2019-04-30 2020-11-05 The Regents Of The University Of California Systems and methods for neuronal networks for associative gestalt learning
CN111428025B (zh) * 2020-06-10 2020-12-11 科大讯飞(苏州)科技有限公司 文本摘要方法、装置、电子设备和存储介质
CN111985369B (zh) * 2020-08-07 2021-09-17 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN112231497B (zh) * 2020-10-19 2024-04-09 腾讯科技(深圳)有限公司 信息分类方法、装置、存储介质及电子设备
CN112329824A (zh) * 2020-10-23 2021-02-05 北京中科智加科技有限公司 多模型融合训练方法、文本分类方法以及装置
KR102259878B1 (ko) * 2020-12-01 2021-06-03 주식회사 딥노이드 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법
CN112685565B (zh) * 2020-12-29 2023-07-21 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN112989790B (zh) * 2021-03-17 2023-02-28 中国科学院深圳先进技术研究院 基于深度学习的文献表征方法及装置、设备、存储介质
CN113762321A (zh) * 2021-04-13 2021-12-07 北京沃东天骏信息技术有限公司 多模态分类模型生成方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145974A (zh) * 2018-08-13 2019-01-04 广东工业大学 一种基于图文匹配的多层次图像特征融合方法
CN109934260A (zh) * 2019-01-31 2019-06-25 中国科学院信息工程研究所 基于随机森林的图文数据融合情感分类方法和装置
CN111563551A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备
CN112784801A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于文本和图片的双模态胃部疾病分类方法及装置
CN113158875A (zh) * 2021-04-16 2021-07-23 重庆邮电大学 基于多模态交互融合网络的图文情感分析方法及系统
CN113177961A (zh) * 2021-06-07 2021-07-27 傲雄在线(重庆)科技有限公司 一种用于印章图文比对的多模态深度模型训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yitao Cai 等.Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model.《Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics》.2019,2506-2515. *

Also Published As

Publication number Publication date
CN113961710A (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN112232149B (zh) 一种文档多模信息和关系提取方法及系统
CN107256221B (zh) 基于多特征融合的视频描述方法
CN107239801B (zh) 视频属性表示学习方法及视频文字描述自动生成方法
CN111027562B (zh) 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法
CN113961710B (zh) 基于多模态分层融合网络的细粒度化论文分类方法及装置
CN107480144B (zh) 具备跨语言学习能力的图像自然语言描述生成方法和装置
CN113516152B (zh) 一种基于复合图像语义的图像描述方法
CN114140673B (zh) 一种违规图像识别方法、系统及设备
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN111242829A (zh) 一种水印提取方法、装置、设备及存储介质
CN112686219B (zh) 手写文本识别方法及计算机存储介质
CN114398935A (zh) 一种基于深度学习的医学影像报告多标签分类方法
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN117251795A (zh) 基于自适应融合的多模态虚假新闻检测方法
CN112966676A (zh) 一种基于零样本学习的文档关键信息抽取方法
CN110750669B (zh) 一种图像字幕生成的方法及系统
CN117173730A (zh) 一种基于多模态信息的文档图像智能分析及处理方法
CN116796287A (zh) 图文理解模型的预训练方法、装置、设备及存储介质
CN114820885B (zh) 图像编辑方法及其模型训练方法、装置、设备和介质
Shah et al. Inferring context from pixels for multimodal image classification
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
CN116630726B (zh) 基于多模态的鸟类分类方法及系统
CN112884046A (zh) 基于不完全监督学习的图像分类方法、装置及相关设备
Das et al. Object Detection on Scene Images: A Novel Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant