CN111506728A - 基于hd-mscnn的层次结构文本自动分类框架 - Google Patents

基于hd-mscnn的层次结构文本自动分类框架 Download PDF

Info

Publication number
CN111506728A
CN111506728A CN202010302034.1A CN202010302034A CN111506728A CN 111506728 A CN111506728 A CN 111506728A CN 202010302034 A CN202010302034 A CN 202010302034A CN 111506728 A CN111506728 A CN 111506728A
Authority
CN
China
Prior art keywords
layer
classification
mscnn
classifier
grained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010302034.1A
Other languages
English (en)
Other versions
CN111506728B (zh
Inventor
谢斌红
张英俊
赵红燕
潘理虎
马非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Science and Technology
Original Assignee
Taiyuan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Science and Technology filed Critical Taiyuan University of Science and Technology
Priority to CN202010302034.1A priority Critical patent/CN111506728B/zh
Publication of CN111506728A publication Critical patent/CN111506728A/zh
Application granted granted Critical
Publication of CN111506728B publication Critical patent/CN111506728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于HD‑MSCNN的层次结构文本自动分类框架,该分类框架主要包括四部分:(1)局部共享层;(2)粗粒度分类器C;(3)细粒度层分类器Fk;(4)概率平均层;在分类器构建阶段采用基于深度学习的多尺度卷积神经网络MSCNN算法,该算法通过残差网络加空洞卷积的网络结构覆盖完整的全局上下文信息,而不是局部上下文信息,增加了模型的容量和性能,同时利用扩展槽机制增强了模型的可扩展性,当加入新的类别时,可快速完成模型升级而不需要重新训练。基于HD‑MSCNN的多层次分类框架具有分类精度高、可扩展性好、鲁棒性强的特点,其在大规模文本分类领域具有更好的性能。

Description

基于HD-MSCNN的层次结构文本自动分类框架
技术领域
本发明涉及文本处理技术,具体涉及一种基于HD-MSCNN的层次结构文本自动分类框架。
背景技术
互联网的日益普产生了大量网络数据,第43次中国互联网络发展状况统计报告显示,2018年的网页总数为2816亿个,相比于2017年增长8.2%。面对如此海量的数据,需要按照一个层次类别目录将这些数据进行组织整理,以更好地访问、管理和利用这些网络资源,而传统的手工分类周期长、成本高、效率低,难以适应信息迅猛增长的实际,因此,实现分类自动化是高效组织大规模网络资源的有效手段。
早期的文本分类是基于知识工程的,需要定义规则来对文本进行分类,这种方法费时费力且需要丰富的领域知识来制定规则。随着机器学习的发展,大量优秀算法被应用于文本分类领域,且成为了当今文本分类领域的主流方法。神经网络早在20世纪80年代就已被提出,随着近年数据量的剧增及硬件运算能力的提升,深度神经网络成为了近几年的研究热点,且在视觉识别、语音识别、自然语言处理等方面取得了巨大的成果,然而卷积神经网络(CNN)只能根据卷积核的大小提取局部特征,容易忽略更远的上下文信息,循环神经网络(RNN)结构模型复杂、参数较多,不容易训练。
深度学习技术在近几年的时间飞速发展,且在计算机视觉、文本分类等诸多领域均已超过了传统机器学习算法。文本资源数据量的急速膨胀,使大规模多层次分类成为了近期的研究热点。深度学习与层次分类的结合,一方面可利用深度学习算法精度高的特性降低层次间的误差传播,另一方面也可将类别的结构信息融入分类框架。虽然在大规模层次分类领域已经取得了丰硕的成果,但是其每个节点的分类模型大部分仍然采用机器学习领域的算法,未充分利用深度学习的优势;层次分类中多利用全局共享信息,当存在大量类别时,全局共享信息是很少的;层次结构分类的误差“膨胀”、可扩展性差的问题仍未得到有效改善。
发明内容
针对现有技术的不足,本发明将层次分类结构与深度学习多尺度卷积神经网络(MSCNN)算法相结合,一方面融入父子节点的结构信息,另一方面提高每个分类节点的分类精度;将全局共享信息改为局部共享信息,即不同的分类节点之间使用不同的结构信息,以将兄弟节点之间的结构信息融入分类框架中;使用交叉的分类策略以减缓误差传播;使用扩展槽机制,便于类别体系的扩展。通过这些组件的组合成为层次结构多尺度卷积神经网络(HD-MSCNN)框架,实现文本信息自动分类任务。
为实现上述目的,本发明提供如下技术方案:
基于HD-MSCNN的层次结构文本自动分类框架,包括下几部分:
(1)局部共享层:采用局部共享信息分类策略,每个分类器都有一个该分类范围内独有的共享层,局部共享信息通过学习兄弟节点间的类别描述信息来促进模型的分类性能,若输入的文本矩阵为n,类别描述信息为f:{1,...,k}→R,则共享层的输出为:
Figure BDA0002454365910000021
式中,i为兄弟节点的编号,m为兄弟节点的数量,R()表示残差网络;通过局部共享层可将兄弟节点间的结构信息融入分类框架中;
(2)粗粒度分类器C;
(3)细粒度层分类器Fk:采用交叉的分类策略,在细粒度分类器Fk中添加更多的类别,使HD-MSCNN更少地依赖于粗类别分类器C,通过建立相似度系数
Figure 1
来评价细粒度层类别j被错分到k类的程度,相似度系数
Figure BDA0002454365910000023
具体为:
Figure BDA0002454365910000024
式中,
Figure BDA0002454365910000025
表示细粒度层类别j的所有样本,
Figure BDA0002454365910000026
表示非交叉分类策略下文本对象i被错分到k类的概率;设置阈值ut,当
Figure BDA0002454365910000027
时,将j类添加到粗粒度类别k类中;
(4)概率平均层:可用如下公式表示:
p(yi=j|xi)=Bikpk(yi=j|xi)
式中,Bik为文本分类信息对象xi被粗粒度分类器分到k类的概率, pk(yi=j|xi)表示文本分类信息对象xi被细粒度分类器分到j类的概率, p(yi=j|xi)表示属于j类的概率;设置阈值t,当
Figure BDA0002454365910000031
时,概率平均层仅根据细粒度层的分类结果pk(yi=j|xi)进行选择;而当
Figure BDA0002454365910000032
时,根据粗粒度分类器预测结果,选择
Figure BDA0002454365910000033
的多个粗粒度类别,进行细粒度层预测,根据p(yi=j|xi)进行排序综合选择。
进一步地,采用基于深度学习的多尺度卷积神经网络MSCNN算法来构建分类器。
进一步地,基于MSCNN算法的分类器包括空洞卷积、残差网络、分类特征提取层三种网络结构。
进一步地,空洞卷积F在序列信息s元素上的操作可表示为:
Figure BDA0002454365910000034
式中,X∈Rn表示一维序列信息,*d表示带膨胀系数的卷积运算, f:{0,...,k-1}→R为一个接收域,q为卷积核大小,g(f(n),d)表示卷积核的扩张, XS表示序列信息X中的s元素。
进一步地,残差网络中的残差块包括残差函数G和恒等映射两部分,残差函数G为对输入的一系列变换,恒等映射则为上一层的输出,残差块的输出可表示为:
o=Activation(x+G(x))
式中:x代表上一层的输出,G(x)代表输入的一系列变换;
将有效的学习修改恒等映射层,使网络的层数加深时保持网络的性能维持在最高水平而不下降。
进一步地,每一层残差网络包含两层空洞卷积、两层非线性激活函数和两层dropout层,并使用weight normalization技术来定义MSCNN卷积核的权重,使用BatchNormalization层来归一化每层输出的特征向量。
进一步地,分类特征提取层主要是通过使用不同尺度卷积核来进行不同维度的分类特征提取,将不同尺度卷积核的输出结果进行拼接,通过全连接层的计算和激活,使用SoftMax分类器输出最终的分类结果。
进一步地,还包括扩展槽机制,通过在全连接层和Softmax层空出冗余位的方式来提高模型的可扩展性,当有新类别加入时,则启用空余位置并加入新类别的数据进行重新训练,即可快速得到支持新类别的模型。
进一步地,利用数据增强技术增多层次类别分类样本的数量。
进一步地,通过改变句子中词的顺序和随机剔除一些词来实现数据增强。
与现有技术相比,本发明具有以下有益效果:基于HD-MSCNN的层次结构文本自动分类框架在多层次文本分类领域是有效的,在精度大幅提升的同时还具有较好的可扩展性,便于应对类别体系结构的改变。
附图说明
图1是本发明实施例基于HD-MSCNN的层次结构文本自动分类框架;
图2是本发明实施例粗粒度分类器;
图3是本发明实施例的传统卷积神经网络;
图4是本发明实施例的空洞卷积神经网络;
图5是本发明实施例的残差网络图;
图6是本发明实施例的分类特征提取层;
图7是本发明实施例的扩展槽机制;
图8是本发明实施例的NLPCC数据各类别样本数量。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
1、层次结构分类策略
在层次结构分类问题中,类别数量可达成百上千种,因此选择不同的求解策略会有很大的区别,当前主流的求解策略有三种:全局处理策略、局部处理策略、两阶段处理策略。其中局部处理策略通过基于父节点的局部分类方法能够很好的利用类别间的相关性信息,对不同分类难度的类别使用不同的分类器,以提高每个分类器的专注度和精度。但是该分类模型仍存在以下不足:(1)存在误差传播问题,即当上层分类器出现分类错误时,由于其父子节点的约束关系,误差会越来越大;(2)存在扩展性差的问题,当出现新的类别时整个分类模型可能都需要调整甚至是重新训练。(3)深度学习与层次结构分类的结合多为浅层的结合,并未很好解决层次分类所存在的问题,且使用频繁的CNN、RNN模型存在许多不足。
针对基于父节点的局部分类策略所存在的误差传播和可扩展性差的问题,本发明提出以下解决方案:(1)结合深度学习MSCNN算法构建每个节点的分类器,提高分类效果减弱误差传播;(2)采取交叉分类策略缓解误差传播,根据上层的分类结果构建混淆矩阵,根据混淆矩阵构建交叉的分类范围,即一个子节点可同时属于两个父节点,一个为其真正的父节点,另一个则为其容易被错分的父节点;(3)针对训练样本不均衡的问题提出了文本方面的数据增强技术;(4) 融入局部共享层,以学习同一父节点的兄弟节点间的结构信息;(5)提出冗余机制,有利于后期增加新类别时快速改进模型。综合以上几点本发明提出了基于 HD-MSCNN的文本层次结构自动分类框架。
分类框架主要包括四部分:(1)局部共享层;(2)粗粒度分类器C;(3) 细粒度层分类器Fk;(4)概率平均层。
1.1局部共享层
本实施例中使用局部共享信息代替全局共享信息,其分类策略如图1所示,每个分类器都有一个该分类范围内独有的共享层,局部共享信息通过学习兄弟节点间的类别描述信息来促进模型的分类性能,若输入的文本矩阵为n,类别描述信息为f:{1,...,k}→R,m为兄弟节点的数量,i为兄弟节点的编号,R()表示残差网络,则共享层的输出为:
Figure BDA0002454365910000061
通过局部共享层可将兄弟节点间的结构信息融入分类框架中。
1.2交叉分类策略
本实施例中采用交叉的分类策略,在细粒度分类器中添加更多的类别,去除粗类别之间的可分性约束可以使HD-MSCNN更少地依赖于粗类别分类器。如图 2所示,“检察”类本属于“司法类”,但其易被错分到“政治类”,因此可将“检察”类添加到“政治类”中。对于细粒度层分类器Fk,将一些不属于k类但易被错分到k类的细粒度层类别集合{j}添加到k类中,因此需要建立如下相似度系数
Figure BDA0002454365910000062
来评价细粒度层类别j被错分到k类的程度。
Figure BDA0002454365910000063
其中,
Figure BDA0002454365910000064
表示细粒度层类别j的所有样本,
Figure BDA0002454365910000065
表示非交叉分类策略下,文本对象i被错分到k类的概率。设置阈值为ut,当
Figure BDA0002454365910000066
时则将j类添加到粗粒度类别 k类中。当ut=1时,分类策略则为非交叉的分类策略。通过交叉的分类策略可有效缓解对粗粒度层分类器的依赖即改善误差传播问题。
粗粒度分类器的输出结果
Figure BDA0002454365910000067
有两个作用:(1)可以作为用来选择细粒度分类器
Figure BDA0002454365910000068
的权重;(2)当设置阈值时,其输出可作为连接细粒度层分类结果的权重,已选择概率最大的预测结果。
1.3概率平均层
本实施例中,概率平均层可用如下公式表示:
p(yi=j|xi)=Bikpk(yi=j|xi)
式中,Bik为分类文本信息对象xi被粗粒度分类器分到k类的概率,pk(yi=j|xi) 表示分类文本信息对象xi被细粒度分类器分到j类的概率,p(yi=j|xi)表示属于j类的概率;设置阈值t,当
Figure BDA0002454365910000069
时,概率平均层仅根据细粒度层的分类结果pk(yi=j|xi)进行选择;而当
Figure BDA00024543659100000610
时,根据粗粒度分类器预测结果,选择
Figure BDA0002454365910000071
的多个粗粒度类别,进行细粒度层预测,根据 p(yi=j|xi)进行排序综合选择。本文在实验中,阈值tmax为0.9,tmin为0.1。
通过该方式可综合考虑粗粒度分类器和细粒度分类器的预测结果,可减弱粗粒度层错分所造成的误差传播问题,提升框架整体分类性能。
2、MSCNN算法
在分类器构建阶段采用基于深度学习的多尺度卷积神经网络MSCNN算法,该算法一方面通过使用卷积神经网络来提高运算效率并且具有并行运算的能力,另一方面通过多尺度卷积核来提取全局上下文信息特征进行分类,提高分类精度,同时提出扩展槽机制来提升模型的可扩展性。
基于MSCNN算法的分类器包括空洞卷积(Dilated Convolution)、残差网络(Residual Network,Resnet)、分类特征提取层3种网络结构。
2.1空洞卷积
空洞卷积是指对于一个一维序列信息X∈Rn和一个接收域f:{0,...,k-1}→R,卷积核的扩张则用g(f(n),d)表示,则空洞卷积操作F在序列信息s元素上的操作可表示为:
Figure BDA0002454365910000072
式中,X表示一维序列信息,*d表示带膨胀系数的卷积运算,q为卷积核大小,g(f(n),d)表示卷积核的扩张,XS表示序列信息X中的s元素。
膨胀卷积相当于在卷积核内的相邻元素之间引入一定量的步长。当d=1时,空洞卷积与普通的卷积无异,使用一个较大的膨胀系数就可以使顶层的输出提取到更广范围的输入信息,因此空洞卷积可以有效扩张卷积神经网络的接收域。在使用空洞卷积时,通常根据神经网络的层数i来扩大d的值,本实施中经常使用2i来增大d值以扩大感受野,进而保证每个卷积核都可以提取到全局的上下文信息。图3为传统卷积神经网络,图4为空洞卷积神经网络,图中灰色块表示输出层的接收域,由此可见,空洞卷积的接收域要大于传统卷积神经网络的接收域。
2.2全局特征提取层
空洞卷积接收域的大小依赖于模型的深度,但是模型的深度并不是越深越好,因此本实施例采用残差网络结构来解决该问题。残差块包括残差函数G和恒等映射两部分,残差函数即为对输入的一系列变换,恒等映射则为上一层的输出。
残差块的输出可表示为:
o=Activation(x+G(x))
式中:x代表上一层的输出,G(x)代表输入的一系列变换;
这将有效的学习修改恒等映射层,使网络的层数加深时保持网络的性能维持在最高水平而不下降。
MSCNN卷积核接受域的大小会受网络深度的影响,对于较长的文本需要更深的网络结构以使卷积核接收全局信息,因此本实施例中使用残差块来代替卷积网络结构,以加深网络深度同时保持模型性能,其结构如图5所示,每一层残差网络包含两层的空洞卷积、非线性激活函数和dropout层,并使用weight normalization技术来定义卷积核的权重,使用BatchNormalization层来归一化每层输出的特征向量。为使恒等映射层与残差函数的输出具有相同的通道数,使用 1×1的卷积网络来调节上一层输出的通道数,并将其结果与残差函数的结果进行相加。
2.3分类特征提取层
在分类层采用多尺度卷积核进行分类,其结构如图6所示,主要是通过使用不同尺度卷积核来进行不同维度的分类特征提取,其中包括1×1、3×3、5×5 的卷积核。将不同尺度卷积核的输出结果进行拼接,通过全连接层的计算和激活,就可使用SoftMax分类器输出最终的分类结果。
3×3和5×5大小卷积之前的1×1卷积,其目的是整合通道间信息,降低输入数据的深度,进而减少3×3和5×5卷积的参数数量,同时参数数量的减少也可避免过拟合现象的发生。
3、扩展槽机制
深度学习网络模型需要大量的数据和较多的计算机资源来进行训练学习,才能达到一个较好的性能,因此可扩展性也是其重要的指标之一。本实施例中通过深度学习网络模型扩展槽机制来提升模型的可扩展性,当新增类别时仅需要在原有网络模型的基础上进行重新训练便可较快得到可预测新类别的网络模型,其结构如图7所示,图中灰色快表示冗余位。
扩展槽机制通过在全连接层和Softmax层空出冗余位的方式来提高模型的可扩展性,也就是说训练时在满足类别数量要求的基础上再增加一些空余位置,这些空余位置不发挥任何作用,也不会影响模型训练的整体性能,当有新类别加入时,则启用空余位置并加入新类别的数据进行重新训练,即可快速得到支持新类别的模型。该方法在不影响模型性能的基础上极大地增强了可扩展性,为模型提供了应对数据分类标准变换的能力。
总之,相较于RNN算法环环相扣的计算方法,MSCNN算法可并行计算以加快运算速度,且通过一系列的技术避免了RNN存在的梯度爆炸和梯度消失问题,如批归一化和Relu激活函数的选择等;相较于CNN算法,MSCNN算法可通过残差网络加空洞卷积的网络结构覆盖完整的全局上下文信息,而不是局部上下文信息,增加了模型的容量和性能,同时利用扩展槽机制增强了模型的可扩展性,当加入新的类别时,可快速完成模型升级而不需要重新训练。因此本文选择通过多尺度卷积神经网络结构来训练学习每个节点上的分类器。
4、数据增强
层次类别分类中存在大量的类别不均衡问题,若不进行处理则会使分类结果更加偏向于类别数量大的分类,例如在一个二分类问题中有100个样本,其中正样本98个,负样本2个,则全部预测为正样本准确率即可达到98%,但是这样的分类器是没有实际应用价值的,如图8所示,最多有3583个样本,而少的仅有8个样本。因此该文利用数据增强技术来增多小样本的样本数量。
文本领域的数据增强是通过改变句子中词的顺序和随机剔除一些词来实现的。例如“中国气象卫星事业发展回眸”,可改变顺序为“气象卫星回眸事业中国发展”,可随机剔除一些词如“气象卫星回眸”。而随机剔除一些词的做法一方面可增加数据量,另一方面也可以防止模型对某些词的依赖性,避免过拟合现象。
5、实验过程及结果
5.1实验数据及预处理
本实施例中采用NLPCC2014的大规模多层次新闻预料分类数据来验证 HD-MSCNN分类框架的有效性,共有54265条,其中训练集占比90%,测试集 10%。数据包含两级类别,一级类别24类,二级类别247类,其部分数据样本如表1所示。
表1新闻语料数据样例
Figure BDA0002454365910000101
由于中文的词与词之间没有分隔符,而大量研究表明词粒度的效果要比字粒度的效果好,因此首先采用中科院推出的ICTCLASS中文分词系统对预料进行分词预处理,然后再去除一些表征能力弱的词语以降低运算量并突出重点,如“的”、“了”等词。例如标题样本“”,经过预处理后变为“”。
5.2词向量训练
语言不同于图像,图像本就是计算机上的一种产物,因此由计算机来理解并不是难事,但语言不同,语言为人类文明所产生的一种抽象产物,是计算机无法理解处理的,因此将其转化为计算机可理解的形式是必不可少的,本实施例中使用Word2Vec模型的skip-gram模式来训练词向量,词向量维度为300。如词“体育”训练后的词向量为[-2.02264237,1.19393969,-0.97658658,...,-0.7664308],与“体育”语义相近的词有“体育运动”、“文体”、“武术”、“健身”等。相较于词表索引的传统方法,该方法可以表征词之间的语义关系,更符合语言的特性。
5.3评价标准
实验中采用宏平均精确度P(Precision)、召回率R(Recall)、F1值作为评价指标,小样本指标和大样本指标为相同权重,这样有利于综合判断模型性能:
Figure BDA0002454365910000111
Figure BDA0002454365910000112
Figure BDA0002454365910000113
其中L表示类别标签样本集合,
Figure BDA0002454365910000114
为各个类别的精确率、召回率、F1值的计算结果。
5.4实验结果
5.4.1分类模型实验
粗粒度层共有24类,实施例中选用CNN文本分类网络、双向LSTM网络与 MSCNN网络进行对比实验,同时进行了数据增强在各个模型上的测试,实验结果如表2所示。
表2粗粒度级分类实验
Figure BDA0002454365910000115
在粗粒度级别的分类中可以看出MSCNN有较大幅度的提升,CNN网络受限于其固定的感受野,难以提取到全局的上下文信息,所以其精确度仅达到77%左右。双向LSTM相较于CNN网络有3%左右的提升,而MSCNN网络与双向 LSTM相比,精确度、召回率、F1值分别提升了7.87%、8.089%、8.111%。说明 MSCNN网络在文本分类领域的优越性。从数据增强性能中可看出CNN网络的抗形变能力不足,当数据语序发生变化时,精确度有所下降;而LSTM和MSCNN 网络在数据增强后,性能指标均有所上升。
5.4.3分类框架实验
同时也进行了细粒度层分类实验,细粒度层共有247类,是用HD-MSCNN 分类框架与其他分类模型进行了对比实验,实验结果如表3所示。
表3细粒度级分类实验
Figure BDA0002454365910000121
在多层次的精细化分类中,本实施例提出的HD-MSCNN层次结构分类模型,效果更加显著,精确度提升12%,召回率提升16%,F1值提升19%;另外可以看出该模型的指标较为均衡。
5.4.4扩展槽机制实验(冗余机制测试)
在粗粒度层级进行冗余机制的测试,粗粒度层共24类,本实施例中先训练其中的20类并空出4个位置以进行后期的快速扩展,然后再利用20类数据训练好的模型,加入后4类的数据进行模型类别扩展,实验结果如表4所示。
表4扩展槽机制实验结果
Figure BDA0002454365910000122
实验结果表明,扩展槽机制在增加模型可扩展性的同时仍可保持同样的性能,同时从实验中可发现,分阶段的训练模式可提高模型的效果。
经过理论分析和多组实验,证明了HD-MSCNN分类框架在多层次文本分类领域的有效性,在精度大幅提升的同时还具有较好的可扩展性,便于应对类别体系结构的改变。下一步将继续优化模型性能,提高模型准确率。
上述的对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims (10)

1.基于HD-MSCNN的层次结构文本自动分类框架,其特征在于,文本自动分类框架包括下几部分:
(1)局部共享层:采用局部共享信息分类策略,每个分类器都有一个该分类范围内独有的共享层,局部共享信息通过学习兄弟节点间的类别描述信息来促进模型的分类性能,若输入的文本矩阵为n,类别描述信息为f:{1,...,k}→R,则共享层的输出为:
Figure FDA0002454365900000011
式中,i为兄弟节点的编号,m为兄弟节点的数量,R()表示残差网络;通过局部共享层可将兄弟节点间的结构信息融入分类框架中;
(2)粗粒度分类器C;
(3)细粒度层分类器Fk:采用交叉的分类策略,在细粒度分类器Fk中添加更多的类别,使HD-MSCNN更少地依赖于粗类别分类器C,通过建立相似度系数
Figure FDA0002454365900000012
来评价细粒度层类别j被错分到k类的程度,相似度系数
Figure FDA0002454365900000013
具体为:
Figure FDA0002454365900000014
式中,
Figure FDA0002454365900000015
表示细粒度层类别j的所有样本,
Figure FDA0002454365900000016
表示非交叉分类策略下文本对象i被错分到k类的概率;设置阈值ut,当
Figure FDA0002454365900000017
时,将j类添加到粗粒度类别k类中;
(4)概率平均层:可用如下公式表示:
p(yi=j|xi)=Bikpk(yi=j|xi)
式中,Bik为文本分类信息对象xi被粗粒度分类器分到k类的概率,pk(yi=j|xi)表示文本分类信息对象xi被细粒度分类器分到j类的概率,p(yi=j|xi)表示属于j类的概率;设置阈值t,当
Figure FDA0002454365900000018
时,概率平均层仅根据细粒度层的分类结果pk(yi=j|xi)进行选择;而当
Figure FDA0002454365900000019
时,根据粗粒度分类器预测结果,选择
Figure FDA00024543659000000110
的多个粗粒度类别,进行细粒度层预测,根据p(yi=j|xi)进行排序综合选择。
2.根据权利要求1所述的基于HD-MSCNN的层次结构文本自动分类框架,其特征在于,采用基于深度学习的多尺度卷积神经网络MSCNN算法来构建分类器。
3.根据权利要求2所述的基于HD-MSCNN的层次结构文本自动分类框架,其特征在于,基于MSCNN算法的分类器包括空洞卷积、残差网络、分类特征提取层三种网络结构。
4.根据权利要求3所述的基于HD-MSCNN的层次结构文本自动分类框架,其特征在于,空洞卷积F在序列信息s元素上的操作可表示为:
Figure FDA0002454365900000021
式中,X∈Rn表示一维序列信息,*d表示带膨胀系数的卷积运算,f:{0,...,k-1}→R为一个接收域,q为卷积核大小,g(f(n),d)表示卷积核的扩张,XS表示序列信息X中的s元素。
5.根据权利要求3所述的基于HD-MSCNN的层次结构文本自动分类框架,其特征在于,残差网络中的残差块包括残差函数G和恒等映射两部分,残差函数G为对输入的一系列变换,恒等映射则为上一层的输出,残差块的输出可表示为:
o=Activation(x+G(x))
式中:x代表上一层的输出,G(x)代表输入的一系列变换;
将有效的学习修改恒等映射层,使网络的层数加深时保持网络的性能维持在最高水平而不下降。
6.根据权利要求5所述的基于HD-MSCNN的层次结构文本自动分类框架,其特征在于,每一层残差网络包含两层空洞卷积、两层非线性激活函数和两层dropout层,并使用weightnormalization技术来定义MSCNN卷积核的权重,使用Batch Normalization层来归一化每层输出的特征向量。
7.根据权利要求3所述的基于HD-MSCNN的层次结构文本自动分类框架,其特征在于,分类特征提取层主要是通过使用不同尺度卷积核来进行不同维度的分类特征提取,将不同尺度卷积核的输出结果进行拼接,通过全连接层的计算和激活,使用SoftMax分类器输出最终的分类结果。
8.根据权利要求7所述的基于HD-MSCNN的层次结构文本自动分类框架,其特征在于,还包括扩展槽机制,通过在全连接层和Softmax层空出冗余位的方式来提高模型的可扩展性,当有新类别加入时,则启用空余位置并加入新类别的数据进行重新训练,即可快速得到支持新类别的模型。
9.根据权利要求8所述的基于HD-MSCNN的层次结构文本自动分类框架,其特征在于,利用数据增强技术增多层次类别分类样本的数量。
10.根据权利要求9所述的基于HD-MSCNN的层次结构文本自动分类框架,其特征在于,通过改变句子中词的顺序和随机剔除一些词来实现数据增强。
CN202010302034.1A 2020-04-16 2020-04-16 基于hd-mscnn的层次结构文本自动分类方法 Active CN111506728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010302034.1A CN111506728B (zh) 2020-04-16 2020-04-16 基于hd-mscnn的层次结构文本自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010302034.1A CN111506728B (zh) 2020-04-16 2020-04-16 基于hd-mscnn的层次结构文本自动分类方法

Publications (2)

Publication Number Publication Date
CN111506728A true CN111506728A (zh) 2020-08-07
CN111506728B CN111506728B (zh) 2023-06-06

Family

ID=71876177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010302034.1A Active CN111506728B (zh) 2020-04-16 2020-04-16 基于hd-mscnn的层次结构文本自动分类方法

Country Status (1)

Country Link
CN (1) CN111506728B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199501A (zh) * 2020-10-13 2021-01-08 华中科技大学 一种科技信息文本分类方法
CN112418354A (zh) * 2020-12-15 2021-02-26 江苏满运物流信息有限公司 货源信息分类方法、装置、电子设备、存储介质
CN112614132A (zh) * 2021-01-27 2021-04-06 杭州健培科技有限公司 针对少样本腰椎医学影像的半监督循环自学习方法及模型
CN113221935A (zh) * 2021-02-02 2021-08-06 清华大学 基于环境感知深度卷积神经网络的图像识别方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160117587A1 (en) * 2014-10-27 2016-04-28 Zhicheng Yan Hierarchical deep convolutional neural network for image classification
CN109344699A (zh) * 2018-08-22 2019-02-15 天津科技大学 基于分层深度卷积神经网络的冬枣病害识别方法
US20190102646A1 (en) * 2017-10-02 2019-04-04 Xnor.ai Inc. Image based object detection
CN110059188A (zh) * 2019-04-11 2019-07-26 四川黑马数码科技有限公司 一种基于双向时间卷积网络的中文情感分析方法
US20190340507A1 (en) * 2017-01-17 2019-11-07 Catchoom Technologies, S.L. Classifying data
CN110569708A (zh) * 2019-06-28 2019-12-13 北京市商汤科技开发有限公司 文本检测方法及装置、电子设备和存储介质
CN110706242A (zh) * 2019-08-26 2020-01-17 浙江工业大学 一种基于深度残差网络的对象级边缘检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160117587A1 (en) * 2014-10-27 2016-04-28 Zhicheng Yan Hierarchical deep convolutional neural network for image classification
US20190340507A1 (en) * 2017-01-17 2019-11-07 Catchoom Technologies, S.L. Classifying data
US20190102646A1 (en) * 2017-10-02 2019-04-04 Xnor.ai Inc. Image based object detection
CN109344699A (zh) * 2018-08-22 2019-02-15 天津科技大学 基于分层深度卷积神经网络的冬枣病害识别方法
CN110059188A (zh) * 2019-04-11 2019-07-26 四川黑马数码科技有限公司 一种基于双向时间卷积网络的中文情感分析方法
CN110569708A (zh) * 2019-06-28 2019-12-13 北京市商汤科技开发有限公司 文本检测方法及装置、电子设备和存储介质
CN110706242A (zh) * 2019-08-26 2020-01-17 浙江工业大学 一种基于深度残差网络的对象级边缘检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHICHENG YAN等: "《HD-CNN Hierarchical Deep Convolutional Neural Networks for Large Scale Visual Recognition》", 《COMPUTER SCIENCE》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199501A (zh) * 2020-10-13 2021-01-08 华中科技大学 一种科技信息文本分类方法
CN112199501B (zh) * 2020-10-13 2024-03-19 华中科技大学 一种科技信息文本分类方法
CN112418354A (zh) * 2020-12-15 2021-02-26 江苏满运物流信息有限公司 货源信息分类方法、装置、电子设备、存储介质
CN112418354B (zh) * 2020-12-15 2022-07-15 江苏满运物流信息有限公司 货源信息分类方法、装置、电子设备、存储介质
CN112614132A (zh) * 2021-01-27 2021-04-06 杭州健培科技有限公司 针对少样本腰椎医学影像的半监督循环自学习方法及模型
CN112614132B (zh) * 2021-01-27 2021-07-06 杭州健培科技有限公司 针对少样本腰椎医学影像的半监督循环自学习方法及模型
CN113221935A (zh) * 2021-02-02 2021-08-06 清华大学 基于环境感知深度卷积神经网络的图像识别方法及系统

Also Published As

Publication number Publication date
CN111506728B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Liu et al. Attention as relation: learning supervised multi-head self-attention for relation extraction
CN111506728B (zh) 基于hd-mscnn的层次结构文本自动分类方法
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN110609897A (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN111104510B (zh) 一种基于词嵌入的文本分类训练样本扩充方法
CN112395393B (zh) 一种基于多任务多示例的远程监督关系抽取方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN113268995A (zh) 中文学术关键词抽取方法、装置和存储介质
CN107168956B (zh) 一种基于管道的中文篇章结构分析方法及系统
CN111046179A (zh) 一种面向特定领域开放网络问句的文本分类方法
CN110046250A (zh) 三嵌入卷积神经网络模型及其文本多分类方法
CN109446333A (zh) 一种实现中文文本分类的方法及相关设备
Coquenet et al. Have convolutions already made recurrence obsolete for unconstrained handwritten text recognition?
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
CN112667806B (zh) 一种使用lda的文本分类筛选方法
CN112989052B (zh) 一种基于组合-卷积神经网络的中文新闻长文本分类方法
CN112883722B (zh) 一种基于云数据中心分布式文本摘要方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
Ranjan et al. Document classification using lstm neural network
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习系统及方法
CN111241824A (zh) 一种用于中文隐喻信息识别的方法
CN117610567A (zh) 一种基于ERNIE3.0_Att_IDCNN_BiGRU_CRF的命名实体识别算法
CN111191033A (zh) 一种基于分类效用的开集分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant