CN111400492B - 基于sfm-dcnn的层次特征文本分类方法和系统 - Google Patents

基于sfm-dcnn的层次特征文本分类方法和系统 Download PDF

Info

Publication number
CN111400492B
CN111400492B CN202010097431.XA CN202010097431A CN111400492B CN 111400492 B CN111400492 B CN 111400492B CN 202010097431 A CN202010097431 A CN 202010097431A CN 111400492 B CN111400492 B CN 111400492B
Authority
CN
China
Prior art keywords
text
features
feature
semantic
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010097431.XA
Other languages
English (en)
Other versions
CN111400492A (zh
Inventor
余本功
王胡燕
朱梦迪
汲浩敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010097431.XA priority Critical patent/CN111400492B/zh
Publication of CN111400492A publication Critical patent/CN111400492A/zh
Application granted granted Critical
Publication of CN111400492B publication Critical patent/CN111400492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于SFM‑DCNN的层次特征文本分类方法和系统,涉及文本分类领域。本发明在特征选择阶段,使用语义特征句向量来表示待分类文本,语义特征句向量能够高效捕获上下文语义联系、空间信息和位置信息等多种语义信息,并将获取的信息进行强化,能够捕获高级的全局语义信息,从而能够有效的提高文本分类的准确率;在特征获取阶段,采用多通道层次特征,能够在获得关键特征的同时进行多层次特征获取,对特征起到强化作用,有效减少了特征的丢失,从而进一步提高文本分类的准确率。

Description

基于SFM-DCNN的层次特征文本分类方法和系统
技术领域
本发明涉及文本分类技术领域,具体涉及一种基于SFM-DCNN的层次特征文本分类方法和系统。
背景技术
随着互联网在生活中的普及和信息技术的发展,人们的需求量日益增长,为了满足用户的的需求,越来越多的企业提供了线上服务。用户在享受线上服务便利的同时,会不断地产生用户信息。针对不同的产品,不同的企业,用户产生的用户足迹信息不尽相同。随着企业在线服务不断增多,用户信息不断增加,这给企业及用户带来了严峻的挑战。对企业而言,面对日趋剧烈的竞争,如何有效地抓住用户需求,成为了企业急需解决的问题。用户在接受在线服务时,产生的在线消费、在线评论、在线搜索等信息中,携带了大量的信息。这些信息中往往蕴含着大量的用户潜在需求,以及企业服务中的存在的问题。如何对海量用户信息进行有效组织和挖掘,掌握用户需求,逐渐成为了企业的研究热点,文本分类技术的需求也日益突出。
现有的文本分类方法主要是通过word2vec来获取词向量,word2vec词向量可以定量地度量词语之间的语义关系,挖掘词语之间的联系。
然而,本申请的发明人发现,现有的文本分类方法无法有效理解文本中的语义特征,导致文本分类准确率低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于SFM-DCNN的层次特征文本分类方法和系统,解决了文本分类准确率低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种基于SFM-DCNN的层次特征文本分类方法,所述方法由计算机执行,包括以下步骤:
文本预处理获取待分类文本;
基于BERT模型获取所述待分类文本的语义特征句向量;
基于深度卷积神经网络获取所述语义特征句向量的多通道层次特征;
通过深度卷积神经网络对所述多通道层次特征进行最大池化,得到最大特征;
基于softmax分类器对所述最大特征进行归一化处理,获取待分类文本的分类结果。
优选的,所述基于BERT模型获取待分类文本的语义特征句向量,包括:
对所述待分类文本进行编码;
对编码后的待分类文本进行深层语义编码,获取语义特征句向量。
优选的,所述基于深度卷积神经网络获取所述语义特征句向量的多通道层次特征,包括:
基于深度卷积神经网络的卷积循环块对所述语义特征句向量进行特征提取,得到深层语义特征;
基于多通道深度卷积神经网络的卷积循环块对所述深层语义特征进行强化,得到多通道层次特征。
优选的,所述获取最大特征,包括:
将多通道层次特征进行拼接,得到待分类文本的最终语义特征;
对所述最终语义特征进行最大池化,得到最大特征。
优选的,所述基于softmax分类器对所述最大特征进行归一化处理,包括:
经过softmax分类器进行归一化来预测文本类别标签
Figure BDA0002385592150000031
其计算公式如下:
Figure BDA0002385592150000032
其中:
Figure BDA0002385592150000033
表示预测的文本类别标签;
W0表示待分类文本的权重参数;
Q表示最大特征;
b0表示偏置项参数;
y表示由softmax得到每个类的估计概率。
优选的,所述对所述待分类文本进行编码,包括:
使用BERT模型中的WordPiece对待分类文本进行拆解,细分到语素级别,得到字符向量;
将字符嵌入后的待分类文本中的当前词所在位置映射成一个低维稠密的位置向量;
对当前词所在句子的序列编码,将一个句子拆分成多个句段,每个句子都对应一个分句特征向量;
将字符向量、位置向量和分句特征向量进行拼接,得到编码后待分类文本的向量表示。
优选的,在执行基于深度卷积神经网络的卷积循环块对所述深层语义特征进行强化,得到多通道层次特征步骤之前,所述方法还包括:
对深度卷积神经网络进行预激活,预激活的公式如下:
Figure BDA0002385592150000041
其中:
Ck表示深度卷积神经网络中每个双层卷积循环块的第一个卷积层输出;
Figure BDA0002385592150000042
表示预激活后的深度卷积神经网络中每个双层卷积循环块的第一个卷积层输出;
BN表示标准化;
f表示relu激活函数。
本发明还提供一种基于SFM-DCNN的层次特征文本分类系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
获取待分类文本;
基于BERT模型获取所述待分类文本的语义特征句向量;
基于深度卷积神经网络获取所述语义特征句向量的多通道层次特征;
通过深度卷积神经网络对所述多通道层次特征进行最大池化,得到最大特征;
基于softmax分类器对所述最大特征进行归一化处理,获取待分类文本的分类结果。
优选的,所述基于BERT模型获取待分类文本的语义特征句向量,包括:
对所述待分类文本进行编码;
对编码后的待分类文本进行深层语义编码,获取语义特征句向量。
优选的,所述基于深度卷积神经网络获取所述语义特征句向量的多通道层次特征,包括:
基于深度卷积神经网络的卷积循环块对所述语义特征句向量进行特征提取,得到深层语义特征;
基于深度卷积神经网络的卷积循环块对所述深层语义特征进行强化,得到多通道层次特征。
(三)有益效果
本发明提供了一种基于SFM-DCNN的层次特征文本分类方法和系统。与现有技术相比,具备以下有益效果:
本发明通过获取待分类文本;基于BERT模型获取待分类文本的语义特征句向量;基于深度卷积神经网络获取所述语义特征句向量的多通道层次特征;通过深度卷积神经网络对所述多通道层次特征进行最大池化,得到最大特征;基于softmax分类器对所述最大特征进行归一化处理,获取待分类文本的分类结果。本发明在特征选择阶段,使用语义特征句向量来表示待分类文本,语义特征句向量能够高效捕获上下文语义联系、空间信息和位置信息等多种语义信息,并将获取的信息进行强化,能够捕获高级的全局语义信息,从而能够有效的提高文本分类的准确率;在特征获取阶段,采用多通道层次特征,能够在获得关键特征的同时进行多层次特征获取,对特征起到强化作用,有效减少了特征的丢失,从而进一步提高文本分类的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于SFM-DCNN的层次特征文本分类方法的框图;
图2为验证本发明实施例有效性的过程中的各个模型的收敛速度的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于SFM-DCNN(Sentence-level Feature-basedMulti-channel Deep ConvolutionNeuralNetworks句子级特征的多通道深度卷积神经网络)的层次特征文本分类方法,解决了现有技术中文本分类准确率低的技术问题,实现准确的对待分类文本进行分类。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例在特征选择阶段,使用语义特征句向量来表示待分类文本,语义特征句向量能够高效捕获上下文语义联系、空间信息和位置信息等多种语义信息,并将获取的信息进行强化,能够捕获高级的全局语义信息,从而能够有效的提高文本分类的准确率。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种基于SFM-DCNN的层次特征文本分类方法,如图1所示,上述方法由计算机执行,包括步骤S1~S5:
S1、获取待分类文本;
S2、基于BERT模型获取待分类文本的语义特征句向量;
S3、基于深度卷积神经网络获取语义特征句向量的多通道层次特征;
S4、通过深度卷积神经网络对多通道层次特征进行最大池化,得到最大特征;
S5、基于softmax分类器对所述最大特征进行归一化处理,获取待分类文本的分类结果。
本发明实施例在特征选择阶段,使用语义特征句向量来表示待分类文本,语义特征句向量能够高效捕获上下文语义联系、空间信息和位置信息等多种语义信息,并将获取的信息进行强化,能够捕获高级的全局语义信息,从而能够有效的提高文本分类的准确率;在特征获取阶段,采用多通道层次特征,能够在获得关键特征的同时进行多层次特征获取,对特征起到强化作用,有效减少了特征的丢失,从而进一步提高文本分类的准确率。
下面对各个步骤进行详细描述:
在步骤S1中,获取待分类文本。具体为:
通过网络爬虫技术、人工录入等方式获取待分类文本,待分类文本包括专利文本和投诉文本。
在步骤S2中,基于BERT模型获取待分类文本的语义特征句向量。
具体为:
需要说明的是,在具体实施过程中,在通过BERT模型获取待分类文本的语义特征句向量前,需要对待分类文本进行预处理,去除待分类文本中的噪声。
S201、对所述待分类文本进行编码。具体实施过程如下:
对待分类文本进行编码fi(sentT),编码过程包括:字符嵌入I1、位置嵌入I2、分句嵌入I3,具体见公式(1)。
字符嵌入是指使用BERT模型中的WordPiece对待分类文本进行前缀后缀等语言学设计拆解开,细分到语素级别,得到字符向量。
位置编码是指将字符嵌入后的待分类文本中的当前词所在位置映射成一个低维稠密的位置向量。
分句嵌入是指对当前词所在句子的序列编码,将一个句子拆分成多个句段,每个句段都对应一个分句特征向量,能够学习到属于不同Segment的信息和多个句段间语义关系的任务。将三种向量表示进行拼接后获得输入表示t,如公式(2),其中,i∈{1,2,3}。
Ii=fi(sentT) (1)
(t1,t2,t3...tm)=concat(I1,I2,I3) (2)
S202、对编码后的待分类文本进行深层语义编码,获取语义特征句向量。具体实施过程如下:
通过BERT模型中的12个子编码层对编码后的待分类文本进行深层语义编码,得到语义特征句向量VsenT∈R1×768,见公式(3),其中T∈(1,L),L是为待分类文本中的句子总数。Vsent T充分地利用词语上下文之间的信息,更好地对词进行分布式表示,有效捕获了词语之间的依赖关系,对于句间的转折、顺承、递进、否定、因果等更加复杂的语义关系能够进行很好的表达。
VsentT=fecoder(12)(t1,t2,t3...tm) (3)
在步骤S3中,基于深度卷积神经网络获取语义特征句向量的多通道层次特征。具体为:
S301、基于深度卷积神经网络的卷积循环块对所述语义特征句向量进行特征提取,得到深层语义特征。具体实施过程如下:
深度卷积神经网络的卷积循环块主要是由多个双层卷积和池化构成,使用K个循环块从不同层面来捕获深层语义特征。在具体实施过程中,令Mn为卷积运算的N-gram滤波器,n∈{1,3,5},当k=1时,Mn作用于句子特征图Vsent(即语义特征句向量Vsent T)中;当k大于1时,Mn用于句子特征图pk(n)中,每个窗口产生一个新特征Ci。采用Relu作为激活函数,f=max(0,x)。为了防止本发明实施例中的深度卷积神经网络过拟合,在卷积权重层添加了正则项l1,在偏置向量上也添加正则项l2。在单层卷积操作中,每个句子特征图的卷积操作见公式(4)(5)。
Figure BDA0002385592150000101
Ck=[c1,c2,c3,c4,...,cα] (5)
其中:b表示偏置项;i∈[0,l+n-1];·表示元素点乘;f表示非线性激活函数;d为特征图的维度;k=1,2...7;l1与l2值相等,l1=l2=1e-5;每次卷积操作中共α个大小为n的滤波器,α=64。
在本发明实施例中,采用的是双层卷积操作,双层卷积操作提高了词向量表示的丰富性,双层卷积操作要在单层卷积操作的基础上,进行两次卷积操作获得f(VsentT)k来作为一个循环块,k=1,2...7。为了避免循环块之间多次进行维度匹配,采用了等长卷积,卷积操作中,会对特征图两端进行补零,保持卷积前后特征图的大小不变。
S301、基于深度卷积神经网络的卷积循环块对深层语义特征进行强化,得到多通道层次特征。具体实施过程如下:
在本发明实施例中,由于使用了深度卷积神经网络来进行深层语义特征的获取,为了简化深度卷积神经网络深度的训练,加快深度卷积神经网络的训练速度,对深度卷积神经网络采取了预激活的优化策略。每个双层卷积循环块的第一个卷积层输出Ck,需要进行预激活计算。将激活ReLU和BN规范化层移到权值层之前,形成一种“预激活”的方式,这种线性加权简化了网络深度的训练。与“后激活”相比,预激活得到的残差单元泛化性能更好。预激活的计算见(6)。其中,BN表示标准化,f代表relu激活函数。
Figure BDA0002385592150000111
在深度卷积神经网络初始化时,赋予各层的初始化权重值很小,这会使得深度卷积神经网络在最开始网络层中,输入值过小,深度卷积神经网络启动困难。同时,深度卷积神经网络中使用多个卷积循环块,随着网络的加深,训练时极易发生梯度爆炸。针对以上的问题,为了使得深度网络训练成为可能,在卷积层与池化层之间添加残差连接,对每个循环块中双层卷积的输入和输出f(VsentT)k实现恒等映射。其中,首层卷积层的输入为VsentT,其余双层卷积的输入为pk(n)
Figure BDA0002385592150000112
为该循环块中多个滤波器提取的特征总称,
Figure BDA0002385592150000113
计算如(7)所示。
Figure BDA0002385592150000114
通过卷积循环块对深层语义特征进行强化,得到多通道层次特征
Figure BDA0002385592150000121
在本发明实施例中,将
Figure BDA0002385592150000122
进行最大池化操作,在降低维度的同时获取主要特征P,有效减少了模型的计算量,为了防止深度卷积神经网络过拟合,提升深度卷积神经网络的畸变容忍能力,在池化过程中,采用步长为2的策略。池化操作,如公式(8)。
Figure BDA0002385592150000123
将最大池化与双层卷积相结合,作为一个卷积特征循环块,有效捕获文本的长距离依赖关系。在本发明实施例中,深度卷积神经网络共包含7个特征块,包括14个卷积层等。减少模型的复杂度,避免了每个循环块之间的维度匹配,每个特征循环块都固定了特征图(特征图就是在卷积操作或者池化操作之后所得到的特征)的维度为d维。
在步骤S4中,通过深度卷积神经网络对所述多通道层次特征进行最大池化,得到最大特征。具体为:
S401、将多通道层次特征进行拼接,得到待分类文本的最终语义特征。具体实施过程如下:
语义特征句向量经过最后一个循环块的卷积操作后获得多通道层次特征
Figure BDA0002385592150000124
获得在将不同通道获得的Z值进行特征拼接,得到3d维特征q作为待分类文本的最终语义特征,如公式(9)。
Figure BDA0002385592150000125
S402、对所述最终语义特征进行最大池化,得到最大特征。
进行特征融合后,需要将获得的3d维的q值,进行步长为2的最大池化操作,进一步获取最大特征,如公式(10)。
Q=max(q) (10)
在步骤S5中,基于softmax分类器对所述最大特征进行归一化处理,获取待分类文本的分类结果。具体为:
将最大特征Q经过softmax分类器进行归一化来预测文本标签
Figure BDA0002385592150000131
如公式(11)所示,其中,y∈Rm为由softmax得到每个类的估计概概率。
Figure BDA0002385592150000132
其中:
Figure BDA0002385592150000133
表示预测文本类别标签;w0表示待分类文本的权重参数;Q表示最大特征;b0表示偏置项参数;y表示由softmax得到每个类的估计概率。
在本发明实施例中,通过损失函数来计算真实值和预测值之间的误差,如果真实值与测试值之间的误差越小,那么损失值也就越小,说明效果越好。卷积神经网络目标代价函数为交叉熵损失函数,如公式(12)。
Figure BDA0002385592150000134
其中,s∈Rm是文档的真实标签,m表示目标分类的个数,λ是l2正则化超参数,取值为1e-5。
为了验证本发明实施例的有效性,将不同的文本分类方法分别通过Glove词向量和Bert句向量训练,各个方法的Accuracy值见表1。从表1实验结果可知,词级别的特征嵌入的效果不如句子级别的特征嵌入。对于TextCNN而言,在四种数据集中,句子级别的特征嵌入与普通的词嵌入相比,准确率提高了将近5%。而对其他模型而言,句子级别的嵌入也有了不同程度的提升。其中,本发明实施的方法(SFM-DCNN)在四种数据集中,实验的准确率均达到最佳。经过实验结果分析,可知Glove词向量与Bert句向量相比,Glove词向量嵌入虽然可以获取一部分语义特征,但获取的语义特征还不够全面,对于词语间的依赖关系及位置等特征不能够有效识别。因此,采用Bert句向量嵌入的方式可以有效解决词嵌入在文本分类中的不足。
表1
Figure BDA0002385592150000141
在三个数据集上,本发明实施例的方法与TextCNN、RCNN、BiGRU模型相比,在四个评价指标上,本发明实施例的方法分类效果最好,准确率达到最高,其他指标也达到了最优的效果。从表2中可知,在三种数据集中,与其他方法相比,的P值最高,模型的误判率低,F1值也达到最高,本发明实施例的方法(SFM-DCNN)的综合效果也比较理想。
表2
Figure BDA0002385592150000142
Figure BDA0002385592150000151
为了验证本发明实施例的方法收敛速度,将TextCNN与本发明实施例的方法(SFM-DCNN)来进行对比实验,实验结果如图2所示。通过实践发现,随着迭代次数的增加,模型的损失值都在不断的减小,使用了Bert进行词向量训练的方法,在每次迭代的过程中比Glove收敛速度快很多,能够在较少的迭代次数中实现较快收敛,达到较高的分类准确率。这有效地说明了Bert句向量模型学习能力十分高效,能够在较短的时间内学到大量的信息。而这能够有效地改善文本分类任务中,学习效率低,分类性能差的问题。
本发明实施例还提供一种基于SFM-DCNN的层次特征文本分类方法系统,上述系统包括计算机,上述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤:
S1、获取待分类文本;
S2、基于BERT模型获取待分类文本的语义特征句向量;
S3、基于深度卷积神经网络获取语义特征句向量的多通道层次特征;
S4、通过深度卷积神经网络对多通道层次特征进行最大池化,得到最大特征;
S5、基于softmax分类器对所述最大特征进行归一化处理,获取待分类文本的分类结果。
可理解的是,本发明实施例提供的上述基于SFM-DCNN的层次特征文本分类方法系统与上述基于SFM-DCNN的层次特征文本分类方法方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于句子特征的文本分类方法方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例在特征选择阶段,使用语义特征句向量来表示待分类文本,语义特征句向量能够高效捕获上下文语义联系、空间信息和位置信息等多种语义信息,并将获取的信息进行强化,能够捕获高级的全局语义信息,从而能够有效的提高文本分类的准确率。
2、本发明实施例在特征获取阶段,采用多通道层次特征,能够在获得关键特征的同时进行多层次特征获取,对特征起到强化作用,有效减少了特征的丢失,从而进一步提高文本分类的准确率。
3、本发明实施例在深度卷积神经网络中,为了防止深度卷积神经网络梯度爆炸,在权重层间使用预激活残差连接策略,来有效支持深度卷积神经网络的训练,加快深度卷积神经网络的训练速度。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于SFM-DCNN的层次特征文本分类方法,其特征在于,
所述方法由计算机执行,包括以下步骤:
文本预处理获取待分类文本;
基于BERT模型获取所述待分类文本的语义特征句向量;
基于深度卷积神经网络获取所述语义特征句向量的多通道层次特征,包括:
基于深度卷积神经网络的卷积循环块对所述语义特征句向量进行特征提取,得到深层语义特征;基于多通道深度卷积神经网络的卷积循环块对所述深层语义特征进行强化,得到多通道层次特征;通过深度卷积神经网络对所述多通道层次特征进行最大池化,得到最大特征;
基于softmax分类器对所述最大特征进行归一化处理,获取待分类文本的分类结果;
其中,在执行基于深度卷积神经网络的卷积循环块对所述深层语义特征进行强化,得到多通道层次特征步骤之前,所述方法还包括:
对深度卷积神经网络进行预激活,预激活的公式如下:
Figure FDA0003728894280000011
其中:
Ck表示深度卷积神经网络中每个双层卷积循环块的第一个卷积层输出;
Figure FDA0003728894280000012
表示预激活后的深度卷积神经网络中每个双层卷积循环块的第一个卷积层输出;
BN表示标准化;
f表示relu激活函数。
2.如权利要求1所述的基于SFM-DCNN的层次特征文本分类方法,其特征在于,所述基于BERT模型获取所述待分类文本的语义特征句向量,包括:
对所述待分类文本进行编码;
对编码后的待分类文本进行深层语义编码,获取语义特征句向量。
3.如权利要求1所述的基于SFM-DCNN的层次特征文本分类方法,其特征在于,最大特征的获取方法包括:
将多通道层次特征进行拼接,得到待分类文本的最终语义特征;
对所述最终语义特征进行最大池化,得到最大特征。
4.如权利要求1~3任一项所述的基于SFM-DCNN的层次特征文本分类方法,其特征在于,所述基于softmax分类器对所述最大特征进行归一化处理,包括:
经过softmax分类器进行归一化来预测文本类别标签
Figure FDA0003728894280000021
其计算公式如下:
Figure FDA0003728894280000022
其中:
Figure FDA0003728894280000023
表示预测的文本类别标签;
W0表示待分类文本的权重参数;
Q表示最大特征;
b0表示偏置项参数;
y表示由softmax得到每个类的估计概率。
5.如权利要求2所述的基于SFM-DCNN的层次特征文本分类方法,其特征在于,所述对所述待分类文本进行编码,包括:
使用BERT模型中的WordPiece对待分类文本进行拆解,细分到语素级别,得到字符向量;
将字符嵌入后的待分类文本中的当前词所在位置映射成一个低维稠密的位置向量;
对当前词所在句子的序列编码,将一个句子拆分成多个句段,每个句子都对应一个分句特征向量;
将字符向量、位置向量和分句特征向量进行拼接,得到编码后待分类文本的向量表示。
6.一种基于SFM-DCNN的层次特征文本分类系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
获取待分类文本;
基于BERT模型获取所述待分类文本的语义特征句向量;
基于深度卷积神经网络获取所述语义特征句向量的多通道层次特征,包括:
基于深度卷积神经网络的卷积循环块对所述语义特征句向量进行特征提取,得到深层语义特征;基于多通道深度卷积神经网络的卷积循环块对所述深层语义特征进行强化,得到多通道层次特征;
通过深度卷积神经网络对所述多通道层次特征进行最大池化,得到最大特征;
基于softmax分类器对所述最大特征进行归一化处理,获取待分类文本的分类结果;
其中,在执行基于深度卷积神经网络的卷积循环块对所述深层语义特征进行强化,得到多通道层次特征步骤之前,所述系统还执行:
对深度卷积神经网络进行预激活,预激活的公式如下:
Figure FDA0003728894280000041
其中:
Ck表示深度卷积神经网络中每个双层卷积循环块的第一个卷积层输出;
Figure FDA0003728894280000042
表示预激活后的深度卷积神经网络中每个双层卷积循环块的第一个卷积层输出;
BN表示标准化;
f表示relu激活函数。
7.如权利要求6所述的基于SFM-DCNN的层次特征文本分类系统,其特征在于,所述基于BERT模型获取所述待分类文本的语义特征句向量,包括:
对所述待分类文本进行输入编码;
对编码后的数据进行深层语义编码,获取语义特征句向量。
CN202010097431.XA 2020-02-17 2020-02-17 基于sfm-dcnn的层次特征文本分类方法和系统 Active CN111400492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010097431.XA CN111400492B (zh) 2020-02-17 2020-02-17 基于sfm-dcnn的层次特征文本分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010097431.XA CN111400492B (zh) 2020-02-17 2020-02-17 基于sfm-dcnn的层次特征文本分类方法和系统

Publications (2)

Publication Number Publication Date
CN111400492A CN111400492A (zh) 2020-07-10
CN111400492B true CN111400492B (zh) 2022-08-19

Family

ID=71434227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010097431.XA Active CN111400492B (zh) 2020-02-17 2020-02-17 基于sfm-dcnn的层次特征文本分类方法和系统

Country Status (1)

Country Link
CN (1) CN111400492B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553848B (zh) * 2021-07-19 2024-02-02 北京奇艺世纪科技有限公司 长文本分类方法、系统、电子设备、计算机可读存储介质
CN113868419B (zh) * 2021-09-29 2024-05-31 中国平安财产保险股份有限公司 基于人工智能的文本分类方法、装置、设备及介质
CN115062115B (zh) * 2022-06-30 2024-06-21 华南理工大学 一种在对话策略中响应情感类别预测方法
CN116975400B (zh) * 2023-08-03 2024-05-24 星环信息科技(上海)股份有限公司 一种数据分类分级方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法
CN110309306A (zh) * 2019-06-19 2019-10-08 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140719B2 (en) * 2016-12-22 2018-11-27 TCL Research America Inc. System and method for enhancing target tracking via detector and tracker fusion for unmanned aerial vehicles

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法
CN110309306A (zh) * 2019-06-19 2019-10-08 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Attention-Based Dual-Scale CNN In-Loop Filter for Versatile Video Coding";Ming-Ze Wang等;《 IEEE Access ( Volume: 7)》;20190930;第1-5页 *
"基于BERT-CNN的电商评论情感分析";史振杰等;《智能计算机与应用》;20200201;参照第0-3节 *
"基于循环神经网络和卷积神经网络的中文情感分类研究";梁丕军;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20180715;第I138-1963页 *
"融合注意力机制的多通道卷积与双向GRU模型的文本情感分析研究";袁和金等;《中文信息学报》;20191031;参照第0-3节 *

Also Published As

Publication number Publication date
CN111400492A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111400492B (zh) 基于sfm-dcnn的层次特征文本分类方法和系统
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
US20220269707A1 (en) Method and system for analyzing entities
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
Shen et al. Sentiment analysis of movie reviews based on cnn-blstm
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN116097250A (zh) 用于多模式文档理解的布局感知多模式预训练
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113743119A (zh) 中文命名实体识别模块、方法、装置及电子设备
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN115408525B (zh) 基于多层级标签的信访文本分类方法、装置、设备及介质
CN115062727B (zh) 一种基于多阶超图卷积网络的图节点分类方法及系统
CN110852089A (zh) 基于智能分词与深度学习的运维项目管理方法
CN114881172A (zh) 一种基于加权词向量和神经网络的软件漏洞自动分类方法
Lee et al. Detecting suicidality with a contextual graph neural network
Ma et al. Mscoa: Multi-step co-attention model for multi-label classification
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
CN113705197B (zh) 一种基于位置增强的细粒度情感分析方法
CN110287396A (zh) 文本匹配方法及装置
Wu et al. A Text Emotion Analysis Method Using the Dual‐Channel Convolution Neural Network in Social Networks
Zhang et al. Ias-bert: An information gain association vector semi-supervised bert model for sentiment analysis
CN118195562B (zh) 基于自然语义分析的入职意愿评估方法及系统
CN114416970B (zh) 带角色的文本分类模型以及对话文本分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant