CN109376242A - 基于循环神经网络变体和卷积神经网络的文本分类算法 - Google Patents

基于循环神经网络变体和卷积神经网络的文本分类算法 Download PDF

Info

Publication number
CN109376242A
CN109376242A CN201811216633.0A CN201811216633A CN109376242A CN 109376242 A CN109376242 A CN 109376242A CN 201811216633 A CN201811216633 A CN 201811216633A CN 109376242 A CN109376242 A CN 109376242A
Authority
CN
China
Prior art keywords
text
formula
training
sentence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811216633.0A
Other languages
English (en)
Other versions
CN109376242B (zh
Inventor
李云红
梁思程
汤汶
慕兴
张轩
张欢欢
聂梦瑄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Polytechnic University
Original Assignee
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University filed Critical Xian Polytechnic University
Priority to CN201811216633.0A priority Critical patent/CN109376242B/zh
Publication of CN109376242A publication Critical patent/CN109376242A/zh
Application granted granted Critical
Publication of CN109376242B publication Critical patent/CN109376242B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于循环神经网络变体和卷积神经网络的文本分类算法,具体为:步骤1,对数据集SogouC和数据集THUCNews进行预处理,并将两个数据集均分为训练集和测试集,并将各自训练集和测试集中的文本数据均训练为句向量;步骤2,利用步骤1中两个数据集中的训练集中文本建立BGRU‑CNN混合模型,步骤3,建立目标函数,采用随机梯度下降方法训练经步骤2建立好的BGRU‑CNN混合模型;步骤4,将两个数据集中将测试集的文本句向量输入经步骤3训练好的BGRU‑CNN混合模型中,得到分类结果。本发明解决了现有技术中存在的长文本在文本分类时提取语义关键特征难度大,分类效果差的问题。

Description

基于循环神经网络变体和卷积神经网络的文本分类算法
技术领域
本发明属于自然语言处理方法技术领域,涉及一种基于循环神经网络变体和卷积神经网络的文本分类算法。
背景技术
当前,互联网发展迅猛,每时每刻产生大量文本信息。如何对大量文本进行有效的分类以及管理,进而快速了解信息价值,是许多研究者关注的焦点。其中,长文本内容多,包含多个不同关键字。所以,在文本分类中,保持长文本的结构完整,保持文本词之间的顺序,学习文本上下文语义,可以提高长文本的文本分类效果。
文本分类主要包括文本表示、分类器的选择与训练、分类结果的评价与反馈等工作。其中文本表示是影响分类结果的关键步骤。词袋模型在文本表示中应用最为广泛,它将文本表示为高维度,高稀疏的One-hot向量。但One-hot向量因未考虑文本的语序和上下词之间的联系,词之间相互独立,导致文本信息大量丢失。为了克服词袋模型文本表示的缺陷,词向量的概念应运而生,将词表示成一个定长的连续的稠密向量。Skip-gram和CBOW神经网络模型提升了词向量训练的效率。PV-DM神经网络模型,考虑了文本的语序信息,将文本表示为定长的句向量或者段落向量。
在文本的分类器训练方面,主要采用浅层的朴素贝叶斯,支持向量机,最大熵模型等机器学习模型。而基于时间序列的循环神经网络模型,解决了浅层机器学习模型对关联性强的样本分类效果差,无法学习到类别内信息等问题。卷积神经网络用于文本处理,通过共享权重提升了文本分类的性能。
目前暂时没有出现将循环神经网络变体和卷积神经网络进行结合进行文本分类的有效算法。
发明内容
本发明的目的是提供一种基于循环神经网络变体和卷积神经网络的文本分类算法,将循环神经网络变体和卷积神经网络结合,解决了现有技术中存在的长文本在文本分类时提取语义关键特征难度大,分类效果差的问题。
本发明所采用的技术方案是,基于循环神经网络变体和卷积神经网络的文本分类算法,具体按照以下步骤实施:
步骤1,对数据集SogouC和数据集THUCNews进行预处理,并将经过预处理的数据集SogouC和数据集THUCNews均分为训练集和测试集,并将各自训练集和测试集中的文本数据均训练为句向量;
步骤2,利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型,具体为:将两个数据集中训练集的文本句向量,经过循环层捕捉句子上下文信息,卷积层提取文本的关键特征,通过Softmax分类,输出文本属于某个类别的概率;
步骤3,建立目标函数,采用随机梯度下降方法训练经步骤2建立好的BGRU-CNN混合模型;
步骤4,将两个数据集中将测试集的文本句向量输入经步骤3训练好的BGRU-CNN混合模型中,得到分类结果。
对数据集SogouC和数据集THUCNews进行预处理具体为:采用jieba中文分词进行对数据集SogouC和数据集THUCNews进行分词,去除停用词和标点符号。
数据集SogouC和数据集THUCNews中训练集中的文本数据量与测试集中的文本数据量之比为7:3。
步骤1中通过PV-DM模型将两个数据集中各自的训练集和测试集中的文本数据均训练为句向量。
步骤2中利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型的具体步骤为:
步骤2.1,经过循环神经网络保留文本的语序信息
采用双向循环结构分别捕获两个数据集的训练集文本第i个句子Si上文L(Si)和句子下文R(Si)的信息,计算方式如公式(1)和公式(2);
L(Si)=f(W(l)L(Si-1)+W(sl)e(Si-1)), (1)
R(Si)=f(W(r)R(Si+1)+W(sr)e(Si+1)), (2)
其中,公式(1)中,e(Si-1)表示句子Si-1的句向量,L(Si-1)表示句子Si-1的上文信息,W(sl)表示Si句子和Si-1句子语义信息组合的权阵,W(l)为隐藏层的转换权阵,f为激活函数,然后,通过公式(3)构成训练集文本第i个句子的句向量xi,保留了句子左侧的信息L(Si)和右侧的信息R(Si);
xi=[L(Si);e(Si);R(Si)] (3)
采用GRU结构进行神经元的节点设计,GRU网络节点通过重置门r和更新门z对输入信息进行处理,t时刻的激活状态ht计算方式如公式(4);
ht-1是t-1时刻的激活状态,与ht呈线性关系表示向量矩阵对应元素相乘;
zt表示t时刻更新门的状态,计算方式为公式(5);
t时刻的激活状态hc的计算方式如公式(6);
t时刻的重置门rt的计算方式如公式(7);
zt=σ(Wzxt+Uzht-1), (5)
rt=σ(Wrxt+Urht-1), (7)
其中,σ为sigmoid函数,xt是t时刻该节点输入的句向量,Wz,Wx,Wr和Uz,U,Ur是更新门z、当前候选的激活状态hc和重置门r要训练的权重参数;
步骤2.2,根据循环层,分别得到两个训练集中的整个文本的语序特征句向量xi后,使用CNN卷积神经网络进行深层次特征的提取,最后经Softmax分类,得到分类结果。
步骤2.2具体按照以下步骤实施:
步骤2.2.1在循环层获取所有句向量xi后,使用CNN网络进行特征yi的提取,计算方式如公式(8)所示;
yi=f(w·xi:h+b), (8)
其中,卷积核用w∈Rhk来表示,h和k分别表示卷积核的窗口高度和宽度,用来对循环层的输出进行卷积,xi:h表示输入特征向量第i行到第h行的特征值,b为偏置项,f为激活函数;
获取所有yi后,通过公式(9),构建关键特征图Y;
Y=[y1,y2,y3...yn], (9)
然后使用最大池化层来确定文本的最佳特征,计算方式如公式(10)所示;
步骤2.2.2,得到最佳特征y,然后将其输入分类层分类,分类层采用dropout方式将最佳特征y连接到Softmax分类器中,其输出向量O的计算方式如公式(11)所示:
O=f(Wccd+bc), (11)
其中,Wc和bc分别表示Softmax分类器的权重参数和偏置项,cd为通过dropout产生的向量,f为sigmoid函数;
最后根据输出向量O预测文本属于第k类的概率,其计算方式如公式(12)所示;
其中,Ok表示输出向量O中的第k个元素,N表示类别数。
步骤3建立目标函数,采用随机梯度下降方法训练经步骤2建立好的BGRU-CNN混合模型的具体过程如下:
将所有BGRU-CNN模型的参数定义为θ;
将循环层所有参数定义为包括初始上下文信息L(S1)和R(Sn)、权重参数W(sl)、W(l)、W(sr)、W(r)
将卷积层所有参数定义为包括Wz、Wx、Wr、Uz、U、Ur
则θ包括句向量S、偏置项bc、Wc、w,如公式(13)所示,其中,S代表整个训练集文本的句向量;
然后经过神经网络训练,找到最小代价的θ,如公式(14)所示:
其中D为训练的文档集,p(classT|T,θ)表示文档T在参数θ下属于目标类别classT的概率,采用随机梯度下降方法训练BGRU-CNN模型,则θ的更新如公式(15)所示,其中α为学习率:
得到训练好的BGRU-CNN混合模型。
步骤4具体为:使用测试集中的文本按照步骤2.1-2.2的方法,将测试集中的文本输入到训练好BGRU-CNN模型中,得到分类结果。
本发明的有益效果是:与现有的方法相比,针对长文本在文本分类时提取语义关键特征难度大,分类效果差等问题,经双向门控循环单元(BGRU)实现文本的序列信息表示,利用卷积神经网络(CNN)提取文本的关键特征,通过Softmax分类器实现文本的准确分类,提高了文本的分类性能。
附图说明
图1是本发明基于循环神经网络变体和卷积神经网络的文本分类算法的流程图;
图2是本发明基于循环神经网络变体和卷积神经网络的文本分类算法中使用的PV-DM模型结构图;
图3是本发明建立分类算法模型的原理图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于循环神经网络变体和卷积神经网络的文本分类算法,其流程如图1所示,具体按照以下步骤实施:
步骤1,对数据集SogouC和数据集THUCNews进行预处理,并将经过预处理的数据集SogouC和数据集THUCNews均分为训练集和测试集,并将各自训练集和测试集中的文本数据均训练为句向量;
具体为:采用jieba中文分词进行对数据集SogouC和数据集THUCNews进行分词,去除停用词和标点符号,然后将经预处理的数据集SogouC和数据集THUCNews各自分训练集和测试集,训练集中的文本数据量与测试集中的文本数据量之比为7:3,然后,通过PV-DM模型(如图2所示)将两个数据集中各自的训练集和测试集中的文本数据均训练为句向量,获得句向量的表示;文本通过神经网络训练得到词向量W,将词向量W与段落矩阵D拼接在一起。新增段落id可以被看做新的词,每预测一个词,就使用该词所在段落的段落id作为新增加的输入。在一个文本的训练过程中,段落id保持不变,共享着同一个段落矩阵。使用随机梯度下降法训练所有参数,训练结束后得到定长的实向量,即段落向量(本文称句向量);将长文本长度各异的句子表示为定长的句向量,可以进行句子级的文本分析,提高了长文本分析的速度;
步骤2,利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型,具体为:将两个数据集中训练集的文本句向量,经过循环层捕捉句子上下文信息,卷积层提取文本的关键特征,通过Softmax分类,输出文本属于某个类别的概率;
其中,利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型的具体步骤为:如图3所示,
步骤2.1,经过循环神经网络保留文本的语序信息
采用双向循环结构分别捕获两个数据集的训练集文本第i个句子Si上文L(Si)和句子下文R(Si)的信息,计算方式如公式(1)和公式(2);
L(Si)=f(W(l)L(Si-1)+W(sl)e(Si-1)), (1)
R(Si)=f(W(r)R(Si+1)+W(sr)e(Si+1)), (2)
其中,公式(1)中,e(Si-1)表示句子Si-1的句向量,L(Si-1)表示句子Si-1的上文信息,W(sl)表示Si句子和Si-1句子语义信息组合的权阵,W(l)为隐藏层的转换权阵,f为激活函数,然后,通过公式(3)构成训练集文本第i个句子的句向量xi,保留了句子左侧的信息L(Si)和右侧的信息R(Si);
xi=[L(Si);e(Si);R(Si)] (3)
采用GRU结构进行神经元的节点设计,GRU网络节点通过重置门r和更新门z对输入信息进行处理,t时刻的激活状态ht计算方式如公式(4);
ht-1是t-1时刻的激活状态,与ht呈线性关系,表示向量矩阵对应元素相乘;
zt表示t时刻更新门的状态,计算方式为公式(5);
t时刻的激活状态hc的计算方式如公式(6);
t时刻的重置门rt的计算方式如公式(7);
zt=σ(Wzxt+Uzht-1), (5)
rt=σ(Wrxt+Urht-1), (7)
其中,σ为sigmoid函数,xt是t时刻该节点输入的句向量,Wz,Wx,Wr和Uz,U,Ur是更新门z、当前候选的激活状态hc和重置门r要训练的权重参数;
步骤2.2,根据循环层,分别得到两个训练集中的整个文本的语序特征句向量xi后,使用CNN卷积神经网络进行深层次特征的提取,最后经Softmax分类,得到分类结果。
步骤2.2具体按照以下步骤实施:
步骤2.2.1在循环层获取所有句向量xi后,使用CNN网络进行特征yi的提取,计算方式如公式(8)所示;
yi=f(w·xi:h+b), (8)
其中,卷积核用w∈Rhk来表示,h和k分别表示卷积核的窗口高度和宽度,用来对循环层的输出进行卷积,xi:h表示输入特征向量第i行到第h行的特征值,b为偏置项,f为激活函数;
获取所有yi后,通过公式(9),构建关键特征图Y;
Y=[y1,y2,y3...yn], (9)
然后使用最大池化层来确定文本的最佳特征,计算方式如公式(10)所示;
步骤2.2.2,得到最佳特征y,然后将其输入分类层分类,分类层采用dropout方式将最佳特征y连接到Softmax分类器中,其输出向量O的计算方式如公式(11)所示:
O=f(Wccd+bc), (11)
其中,Wc和bc分别表示Softmax分类器的权重参数和偏置项,cd为通过dropout产生的向量,f为sigmoid函数;Dropout算法随机将最佳特征y按一定比例置0,其他没有置0的元素参与运算,由于每一次输入特征向量后置0的方式都是随机的,因此网络权重参数每一次都得到了更新,直到所有样本都被训练完成,因为每次网络权重参数都不相同,dropout算法将神经网络变成了多种模型组合,有效的防止了过拟合,提升了模型预测的精度;
最后根据输出向量O预测文本属于第k类的概率,其计算方式如公式(12)所示;
其中,Ok表示输出向量O中的第k个元素,N表示类别数。
步骤3,建立目标函数,采用随机梯度下降方法训练经步骤2建立好的BGRU-CNN混合模型;具体过程如下:
将所有BGRU-CNN模型的参数定义为θ;
将循环层所有参数定义为包括初始上下文信息L(S1)和R(Sn)、权重参数W(sl)、W(l)、W(sr)、W(r)
将卷积层所有参数定义为包括Wz、Wx、Wr、Uz、U、Ur
则则θ包括句向量S、偏置项bc、Wc、w,如公式(13)所示:
其中,S代表整个训练集文本的句向量;
然后经过神经网络训练,找到最小代价的θ,如公式(14)所示:
其中D为训练的文档集,p(classT|T,θ)表示文档T在参数θ下属于目标类别classT的概率,采用随机梯度下降方法训练BGRU-CNN模型,则θ的更新如公式(15)所示,其中α为学习率:
得到训练好的BGRU-CNN混合模型。
步骤4,将两个数据集中将测试集的文本句向量输入经步骤3训练好的BGRU-CNN混合模型中,得到分类结果,具体为:使用测试集中的文本按照步骤2.1-2.2的方法,将测试集中的文本输入到训练好BGRU-CNN模型中,得到分类结果。
本发明采用文本分类常用评估指标(准确率、召回率和f1值)与CNN、LSTM、GRU、B-LSTM、B-GRU、5个文本分类模型相比,评价本发明算法的文本分类效果,结果如表1-3所示:
BGRU-CNN模型与CNN模型的分类结果进行比较,得出BGRU-CNN模型评估指标均高于CNN模型,表明GRU模型对文本语义的学习提高了文本分类的结果。BGRU-CNN模型与LSTM、GRU、B-LSTM模型的分类结果进行比较。在SogouC数据集中,BGRU-CNN模型评估指标接近LSTM模型,高于其他两个模型。在THUCNews数据集中,B-LSTM模型评估指标高于其他三个模型,得出了双向循环GRU网络结构提高了文本分类的结果。
表1数据集分类准确率/%
表2数据集分类召回率/%
表3数据集分类f1值/%
BGRU-CNN模型和B-GRU模型的分类结果进行比较。在SogouC数据集中,BGRU-CNN模型的分类准确率低于B-GRU模型,但其召回率和f1值却高于B-GRU模型。在THUCNews数据集中,BGRU-CNN模型的评估指标均高于B-GRU模型,得出了BGRU-CNN模型通过卷积层学习到了更深的文本特征,提高了文本分类的结果。

Claims (8)

1.基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,具体按照以下步骤实施:
步骤1,对数据集SogouC和数据集THUCNews进行预处理,并将经过预处理的数据集SogouC和数据集THUCNews均分为训练集和测试集,并将各自训练集和测试集中的文本数据均训练为句向量;
步骤2,利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型,具体为:将两个数据集中训练集的文本句向量,经过循环层捕捉句子上下文信息,卷积层提取文本的关键特征,通过Softmax分类,输出文本属于某个类别的概率;
步骤3,建立目标函数,采用随机梯度下降方法训练经步骤2建立好的BGRU-CNN混合模型;
步骤4,将两个数据集中将测试集的文本句向量输入经步骤3训练好的BGRU-CNN混合模型中,得到分类结果。
2.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述对数据集SogouC和数据集THUCNews进行预处理具体为:采用jieba中文分词进行对数据集SogouC和数据集THUCNews进行分词,去除停用词和标点符号。
3.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述数据集SogouC和数据集THUCNews中训练集中的文本数据量与测试集中的文本数据量之比为7:3。
4.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述步骤1中通过PV-DM模型将两个数据集中各自的训练集和测试集中的文本数据均训练为句向量。
5.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述步骤2中利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型的具体步骤为:
步骤2.1,经过循环神经网络保留文本的语序信息
采用双向循环结构分别捕获两个数据集的训练集文本第i个句子Si上文L(Si)和句子下文R(Si)的信息,计算方式如公式(1)和公式(2);
L(Si)=f(W(l)L(Si-1)+W(sl)e(Si-1)), (1)
R(Si)=f(W(r)R(Si+1)+W(sr)e(Si+1)), (2)
其中,公式(1)中,e(Si-1)表示句子Si-1的句向量,L(Si-1)表示句子Si-1的上文信息,W(sl)表示Si句子和Si-1句子语义信息组合的权阵,W(l)为隐藏层的转换权阵,f为激活函数,然后,通过公式(3)构成训练集文本第i个句子的句向量xi,保留了句子左侧的信息L(Si)和右侧的信息R(Si);
xi=[L(Si);e(Si);R(Si)] (3)
采用GRU结构进行神经元的节点设计,GRU网络节点通过重置门r和更新门z对输入信息进行处理,t时刻的激活状态ht计算方式如公式(4);
ht-1是t-1时刻的激活状态,与ht呈线性关系,表示向量矩阵对应元素相乘;
zt表示t时刻更新门的状态,计算方式为公式(5);
t时刻的激活状态hc的计算方式如公式(6);
t时刻的重置门rt的计算方式如公式(7);
zt=σ(Wzxt+Uzht-1), (5)
rt=σ(Wrxt+Urht-1), (7)
其中,σ为sigmoid函数,xt是t时刻该节点输入的句向量,Wz,Wx,Wr和Uz,U,Ur是更新门z、当前候选的激活状态hc和重置门r要训练的权重参数;
步骤2.2,根据循环层,分别得到两个训练集中的整个文本的语序特征句向量xi后,使用CNN卷积神经网络进行深层次特征的提取,最后经Softmax分类,得到分类结果。
6.根据权利要求5所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述步骤2.2具体按照以下步骤实施:
步骤2.2.1在循环层获取所有句向量xi后,使用CNN网络进行特征yi的提取,计算方式如公式(8)所示;
yi=f(w·xi:h+b), (8)
其中,卷积核用w∈Rhk来表示,h和k分别表示卷积核的窗口高度和宽度,用来对循环层的输出进行卷积,xi:h表示输入特征向量第i行到第h行的特征值,b为偏置项,f为激活函数;
获取所有yi后,通过公式(9),构建关键特征图Y;
Y=[y1,y2,y3...yn], (9)
然后使用最大池化层来确定文本的最佳特征,计算方式如公式(10)所示;
步骤2.2.2,得到最佳特征y,然后将其输入分类层分类,分类层采用dropout方式将最佳特征y连接到Softmax分类器中,其输出向量O的计算方式如公式(11)所示:
O=f(Wccd+bc), (11)
其中,Wc和bc分别表示Softmax分类器的权重参数和偏置项,cd为通过dropout产生的向量,f为sigmoid函数;
最后根据输出向量O预测文本属于第k类的概率,其计算方式如公式(12)所示;
其中,Ok表示输出向量O中的第k个元素,N表示类别数。
7.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述步骤3建立目标函数,采用随机梯度下降方法训练经步骤2建立好的BGRU-CNN混合模型的具体过程如下:
将所有BGRU-CNN模型的参数定义为θ;
将循环层所有参数定义为包括初始上下文信息L(S1)和R(Sn)、权重参数W(sl)、W(l)、W(sr)、W(r)
将卷积层所有参数定义为包括Wz、Wx、Wr、Uz、U、Ur
则则θ包括句向量S、偏置项bc、Wc、w,如公式(13)所示:
其中,S代表整个训练集文本的句向量;
然后经过神经网络训练,找到最小代价的θ,如公式(14)所示:
其中D为训练的文档集,p(classT|T,θ)表示文档T在参数θ下属于目标类别classT的概率,采用随机梯度下降方法训练BGRU-CNN模型,则θ的更新如公式(15)所示,其中α为学习率:
得到训练好的BGRU-CNN混合模型。
8.根据权利要求5所述的基于循环神经网络变体和卷积神经网络的文本分类算法,其特征在于,所述步骤4具体为:使用测试集中的文本按照步骤2.1-2.2的方法,将测试集中的文本输入到训练好BGRU-CNN模型中,得到分类结果。
CN201811216633.0A 2018-10-18 2018-10-18 基于循环神经网络变体和卷积神经网络的文本分类方法 Expired - Fee Related CN109376242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811216633.0A CN109376242B (zh) 2018-10-18 2018-10-18 基于循环神经网络变体和卷积神经网络的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811216633.0A CN109376242B (zh) 2018-10-18 2018-10-18 基于循环神经网络变体和卷积神经网络的文本分类方法

Publications (2)

Publication Number Publication Date
CN109376242A true CN109376242A (zh) 2019-02-22
CN109376242B CN109376242B (zh) 2020-11-17

Family

ID=65400996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811216633.0A Expired - Fee Related CN109376242B (zh) 2018-10-18 2018-10-18 基于循环神经网络变体和卷积神经网络的文本分类方法

Country Status (1)

Country Link
CN (1) CN109376242B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918507A (zh) * 2019-03-08 2019-06-21 北京工业大学 一种基于TextCNN改进的文本分类方法
CN110019819A (zh) * 2019-03-26 2019-07-16 方正株式(武汉)科技开发有限公司 分类模型生成方法、电子合同内容自动分类方法及装置
CN110263174A (zh) * 2019-06-27 2019-09-20 成都冰鉴信息科技有限公司 —基于焦点关注的主题类别分析方法
CN110288004A (zh) * 2019-05-30 2019-09-27 武汉大学 一种基于日志语义挖掘的系统故障诊断方法及装置
CN110378335A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于神经网络的信息分析方法及模型
CN110597983A (zh) * 2019-07-25 2019-12-20 华北电力大学 一种基于类别嵌入的层次化文本分类计算方法
CN110750637A (zh) * 2019-08-15 2020-02-04 中国平安财产保险股份有限公司 文本摘要提取方法、装置、计算机设备及存储介质
CN110825861A (zh) * 2019-11-05 2020-02-21 重庆邮电大学 一种基于分布式表示模型困惑度的人机对话方法与系统
CN110826298A (zh) * 2019-11-13 2020-02-21 北京万里红科技股份有限公司 一种智能辅助定密系统中使用的语句编码方法
CN110895565A (zh) * 2019-11-29 2020-03-20 国网湖南省电力有限公司 一种电力设备故障缺陷文本分类方法与系统
CN110929769A (zh) * 2019-11-14 2020-03-27 保定赛瑞电力科技有限公司 一种基于振动和声音的电抗器机械类故障联合检测模型、方法及装置
CN111008274A (zh) * 2019-12-10 2020-04-14 昆明理工大学 特征扩展卷积神经网络的案件微博观点句识别构建方法
CN112333194A (zh) * 2020-11-09 2021-02-05 国网上海市电力公司 基于gru-cnn的综合能源网络安全攻击检测方法
CN112417446A (zh) * 2020-12-12 2021-02-26 山东交通学院 一种软件定义网络异常检测架构
WO2021051518A1 (zh) * 2019-09-17 2021-03-25 平安科技(深圳)有限公司 基于神经网络模型的文本数据分类方法、装置及存储介质
CN112732903A (zh) * 2020-09-19 2021-04-30 中国人民解放军战略支援部队信息工程大学 即时通信信息取证过程中证据分类方法及系统
CN113297845A (zh) * 2021-06-21 2021-08-24 南京航空航天大学 一种基于多层次循环神经网络的简历块分类方法
CN113761392A (zh) * 2021-09-14 2021-12-07 上海任意门科技有限公司 内容召回方法、计算设备和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572892A (zh) * 2014-12-24 2015-04-29 中国科学院自动化研究所 一种基于循环卷积网络的文本分类方法
US20170235721A1 (en) * 2016-02-17 2017-08-17 The King Abdulaziz City For Science And Technology Method and system for detecting semantic errors in a text using artificial neural networks
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN108595643A (zh) * 2018-04-26 2018-09-28 重庆邮电大学 基于多分类节点卷积循环网络的文本特征提取及分类方法
CN108595632A (zh) * 2018-04-24 2018-09-28 福州大学 一种融合摘要与主体特征的混合神经网络文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572892A (zh) * 2014-12-24 2015-04-29 中国科学院自动化研究所 一种基于循环卷积网络的文本分类方法
US20170235721A1 (en) * 2016-02-17 2017-08-17 The King Abdulaziz City For Science And Technology Method and system for detecting semantic errors in a text using artificial neural networks
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN108595632A (zh) * 2018-04-24 2018-09-28 福州大学 一种融合摘要与主体特征的混合神经网络文本分类方法
CN108595643A (zh) * 2018-04-26 2018-09-28 重庆邮电大学 基于多分类节点卷积循环网络的文本特征提取及分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
D. WANG AND K. MAO: ""Multimodal Object Classification Using Bidirectional Gated Recurrent Unit Networks"", 《2018 IEEE THIRD INTERNATIONAL CONFERENCE ON DATA SCIENCE IN CYBERSPACE (DSC)》 *
周枫,李荣雨: ""基于BGRU池的卷积神经网络文本分类模型"", 《计算机科学》 *
田竹: ""基于深度特征提取的文本情感极性分类研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918507A (zh) * 2019-03-08 2019-06-21 北京工业大学 一种基于TextCNN改进的文本分类方法
CN110019819A (zh) * 2019-03-26 2019-07-16 方正株式(武汉)科技开发有限公司 分类模型生成方法、电子合同内容自动分类方法及装置
CN110288004A (zh) * 2019-05-30 2019-09-27 武汉大学 一种基于日志语义挖掘的系统故障诊断方法及装置
CN110378335B (zh) * 2019-06-17 2021-11-19 杭州电子科技大学 一种基于神经网络的信息分析方法及模型
CN110378335A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于神经网络的信息分析方法及模型
CN110263174B (zh) * 2019-06-27 2020-10-23 成都冰鉴信息科技有限公司 —基于焦点关注的主题类别分析方法
CN110263174A (zh) * 2019-06-27 2019-09-20 成都冰鉴信息科技有限公司 —基于焦点关注的主题类别分析方法
CN110597983A (zh) * 2019-07-25 2019-12-20 华北电力大学 一种基于类别嵌入的层次化文本分类计算方法
CN110597983B (zh) * 2019-07-25 2023-09-15 华北电力大学 一种基于类别嵌入的层次化文本分类计算方法
CN110750637A (zh) * 2019-08-15 2020-02-04 中国平安财产保险股份有限公司 文本摘要提取方法、装置、计算机设备及存储介质
CN110750637B (zh) * 2019-08-15 2024-05-24 中国平安财产保险股份有限公司 文本摘要提取方法、装置、计算机设备及存储介质
WO2021051518A1 (zh) * 2019-09-17 2021-03-25 平安科技(深圳)有限公司 基于神经网络模型的文本数据分类方法、装置及存储介质
CN110825861A (zh) * 2019-11-05 2020-02-21 重庆邮电大学 一种基于分布式表示模型困惑度的人机对话方法与系统
CN110825861B (zh) * 2019-11-05 2022-05-03 重庆邮电大学 一种基于分布式表示模型困惑度的人机对话方法与系统
CN110826298A (zh) * 2019-11-13 2020-02-21 北京万里红科技股份有限公司 一种智能辅助定密系统中使用的语句编码方法
CN110929769A (zh) * 2019-11-14 2020-03-27 保定赛瑞电力科技有限公司 一种基于振动和声音的电抗器机械类故障联合检测模型、方法及装置
CN110929769B (zh) * 2019-11-14 2023-02-10 国网吉林省电力有限公司超高压公司 一种基于振动和声音的电抗器机械类故障联合检测模型、方法及装置
CN110895565A (zh) * 2019-11-29 2020-03-20 国网湖南省电力有限公司 一种电力设备故障缺陷文本分类方法与系统
CN111008274A (zh) * 2019-12-10 2020-04-14 昆明理工大学 特征扩展卷积神经网络的案件微博观点句识别构建方法
CN112732903A (zh) * 2020-09-19 2021-04-30 中国人民解放军战略支援部队信息工程大学 即时通信信息取证过程中证据分类方法及系统
CN112333194B (zh) * 2020-11-09 2022-08-09 国网上海市电力公司 基于gru-cnn的综合能源网络安全攻击检测方法
CN112333194A (zh) * 2020-11-09 2021-02-05 国网上海市电力公司 基于gru-cnn的综合能源网络安全攻击检测方法
CN112417446A (zh) * 2020-12-12 2021-02-26 山东交通学院 一种软件定义网络异常检测架构
CN113297845A (zh) * 2021-06-21 2021-08-24 南京航空航天大学 一种基于多层次循环神经网络的简历块分类方法
CN113761392A (zh) * 2021-09-14 2021-12-07 上海任意门科技有限公司 内容召回方法、计算设备和计算机可读存储介质
CN113761392B (zh) * 2021-09-14 2022-04-12 上海任意门科技有限公司 内容召回方法、计算设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN109376242B (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN109376242A (zh) 基于循环神经网络变体和卷积神经网络的文本分类算法
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
Chen et al. Research on text sentiment analysis based on CNNs and SVM
CN106650813B (zh) 一种基于深度残差网络和lstm的图像理解方法
CN110134757A (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN110502749A (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN109308318A (zh) 跨领域文本情感分类模型的训练方法、装置、设备及介质
CN111144448A (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN107992597A (zh) 一种面向电网故障案例的文本结构化方法
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类系统
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN110188192B (zh) 一种多任务网络构建与多尺度的罪名法条联合预测方法
CN110598005A (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN109101584A (zh) 一种将深度学习与数学分析相结合的句子分类改进方法
CN110427458B (zh) 基于双门lstm的社交网络双语的五分类情感分析方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN111639186B (zh) 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN110472245B (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN111985247A (zh) 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
CN113343690B (zh) 一种文本可读性自动评估方法及装置
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN109062958B (zh) 一种基于TextRank和卷积神经网络的小学作文自动分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201117

Termination date: 20211018

CF01 Termination of patent right due to non-payment of annual fee