CN110717330A - 基于深度学习的词句级短文本分类方法 - Google Patents
基于深度学习的词句级短文本分类方法 Download PDFInfo
- Publication number
- CN110717330A CN110717330A CN201910901086.8A CN201910901086A CN110717330A CN 110717330 A CN110717330 A CN 110717330A CN 201910901086 A CN201910901086 A CN 201910901086A CN 110717330 A CN110717330 A CN 110717330A
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- convolution
- input
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 56
- 230000006403 short-term memory Effects 0.000 claims abstract description 25
- 230000007787 long-term memory Effects 0.000 claims abstract description 22
- 238000011176 pooling Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000000750 progressive effect Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 23
- 125000004122 cyclic group Chemical group 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000013145 classification model Methods 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 42
- 238000013527 convolutional neural network Methods 0.000 description 10
- 230000003068 static effect Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 239000002131 composite material Substances 0.000 description 5
- 239000002356 single layer Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于深度学习的词句级短文本分类方法,属于自然语言处理技术领域。该方法基于词向量技术将词特征与句特征结合以表现复杂文本特征,通过卷积神经网络多个卷积核对单句句内的词向量进行卷积池化并连接全部特征图获得句向量,再将句向量按时序输入长短期记忆网络进行上下文关联以更好的表达文本内容。将待分类短文本数据经分句、分词、去除停用词并转化词向量等处理后输入词句级卷积循环神经网络进行训练,最终可获得短文本分类模型并完成短文本分类任务。该方法在测试的中文垃圾电子邮件分类与新闻文本分类上均有着较好的表现。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于深度学习的词句级短文本分类方法。
背景技术
随着计算机数据处理技术的发展,文本分类技术逐渐成熟并得到广泛的应用,其可应用的领域包括情感分析、主题分类、垃圾邮件检测等。而深度学习技术的发展,逐渐突出了卷积神经网络和循环神经网络两大重要的人工神经网络分支。于是,卷积神经网络利用其提取局部特征与有效降低权重参数的特性可较好的应用于计算机视觉的领域;循环神经网络对于前后输入的记忆与关联能力较强,善于处理序列及时间序列问题,因而常常应用于计算机认知科学的领域。
考虑到文本内容的线性逻辑结构,学者们利用循环神经网络擅长处理时序数据的特点将其应用于文本分类中,进而衍生出矩阵向量循环神经网络(MV-RNN)、双向改进循环神经网络(Bi-LSTM)等结构。词向量的发现,使学者们尝试在文本分类中引入卷积神经网络,并提出了单层卷积神经网络(CNN-no static)、字符级的卷积神经网络(ConvNets)等结构。
基于单层网络特征提取的局限性,有学者考虑利用复合网络模型完成深度特征的提取。因此,以Aleksandr Sboev等人为代表的C-RNN的研究者们,提出了一种结合CNN(卷积神经网络)、MLP(多层神经网络)和LSTM(长短期记忆网络)的网络结构应用于文本分类领域。这种结构延伸出了一系列的研究,并实现了英文短文本分类、基于推特内容的交通事件检测模型与中文微博文本的情感分析等任务的处理。
然而,目前的C-RNN研究更多倾向于改变卷积核或循环神经网络,尝试增加特征提取深度来获得更高的分类结果。实际上,很多研究都忽略了将句子层与词层结合研究,进行特征复合来进行复杂特征提取。因此,本发明提出了一种将词特征与句子特征结合的方法,基于词向量获得的词特征构建句子特征来表现短文本语义,进而实现文本的分类。
发明内容
本发明的目的在于提供一种基于深度学习的词句级短文本分类方法,通过构建并训练所提出的词句级卷积循环神经网络模型实现。首先对输入的文本进行预处理操作,之后通过迭代卷积网络对输入文本每个句子中的词进行卷积池化计算提取句内词特征,然后将卷积网络输出的表达每个句子特征的向量依次输入长短期记忆网络进行全局关联,最后经过全连接层输出分类结果。
本发明的目的是这样实现的:
基于深度学习的词句级短文本分类方法,包括如下步骤:
步骤一:获取待分类的文本数据及标签;
步骤二:处理文本数据,通过Word2Vector训练获得词向量源表与检索词向量源表的词标签表;
步骤三:通过识别尾缀符对文本数据进行分句处理,之后递归的对每个句子进行分词、去除停用词操作,最后通过词标签表检索词向量源表中的词向量来表示词,并根据句内词维数与句子要求进行Padding操作;最终将文本转化为y×x×z的三维张量,其中y为句维数、x为句内词维数、z为词向量维数;
步骤四:使用多卷积核对输入张量进行一维卷积计算,卷积后的特征图高度为H2=(H1-F+2P)/S+1,其中F表示卷积核维度的大小,P表示Padding的尺寸,S表示卷积步长,通过n个卷积核的计算,每个句子最终获得n张一维卷积特征图;
步骤五:使用一维最大池化MaxPooling1D对卷积后的结果进行池化以提取句子的核心特征,池化后每个卷积核计算出的特征图将压缩为一个单一值,每个句子的特征由n个特征图池化后连接得到的n维向量表示,其将作为长短期记忆层某一时序下的输入;
步骤六:通过卷积层与池化层递归的对每个句子进行计算,获得总时序y下长短期记忆层的输入;
步骤七:将长短期记忆层的输出作为输入进入全连接层,用以平展网络的输出,全连接层输出维度为数据的类别数目并将Softmax函数作为分类器,通过计算全连接层的输出实现分类,其计算式为其中,y(i)代表输出层第i个神经元的值,y(k)代表输出层中第k个神经元的值,exp代表以e为底的指数函数。
所述步骤四中使用一维卷积层对输入进行卷积操作,卷积核大小设置为5,步长为1,数目256个。
所述步骤五中一维最大池化计算式为ht=max(Hj),其中ht表示长短期记忆层在t时刻的输入句向量连接式为Ht=[ht(1);ht(2);...;ht(n)]。
所述步骤六中长短期记忆网络在时序t时单一节点的递进计算公式为ft=σ(Wf×[ht-1,ht]+bf),it=σ(Wi×[ht-1,ht]+bi), ot=σ(Wo×[ht-1,ht]+bo),h't=ot*tanh(ct),其中,ft表示遗忘门,σ表示sigmoid函数,Wf表示遗忘门的权重矩阵,ht-1代表LSTM网络上个时刻的输出,ht表示长短期记忆层在t时刻的输入,[ht-1,ht]表示把当前向量合并至前序向量中,bf为遗忘门的偏置值;it表示输入门,Wi表示输入门的权重矩阵,bi表示输入门的偏置值;表示根据上一次的输出和当前的输入计算获得的当前输入的状态,WC表示当前输入状态的权重矩阵,bC表示当前输入状态的偏置值;Ct表示由遗忘门ft乘上一时刻的单元状态Ct-1加输入门it乘当前输入状态的和计算出的当前时刻状态,这样就把长短期记忆层长期的记忆Ct-1与当前记忆结合在一起形成新的状态Ct;ot表示输出门,Wo代表输出门的权重,bo代表输出门的偏置值;h't表示长短期记忆层最终的输出。
所述步骤六中在长短记忆层的每层门后加入Dropout机制。
所述步骤七中在全连接层后均加入Dropout机制,全连接层节点后接入ReLU激活函数。
本发明有益效果在于:
(1)相比于当前诸如Bi-LSTM、CNN-no static等单层神经网络特征维度上的表现,本发明基于复合神经网络实现,其特征维度要高于前述单层神经网络;
(2)相比于当前的种种C-RNN结构在提取特征深度上的突破,本发明在特征提取中保留了句子结构,通过CNN与RNN分别实现句内词间关系与句间关系的提取;
(3)相比于当前的网络输入多数为二维矩阵的情况,本发明的网络输入结构为三维张量;
(4)本发明由于以句子为单位限定了不同文本卷积池化迭代的次数需相同,由本方法进行分类,文本篇幅差距不宜过大,因此较为适用于短文本分类。
附图说明
图1为词句级卷积循环神经网络模型结构图。
具体实施方式
下面结合发明内容,通过以下实施例阐述本发明的一种详细实施方案与效果。
一种基于深度学习的词句级卷积循环神经网络短文本分类方法,用于处理短文本分类任务。本发明的核心在于基于词向量技术,通过连接卷积神经网络多个卷积核卷积池化句内词向量获得的多组特征图实现句向量,进而保留文本的句子层结构,完成句子内容的表达。句子是承载词汇的结构,因此句的本质仍然为词。由词向量构成的二维矩阵经过n个卷积核进行一维卷积并最大池化后,将得到一个由多个特征图组成的n维向量。这个n维向量体现了句内特征,反之最初的二维矩阵仅为词向量的顺位连接,没有产生内部关联性。因此,卷积后连接特征图产生的句向量更适合承载句子体。此外,文本、句、词是依次向后包含的关系,且语言是一种线性结构。因此语言的认知一般从文本由前到后并依次按照词、句、文的顺序理解。将循环神经网络置于卷积神经网络之后也恰好使复合结构先学习词特征再学习句特征,且从单句的处理角度看,识别句内词特征后就将该句与上文关联记忆,也符合这种一般的语言认知方式。
步骤一:获取待分类的文本数据及标签。
本实施例选取了两种不同的中文短文本数据集训练网络以检验本发明提出的词句级模型在不同短文本分类的表现效果。其中,第一类数据集为CSDN提供的真实垃圾电子邮件数据集,共43916条。该数据集包括一般电子邮件16556封与垃圾电子邮件27360封,为二分类数据。本实施例在一般电子邮件与垃圾电子邮件中分别随机选取6500条数据共13000条数据作为神经网络训练的数据集。第二类数据集为新闻数据集THUCNews,它是根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,均为UTF-8纯文本格式。本实施例在原始新浪新闻分类体系的基础上,重新整合划分出十个候选分类类别:体育、财经、房产、家居、教育、科技、时尚、时政、游戏、娱乐,并在每个类别中获取6500条数据共65000条数据作为神经网络训练数据集。具体的数据集信息如表1所示。
表1文本分类数据集信息表
数据集 | 训练数据 | 验证数据 | 测试数据 | 类别 | 分类任务 | 语言 |
真实垃圾邮件数据集 | 10000 | 1000 | 2000 | 2 | 邮件分类 | 中文 |
THUCNews | 50000 | 5000 | 10000 | 10 | 新闻分类 | 中文 |
步骤二:处理文本数据,通过Word2Vector训练获得词向量源表与检索词向量源表的词标签表。
词向量完成了字符到值的数值转化。Word2Vector为Google开发的开源词嵌入工具,通过语料训练获得词向量。分词即把句子拆分成若干单词或词组的过程,是处理中文文本的关键。去除停用词即降低无权重或低权重词汇的数量,提高保留词汇的价值,进而获得更好的文本分析结果。本例借助jieba分词包实现了分词操作,并利用哈尔滨工业大学停用词词库,实现去除停用词。将文本数据经分词与去除停用词处理后利用Word2Vector训练词向量。两个数据集最终获得的词向量表信息如表2所示。
表2词向量信息表
数据集 | 词汇表大小 | 词向量维数 |
真实垃圾邮件数据集 | 104674 | 100 |
THUCNews | 412955 | 100 |
步骤三:数据预处理。
通过识别尾缀符对文本数据进行分句处理,之后递归的对每个句子进行分词、去除停用词等操作,最后通过词标签表检索词向量源表中的词向量来表示词,并根据句内词维数与句子要求进行Padding操作。最终将文本转化为y×x×z的三维张量,其中y为句维数(即限定的句子的个数)、x为句内词维数(即限定的一个句子内次的个数)、z为词向量维数。
步骤四:构建复合神经网络模型。
按照图1所示的词句级卷积循环神经网络模型结构构建网络,具体的网络结构参数(超参数)如表3所示。
表3网络结构参数表
参数名称 | 参数值 |
句内词维数 | 50 |
句维数 | 30 |
词向量维数 | 100 |
卷积核尺寸 | 5 |
卷积核个数 | 64 |
卷积步长 | 1 |
长短期记忆层层数 | 2 |
长短期记忆层单层节点个数 | 64 |
全链接层节点个数 | 128 |
Dropout保留率 | 0.5 |
分类层节点个数 | 2 |
步骤五:网络训练与测试。
词句级神经网络的工作原理包括:
1)使用多卷积核对输入张量进行一维卷积计算,卷积后的特征图高度通过公式(1)计算。一维卷积计算公式见式(2)。通过n个卷积核的计算,每个句子最终将获得n张一维卷积特征图。
H2=(H1-F+2P)/S+1 (1)
2)使用一维最大池化MaxPooling1D对卷积后的结果进行池化以提取句子的核心特征,一维最大池化公式见式(3)。池化后每个卷积核计算出的特征图将会压缩为一个单一值,每个句子的特征由n个特征图池化后连接得到的n维向量表示,其将作为长短期记忆层某一时序下的输入。句向量连接公式见式(4)。
ht=max(Hj) (3)
Ht=[ht(1);ht(2);...;ht(n)] (4)
3)通过卷积层与池化层递归的对每个句子进行计算,可获得总时序y下长短期记忆层的输入。长短期记忆网络可以将前后文的句向量按序关联并把握全文语义,进而实现短文本分类。长短期记忆网络作为一种优化的循环神经网络结构,其在时序t时单一节点的递进计算式见式(5)到(10)。
ft=σ(Wf×[ht-1,ht]+bf) (5)
it=σ(Wi×[ht-1,ht]+bi) (6)
ot=σ(Wo×[ht-1,ht]+bo) (9)
h't=ot*tanh(ct) (10)
其中,ft表示遗忘门,σ表示sigmoid函数,Wf表示遗忘门的权重矩阵,ht-1代表LSTM网络上个时刻的输出,ht表示长短期记忆层在t时刻的输入,[ht-1,ht]表示把当前向量合并至前序向量中,bf为遗忘门的偏置值;it表示输入门,Wi表示输入门的权重矩阵,bi表示输入门的偏置值;表示根据上一次的输出和当前的输入计算获得的当前输入的状态,WC表示当前输入状态的权重矩阵,bC表示当前输入状态的偏置值;Ct表示由遗忘门ft乘上一时刻的单元状态Ct-1加输入门it乘当前输入状态的和计算出的当前时刻状态,这样就把长短期记忆层长期的记忆Ct-1与当前记忆结合在一起形成新的状态Ct;ot表示输出门,Wo代表输出门的权重,bo代表输出门的偏置值;h't表示长短期记忆层最终的输出。
4)将长短期记忆层的输出作为输入进入全连接层,用以平展网络的输出。全连接层输出维度为数据的类别数目并将Softmax函数作为分类器,通过计算全连接层的输出实现分类,其计算公式见式(11)。
其中,y(i)代表输出层第i个神经元的值,y(k)代表输出层中第k个神经元的值,exp代表以e为底的指数函数。
神经网络的训练参数如表4所示。
表4训练参数表
参数名称 | 参数含义 | 参数值 |
batch_size | 批尺寸 | 64 |
epoch_size | 数据代次数 | 10 |
learning_rate | 学习率 | 0.001 |
learning_rate_decaty | 学习率衰减率 | 0.9 |
分别对两类数据集进行训练,并对测试数据测试所得结果进行对比分析,如表5所示。其中,训练垃圾电子邮件数据所得CNN-no static为本例还原的CNN-no static网络,在THUCNews的结果中,CNN-no static与Bi-LSTM为gaussic的实验结果。
表5文本分类实验结果表
方法 | 真实垃圾邮件数据集 | THUCNews |
CNN-no static | 98.95% | 96.04% |
Bi-LSTM | - | 94.22% |
word-sentence-RCNN | 99.35% | 95.87% |
此外,在步骤3)与步骤4)中,为了有效遏制深度学习训练中的过拟合问题,在长短期记忆层的每层门后以及全连接层后均加入了Dropout机制。在步骤4)中,全连接层节点后接入了ReLU激活函数用以模拟生物神经元的兴奋与抑制态,ReLU激活函数见式(12)。如果没有激活函数的存在,神经网络仅为纯粹的矩阵叠加计算。
ReLU(x)=max(0,x) (12)
根据实验结果,本发明提出的词句级分类方法较为有效的解决了不同程度类别需求的短文本分类问题。在中文垃圾电子邮件分类中,word-sentence-RCNN的表现强于CNN-no static,而在新闻分类上,尽管CNN-no static的准确率最高,达到96.04%,但word-sentence-RCNN也比较接近于该值。
由于以句子为单位限定了不同文本卷积池化迭代的次数需相同,由本方法进行分类,文本篇幅差距不宜过大,因此较为适用于短文本分类。由于句向量由句内词向量经卷积池化连接而来,因此称本发明的C-RNN结构为词句级结构,该方法亦称为词句级短文本分类方法。
本发明的保护内容包括但不局限于以上实施例。在不背离发明构思的情况下,本领域技术人员设计出的与该技术方案相似的方法步骤及实施例或根据本发明做出的改进和替换,以所附的权利要求书为准,均属于本发明的保护范围。
Claims (7)
1.基于深度学习的词句级短文本分类方法,其特征在于,包括:
步骤一:获取待分类的文本数据及标签;
步骤二:处理文本数据,通过Word2Vector训练获得词向量源表与检索词向量源表的词标签表;
步骤三:通过识别尾缀符对文本数据进行分句处理,之后递归的对每个句子进行分词、去除停用词操作,最后通过词标签表检索词向量源表中的词向量来表示词,并根据句内词维数与句子要求进行Padding操作;最终将文本转化为y×x×z的三维张量,其中y为句维数、x为句内词维数、z为词向量维数;
步骤四:使用多卷积核对输入张量进行一维卷积计算,卷积后的特征图高度为H2=(H1-F+2P)/S+1,其中F表示卷积核维度的大小,P表示Padding的尺寸,S表示卷积步长,通过n个卷积核的计算,每个句子最终获得n张一维卷积特征图;
步骤五:使用一维最大池化MaxPooling1D对卷积后的结果进行池化以提取句子的核心特征,池化后每个卷积核计算出的特征图将压缩为一个单一值,每个句子的特征由n个特征图池化后连接得到的n维向量表示,其将作为长短期记忆层某一时序下的输入;
步骤六:通过卷积层与池化层递归的对每个句子进行计算,获得总时序y下长短期记忆层的输入;
3.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤四中使用一维卷积层对输入进行卷积操作,卷积核大小设置为5,步长为1,数目256个。
4.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤五中一维最大池化计算式为ht=max(Hj),其中ht表示长短期记忆层在t时刻的输入句向量连接式为Ht=[ht(1);ht(2);...;ht(n)]。
5.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤六中长短期记忆网络在时序t时单一节点的递进计算公式为ft=σ(Wf×[ht-1,ht]+bf),it=σ(Wi×[ht-1,ht]+bi),ot=σ(Wo×[ht-1,ht]+bo),h't=ot*tanh(ct),其中,ft表示遗忘门,σ表示sigmoid函数,Wf表示遗忘门的权重矩阵,ht-1代表LSTM网络上个时刻的输出,ht表示长短期记忆层在t时刻的输入,[ht-1,ht]表示把当前向量合并至前序向量中,bf为遗忘门的偏置值;it表示输入门,Wi表示输入门的权重矩阵,bi表示输入门的偏置值;表示根据上一次的输出和当前的输入计算获得的当前输入的状态,WC表示当前输入状态的权重矩阵,bC表示当前输入状态的偏置值;Ct表示由遗忘门ft乘上一时刻的单元状态Ct-1加输入门it乘当前输入状态的和计算出的当前时刻状态,这样就把长短期记忆层长期的记忆Ct-1与当前记忆结合在一起形成新的状态Ct;ot表示输出门,Wo代表输出门的权重,bo代表输出门的偏置值;h't表示长短期记忆层最终的输出。
6.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤六中在长短记忆层的每层门后加入Dropout机制。
7.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤七中在全连接层后均加入Dropout机制,全连接层节点后接入ReLU激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910901086.8A CN110717330A (zh) | 2019-09-23 | 2019-09-23 | 基于深度学习的词句级短文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910901086.8A CN110717330A (zh) | 2019-09-23 | 2019-09-23 | 基于深度学习的词句级短文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110717330A true CN110717330A (zh) | 2020-01-21 |
Family
ID=69209977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910901086.8A Pending CN110717330A (zh) | 2019-09-23 | 2019-09-23 | 基于深度学习的词句级短文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717330A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597792A (zh) * | 2020-03-05 | 2020-08-28 | 苏州浪潮智能科技有限公司 | 一种句子级卷积lstm的训练方法、设备及可读介质 |
CN111665819A (zh) * | 2020-06-08 | 2020-09-15 | 杭州电子科技大学 | 一种基于深度学习多模型融合的复杂化工过程故障诊断方法 |
CN111723572A (zh) * | 2020-06-12 | 2020-09-29 | 广西师范大学 | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 |
CN111859936A (zh) * | 2020-07-09 | 2020-10-30 | 大连理工大学 | 一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法 |
CN111859955A (zh) * | 2020-07-03 | 2020-10-30 | 中山大学 | 一种基于深度学习的舆情数据分析模型 |
CN112364638A (zh) * | 2020-10-13 | 2021-02-12 | 北京工业大学 | 一种基于社交文本的人格识别方法 |
CN112507117A (zh) * | 2020-12-16 | 2021-03-16 | 中国南方电网有限责任公司 | 一种基于深度学习的检修意见自动分类方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN108334605A (zh) * | 2018-02-01 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN108595632A (zh) * | 2018-04-24 | 2018-09-28 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
CN109840279A (zh) * | 2019-01-10 | 2019-06-04 | 山东亿云信息技术有限公司 | 基于卷积循环神经网络的文本分类方法 |
CN110263152A (zh) * | 2019-05-07 | 2019-09-20 | 平安科技(深圳)有限公司 | 基于神经网络的文本分类方法、系统及计算机设备 |
-
2019
- 2019-09-23 CN CN201910901086.8A patent/CN110717330A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN108334605A (zh) * | 2018-02-01 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN108595632A (zh) * | 2018-04-24 | 2018-09-28 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
CN109840279A (zh) * | 2019-01-10 | 2019-06-04 | 山东亿云信息技术有限公司 | 基于卷积循环神经网络的文本分类方法 |
CN110263152A (zh) * | 2019-05-07 | 2019-09-20 | 平安科技(深圳)有限公司 | 基于神经网络的文本分类方法、系统及计算机设备 |
Non-Patent Citations (1)
Title |
---|
郭浩 等: "基于CNN 和BiLSTM 的短文本相似度计算方法", 《信息技术与网络安全》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597792A (zh) * | 2020-03-05 | 2020-08-28 | 苏州浪潮智能科技有限公司 | 一种句子级卷积lstm的训练方法、设备及可读介质 |
CN111597792B (zh) * | 2020-03-05 | 2023-01-06 | 苏州浪潮智能科技有限公司 | 一种句子级卷积lstm的训练方法、设备及可读介质 |
CN111665819A (zh) * | 2020-06-08 | 2020-09-15 | 杭州电子科技大学 | 一种基于深度学习多模型融合的复杂化工过程故障诊断方法 |
CN111723572A (zh) * | 2020-06-12 | 2020-09-29 | 广西师范大学 | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 |
CN111723572B (zh) * | 2020-06-12 | 2021-11-19 | 广西师范大学 | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 |
CN111859955A (zh) * | 2020-07-03 | 2020-10-30 | 中山大学 | 一种基于深度学习的舆情数据分析模型 |
CN111859936A (zh) * | 2020-07-09 | 2020-10-30 | 大连理工大学 | 一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法 |
CN112364638A (zh) * | 2020-10-13 | 2021-02-12 | 北京工业大学 | 一种基于社交文本的人格识别方法 |
CN112364638B (zh) * | 2020-10-13 | 2022-08-30 | 北京工业大学 | 一种基于社交文本的人格识别方法 |
CN112507117A (zh) * | 2020-12-16 | 2021-03-16 | 中国南方电网有限责任公司 | 一种基于深度学习的检修意见自动分类方法及系统 |
CN112507117B (zh) * | 2020-12-16 | 2024-02-13 | 中国南方电网有限责任公司 | 一种基于深度学习的检修意见自动分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595632B (zh) | 一种融合摘要与主体特征的混合神经网络文本分类方法 | |
CN109472024B (zh) | 一种基于双向循环注意力神经网络的文本分类方法 | |
CN110609897B (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN110717330A (zh) | 基于深度学习的词句级短文本分类方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN110502753A (zh) | 一种基于语义增强的深度学习情感分析模型及其分析方法 | |
CN111078833B (zh) | 一种基于神经网络的文本分类方法 | |
CN109165387A (zh) | 一种基于gru神经网络的中文评论情感分析法 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN112487189B (zh) | 一种图卷积网络增强的隐式篇章文本关系分类方法 | |
CN110851593B (zh) | 一种基于位置与语义的复值词向量构建方法 | |
CN109101490B (zh) | 一种基于融合特征表示的事实型隐式情感识别方法和系统 | |
CN110175221A (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN111753088A (zh) | 一种自然语言信息的处理方法 | |
CN116049387A (zh) | 一种基于图卷积的短文本分类方法、装置、介质 | |
CN115544252A (zh) | 一种基于注意力静态路由胶囊网络的文本情感分类方法 | |
CN116578705A (zh) | 基于预训练语言模型与集成神经网络的微博情感分类方法 | |
CN113204640B (zh) | 一种基于注意力机制的文本分类方法 | |
CN112199503B (zh) | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 | |
CN113177417A (zh) | 一种基于混合神经网络和多级注意力机制的触发词识别方法 | |
CN113065350A (zh) | 一种基于注意力神经网络的生物医学文本词义消岐方法 | |
CN113159831A (zh) | 一种基于改进的胶囊网络的评论文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200121 |