CN112231477A - 一种基于改进胶囊网络的文本分类方法 - Google Patents
一种基于改进胶囊网络的文本分类方法 Download PDFInfo
- Publication number
- CN112231477A CN112231477A CN202011126137.3A CN202011126137A CN112231477A CN 112231477 A CN112231477 A CN 112231477A CN 202011126137 A CN202011126137 A CN 202011126137A CN 112231477 A CN112231477 A CN 112231477A
- Authority
- CN
- China
- Prior art keywords
- capsule
- text
- layer
- word
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000002775 capsule Substances 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000005096 rolling process Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 1
- 230000008451 emotion Effects 0.000 abstract description 31
- 238000004458 analytical method Methods 0.000 abstract description 20
- 238000002474 experimental method Methods 0.000 abstract description 10
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理技术领域,公开了一种基于改进胶囊网络的文本分类方法,包括文本数据预处理、文本建模将文本数据转换成向量数据,利用胶囊网络的局部语义特征提取模型利用双层胶囊层进行局部特征提取,并通过构建BiLSTM模型对文本向量进行上下文信息提取,最后通过softmax函数进行文本分类。与现有技术相比,本发明通过改进胶囊网络的BiLSTM‑CapsNet混合模型进行文本情感分析分类,在使用胶囊网络进行局部特征提取时,使用两层特征提取,有效的提高了短文本情感分析的准确率,提高了文本分类精度,该方法在细粒度和粗粒度情感分析实验中相较于其他方法都具有较明显的优势。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于改进胶囊网络的文本分类方法。
背景技术
随着互联网技术的快速发展,微信、QQ、微博等社交媒体用户数数以亿计,由此产生了大量的文本数据,其内容包括新闻资讯、热点事件、产品评论、娱乐八卦等众多方面,能够直观的反应用户的情感倾向。近年来,文本情感分析在政府舆情监控、企业管理决策、个人情绪管理等应用中发挥着重要的作用。
现有的文本分类研究基于不同的监督环境产生了三种主要的方法,非监督环境下的基于情感词典方法、监督环境下的基于机器学习方法和基于神经网络方法。基于情感词典方法方面,中国专利CN 111414755 A公开了一种基于细粒度情感词典的网络情绪分析方法,根据现有的情感资料构建细粒度微博情感词典,其存在实时性差的问题。中国专利CN105005553 B公开了一种基于词频统计的方法构建基础情感词典,对候选词语与基础情感词典中词汇的统计相关性计算来判别它的情感倾向,从而扩充基础词典,同样实时性差。基于机器学习方法方面,中国专利CN 110580286 A公开了一种基于类间信息熵的文本特征选择方法,计算出每个特征对类别的相关性大小,得分高的部分特征用于文本表示可以提升分类效果,但人为构造的文本特征过多。基于神经网络方法方面,中国专利CN 107943967 B公开了一种基于多角度卷积神经网络与循环神经网络的文本分类算法,捕获不同的文本高层特征表达,提高分类效果,但是循环神经网络存在梯度消失的问题,卷积神经网络存在不能很好的提取情感词在全文中的位置语义信息的问题。
目前,现有的文本分类方法普遍存在文本分类精度不高、短文本情感分析的准确率低,不能提取情感词在全文中的位置语义信息问题。如何解决上述问题是目前急需解决的问题。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于改进胶囊网络的文本分类方法,通过一种改进胶囊网络的BiLSTM-CapsNet混合模型进行文本情感分类,该模型由BiLSTM模型和改进CapsNet模型组成,结合BiLSTM模型和改进CapsNet模型构成BiLSTM-CapsNet混合模型对数据集进行训练,有效的提高了短文本情感分析的准确率,提高了文本分类精度。
技术方案:本发明提供了一种基于改进胶囊网络的文本分类方法,包括如下步骤:
步骤1:获取文本数据并对其进行文本标签设定,将其分为训练文本数据与测试文本数据,对数据预处理,去除噪声,保留具有语义特征的词汇;
步骤2:对所述去除了噪声的文本数据进行文本建模,将文本数据中的词汇转化成词向量,并将词向量进行拼接,形成文档向量;
步骤3:对步骤2中所述文档向量利用胶囊网络构建局部语义特征提取模型,进行局部语义特征提取,所述局部语义特征提取模型包括一层卷积层、两层胶囊层以及一个全连接层,卷积层通过卷积操作来提取各个位置的局部特征,两层胶囊层使用动态路由操作代替池化操作,进行两次胶囊层的特征提取;全连接层用于文本分类;
步骤4:构建BiLSTM模型,对所述步骤3中胶囊网络输出的文本向量进行上下文信息提取;
步骤5:通过步骤3胶囊网络的全连接层和softmax函数进行文本分类。
进一步地,所述步骤1中数据预处理包括:
(1)过滤文本数据中的标点符号和特殊字符;
(2)使用分词工具对其进行分词,若是英文这步操作省略;
(3)将所述文本数据使用哈工大停用词表去除没有具体语义的停用词等噪声数据;
(4)将所述文本标签数据转化为数值型数据。
进一步地,所述局部语义特征提取模型包括标准的卷积层、主胶囊层以及卷积胶囊层,标准的卷积层通过多个不同的卷积核在文本句子的不同位置提取特征;主胶囊层将卷积操作中的标量输出替换为矢量输出,保留文本的单词顺序和语义信息;卷积胶囊层通过与变换矩阵相乘来计算子胶囊与父胶囊的关系,然后根据路由协议计算出上层胶囊层。
进一步地所述局部语义特征提取模型进行特征提取的详细步骤包括:
1)标准的卷积层
该层卷积层通过卷积在文本的不同位置提取N-gram特征,若X为文本中的一条文本,其长度为L,词嵌入大小为V,即X的维度大小为L×V,Xi为文本X中的第i个词语,Xi的维度为V;设N-gram滑动大小为K1,Wα为卷积运算操作的滤波器,则Wα的维度为K1×V,滤波器每次移动的单词窗口为Xi至Xi+K1-1,产生的特征为mα,其维度为L-K1+1,则每个单词特征mi的特征如下:
其中,b0为偏置项,f()为非线性激活函数,若有B个滤波器,即α=1,2,...B,则所得的特征M的维度为(L-K1+1)×B;
2)主胶囊层
设胶囊的维度为d,pi为N-gram产生的实例化参数,Mi为每个滑动窗口的向量其维度为B,Wb表示为不同的滑动窗口的共享滤波器,其维度为B×d;生成胶囊P的维度为(L-K1+1)×d,则Pi的表示如下:
Pi=g(WbMi+b1)
其中,g()表示非线性压缩函数,b1为胶囊的偏置项,对于所有的滤波器C来说,胶囊特征P可以表示为如下所述:
其中,P的维度为(L-K1+1)×d×C;
3)卷积胶囊层
胶囊通过与变换矩阵相乘来计算子胶囊与父胶囊的关系,然后根据路由协议计算出上层胶囊层。
进一步地所述标准的卷积层采用滤波器为3×100,4×100,5×100大小滤波器各128个,进行卷积运算。
进一步地所述步骤2中利用Word2vec工具依赖词袋模型或跳字模型将不可计算的非结构化的文本词汇转化成结构化的高维实数向量。
进一步地,所述BiLSTM模型以将局部语义特征提取模型的输出作为输入,设置隐藏层,激活函数为sigmoid,将输入序列从BiLSTM模型的两个方向输入,通过所述隐藏层提取文本的上下文信息。
有益效果:
本发明提供一种改进胶囊网络的BiLSTM-CapsNet混合模型进行文本情感分析分类,该方法在使用胶囊网络进行局部特征提取时,使用一层卷积层和两层胶囊层进行特征提取,使用动态路由操作代替池化操作,进行两次胶囊层的特征提取,有效的提高了短文本情感分析的准确率,提高了文本分类精度,该方法在细粒度和粗粒度情感分析实验中相较于其他方法都具有较明显的优势。
附图说明
图1为基于BiLSTM-CapsNet混合模型框图;
图2为改进胶囊网络用于文本分类模型结构图;
图3为卷积操作工作原理示意图;
图4为BiLSTM模型图;
图5为基于BiLSTM-CapsNet混合分类模型流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明公开了一种基于改进胶囊网络的文本分类方法,包括如下步骤:
步骤1:获取文本数据并对其进行文本标签设定,将其分为训练文本数据与测试文本数据,对数据预处理,去除噪声,保留具有语义特征的词汇。去除噪声主要包括:
(1)过滤文本数据中的标点符号和特殊字符;
(2)使用分词工具对其进行分词,若是英文这步操作省略;
(3)将所述文本数据使用哈工大停用词表去除没有具体语义的停用词等噪声数据;
(4)将所述文本标签数据转化为数值型数据。
步骤2:对去除了噪声的文本数据进行文本建模,将文本数据中的词汇转化成词向量,并将词向量进行拼接,形成文档向量。本发明通过Word2vec将文本中的词汇转化成词向量,Word2vec将每个词映射到一个高维向量中,训练所得的向量可以表示词对词之间的关系。Word2Vec主要依赖词袋模型(Continues Bag ofWords,CBOW)或跳字模型(Skip-gram)将不可计算的非结构化的文本词汇转化成可计算的结构化的高维实数向量。
通过Word2vec将文本中的词汇转化成词向量,设置文本预处理词向量维度为100,然后将词向量进行拼接,形成文档向量,如下所示:
其中,W(i)表示词语,V(W(i))表示词语对应的词向量。Sij表示词向量矩阵,⊕表示词向量的拼接操作。
步骤3:对步骤2中文档向量利用胶囊网络构建局部语义特征提取模型,进行局部语义特征提取,局部语义特征提取模型包括一层卷积层和两层胶囊层以及用于文本分类的全连接层,卷积层通过卷积操作来提取各个位置的局部特征,胶囊层使用动态路由操作代替池化操作,进行两次特征提取。
局部语义特征提取模型包括标准的卷积层、主胶囊层以及卷积胶囊层,标准的卷积层通过多个不同的卷积核在文本句子的不同位置提取特征。主胶囊层将卷积操作中的标量输出替换为矢量输出,保留文本的单词顺序和语义信息。卷积胶囊层通过与变换矩阵相乘来计算子胶囊与父胶囊的关系,然后根据路由协议计算出上层胶囊层。
1)标准的卷积层
该层卷积层通过卷积在文本的不同位置提取N-gram特征,若X为文本中的一条文本,其长度为L,词嵌入大小为V,即X的维度大小为L×V,Xi为文本X中的第i个词语,Xi的维度为V;设N-gram滑动大小为K1,Wα为卷积运算操作的滤波器,则Wα的维度为K1×V,滤波器每次移动的单词窗口为Xi至Xi+K1-1,产生的特征为mα,其维度为L-K1+1,则每个单词特征mi的特征如下:
其中,b0为偏置项,f()为非线性激活函数,若有B个滤波器,即α=1,2,...B,则所得的特征M的维度为(L-K1+1)×B。
2)主胶囊层
设胶囊的维度为d,pi为N-gram产生的实例化参数,Mi为每个滑动窗口的向量其维度为B,Wb表示为不同的滑动窗口的共享滤波器,其维度为B×d;生成胶囊P的维度为(L-K1+1)×d,则Pi的表示如下:
Pi=g(WbMi+b1)
其中,g()表示非线性压缩函数,b1为胶囊的偏置项,对于所有的滤波器C来说,胶囊特征P可以表示为如下所述:
其中,P的维度为(L-K1+1)×d×C。
3)卷积胶囊层
卷积胶囊层的的胶囊维度与多标签文本分类的分类数量相关,每一层都代表了每一个类型的概率,而主胶囊层的胶囊维度可任意设置。胶囊通过与变换矩阵相乘来计算子胶囊与父胶囊的关系,然后根据路由协议计算出上层胶囊层。
本发明中,卷积层采用滤波器为3×100,4×100,5×100大小滤波器各128个,进行卷积运算,通过卷积操作来提取各个位置的局部特征。
Oij=Conv(Sij)
其中,Oit表示Conv层的输出。使用动态路由操作代替池化操作,进行两次胶囊层的特征提取。
gij=CapsNet(Oij)
其中,gij表示CapsNet的输出。
步骤4:构建BiLSTM模型,对步骤3中胶囊网络输出的文本向量进行上下文信息提取。BiLSTM模型以将局部语义特征提取模型的输出gij作为输入,设置隐藏层大小为128,激活函数为sigmoid,将输入序列从BiLSTM模型的两个方向输入,通过隐藏层提取文本的上下文信息。
步骤5:通过胶囊网络全连接层和softmax函数进行情感分类。
以下结合一个具体的文本分类过程的例子来说明本发明基于改进胶囊网络的BiLSTM-CapsNet混合模型进行文本情感分析的优势。实验采用了两组数据集,一组做细粒度情感分析,另一组做粗粒度情感分析。细粒度情感分析实验数据集采用的是NLPCC2014中文微博情绪识别数据集,粗粒度情感分析实验数据集为产品评论数据集。
实验采用了python作为算法的实现语言,文本分类词向量分别取200维,文本长度取固定长度100,选用Adam作为优化函数,损失函数采用交叉熵。具体模型参数设置如表1所示。
表1模型参数设置
参数 | 设置 |
词向量 | 200 |
文本长度 | 100 |
CapsNet隐藏节点 | 64 |
BiLSTM隐藏节点 | 128 |
Loss | categorical_crossentropy |
Optimzer | Adam |
学习率 | 0.01 |
Batch_size | 128 |
Dropout | 0.2 |
实验一共对比了9组模型,其中包括SVM、K-近邻(K-Nearest Neighbor,KNN)、贝叶斯(Naive Bayes,bys)、卷积神经网络(Convolutional Neural Network,CNN)、BiLSTM、CapsNet、CNN+CapsNet、CNN+BiLSTM和本文提出的BiLSTM-CapsNet模型。从准确率、精确率、召回率和F1值四个评价指标进行比较。实验结果如表2表3所示。
表2.细粒度情感分析实验结果
表3粗粒度情感分析实验结果
模型 | 准确率 | 精确率 | 召回率 | F1 |
SVM | 0.7682 | 0.5135 | 0.5128 | 0.5121 |
Bys | 0.7282 | 0.4864 | 0.4840 | 0.4849 |
KNN | 0.5284 | 0.3522 | 0.3525 | 0.3521 |
CNN | 0.9633 | 0.9639 | 0.9633 | 0.9632 |
BiLSTM | 0.9419 | 0.9422 | 0.9418 | 0.9419 |
CapsNet | 0.9607 | 0.9607 | 0.9607 | 0.9607 |
CNN+BiLSTM | 0.9413 | 0.9413 | 0.9413 | 0.9413 |
CNN+Capsnet | 0.9381 | 0.9394 | 0.9380 | 0.9381 |
CapsNet+BiLSTM | 0.9682 | 0.9721 | 0.9659 | 0.9689 |
从表2可知本文提出的模型虽然在精确率上较CNN低了1.46%,但在准确率,召回率和F1值上相较于其他模型都达到了最好的结果。支持向量机、贝叶斯和K-近邻这三种机器学习模型在细粒度情感分析实验中结果都很差,不适合用于细粒度情感分析实验。从表3中可知,本文提出的模型在进行粗粒度情感分析的实验时相对于其他模型在各项评价指标中都达到了最好的结果。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于改进胶囊网络的文本分类方法,其特征在于,包括如下步骤:
步骤1:获取文本数据并对其进行文本标签设定,将其分为训练文本数据与测试文本数据,对数据预处理,去除噪声,保留具有语义特征的词汇;
步骤2:对所述去除了噪声的文本数据进行文本建模,将文本数据中的词汇转化成词向量,并将词向量进行拼接,形成文档向量;
步骤3:对步骤2中所述文档向量利用胶囊网络构建局部语义特征提取模型,进行局部语义特征提取,所述局部语义特征提取模型包括一层卷积层、两层胶囊层以及一个全连接层,卷积层通过卷积操作来提取各个位置的局部特征,两层胶囊层使用动态路由操作代替池化操作,进行两次胶囊层的特征提取;全连接层用于文本分类;
步骤4:构建BiLSTM模型,对所述步骤3中胶囊网络输出的文本向量进行上下文信息提取;
步骤5:通过步骤3胶囊网络的全连接层和softmax函数进行文本分类。
2.根据权利要求1所述的基于改进胶囊网络的文本分类方法,其特征在于,所述步骤1中数据预处理包括:
(1)过滤文本数据中的标点符号和特殊字符;
(2)使用分词工具对其进行分词,若是英文这步操作省略;
(3)将所述文本数据使用哈工大停用词表去除没有具体语义的停用词等噪声数据;
(4)将所述文本标签数据转化为数值型数据。
3.根据权利要求1所述的基于改进胶囊网络的文本分类方法,其特征在于,所述局部语义特征提取模型包括标准的卷积层、主胶囊层以及卷积胶囊层,标准的卷积层通过多个不同的卷积核在文本句子的不同位置提取特征;主胶囊层将卷积操作中的标量输出替换为矢量输出,保留文本的单词顺序和语义信息;卷积胶囊层通过与变换矩阵相乘来计算子胶囊与父胶囊的关系,然后根据路由协议计算出上层胶囊层。
4.根据权利要求3所述的基于改进胶囊网络的文本分类方法,其特征在于,所述局部语义特征提取模型进行特征提取的详细步骤包括:
1)标准的卷积层
该层卷积层通过卷积在文本的不同位置提取N-gram特征,若X为文本中的一条文本,其长度为L,词嵌入大小为V,即X的维度大小为L×V,Xi为文本X中的第i个词语,Xi的维度为V;设N-gram滑动大小为K1,Wα为卷积运算操作的滤波器,则Wα的维度为K1×V,滤波器每次移动的单词窗口为Xi至Xi+K1-1,产生的特征为mα,其维度为L-K1+1,则每个单词特征mi的特征如下:
其中,b0为偏置项,f()为非线性激活函数,若有B个滤波器,即α=1,2,...B,则所得的特征M的维度为(L-K1+1)×B;
2)主胶囊层
设胶囊的维度为d,pi为N-gram产生的实例化参数,Mi为每个滑动窗口的向量其维度为B,Wb表示为不同的滑动窗口的共享滤波器,其维度为B×d;生成胶囊P的维度为(L-K1+1)×d,则Pi的表示如下:
Pi=g(WbMi+b1)
其中,g()表示非线性压缩函数,b1为胶囊的偏置项,对于所有的滤波器C来说,胶囊特征P可以表示为如下所述:
其中,P的维度为(L-K1+1)×d×C;
3)卷积胶囊层
胶囊通过与变换矩阵相乘来计算子胶囊与父胶囊的关系,然后根据路由协议计算出上层胶囊层。
5.根据权利要求4所述的基于改进胶囊网络的文本分类方法,其特征在于,所述标准的卷积层采用滤波器为3×100,4×100,5×100大小滤波器各128个,进行卷积运算。
6.根据权利要求1至5任一所述的基于改进胶囊网络的文本分类方法,其特征在于,所述步骤2中利用Word2vec工具依赖词袋模型或跳字模型将不可计算的非结构化的文本词汇转化成结构化的高维实数向量。
7.根据权利要求1至5任一所述的基于改进胶囊网络的文本分类方法,其特征在于,所述BiLSTM模型以将局部语义特征提取模型的输出作为输入,设置隐藏层,激活函数为sigmoid,将输入序列从BiLSTM模型的两个方向输入,通过所述隐藏层提取文本的上下文信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011126137.3A CN112231477B (zh) | 2020-10-20 | 2020-10-20 | 一种基于改进胶囊网络的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011126137.3A CN112231477B (zh) | 2020-10-20 | 2020-10-20 | 一种基于改进胶囊网络的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231477A true CN112231477A (zh) | 2021-01-15 |
CN112231477B CN112231477B (zh) | 2023-09-22 |
Family
ID=74118186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011126137.3A Active CN112231477B (zh) | 2020-10-20 | 2020-10-20 | 一种基于改进胶囊网络的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231477B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159831A (zh) * | 2021-03-24 | 2021-07-23 | 湖南大学 | 一种基于改进的胶囊网络的评论文本情感分析方法 |
CN113190681A (zh) * | 2021-03-02 | 2021-07-30 | 东北大学 | 一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法 |
CN113257281A (zh) * | 2021-07-02 | 2021-08-13 | 四川省人工智能研究院(宜宾) | 一种对多模态情绪识别进行层次不确定性量化估计的方法 |
CN113268994A (zh) * | 2021-07-16 | 2021-08-17 | 中国平安人寿保险股份有限公司 | 基于胶囊网络的意图识别方法及装置 |
CN113283234A (zh) * | 2021-05-28 | 2021-08-20 | 天津大学 | 一种基于胶囊网络的情感分类方法 |
CN114694051A (zh) * | 2022-03-16 | 2022-07-01 | 哈尔滨工业大学水资源国家工程研究中心有限公司 | 一种基于改进CapsNet网络的电磁法管道病害识别与定位方法 |
CN114791951A (zh) * | 2022-05-13 | 2022-07-26 | 青岛文达通科技股份有限公司 | 基于胶囊网络的情感分类方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207797A (zh) * | 2013-03-15 | 2013-07-17 | 南京工业大学 | 基于通用可扩展固件接口固件系统的胶囊式定制更新方法 |
CN110046249A (zh) * | 2019-03-11 | 2019-07-23 | 中国科学院深圳先进技术研究院 | 胶囊网络的训练方法、分类方法、系统、设备及存储介质 |
CN110046671A (zh) * | 2019-04-24 | 2019-07-23 | 吉林大学 | 一种基于胶囊网络的文本分类方法 |
CN110119449A (zh) * | 2019-05-14 | 2019-08-13 | 湖南大学 | 一种基于序列增强胶囊网络的刑事案件罪名预测方法 |
CN110457710A (zh) * | 2019-08-19 | 2019-11-15 | 电子科技大学 | 一种基于动态路由机制的机器阅读理解网络模型、方法、存储介质及终端 |
US20190355474A1 (en) * | 2018-05-01 | 2019-11-21 | Blackthorn Therapeutics, Inc. | Machine learning-based diagnostic classifier |
US20190370394A1 (en) * | 2018-05-31 | 2019-12-05 | Fmr Llc | Automated computer text classification and routing using artificial intelligence transfer learning |
CN111046961A (zh) * | 2019-12-16 | 2020-04-21 | 浙江大学 | 基于双向长短时记忆单元和胶囊网络的故障分类方法 |
CN111078833A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于神经网络的文本分类方法 |
US20200159778A1 (en) * | 2018-06-19 | 2020-05-21 | Priyadarshini Mohanty | Methods and systems of operating computerized neural networks for modelling csr-customer relationships |
CN111259157A (zh) * | 2020-02-20 | 2020-06-09 | 广东工业大学 | 一种基于混合双向循环胶囊网络模型的中文文本分类方法 |
US20200265273A1 (en) * | 2019-02-15 | 2020-08-20 | Surgical Safety Technologies Inc. | System and method for adverse event detection or severity estimation from surgical data |
-
2020
- 2020-10-20 CN CN202011126137.3A patent/CN112231477B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207797A (zh) * | 2013-03-15 | 2013-07-17 | 南京工业大学 | 基于通用可扩展固件接口固件系统的胶囊式定制更新方法 |
US20190355474A1 (en) * | 2018-05-01 | 2019-11-21 | Blackthorn Therapeutics, Inc. | Machine learning-based diagnostic classifier |
US20190370394A1 (en) * | 2018-05-31 | 2019-12-05 | Fmr Llc | Automated computer text classification and routing using artificial intelligence transfer learning |
US20200159778A1 (en) * | 2018-06-19 | 2020-05-21 | Priyadarshini Mohanty | Methods and systems of operating computerized neural networks for modelling csr-customer relationships |
US20200265273A1 (en) * | 2019-02-15 | 2020-08-20 | Surgical Safety Technologies Inc. | System and method for adverse event detection or severity estimation from surgical data |
CN110046249A (zh) * | 2019-03-11 | 2019-07-23 | 中国科学院深圳先进技术研究院 | 胶囊网络的训练方法、分类方法、系统、设备及存储介质 |
CN110046671A (zh) * | 2019-04-24 | 2019-07-23 | 吉林大学 | 一种基于胶囊网络的文本分类方法 |
CN110119449A (zh) * | 2019-05-14 | 2019-08-13 | 湖南大学 | 一种基于序列增强胶囊网络的刑事案件罪名预测方法 |
CN110457710A (zh) * | 2019-08-19 | 2019-11-15 | 电子科技大学 | 一种基于动态路由机制的机器阅读理解网络模型、方法、存储介质及终端 |
CN111078833A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于神经网络的文本分类方法 |
CN111046961A (zh) * | 2019-12-16 | 2020-04-21 | 浙江大学 | 基于双向长短时记忆单元和胶囊网络的故障分类方法 |
CN111259157A (zh) * | 2020-02-20 | 2020-06-09 | 广东工业大学 | 一种基于混合双向循环胶囊网络模型的中文文本分类方法 |
Non-Patent Citations (5)
Title |
---|
DENDI: "使用Pytorch进行文本分类——BILSTM+ATTENTION", pages 1, Retrieved from the Internet <URL:《https://job.yanxishe.com/columnDetail/14483》> * |
KAI LEI等: "Tag recommendation by text classification with attention-based capsule network", 《NEUROCOMPUTING》, vol. 391, pages 65 - 73 * |
刘心惠等: "基于联合模型的多标签文本分类研究", 《计算机工程与应用》, vol. 56, no. 14, pages 111 - 117 * |
季陈等: "基于BiLSTM-CapsNet混合模型的社交文本情感分析", 《南京理工大学学报》, vol. 46, no. 2, pages 205 - 210 * |
尹春勇等: "基于改进胶囊网络的文本分类", 《计算机应用》, vol. 40, no. 9, pages 2525 - 2530 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190681A (zh) * | 2021-03-02 | 2021-07-30 | 东北大学 | 一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法 |
CN113190681B (zh) * | 2021-03-02 | 2023-07-25 | 东北大学 | 一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法 |
CN113159831A (zh) * | 2021-03-24 | 2021-07-23 | 湖南大学 | 一种基于改进的胶囊网络的评论文本情感分析方法 |
CN113283234A (zh) * | 2021-05-28 | 2021-08-20 | 天津大学 | 一种基于胶囊网络的情感分类方法 |
CN113283234B (zh) * | 2021-05-28 | 2022-05-06 | 天津大学 | 一种基于胶囊网络的情感分类方法 |
CN113257281A (zh) * | 2021-07-02 | 2021-08-13 | 四川省人工智能研究院(宜宾) | 一种对多模态情绪识别进行层次不确定性量化估计的方法 |
CN113257281B (zh) * | 2021-07-02 | 2021-09-21 | 四川省人工智能研究院(宜宾) | 一种对多模态情绪识别进行层次不确定性量化估计的方法 |
CN113268994A (zh) * | 2021-07-16 | 2021-08-17 | 中国平安人寿保险股份有限公司 | 基于胶囊网络的意图识别方法及装置 |
CN114694051A (zh) * | 2022-03-16 | 2022-07-01 | 哈尔滨工业大学水资源国家工程研究中心有限公司 | 一种基于改进CapsNet网络的电磁法管道病害识别与定位方法 |
CN114791951A (zh) * | 2022-05-13 | 2022-07-26 | 青岛文达通科技股份有限公司 | 基于胶囊网络的情感分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112231477B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112231477B (zh) | 一种基于改进胶囊网络的文本分类方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110413986B (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN109189925B (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN110598005B (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN109271522B (zh) | 基于深度混合模型迁移学习的评论情感分类方法及系统 | |
CN110059181B (zh) | 面向大规模分类体系的短文本标签方法、系统、装置 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN106886580B (zh) | 一种基于深度学习的图片情感极性分析方法 | |
Dekhtyar et al. | Re data challenge: Requirements identification with word2vec and tensorflow | |
CN110348227B (zh) | 一种软件漏洞的分类方法及系统 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
CN111552803A (zh) | 一种基于图小波网络模型的文本分类方法 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN110717330A (zh) | 基于深度学习的词句级短文本分类方法 | |
CN111984791A (zh) | 一种基于注意力机制的长文分类方法 | |
CN110472245A (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN111813894A (zh) | 一种基于深度学习的自然语言情感识别方法 | |
CN110728144A (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN111353032B (zh) | 面向社区问答的问题分类方法及系统 | |
CN113159831A (zh) | 一种基于改进的胶囊网络的评论文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231225 Address after: No. 92, Feiyao South Road, Huai'an Economic and Technological Development Zone, Huai'an City, Jiangsu Province, 223001 Patentee after: Jiangsu Shunhai Technology Co.,Ltd. Address before: 223005 Jiangsu Huaian economic and Technological Development Zone, 1 East Road. Patentee before: HUAIYIN INSTITUTE OF TECHNOLOGY |
|
TR01 | Transfer of patent right |