CN112487191A - 基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法和装置 - Google Patents
基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法和装置 Download PDFInfo
- Publication number
- CN112487191A CN112487191A CN202011487891.XA CN202011487891A CN112487191A CN 112487191 A CN112487191 A CN 112487191A CN 202011487891 A CN202011487891 A CN 202011487891A CN 112487191 A CN112487191 A CN 112487191A
- Authority
- CN
- China
- Prior art keywords
- text
- bilstm
- cnn
- processed
- network layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 99
- 238000013145 classification model Methods 0.000 claims abstract description 29
- 230000000903 blocking effect Effects 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 182
- 230000004927 fusion Effects 0.000 claims description 32
- 238000005070 sampling Methods 0.000 claims description 17
- 238000007499 fusion processing Methods 0.000 claims description 12
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 63
- 238000012549 training Methods 0.000 description 23
- 238000013528 artificial neural network Methods 0.000 description 12
- HRHJHXJQMNWQTF-UHFFFAOYSA-N cannabichromenic acid Chemical compound O1C(C)(CCC=C(C)C)C=CC2=C1C=C(CCCCC)C(C(O)=O)=C2O HRHJHXJQMNWQTF-UHFFFAOYSA-N 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 206010020751 Hypersensitivity Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 208000026935 allergic disease Diseases 0.000 description 2
- 230000007815 allergy Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种基于CNN‑BiLSTM/BiGRU混联组合模型的文本分类方法和装置,涉及机器学习技术领域,其中,方法包括:获取待处理文本,并获取待处理文本的文本长度值;在所述文本长度值小于预设文本长度阈值的情况下,基于CNN‑BiLSTM/BiGRU混联组合模型对待处理文本进行文本分类,获取第一分类结果;在文本长度值大于等于预设文本长度阈值的情况下,对待处理文本进行内容分块处理后分别输入CNN‑BiLSTM/BiGRU混联组合模型和(CNN‑BiLSTM)/CNN混联文本分类模型进行处理后综合计算,获取第二分类结果。由此,实现对当前各个行业中文本信息的准确、快速分类,在进一步提高模型分类准确率的同时提高了分类速度。
Description
技术领域
本申请涉及机器学习技术领域,尤其涉及一种基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法和装置。
背景技术
如今随着信息技术的发展,各个行业中的文本信息数据量正在飞速增长。这些数据中蕴含信息丰富,潜在可挖掘价值巨大,但其中仍存在着杂乱无序的问题,如何从其中挖掘准确、适用的数据已成为行业大数据研究中亟需解决的问题。文本分类作为解决该问题的关键技术之一,通过对行业文本数据进行规范归类,有助于更好地管理与挖掘文本信息,从而促进行业信息的挖掘利用,推动行业发展。近年来,研究人员对文本分类的研究也取得了一定的进展,但仍然存在准确率和分类速度的问题。
相关技术中,比如朴素贝叶斯、支持向量机、K最近邻等)进行了大量应用之后,为了进一步提高文本分类模型的准确率,研究人员开始尝试近年来在多个领域大展身手的深度学习算法,当今利用神经网络进行文本分类研究已经逐渐成为一大热点,目前使用较多的神经网络有卷积神经网络(Convolution Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)等。
然而,相关技术中,不能够同时兼顾文本分类准确率和训练速度。所以如何在实现较高的文本分类准确率的同时,保证较高的训练速度成为了当今研究人员在文本分类方面关注的一项重点工作。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法,实现对当前各个行业中文本信息的准确、快速分类,在进一步提高模型分类准确率的同时提高了分类速度。。
本申请的第二个目的在于提出一种基于CNN-BiLSTM/BiGRU混联组合模型的文本分类装置。
为达上述目的,本申请第一方面实施例提出了一种基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法,包括:
获取待处理文本,并获取所述待处理文本的文本长度值;
在所述文本长度值小于预设文本长度阈值的情况下,基于CNN-BiLSTM/BiGRU混联组合模型对所述待处理文本进行文本分类,获取第一分类结果;
在所述文本长度值大于等于预设文本长度阈值的情况下,对所述待处理文本进行内容分块处理后分别输入所述CNN-BiLSTM/BiGRU混联组合模型和(CNN-BiLSTM)/CNN混联文本分类模型进行处理后综合计算,获取第二分类结果。
本申请实施例的基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法,通过获取待处理文本,并获取待处理文本的文本长度值;在所述文本长度值小于预设文本长度阈值的情况下,基于CNN-BiLSTM/BiGRU混联组合模型对待处理文本进行文本分类,获取第一分类结果;在文本长度值大于等于预设文本长度阈值的情况下,对待处理文本进行内容分块处理后分别输入CNN-BiLSTM/BiGRU混联组合模型和(CNN-BiLSTM)/CNN混联文本分类模型进行处理后综合计算,获取第二分类结果。由此,实现对当前各个行业中文本信息的准确、快速分类,在进一步提高模型分类准确率的同时提高了分类速度。
在本申请的一个实施例中,所述基于CNN-BiLSTM/BiGRU混联组合模型对所述待处理文本进行文本分类,获取第一分类结果,包括:
提取所述待处理文本的文本特征向量;
对所述文本特征向量进行卷积处理,获取所述待处理文本的多个局部特征向量;
对所述多个局部特征向量进行采样,获取所述待处理文本的多个关键特征向量;
对所述多个关键特征向量进行删减处理后进行拼接分别输入BiLSTM网络层和BiGRU网络层进行处理,获取第一输出特征向量和第二输出特征向量;
对所述第一输出特征向量和所述第二输出特征向量进行融合处理,获取融合特征向量输入分类器进行处理,获取所述第一分类结果。
在本申请的一个实施例中,在进行卷积处理时,设置了不同大小的卷积核尺寸以对不同长度的词特征进行提取,获取所述多个局部特征向量。
在本申请的一个实施例中,所述(CNN-BiLSTM)/CNN混联文本分类模型对进行内容分块后的部分待处理文本进行处理包括:
提取所述部分待处理文本的文本特征向量;
对所述文本特征向量进行卷积处理,获取所述部分待处理文本的多个局部特征向量;
对所述多个局部特征向量进行采样,获取所述待处理文本的多个关键特征向量;
对所述多个关键特征向量进行删减处理后输入BiLSTM网络层进行处理获取输出特征向量;
将所述输出特征向量与所述多个关键特征进行删减处理后特征向量进行融合处理,获取融合特征向量输入分类器进行处理,获取所述第二子分类结果。
在本申请的一个实施例中,所述混联组合模型包括CNN网络层、BiLSTM网络层和BiGRU网络层;
所述CNN网络层分别与所述BiLSTM网络层和所述BiGRU网络层连接,所述BiLSTM网络层和所述BiGRU网络分别与分类器连接;或,
所述CNN网络层与所述BiLSTM网络层连接,以及二者作为整体与所述CNN网络层分别与分类器连接。
为达上述目的,本申请第二方面实施例提出了一种基于CNN-BiLSTM/BiGRU混联组合模型的文本分类装置,包括:
获取模块,用于获取待处理文本,并获取所述待处理文本的文本长度值;
第一处理模块,用于在所述文本长度值小于预设文本长度阈值的情况下,基于CNN-BiLSTM/BiGRU混联组合模型对所述待处理文本进行文本分类,获取第一分类结果;
分块模块,用于在所述文本长度值大于等于预设文本长度阈值的情况下,对所述待处理文本进行内容分块处理,获取第一待处理子文本和第二待处理子文本;
第二处理模块,用于将所述第二待处理子文本输入(CNN-BiLSTM)/CNN混联文本分类模型进行处理,获取第二分类子结果;
第三处理模块,用于将所述第一待处理子文本输入所述CNN-BiLSTM/BiGRU混联组合模型,获取第一分类子结果,对所述第一分类子结果和所述第二分类子结果进行综合计算,获取第二分类结果。
本申请实施例的基于CNN-BiLSTM/BiGRU混联组合模型的文本分类装置,通过获取待处理文本,并获取待处理文本的文本长度值;在所述文本长度值小于预设文本长度阈值的情况下,基于CNN-BiLSTM/BiGRU混联组合模型对待处理文本进行文本分类,获取第一分类结果;在文本长度值大于等于预设文本长度阈值的情况下,对待处理文本进行内容分块处理后分别输入CNN-BiLSTM/BiGRU混联组合模型和(CNN-BiLSTM)/CNN混联文本分类模型进行处理后综合计算,获取第二分类结果。由此,实现对当前各个行业中文本信息的准确、快速分类,在进一步提高模型分类准确率的同时提高了分类速度。
在本申请的一个实施例中,所述第一处理模块,具体用于:
提取所述待处理文本的文本特征向量;
对所述文本特征向量进行卷积处理,获取所述待处理文本的多个局部特征向量;
对所述多个局部特征向量进行采样,获取所述待处理文本的多个关键特征向量;
对所述多个关键特征向量进行删减处理后进行拼接分别输入BiLSTM网络层和BiGRU网络层进行处理,获取第一输出特征向量和第二输出特征向量;
对所述第一输出特征向量和所述第二输出特征向量进行融合处理,获取融合特征向量输入分类器进行处理,获取所述第一分类结果。
在本申请的一个实施例中,在进行卷积处理时,设置了不同大小的卷积核尺寸以对不同长度的词特征进行提取,获取所述多个局部特征向量。
在本申请的一个实施例中,所述第二处理模块,具体用于:
提取所述部分待处理文本的文本特征向量;
对所述文本特征向量进行卷积处理,获取所述部分待处理文本的多个局部特征向量;
对所述多个局部特征向量进行采样,获取所述待处理文本的多个关键特征向量;
对所述多个关键特征向量进行删减处理后输入BiLSTM网络层进行处理获取输出特征向量;
将所述输出特征向量与所述多个关键特征进行删减处理后特征向量进行融合处理,获取融合特征向量输入分类器进行处理,获取所述第二子分类结果。
在本申请的一个实施例中,所述混联组合模型包括CNN网络层、BiLSTM网络层和BiGRU网络层;
所述CNN网络层分别与所述BiLSTM网络层和所述BiGRU网络层连接,所述BiLSTM网络层和所述BiGRU网络分别与分类器连接;或,
所述CNN网络层与所述BiLSTM网络层连接,以及二者作为整体与所述CNN网络层分别与分类器连接。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法的流程示意图;
图2为本申请实施例所提供的LSTM模型结构示例图;
图3为本申请实施例所提供的GRU模型结构示例图;
图4为本申请实施例所提供的BiLSTM/BiGRU模型结构简图;
图5为本申请实施例所提供的卷积神经网络(CNN)应用于文本分类时的模型结构;
图6为本申请实施例所提供的CBLGA模型结构简图;
图7为本申请实施例所提供的CBCA模型结构简图;
图8为本申请实施例所提供的针对不同长度文本进行相应处理的流程图;
图9为本申请实施例所提供的数据集中的部分数据展示的示例图;
图10为本申请实施例所提供的一种基于CNN-BiLSTM/BiGRU混联组合模型的文本分类装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法和装置。
图1为本申请实施例一所提供的一种基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法的流程示意图。
如图1所示,该基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法包括以下步骤:
步骤101,获取待处理文本,并获取待处理文本的文本长度值。
步骤102,在文本长度值小于预设文本长度阈值的情况下,基于CNN-BiLSTM/BiGRU混联组合模型对待处理文本进行文本分类,获取第一分类结果。
步骤103,在文本长度值大于等于预设文本长度阈值的情况下,对待处理文本进行内容分块处理后分别输入CNN-BiLSTM/BiGRU混联组合模型和(CNN-BiLSTM)/CNN混联文本分类模型进行处理后综合计算,获取第二分类结果。
在本申请实施例中,混联组合模型包括CNN网络层、BiLSTM网络层和BiGRU网络层;CNN网络层分别与BiLSTM网络层和所述BiGRU网络层连接,BiLSTM网络层和BiGRU网络分别与分类器连接;或,CNN网络层与BiLSTM网络层,以及CNN网络层与BiLSTM网络层分别与分类器连接。
具体地,本申请利用BiLSTM和BiGRU代替传统的RNN和LSTM,BiLSTM和BiGRU解决传统RNN中梯度消失或梯度爆炸问题;同时考虑到一个词的语义与它之前信息和之后信息都有关,而BilSTM和BiGRU可以充分考虑词在上下文的含义,克服了LSTM只能考虑词单向信息的弊端。
具体地,构建了一种基于Attention的CNN-BiLSTM/BiGRU混联文本分类模型,简称CBLGA模型。即首先并联不同卷积窗口大小的CNN网络来提取多种文本向量的局部特征,再利用BiLSTM和BiGRU并联来保证模型面对不同大小的数据集均可以有较好的运行效果,用BiLSTM和BiGRU组合提取与文本上下文相关的全局特征。而通过将CNN和BiLSTM/BiGRU进行融合,既能利用CNN提取局部特征的优势,又能利用BiLSTM/BiGRU兼顾文本序列全局特征的优势。
具体地,构建了一种基于Attention的(CNN-BiLSTM)/CNN混联文本分类模型,简称CBCA模型。即首先利用CNN网络来提取文本向量的局部特征,再将CNN的输出分为两部分,其中一部分输入BiLSTM网络中,以提取与文本上下文相关的全局特征。另一部分则直接和BiLSTM网络的输出进行融合,既保留了CNN提取的文本局部特征,又利用了BiLSTM网络提取的文本序列全局特征。
也就是说,针对不同长度的文本进行相应预处理和后续分类工作的预处理办法。即针对短文本则采用一种混合模型进行分类处理,此时模型的选择重点偏向于分类的准确率;根据前面所述模型的结构特点,此时选用CBLGA模型即可在实现很高准确率的同时保证训练速度。而针对较长的文本时,则采用两种混合模型“分工参与”的办法进行分类处理,此时考虑长文本的内容分布特点,在重点内容部分,模型的选择重点偏向于分类的准确率,对于此部分采用CBLGA模型;而在较长篇幅的细节内容部分,模型的选择重点偏向于分类的速度,对于此部分内容则采用CBCA模型。两种模型结合,即使面对长文本,模型也可以在提升准确率的同时保证训练速度仍有一定程度的提升。
为了本领域人员更加清楚上述结构,下面结合相关附图进行详细说明。
具体地,长短时记忆神经网络(LSTM)是由循环神经网络衍生而来的时序卷积神经网络,通过引入门函数,可以挖掘时间序列中相对较长间隔和延迟等的时序变化规律词,其结构如图2所示。
如图2所示,LSTM在t时刻有隐藏状态h(t)和细胞状态C(t)。其门控结构一般包括输入门、遗忘门和输出门3种,这时在每个序列索引位置的过程为:
(1)输入门处理当前序列位置的输入,由两部分组成,通过两部分的结果相乘来更新细胞状态,其公式为:
i(t)=σ(Wihh(t-1)+Wixx(t)+bi) (1)
a(t)=tanh(Wahh(t-1)+Waxx(t)+ba) (2)
(2)遗忘门控制一定的概率对上一层的隐藏细胞状态进行忘记操作,其公式为:
f(t)=σ(Wfhh(t-1)+Wfxx(t)+bf) (3)
(3)细胞状态C(t)取决于前面的遗忘门和输入门的结果,其公式为:
C(t)=C(t-1)f(t)+i(t)a(t) (4)
(4)更新输出门的输出,其公式为:
o(t)=σ(Wohh(t-1)+Woxx(t)+bo) (5)
h(t)=o(t)tanh(C(t)) (6)
(5)在LSTM顶部加入softmax层(具有权重Ws和偏置bs),提取最终输出。其公式为:
y(t)=softmax(Wsh(t)+bs) (7)
作为RNN的改进,LSTM可以有效避免梯度消失问题,但其模型结构更加复杂,运行时间更长,占用资源较大,尤其是对于小型数据集来说结果不够理想。
门循环单元(GRU)作为LSTM的一种变体,将LSTM中的输入门、输出门和记忆门简化成了更新门和重置门,如图3所示,在继承了LSTM的处理自然语言能力的同时,更少的参数大大降低了计算量。
GRU神经网络在每个序列索引位置的过程为:
(1)将输入门和遗忘门组合成一个更新门,用来控制前一时刻的状态信息被代入到当前状态中,进而得到时序数据中的长期依赖关系,公式为:
z(t)=σ(Wzxx(t)+Wzhh(t-1)+bz) (8)
(2)引入重置门,以一定的概率控制前一时刻信息,有利于得到时序数据中的短期依赖关系,公式为:
r(t)=σ(Wrxx(t)+Wrhh(t-1)+br) (9)
(3)候选隐含状态用重置门来控制隐含状态,公式为:
(5)在GRU顶部加入softmax层(具有权重Ws和偏置bs),公式为:
y(t)=softmax(Wsh(t)+bs) (12)
在单向的LSTM/GRU神经网络结构中,状态总是从前往后输出的。虽然LSTM/GRU网络解决了RNN会发生梯度消失或者梯度爆炸的问题,但是它们只能学习当前词之前的信息,不能利用当前词之后的信息,由于一个词的语义不仅与之前的历史信息有关,还与当前词之后的信息也有着密切关系,所以本申请利用BiLSTM/BiGRU代替LSTM/GRU,其模型的主体结构如图4所示(这里用一种主体结构描述BiLSTM/BiGRU模型),这样既解决了梯度消失或者梯度爆炸的问题,又能充分考虑当前词的上下文语义信息。在模型处理文本的每一时刻,模型的输入会同时经过两个方向相反的LSTM/GRU网络结构,所以模型的输出则由这两个单向LSTM/GRU结构共同决定。因此利用BiLSTM/BiGRU神经网络模型对句子矩阵进行学习处理后,得到的文本特征具有全局性,充分考虑了词在文本中的上下文信息。
在本申请实施例中,基于CNN-BiLSTM/BiGRU混联组合模型对待处理文本进行文本分类,获取第一分类结果,包括:提取待处理文本的文本特征向量;对文本特征向量进行卷积处理,获取待处理文本的多个局部特征向量;对多个局部特征向量进行采样,获取待处理文本的多个关键特征向量;对多个关键特征向量进行删减处理后进行拼接分别输入BiLSTM网络层和BiGRU网络层进行处理,获取第一输出特征向量和第二输出特征向量;对第一输出特征向量和第二输出特征向量进行融合处理,获取融合特征向量输入分类器进行处理,获取第一分类结果。
在本申请实施例中,在进行卷积处理时,设置了不同大小的卷积核尺寸以对不同长度的词特征进行提取,获取多个局部特征向量。
具体地,本申请构建的混联文本分类模型是一种基于Attention的CNN-BiLSTM/BiGRU(简称CBLGA模型),即首先并联不同卷积窗口大小的CNN网络来提取多种文本向量的局部特征,再利用BiLSTM和BiGRU并联来保证模型面对不同大小的数据集均可以有较好的运行效果,用BiLSTM和BiGRU组合提取与文本上下文相关的全局特征。而通过将CNN和BiLSTM/BiGRU进行融合,既能利用CNN提取局部特征的优势,又能利用BiLSTM/BiGRU兼顾文本序列全局特征的优势。
在实际应用中,在行业文本分类应用中,由于长时间序列的短子序列中特征的重要程度存在差异(重要的显著特征往往会包含更多信息量,对实际需求量的趋势影响程度更大),为了实现信息处理资源的高效分配,本申请在模型中引入了注意力机制。在本申请的应用中,Attention机制的实现是通过保留BiLSTM/BiGRU编码器输入序列的中间输出结果,然后将其输入到一个模型中进行选择性的训练学习,并且在模型输出时将输出序列与之进行关联。输出序列中每一项的生成概率取决于在输入序列中选择了哪些项。虽然这样做会增加模型的计算负担,但是会形成目标性更强、性能更好的模型。注意力机制的基本概念依赖于在到达输出时能够访问输入句子的所有部分。这允许模型对句子的不同部分赋予不同的注意力,从而可以推导出依赖关系。因此,本申请使用注意力机制提取文本序列的显著性特征。
另外,本申请在构建CBLGA模型时引入了卷积神经网络(CNN),卷积神经网络模型用于文本分类中的结构如图5所示。即在文本进行分词等预处理之后,通过训练得到词向量,进而映射成二维句子矩阵,之后采用多个大小为1*m、3*m、5*m的卷积核对句子矩阵进行卷积,提取特征向量,接下来是下采样操作,经此可以筛选出强特征,同时减少参数数量,防止过拟合。在下采样后进行连接,组成特征向量,之后经过分类器输出二分类的结果。换句话说,CNN就是将卷积层、池化层及全连接输出层三者结合起来构建而成的一个模型,借助卷积运算操作的优势可实现对多层网络结构进行监督学习,降低了整个神经网络模型参数的个数,从而提升了模型训练的性能。
其中对输入层实施的卷积可以看作局部连接,每一局部的输入区域对应自身的输出神经元,通过设计尺寸适宜的卷积核对感受野内的信息进行卷积操作,以抽象表达原始数据。当输入数据X时,卷积层的特征图C可表示如下:
最终,本申请构建的第一个混联文本分类模型如图6所示,本申请的特征融合模型由卷积神经网并联组合和BiLSTM/BiGRU并联组合共两个组合串联融合组成,可称为CNN-BiLSTM/BiGRU-Attention(简称CBLGA)混联模型,其中卷积神经网络部分第一层是词嵌入层,将词嵌入层的句子矩阵作为输入,之后进入第二层进行卷积操作,提取局部特征。在进行卷积操作时,设置了不同大小的卷积核尺寸以实现对不同长度的词特征进行提取,此处设置三种卷积核的尺寸分别1、3、5,数量均为256个,步长stride大小设置为2,padding为same,即填充输入以使输出具有与原始输入相同的长度,以这样的结构进行卷积运算,提取文本中多种特征词向量的局部特征;第三层进行下采样操作,这里采用的是最大值采样方法,提取关键特征,舍弃冗余特征,同时生成固定维度的特征向量。接下来进入第四层,即各自的Dropout层,对神经网络单元按照20%的概率将其暂时从网络中丢弃,以防止过拟合。将三个Dropout层输出的特征拼接起来,作为BiLSTM/BiGRU并联组合输入特征的一部分。
BiLSTM/BiGRU部分第一层均是词嵌入层,将嵌入层的句子矩阵作为输入,每一个词向量维度设置为768维;第二层、第三层均为隐藏层,隐藏层大小均为64,当前输入与前后序列都相关,将输入序列分别从两个方向输入模型,经过隐含层保存两个方向的历史信息和未来信息,接下来对BiLSTM和BiGRU输出的特征进行融合,将融合后的特征保存在output中,引入注意力机制,之后作为全连接层的输入,最后输入到softmax分类器输出分类结果。
在本申请实施例中,(CNN-BiLSTM)/CNN混联文本分类模型对进行内容分块后的部分待处理文本进行处理包括:提取部分待处理文本的文本特征向量;对文本特征向量进行卷积处理,获取部分待处理文本的多个局部特征向量;对多个局部特征向量进行采样,获取待处理文本的多个关键特征向量;对多个关键特征向量进行删减处理后输入BiLSTM网络层进行处理获取输出特征向量;将输出特征向量与多个关键特征进行删减处理后特征向量进行融合处理,获取融合特征向量输入分类器进行处理,获取第二子分类结果。
具体地,本申请实施例的混联文本分类模型是一种基于Attention的(CNN-BiLSTM)/CNN混联文本分类模型(简称CBCA模型),模型结构如图7所示。本申请的特征融合模型由卷积神经网和BiLSTM串联后再与卷积神经网络并联组合而成,其中卷积神经网络部分第一层是词嵌入层,将词嵌入层的句子矩阵作为输入,之后进入第二层进行卷积操作,提取局部特征。此处设置的卷积核的尺寸为3,数量均为256个,步长stride大小设置为2,padding为same,即填充输入以使输出具有与原始输入相同的长度,以这样的结构进行卷积运算,提取文本中多种特征词向量的局部特征;第三层进行下采样操作,这里采用的是最大值采样方法,提取关键特征,舍弃冗余特征,同时生成固定维度的特征向量。接下来进入第四层,即Dropout层,对神经网络单元按照20%的概率将其暂时从网络中丢弃,可以提高特征图之间的独立性,并防止过拟合。接下来将Dropout层输出的特征复制为两份,其中一份作为BiLSTM网络输入特征的一部分,另一份则直接与BiLSTM的输出进行融合。
即首先利用CNN网络来提取文本向量的局部特征,再将CNN的输出分为两部分,其中一部分输入BiLSTM网络中,以提取与文本上下文相关的全局特征。另一部分则直接和BiLSTM网络的输出进行融合,既保留了CNN提取的文本局部特征,又利用了BiLSTM网络提取的文本序列全局特征。其中CNN的文本分类原理如前文中所述,此处不再赘述。
举例而言,本申请建立了一套针对不同长度的文本进行相应预处理和后续分类工作的预处理办法,主要流程结构如图8所示,以文本长度300作为分界线,当文本长度小于300时,视为短文本,此时采用一种混合模型进行分类处理,模型的选择重点偏向于分类的准确率;根据前文中所述模型的结构特点,此时选用CBLGA模型即可在实现很高准确率的同时保证训练速度。
具体地,当文本长度大于300时,视为长文本,此时采用两种混合模型“分工参与”的办法进行分类处理,考虑到长文本的内容分布特点,即行业文本的重点特征往往集中于文本的首尾位置,而文本中间位置的文本主要起到辅助解释作用,所以在对行业文本序列的特征挖掘过程中,本申请重点处理了文本序列的起始位置与终止位置部分,对以上两个区域采用更注重准确率的模型去进行分类处理;而对于中间部分的处理过程可以相对弱化,这一部分篇幅较长,多数是细节内容,如果对长文本一律采用注重细节结构的、准确率高的模型,则会使得模型的训练时间和分类速度下降,增大计算机运行负担,所以本方案对文本的中间部分采用更注重分类效率的CBCA模型去进行分类处理;两种模型相互配合,则可以在把握文本重点的信息和全局特征的同时提高分类效率。
本技术方案在行业文本分类技术中引入了CNN网络进行特征抽取、提出了两种新型混联神经网络模型——CNN-BiLSTM/BiGRU-Attention(简称CBLGA)和基于Attention的(CNN-BiLSTM)/CNN混联文本分类模型(简称CBCA模型),针对短文本数据,相比结构较简单的LSTM、GRU分类模型,新型模型在迭代时间没有显著增加的基础上,在准确率和损失率方面均有明显的效果改善;相比BiGRU分类模型,新型模型不仅在准确率和损失率方面均有明显的效果改善,而且大大缩短了迭代时间;比起目前使用最广泛的BiLSTM神经网络和attention的混合模型,新型模型则能够在提高准确率的同时降低损失率,并明显地降低了模型的训练时间。说明了该模型既能利用卷积神经网络有效提取文本的局部特征,又可以利用BiLSTM/BiGRU兼顾不同长度文本的全局特征,充分考虑了词的上下文语义信息,在提高分类准确率的同时保证了模型的训练速度。
而针对长文本数据,本技术方案提出了长文本适应性处理方法——融合CBLGA和CBCA模型对长文本的不同位置进行相应地处理,该方案的提出不仅使文本分类的效率大大提高,同时也解决了分类模型在建立时对输入文本长度的过敏,即模型建立时需要给定可处理的文本长度len(txt),在单一模型结构下,当len(txt)过大时,无疑加重了模型的训练和处理负担,占用资源过大,容易造成资源浪费;而当len(txt)过小时,无疑减小了模型的可使用范围和处理能力,当面对长文本输入时,虽然也可以处理,但由于模型的自动限制,使得只有部分文本进入模型,很容易造成“一知半解”,分类结果也不再准确。而本技术方案提出的长文本适应性处理方法则解决了这个问题。对于各个有数据分类需求的行业提供了有价值的可参考方案。
作为一种场景举例,为了检验模型在行业中的应用效果,本申请在中国知网上选取了“并联机构”和“生产线”两类行业数据作为数据集,共收集10000条,经过数据清洗后,过滤掉无标签、无摘要等部分指标缺失数据,最终剩下9814条,其中“并联机构”类4983条,“生产线”类4831条,对原始数据集的顺序进行随机打乱处理,任意抽取其中10项数据如图9所示,其中“cat”代表文本类别,“review”代表文本简介,“cat_id”代表类别代号。之后按照8:1:1的比例分割成训练集、验证集和测试集,分别用于模型训练、模型验证和模型测试。
本申请实验环境如下:操作系统为Windows10,CPU是Intel Core i5-6300,GPU为GeForce GTX1050Ti,显卡驱动为Nvidia GeForce GTX 950M(2G),内存大小为12GB,采用Keras深度学习框架,底层为Tensor Flow1.14.0,使用Python语言编程实现,开发工具使用的是Jupyter-notebook。
实验设置迭代次数为5,采用准确率、损失率和迭代时间作为实验的评价标准。设样本总数为N,被正确分类的样本数为n,则正确率(Accuracy)为:
本实验模型可视为一个三层网络结构,包括文本向量输入层、隐藏层和文本分类层。模型中有许多超参数需要设置和调整,本申请通过多次实验,在每一次迭代完成后,根据实验的准确率和损失率对超参数进行设置和调整。经过多次迭代实验,模型设置的超参数如表1所示。
表1各神经网络的超参数
2)实验对比与结果分析
将本文所提出的CNN-BiLSTM/BiGRU-Attention(简称CBLGA)模型和基于Attention的(CNN-BiLSTM)/CNN混联文本分类模型(简称CBCA模型)与以下常见的3种模型进行对比。
(1)GRU。它主要是Cho等人申请的,可看作是对LSTM的进一步改进,其参数更少,理论上具有更好的收敛效果。
(2)BiGRU。它主要是由玄振峰等人提出的,借助双向GRU网络的全局特征获取能力,实现了特定文本信息的快速抽取。
(3)CNN-BiLSTM-Attention。作为卷积神经网络融合循环神经网络模型进行文本分类的典范,诸多研究人员使用了CNN-BiLSTM-Attention进行文本分类,它分别使用CNN和BiLSTM对文本进行特征提取,之后进行融合并引入注意力机制,效果表现不错。
(4)本实验中各个采用的损失函数均为“交叉熵”损失函数,在选取优化器时,考虑SGD、AdaGrad、RMSProp和Adam优化器,其中由于Adam优化器结合了AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,不断迭代更新网络参数,很适合应用于大规模的数据及参数的场景,所以本方案选取Adam作为各个模型的优化函数。
(5)此外,各个模型的训练次数“Epoch”均为5次,激活函数均采用“Relu”函数,下采样方法均为“Maxpooling”方法。实验中选用在5次迭代过程中,在测试集上最高的准确率作为该模型的准确率,对应的测试集最高准确率的损失率即为该模型的损失率,取5次迭代的平均时间作为该模型的迭代时间,记为time,各个模型与本方案所提的新型混联模型结果对比如表2所示。
表2各个模型与本文所提的新型混联模型结果对比
从表2可以看出,相比单一的GRU模型,BiGRU模型不仅具有更高的分类准确率,而且损失率也大大减小,只是由于模型结构更复杂,其训练时间要更长;进一步地,融合CNN模型和attention机制的CNN-BiGRU-Attention模型则在准确率、损失率和训练速度方面表现的更好,说明了该模型的有效性。到了本技术方案提出的新模型CBLGA,即使对比各方面表现均不错的CNN-BiGRU-Attention模型,新模型CBLGA仍然表现出了更高的准确率、更低的损失率和更快的训练速度,除了在训练时间上比单一结构的GRU稍微长一点,新模型CBLGA在各个指标上的表现均优于其他三种典型的文本分类模型,有力地说明了本方案所提的新模型CBLGA的强大之处,即在保证训练速度的情况下有效提升了文本分类的准确率、降低了损失率。另外也可以看到,相比新模型CBLGA,新模型CBCA虽然准确率和损失率表现得稍差一些,但其训练速度大大提升,而且新模型CBCA在各个指标上的表现均优于表中前三种典型的文本分类模型,有力地说明了本方案所提的新模型CBCA的强大之处,即在保证训练速度的情况下有效提升了文本分类的准确率、降低了损失率。
在长文本适应性处理方法的验证方面,本方案对融合CBLGA和CBCA模型对长文本的不同位置进行相应地处理,结果表现出了更高的效率和准确率,说明了该方案的提出对于解决分类模型在建立时对输入文本长度的过敏问题有很好的效果。
本申请实施例的基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法,通过获取待处理文本,并获取待处理文本的文本长度值;在所述文本长度值小于预设文本长度阈值的情况下,基于CNN-BiLSTM/BiGRU混联组合模型对待处理文本进行文本分类,获取第一分类结果;在文本长度值大于等于预设文本长度阈值的情况下,对待处理文本进行内容分块处理后分别输入CNN-BiLSTM/BiGRU混联组合模型和CNN-BiLSTM)/CNN混联文本分类模型进行处理后综合计算,获取第二分类结果。由此,实现对当前各个行业中文本信息的准确、快速分类,在进一步提高模型分类准确率的同时提高了分类速度。
为了实现上述实施例,本申请还提出一种基于CNN-BiLSTM/BiGRU混联组合模型的文本分类装置。
图10为本申请实施例提供的一种基于CNN-BiLSTM/BiGRU混联组合模型的文本分类装置的结构示意图。
如图10所示,该基于CNN-BiLSTM/BiGRU混联组合模型的文本分类装置包括:获取模块210、第一处理模块220、分块模块230、第二处理模块240和第三处理模块250。
获取模块210,用于获取待处理文本,并获取所述待处理文本的文本长度值。
第一处理模块220,用于在所述文本长度值小于预设文本长度阈值的情况下,基于CNN-BiLSTM/BiGRU混联组合模型对所述待处理文本进行文本分类,获取第一分类结果。
分块模块230,用于在所述文本长度值大于等于预设文本长度阈值的情况下,对所述待处理文本进行内容分块处理,获取第一待处理子文本和第二待处理子文本。
第二处理模块240,用于将所述第二待处理子文本输入CNN-BiLSTM)/CNN混联文本分类模型进行处理,获取第二分类子结果。
第三处理模块250,用于将所述第一待处理子文本输入所述CNN-BiLSTM/BiGRU混联组合模型,获取第一分类子结果,对所述第一分类子结果和所述第二分类子结果进行综合计算,获取第二分类结果。
在本申请的一个实施例中,所述第一处理模块,具体用于:
提取所述待处理文本的文本特征向量;
对所述文本特征向量进行卷积处理,获取所述待处理文本的多个局部特征向量;
对所述多个局部特征向量进行采样,获取所述待处理文本的多个关键特征向量;
对所述多个关键特征向量进行删减处理后进行拼接分别输入BiLSTM网络层和BiGRU网络层进行处理,获取第一输出特征向量和第二输出特征向量;
对所述第一输出特征向量和所述第二输出特征向量进行融合处理,获取融合特征向量输入分类器进行处理,获取所述第一分类结果。
在本申请的一个实施例中,在进行卷积处理时,设置了不同大小的卷积核尺寸以对不同长度的词特征进行提取,获取所述多个局部特征向量。
在本申请的一个实施例中,所述第二处理模块,具体用于:
提取所述部分待处理文本的文本特征向量;
对所述文本特征向量进行卷积处理,获取所述部分待处理文本的多个局部特征向量;
对所述多个局部特征向量进行采样,获取所述待处理文本的多个关键特征向量;
对所述多个关键特征向量进行删减处理后输入BiLSTM网络层进行处理获取输出特征向量;
将所述输出特征向量与所述多个关键特征进行删减处理后特征向量进行融合处理,获取融合特征向量输入分类器进行处理,获取所述第二子分类结果。
在本申请的一个实施例中,所述混联组合模型包括CNN网络层、BiLSTM网络层和BiGRU网络层;
所述CNN网络层分别与所述BiLSTM网络层和所述BiGRU网络层连接,所述BiLSTM网络层和所述BiGRU网络分别与分类器连接;或,
所述CNN网络层与所述BiLSTM网络层连接,以及二者作为整体与所述CNN网络层分别与分类器连接。
本申请实施例的基于CNN-BiLSTM/BiGRU混联组合模型的文本分类装置,通过获取待处理文本,并获取待处理文本的文本长度值;在所述文本长度值小于预设文本长度阈值的情况下,基于CNN-BiLSTM/BiGRU混联组合模型对待处理文本进行文本分类,获取第一分类结果;在文本长度值大于等于预设文本长度阈值的情况下,对待处理文本进行内容分块处理后分别输入CNN-BiLSTM/BiGRU混联组合模型和CNN-BiLSTM)/CNN混联文本分类模型进行处理后综合计算,获取第二分类结果。由此,实现对当前各个行业中文本信息的准确、快速分类,在进一步提高模型分类准确率的同时提高了分类速度。
需要说明的是,前述对基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法实施例的解释说明也适用于该实施例的基于CNN-BiLSTM/BiGRU混联组合模型的文本分类装置,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法,其特征在于,包括:
获取待处理文本,并获取所述待处理文本的文本长度值;
在所述文本长度值小于预设文本长度阈值的情况下,基于CNN-BiLSTM/BiGRU混联组合模型对所述待处理文本进行文本分类,获取第一分类结果;
在所述文本长度值大于等于预设文本长度阈值的情况下,对所述待处理文本进行内容分块处理后分别输入所述CNN-BiLSTM/BiGRU混联组合模型和(CNN-BiLSTM)/CNN混联文本分类模型进行处理后综合计算,获取第二分类结果。
2.如权利要求1所述的方法,其特征在于,所述基于CNN-BiLSTM/BiGRU混联组合模型对所述待处理文本进行文本分类,获取第一分类结果,包括:
提取所述待处理文本的文本特征向量;
对所述文本特征向量进行卷积处理,获取所述待处理文本的多个局部特征向量;
对所述多个局部特征向量进行采样,获取所述待处理文本的多个关键特征向量;
对所述多个关键特征向量进行删减处理后进行拼接分别输入BiLSTM网络层和BiGRU网络层进行处理,获取第一输出特征向量和第二输出特征向量;
对所述第一输出特征向量和所述第二输出特征向量进行融合处理,获取融合特征向量输入分类器进行处理,获取所述第一分类结果。
3.如权利要求2所述的方法,其特征在于,
在进行卷积处理时,设置了不同大小的卷积核尺寸以对不同长度的词特征进行提取,获取所述多个局部特征向量。
4.如权利要求1所述的方法,其特征在于,所述(CNN-BiLSTM)/CNN混联文本分类模型对进行内容分块后的部分待处理文本进行处理包括:
提取所述部分待处理文本的文本特征向量;
对所述文本特征向量进行卷积处理,获取所述部分待处理文本的多个局部特征向量;
对所述多个局部特征向量进行采样,获取所述待处理文本的多个关键特征向量;
对所述多个关键特征向量进行删减处理后输入BiLSTM网络层进行处理获取输出特征向量;
将所述输出特征向量与所述多个关键特征进行删减处理后特征向量进行融合处理,获取融合特征向量输入分类器进行处理,获取所述第二子分类结果。
5.如权利要求1-4任一项所述的方法,其特征在于,所述混联组合模型包括CNN网络层、BiLSTM网络层和BiGRU网络层;
所述CNN网络层分别与所述BiLSTM网络层和所述BiGRU网络层连接,所述BiLSTM网络层和所述BiGRU网络分别与分类器连接;或,
所述CNN网络层与所述BiLSTM网络层连接,以及二者作为整体与所述CNN网络层分别与分类器连接。
6.一种基于CNN-BiLSTM/BiGRU混联组合模型的文本分类装置,其特征在于,包括:
获取模块,用于获取待处理文本,并获取所述待处理文本的文本长度值;
第一处理模块,用于在所述文本长度值小于预设文本长度阈值的情况下,基于CNN-BiLSTM/BiGRU混联组合模型对所述待处理文本进行文本分类,获取第一分类结果;
分块模块,用于在所述文本长度值大于等于预设文本长度阈值的情况下,对所述待处理文本进行内容分块处理,获取第一待处理子文本和第二待处理子文本;
第二处理模块,用于将所述第二待处理子文本输入CNN-BiLSTM)/CNN混联文本分类模型进行处理,获取第二分类子结果;
第三处理模块,用于将所述第一待处理子文本输入所述CNN-BiLSTM/BiGRU混联组合模型,获取第一分类子结果,对所述第一分类子结果和所述第二分类子结果进行综合计算,获取第二分类结果。
7.如权利要求6所述的装置,其特征在于,所述第一处理模块,具体用于:
提取所述待处理文本的文本特征向量;
对所述文本特征向量进行卷积处理,获取所述待处理文本的多个局部特征向量;
对所述多个局部特征向量进行采样,获取所述待处理文本的多个关键特征向量;
对所述多个关键特征向量进行删减处理后进行拼接分别输入BiLSTM网络层和BiGRU网络层进行处理,获取第一输出特征向量和第二输出特征向量;
对所述第一输出特征向量和所述第二输出特征向量进行融合处理,获取融合特征向量输入分类器进行处理,获取所述第一分类结果。
8.如权利要求7所述的装置,其特征在于,
在进行卷积处理时,设置了不同大小的卷积核尺寸以对不同长度的词特征进行提取,获取所述多个局部特征向量。
9.如权利要求6所述的装置,其特征在于,所述第二处理模块,具体用于:
提取所述部分待处理文本的文本特征向量;
对所述文本特征向量进行卷积处理,获取所述部分待处理文本的多个局部特征向量;
对所述多个局部特征向量进行采样,获取所述待处理文本的多个关键特征向量;
对所述多个关键特征向量进行删减处理后输入BiLSTM网络层进行处理获取输出特征向量;
将所述输出特征向量与所述多个关键特征进行删减处理后特征向量进行融合处理,获取融合特征向量输入分类器进行处理,获取所述第二子分类结果。
10.如权利要求6-9任一项所述的装置,其特征在于,所述混联组合模型包括CNN网络层、BiLSTM网络层和BiGRU网络层;
所述CNN网络层分别与所述BiLSTM网络层和所述BiGRU网络层连接,所述BiLSTM网络层和所述BiGRU网络分别与分类器连接;或,
所述CNN网络层与所述BiLSTM网络层连接,以及二者作为整体与所述CNN网络层分别与分类器连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011487891.XA CN112487191A (zh) | 2020-12-16 | 2020-12-16 | 基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011487891.XA CN112487191A (zh) | 2020-12-16 | 2020-12-16 | 基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112487191A true CN112487191A (zh) | 2021-03-12 |
Family
ID=74917152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011487891.XA Pending CN112487191A (zh) | 2020-12-16 | 2020-12-16 | 基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487191A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781556A (zh) * | 2021-08-05 | 2021-12-10 | 广州西威科智能科技有限公司 | 双向融合机制下基于多模态数据特征提取与机器人的位姿估计方法 |
CN113869065A (zh) * | 2021-10-15 | 2021-12-31 | 梧州学院 | 一种基于“单词-短语”注意力机制的情感分类方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472052A (zh) * | 2019-07-31 | 2019-11-19 | 西安理工大学 | 一种基于深度学习的中文社交平台情感分析方法 |
US20200311519A1 (en) * | 2019-03-28 | 2020-10-01 | Baidu Usa Llc | Systems and methods for deep skip-gram network based text classification |
CN111881291A (zh) * | 2020-06-19 | 2020-11-03 | 山东师范大学 | 一种文本情感分类方法及系统 |
CN112001186A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种利用图卷积神经网络和中文句法的情感分类方法 |
CN112001187A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种基于中文句法和图卷积神经网络的情感分类系统 |
-
2020
- 2020-12-16 CN CN202011487891.XA patent/CN112487191A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200311519A1 (en) * | 2019-03-28 | 2020-10-01 | Baidu Usa Llc | Systems and methods for deep skip-gram network based text classification |
CN110472052A (zh) * | 2019-07-31 | 2019-11-19 | 西安理工大学 | 一种基于深度学习的中文社交平台情感分析方法 |
CN111881291A (zh) * | 2020-06-19 | 2020-11-03 | 山东师范大学 | 一种文本情感分类方法及系统 |
CN112001186A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种利用图卷积神经网络和中文句法的情感分类方法 |
CN112001187A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种基于中文句法和图卷积神经网络的情感分类系统 |
Non-Patent Citations (1)
Title |
---|
颜亮 等: "基于VDCNN和BiGRU混合的文本分类研究", 计算机仿真, vol. 37, no. 10, 31 October 2020 (2020-10-31) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781556A (zh) * | 2021-08-05 | 2021-12-10 | 广州西威科智能科技有限公司 | 双向融合机制下基于多模态数据特征提取与机器人的位姿估计方法 |
CN113869065A (zh) * | 2021-10-15 | 2021-12-31 | 梧州学院 | 一种基于“单词-短语”注意力机制的情感分类方法和系统 |
CN113869065B (zh) * | 2021-10-15 | 2024-04-12 | 梧州学院 | 一种基于“单词-短语”注意力机制的情感分类方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Differentiable top-k with optimal transport | |
Chen et al. | Pareto self-supervised training for few-shot learning | |
US20210365826A1 (en) | Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers | |
Kukačka et al. | Regularization for deep learning: A taxonomy | |
US11093826B2 (en) | Efficient determination of optimized learning settings of neural networks | |
JP7370033B2 (ja) | セマンティック認識方法 | |
Shalaby et al. | An lstm approach to patent classification based on fixed hierarchy vectors | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
WO2020226634A1 (en) | Distributed synchronous training architecture using stale weights | |
Chen et al. | New ideas and trends in deep multimodal content understanding: A review | |
CN112487191A (zh) | 基于CNN-BiLSTM/BiGRU混联组合模型的文本分类方法和装置 | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
Glauner | Comparison of training methods for deep neural networks | |
WO2020209860A1 (en) | Leveraging lagging gradients in machine-learning model training | |
Xing et al. | Few-shot single-view 3d reconstruction with memory prior contrastive network | |
CN111611796A (zh) | 下位词的上位词确定方法、装置、电子设备及存储介质 | |
Dönmez | Introduction to Machine Learning, by Ethem Alpaydın. Cambridge, MA: The MIT Press2010. ISBN: 978-0-262-01243-0. $54/£ 39.95+ 584 pages. | |
KR102512151B1 (ko) | 객체 검출 방법 및 장치 | |
Yuan et al. | Deep learning from a statistical perspective | |
CN111475648B (zh) | 一种文本分类模型生成方法、文本分类方法及装置、设备 | |
Zhang et al. | End-to-end temporal attention extraction and human action recognition | |
CN116306606A (zh) | 一种基于增量学习的金融合同条款提取方法和系统 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
Wakchaure et al. | A scheme of answer selection in community question answering using machine learning techniques | |
Kim et al. | A novel deep learning by combining discriminative model with generative model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |