CN112256878A - 一种基于深度卷积的水稻知识文本分类方法 - Google Patents
一种基于深度卷积的水稻知识文本分类方法 Download PDFInfo
- Publication number
- CN112256878A CN112256878A CN202011179409.6A CN202011179409A CN112256878A CN 112256878 A CN112256878 A CN 112256878A CN 202011179409 A CN202011179409 A CN 202011179409A CN 112256878 A CN112256878 A CN 112256878A
- Authority
- CN
- China
- Prior art keywords
- network
- text
- rice
- classification
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 235000007164 Oryza sativa Nutrition 0.000 title claims abstract description 51
- 235000009566 rice Nutrition 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 29
- 240000007594 Oryza sativa Species 0.000 title 1
- 241000209094 Oryza Species 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 231100000674 Phytotoxicity Toxicity 0.000 claims abstract description 12
- 241000607479 Yersinia pestis Species 0.000 claims abstract description 12
- 201000010099 disease Diseases 0.000 claims abstract description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 11
- 241000238631 Hexapoda Species 0.000 claims abstract description 10
- 230000009193 crawling Effects 0.000 claims abstract description 4
- 238000010835 comparative analysis Methods 0.000 claims abstract description 3
- 238000013145 classification model Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 13
- 239000002775 capsule Substances 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 12
- 230000011218 segmentation Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 6
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 241000196324 Embryophyta Species 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度卷积的水稻知识文本分类方法,包括以下步骤:S1.通过采用Python爬虫框架,爬取知网专家在线系统和种植问答网的关于水稻病虫害、草害药害以及栽培管理的中文文本问答数据;S2.采用Word2Vec中的Skip‑Gram模型对水稻知识文本进行向量化处理,词向量维度大小为100,训练窗口设置为5,同时与One‑Hot、TF‑IDF和Hashing向量化模型进行对比分析;S3.构建文本特征提取网络;S4.构建文本分类网络。本发明解决了文本特征提取不准确和网络层次加深导致模型分类性能变差的技术问题。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于深度卷积的水稻知识文本分类方法。
背景技术
从农业文本数据中提取出水稻的草害药害、病虫害以及栽培管理等数据是典型的文本分类问题,其对文本关键信息抽取、文本数据挖掘以及农业智能问答等均具有十分重要的意义。魏芳芳等根据农业文本数据特征,构建农业行业词库,并通过特征词筛选和权重计算,构建一种基于线性支持向量机的中文农业文本分类模型,该方法并未考虑数据集线性不可分的情况,存在一定的局限性。对于中文文本分类,尤其是农业文本,存在着数据冗余性、稀疏性和规范性差等特征,采用传统的机器学习方法对大数据量的农业文本进行分类难度较大,且适应性差,特征工程复杂。
随着计算机技术的迅猛发展,深度卷积神经网络(CNN)、循环神经网络(RNN)和胶囊网络(CapsNet)等深度学习技术逐渐成为目前主流的分类方法。现今国内外学者采用深度学习技术在英文和中文文本分类上开展了大量的研究。金宁等使用TF-IDF和Word2Vec方法相结合生成词向量,构建BiGRU_MulCNN农业问答问句分类模型。贾旭东等采用多头注意力胶囊网络对英文文本进行分类,分类准确率较高。以上研究表明,相比传统的文本分类方法,深度学习技术在文本分类中具有更好的分类效果。
文本分词处理:相对英文文本,中文文本的处理相对复杂。中文字与字之间没有间隔,并且单个汉字具有的意义也明显弱于词组,因此采用Jieba方法对水稻知识文本进行分词处理,并去除文本中无用符号和停用词等。与此同时,中文分词结果深受分词词库的影响,为提高水稻知识文本分词精度,减少错分、漏分和误分情况,在搜狗农业语料库基础上构建水稻相关语料库,进而扩大Jieba分词基础词库,提高对水稻病虫害、草害药害和栽培管理等专业词汇的辨识度。
文本向量化处理:由于网络模型无法对自然语言进行直接训练学习,并且中文文本语句中存在大量的语义信息、上下文依赖信息和语序信息等,直接采用中文文本将无法保留这些信息的完整性,因此将中文文本转换为多维且连续的向量至关重要。采用Word2Vec[27]的Skip-Gram模型对水稻知识文本进行向量化处理。
ResNet-18网络结构:建立特征提取层网络是解决文本分类问题的前提基础,而CNN在图像和文本特征提取问题上取得了较好的提取精度。ResNet是CNN的典型代表,其残差模块(包括直接映射和残差部分)的设计理念使得随着网络层数的增加,网络发生退化的现象得以解决,且在ILSVRC 2015竞赛中其分类和特征提取的效果上得到了充分肯定。
ResNet-18网络多用于图像分类,其采用多个3×3的二维卷积核Conv2D从图像矩阵的行维度和列维度进行特征提取,但文本向量是由规定长度的词向量按一定顺序构建的向量矩阵,所以从矩阵的行维度卷积(即从左至右移动)没有实际意义。因此采用多个大小为n的一维卷积核(Conv1D)仅从向量矩阵的列维度进行卷积。但由上图可知,ResNet-18被采用一维最大池化方法(Maxpooling1D)的池化层分割为3个部分,前两部分由17个大小为7和3、通道数为8、16、32和64的卷积层构成,后一部分仅采用1个通道数为4的全连接层。显然直接将上述ResNet网络结构用于水稻知识文本特征提取有较多不适的地方。首先相比图像具有颜色和形状等规律性特征,水稻知识每一类数据均由几十个甚至更多的关键词组成,生成的文本向量具有一定复杂性,因此仅采用[3Conv1D,3Conv1D]结构的残差模块无法较为精准地提取文本特征。其次水稻知识文本向量具有较大离散性和稀疏性,直接采用18个权重层的ResNet网络结构易造成过拟合。
发明内容
为解决以上所述的技术问题,本发明提供了一种基于深度卷积的水稻知识文本分类方法,解决了文本特征提取不准确和网络层次加深导致模型分类性能变差的技术问题。
本发明的技术方案为:
一种基于深度卷积的水稻知识文本分类方法,包括以下步骤:
S1.通过采用Python爬虫框架,爬取知网专家在线系统和种植问答网的关于水稻病虫害、草害药害以及栽培管理的中文文本问答数据;
S2.采用Word2Vec中的Skip-Gram模型对水稻知识文本进行向量化处理,词向量维度大小为100,训练窗口设置为5,同时与One-Hot、TF-IDF和Hashing向量化模型进行对比分析;
S3.构建文本特征提取网络;
S4.构建文本分类网络。
可优选地,所述步骤S3包括步骤:
S31.面向卷积通道对ResNet的残差模块进行更改与设计:
首先将ResNet的单通道卷积组调整为多通道卷积组,用以减少文本特征的表征性瓶颈,即减少信息损失;
其次通过增加大小为1的卷积核对文本向量进行降维,并加入非线性,进而降低网络模型参数和提高网络的表达能力,共设计了4种残差模块结构;
S32.为对比残差模块结构对文本分类的影响,共配置了4种水稻知识文本分类网络结构,并通过后续试验分析,筛选分类性能较高的残差结构;
与此同时,在保持较优残差结构不变的前提下,通过增加残差模块数量探究网络层次对分类精度的影响。
可优选地,所述4种残差模块结构的结构式分别为(1)(2)(3)(4)所示:
基于上述4种残差模块结构,配置了4种水稻知识文本分类网络结构,
残差模块结构(1)配置网络结构Embedding-A-Maxpool/2-FC/128-FC/4-softmax,
残差模块结构(2)配置网络结构Embedding-B-Maxpool/2-FC/128-FC/4-softmax,
残差模块结构(3)配置网络结构Embedding-C-Maxpool/2-FC/128-FC/4-softmax,
残差模块结构(4)配置网络结构Embedding-D-Maxpool/2-FC/128-FC/4-softmax。
可优选地,所述步骤S4采用所述4种水稻知识文本分类网络结构,采用胶囊网络替代池化层,并结合所述4种残差网络结构,构建面向问答系统的水稻知识文本分类模型。
本发明相对于现有技术,有以下有益效果:
发明为解决文本特征提取不准确和网络层次加深导致模型分类性能变差等问题。
本发明基于ResNet[24]和Inception V[25]网络结构的基本原理,以Top-1准确率为判断标准,分别从网络模块结构和网络层次进行分析,筛选具有最佳特征提取性能的CNN网络结构。
本发明以提高准确率、召回率、F1值和正确率为目标,将筛选出的CNN网络结构与CapsNet相结合,建立水稻知识文本分类模型,以期为水稻知识文本的精准分类提供科学和理论依据。
附图说明
图1为本发明的面向问答系统的水稻知识文本分类模型网络结构;
图2为本发明的多种分类模型训练误差比较图。
具体实施方式
下面结合具体实施例对本发明做进一步说明,但本发明不受实施例的限制。
本发明提供了一种基于深度卷积的水稻知识文本分类方法,包括步骤如下:
S1.通过采用Python爬虫框架,爬取知网专家在线系统和种植问答网的关于水稻病虫害、草害药害以及栽培管理的中文文本问答数据。
S2.采用Word2Vec中的Skip-Gram模型对水稻知识文本进行向量化处理,词向量维度大小为100,训练窗口设置为5。同时与One-Hot、TF-IDF和Hashing向量化模型进行对比分析。
S3.构建文本特征提取网络:
S31.首先,受Inception V系列网络结构的启发,面向卷积通道对ResNet的残差模块进行更改与设计。首先将ResNet的单通道卷积组调整为多通道卷积组,用以减少文本特征的表征性瓶颈,即减少信息损失,其次通过增加大小为1的卷积核对文本向量进行降维,并加入非线性,进而降低网络模型参数和提高网络的表达能力,因此共设计了4种残差模块结构,如表1所示:
表1 面向通道的4种残差模块结构
S32.为对比残差模块结构对文本分类的影响,共配置了4种水稻知识文本分类网络结构,如表2所示,并通过后续试验分析,筛选分类性能较高的残差结构。与此同时,在保持较优残差结构不变的前提下,通过增加残差模块数量探究网络层次对分类精度的影响。
表2 基于4种残差模块结构的网络结构
S4.构建文本分类网络:
如果采用上述分类网络直接用于水稻知识文本分类,均需要采用池化层进行下采样操作。虽然池化层具有降低特征维度,减小模型参数等作用,但是在池化过程中丢失了一定的文本中词组相对位置特征,影响模型分类精度。因此本发明采用胶囊网络(CapsNet)替代池化层,并结合前文的4层残差网络结构,构建面向问答系统的水稻知识文本分类模型,简称为RIC-Net,其网络架构如图1所示。
本实施例通过采用Python爬虫框架,爬取知网专家在线系统和种植问答网等关于水稻病虫害、草害药害以及栽培管理等中文文本问答数据。
同时,对所获数据进行初步人工筛选,最终获得14527条有效数据,其中水稻病虫害、草害药害、栽培管理和其他数据分别为5640、1335、1492和6060条。水稻知识数据主要用于文本分类网络的模型训练与测试,每次试验从各类数据集中随机抽取80%作为训练集,10%作为验证集,剩余10%作为测试集。
本实施例采用Word2Vec中的Skip-Gram模型对水稻知识文本进行向量化处理,词向量维度大小为100,训练窗口设置为5。同时与One-Hot、TF-IDF和Hashing向量化模型进行对比分析。对4种模型训练得到的文本向量进行浅层神经网络建模,其精准率、召回率和F1值的宏平均结果如表3所示:
表3 4种文本向量化建模结果
Table 3 The results of four kinds of text vectorization modeling
由表3可知,4种基于文本向量化方法构建的浅层神经网络中,Word2Vec方法相比其他方法具有最高的分类精度,正确率为86.44%,Hashing方法的分类效果最差。这可能是由于One-Hot所产生的向量维度较高,存在稀疏性,影响了神经网络的分类效果,TF-IDF和Hashing虽然考虑字词间的语义信息,但问题也较为明显,这两种方法没有解决向量维度高和数据稀疏的问题,并且随着提取连续字的集合的增大,维度将会变得更高。从每一类的分类效果来看,基于4种向量化方法的浅层神经网络在栽培管理和病虫害上分类效果较好,在其他两个类别上效果较差,原因在于草害药害和其他类别的数据量较小所致。但相较而言,Word2Vec在草害药害和其他两个类别上向量化效果较好,网络模型能较为准确地提取到一定的文本特征,因此本发明采用Word2Vec模型构建文本向量作为后续研究的数据基础。
采用Word2Vec生成的4类14527条水稻知识文本向量作为样本,随机选取80%数据作为训练集,10%作为验证集,并根据表2中4种模块结构,分别构建分类模型,开展相关试验与分析。采用Top-1准确率作为评价指标,建模结果如表4:
表4 基于4种残差模块结构的网络分类性能
Table 4 Network classification performance based on 4 kinds ofresidual modules
注:Top-1准确率为判断概率最大的类别与实际类别相符的准确率。
由表4可知,基于4种残差模块构建的网络模型均具有较好的分类精度,Top-1准确率达95%以上,其中残差模块C所构建的分类模型具有最高的分类精度,Top-1准确率为99.59%,残差模块D、A和B的分类性能逐渐降低。这可能是由于残差模块C在各个通道卷积的第一层均采用了大小为1的卷积核,其能够在一定程度上增加非线性激励,提高了网络的表达能力,同时卷积通道数的增加使卷积核的数量增大,能够更充分地从数据中获取更多的文本特征。因此残差模块C具有最佳的文本特征提取能力。与此同时,本实施例在保持残差模块C的基本结构不变的基础上,通过增加残差模块的数量(即增大网络深度)进行进一步训练与分析,结果如表5:
表5 基于不同残差模块数量的网络分类性能
Table 5 Network classification performance based on the number ofdifferent residual modules
注:C×2等表示连续2个残差模块A,下同。
Note:C×2 and so on represent continuous 2 residual module A,the sameas below.
由表5可以看出,针对水稻知识文本样本,在保持残差结构相同的情况下,网络III的分类效果最佳,Top-1准确率为99.79%,网络I和II的分类效果略差,说明当残差模块较少时,可适当增加模块数量,提高文本分类精度。但在网络III的基础上,再增加残差模块数量时,网络的整体性能开始趋于饱和,分类精度有所下降。可能原因在于水稻知识数据中存在“共享词汇”,随着残差模块的增加,卷积数增大,模型训练得到一定共享词汇等的非主要文本特征,从而影响模型测试精度。
但是如果采用上述分类网络直接用于水稻知识文本分类,均需要采用池化层进行下采样操作。虽然池化层具有降低特征维度,减小模型参数等作用,但是在池化过程中丢失了一定的文本中词组相对位置特征,影响模型分类精度。因此本实施例采用胶囊网络(CapsNet)替代池化层,并结合前文的4层残差网络结构,构建面向问答系统的水稻知识文本分类模型,简称为RIC-Net。
在RIC-Net模型中,特征提取层的卷积滤波器数量分别为8、16、32和64,CapsNet的输出数量和维度均为50,动态路由轮数为3,在全连接层中FC1和FC2神经元个数分别设置为128和4。另外,采用Nadam算法(Nesterov-accelerated Adam)[32]对模型进行训练,初始学习率为0.002,一阶和二阶指数衰减率分别为0.9和0.999。与此同时,经多次实验得出,经过50代训练,网络模型的训练损失均收敛到稳定值。为对比本文方法的分类效果,利用同一样本数据,分别训练FastText、BiLSTM、DPCNN和RCNN等6种常用文本分类模型,训练误差结果如图2。
由图2可以看出,随着训练次数的增加,各个模型的训练误差均呈现不同程度的降低,当降低到一定程度后训练损失均收敛到稳定。在训练初始阶段,RIC-Net的训练误差下降最快,说明RIC-Net能够较为精准地提取文本特征,模型更易收敛。同时,RIC-Net、TextCNN和RCNN训练效果较好,当训练到45次时不仅达到收敛状态,且训练损失值在(0,0.036)之间,基本达到训练要求。
采用余下的10%作为测试集分别采用RIC-Net和其他6种文本分类方法进行测试与分析,并采用精准率、召回率、F1值以及正确率作为模型分类性能评价指标,结果如表6:
表6 不同分类网络的测试结果比较
Table 6 Comparison of test results with different classificationnetworks
注:类1、类2、类3和类4分别代表栽培管理、病虫害、草害药害和其他4个水稻知识类别。
Note:Categories 1,2,3and 4 respectively represent cultivationmanagement,pests and diseases,weeds and drugs,and four other rice knowledgeclassifications.
由表6可知,RIC-Net与FastText、BiLSTM和DPCNN等6种分类模型相比,RIC-Net在栽培管理、病虫害、草害药害和其他类别上均具有较高的分类性能,对水稻知识的4种文本类型分类的精准率、召回率和F1值分别大于95.10%、95.80%和97.50%,在测试集的正确率方面,RIC-Net同样高于其他模型,正确率为98.62%。这是由于RIC-Net借鉴了ResNet和Inception V的基本思想,采用多通道和残差模块的结构构建特征提取层,精准提取水稻知识文本特征,同时将CapsNet替换池化层,保留了词组间相对位置特征,从而提高了模型分类精度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进也应视本发明的保护范围。
Claims (4)
1.一种基于深度卷积的水稻知识文本分类方法,其特征在于,包括以下步骤:
S1.通过采用Python爬虫框架,爬取知网专家在线系统和种植问答网的关于水稻病虫害、草害药害以及栽培管理的中文文本问答数据;
S2.采用Word2Vec中的Skip-Gram模型对水稻知识文本进行向量化处理,词向量维度大小为100,训练窗口设置为5,同时与One-Hot、TF-IDF和Hashing向量化模型进行对比分析;
S3.构建文本特征提取网络;
S4.构建文本分类网络。
2.根据权利要求1所述的基于深度卷积的水稻知识文本分类方法,其特征在于,所述步骤S3包括步骤:
S31.面向卷积通道对ResNet的残差模块进行更改与设计:
首先将ResNet的单通道卷积组调整为多通道卷积组,用以减少文本特征的表征性瓶颈,即减少信息损失;
其次通过增加大小为1的卷积核对文本向量进行降维,并加入非线性,进而降低网络模型参数和提高网络的表达能力,共设计了4种残差模块结构;
S32.为对比残差模块结构对文本分类的影响,共配置了4种水稻知识文本分类网络,并通过后续试验分析,筛选分类性能较高的残差结构;
与此同时,在保持较优残差结构不变的前提下,通过增加残差模块数量探究网络层次对分类精度的影响。
3.根据权利要求2所述的基于深度卷积的水稻知识文本分类方法,其特征在于,所述4种残差模块结构的结构式分别为(1)(2)(3)(4)所示:
基于上述4种残差模块结构,配置了4种水稻知识文本分类网络结构,
残差模块结构(1)配置网络结构Embedding-A-Maxpool/2-FC/128-FC/4-softmax,
残差模块结构(2)配置网络结构Embedding-B-Maxpool/2-FC/128-FC/4-softmax,
残差模块结构(3)配置网络结构Embedding-C-Maxpool/2-FC/128-FC/4-softmax,
残差模块结构(4)配置网络结构Embedding-D-Maxpool/2-FC/128-FC/4-softmax。
4.根据权利要求3所述的基于深度卷积的水稻知识文本分类方法,其特征在于,所述步骤S4采用所述4种水稻知识文本分类网络结构,采用胶囊网络替代池化层,并结合所述4种残差模块结构,构建面向问答系统的水稻知识文本分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011179409.6A CN112256878B (zh) | 2020-10-29 | 2020-10-29 | 一种基于深度卷积的水稻知识文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011179409.6A CN112256878B (zh) | 2020-10-29 | 2020-10-29 | 一种基于深度卷积的水稻知识文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112256878A true CN112256878A (zh) | 2021-01-22 |
CN112256878B CN112256878B (zh) | 2024-01-16 |
Family
ID=74261448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011179409.6A Active CN112256878B (zh) | 2020-10-29 | 2020-10-29 | 一种基于深度卷积的水稻知识文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256878B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033610A (zh) * | 2021-02-23 | 2021-06-25 | 河南科技大学 | 一种多模态融合敏感信息分类检测方法 |
CN113191148A (zh) * | 2021-04-30 | 2021-07-30 | 西安理工大学 | 一种基于半监督学习和聚类的轨道交通实体识别方法 |
CN114283303A (zh) * | 2021-12-14 | 2022-04-05 | 贵州大学 | 一种茶青分类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263855A (zh) * | 2019-06-20 | 2019-09-20 | 深圳大学 | 一种利用共基胶囊投影进行图像分类的方法 |
US20200104688A1 (en) * | 2018-09-27 | 2020-04-02 | Swisscom Ag | Methods and systems for neural architecture search |
CN111241958A (zh) * | 2020-01-06 | 2020-06-05 | 电子科技大学 | 一种基于残差-胶囊网络的视频图像鉴别方法 |
CN111259157A (zh) * | 2020-02-20 | 2020-06-09 | 广东工业大学 | 一种基于混合双向循环胶囊网络模型的中文文本分类方法 |
US20200302168A1 (en) * | 2017-10-02 | 2020-09-24 | Sensen Networks Group Pty Ltd | System and method for machine learning-driven object detection |
US20200311798A1 (en) * | 2019-03-25 | 2020-10-01 | Board Of Trustees Of The University Of Illinois | Search engine use of neural network regressor for multi-modal item recommendations based on visual semantic embeddings |
-
2020
- 2020-10-29 CN CN202011179409.6A patent/CN112256878B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200302168A1 (en) * | 2017-10-02 | 2020-09-24 | Sensen Networks Group Pty Ltd | System and method for machine learning-driven object detection |
US20200104688A1 (en) * | 2018-09-27 | 2020-04-02 | Swisscom Ag | Methods and systems for neural architecture search |
US20200311798A1 (en) * | 2019-03-25 | 2020-10-01 | Board Of Trustees Of The University Of Illinois | Search engine use of neural network regressor for multi-modal item recommendations based on visual semantic embeddings |
CN110263855A (zh) * | 2019-06-20 | 2019-09-20 | 深圳大学 | 一种利用共基胶囊投影进行图像分类的方法 |
CN111241958A (zh) * | 2020-01-06 | 2020-06-05 | 电子科技大学 | 一种基于残差-胶囊网络的视频图像鉴别方法 |
CN111259157A (zh) * | 2020-02-20 | 2020-06-09 | 广东工业大学 | 一种基于混合双向循环胶囊网络模型的中文文本分类方法 |
Non-Patent Citations (5)
Title |
---|
AILI WANG等: "A Novel LiDAR Data Classification Algorithm Combined Capsnet with ResNet", SENSORS * |
JAEYOUNG KIM等: "Text Classification using Capsules", ARXIV * |
张冬瑜等: "基于Transformer和BERT的名词隐喻识别", 数据分析与知识发现, no. 04 * |
徐志栋等: "基于胶囊网络的方面级情感分类研究", 智能科学与技术学报, no. 03 * |
贾旭东等: "基于多头注意力胶囊网络的文本分类模型", 清华大学学报(自然科学版), no. 05 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033610A (zh) * | 2021-02-23 | 2021-06-25 | 河南科技大学 | 一种多模态融合敏感信息分类检测方法 |
CN113033610B (zh) * | 2021-02-23 | 2022-09-13 | 河南科技大学 | 一种多模态融合敏感信息分类检测方法 |
CN113191148A (zh) * | 2021-04-30 | 2021-07-30 | 西安理工大学 | 一种基于半监督学习和聚类的轨道交通实体识别方法 |
CN113191148B (zh) * | 2021-04-30 | 2024-05-28 | 西安理工大学 | 一种基于半监督学习和聚类的轨道交通实体识别方法 |
CN114283303A (zh) * | 2021-12-14 | 2022-04-05 | 贵州大学 | 一种茶青分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112256878B (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Convolutional recurrent neural networks for text classification | |
CN109543084B (zh) | 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 | |
Vateekul et al. | A study of sentiment analysis using deep learning techniques on Thai Twitter data | |
CN112256878B (zh) | 一种基于深度卷积的水稻知识文本分类方法 | |
CN107766324A (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN104965819B (zh) | 一种基于句法词向量的生物医学事件触发词识别方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN106897685A (zh) | 基于核非负矩阵分解的字典学习和稀疏特征表示的人脸识别方法及系统 | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN108170736A (zh) | 一种基于循环注意力机制的文档快速扫描定性方法 | |
Hossain et al. | Bengali text document categorization based on very deep convolution neural network | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN113590837A (zh) | 一种基于深度学习的食品及健康知识图谱构建方法 | |
CN112784532B (zh) | 用于短文本情感分类的多头注意力记忆系统 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN111968700A (zh) | 一种基于bert的水稻表型组学知识图谱关系提取方法及系统 | |
CN108427717A (zh) | 一种基于逐步扩展的字母类语系医疗文本关系抽取方法 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN104537280B (zh) | 基于文本关系相似性的蛋白质交互关系识别方法 | |
CN115640806A (zh) | 一种基于改进CasRel的农作物病虫害实体关系联合抽取方法 | |
CN115658886A (zh) | 基于语义文本的智能肝癌分期方法、系统及介质 | |
CN115186102A (zh) | 基于双流嵌入和深度神经网络的动态知识图谱补全方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |