CN111651980B - 混合神经网络融合Attention机制的小麦抗寒性识别方法 - Google Patents
混合神经网络融合Attention机制的小麦抗寒性识别方法 Download PDFInfo
- Publication number
- CN111651980B CN111651980B CN202010459587.8A CN202010459587A CN111651980B CN 111651980 B CN111651980 B CN 111651980B CN 202010459587 A CN202010459587 A CN 202010459587A CN 111651980 B CN111651980 B CN 111651980B
- Authority
- CN
- China
- Prior art keywords
- wheat
- text
- convolution
- layer
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000209140 Triticum Species 0.000 title claims abstract description 94
- 235000021307 Triticum Nutrition 0.000 title claims abstract description 94
- 230000007246 mechanism Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 86
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 61
- 238000011176 pooling Methods 0.000 claims abstract description 42
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 abstract description 10
- 230000002457 bidirectional effect Effects 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 15
- 238000012360 testing method Methods 0.000 description 15
- 238000009395 breeding Methods 0.000 description 13
- 230000001488 breeding effect Effects 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000013145 classification model Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000007787 long-term memory Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000009084 Cold Injury Diseases 0.000 description 1
- 235000019750 Crude protein Nutrition 0.000 description 1
- 241001237160 Kallima inachus Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000002595 cold damage Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 208000013409 limited attention Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000009400 out breeding Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Mining & Mineral Resources (AREA)
- Marine Sciences & Fisheries (AREA)
- Animal Husbandry (AREA)
- Agronomy & Crop Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于混合神经网络融合Attention机制的小麦抗寒性识别方法,其步骤为:首先,将小麦特征文本转换为特征向量输入词向量层,得到小麦文本向量;其次,使用多个不同维度的卷积层和池化层对小麦文本向量的不同层级的局部特征进行提取,之后再使用双向长短期记忆网络充分捕获特征词之间的词序信息,提取特征词上下文特征信息;最后结合注意力机制识别不同特征信息的重要性。本发明将卷积神经网络、双向长短时记忆网络和注意力机制相结合构建了Attention‑CNN+BiLSTM模型,能够提取文本局部特征信息和文本上下文序列特征信息,提高了小麦抗寒性的识别率。
Description
技术领域
本发明涉及小麦抗寒性识别技术领域,特别是指一种基于混合神经网络融合Attention机制的小麦抗寒性识别方法。
背景技术
近年来,全球气候变暖所引起的极端天气频发,对农业生产活动特别是种植业活动的影响尤为明显。小麦种植区在冬春时节遭受的倒春寒、寒潮等极端低温天气发生的频率在逐年增加、周期在逐年缩短。小麦的抗寒性能日益成为影响小麦高产和稳产的重要因素。由于气候条件的不可抗拒性,要确保小麦稳产高产,就需要培育抗寒性较强的新型小麦品种。目前,对小麦抗寒性的鉴定主要依靠前人经验的积累和试验田中实测的数据分析。文献[欧行奇,王玉玲.黄淮南片麦区小麦耐倒春寒育种研究初探[J].麦类作物学报,2019,39(05):560-566.]通过区域和栽培条件的变换试验结果以及和抗寒性密切关联的性状信息分析对小麦品种的抗寒性进行鉴定;文献[李桐,付连双,刘鑫,等.冬小麦抗寒性鉴定的低温处理方式和鉴定指标的研究[J].麦类作物学报,2019,39(07):851-858.]采用室内快速低温处理结合SOD活性及ASA、H2O2和MDA含量分析对小麦品种抗寒性进行识别。文献[赵瑞玲,赵勇,易腾飞,肖轶娆,张树华,杨学举.小麦种质资源的抗寒性鉴定及品种筛选[J].山东农业大学学报(自然科学版),2019,50(01):25-30.]在三个试验点种植534份小麦品种,以小麦的死苗率和枯叶率与冻害等级呈极显著正相关作为小麦抗寒性识别的重要指标。现有的抗寒性鉴定和育种杂交配置组合的选择通常需要耗费大量人力、物力和财力。因此,将信息技术特别是人工智能应用于抗寒性识别,获取有效的信息来辅助小麦品种的抗寒性识别和筛选。这不仅顺应了国家“人工智能+农业”的发展战略,也可以减少育种科研人员的繁重的工作量,提高育种的工作效率。
近年来,深度学习方法被应用到农业相关领域,如卷积神经网络(ConvolutionalNeural Networks,CNN)、反向传播(Back Propagation,BP)神经网络等。这些方法已经成功应用于农业文本分类、作物识别和作物育种特征选择等有关农业领域。文献[吴粤敏,丁港归,胡滨.基于注意力机制的农业金融文本关系抽取研究[J].数据分析与知识发现,2019,3(05):86-92.]使用双重注意力机制的门控循环单元算法在农业金融相关文本的关系抽取上取得较好效果;文献[刘忠强,赵向宇,王开义,等.基于序相关的作物育种评价性状特征选择方法[J].农业机械学报,2015,46(S1):283-289.]采用基于序相关的作物育种评价性状特征选择的方式将作物的性状表现与评价结果的相关程度以及各个性状表现之间的相似程度综合考虑,选择出性状组合与评价结果相关性最大且性状组合内部相似性最小的特征组合;文献[刘忠强.作物育种辅助决策关键技术研究与应用[D].中国农业大学,2016.]采用基于决策树的作物育种评价方法,将育种人员在先前试验中选育的评价结果引入到模型,综合利用数据挖掘、机器学习等现代信息技术进行育种辅助决策,在一定程度上解决了作物育种经验和时间匮乏的问题。
深度学习在文本分类和情感分析等自然语言分类问题上取得了很好的效果,文献[潘东行,袁景凌,李琳,盛德明.一种融合上下文特征的中文隐式情感分类模型[J].计算机工程与科学,2020,42(02):341-350.]将上下文语义特征和注意力机制进行融合,增强了部分中立性隐式表达句的情感分类效果;文献[金宁,赵春江,吴华瑞,缪祎晟,李思,杨宝祝.基于BiGRU_MulCNN的农业问答问句分类技术研究[J/OL].农业机械学报:1-13[2020-05-04].]使用双向门控循环神经网络混合多尺度并行卷积神经网络在农业问答问句分类问题上取得了较好的效果。但是,采用深度学习技术对小麦抗性识别和育种筛选的研究较少,因此,利用深度学习对作物抗性进行分析及品种筛选具有一定指导意义。
发明内容
针对上述背景技术中存在的不足,本发明提出了一种基于混合神经网络融合Attention机制的小麦抗寒性识别方法,解决了现有技术中小麦抗寒类别识别率低的技术问题。
本发明的技术方案是这样实现的:
一种基于混合神经网络融合Attention机制的小麦抗寒性识别方法,其步骤如下:
S1、将小麦特征文本转换为特征向量输入词向量层,得到小麦文本向量;
S2、将小麦文本向量分别输入卷积神经网络I、卷积神经网络II、卷积神经网络III中,得到局部特征信息I、局部特征信息II、局部特征信息III;
S3、将局部特征信息I、局部特征信息II、局部特征信息III输入到拼接层进行拼接得到全局特征信息;
S4、将全局特征信息输入BiLSTM网络中得到小麦文本向量之间的序列特征信息;
S5、利用注意力机制对序列特征信息进行权重分配,得到小麦文本特征向量;
S6、利用Sigmoid激活函数对小麦文本特征向量进行分类,输出分类结果。
所述步骤S1中将小麦特征文本转换为特征向量输入词向量层,得到小麦文本向量的方法为:
S11、将小麦特征文本映射到d维向量空间,得到文本特征词序列X=(x1,x2,…,xL-1,xL),其中,L表示输入小麦特征文本经过分词后的特征词的个数;
S12、利用Word2vec网络模型对特征词进行训练作为特征向量输入词向量层,得到小麦文本向量X∈RL·d。
所述步骤S2中的卷积神经网络I包括卷积层I和池化层I,所述卷积神经网络II包括卷积层II和池化层II,所述卷积神经网络III包括卷积层III和池化层III;
所述将小麦文本向量分别输入卷积神经网络I、卷积神经网络II、卷积神经网络III,得到局部特征信息I、局部特征信息II、局部特征信息III的方法为:
S21、利用卷积层I、卷积层II、卷积层III分别对小麦文本向量X∈RL·d进行卷积,得到卷积特征值:
其中,表示每个窗口在第n个位置的卷积特征值,Wm为卷积核的权重值Wm∈Rm ·d,xn:n+m-1表示从n到n+m-1共m行向量,bm∈Rd为偏置,/>为卷积运算,f(x)为激活函数,m表示卷积核窗口,卷积核的尺寸为K∈Rm·d,m=3,4,5,滑动步长为1,K∈R3·d对应卷积层I的卷积核,K∈R4·d对应卷积层II的卷积核,K∈R5·d对应卷积层III的卷积核,d表示特征词的向量维度;
S22、小麦文本向量X∈RL·d经过第m个卷积核卷积操作后得到的特征信息为:
S23、利用池化层I对卷积层I输出的特征信息进行降维操作,得到局部特征信息I:
S24、利用池化层II对卷积层II输出的特征信息进行降维操作,得到局部特征信息II:
S25、利用池化层III对卷积层III输出的特征信息进行降维操作,得到局部特征信息III:
所述将全局特征信息输入BiLSTM网络中得到小麦文本向量之间的序列特征信息的方法为:其中,ht表示序列特征信息,Wt表示前向方向上输出的权重矩阵,Vt表示后向方向上输出的权重矩阵,bt表示的是偏置值,/>表示t时刻LSTM网络在正方向上的输出,/>表示t时刻LSTM网络在反方向上的输出,xt为BiLSTM模型在t时刻的输入。
所述利用注意力机制对序列特征信息进行权重分配,得到小麦文本特征向量的方法为:s=∑tαt·μt,其中,αt=exp(μt T·μw)/∑texp(μt T·μw)表示序列特征信息ht对分类判定的贡献度,μw表示随机初始化的数值,μt==tanh(Ww·ht+bw)表示第t时刻由上一网络层输出向量ht所决定的注意力概率分布值,Ww为注意力层的权重矩阵,bw为偏置项。
本技术方案能产生的有益效果:
(1)本发明对获取的小麦文本数据进行数据清洗,确保文本数据的规范化;使用Jieba分词工具对特征文本做分词处理,通过自定义词表和去停用词词表确保分词的正确率;使用Word2vec训练特征词的向量;
(2)本发明充分利用卷积神经网络(CNN)抽取文本局部特征信息的能力,结合双向长短期记忆网络(BiLSTM)捕获文本上下文序列特征信息的能力,并引入了注意力机制构建了小麦抗寒性鉴定的Attention-CNN+BiLSTM模型,提高了小麦抗寒性的识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为卷积层和池化层的原理框图;
图2为LSTM网络结构图;
图3为本发明的Attention-CNN+BiLSTM模型结构图;
图4为本发明的卷积神经网络结构图;
图5为本发明的融合注意力机制的双向长短期记忆网络结构图;
图6为本发明基于Accuracy值的Attention机制融合前后的对比结果;
图7为本发明基于Kappa系数的Attention机制融合前后的对比结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了构建本发明的混合神经网络,需要先阐述本领域的相关理论知识,包括卷积神经网络、长短期记忆网络和注意力机制。
卷积神经网络:
卷积神经网络最早由Fukushima提出的,主要用于从原始数据中自动提取特征。它的优势在于可以从多层网络结构能自动学习输入数据的深层特征,不同层次的网络可以学习到不同层次的特征。CNN主要有卷积和池化两种特殊的神经元层组成,卷积层输入的每个神经元与前一层经过局部相连,对局部特征进行提取,获取更能代表输入的深层特征信息;池化层通过下采样操作对特征进行二次提取,进一步获得输入的统计特征。卷积神经网络结构使网络专注于前一隐藏层中的表面特征,卷积处理后作为下一隐藏层中的深层特征,该结构不仅减少网络参数数量,而且降低了训练的时间复杂度。
卷积层通过“卷积核”对输入数据进行局部感知,提取数据的局部特征信息。卷积核的大小决定了卷积操作的局部区域范围,一维卷积的计算公式如下:
其中,x(k′)为输入的信息,L′为输入信息的长度,h(.)为卷积核的信息,K′为卷积核的长度,x(k′)为卷积核在k′位置的值,h(l′+k′)为输入信息在(l′+k′)位置的值。在CNN的整体结构中,卷积层之后会跟着一个池化层,作用在于进一步简化卷积层提取到的数据、减少神经元的数量。池化层通过采用一定的池化规则,对卷积提取的特征进行二次提取,池化过程的计算如下:
其中,表示池化后特征信息,f(.)为ReLU激活函数,down(.)为下采样函数,/>为乘性偏置,/>为加性偏置。卷积和池化计算示例如图1所示。在图1中卷积计算过程中,x为输入特征信息,h为卷积核信息,卷积步长为1;池化计算过程中,采用最大池化方式,池化窗口和步长为2。
长短期记忆网络:
长短期记忆网络(LSTM)模型在1997年由Hochreiter等提出,它是循环神经网络的一种变体。LSTM不仅能够捕获到输入特征中的长期依赖关系,还可以更好地从整体上把握输入特征的关系,适用于处理在输入上存在前后序列和因输入特征距离较远而导致延迟相对较长的事件。LSTM模型在原有输入门和输出门的基础上增加了遗忘门,从上一个单元获取到的信息将由遗忘门决定对其进行保留或者丢弃。LSTM结构如图2所示。
输入门it和输出门ot用于控制数据信息的进出,遗忘门ft用于控制先前序列信息对当前的影响程度,σ为激活函数。网络中每个门的计算公式如下:
it=σ(Wixt+Uiht-1+bi) (3),
ft=σ(Wfxt+Ufht-1+bf) (4),
ot=σ(Woxt+Uoht-1+bo) (5),
h′t=ot·tanh(Ct) (9),
其中,Ct为当前时刻t的存储单元,为记忆单元的状态候选值,h′t为网络的最终输出,Wi,Ui,Wc,Uc,Wf,Uf,Wo,Uo分别为记忆单元中各个门对应的权重向量,bi,bc,bf,bo分别为记忆单元中各个门对应的偏置项。
LSTM模型对有效的历史信息进行了有选择的记忆,极大改善了网络模型进行参数学习的过程,很适用于时间序列高度相关的问题,但是未能将后续的特征信息纳入考虑范围,只是从单个方向进行学习。双向长短期记忆网络具有两个方向相反的LSTM层,该结构可以充分考虑过去和未来的信息,因此对时间和序列信息的处理能力更强。
注意力机制:
深度学习中的注意力机制是模拟人类视觉神经工作,通过快速扫描全局图像,获得需要重点关注的目标区域。该机制可以充分利用有限的注意力资源从众多信息中快速筛选出关键的信息,抑制无效信息,从而提高了信息处理的效率与准确性。Bahdanau等在机器翻译任务上使用类似Attention的机制将翻译和对齐同时进行,被认为是注意力机制在自然语言处理领域的首次应用。
如图3所示,本发明构建了Attention-CNN+BiLSTM模型,主要由输入、特征提取以及输出三部分组成词向量层主要用于将小麦特征词文本转换为特征向量作为输入。特征提取部分由卷积层、池化层、拼接层、双向长短期记忆网络层、注意力机制组成,该部分通过对文本向量使用不同的卷积核,提取小麦各个特征词文本向量之间的局部信息;通过池化操作,不仅得到最能表现特征词文本的主要特征表示,而且降低了特征向量的维度,有效降低模型训练的复杂度;双向长短期记忆网络用于捕获小麦文本特征词前后序列之间的语义依赖关系,提取特征词向量之间的序列特征信息;注意力机制通过训练学习,计算文本各个特征向量的重要程度,对文本特征向量进行更新,得到更加精准的文本特征向量。输出部分使用sigmoid激活函数作为特征分类器,通过计算出的类别概率,输出分类的结果。
本发明实施例提供了一种基于混合神经网络融合Attention机制的小麦抗寒性识别方法,具体步骤为:
S1、将小麦特征文本转换为特征向量输入词向量层,得到小麦文本向量;在词向量层中,输入的小麦特征文本的内容表达都被映射到d维向量空间。输入小麦品种的文本特征词序列为X=(x1,x2,…,xL-1,xL),其中,L表示输入序列文本分词后特征词的个数。使用Word2vec将特征词进行训练用词向量表示,此时输入X可以表示为X∈RL·d,d表示训练的词向量的维度。具体方法为:
S11、将小麦特征文本映射到d维向量空间,得到文本特征词序列X=(x1,x2,…,xL-1,xL);
S12、利用Word2vec对特征词进行训练作为特征向量输入词向量层,得到小麦文本向量X∈RL·d。
S2、将小麦文本向量分别输入卷积神经网络I、卷积神经网络II、卷积神经网络III,得到局部特征信息I、局部特征信息II、局部特征信息III;将文本生成的特征向量作为卷积神经网络的输入,采用一维卷积的方式在设定的窗口范围提取局部特征。利用多个不同尺寸的卷积核对输入文本向量进行卷积计算,获得特征输出。卷积、池化以及拼接的过程如图4所示。
所述卷积神经网络I包括卷积层I和池化层I,所述卷积神经网络II包括卷积层II和池化层II,所述卷积神经网络III包括卷积层III和池化层III;卷积层I、卷积层II和卷积层III输入的小麦文本向量均为X∈RL·d,向量的每行代表一个特征维度为d的特征词向量。卷积操作所采用的卷积核向量为K∈Rm·d,m表示卷积核的窗口大小,本发明采用卷积核窗口m分别为3、4、5,滑动步长为1,卷积输入的文本窗口为{x1:m,x2:m+1,…,xL-m+1:L}。
所述将小麦文本向量分别输入卷积神经网络I、卷积神经网络II、卷积神经网络III,得到局部特征信息I、局部特征信息II、局部特征信息III的方法为:
S21、利用卷积层I、卷积层II、卷积层III分别对小麦文本向量X∈RL·d进行卷积,得到卷积特征值:
其中,表示每个窗口在第n个位置的卷积特征值,Wm为卷积核的权重值Wm∈Rm·d,xn:n+m-1表示从n到n+m-1共m行向量,bm∈R为偏置,/>为卷积运算,f(.)为激活函数,m表示卷积核窗口,卷积核的尺寸为K∈Rm·d,m=3,4,5,滑动步长为1,K∈R3·d对应卷积层I的卷积核,K∈R4·d对应卷积层II的卷积核,K∈R5·d对应卷积层III的卷积核,d表示特征词的向量维度;
S22、小麦文本向量X∈RL·d经过第m个卷积核卷积操作后得到的特征信息为:
S23、在文本处理任务中,经过卷积后输出的数据会含有很多的无效特征,因此需要使用池化层进一步减少参数的数目,过滤掉冗余的特征。池化不仅可以加快网络的运算速度,也可以有效防止模型的过拟合。本发明使用最大池化方法提取特征图中最能代表输入信息的特征表示对于不同尺寸的卷积窗口,都包含l=100个卷积核;利用池化层I对卷积层I输出的特征信息进行降维操作,得到局部特征信息I:
S24、利用池化层II对卷积层II输出的特征信息进行降维操作,得到局部特征信息II:
S25、利用池化层III对卷积层III输出的特征信息进行降维操作,得到局部特征信息III:
S4、将全局特征信息输入BiLSTM网络中得到小麦文本向量之间的序列特征信息,BiLSTM网络结构如图5所示,BiLSTM网络由两个方向相反的LSTM构成,不仅能够得到前向的语义特征信息,也能得到后向的语义特征信息,可以充分的捕获特征词文本的上下文信息;在BiLSTM模型中,在任意一个时刻t会同时有两个方向相反的LSTM控制机制。
xt为BiLSTM网络在t时刻的输入,表示t时刻LSTM在正方向上的输出,/>表示t时刻LSTM在反方向上的输出,整个网络的输出计算公式为:/>其中,ht表示序列特征信息,Wt表示前向方向上输出的权重矩阵,Vt表示后向方向上输出的权重矩阵,bt表示的是偏置值,/>BiLSTM网络使每个时刻输入特征的隐藏状态均考虑到了全部输入特征的信息。对于每个输入特征不仅通过前向的LSTM考虑到了前面的特征信息,而且通过后向的LSTM融合了后面的特征信息,实现了对全部输入小麦特征上下文信息的深层次抽象。
S5、利用注意力机制对序列特征信息进行权重分配,得到小麦文本特征向量;注意力机制实现的是对BiLSTM网络输出特征信息的资源再分配,该层会对输入的信息进行权重分配,分配方法为:
μt==tanh(Ww·ht+bw) (15),
αt=exp(μt T·μw)/∑texp(μt T·μw) (16),
s=∑tαt·μt (17),
其中,αt表示序列特征信息ht对分类判定的贡献度,μw表示随机初始化的数值,它随着训练学习过程中不断变化,μt表示第t时刻由上一网络层输出向量ht所决定的注意力概率分布值,Ww为注意力层的权重矩阵,bw为偏置项。
S6、利用Sigmoid激活函数对小麦文本特征向量进行分类,输出分类结果。
试验与结果分析:
一、数据准备
本发明的试验数据集来源于农业农村部种业管理司的中国种业大数据平台(http://202.127.42.47:6010/SDSite/Home/Index)。利用Python编写爬虫,对1978—2018年的国审的小麦品种信息进行爬取,共得到3513个小麦品种的37个特征信息。爬取到的文本存在着多词同义、错别字和常量单位不统一等现象,依据小麦育种人员的建议和金善宝与Fujita M等的文献查询,采用程序和人工相结合的方式,对数据进行预处理,保留信息较为完整的3049条小麦数据及其相应的36个特征描述。在使用jieba分词工具默认分词时,部分特征词会被过度切分,破坏原有的词义信息,本发明结合自定义词表和停用词表做分词处理,有效的解决了词义信息破坏的问题,如表1所示。
表1小麦文本特征分词处理
通过表1可以看出,默认分词和自定义分词的结果有一定差异,引入停用词表之后品种、属、干基等无实际表征信息的特征词会被剔除;引入自定义词表之后,沉淀指数、粗蛋白质、降落数值等特征词没有被切分,有效的保留了特征词信息的完整性。
二、数据集划分
数据集的划分按照有抗寒性和无抗寒性两种特征标签,分为训练集、验证集和测试集。数据集样本划分如表2所示。
表2依据抗寒性标签的样本划分
通过表2可以看出,训练集、验证集和测试集按照3:1:1的比例,依照小麦的两种抗寒性标签,各取60%作为训练集,将剩下数据集各取20%作为验证集和测试集,
三、对比模型
(1)CNN分类模型:使用3种不同的卷积核进行多尺寸卷积操作,捕获不同类型的多维特征,提取文本特征词的局部信息,并且采用最大池化对提取到的特征进行融合后进行分类。
(2)BiLSTM分类模型:前向的LSTM捕获文本的前向语义特征,后向的LSTM捕获文本的后向语义特征。利用双向LSTM对文本进行双向编码,将得到的特征用于分类。
(3)CNN+BiLSTM分类模型:使用3种不同的卷积核进行多尺寸卷积操作,经过池化处理后进行拼接,再由BiLSTM进行双向编码后进行分类。
(4)Attention模型:融合注意力机制的Attention-CNN分类模型和Attention-BiLSTM模型。
四、模型参数
(1)词嵌入:将数据集分词后的特征词,使用谷歌公司开源的Word2vec工具训练词向量,依据特征词之间的相似程度构建高维向量。词向量的维度为150。
(2)网络参数:多尺寸卷积神经网络中,第一个卷积核的数目为100,卷积尺寸为3*100,第2个卷积核的数目为100,卷积尺寸为4*100,第三个卷积核的数目为100,卷积尺寸为5*100。池化层采用最大池化的方式,池化值设定为2。BiLSTM层神经元数目设置为128。
(3)训练参数:在模型训练过程中,训练优化函数选用AdamOptimizer更新网络参数,学习率设置为0.001,训练的批次大小为64,训练次数为200。通过dropout机制来避免实验的过拟合,丢弃率设置为0.5。
五、评价指标
为了验证模型的有效性,使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值以及Kappa系数作为模型的评价指标。
其中,TP为将正例样本预测为正例样本的个数,TN为将负例样本预测为负例样本的个数,FP为将负例样本预测为正例样本的个数,FN为将正例样本预测为负例样本的个数。
六、结果分析
为了直观的比较模型的性能,首先统计分析各个模型在测试集上表示分类准确率的Accuracy和分类一致性检验的Kappa系数,对比结果如图6和图7所示。
由图6和图7可看出,CNN模型的Accuracy值和Kappa系数要略高于BiLSTM模型,这说明通过CNN卷积神经网络提取到的多维度局部特征组合的性能,要优于BiLSTM长短期记忆网络提取到的文本特征词的上下文特征信息。将CNN提取的多维度局部特征组合后再由BiLSTM捕获特征信息的上下文关系,此时CNN+BiLSTM模型的Accuracy值要比单独的CNN和BiLSTM分别高出2.7%和8.7%,而Kappa系数则高出0.06和0.2,这说明CNN提取的局部特征和BiLSTM提取的上下文特征试验模型都很重要。为了进一步提升模型的性能,对比各个模型引入Attention机制前后的试验结果可以看出,模型的Accuracy值和Kappa系数均又提升,CNN+BiLSTM+Attention模型的Accuracy值和Kappa系数分别达到了90.48%和0.7847。进一步观察发现,各个模型的Accuracy值虽有提升,但是增幅不大,而Kappa系数增幅相对较大,这说明Attention机制不仅提高了模型分类的整体准确性,更加改善了模型预测结果和实际结果的一致性。
为了进一步分析和探究模型的性能,对比分析各个模型在测试集上的Precision(P)、Recall(R)以及F1值(F1)三个评价指标上的结果,如表3所示。
表3分类模型实验结果对比
从表3中可以看出,各个模型在Precision、Recall以及F1值等三个评价指标上的试验结果大体上与Accuracy值和Kappa系数一致。本发明构建的CNN+BiLSTM+Attention模型的性能相对优于其他比对模型。从抗寒和不抗寒两个预测分类单独的评价指标来看,各个模型尽管在预测效果上有差异,但在对不抗寒类别的识别上要好于抗寒类别。为了进一步探究各个模型对抗寒类别识别较差的原因,以本发明构建的模型为例,对分类预测的混淆矩阵进行分析,分类模型混淆矩阵如表4所示。
表4分类模型混淆矩阵
通过表4可以看到,不抗寒标签被误识别为抗寒的数目,略高于抗寒标签识别为不抗寒标签数目。对比实验数据包含两种标签样本的数目可知,出现此种现象的原因是:数据集中不抗寒样本数与抗寒样本数比值为2:1,数目不占优势的抗寒样本的某些特征在模型训练过程中会被忽略掉,从而造成原本数目不多的抗寒样本被误识别为不抗寒样本。
无论是卷积神经网络进行多尺寸卷积和池化得到的多维度局部语义特征,还是双向长短期记忆网络进行双向编码得到的上下文语义特征,都可以对小麦的抗寒类别进行识别。但是,本发明构建的CNN+BiLSTM+Attention,无论在分类的准确率,还是分类一致性检验上的表现,均优于其它对比模型。将育种过程中记录的小麦性状文本信息,通过CNN+BiLSTM+Attention模型得到的抗寒性识别结果,可以给育种人员起到指导作用。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于混合神经网络融合Attention机制的小麦抗寒性识别方法,其特征在于,其步骤如下:
S1、将小麦特征文本转换为特征向量输入词向量层,得到小麦文本向量;
S11、将小麦特征文本映射到d维向量空间,得到文本特征词序列X=(x1,x2,…,xL-1,xL),其中,L表示输入小麦特征文本经过分词后的特征词的个数;
S12、利用Word2vec网络模型对特征词进行训练作为特征向量输入词向量层,得到小麦文本向量X∈RL·d;
S2、将小麦文本向量分别输入卷积神经网络I、卷积神经网络II、卷积神经网络III中,得到局部特征信息I、局部特征信息II、局部特征信息III;
所述步骤S2中的卷积神经网络I包括卷积层I和池化层I,所述卷积神经网络II包括卷积层II和池化层II,所述卷积神经网络III包括卷积层III和池化层III;
所述将小麦文本向量分别输入卷积神经网络I、卷积神经网络II、卷积神经网络III,得到局部特征信息I、局部特征信息II、局部特征信息III的方法为:
S21、利用卷积层I、卷积层II、卷积层III分别对小麦文本向量X∈RL·d进行卷积,得到卷积特征值:
其中,表示每个窗口在第n个位置的卷积特征值,Wm为卷积核的权重值Wm∈Rm·d,xn:n+m-1表示从n到n+m-1共m行向量,bm∈Rd为偏置,/>为卷积运算,f(x)为激活函数,m表示卷积核窗口,卷积核的尺寸为K∈Rm·d,m=3,4,5,滑动步长为1,K∈R3·d对应卷积层I的卷积核,K∈R4·d对应卷积层II的卷积核,K∈R5·d对应卷积层III的卷积核,d表示特征词的向量维度;
S22、小麦文本向量X∈RL·d经过第m个卷积核卷积操作后得到的特征信息为:
S23、利用池化层I对卷积层I输出的特征信息进行降维操作,得到局部特征信息I:
S24、利用池化层II对卷积层II输出的特征信息进行降维操作,得到局部特征信息II:
S25、利用池化层III对卷积层III输出的特征信息进行降维操作,得到局部特征信息III:
S3、将局部特征信息I、局部特征信息II、局部特征信息III输入到拼接层进行拼接得到全局特征信息;
S4、将全局特征信息输入BiLSTM网络中得到小麦文本向量之间的序列特征信息;
S5、利用注意力机制对序列特征信息进行权重分配,得到小麦文本特征向量;
S6、利用Sigmoid激活函数对小麦文本特征向量进行分类,输出分类结果。
4.根据权利要求1所述的基于混合神经网络融合Attention机制的小麦抗寒性识别方法,其特征在于,所述利用注意力机制对序列特征信息进行权重分配,得到小麦文本特征向量的方法为:s=∑tαt·μt,其中,αt=exp(μt T·μw)/∑texp(μt T·μw)表示序列特征信息ht对分类判定的贡献度,μw表示随机初始化的数值,μt==tanh(Ww·ht+bw)表示第t时刻由上一网络层输出向量ht所决定的注意力概率分布值,Ww为注意力层的权重矩阵,bw为偏置项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010459587.8A CN111651980B (zh) | 2020-05-27 | 2020-05-27 | 混合神经网络融合Attention机制的小麦抗寒性识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010459587.8A CN111651980B (zh) | 2020-05-27 | 2020-05-27 | 混合神经网络融合Attention机制的小麦抗寒性识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651980A CN111651980A (zh) | 2020-09-11 |
CN111651980B true CN111651980B (zh) | 2023-05-23 |
Family
ID=72346856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010459587.8A Active CN111651980B (zh) | 2020-05-27 | 2020-05-27 | 混合神经网络融合Attention机制的小麦抗寒性识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651980B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112629854B (zh) * | 2020-11-25 | 2022-08-05 | 西安交通大学 | 一种基于神经网络注意力机制的轴承故障分类方法 |
CN112668507A (zh) * | 2020-12-31 | 2021-04-16 | 南京信息工程大学 | 基于混合神经网络与注意力机制的海杂波预测方法及系统 |
CN113849646B (zh) * | 2021-09-28 | 2024-06-25 | 西安邮电大学 | 一种文本情感分析方法 |
CN114499712B (zh) * | 2021-12-22 | 2024-01-05 | 天翼云科技有限公司 | 一种手势识别方法、设备及存储介质 |
CN115019893A (zh) * | 2022-06-14 | 2022-09-06 | 邵阳学院 | 一种基于双向长短时记忆和注意机制的增强子识别方法 |
CN115865459B (zh) * | 2022-11-25 | 2023-06-27 | 南京信息工程大学 | 一种基于二次特征提取的网络流量异常检测方法及系统 |
CN115661551B (zh) * | 2022-12-08 | 2023-06-20 | 中化现代农业有限公司 | 一种基于分裂注意力残差网络的小麦植株识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107636691A (zh) * | 2015-06-12 | 2018-01-26 | 商汤集团有限公司 | 用于识别图像中的文本的方法和设备 |
CN109508377A (zh) * | 2018-11-26 | 2019-03-22 | 南京云思创智信息科技有限公司 | 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质 |
CN110874410A (zh) * | 2019-11-01 | 2020-03-10 | 河南理工大学 | 一种基于长短时记忆网络和卷积神经网络的文本分类方法 |
-
2020
- 2020-05-27 CN CN202010459587.8A patent/CN111651980B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111651980A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111651980B (zh) | 混合神经网络融合Attention机制的小麦抗寒性识别方法 | |
Li et al. | Apple leaf disease identification and classification using resnet models | |
RU2607999C2 (ru) | Применение способов машинного обучения для извлечения правил ассоциации в наборах данных растений и животных, содержащих в себе молекулярные генетические маркеры, сопровождаемое классификацией или прогнозированием с использованием признаков, созданных по этим правилам ассоциации | |
Tavakoli et al. | Leaf image-based classification of some common bean cultivars using discriminative convolutional neural networks | |
CN106778882B (zh) | 一种基于前馈神经网络的智能合约自动分类方法 | |
Raj et al. | Applications of pattern recognition algorithms in agriculture: a review | |
CN108875809A (zh) | 联合attention机制与神经网络的生物医学实体关系分类方法 | |
CN112732921B (zh) | 一种虚假用户评论检测方法及系统 | |
Farid et al. | Assigning weights to training instances increases classification accuracy | |
CN113590819A (zh) | 一种大规模类别层级文本分类方法 | |
CN115223021A (zh) | 一种基于视觉问答的果树全生长期农事作业决策方法 | |
CN116341621A (zh) | 面向焊缝缺陷超声检测的低成本自学习神经网络设计方法 | |
Kaur et al. | Wheat production analysis based on Naïve Bayes classifier | |
Mahmood et al. | Contemporary machine learning applications in agriculture: Quo Vadis? | |
Li et al. | Agricultural text classification method based on dynamic fusion of multiple features | |
Malathi et al. | A review on rice crop disease classification using computational approach | |
Dubey et al. | An efficient adaptive feature selection with deep learning model-based paddy plant leaf disease classification | |
Raveena et al. | Clustering-based hemileia vastatrix disease prediction in coffee leaf using deep belief network | |
Jayagopal et al. | Identifying region specific seasonal crop for leaf borne diseases by utilizing deep learning techniques | |
CN116610846A (zh) | 用于牛养殖的配种筛选方法及其系统 | |
Li et al. | Early drought plant stress detection with bi-directional long-term memory networks | |
Goyal et al. | Disease detection in potato leaves using an efficient deep learning model | |
CN112465054B (zh) | 一种基于fcn的多变量时间序列数据分类方法 | |
MITRA et al. | Automated tomato leaf disease detection technique using deep learning | |
Spanou et al. | Walleye (Sander vitreus, Mitchill 1818) age and sex classification using innovative supervised and unsupervised machine learning and soft computing methodologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230424 Address after: No.46 Jianshe Road, Muye District, Xinxiang City, Henan Province Applicant after: HENAN NORMAL University Applicant after: Henan Institute of Science and Technology Address before: 453000 East Section of Wuyi Road, Hongqi District, Xinxiang City, Henan Province Applicant before: Henan Institute of Science and Technology |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |