CN114139596A - 一种基于深度神经网络的茶叶品种鉴别方法以及系统 - Google Patents
一种基于深度神经网络的茶叶品种鉴别方法以及系统 Download PDFInfo
- Publication number
- CN114139596A CN114139596A CN202111201874.XA CN202111201874A CN114139596A CN 114139596 A CN114139596 A CN 114139596A CN 202111201874 A CN202111201874 A CN 202111201874A CN 114139596 A CN114139596 A CN 114139596A
- Authority
- CN
- China
- Prior art keywords
- prediction model
- neural network
- deep neural
- training
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度神经网络的茶叶品种鉴别方法以及系统,包括以下步骤:采集茶叶样本数据以得到第一数据集;对所述第一数据集预处理以得到第二数据集;采用所述第二数据集分别构建出线性回归、随机森林、深度神经网络三种预测模型;分别所述线性回归、随机森林、深度神经网络预测模型进行训练,选取准确度最高的预测模型;对所述准确度最高的预测模型进行优化,形成最终预测模型;将所述第二数据集输入到所述最终预测模型以得到分类结果。本发明采用三种模型对茶种数据集进行预测,并通过训练和对比选出准确率最高的预测模型,再对该预测模型的重要参数进行优化,从而形成最终模型,以此获得更加可靠的预测精度。
Description
技术领域
本发明涉及生物信息识别的技术领域,更具体地说,是涉及一种基于深度神经网络的茶叶品种鉴别方法以及系统。
背景技术
茶叶品质与原料的品种和产地尤为相关,而目前国内的茶叶市场在品质的有效鉴别方面 存在不足,信息不对称现象严重,削弱了我国茶叶的品种产地优势。因此,很有必要开发出 有效而准确的茶叶品种识别方法,这对于维护茶叶品牌、提高茶叶品质有着直接的现实意义。
发明内容
本发明的首要目的是针对现有技术存在的问题,提供一种基于深度神经网络的茶叶品种鉴别方法,对神经网络进行优化,能够有效提高预测精度。
本发明所要达到的技术效果通过以下技术方案来实现:
一种基于深度神经网络的茶叶品种鉴别方法,包括以下步骤:
S1、采集茶叶样本数据以得到第一数据集;
S2、对所述第一数据集预处理以得到第二数据集;
S3、采用所述第二数据集分别构建出线性回归、随机森林、深度神经网络三种预测模型;
S4、分别所述线性回归、随机森林、深度神经网络预测模型进行训练,选取准确度最高的预测模型;
S5、对所述准确度最高的预测模型进行优化,形成最终预测模型;
S6、将所述第二数据集输入到所述最终预测模型以得到分类结果。
优选地,所述步骤S1采用基因组编码RNA二代测序的方法得出所述第一数据集;将高通量测序数据从公共数据平台(Sequence reads archive,SRA)下载的转录组测序数据解压缩后作为所述茶叶样本数据,再从所述茶叶样本数据里面找出所有短的重复序列进行分子标记作为待选特征,所述茶叶样本数据和待选特征共同形成所述第一数据集。
优选地,所述步骤S2中,从所述待选特征中选取在群体中出现频率低于20%、两个分子标记相邻位置小于20个碱基、整体缺失率大于20%的位点,将满足三个前述条件之一的位点进行删除,最后获得满足条件的分子标记位点,从而清洗得出所述第二数据集。
优选地,所述茶叶样本数据被分成训练集、测试集、验证集,三者的比例分别为0.8、0.1、0.1,所述步骤S4中,所述线性回归、随机森林、深度神经网络预测模型均对80%的茶叶样本数据进行训练,再对剩余的20%进行测试和验证,得出深度神经网络预测模型的准确率最高。
优选地,所述步骤S5中,利用Tensorflow 2.0软件包对深度神经网络预测模型的参数进行优化,所述参数分别为步长、训练集数目、层数、节点数。
优选地,所述步骤S5中,所述步长的训练次数为5000-30000次,步长间隔为5000;所述训练集数目的每次训练个数为150-300,采用不放回形式,步长间隔为50;将每个数据各训练10次以上,按照训练集的最优准确率、平均准确率、去掉100%的平均准确率以及验证集的最优准确率、平均准确率、去掉100%的平均准确率进行打分,选择排名最高的步长训练次数和训练集数目作为优选参数。
优选地,所述步骤S5中,通过对2-5层分别进行准确率的判断和对比,选取排名最好的作为优选层数;通过对深度神经网络预测模型的隐藏层的节点数各训练两次以上,按照训练集的最优准确率、平均准确率、去掉100%的平均准确率以及验证集的最优准确率、平均准确率、去掉100%的平均准确率进行打分,选择排名最好的节点数作为优选参数。
优选地,利用优选的步长、训练集数目、层数、节点数参数优化所述深度神经网络预测模型,从而得到最终预测模型。
优选地,将所述第二数据集的测试集输入所述最终预测模型后得到所述分类结果。
除此之外,本发明的第二个目的在于提供一种基于深度神经网络的茶叶品种鉴别的系统,所述系统应用所述基于深度神经网络的茶叶品种鉴别方法,包括数据采集模块、数据清洗模块、预测模型构建模块、预测模型训练模块、预测模型优化模块,其中,
所述数据采集模块用于采集茶叶样本数据并形成第一数据集;
所述数据清洗模块对所述第一数据集预处理以得到第二数据集;
所述预测模型构建模块根据第二数据集分别构建出线性回归、随机森林、深度神经网络三种预测模型;
所述预测模型训练模块分别所述线性回归、随机森林、深度神经网络预测模型进行训练,再选取出准确度最高的预测模型;
所述预测模型优化模块采用Tensorflow 2.0软件包优化所述准确度最高的预测模型的步长、训练集数目、层数、节点数四个参数,形成最终预测模型。
与现有技术相比,本发明的有益效果:
本发明采用三种模型对茶种数据集进行预测,并通过训练和对比选出准确率最高的预测模型,再对该预测模型的重要参数进行优化,从而形成最终模型,以此获得更加可靠的预测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本实施例的工作流程原理图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
本实施例提供了一种基于深度神经网络(即deep neuron network,DNN)的茶叶品种鉴别方法,包括以下步骤:
S1、采集茶叶样本数据以得到第一数据集;
S2、对所述第一数据集预处理以得到第二数据集;
S3、采用所述第二数据集分别构建出线性回归、随机森林、深度神经网络三种预测模型;
S4、分别所述线性回归、随机森林、深度神经网络预测模型进行训练,选取准确度最高的预测模型;
S5、对所述准确度最高的预测模型进行优化,形成最终预测模型;
S6、将所述第二数据集输入到所述最终预测模型以得到分类结果。
以一具体方案为例,首先,所述步骤S1采用基因组编码RNA二代测序的方法得出所述第一数据集;需要将高通量测序数据从公共数据平台下载并解压缩后生成转录组测序数据,以此作为所述茶叶样本数据,再从中找到2700个待选特征,所述测序数据和待选特征形成所述第一数据集。
补充说明的是,待选特征是指基因组中的存在的短的重复序列(simple sequencerepeat,即SSR),从转录组测序数据中获取待选特征属于一种在物种分类中经常使用的分子标记方法。本实施例中,所述公共数据平台优选采用NCBI的S R A 数据库(SequenceReadArchive,即序列读取存档)。
其次,在步骤S2中,需要先对2700个待选特征进行数据清洗,具体做法是先采用PSR软件(polymorphic SSR retrieval)鉴定出茶树里面所有的多态性位点,然后分别在每个个体中鉴定这些位点是否存在,并过滤掉在群体中出现的频率低于20%、或者两个分子标记相邻位置小于20个碱基、或者整体缺失率大于20%的位点,最后筛选出只在15条染色体中存在的分子标记位点。接下来,再从特异性、差异性两方面在清洗后的待选特征里面筛选出若干个测试特征,具体做法是将370个品种分为四组,打上标签形成线性回归图,从中筛选出相关性较高的700多个点,然后用方差分析找出差异较大的点,最终得到54个区别较大的所述测试特征。
根据上述操作得到300多个茶叶样本数据和54个测试特征之后,分别采用线性回归、随机森林、深度神经网络三种预测模型对上述两种数据进行训练,训练过后选取准确率最高的作为优选预测模型,并且对该优选预测模型作进一步优化,使得该高准确率模型的预测效果更加可靠。
如步骤S4所述,本实施例采用了三种模型对数据进行训练,分别为线性回归预测模型(logestic regression)、随机森林预测模型、深度神经预测模型(即DNN预测模型),本实施例测试过后发现线性回归预测模型的准确度为72.5%,随机森林预测模型的准确度为75%,深度神经网络预测模型的准确率优于其他两种模型,达到95%,因此选择深度神经模型进行进一步的优化。
具体地说,线性回归模型的测试方法为:将370个样本分为两部分,其中80%为训练数据,20%的为验证数据,参数设置利用C=1e-5,当中1表示尾数,e表示阶码标志,-5表示阶码;其它的默认参数;对80%的茶叶样本数据进行训练,再对剩余的20%进行测试和验证。随机森林模型则利用网格搜索的方法(grid search)利用不同的参数:估算子的个数(200,600,1000,4000)、最大特征法(sqrt,log2,auto)、最大深度(2,4,6,8…40)、拟合标准(gini和entropy),交叉验证5次。深度神经网络的训练集数目为 200,训练次数为5000,隐藏层数为2层,第一层为40,第二层为80。本实施例利用训练集训练所述预测模型,利用测试集输入训练后的模型得到预测结果,最后将预测结果和实际结果相比从而得出准确率。
接下来,步骤S5对准确率达到95%的深度神经网络预测模型进行优化,具体用DNN自带的优化器Tensorflow 2.0软件包来优化深度神经模型的四个参数,即步长(即step)、训练集数目(即batch number)、层数、节点数。本实施例把370个样本分为训练集、测试集、验证集三部分,测试比例分别为0.8、0.1、0.1。
步长的训练次数一般为5000次-30000次,步长间隔为5000;训练集数目即从370里面抽样每次训练的个数,选用30-370,采用不放回形式,步长间隔为50。将每个数据分别做10次,按照训练集的最优准确率、平均准确率、去掉100%的平均准确率以及验证集的最优准确率、平均准确率、去掉100%的平均准确率进行打分,选择排名最高的步长训练次数和训练集数目作为优选参数。本实施例中,优选采用步长训练次数为10000、训练集数目为200的参数。
除此之外,所述步骤S5还优化隐藏层数和每层神经节点数以形成最优组合,通过对2-5层分别进行准确率的判断和对比,选取排名最好的作为优选层数;通过对深度神经网络预测模型的隐藏层的节点数各训练十次,按照训练集的最优准确率、平均准确率、去掉100%的平均准确率以及验证集的最优准确率、平均准确率、去掉100%的平均准确率进行打分,选择排名最好的节点数作为优选参数。
进一步地,本实施例利用优选的步长10000、训练集数目200、层数2、节点数94和40优化所述深度神经网络预测模型,最终得到平均准确率为95%以上的深度神经网络。
图1为本实施例的工作流程原理图,可以用于解释上述数据优化进程。
除此之外,本发明的第二个目的在于提供一种应用上述基于深度神经网络的茶叶品种鉴别方法的系统,该系统包括数据采集模块、数据清洗模块、预测模型构建模块、预测模型训练模块、预测模型优化模块,其中,
所述数据采集模块用于采集茶叶样本数据并形成第一数据集;
所述数据清洗模块对所述第一数据集预处理以得到第二数据集;
所述预测模型构建模块根据第二数据集分别构建出线性回归、随机森林、深度神经网络三种预测模型;
所述预测模型训练模块分别所述线性回归、随机森林、深度神经网络预测模型进行训练,再选取出准确度最高的预测模型;
所述预测模型优化模块采用Tensorflow 2.0软件包优化所述准确度最高的预测模型的步长、训练集数目、层数、节点数四个参数,形成最终预测模型。
最后,将所述第二数据集的测试集输入所述最终预测模型后能够得到分类结果,如果有其他需要预测的品种结果,用户直接输入对应的测试特征信息,就可以得到分类的结果。
本实施例采用三种模型对茶种数据集进行预测,并通过训练和对比选出准确率最高的预测模型,再对该预测模型的重要参数进行优化,从而形成最终模型,以此获得更加可靠的预测精度。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围。
Claims (10)
1.一种基于深度神经网络的茶叶品种鉴别方法,其特征在于,包括以下步骤:
S1、采集茶叶样本数据以得到第一数据集;
S2、对所述第一数据集预处理以得到第二数据集;
S3、采用所述第二数据集分别构建出线性回归、随机森林、深度神经网络三种预测模型;
S4、分别所述线性回归、随机森林、深度神经网络预测模型进行训练,选取准确度最高的预测模型;
S5、对所述准确度最高的预测模型进行优化,形成最终预测模型;
S6、将所述第二数据集输入到所述最终预测模型以得到分类结果。
2.根据权利要求1所述的基于深度神经网络的茶叶品种鉴别方法,其特征在于,所述步骤S1采用基因组编码RNA二代测序的方法得出所述第一数据集;将高通量测序数据从公共数据平台(Sequence reads archive,SRA)下载并解压缩后的转录组测序数据作为所述茶叶样本数据,再从所述茶叶样本数据里面找出所有短的重复序列进行分子标记作为待选特征,所述茶叶样本数据和待选特征共同形成所述第一数据集。
3.根据权利要求2所述的基于深度神经网络的茶叶品种鉴别方法,其特征在于,所述步骤S2中,从所述待选特征中选取在群体中出现频率低于20%、两个分子标记相邻位置小于20个碱基、整体缺失率大于20%的位点,将满足三个前述条件之一的位点进行删除,最后获得满足条件的分子标记位点,从而清洗得出所述第二数据集。
4.根据权利要求1所述的基于深度神经网络的茶叶品种鉴别方法,其特征在于,所述茶叶样本数据被分成训练集、测试集、验证集,三者的比例分别为0.8、0.1、0.1,所述步骤S4中,所述线性回归、随机森林、深度神经网络预测模型均对80%的茶叶样本数据进行训练,再对剩余的20%进行测试和验证,得出深度神经网络预测模型的准确率最高。
5.根据权利要求1所述的基于深度神经网络的茶叶品种鉴别方法,其特征在于,所述步骤S5中,利用Tensorflow 2.0软件包对深度神经网络预测模型的参数进行优化,所述参数分别为步长、训练集数目、层数、节点数。
6.根据权利要求5所述的基于深度神经网络的茶叶品种鉴别方法,其特征在于,所述步骤S5中,所述步长的训练次数为5000-30000次,步长间隔为5000;所述训练集数目的每次训练个数为30-370,采用不放回形式,步长间隔为50;将每个数据各训练10次以上,按照训练集的最优准确率、平均准确率、去掉100%的平均准确率以及验证集的最优准确率、平均准确率、去掉100%的平均准确率进行打分,选择排名最高的步长训练次数和训练集数目作为优选参数。
7.根据权利要求6所述的基于深度神经网络的茶叶品种鉴别方法,其特征在于,所述步骤S5中,通过对2-5层分别进行准确率的判断和对比,选取排名最好的作为优选层数;通过对深度神经网络预测模型的隐藏层的节点数各训练两次以上,按照训练集的最优准确率、平均准确率、去掉100%的平均准确率以及验证集的最优准确率、平均准确率、去掉100%的平均准确率进行打分,选择排名最好的节点数作为优选参数。
8.根据权利要求7所述的基于深度神经网络的茶叶品种鉴别方法,其特征在于,利用优选的步长、训练集数目、层数、节点数参数优化所述深度神经网络预测模型,从而得到最终预测模型。
9.根据权利要求1所述的基于深度神经网络的茶叶品种鉴别方法,其特征在于,将所述第二数据集的测试集输入所述最终预测模型后得到所述分类结果。
10.一种基于深度神经网络的茶叶品种鉴别的系统,其特征在于,所述系统应用所述基于深度神经网络的茶叶品种鉴别方法,包括数据采集模块、数据清洗模块、预测模型构建模块、预测模型训练模块、预测模型优化模块,其中,
所述数据采集模块用于采集茶叶样本数据并形成第一数据集;
所述数据清洗模块对所述第一数据集预处理以得到第二数据集;
所述预测模型构建模块根据第二数据集分别构建出线性回归、随机森林、深度神经网络三种预测模型;
所述预测模型训练模块分别所述线性回归、随机森林、深度神经网络预测模型进行训练,再选取出准确度最高的预测模型;
所述预测模型优化模块采用Tensorflow 2.0软件包优化所述准确度最高的预测模型的步长、训练集数目、层数、节点数四个参数,形成最终预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111201874.XA CN114139596A (zh) | 2021-10-15 | 2021-10-15 | 一种基于深度神经网络的茶叶品种鉴别方法以及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111201874.XA CN114139596A (zh) | 2021-10-15 | 2021-10-15 | 一种基于深度神经网络的茶叶品种鉴别方法以及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114139596A true CN114139596A (zh) | 2022-03-04 |
Family
ID=80395398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111201874.XA Pending CN114139596A (zh) | 2021-10-15 | 2021-10-15 | 一种基于深度神经网络的茶叶品种鉴别方法以及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114139596A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117034774A (zh) * | 2023-08-21 | 2023-11-10 | 东北农业大学 | 一种高准确性秸秆酶解多糖产量预测模型的构建方法 |
-
2021
- 2021-10-15 CN CN202111201874.XA patent/CN114139596A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117034774A (zh) * | 2023-08-21 | 2023-11-10 | 东北农业大学 | 一种高准确性秸秆酶解多糖产量预测模型的构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446600B (zh) | 一种基于CRISPR/Cas9的sgRNA的设计方法 | |
RU2610691C2 (ru) | Способ обнаружения микроделеций в области хромосомы с днк-маркирующим участком | |
CN106446597B (zh) | 多物种特征选择及鉴定未知基因的方法 | |
CN112466404B (zh) | 一种宏基因组重叠群无监督聚类方法及系统 | |
CN112116950B (zh) | 基于深度度量学习的蛋白质折叠识别方法 | |
CN107992722A (zh) | 基于对称不确定性和信息交互增益的特征选择方法 | |
CN114139596A (zh) | 一种基于深度神经网络的茶叶品种鉴别方法以及系统 | |
CN109063959A (zh) | 一种样本质量控制分析方法和系统 | |
CN106415561A (zh) | 多因素评分方法和系统 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN106096327A (zh) | 基于Torch监督式深度学习的基因性状识别方法 | |
CN116596933B (zh) | 碱基簇检测方法及装置、基因测序仪及存储介质 | |
CN112233722B (zh) | 品种鉴定的方法、其预测模型的构建方法和装置 | |
CN113282747A (zh) | 一种基于自动机器学习算法选择的文本分类方法 | |
CN115295079A (zh) | 基于元图学习的长链非编码rna亚细胞定位预测方法 | |
JP5403563B2 (ja) | 網羅的フラグメント解析における遺伝子同定方法および発現解析方法 | |
CN114694746A (zh) | 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法 | |
CN108416189A (zh) | 一种基于分子标记技术的农作物品种杂种优势模式鉴定方法 | |
JP3936851B2 (ja) | クラスタリング結果評価方法及びクラスタリング結果表示方法 | |
EP1691311A1 (en) | Method, system and software for carrying out biological interpretations of microarray experiments | |
CN112308603A (zh) | 基于相似性扩展的快速门店选址方法及装置、存储介质 | |
CN114155910B (zh) | 一种癌症体细胞突变功能影响预测方法 | |
KR100504039B1 (ko) | ncRNA 서열의 컴퓨터적 동정 방법 | |
CN104636636A (zh) | 蛋白质远程同源性检测方法及装置 | |
Pamungkas et al. | Classification of Student Grade Data Using the K-Means Clustering Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |