CN109949863B - 一种基于随机森林模型鉴别大曲质量的方法 - Google Patents

一种基于随机森林模型鉴别大曲质量的方法 Download PDF

Info

Publication number
CN109949863B
CN109949863B CN201910120569.4A CN201910120569A CN109949863B CN 109949863 B CN109949863 B CN 109949863B CN 201910120569 A CN201910120569 A CN 201910120569A CN 109949863 B CN109949863 B CN 109949863B
Authority
CN
China
Prior art keywords
daqu
quality
sample
random forest
microorganism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910120569.4A
Other languages
English (en)
Other versions
CN109949863A (zh
Inventor
王莉
干书蘅
杨帆
王亚玉
王和玉
罗汝叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kweichow Moutai Co Ltd
Original Assignee
Kweichow Moutai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kweichow Moutai Co Ltd filed Critical Kweichow Moutai Co Ltd
Priority to CN201910120569.4A priority Critical patent/CN109949863B/zh
Publication of CN109949863A publication Critical patent/CN109949863A/zh
Application granted granted Critical
Publication of CN109949863B publication Critical patent/CN109949863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明涉及发酵领域,尤其涉及一种基于随机森林模型鉴别大曲质量的方法。所述方法包括下列步骤:(1)采用DNA测序技术获取待测大曲样本微生物组成信息;(2)基于随机森林算法而建立的大曲鉴别模型,对获取得到的大曲样本微生物组成信息进行分类处理,从而得到待测大曲样本的分类结果。结合高通量测序技术和随机森林算法,可以高效地根据微生物组成对大量黄白曲进行分类,并且可以得到黄白曲之间主要的微生物差异。

Description

一种基于随机森林模型鉴别大曲质量的方法
技术领域
本发明属于发酵领域,尤其涉及一种基于随机森林模型鉴别大曲质量的方法。
背景技术
高温大曲用量与酱香型白酒投料总量比例高达1:1,大曲是酱香型白酒酿造必需的原料,有着“曲乃酒之骨”的说法。酱香型大曲质量决定着酒的产量和品质,而其微生物是影响酒的品质和风味的根本原因,因此,酒曲微生物组成是曲块质量鉴定的重要参考标准。
454GS FLX Titanium测序技术是近些年迅速发展起来的新一代DNA测序技术,具有数字化信号、高数据通量、高测序深度、高准确率等特点,可以同时对样本中的优势物种、稀有物种和未知物种进行检测,获得微生物群落组成,将该技术运用于酱香型白酒高温大曲微生物的研究,能全面揭示微生物群落结构与大曲质量的关系,为高温大曲微生物在酿酒过程中的作用机制研究提供指导。
近年来兴起的机器学习是人工智能的一个分支,可从数据中自行分析获得规律,并对未知数据进行分析。随机森林是机器学习的其中一种算法,是一个包含多个决策树的分类器。该算法引入随机性,采用对多个决策树的投票机制,不易出现过拟合问题。而且随机森林可以处理高维度数据,并评估变量的重要性。此外,随机森林学习速度快,可以分析大量样本数据。现有技术中454(GS FLX Titanium)测序技术结合随机森林的方法鉴别大曲质量的方法尚未见报道。
专利号为201310201060.5、专利名称为“一种鉴别大曲质量的方法”的中国发明专利,提供了一种应用固相微萃取和判别分析鉴别大曲质量,该方法通过大曲风味物质对大曲质量进行评价,这种方法成本高、准确率较低。
专利号为200910228701.X、专利名称为“一种酱香型白酒大曲生产的质量控制方法”的中国发明专利,提供了一种应用大曲微生物的DGGE建立标准指纹图谱,并将测定所得图谱与标准图谱进行比对得到合格产品的方法,该方法中DGGE技术只能检测到样品中十几种优势菌,不能获知具体微生物物种信息和丰度值,且指纹图谱比对只是简单比对,难以判断一些特殊状况。
专利号为201410347613.2、专利名称为一种基于箱线图鉴定大曲质量的方法的中国发明专利,应用454高通量测序技术获得大曲微生物数据信息,筛选微生物,用箱线图确定目标微生物的含量范围,建立大曲质量鉴别模型,该方法中箱线图隐藏了数据分布的许多重要细节,第一四分位数和第三分位数之间的范围有时并不能包括大部分数据,可能存在数据均匀分布或出现双峰的状况,因此基于箱线图的鉴别模型可能并不准确,需要大量样本验证。
专利号为201410419220.8、专利名称为一种构建判别模型鉴别大曲质量的方法的中国发明专利,利用454高通量测序技术和多元统计分析鉴定大曲质量,即应用偏最小二乘法对大曲数据信息进行优化后用二次判别方法进行分析,建立大曲质量鉴别模型。该方法中二次判别分析方法难以处理非线性数据,而大曲微生物数据不一定是线性数据,使数据呈线性的标准化处理可能会导致结果失真。且要先通过偏最小二乘法进行数据降维,步骤较复杂。
因此,急需一种耗时少,实验过程简单,当样本量达到数百上千规模时仍能高效准确完成大曲分类的方法。
发明内容
本发明目的之一在于提供一种准确、高效的大曲质量鉴别方法。
本发明另一个目的在于提供一种基于随机森林模型鉴别大曲质量的方法。
本发明另一个目的在于提供一种基于随机森林的大曲质量鉴别系统。
为解决以上技术问题,本发明的采用的技术方案如下:
一方面,本发明提供了一种基于随机森林的大曲质量鉴别方法,包括下列步骤:
(1)采用DNA测序技术获取待测大曲样本微生物组成信息;
(2)基于随机森林算法建立大曲分类模型,对获取得到的大曲样本微生物组成信息进行分类处理,从而得到待测大曲样本的分类结果。
作为一种可以选择的实施方式,基于随机森林算法建立大曲分类模型的步骤包括:
(1)信息提取:采用DNA测序技术获取大曲样本的微生物组成信息;
(2)数据均一化处理:基于步骤(1)所得的微生物信息,对所述大曲样本的微生物组成丰度表进行均一化处理,消除各样本的测序量差异;
(3)理想微生物特征变量的确定:从步骤(2)所得的微生物丰度表中随机抽取部分样本作为训练集,余下样本作为测试集;用随机森林算法对所述训练集进行交叉验证,选取合适的微生物变量个数使平均错误率最低,同时根据交叉验证过程中生成的微生物变量重要性排序表,选取排序靠前微生物变量,作为分类模型的特征变量;
(4)随机森林模型的构建:从步骤(2)得到的均一化微生物丰度表中挑出步骤(3)中微生物特征变量的对应部分,作为新的微生物丰度表,并从中抽取与步骤(3)同样的样本作为新训练集,余下样本作为新测试集,用新训练集训练得到随机森林模型;
(5)随机森林模型验证:用步骤(4)中测试集对步骤(4)中的随机森林模型进行验证,评估该随机森林模型的判别准确率和稳定性。
作为一种优选的实施方式,所述的特征变量个数为5~200。
上述方法应用于对酒曲中大曲的质量鉴别。
作为一种可以选择的实施方式,所述的大曲为高温大曲。
作为一种优选的实施方式,所述大曲为成品曲、出仓黄曲、出仓白曲中的一种或两种。
作为一种更为优选的实施方式所述大曲为出仓黄曲、出仓白曲。
作为一种可以选择的实施方式,上述步骤(1)中所述的DNA测序技术为高通量测序技术。
作为一种可以选择的实施方式,所述DNA测序技术包括454GS FLX Titanium测序技术。
作为一种优选的实施方式,所述大曲样本微生物的检测区域为16S rDNA V4-V5区。
作为一种更为优选的实施方式,对所述检测区域进行扩增,所用的扩增引物为515F和926R,两者的序列分别如SEQ ID NO:1和SEQ ID NO:2所示。
作为一种可以选择的实施方式,步骤(1)中,所述待测大曲样本的数目为50个以上。
作为一种可以选择的实施方式,步骤(1)中,所述的微生物组成信息获得方式为:使用生物信息学软件mothur,对样本的16S核糖体RNA基因扩增子测序数据进行预处理,与RDP数据库比对进行物种注释,根据序列相似性进行合并得到的OTU丰度表。
作为一种可以选择的实施方式,步骤(3)中,所述的交叉验证为n次k折交叉验证,其中,n≥100,k≥5。
作为一种可以选择的实施方式,步骤(2)中,所述的数据均一化处理使用的方法为用R软件包metagenomeSeq对OTU丰度表进行CSS均一化。
作为一种可以选择的实施方式,步骤(3)中,所述的交叉验证过程中的随机森林算法包括R软件包randomForest。
作为一种可以选择的实施方式,步骤(3)中,训练集的样本量占总样本量的比例为70%以上。
另一方面,本发明提供了一种基于随机森林的大曲质量鉴别系统,该系统包括:
采样模块,用于采用获取大曲样本的微生物组成信息数据;
分类模块,用于对获取得到的大曲样本微生物组成信息进行分类处理,从而得到待测大曲样本的分类结果。
作为一种可以选择的实施方式,所述系统还包括用于建立鉴定大曲质量模型的模型建立模块,所述模型建立模块具体包括:
(1)建模数据获取子模块,用于DNA测序技术获取不同类别的样品大曲所对应的样本大曲微生物组成信息数据;
(2)建模处理子模块,对所述大曲样本的微生物信息组成微生物丰度表进行均一化处理,消除各样本的测序量差异,从微生物丰度表中随机抽取部分样本作为训练集,余下样本作为测试集;用随机森林算法对所述训练集进行交叉验证,选取合适的微生物变量个数使平均错误率最低,同时根据交叉验证过程中生成的微生物变量重要性排序表,选取排序靠前的微生物变量,作为分类模型的理想微生物特征变量;从得到的均一化微生物丰度表中挑出与微生物特征变量的对应部分,作为新的微生物丰度表,并从中抽取与所述训练集相同的样本作为新训练集,余下样本作为新测试集,用新训练集训练得到随机森林模型;
(3)验证子模块,用步骤(2)中新测试集对步骤(2)中的随机森林模型进行验证,评估该随机森林模型的判别准确率和稳定性。
作为一种可以优选的实施方式,所述的特征变量个数为5~200。
作为一种更为优选的实施方式,所述的特征变量个数为5~21。
作为一种可以选择的实施方式,所述的大曲为高温大曲。
作为一种优选的实施方式,所述大曲为成品曲、出仓黄曲、出仓白曲中的一种或两种。
作为一种更为优选的实施方式,所述大曲为出仓黄曲、出仓白曲。
作为一种优选的实施方式,所述的DNA测序技术为高通量测序技术。
作为一种优选的实施方式,所述DNA测序技术包括454GS FLX Titanium测序技术。
作为一种更为优选的实施方式,所述大曲微生物检测区域为16S rDNA V4-V5区。
作为一种更进一步优选的实施方式,对所述检测区域进行扩增,所用的扩增引物为515F和926R,两者的序列分别如SEQ ID NO:1和SEQ ID NO:2所示。
作为一种优选的实施方式,所述待测大曲样本为50个以上。
作为一种优选的实施方式,所述的微生物组成信息获得方式为:使用生物信息学软件mothur,对样本的16S核糖体RNA基因扩增子测序数据进行预处理,与RDP数据库比对进行物种注释,根据序列相似性进行合并得到的OTU丰度表。
作为一种优选的实施方式,所述的交叉验证为n次k折交叉验证,其中,n≥100,k≥5。
作为一种优选的实施方式,所述的数据均一化处理使用的方法为用R软件包metagenomeSeq对OTU丰度表进行CSS均一化。
作为一种优选的实施方式,所述的交叉验证过程中的随机森林算法包括R软件包randomForest。
作为一种优选的实施方式,训练集的样本量占总样本量的比例为70%以上。
相比现有技术,本发明的有益效果在于:
1、利用454GS FLX Titanium等测序平台开展的高通量测序技术能够获得不可分离培养、基因组信息未知或低丰度的微生物信息,解决了分离纯培养、T-RFLP、DGGE等技术不能全面准确反映大曲微生物的组成信息的问题。并且随着测序技术发展,可以较低成本在短时间内处理数百乃至数千样本量。
2、采用随机森林算法构建大曲质量分类模型,模型构建速度快,可高效处理大数据量,并且随着数据量的增加模型的分类效果会趋于精确。随机森林由于其随机性,对异常值不敏感,在数据中存在多个异常值的情况下仍能有效预测,且不会出现过拟合,还可以得到特征变量的重要性排序。
3、结合高通量测序技术和随机森林算法,可以高效地根据微生物组成对大量黄白曲进行分类,并且可以得到黄白曲之间主要的微生物差异。
附图说明
图1 100次5折交叉验证平均错误率折线图,横坐标轴为特征变量数,即大曲样本OTUs个数;纵坐标轴为交叉验证错误率;每一条灰色折线为一次交叉验证的错误率随变量数变化情况,共有100条;黑色折线为100次交叉验证的平均错误率随变量数变化情况。垂直于横坐标轴的黑色竖线与黑色折线的交点为变量数为9时随机森林的平均错误率。
图2大曲样本中9个marker OTU丰度图;横坐标为样本名;纵坐标为OTU的相对丰度。
具体实施方式
以下通过具体的实施例进一步说明本发明的技术方案,具体实施例不代表对本发明保护范围的限制。其他人根据本发明理念所做出的一些非本质的修改和调整仍属于本发明的保护范围。
OTU(Operational Taxonomic Units):指的是可操作分类单元,可认为一个OTU代表一个微生物物种;
CSS(cumulative sum scaling):为累积和值缩放,一种均一化方法;
RDP(Ribosomal Database Project):指的是核糖体数据库项目;
marker OTU:指的是在分类模型中对分类效果很重要的指示性微生物,也指的是微生物特征变量,也指理想微生物特征变量。
实施例
1.样品信息
本实施例中的样品来源于贵州茅台酒股份有限公司提供的54个高温大曲,其中样品包括:出仓黄曲27个,出仓白曲27个。
2.信息提取
提取所有样品(步骤1中的54个样品)的DNA,利用试剂盒
Figure BDA0001971751660000051
DNAIsolation Kit(12888-50)对DNA进行纯化,对16S rDNAV4-V5区进行PCR扩增,扩增引物为:515F(SEQ ID NO:1 GTG CCA GCM GCC GCGG)和926R(SEQ ID NO:2 CCG TCA ATT CMT TTRAGT),切胶回收PCR产物,建库,用454GS FLX Titanium测序。
微生物组成信息获得方式包括使用生物信息学软件mothur,对样本的测序数据进行预处理,与RDP数据库比对进行物种注释,根据序列相似性进行合并得到的OTU丰度表。具体为:参照mothur官网提供的454标准流程(https://mothur.org/wiki/454_SOP)方法,将下机数据进行过滤和预处理,和RDP数据库(https://mothur.org/w/images/d/dc/Trainset16_022016.rdp.tgz)比对进行物种注释,根据序列相似性(97%)聚成OTU,得到OTU丰度表,共有397个OTU,可以理解为这54个大曲样本中有397种微生物。
3.数据处理
利用R软件包metagenomeSeq对OTU丰度表进行CSS均一化处理,以消除各样本的测序量差异。
4.随机森林模型的构建
为了使训练集样本量占总样本量的大部分,从上述出仓黄曲和白曲中(已得到微生物丰度表)随机各抽20个样本(共40个样本,占总样本量74%)作为训练集1,剩余共14个样本作为测试集1。
利用R软件包randomForest对训练集进行100次5折交叉验证,具体过程为:
(1)将40个训练集1样本随机等分为5份,随机抽取其中1份(8个样本)作为测试集2,另外4份(32个样本)作为训练集2;
(2)以OTU为自变量(特征变量),以出仓黄曲、白曲两个类别为因变量(分类变量),用训练集2构建一个随机森林分类模型,对测试集2进行分类,且得到一个OTU重要性排序表(对分类结果影响越大排名越靠前),以及一条分类错误率与用于分类的OTU个数的关系曲线;
(3)从训练集1中随机换一份样本(8个)作为测试集3,剩余4份样本(32个)作为训练集3,重复(2)中过程,直到每一份都已经作为测试集被使用过,即构建了5次随机森林分类模型。
重复上述(1)~(3)过程100次,得到500个OTU重要性排序表和500条分类错误率曲线。如图1所示。
计算平均错误率与OTU个数的关系曲线,选择一个最小的OTU个数a使平均错误率最低。根据500个OTU重要性排序表,统计各个OTU出现在前a的次数并从多到少排序,再从中选择前a个OTU,即可得到综合考虑对分类模型最重要的前a个OTU,作为理想微生物特征变量(即分类模型的特征变量)。
本实验过程中,OTU个数在10左右时,错误率已经降至较低水平,平均错误率曲线趋于平缓,说明再增加OTU个数也不能使错误率明显降低,如图1所示。
尝试取OTU个数为5、7、8、9、10、15、20等值后发现,OTU数最小为9时所得到的随机森林模型的分类效果最好,对训练集和测试集的判断错误率都最低,如表1所示。
表1当OTU取5-21之间不同值时随机森林模型在训练集和测试集上的表现结果
OTU个数 训练集错误率 测试集错误率
5 37.50% 28.57%
6 27.50% 35.71%
7 22.50% 21.43%
8 25% 7.14%
9 22.50% 7.14%
10 22.50% 14.29%
11 25% 21.43%
12 25% 14.29%
13 22.50% 14.29%
14 22.50% 14.29%
15 22.50% 14.29%
16 25% 14.29%
17 25% 14.29%
18 22.50% 14.29%
19 25% 14.29%
20 27.50% 14.29%
21 27.50% 14.29%
从上述步骤3得到的均一化微生物丰度表中挑出这9个OTU对应部分,作为新的微生物丰度表,并从中抽取与步骤4中训练集1同样的样本作为训练集4,余下样本作为测试集4,用训练集4训练得到随机森林模型。用随机森林评价模型对训练集4的判别结果如表2所示。具体为实际样品中出仓黄曲20个,出仓白曲20个;随机森林模型对所述20个白曲样品进行判别,判别结果为16个出仓白曲、4个出仓黄曲;随机森林模型对所述黄曲样品进行判别,判别结果为出仓白曲5个,出仓黄曲15个。因此,随机森林模型对训练集分类的袋外错误率为9/40=22.5%。
表2随机森林评价模型对训练集的判别结果
Figure BDA0001971751660000071
注:Y:出仓黄曲;W:出仓白曲
其中,根据得到的大曲样本中9个重要微生物变量(OTU),从上述实验步骤2中得到的OTU丰度表中挑选出的OTU丰度图,如图2所示。图2表明,这9个OTU在黄曲和白曲中相对丰度两个组中存在差异,但单独考虑一个OTU无法区分黄白曲,而是需要综合考虑9个OTU。注:图中OTU在样本中的丰度值为相对丰度,即该OTU在该样本所有OTU丰度之和中所占比例。
5.鉴别
利用构建好的随机森林模型对14个测试集样品(出仓黄曲7个、出仓白曲7个)进行分类,结果见表3。
表3测试样品验证结果
Figure BDA0001971751660000081
注:Y:出仓黄曲;W:出仓白曲
从表3可以看出,该模型对测试集中出仓白曲判别错误率为0/7=0%;对出仓黄曲判别错误率为1/7=14%,综合判别错误率为(0+1)/14=7%,该结果进一步表明所建立的随机森林模型对大曲质量的判别效果较好。
若提高样本量,随机森林模型的准确性能达到更高。随着数据的积累,训练集足够大时,随机森林模型准确率达到稳定,在新样本量明显小于训练集的情况下可将所有新样本作为测试集,此后采样时就可减少样本量,节省样本处理和测序耗时,略去模型构建的步骤,只对新样本进行分类测试,则可提高效率。
构建随机森林模型的过程耗时少,且可以完全依赖R语言中现有的程序包和函数完成,可以保证非专业人士经过简单教学后能上手操作,极大避免了由于操作过程的人为失误导致对分类效果的影响,且降低了操作人员培训的成本。
序列表
<110> 贵州茅台酒股份有限公司
<120> 一种基于随机森林模型鉴别大曲质量的方法
<160> 2
<170> SIPOSequenceListing 1.0
<210> 1
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
gtgccagcmg ccgcgg 16
<210> 2
<211> 18
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
ccgtcaattc mtttragt 18

Claims (32)

1.一种基于随机森林的大曲质量鉴别方法,其特征在于,包括下列步骤:
S1:采用DNA测序技术获取待测大曲样本微生物组成信息;
S2:基于随机森林算法建立大曲分类模型,对获取得到的大曲样本微生物组成信息进行分类处理,从而得到待测大曲样本的分类结果;
所述基于随机森林算法建立大曲分类模型的步骤包括:
(1)信息提取:采用DNA测序技术获取大曲样本的微生物组成信息;
(2)数据均一化处理:基于步骤(1)所得的微生物信息,对所述大曲样本的微生物组成丰度表进行均一化处理,消除各样本的测序量差异;
(3)理想微生物特征变量的确定:从步骤(2)所得的微生物丰度表中随机抽取部分样本作为训练集,余下样本作为测试集;用随机森林算法对所述训练集进行交叉验证,选取合适的微生物变量个数使平均错误率最低,同时根据交叉验证过程中生成的微生物变量重要性排序表,选取排序靠前微生物变量,作为分类模型的理想微生物特征变量;
(4)随机森林模型的构建:从步骤(2)得到的均一化微生物丰度表中挑出步骤(3)中微生物特征变量的对应部分,作为新的微生物丰度表;并从中抽取与步骤(3)同样的样本作为新训练集,余下样本作为新测试集,用新训练集训练得到随机森林模型;
(5)随机森林模型验证:用步骤(4)中新测试集对步骤(4)中的随机森林模型进行验证,评估该随机森林模型的判别准确率和稳定性。
2.如权利要求1所述的大曲质量鉴别方法,其特征在于,所述的特征变量个数为5~200。
3.如权利要求1所述的大曲质量鉴别方法,其特征在于,所述的特征变量个数为5~21。
4.如权利要求1所述的大曲质量鉴别方法,其特征在于,所述的大曲为高温大曲。
5.如权利要求1所述的大曲质量鉴别方法,其特征在于,所述大曲为成品曲、出仓黄曲、出仓白曲中的一种或多种。
6.如权利要求1所述的大曲质量鉴别方法,其特征在于,所述大曲为出仓黄曲、出仓白曲。
7.如权利要求1所述的大曲质量鉴别方法,其特征在于,步骤S1中,所述的DNA测序技术为高通量测序技术。
8.如权利要求1所述的大曲质量鉴别方法,其特征在于,所述DNA测序技术包括454GSFLX Titanium测序技术。
9.如权利要求1所述的大曲质量鉴别方法,其特征在于,所述大曲样本微生物的检测区域为16S rDNAV4-V5区。
10.如权利要求9所述的大曲质量鉴别方法,其特征在于,对所述检测区域进行扩增,所用的扩增引物为515F和926R,两者的序列分别如SEQ ID NO:1和SEQID NO:2所示。
11.如权利要求1所述的大曲质量鉴别方法,其特征在于,步骤S1中,所述待测大曲样本的数目为50个以上。
12.如权利要求1所述的大曲质量鉴别方法,其特征在于,步骤S1中,所述的微生物组成信息获得方式为:使用生物信息学软件mothur,对样本的测序数据进行预处理,与RDP数据库比对进行物种注释,根据序列相似性进行合并得到的OTU丰度表。
13.如权利要求1所述的大曲质量鉴别方法,其特征在于,步骤(3)中,所述的交叉验证为n次k折交叉验证,其中,n≥100,k≥5。
14.如权利要求1所述的大曲质量鉴别方法,其特征在于,步骤(3)中,所述的交叉验证过程中的随机森林算法包括R软件包randomForest。
15.如权利要求1所述的大曲质量鉴别方法,其特征在于,步骤(2)中,所述的数据均一化处理使用的方法为用R软件包metagenomeSeq对OTU丰度表进行CSS均一化。
16.如权利要求1所述的大曲质量鉴别方法,其特征在于,步骤(3)中,训练集的样本量占总样本量的比例为70%以上。
17.一种基于随机森林的大曲质量鉴别系统,其特征在于,该系统包括:
采样模块,用于采用获取大曲样本的微生物组成信息数据;
分类模块,用于对获取得到的大曲样本微生物组成信息进行分类处理,从而得到待测大曲样本的分类结果;
所述系统还包括用于建立鉴定大曲质量模型的模型建立模块,所述模型建立模块具体包括:
(1)建模数据获取子模块,用于DNA测序技术获取不同类别的样品大曲所对应的样本大曲微生物组成信息数据;
(2)建模处理子模块,对所述大曲样本的微生物信息组成微生物丰度表进行均一化处理,消除各样本的测序量差异,从微生物丰度表中随机抽取部分样本作为训练集,余下样本作为测试集;用随机森林算法对所述训练集进行交叉验证,选取合适的微生物变量个数使平均错误率最低,同时根据交叉验证过程中生成的微生物变量重要性排序表,选取排序靠前的微生物变量,作为分类模型的理想微生物特征变量;从得到的均一化微生物丰度表中挑出与微生物特征变量的对应部分,作为新的微生物丰度表,并从中抽取与所述训练集相同的样本作为新训练集,余下样本作为新测试集,用新训练集训练得到随机森林模型;
(3)验证子模块,用步骤(2)中新测试集对步骤(2)中的随机森林模型进行验证,评估该随机森林模型的判别准确率和稳定性。
18.如权利要求17所述的大曲质量鉴别系统,其特征在于,所述的特征变量个数为5~200。
19.如权利要求17所述的大曲质量鉴别系统,其特征在于,所述的特征变量个数为5~21。
20.如权利要求17所述的大曲质量鉴别系统,其特征在于,所述的大曲为高温大曲。
21.如权利要求17所述的大曲质量鉴别系统,其特征在于,所述大曲为成品曲、出仓黄曲、出仓白曲中的一种或多种。
22.如权利要求17所述的大曲质量鉴别系统,其特征在于,所述大曲为出仓黄曲、出仓白曲。
23.如权利要求17所述的大曲质量鉴别系统,其特征在于,所述的DNA测序技术为高通量测序技术。
24.如权利要求17所述的大曲质量鉴别系统,其特征在于,所述DNA测序技术包括454GSFLX Titanium测序技术。
25.如权利要求17所述的大曲质量鉴别系统,其特征在于,所述大曲样本微生物的检测区域为16S rDNAV4-V5区。
26.如权利要求25所述的大曲质量鉴别系统,其特征在于,对所述检测区域进行扩增,所用的扩增引物为515F和926R,两者的序列分别如SEQ ID NO:1和SEQ ID NO:2所示。
27.如权利要求17所述的大曲质量鉴别系统,其特征在于,所述待测大曲样本为50个以上。
28.如权利要求17所述的大曲质量鉴别系统,其特征在于,所述的微生物组成信息获得方式为:使用生物信息学软件mothur,对样本的16S核糖体RNA基因扩增子测序数据进行预处理,与RDP数据库比对进行物种注释,根据序列相似性进行合并得到的OTU丰度表。
29.如权利要求17所述的大曲质量鉴别系统,其特征在于,所述的交叉验证为n次k折交叉验证,其中,n≥100,k≥5。
30.如权利要求17所述的大曲质量鉴别系统,其特征在于,所述的数据均一化处理使用的方法为用R软件包metagenomeSeq对OTU丰度表进行CSS均一化。
31.如权利要求17所述的大曲质量鉴别系统,其特征在于,所述的交叉验证过程中的随机森林算法包括R软件包randomForest。
32.如权利要求17所述的大曲质量鉴别系统,其特征在于,训练集的样本量占总样本量的比例为70%以上。
CN201910120569.4A 2019-02-18 2019-02-18 一种基于随机森林模型鉴别大曲质量的方法 Active CN109949863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910120569.4A CN109949863B (zh) 2019-02-18 2019-02-18 一种基于随机森林模型鉴别大曲质量的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910120569.4A CN109949863B (zh) 2019-02-18 2019-02-18 一种基于随机森林模型鉴别大曲质量的方法

Publications (2)

Publication Number Publication Date
CN109949863A CN109949863A (zh) 2019-06-28
CN109949863B true CN109949863B (zh) 2023-05-26

Family

ID=67006756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910120569.4A Active CN109949863B (zh) 2019-02-18 2019-02-18 一种基于随机森林模型鉴别大曲质量的方法

Country Status (1)

Country Link
CN (1) CN109949863B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110617994A (zh) * 2019-11-08 2019-12-27 江苏今世缘酒业股份有限公司 一种大曲的取样方法及其应用
CN114334003B (zh) * 2021-12-22 2023-03-17 中国水产科学研究院南海水产研究所 基于单分子测序的发酵金鲳深度学习质量判别方法及系统
CN115436531A (zh) * 2022-10-20 2022-12-06 茅台学院 一种基于大曲非挥发性物质鉴别大曲质量的方法
CN115881229B (zh) * 2022-12-16 2024-01-09 迪辅乐生物(上海)有限公司 基于肠道微生物信息的过敏预测模型构建方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104372075A (zh) * 2014-08-22 2015-02-25 贵州茅台酒股份有限公司 一种构建判别模型鉴别大曲质量的方法
CA2936933A1 (en) * 2014-01-25 2015-07-30 uBiome, Inc. Method and system for microbiome analysis
CN106987636A (zh) * 2017-04-20 2017-07-28 哈尔滨工业大学(威海) 一种判断浓香型白酒窖泥质量的方法
CN106991437A (zh) * 2017-03-20 2017-07-28 浙江工商大学 基于随机森林预测污水水质数据的方法及系统
CN109112225A (zh) * 2018-08-30 2019-01-01 海南大学 一种诺丽自然发酵过程中关键微生物甄别及筛选的方法
CN109142626A (zh) * 2018-07-19 2019-01-04 贵州茅台酒股份有限公司 一种酒醅馊味判别模型构建以及采用该模型判别酒醅馊味的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2936933A1 (en) * 2014-01-25 2015-07-30 uBiome, Inc. Method and system for microbiome analysis
CN104372075A (zh) * 2014-08-22 2015-02-25 贵州茅台酒股份有限公司 一种构建判别模型鉴别大曲质量的方法
CN106991437A (zh) * 2017-03-20 2017-07-28 浙江工商大学 基于随机森林预测污水水质数据的方法及系统
CN106987636A (zh) * 2017-04-20 2017-07-28 哈尔滨工业大学(威海) 一种判断浓香型白酒窖泥质量的方法
CN109142626A (zh) * 2018-07-19 2019-01-04 贵州茅台酒股份有限公司 一种酒醅馊味判别模型构建以及采用该模型判别酒醅馊味的方法
CN109112225A (zh) * 2018-08-30 2019-01-01 海南大学 一种诺丽自然发酵过程中关键微生物甄别及筛选的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
16S Classifier: A Tool for Fast and Accurate Taxonomic Classification of 16S rRNA Hypervariable Regions in Metagenomic Datasets;Nikhil Chaudhary 等;《plos one》;20150203;全文 *
A Bayesian taxonomic classification method for 16S rRNA gene sequences with improved species-level accuracy;Xiang Gao 等;《BMC Bioinformatics》;20170510;第18卷;全文 *
Microbial diversity and chemical analysis of the starters used in traditional Chinese sweet rice wine;Haiying Cai 等;《Food Microbiology》;20180801;全文 *
高通量测序技术在洋河大曲质量等级判定中的应用;苏葛 等;《酿酒科技》;20180608(第1期);全文 *

Also Published As

Publication number Publication date
CN109949863A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109949863B (zh) 一种基于随机森林模型鉴别大曲质量的方法
CN111261229B (zh) 一种MeRIP-seq高通量测序数据的生物分析流程
CN111599413B (zh) 一种测序数据的分类单元组分计算方法
CN113744807B (zh) 一种基于宏基因组学的病原微生物检测方法及装置
CN105279391A (zh) 一种宏基因组16S rRNA的高通量测序数据处理及分析流程控制方法
CN108090324A (zh) 基于高通量基因测序数据的病原微生物鉴定方法
CN112037858A (zh) 一种确定植物主要病原菌的方法及应用
CN113611359B (zh) 一种提高宏基因组纳米孔测序数据菌种组装效率的方法
CN115982557A (zh) 一种气体浓度检测用数据处理系统
CN114023386A (zh) 宏基因组数据分析及特征菌筛选方法
CN101250584B (zh) 一种识别显著差异表达基因集合的方法
CN114078568B (zh) 基于iib型限制性内切酶特征的宏基因组测序数据处理系统及处理方法
CN113689913A (zh) 预测浓香型白酒窖泥窖龄的方法
Vranckx et al. Analysis of MALDI‐TOF MS Spectra using the BioNumerics Software
CN106650311A (zh) 一种微生物的检测识别方法和系统
CN113470752A (zh) 一种基于纳米孔测序仪的细菌测序数据鉴定方法
CN107609348B (zh) 高通量转录组数据样本分类数目估计方法
CN113744806A (zh) 一种基于纳米孔测序仪的真菌测序数据鉴定方法
CN101320404B (zh) 一种生物病毒的计算机自动分类方法
CN112014821A (zh) 一种基于雷达宽带特征的未知车辆目标识别方法
CN109741790A (zh) 微生物二代测序数据的宏基因组分析方法及系统
CN108038350B (zh) 一种使用理化指标判断堆积酒醅微生物群落结构的方法
CN114334003B (zh) 基于单分子测序的发酵金鲳深度学习质量判别方法及系统
CN111755079B (zh) 一种多晶硅最优原料配比方案确定方法及系统
CN115910216B (zh) 一种基于机器学习识别基因组序列分类错误的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant