CN111429971B - 基于机器学习和代谢组学的岭南湿热证模式动物识别方法 - Google Patents

基于机器学习和代谢组学的岭南湿热证模式动物识别方法 Download PDF

Info

Publication number
CN111429971B
CN111429971B CN202010107462.9A CN202010107462A CN111429971B CN 111429971 B CN111429971 B CN 111429971B CN 202010107462 A CN202010107462 A CN 202010107462A CN 111429971 B CN111429971 B CN 111429971B
Authority
CN
China
Prior art keywords
damp
heat
group
lingnan
metabonomics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010107462.9A
Other languages
English (en)
Other versions
CN111429971A (zh
Inventor
骆欢欢
王瑶
陈颂
肖洁东
郑裕华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University of Traditional Chinese Medicine
Original Assignee
Guangzhou University of Chinese Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University of Chinese Medicine filed Critical Guangzhou University of Chinese Medicine
Priority to CN202010107462.9A priority Critical patent/CN111429971B/zh
Publication of CN111429971A publication Critical patent/CN111429971A/zh
Application granted granted Critical
Publication of CN111429971B publication Critical patent/CN111429971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种基于机器学习和代谢组学的岭南湿热证模式动物识别方法。该方法基于代谢组学分析湿热证小鼠模型与正常对照组小鼠血浆样本,找出显著差异代谢物,再通过机器学习方法建立岭南湿热证模式动物识别模型,通过该模型实现对湿热证候模式小鼠的识别。本发明将宏观与微观,症状与检测相结合,实现了湿热证候模式小鼠的识别,为岭南湿热证证候基础研究、岭南湿热证临床药物机制研究及新药开发提供了宝贵的技术支持。

Description

基于机器学习和代谢组学的岭南湿热证模式动物识别方法
技术领域
本发明属于生物分析技术领域,具体涉及一种基于机器学习和代谢组学的岭南湿热证模式动物识别方法。
背景技术
近年来,中医证候机制的研究发展越来越快,针对中医证候、病证的模式动物造模方法也层出不穷,但是如何依据客观化评价标准对中医证候模式动物进行分类识别,仍然是一个难题。
湿热证是常见的中医证型,在中国东南部岭南地区,由于地理气候环境潮湿炎热,日照时间长、气温高、雨水充沛,易致地湿上蒸,外感湿热证极为多见,属于岭南医学中“岭南湿热证”范畴。对其证候实质的基础研究、治疗方法及药物的研究和开发,都有着深远意义。湿热证的模式动物是开展上述研究的重要工具。从代谢组学的角度,对湿热证模式动物的血浆代谢物进行取样分析,并通过代谢物的特征采用机器学习方法建立岭南湿热证模式动物代谢组学预测模型。通过模型对岭南湿热证模式动物进行分类识别,是岭南湿热证模式动物代谢组学研究的难点之一,目前尚未见相关报道。
发明内容
本发明针对中医证候模式动物判断的难题,公开一种基于机器学习和代谢组学的岭南湿热证模式动物识别方法。
为了实现上述目的,本发明的技术方案是:
基于机器学习和代谢组学的岭南湿热证模式动物识别方法,选择雌雄各半的小鼠S只,S不少于20,将S只小鼠随机分成数量相当的2组,其中一组为湿热组,在温度为34℃~36℃,湿度为85~90%的湿热环境下饲养10天,另一组为对照组,在温度为21℃~23℃,湿度为50~55%条件下饲养10天;分别采集n个湿热组和对照组小鼠的血浆样本进行代谢组学检测,每个血浆样本获得T个差异代谢物及其含量,其中,n不小于10,T=9000-10000;
将2n个湿热组和对照组小鼠血浆样本的差异代谢物含量数据进行预处理,然后进行多维统计分析,从每个样本的T个差异代谢物中获得具有生物学意义的显著差异代谢物R个;从2n个湿热组和对照组中,随机选择m个作为训练样本,剩余2n-m个为检验样本,且训练样本和检验样本中仅包含R个显著差异代谢物的含量,其中,m=K×2n,K=70%-80%;以训练样本为输入,以小鼠是湿热组或对照组2种结果为输出,采用机器学习方法建立岭南湿热证模式动物识别模型,以检验样本为输入,小鼠是湿热组或对照组2种结果为输出,对所建立的岭南湿热证模式动物识别模型进行检验,当检验准确率大于98%时,模型确立;
对小鼠进行湿热组或对照组分类识别时,采集小鼠的血浆样本进行差异代谢物的代谢组学检测,经过预处理,然后进行多维统计分析获得具有生物学意义的显著差异代谢物,而后将仅包含显著差异代谢物的样本数据输入已建立的岭南湿热证模式动物识别模型,得到小鼠所属组别的识别结果。
所述预处理采用商业化软件进行包括Pareto-scaling的处理。
所述多维统计分析包括:主成分分析分析、偏最小二乘法、正交偏最小二乘法判别分析。
所述机器学习方法包括:支持向量机、随机森林、神经网络以及极限学习机。
本发明具有以下有益效果:
本发明基于代谢组学检测出的差异代谢物,采用机器学习方法建立识别模型,实现了对模式动物的分类识别;为岭南湿热证证候基础研究、岭南湿热证临床药物机制研究及新药开发提供了宝贵的技术支持。
附图说明
图1为本发明方法流程图。
具体实施方式
以下结合附图介绍本发明详细技术方案:
选择雌雄各半的小鼠S只,S不少于20,将S只小鼠随机分成数量相当的2组,其中一组为湿热组,在温度为34℃~36℃,湿度为85~90%的湿热环境下饲养10天,另一组为对照组,在温度为21℃~23℃,湿度为50~55%条件下饲养10天;分别采集n个湿热组和对照组小鼠的血浆样本进行代谢组学检测,每个血浆样本获得T个差异代谢物及其含量,其中,n不小于10,T=9000-10000;
将2n个湿热组和对照组小鼠血浆样本的差异代谢物含量数据进行预处理,然后进行多维统计分析,从每个样本的T个差异代谢物中获得具有生物学意义的显著差异代谢物R个;从2n个湿热组和对照组中,随机选择m个作为训练样本,剩余2n-m个为检验样本,且训练样本和检验样本中仅包含R个显著差异代谢物的含量,其中,m=K×2n,K=70%-80%;以训练样本为输入,以小鼠是湿热组或对照组2种结果为输出,采用机器学习方法建立岭南湿热证模式动物识别模型,以检验样本为输入,小鼠是湿热组或对照组2种结果为输出,对所建立的岭南湿热证模式动物识别模型进行检验,当检验准确率大于98%时,模型确立;
对小鼠进行湿热组或对照组分类识别时,采集小鼠的血浆样本进行差异代谢物物的代谢组学检测,经过预处理,然后进行多维统计分析获得具有生物学意义的显著差异代谢物,而后将仅包含显著差异代谢物的样本数据输入已建立的岭南湿热证模式动物识别模型,得到小鼠所属组别的识别结果。
所述预处理为采用商业化软件进行Pareto-scaling处理。
所述多维统计分析包括:主成分分析分析、偏最小二乘法、正交偏最小二乘法判别分析。
所述机器学习方法包括:支持向量机、随机森林、神经网络以及极限学习机。
实施例1
基于机器学习和代谢组学的岭南湿热证模式动物识别方法,选用六周龄、体重为22g雌雄各半的BALB/c小鼠20只,小鼠由广东省实验动物中心提供,实验动物许可证号:SYXK(粤)2015-0109。小鼠在进行建模实验之前先将小鼠置于SPF级动物房适应性饲养一周,适应性饲养一周的饲养条件是温度为22℃,湿度为55%,光照时间为12h。适应性饲养结束后,将20只小鼠随机平均分为2组,每组10只,其中一组为湿热组,在温度为35℃、湿度为85%的湿热环境下饲养10天,给予小鼠SPF级饲料和垫料,每天更换饮用水以及SPF级垫料;另一组为对照组,在温度为22℃,湿度为50%条件下饲养10天。
分别采集饲养3天和10天的湿热组和对照组小鼠的血浆样本各10个进行代谢组学检测,样品采用Agilent 1290Infinity LC超高效液相色谱系统(UHPLC)HILIC色谱柱进行分离;分别采用电喷雾电离(ESI)正离子和负离子模式进行检测。样品经UHPLC分离后用Agilent6550质谱仪进行质谱分析。样本检测完毕后,采用AB Triple TOF 6600质谱仪对代谢物进行鉴定,采集QC样品的一级、二级谱图,共获得9903个差异代谢物及其含量。
经过预处理,然后进行多维统计分析,分别获得湿热组和对照组具有显著生物学意义的显著差异代谢物。
原始数据经ProteoWizard转换成*.mzXML格式,然后采用商业化程序XCMS进行峰对齐、保留时间校正和提取峰面积,并进行Pareto-scaling预处理。代谢物结构鉴定采用精确质量数匹配(<25ppm)和二级谱图匹配的方式,检索实验室自建数据库;对预处理后的数据进行正交偏最小二乘法判别分析(OPLS-DA)多维统计分析。根据OPLS-DA模型得到的变量权重值(Variable Importance forthe Projection,,VIP)衡量各代谢物的表达模式对各组样本分类判别的影响强度和解释能力,挖掘具有生物学意义的差异代谢物:选择同时具有多维统计分析VIP>1和单变量统计分析P value<0.05的代谢物,作为具有生物学意义的显著差异代谢物。饲养3天和10天的小鼠血浆样本分别获得湿热组和对照组50和33个显著差异代谢物。作为示例,表1列出饲养3天湿热组和对照组样本获得的显著差异代谢物5个;表2列出饲养10天湿热组样本和对照组样本各5个。
表1饲养3天湿热组样本和对照组样本获得的显著差异代谢物
Figure BDA0002388857390000051
Figure BDA0002388857390000061
Figure BDA0002388857390000071
表2饲养10天湿热组和对照组样本获得的显著差异代谢物
Figure BDA0002388857390000072
Figure BDA0002388857390000081
Figure BDA0002388857390000091
从上述饲养3天和饲养10天的40个代谢组学检测样本中随机选择28个作为训练样本,剩余12个为检验样本,且训练样本和检验样本中仅包括50和33个显著差异代谢物,以训练样本为输入,以小鼠是湿热组或对照组2种结果为输出,分别采用支持向量机和随机森林算法建立岭南湿热证模式动物识别模型。经优化后支持向量机模型的参数C=0.1,γ=0.01;随机森林的模型参数决策树=50。
岭南湿热证模式动物代谢组学识别模型对28个检验样本的检验结果准确率为100%,岭南湿热证模式动物识别模型确立。
建立的岭南湿热证模式动物识别模型可用于未知组别小鼠的分类识别。

Claims (4)

1.基于机器学习和代谢组学的岭南湿热证模式动物识别方法,其特征在于:选择雌雄各半的小鼠S只,S不少于20,将S只小鼠随机分成数量相当的2组,其中一组为湿热组,在温度为34℃~36℃,湿度为85~90%的湿热环境下饲养10天,另一组为对照组,在温度为21℃~23℃,湿度为50~55%条件下饲养10天;分别采集n个湿热组和对照组小鼠的血浆样本进行代谢组学检测,每个血浆样本获得T个差异代谢物及其含量,其中,n不小于10,T=9000-10000;
将2n个湿热组和对照组小鼠血浆样本的差异代谢物含量数据进行预处理,然后进行多维统计分析,从每个样本的T个差异代谢物中获得具有生物学意义的显著差异代谢物R个;从2n个湿热组和对照组中,随机选择m个作为训练样本,剩余2n-m个为检验样本,且训练样本和检验样本中仅包含R个显著差异代谢物的含量,其中,m=K×2n,K=70%-80%;以训练样本为输入,以小鼠是湿热组或对照组2种结果为输出,采用机器学习方法建立岭南湿热证模式动物识别模型,以检验样本为输入,小鼠是湿热组或对照组2种结果为输出,对所建立的岭南湿热证模式动物识别模型进行检验,当检验准确率大于98%时,模型确立;
对小鼠进行湿热组或对照组分类识别时,采集小鼠的血浆样本进行差异代谢物的代谢组学检测,经过预处理,然后进行多维统计分析获得具有生物学意义的显著差异代谢物,而后将仅包含显著差异代谢物的样本数据输入已建立的岭南湿热证模式动物识别模型,得到小鼠所属组别的识别结果。
2.根据权利要求1所述的基于机器学习和代谢组学的岭南湿热证模式动物识别方法,其特征在于:所述预处理采用商业化软件进行包括Pareto-scaling的处理。
3.根据权利要求1所述的基于机器学习和代谢组学的岭南湿热证模式动物识别方法,其特征在于:所述多维统计分析包括:主成分分析分析、偏最小二乘法、正交偏最小二乘法判别分析。
4.根据权利要求1所述的基于机器学习和代谢组学的岭南湿热证模式动物识别方法,其特征在于:所述机器学习方法包括:支持向量机、随机森林、神经网络以及极限学习机。
CN202010107462.9A 2020-02-21 2020-02-21 基于机器学习和代谢组学的岭南湿热证模式动物识别方法 Active CN111429971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010107462.9A CN111429971B (zh) 2020-02-21 2020-02-21 基于机器学习和代谢组学的岭南湿热证模式动物识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010107462.9A CN111429971B (zh) 2020-02-21 2020-02-21 基于机器学习和代谢组学的岭南湿热证模式动物识别方法

Publications (2)

Publication Number Publication Date
CN111429971A CN111429971A (zh) 2020-07-17
CN111429971B true CN111429971B (zh) 2022-04-01

Family

ID=71551616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010107462.9A Active CN111429971B (zh) 2020-02-21 2020-02-21 基于机器学习和代谢组学的岭南湿热证模式动物识别方法

Country Status (1)

Country Link
CN (1) CN111429971B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283877A (zh) * 2021-04-29 2022-04-05 厦门市迈理奥科技有限公司 一种建立代谢物模型及其代谢组学数据库的方法
CN116758975B (zh) * 2023-08-16 2023-11-24 广东药科大学 梧州六堡茶防治岭南特色湿热证效果的检测识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108235734A (zh) * 2015-03-20 2018-06-29 伦敦健康科学中心研究有限公司 中枢神经系统损伤的代谢组学图谱分析

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT1909561E (pt) * 2005-07-25 2010-05-06 Basf Se Método de apresentação e análise de uma população animal com um metaboloma essencialmente idêntico
US20180225367A1 (en) * 2017-02-07 2018-08-09 Under Armour, Inc. System and Method for Activity Classification

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108235734A (zh) * 2015-03-20 2018-06-29 伦敦健康科学中心研究有限公司 中枢神经系统损伤的代谢组学图谱分析

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"岭南温病湿热证小鼠模型的建立及肠道菌群的研究分析";王婷等;《中华中医药学刊》;20170630;第35卷(第6期);第1361-1365页 *

Also Published As

Publication number Publication date
CN111429971A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN105574474B (zh) 一种基于质谱信息的生物特征图像识别方法
CN109781917B (zh) 一种基于分子地图的生物样本智能识别方法
Forner et al. Chemical dereplication of marine actinomycetes by liquid chromatography–high resolution mass spectrometry profiling and statistical analysis
CN111429971B (zh) 基于机器学习和代谢组学的岭南湿热证模式动物识别方法
CN106841494B (zh) 基于uplc‑qtof的植物差异性代谢物快速筛选方法
CN108535375B (zh) 一种基于液质联用代谢组学分析玛咖标志性代谢产物的方法
CN104297355A (zh) 一种基于液相色谱/质谱联用的拟靶标代谢组学分析方法
JP2003533672A (ja) 非標的化複雑試料分析の方法
CN109507315B (zh) 复杂样本gc-ms自动解析实现化合物准确鉴别与差异性组分筛查的方法
CN111243676B (zh) 一种基于高通量测序数据的枯萎病发病预测模型及应用
KR101152532B1 (ko) 크로마토그래피-질량분석을 이용한 아르테미시아 종 및 애엽 분류 방법
Wang et al. Comprehensive metabolic profile analysis of the root bark of different species of tree peonies (Paeonia Sect. Moutan)
CN111060642A (zh) 一种对同品种不同产地烟叶分类鉴别的方法
CN110320303A (zh) 一种基于uplc-ms的土壤渗滤系统代谢组学分析方法
CN111398499A (zh) 3-氨基-2-萘甲酸在鉴别中蜂蜂蜜和意蜂蜂蜜中的应用
Yu et al. Identification of three kinds of citri reticulatae pericarpium based on deoxyribonucleic acid barcoding and high-performance liquid chromatography-diode array detection-electrospray ionization/mass spectrometry/mass spectrometry combined with chemometric analysis
CN117169388A (zh) 基于机器学习的标志代谢物模型预测山药最佳采收期方法
CN116665848A (zh) 一种中药配比设备及其中药配比方法
CN109870533A (zh) 一种基于分子地图的生物样本快速智能识别方法
CN104142375A (zh) 一种利用霉菌代谢产物建立指纹图谱以及利用指纹图谱鉴定霉菌菌种的方法
CN108267528A (zh) 基于气味指纹图谱和spss聚类分析鉴别玛咖源产地的方法
CN115097053B (zh) 用于鉴定大豆疫霉根腐病感抗情况的代谢标志物及其应用
Witte et al. Untargeted metabolomic profiling of fungal species populations
CN115267038A (zh) 一种鉴别油菜蜂王浆的方法与应用
CN117538473B (zh) 一种基于非靶向代谢组学筛选鉴定轻木叶片中三种植物激素的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 510006 Guangzhou University of traditional Chinese medicine, No. 232, outer ring road of University City, Panyu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou University of traditional Chinese medicine (Guangzhou Institute of traditional Chinese Medicine)

Country or region after: China

Address before: 510006 Guangzhou University of traditional Chinese medicine, No. 232, outer ring road of University City, Panyu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU University OF CHINESE MEDICINE

Country or region before: China

CP03 Change of name, title or address