CN114038503A - 基于高通量测序的人体母乳样本特征菌数据分析识别方法 - Google Patents

基于高通量测序的人体母乳样本特征菌数据分析识别方法 Download PDF

Info

Publication number
CN114038503A
CN114038503A CN202111247630.5A CN202111247630A CN114038503A CN 114038503 A CN114038503 A CN 114038503A CN 202111247630 A CN202111247630 A CN 202111247630A CN 114038503 A CN114038503 A CN 114038503A
Authority
CN
China
Prior art keywords
data
breast milk
sequence variation
amplicon sequence
milk sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111247630.5A
Other languages
English (en)
Inventor
郑明权
侯晓帆
明泓博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Edvance Beijing Medical Laboratory Co ltd
Original Assignee
Edvance Beijing Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Edvance Beijing Medical Laboratory Co ltd filed Critical Edvance Beijing Medical Laboratory Co ltd
Priority to CN202111247630.5A priority Critical patent/CN114038503A/zh
Publication of CN114038503A publication Critical patent/CN114038503A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/60ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to nutrition control, e.g. diets

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Nutrition Science (AREA)
  • Primary Health Care (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了基于高通量测序的人体母乳样本特征菌数据分析识别方法。本发明所要保护的一个技术方案是母乳样本特征菌群数据分析和识别的装置,所述装置包括特征菌群数据分析和识别模块,用于对待测母乳样本的测序数据进行分析和识别得到所述待测母乳样本的特征菌群数据,具体包括扩增子序列变异分析及物种注释模块和扩增子序列变异数据过滤模块,通过对待测母乳样本的扩增子序列变异和物种注释数据进行过滤,最终得到待测母乳样本的特征菌群数据。该装置可以检测人体母乳样本中特征菌,针对识别结果可以为母乳营养优化提供生物学建议,通过调整饮食和生活方式等来改善菌群结构,直接或间接地促进母乳微生态平衡,从而提高母乳质量。

Description

基于高通量测序的人体母乳样本特征菌数据分析识别方法
技术领域
本发明涉及生物信息技术领域,具体涉及基于高通量测序的人体母乳样本特征菌数据分析识别方法。
背景技术
哺乳期女性母乳中共生着数百种微生物,这些共生微生物与母乳质量息息相关。母乳菌群群落多样性的进化和维持、细菌种间相互作用以及由此产生的细菌种群分布格局直接关系到母乳的质量,从而对新生儿的发育和成长产生影响。与此同时,产妇或经产妇母乳中共生菌还会影响到新生儿肠道菌群的构建。
发明内容
本发明所要解决的技术问题是如何分析识别人体母乳样本特征菌群数据。
为了解决上述技术问题,本发明首先提供了母乳样本特征菌群数据分析和识别的装置。所述装置可包括特征菌群数据分析和识别模块。所述特征菌群数据分析和识别模块用于对待测母乳样本的测序数据进行分析和识别,得到所述待测母乳样本的特征菌群数据。
上文所述装置中,所述特征菌群数据分析和识别模块可包括如下模块:
A1)扩增子序列变异分析及物种注释模块:用于对所述待测母乳样本的测序数据进行分析得到所述待测母乳样本的扩增子序列变异和物种注释数据。
A2)扩增子序列变异数据过滤模块:用于将所述待测母乳样本的扩增子序列变异和物种注释数据进行过滤,得到待测母乳样本的特征菌群数据。
上文所述装置中,所述测序数据可为对所述待测母乳样本的原始测序数据进行质量控制后得到的有效数据。
上文所述装置中,A1)所述扩增子序列变异分析及物种注释模块具体可通过包括如下步骤的方法建立:对所述测序数据进行扩增子序列变异分析及物种注释,得到所述待测母乳样本的扩增子序列变异和物种注释数据。
上文所述装置中,A2)所述扩增子序列变异数据过滤模块具体可通过包括如下步骤的方法建立:将所述扩增子序列变异和物种注释数据进行过滤,去掉注释到蓝细菌/线粒体/叶绿体的所述扩增子序列变异数据以及在所有待测母乳样本中总reads数小于20的所述扩增子序列变异数据;选择在95%所述待测母乳样本中平均丰度大于等于0.5%的所述扩增子序列变异数据作为核心扩增子序列变异数据,所述核心扩增子序列变异数据对应菌为所述待测母乳样本的特征菌群数据。
上文所述装置中,A1)所述对所述测序数据进行扩增子序列变异分析及物种注释可通过使用qiime2分析软件进行分析实现。
上文所述装置中,所述母乳样本可为人母乳样本。
为了解决上述技术问题,本发明还提供了母乳样本特征菌群数据分析和识别的方法。所述方法可包括如下步骤:
B1)扩增子序列变异分析及物种注释:用于对所述待测母乳样本的测序数据进行分析得到所述待测母乳样本的扩增子序列变异和物种注释数据。
B2)扩增子序列变异数据过滤:将所述扩增子序列变异和物种注释数据进行过滤,得到所述待测母乳样本的特征菌群数据。
上文所述方法中,所述测序数据可为对原始测序数据进行质量控制后得到的有效数据。
上文所述方法中,B1)所述扩增子序列变异分析及物种注释步骤可为使用qiime2分析软件进行分析实现。
上文所述方法中,B2)所述扩增子序列变异数据过滤步骤可为选择在95%所述待测母乳样本中平均丰度大于等于0.5%的所述扩增子序列变异数据作为核心扩增子序列变异数据。所述核心扩增子序列变异数据对应菌可为所述待测母乳样本的特征菌群数据。
上文所述方法中,B2)所述扩增子序列变异数据过滤步骤还可包括去掉注释到蓝细菌/线粒体/叶绿体的所述扩增子序列变异数据以及在所有待测母乳样本中总reads数小于20的所述扩增子序列变异数据的步骤。
为了解决上述技术问题,本发明还提供了存储有计算机程序的计算机可读存储介质。所述计算机程序使计算机建立如上文所述装置的模块。
为了解决上述技术问题,本发明还提供了存储有计算机程序的计算机可读存储介质。所述计算机程序可使计算机运行如上文所述步骤的方法。所述计算机程序也可使计算机运行如上文所述装置的模块。
本发明所提出的基于高通量测序的人体母乳样本特征菌群数据分析识别装置或方法可以检测人体母乳样本中特征菌,针对识别结果可以为母乳营养优化提供生物学建议,通过调整饮食和生活方式等来改善菌群结构,直接或间接地促进母乳微生态平衡,从而提高母乳质量。
附图说明
图1为该方法检测到的待测人类母乳样本中特征菌聚类热图,根据样本相似性进行分组C1、C2、C3、C4、C5,右边图例0-1颜色代表特征菌在各分组中数量占比大小。上方图标为分组情况,右边坐标为根据该方法筛选后的特征菌,示例为Morganella摩根氏菌属、Providencia普罗维登斯菌属、Acinetobacter不动杆菌属、Streptococcus链球菌属、Pseudomonas假单胞菌、Staphylococcus葡萄球菌、Bifidobacterium双歧杆菌、Stenotrophomonas寡养单胞菌、Enhydrobacter水栖菌属、Corynebacterium棒状杆菌属、Bacillus芽孢杆菌属。
具体实施方式
下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南,并不以任何方式构成对本发明的限制。
下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例一、人体母乳样本特征菌群数据分析识别方法和装置
一、母乳样本测序
使用Illumina测序平台进行高通量测序,对待测人体母乳样本进行测序,获得待测人体母乳样本的原始数据(raw data或raw reads)。
原始数据(raw data或raw reads)的来源为高通量测序平台获得的原始下机数据。测序得到的原始图像数据经base calling转化为序列数据即为原始下机数据,结果以fastq文件格式存储(文件名:*.fq),fastq文件为用户得到的最原始文件,里面存储测序获得的reads的序列以及reads的测序质量。
二、母乳样本特征菌群数据分析和识别
1、数据获得模块:
用于获取步骤一中得到的待测人体母乳样本的原始数据。
2、数据质控分析模块:
用于将原始数据进行质量控制得到有效数据。
具体通过包括如下步骤的方法建立:使用fastp软件对原始数据进行数据质控。fastp下载https://github.com/OpenGene/fastp。
3、特征菌群数据分析和识别模块:用于对得到的有效数据进行分析和识别得到待测母乳样本的特征菌群数据。
3.1扩增子序列变异分析及物种注释模块:用于对得到的有效数据进行分析得到待测母乳样本的扩增子序列变异和物种注释数据。
具体通过包括如下步骤的方法建立:使用qiime2分析软件进行扩增子序列变异(amplicon sequence variant,ASV)分析及物种注释(SILVA数据库,网址https://www.arb-silva.de/)。得到待测母乳样本的扩增子序列变异和物种注释数据。qiime2官网https://qiime2.org。
3.2扩增子序列变异数据过滤模块:用于将得到的待测母乳样本的扩增子序列变异和物种注释数据进行过滤,得到待测母乳样本的特征菌群数据。
具体通过包括如下步骤的方法建立:将得到的待测母乳样本的扩增子序列变异和物种注释数据进行过滤,去掉注释到蓝细菌/线粒体/叶绿体等的ASV以及在所有样本中总reads数小于20的ASV。选择在95%样本中平均丰度不小于0.5%的ASV作为核心ASV,核心ASV对应菌为最终筛选识别结果,即待测母乳样本的特征菌群数据。
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本申请欲包括任何变更、用途或对本发明的改进,包括脱离了本申请中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。

Claims (10)

1.母乳样本特征菌群数据分析和识别的装置,其特征在于:所述装置包括特征菌群数据分析和识别模块,所述特征菌群数据分析和识别模块用于对待测母乳样本的测序数据进行分析和识别得到所述待测母乳样本的特征菌群数据;所述特征菌群数据分析和识别模块包括如下模块:
A1)扩增子序列变异分析及物种注释模块:用于对所述待测母乳样本的测序数据进行分析得到所述待测母乳样本的扩增子序列变异和物种注释数据;
A2)扩增子序列变异数据过滤模块:用于将所述待测母乳样本的扩增子序列变异和物种注释数据进行过滤,得到待测母乳样本的特征菌群数据。
2.根据权利要求1所述的装置,其特征在于:所述测序数据为对所述待测母乳样本的原始测序数据进行质量控制后得到的有效数据。
3.根据权利要求1或2所述的装置,其特征在于:A1)所述扩增子序列变异分析及物种注释模块具体通过包括如下包括如下步骤的方法建立:对所述测序数据进行扩增子序列变异分析及物种注释,得到所述待测母乳样本的扩增子序列变异和物种注释数据。
4.根据权利要求1或2或3所述的装置,其特征在于:A2)所述扩增子序列变异数据过滤模块具体通过包括如下包括如下步骤的方法建立:将所述扩增子序列变异和物种注释数据进行过滤,去掉注释到蓝细菌/线粒体/叶绿体的所述扩增子序列变异数据以及在所有待测母乳样本中总reads数小于20的所述扩增子序列变异数据;选择在95%所述待测母乳样本中平均丰度大于等于0.5%的所述扩增子序列变异数据作为核心扩增子序列变异数据,所述核心扩增子序列变异数据对应菌为所述待测母乳样本的特征菌群数据。
5.根据权利要求3或4中任一权利要求所述的装置,其特征在于:A1)所述对所述测序数据进行扩增子序列变异分析及物种注释通过使用qiime2分析软件进行分析实现。
6.根据权利要求1或5所述的装置,其特征在于:所述母乳样本为人母乳样本。
7.母乳样本特征菌群数据分析和识别的方法,所述方法包括如下步骤:
B1)扩增子序列变异分析及物种注释:用于对所述待测母乳样本的测序数据进行分析得到所述待测母乳样本的扩增子序列变异和物种注释数据;
B2)扩增子序列变异数据过滤:将所述扩增子序列变异和物种注释数据进行过滤,得到所述待测母乳样本的特征菌群数据。
8.根据权利要求7所述的方法,其特征在于:B1)所述扩增子序列变异分析及物种注释步骤为使用qiime2分析软件进行分析实现;
和/或,
B2)所述扩增子序列变异数据过滤步骤为选择在95%所述待测母乳样本中平均丰度大于等于0.5%的所述扩增子序列变异数据作为核心扩增子序列变异数据,所述核心扩增子序列变异数据对应菌为所述待测母乳样本的特征菌群数据。
9.存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机建立如权利要求1-6中任一权利要求所述装置的模块。
10.存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机运行如权利要求7或8所述方法的步骤或所述计算机程序使计算机运行如权利要求1-6中任一权利要求所述装置的模块。
CN202111247630.5A 2021-10-26 2021-10-26 基于高通量测序的人体母乳样本特征菌数据分析识别方法 Pending CN114038503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111247630.5A CN114038503A (zh) 2021-10-26 2021-10-26 基于高通量测序的人体母乳样本特征菌数据分析识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111247630.5A CN114038503A (zh) 2021-10-26 2021-10-26 基于高通量测序的人体母乳样本特征菌数据分析识别方法

Publications (1)

Publication Number Publication Date
CN114038503A true CN114038503A (zh) 2022-02-11

Family

ID=80141940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111247630.5A Pending CN114038503A (zh) 2021-10-26 2021-10-26 基于高通量测序的人体母乳样本特征菌数据分析识别方法

Country Status (1)

Country Link
CN (1) CN114038503A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111118187A (zh) * 2020-02-25 2020-05-08 福建医科大学 一种检测食管鳞癌癌组织与癌旁组织差异菌群的引物组、试剂盒和检测方法
WO2021112673A1 (en) * 2019-12-02 2021-06-10 Inbiome B.V. Methods for identifying microbes in a clinical and non-clinical setting.
CN113142034A (zh) * 2021-03-26 2021-07-23 北京大学 同步鉴定水生生态系统中浮游藻类和底栖藻类的方法
CN113174444A (zh) * 2021-04-29 2021-07-27 华中科技大学 孕早期肠道细菌的妊娠期糖尿病生物标志物及筛选与应用
CN113393131A (zh) * 2021-06-18 2021-09-14 南京大学 一种基于环境dna宏条形码技术的浮游植物完整性评价方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021112673A1 (en) * 2019-12-02 2021-06-10 Inbiome B.V. Methods for identifying microbes in a clinical and non-clinical setting.
CN111118187A (zh) * 2020-02-25 2020-05-08 福建医科大学 一种检测食管鳞癌癌组织与癌旁组织差异菌群的引物组、试剂盒和检测方法
CN113142034A (zh) * 2021-03-26 2021-07-23 北京大学 同步鉴定水生生态系统中浮游藻类和底栖藻类的方法
CN113174444A (zh) * 2021-04-29 2021-07-27 华中科技大学 孕早期肠道细菌的妊娠期糖尿病生物标志物及筛选与应用
CN113393131A (zh) * 2021-06-18 2021-09-14 南京大学 一种基于环境dna宏条形码技术的浮游植物完整性评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHIRIN MOOSSAVI ET AL.: "Biological observations in microbiota analysis are robust to the choice of 16S rRNA gene sequencing processing algorithm: case study on human milk microbiota", BMC MICROBIOLOGY, vol. 20, 18 September 2020 (2020-09-18), pages 1 - 9 *
SHIRIN MOOSSAVI ET AL.: "Composition and Variation of the Human Milk Microbiota Are Influenced by Maternal and Early-Life Factors", COMPOSITION AND VARIATION OF THE HUMAN MILK MICROBIOTA ARE INFLUENCED BY MATERNAL AND EARLY-LIFE FACTORS, vol. 25, 13 February 2019 (2019-02-13), pages 324 - 335 *

Similar Documents

Publication Publication Date Title
CN107463800B (zh) 一种肠道微生物信息分析方法及系统
CN111951895B (zh) 基于宏基因组学的病原分析方法、分析装置、设备及存储介质
US8320655B2 (en) Process and system for analyzing the expression of biomarkers in cells
Nagasaka et al. Visualization of morphological categories of colonies for monitoring of effect on induced pluripotent stem cell culture status
CN105279391A (zh) 一种宏基因组16S rRNA的高通量测序数据处理及分析流程控制方法
CN111599413B (zh) 一种测序数据的分类单元组分计算方法
CN112151118B (zh) 一种多时间序列肠道菌群数据分析流程控制方法
CN112686786A (zh) 一种医疗护理用教学系统及教学方法
CN116741268B (zh) 筛选病原体关键突变的方法、装置及计算机可读存储介质
CN114974411A (zh) 宏基因组病原微生物基因组数据库及其构建方法
CN111243676B (zh) 一种基于高通量测序数据的枯萎病发病预测模型及应用
CN114038503A (zh) 基于高通量测序的人体母乳样本特征菌数据分析识别方法
CN109584952A (zh) 一种人体微生物菌群生态网络结构和功能变异的识别方法
EP1012777A2 (en) Methods for objectification of subjective classifications
Dishon et al. Image-based analysis and quantification of biofouling in cultures of the red alga Asparagopsis taxiformis
CN113793647A (zh) 一种基于二代测序宏基因组数据分析装置及方法
CN114496089B (zh) 一种病原微生物鉴定方法
CN109741790A (zh) 微生物二代测序数据的宏基因组分析方法及系统
US9892895B2 (en) Method for analyzing small molecule components of a complex mixture in a multi-sample process, and associated apparatus and computer program product
CN211578386U (zh) 一种宏基因组分析装置
RU2791813C1 (ru) Система и способ обнаружения и классификации колоний микроорганизмов на изображениях на основе технологий искусственного интеллекта и компьютерного зрения
CN117116351B (zh) 基于机器学习算法的物种鉴定模型的构建方法、物种鉴定方法和物种鉴定系统
CN117473444B (zh) 基于CNN和SVM的Sanger测序结果质检方法
CN113486954B (zh) 一种肠道微生态差异菌分类处理方法及肠道健康评估方法
Bamberg et al. Intuitive visual impressions (cogs) for identifying clusters of diversity within potato species

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination