CN116504318B - 一种基于机器学习的肿瘤ctDNA信息统计处理方法 - Google Patents

一种基于机器学习的肿瘤ctDNA信息统计处理方法 Download PDF

Info

Publication number
CN116504318B
CN116504318B CN202310745800.5A CN202310745800A CN116504318B CN 116504318 B CN116504318 B CN 116504318B CN 202310745800 A CN202310745800 A CN 202310745800A CN 116504318 B CN116504318 B CN 116504318B
Authority
CN
China
Prior art keywords
data
reliability
sequencing
sequencing data
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310745800.5A
Other languages
English (en)
Other versions
CN116504318A (zh
Inventor
鱼潇
王佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Medical College of Xian Jiaotong University
Original Assignee
First Affiliated Hospital of Medical College of Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Medical College of Xian Jiaotong University filed Critical First Affiliated Hospital of Medical College of Xian Jiaotong University
Priority to CN202310745800.5A priority Critical patent/CN116504318B/zh
Publication of CN116504318A publication Critical patent/CN116504318A/zh
Application granted granted Critical
Publication of CN116504318B publication Critical patent/CN116504318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Probability & Statistics with Applications (AREA)
  • Epidemiology (AREA)
  • Algebra (AREA)
  • Public Health (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种基于机器学习的肿瘤ctDNA信息统计处理方法,包括:获取原始测序数据通过评估原始测序数据质量进行预筛选,对测序数据的测序深度和覆盖度进行分析量化原始测序数据的可靠性,依据可靠性进行第一次数据组的划分,对一次划分后的数据根据组内差异与组间差异进行二次划分,根据数据所在组的特点选择不同的突变检测策略,通过比较多个细分组的变异检测结果,找出可靠的低频突变候选位点,优化低频突变检测效果。本发明对原始测序数据质量进行评估,将测序数据进行划分,提高数据分析的效率和准确性,优化低频突变检测效果,可以更准确地分析原始测序数据所体现的相关变异因素。

Description

一种基于机器学习的肿瘤ctDNA信息统计处理方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于机器学习的肿瘤ctDNA信息统计处理方法。
背景技术
肿瘤ctDNA信息统计处理是肿瘤诊断和治疗领域的一个快速发展的领域,现在已经有多个公司和机构提供多样化的数据分析服务,如突变检测、突变拆分、高通量测序、数据解释和制定相应病例的分子病理诊断计划等等。一些公司利用高通量测序数据和生物信息学技术研发商业化的分子病理学分析器,其中包括机器学习和人工智能等算法,为临床医生提供存链的分子诊断信息。或者利用信息学工具与算法,提供对ctDNA信息的异质性分析,以获得更精准的诊断和治疗信息。随着技术进步和需求不断扩大,ctDNA信息统计处理相关正在迅速发展,为肿瘤治疗学和基因组学领域的个性化治疗和分子诊断提供了广阔前景。
ctDNA检测的技术有很多种,其中最常见的方法是利用NGS技术对ctDNA片段及其突变信息进行检测和分析。NGS技术处理ctDNA数据虽然在肿瘤诊断和治疗方面具有很大的优势,但由于ctDNA浓度较低或者杂质较多会导致一些问题的出现。其中,最主要的问题是难以区分真正的低频突变位点和测序误差。
发明内容
本发明提供一种基于机器学习的肿瘤ctDNA信息统计处理方法,以解决现有的问题。
本发明的一种基于机器学习的肿瘤ctDNA信息统计处理方法采用如下技术方案:
本发明一个实施例提供了一种基于机器学习的肿瘤ctDNA信息统计处理方法,该方法包括以下步骤:
获取原始测序数据,通过计算原始测序数据的预筛选分数评估原始测序数据的质量,获取所有质量评估合格的原始测序数据;
根据质量评估合格的单个原始测序数据的测序深度可靠性和质量评估合格的单个原始测序数据的覆盖度可靠性得到质量评估合格的单个原始测序数据的可靠性;
通过质量评估合格的单个原始测序数据的可靠性大小对所有质量评估合格的原始测序数据进行初次分组划分;得到高可靠性数据组和低可靠性数据组;根据高可靠性数据组组内相似性与高可靠性数据组组间差异性确定高可靠性数据组的最优二次划分分组;得到二次划分完成后的多组高可靠性数据组;
对二次划分后每组高可靠性数据组通过全局比对法进行突变检测;对低可靠性数据组针对高度重复和低复杂度区域采用局部比对的突变检测获得突变检测结果,根据突变检测结果得到可靠的低频突变位点,根据可靠的低频突变位点优化低频突变检测效果。
优选的,所述原始测序数据的预筛选分数的获取方法如下:
原始测序数据的预筛选分数的计算表达式为:
式中,表示/>为/>的单条原始测序数据的预筛选分数;/>表示/>质量分数阈值,/>表示/>为/>的数据的/>质量分数;/>表示测序适配器污染阈值,表示/>为/>的数据的测序适配器污染值;/>表示/>含量分布阈值,/>表示/>为/>的数据的/>含量分布值;/>表示阶跃函数。
优选的,所述质量评估合格的单个原始测序数据的测序深度可靠性的获取方法如下:
单个原始测序数据的测序深度可靠性的计算表达式为:
式中,表示/>为/>的单条原始测序数据的测序深度可靠性;/>表示为/>的单条原始测序数据的第/>个位点;/>表示/>为/>的单条原始测序数据上所有位点的测序深度值标准差;/>表示/>为/>的单条原始测序数据上所有位点的测序深度值均值;/>表示/>为/>的单条原始测序数据的第/>个位点中超出期望测序深度值上下限的测序深度值个数占该位点整体测序深度值个数的比例;/>表示/>为/>的单条原始测序数据的测序深度可靠性系数;/>表示/>为/>的单条原始测序数据的测序深度值;/>表示期望测序深度值上限;/>表示期望测序深度值下限;/>表示整组原始测序数据的测序深度值均值;/>表示整组原始测序数据的测序深度值标准差。
优选的,所述质量评估合格的单个原始测序数据的覆盖度可靠性的获取方法如下:
单个原始测序数据的覆盖度可靠性的计算表达式:
式中,表示/>为/>的单条原始测序数据的覆盖度可靠性;/>表示/>为/>的单条原始测序数据上位点的覆盖度超过覆盖度阈值的位点数量;/>表示/>为/>的单条原始测序数据上位点总数量;/>表示/>为/>的单条原始测序数据上位点的覆盖度均值;/>表示/>为/>的单条原始测序数据上位点的覆盖度标准差。
优选的,所述质量评估合格的单个原始测序数据的可靠性的获取方法如下:
单个原始测序数据的可靠性的计算表达式为:
式中,表示/>为/>的单条原始测序数据的可靠性;/>表示/>为/>的单条原始测序数据的测序深度可靠性;/>表示/>为/>的单条原始测序数据的覆盖度可靠性。
优选的,所述通过质量评估合格的单个原始测序数据的可靠性大小对所有质量评估合格的原始测序数据进行初次分组划分,包括的具体步骤如下:
根据单个原始测序数据的测序深度可靠性进行划分,若单个原始测序数据的测序深度可靠性为0,则划分为低可靠性数据组内的单个原始测序数据;若单个原始测序数据的测序深度可靠性不为0,则划分为高可靠性数据组内的单个原始测序数据。
优选的,所述根据高可靠性数据组组内相似性与高可靠性数据组组间差异性确定高可靠性数据组的最优二次划分分组,包括的具体步骤如下:
将高可靠性数据组分成的所有组的组内相似性求和的值与高可靠性数据组的组间差异性的值做乘积得到分组阈值,根据分组阈值最大值确定出高可靠性数据组的最优二次划分分组。
优选的,所述高可靠性数据组分成的所有组的组内相似性的获取方法如下:
高可靠性数据组的第组数据的组内相似性的计算表达式为:
式中,表示第/>组数据的组内相似性;/>表示高可靠性数据组分成的组总数量;/>表示组内第1数据和第/>条数据的杰卡德系数;/>表示组内第/>和第/>条数据的杰卡德系数。
优选的,所述高可靠性数据组的组间差异性的获取方法如下:
组间差异性的计算为对高可靠性数据组中所有组的组内相似性求均值,得到高可靠性数据组的组间相似性。
本发明的技术方案的有益效果是:对原始测序数据质量进行评估,将测序数据进行划分,提高数据分析的效率和准确性,优化低频突变检测效果,可以更准确地分析原始测序数据所体现的相关变异因素。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于机器学习的肿瘤ctDNA信息统计处理方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于机器学习的肿瘤ctDNA信息统计处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于机器学习的肿瘤ctDNA信息统计处理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于机器学习的肿瘤ctDNA信息统计处理方法的步骤流程图,该方法包括以下步骤:
步骤S001:获取原始测序数据,通过计算原始测序数据的预筛选分数评估原始测序数据的质量,获取所有质量评估合格的原始测序数据。
具体的,通过血液、脑脊液和肿瘤等进行ctDNA样本的采集,将采集得到的样本进行DNA提取,得到DNA样品,通过PCR或者别的放大策略,富集目标ctDNA,将富集后的ctDNA样品采用高通量的DNA测序平台进行测序,得到ctDNA的fastq格式的原始测序数据。
需要说明的是,原始测序数据为格式(生物数据格式,一般用来存储原始测序文件),进而可以使用/>工具评估原始测序数据的质量,该工具主要检查/>质量分数、测序适配器污染、/>含量分布,对评估结果进行总结,进而判断数据是否可以进行后续分析。
具体的,原始测序数据的预筛选分数的计算表达式为:
式中,表示/>为/>的单条原始测序数据的预筛选分数;/>表示/>质量分数阈值,/>表示/>为/>的数据的/>质量分数;/>表示测序适配器污染阈值,表示/>为/>的数据的测序适配器污染值;/>表示/>含量分布阈值,/>表示/>为/>的数据的/>含量分布值;/>表示阶跃函数。
进一步需要说明的是,对于质量分数、测序适配器污染和/>含量的分布,可以根据不同的分析需求或场景,设定不同的阈值,以满足特定的应用需求。对于原始测序数据的预筛选分数为/>,记为质量评估合格的原始测序数据;对于原始测序数据的预筛选分数为,剔除即可。
通过计算原始测序数据的预筛选分数评估原始测序数据的质量,获取所有质量评估合格的原始测序数据,并对所有质量评估合格的原始测序数据进行过滤与修剪,具体操作是采用、/>等工具对质量评估合格的原始测序数据进行质量修剪,包括去除低质量区域、去除测序接头和引物污染序列,只留下高质量的序列数据。这些工具是自动修剪原始测序数据的工具,通常会以脚本和命令行等形式提供。基本工作原理是从/>原始序列中截取高质量的部分,剔除低质量和非特定序列,同时优化/>的长度,并生成新的经过修剪的、干净的/>格式文件供下一步分析使用。
至此,获取所有质量评估合格的原始测序数据。
步骤S002:根据质量评估合格的单个原始测序数据的测序深度可靠性和覆盖度可靠性得到质量评估合格的单个原始测序数据的可靠性。
需要说明的是,深度和覆盖度是误差率和低频突变检测的关键因素,需要分析测序深度和覆盖度。评估每个样品的测序深度,以便估计检测低频突变的可行性。具有更高的测序深度可以提高检测到低频突变的可行性。与此同时,较高的覆盖度能够增加检测低频突变的敏感性和准确性。
测序深度指一个DNA序列在测序过程中被多次测序的次数的平均值。通常用表示,例如/>表示该DNA序列平均被测序了/>次。测序深度越高,所获得的测序数据精度和可信度就越高;覆盖度指一个DNA序列在测序数据中被读取片段覆盖的平均深度。
单个原始测序数据的测序深度和深度分布均匀程度与整体原始测序数据的测序深度和深度分布均匀程度进行对比,得到单个原始测序数据的测序深度可靠性。
则单个原始测序数据的测序深度可靠性的计算表达式为:
式中,表示/>为/>的单条原始测序数据的测序深度可靠性;/>表示为/>的单条原始测序数据的第/>个位点;/>表示/>为/>的单条原始测序数据上所有位点的测序深度值标准差;/>表示/>为/>的单条原始测序数据上所有位点的测序深度值均值;/>表示/>为/>的单条原始测序数据的第/>个位点中超出期望测序深度值上下限的测序深度值个数占该位点整体测序深度值个数的比例;/>表示/>为/>的单条原始测序数据的测序深度可靠性系数;/>表示/>为/>的单条原始测序数据的测序深度值;/>表示期望测序深度值上限;/>表示期望测序深度值下限;/>表示整组原始测序数据的测序深度值均值;/>表示整组原始测序数据的测序深度值标准差。
进一步需要说明的是,组数据单条数据以及位点的关系包括:一组测序数据通常包含多个单条测序数据,每个单条测序数据上又包含多个位点。每个位点都经过测序,生成多个测序深度值。因此,从位点开始分析,引申到单个数据,然后再比较整体数据。
具体的,首先分析单个数据位点。
表示/>为/>的单条原始测序数据上所有位点的测序深度值分布稳定性和均值大小,若不同位点之间,测序深度值要分布越稳且均值越大,则单个原始测序数据的测序深度可靠性越大。
表示/>为/>的单条原始测序数据的第/>个位点中未超出期望测序深度值上下限的测序深度值个数占该位点整体测序深度值个数的比例,即对于每个位点之内,这个位点所包含的测序深度值分布要均匀,并且超出上限低于下限的深度值数量少,才是一个优秀的位点。一条测序数据中优秀的位点越多,也就说明该条原始测序数据的测序深度可靠性越大。
然后分析该条单个数据。
对于单个数据的测序深度值,只要是在指定上下限范围内即可;若数据超出上限或低于下限可能会影响数据的可靠性。
表示艾佛森括号,即是一种用方括号记号,如果方括号内的条件满足则为1,不满足则为0。
最后分析该条单个数据所在的整组数据所带来的影响。
如果单个数据所在的整组数据的测序深度都不高,而该条单个测序数据的测序深度很高,那么这条测序数据的可靠性可能更低。相反,如果整组数据的测序深度都高,而该条单个测序数据的测序深度很高,那么这条测序数据的可靠性更高。
表示整组原始测序数据的测序深度值分布稳定性和均值大小,如果整组数据的测序深度分布不均匀,也就是说如果有一部分单个数据的测序深度集中在较低范围内,另一部分单个数据的测序深度集中在较高范围内,且测序深度值超出指定上下限的单条测序数据的数量越多,对组内合格的数据的可靠性是有影响的。
设置上下限的原因:首先要明确在低频突变检测中,深度分布过高或过低通常指测序深度值过大或过小,对低频突变检测的精度和准确性有一定影响。如果深度分布过高,可能会产生过度覆盖效应,使得可能引入假阳性结果,即认为存在低频突变的情况下。如果深度分布过低,在低频突变检测中可能会存在局部覆盖度不足,或者低频变异位点未被足够覆盖而导致的假阴性结果。深度分布上下限的具体设定应该根据研究设计和数据质量等因素进行综合考虑。
单个原始测序数据的覆盖度与整体原始测序数据的覆盖度进行对比,得到单个原始测序数据的覆盖度可靠性。
覆盖度通常是针对一个个位点进行计算的,如果一个位点的覆盖度比较高,说明该位点的质量比较好,从而覆盖度比例和均匀度分析量化单个原始测序数据的覆盖度可靠性。
预设一个覆盖度阈值L,其中本实施例以L=1000x为例进行叙述,本实施例不进行具体限定,其中L根据具体实施情况而定。
具体的,单个原始测序数据的覆盖度可靠性的计算表达式:
式中,表示/>为/>的单条原始测序数据的覆盖度可靠性;/>表示/>为/>的单条原始测序数据上位点的覆盖度超过覆盖度阈值的位点数量;/>表示/>为/>的单条原始测序数据上位点总数量;/>表示/>为/>的单条原始测序数据上位点的覆盖度均值;/>表示/>为/>的单条原始测序数据上位点的覆盖度标准差。
需要说明的是,由单个原始测序数据的测序深度可靠性以及覆盖度可靠性可以得到该条原始测序数据的可靠性。
具体的,单个原始测序数据的可靠性的计算表达式为:
式中,表示/>为/>的单条原始测序数据的可靠性;/>表示/>为/>的单条原始测序数据的测序深度可靠性;/>表示/>为/>的单条原始测序数据的覆盖度可靠性。
至此,根据质量评估合格的单个原始测序数据的测序深度可靠性和覆盖度可靠性得到质量评估合格的单个原始测序数据的可靠性。
步骤S003:通过质量评估合格的单个原始测序数据的可靠性大小对所有质量评估合格的原始测序数据进行初次分组划分,并根据组内差异与组间差异对高可靠性数据组进行二次划分。
需要说明的是,根据质量评估合格的单个原始测序数据的测序深度可靠性和覆盖度可靠性得到质量评估合格的单个原始测序数据的可靠性之后,可以划分出高可靠性数据组和低可靠性数据组。
具体的,初次划分方法为:根据单个原始测序数据的测序深度可靠性进行划分,若单个原始测序数据的测序深度可靠性为0,则划分为低可靠性数据组内的单个原始测序数据;若单个原始测序数据的测序深度可靠性不为0,则划分为高可靠性数据组内的单个原始测序数据。
进一步需要说明的是,高可靠性组和低可靠性组的样本数据是通过分析测序深度和覆盖度得出的。但是,这两个标准的选择也与样本的一致性有关。如果样本的测序深度高且覆盖度高,往往可以说明样本的一致性比较高。因为高深度、高覆盖度的测序可以有效地提高突变位点的检测率和可靠性,同时也可以提高样本检测突变的分辨率。而如果在同一组中,样本的测序深度和覆盖度差异较大,就可能存在一些样本突变检测的误差,也会影响研究结果的准确性和可靠性,如果只是根据数据的可靠性大小进行分组,没有对高可靠性数据组内的数据进行二次划分,则在同一组内会包含空间差异很大的数据。这样可能会掩盖组内差异,使得得到的分组结果对于后续的分析和应用不够准确和可靠。
然而使用二次划分则可以将每个样本的测序数据按照测序深度或覆盖度等特征分配到各个小组中,一个小组中的测序数据由于测序深度和测序覆盖度接近,可以减少测序误差。针对这些小组的测序数据进行比较和统计,可以更加精确地检测和鉴定低频突变位点。
预设一个划分区间值,其中本实施例以/>=2例进行叙述,本实施例不进行具体限定,其中/>根据具体实施情况而定。
具体的,二次划分具体操作为:高可靠性数据组的可靠性标准差记为,高可靠性数据组中的最高可靠性的数据记为/>,差距/>个标准差在组内进行二次划分,划分的第一组区间范围为/>,划分的第二组区间范围为,以此类推,直到完成所有二次划分,需要注意的是,/>的取值建议为整数,取值越小,二次划分越细致。也即每个组的所容纳数据的数量宽度取决于标准差数量的大小,标准差数量越大,宽度越大。
进一步需要说明的是,在二次划分分组过程中,若划分得过于粗略可能会导致同一组内的样本之间差异较大,使得有用信息的损失或者分析结果的偏差增加。但若划分得过于细致,虽然可以让同一组内的样本数据更为一致,但同时也可能因为样本量过小,或者数据质量问题导致结果的不可靠。
所以划分既要避免过于粗略,导致同一组内的样本之间差异较大,又要避免过于细致,使得各个小组间的差异性较大。因此,所在二次划分的组的组内数据差异性要小,同时也要保证各个组之间的差异性也要小。用相似性来描述差异性,相似性越高差异性越小。
具体的,选择不同的个标准差在组内进行二次划分,每次/>值不同可以划分得到不同数量的/>组二次划分的组,则第/>组数据的组内相似性的计算表达式为:
式中,表示第/>组数据的组内相似性;/>表示组内第1数据和第/>条数据的杰卡德系数,杰卡德系数是交集个数和并集个数的比值;/>表示组内第/>和第/>条数据的杰卡德系数,也即相邻两条数据的杰卡德系数。
对于公式中的看作是跳跃相似系数,即组内第一个和第二个的相似系数为基准,第/>第/>,第/>第/>,以此类推一直到第/>第/>个数据进行系数累加。跳跃相似系数是第1条数据依次和组内每条数据进行杰卡德系数值的计算,由于距离第1条数据越来越远,所以相似性是趋于变小的,但如果在这种情况下得到的相似性累加值能尽可能大的话,所体现的即是相似性也是尽可能大的。
对于公式中的看作是相邻相似系数,相邻相似系数指的是相邻两条数据之间的杰卡德系数值,两个相邻的数据之间相似度肯定是趋于比较大的,整组的相邻相似系数进行累加,累加值越大说明相似性越大。
组间差异性的计算为对高可靠性数据组中所有组的组内相似性求均值,得到高可靠性数据组的组间相似性。组内的数据越相似,则组间的差异性越大,反之组内的数据越不相似,则组间的差异性越小。
将所有组的相似性求和与组间相似性的值做乘积,得到的值越大,当前选择的个标准差在组内进行二次划分是越合适的。
二次划分后每组内可以看作测序深度和覆盖度都接近的测序数据。对二次划分后的组内数据进行高频突变位点和低频突变位点检测,可以提高结果的准确性。
至此,获取到二次划分完成后的多组高可靠性数据组和低可靠性数据组。
步骤S004:对二次划分完成后的多组高可靠性数据组和低可靠性数据组采用不同突变检测策略,得到多个细分组的突变检测结果,找出可靠的低频突变候选位点,进而优化低频突变检测效果。
需要说明的是,全局比对方法可以检测到全基因组的突变,可以更好的检测低频突变和结构变异等不同类型的突变,在保证分辨率的同时能够提高实验的覆盖度,这里的分辨率通常指突变位点的检测率和精度,同时也减少了漏检或者误检的情况。高可靠性的组进行二次划分后,由于划分后每组样本数据相对一致,则可以采用全局比对算法来完成突变检测;在二次划分后,对划分后每组通过全局比对法进行突变检测,则可以进一步提高突变检测的覆盖率和准确性,同时识别和筛选出在高可靠性组中具有差异性、特异性的突变位点。而对于低可靠性数据组,由于存在重复区域和低复杂度区域,而采用全局比对方法可能会出现过多的未知或低质量突变,因此针对这些区域采用局部比对算法来完成突变检测。
具体的,对于高可靠性数据组,对二次划分后每组高可靠性数据组通过全局比对法进行突变检测,对于低可靠性数据组组针对高度重复和低复杂度区域采用局部比对的突变检测。
至此,获取二次划分完成后的多组高可靠性数据组和低可靠性数据组的突变检测结果。
预设频率阈值和波动阈值/>,其中本实施例以/>0.3和/>0.2例进行叙述,本实施例不进行具体限定,其中/>和/>根据具体实施情况而定。
比较二次划分完成后的多组高可靠性数据组和低可靠性数据组的突变检测结果,找出在二次划分完成后的多组高可靠性数据组和低可靠性数据组的突变检测结果中共同出现的低频突变位点,并记录相应的突变频率。分析每个低频突变位点在不同细分组的频率分布和特征,挑选出现频率高于频率阈值和波动小于波动阈值/>的低频突变位点。
整合经过筛选的低频突变位点,形成一个综合的低频突变结果列表,根据研究问题的需要,选择在癌症研究中与肿瘤发生和发展相关的低频突变位点,使用Sanger测序、ddPCR等验证技术校验结果的准确性,根据准确性的验证结果,反馈和调整组内的数据处理策略,进而优化低频突变检测效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于机器学习的肿瘤ctDNA信息统计处理方法,其特征在于,该方法包括以下步骤:
获取原始测序数据,通过计算原始测序数据的预筛选分数评估原始测序数据的质量,获取所有质量评估合格的原始测序数据;
根据质量评估合格的单个原始测序数据的测序深度可靠性和质量评估合格的单个原始测序数据的覆盖度可靠性得到质量评估合格的单个原始测序数据的可靠性;
通过质量评估合格的单个原始测序数据的可靠性大小对所有质量评估合格的原始测序数据进行初次分组划分;得到高可靠性数据组和低可靠性数据组;根据高可靠性数据组组内相似性与高可靠性数据组组间差异性确定高可靠性数据组的最优二次划分分组;得到二次划分完成后的多组高可靠性数据组;
对二次划分后每组高可靠性数据组通过全局比对法进行突变检测;对低可靠性数据组针对高度重复和低复杂度区域采用局部比对的突变检测获得突变检测结果,根据突变检测结果得到可靠的低频突变位点,根据可靠的低频突变位点优化低频突变检测效果。
2.根据权利要求1所述一种基于机器学习的肿瘤ctDNA信息统计处理方法,其特征在于,所述原始测序数据的预筛选分数的获取方法如下:
原始测序数据的预筛选分数的计算表达式为:
式中,表示/>为/>的单条原始测序数据的预筛选分数;/>表示/>质量分数阈值,/>表示/>为/>的数据的/>质量分数;/>表示测序适配器污染阈值,/>表示/>为/>的数据的测序适配器污染值;/>表示/>含量分布阈值,/>表示/>为/>的数据的/>含量分布值;/>表示阶跃函数。
3.根据权利要求1所述一种基于机器学习的肿瘤ctDNA信息统计处理方法,其特征在于,所述质量评估合格的单个原始测序数据的测序深度可靠性的获取方法如下:
单个原始测序数据的测序深度可靠性的计算表达式为:
式中,表示/>为/>的单条原始测序数据的测序深度可靠性;/>表示/>的单条原始测序数据的第/>个位点;/>表示/>为/>的单条原始测序数据上所有位点的测序深度值标准差;/>表示/>为/>的单条原始测序数据上所有位点的测序深度值均值;/>表示/>为/>的单条原始测序数据的第/>个位点中超出期望测序深度值上下限的测序深度值个数占该位点整体测序深度值个数的比例;/>表示/>为/>的单条原始测序数据的测序深度可靠性系数;/>表示/>为/>的单条原始测序数据的测序深度值;/>表示期望测序深度值上限;/>表示期望测序深度值下限;/>表示整组原始测序数据的测序深度值均值;/>表示整组原始测序数据的测序深度值标准差。
4.根据权利要求1所述一种基于机器学习的肿瘤ctDNA信息统计处理方法,其特征在于,所述质量评估合格的单个原始测序数据的覆盖度可靠性的获取方法如下:
单个原始测序数据的覆盖度可靠性的计算表达式:
式中,表示/>为/>的单条原始测序数据的覆盖度可靠性;/>表示/>为/>的单条原始测序数据上位点的覆盖度超过覆盖度阈值的位点数量;/>表示/>为/>的单条原始测序数据上位点总数量;/>表示/>为/>的单条原始测序数据上位点的覆盖度均值;/>表示/>为/>的单条原始测序数据上位点的覆盖度标准差。
5.根据权利要求1所述一种基于机器学习的肿瘤ctDNA信息统计处理方法,其特征在于,所述质量评估合格的单个原始测序数据的可靠性的获取方法如下:
单个原始测序数据的可靠性的计算表达式为:
式中,表示/>为/>的单条原始测序数据的可靠性;/>表示/>为/>的单条原始测序数据的测序深度可靠性;/>表示/>为/>的单条原始测序数据的覆盖度可靠性。
6.根据权利要求1所述一种基于机器学习的肿瘤ctDNA信息统计处理方法,其特征在于,所述通过质量评估合格的单个原始测序数据的可靠性大小对所有质量评估合格的原始测序数据进行初次分组划分,包括的具体步骤如下:
根据单个原始测序数据的测序深度可靠性进行划分,若单个原始测序数据的测序深度可靠性为0,则划分为低可靠性数据组内的单个原始测序数据;若单个原始测序数据的测序深度可靠性不为0,则划分为高可靠性数据组内的单个原始测序数据。
7.根据权利要求1所述一种基于机器学习的肿瘤ctDNA信息统计处理方法,其特征在于,所述根据高可靠性数据组组内相似性与高可靠性数据组组间差异性确定高可靠性数据组的最优二次划分分组,包括的具体步骤如下:
将高可靠性数据组分成的所有组的组内相似性求和的值与高可靠性数据组的组间差异性的值做乘积得到分组阈值,根据分组阈值最大值确定出高可靠性数据组的最优二次划分分组。
8.根据权利要求7所述一种基于机器学习的肿瘤ctDNA信息统计处理方法,其特征在于,所述高可靠性数据组分成的所有组的组内相似性的获取方法如下:
高可靠性数据组的第组数据的组内相似性的计算表达式为:
式中,表示第/>组数据的组内相似性;/>表示高可靠性数据组分成的组总数量;/>表示组内第1数据和第/>条数据的杰卡德系数;/>表示组内第/>和第/>条数据的杰卡德系数。
9.根据权利要求7所述一种基于机器学习的肿瘤ctDNA信息统计处理方法,其特征在于,所述高可靠性数据组的组间差异性的获取方法如下:
组间差异性的计算为对高可靠性数据组中所有组的组内相似性求均值,得到高可靠性数据组的组间相似性。
CN202310745800.5A 2023-06-25 2023-06-25 一种基于机器学习的肿瘤ctDNA信息统计处理方法 Active CN116504318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310745800.5A CN116504318B (zh) 2023-06-25 2023-06-25 一种基于机器学习的肿瘤ctDNA信息统计处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310745800.5A CN116504318B (zh) 2023-06-25 2023-06-25 一种基于机器学习的肿瘤ctDNA信息统计处理方法

Publications (2)

Publication Number Publication Date
CN116504318A CN116504318A (zh) 2023-07-28
CN116504318B true CN116504318B (zh) 2023-08-25

Family

ID=87316860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310745800.5A Active CN116504318B (zh) 2023-06-25 2023-06-25 一种基于机器学习的肿瘤ctDNA信息统计处理方法

Country Status (1)

Country Link
CN (1) CN116504318B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112111565A (zh) * 2019-06-20 2020-12-22 上海其明信息技术有限公司 一种细胞游离dna测序数据的突变分析方法和装置
WO2022048106A1 (zh) * 2020-09-07 2022-03-10 臻悦生物科技江苏有限公司 基于捕获测序技术的肿瘤突变负荷检测装置及方法
CN114512186A (zh) * 2022-02-17 2022-05-17 南京大学 一种在植物基因组中检测体细胞突变的方法
CN116064819A (zh) * 2022-12-12 2023-05-05 无锡泛生子生物科技有限公司 一种检测ctDNA中肿瘤特异基因的突变和甲基化的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220072553A1 (en) * 2020-09-07 2022-03-10 Zhenyue Biotechnology Jiangsu Co., Ltd. Device and method for detecting tumor mutation burden (tmb) based on capture sequencing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112111565A (zh) * 2019-06-20 2020-12-22 上海其明信息技术有限公司 一种细胞游离dna测序数据的突变分析方法和装置
WO2022048106A1 (zh) * 2020-09-07 2022-03-10 臻悦生物科技江苏有限公司 基于捕获测序技术的肿瘤突变负荷检测装置及方法
CN114512186A (zh) * 2022-02-17 2022-05-17 南京大学 一种在植物基因组中检测体细胞突变的方法
CN116064819A (zh) * 2022-12-12 2023-05-05 无锡泛生子生物科技有限公司 一种检测ctDNA中肿瘤特异基因的突变和甲基化的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
四种肿瘤体细胞单核苷酸突变检测方法的比较;李晓东;何小雨;陈玮;李瑞琳;赵丹;祝海栋;张裕;代闯闯;陆忠华;迟学斌;牛北方;郎显宇;;科研信息化技术与应用(06);全文 *

Also Published As

Publication number Publication date
CN116504318A (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN109411015B (zh) 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
CN109767810B (zh) 高通量测序数据分析方法及装置
CN109801680B (zh) 基于tcga数据库的肿瘤转移复发预测方法及系统
CN106599616A (zh) 基于duplex‑seq的超低频突变位点检测分析方法
CN111341383A (zh) 一种检测拷贝数变异的方法、装置和存储介质
WO2023115662A1 (zh) 一种变体核酸的检测方法
CN112365927B (zh) Cnv检测装置
CN111326212A (zh) 一种结构变异的检测方法
CN113470743A (zh) 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
CN111755068A (zh) 基于测序数据识别肿瘤纯度和绝对拷贝数的方法及装置
CN112687344A (zh) 一种基于宏基因组的人腺病毒分子分型和溯源方法及系统
CN110714078A (zh) 一种用于ii期结直肠癌复发预测的标记基因及应用
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
CN116189763A (zh) 一种基于二代测序的单样本拷贝数变异检测方法
CN116504318B (zh) 一种基于机器学习的肿瘤ctDNA信息统计处理方法
CN111370065B (zh) 一种检测rna跨样本交叉污染率的方法和装置
CN111696622B (zh) 一种校正和评估变异检测软件检测结果的方法
CN113789371A (zh) 一种基于批次矫正的拷贝数变异的检测方法
CN111210876B (zh) 一种受扰动代谢通路确定方法及系统
KR102397822B1 (ko) 염색체 구조의 상태 정보를 이용한 세포 분석 장치 및 방법
CN113724781B (zh) 检测纯合缺失的方法和装置
CN115527610A (zh) 一种单细胞组学数据的聚类分析方法
JP5403563B2 (ja) 網羅的フラグメント解析における遺伝子同定方法および発現解析方法
CN114242164B (zh) 一种全基因组复制的分析方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant