CN113113085B - 基于智能宏基因组测序数据肿瘤检测的分析系统及方法 - Google Patents

基于智能宏基因组测序数据肿瘤检测的分析系统及方法 Download PDF

Info

Publication number
CN113113085B
CN113113085B CN202110278297.8A CN202110278297A CN113113085B CN 113113085 B CN113113085 B CN 113113085B CN 202110278297 A CN202110278297 A CN 202110278297A CN 113113085 B CN113113085 B CN 113113085B
Authority
CN
China
Prior art keywords
data
chromosome
fluctuation
sample
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110278297.8A
Other languages
English (en)
Other versions
CN113113085A (zh
Inventor
丁文超
薛继统
韩序
周逸文
王珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Jieyi Biotechnology Co ltd
Original Assignee
Hangzhou Jieyi Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Jieyi Biotechnology Co ltd filed Critical Hangzhou Jieyi Biotechnology Co ltd
Priority to CN202110278297.8A priority Critical patent/CN113113085B/zh
Publication of CN113113085A publication Critical patent/CN113113085A/zh
Application granted granted Critical
Publication of CN113113085B publication Critical patent/CN113113085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种基于人工智能的用宏基因组测序数据进行肿瘤检测的分析系统,包括:用于过滤低质量序列的数据过滤模块、用于将序列比对至人参考基因组上的数据比对模块、用于获取样本的染色体波动变异情况的染色体波动分析模块、用于判断样本是否含有肿瘤信号的基于人工智能的肿瘤信号识别模块。本发明的分析系统具有分析时间短、准确性高的优点,可以利用常规mNGS测序数据来检测肿瘤,实现一份样本在检测病原体的情况下同时进行肿瘤检测的功能。

Description

基于智能宏基因组测序数据肿瘤检测的分析系统及方法
技术领域
本发明属于生物检测领域,具体涉及基于人工智能的用宏基因组测序数据进行肿瘤检测的分析系统及分析方法。
背景技术
不明原因发热(FUO),俗称发热待查,一般是指发热3周以上,体温多次超过38.3℃,经过至少1周深入细致的检查仍不能明确的一组疾病。随着宏基因组测序技术的发展及推广,临床在近年常用高通量测序技术对病人样本进行测序来寻找病原体,排查感染原因。在发热待查病人中,除了感染因素以外,肿瘤往往也是一个重要原因。很多情况下,即使采用了CT、磁共振、PET等全身扫描技术,肿瘤排查也非常困难。很多患者进行了长时间的抗感染治疗,经过各种排查以后才发现是肿瘤患者,贻误了诊疗时间。
已有的研究表明肿瘤细胞通常有大量的染色体波动变异,包括一条及以上的染色体非整倍体或变异程度不等的波动,而这些特征可以作为识别肿瘤细胞的标识(图1.a)。现有的研究也通常根据这一特征,选择波动变异相关的指标或基于此的统计检验值来判断被检测样本是否来源于肿瘤样本。但这一判断方式有一些局限性:1.不同的肿瘤样本,其波动变异区域、长度和幅度各不相同,难以通过某个固定的阈值来包含所有情况;2.某些肿瘤样本并不具有明显的波动变异,而是呈现出其他较难识别的染色体异常,比如染色体末端的异常(图1.b)以及染色体波动信号呈小幅波浪形等(图1.c)。这些染色体异常不同于常见的波动,因此无法通过常规的波动变异相关方法进行检测,容易导致假阴性。3.由于检测样本的来源、所使用检测试剂和实验操作流程的区别,也会导致检测得到的波动信号模式呈现一定程度的不同,如序列GC含量变化导致的染色体波动,人们也往往难以将其与肿瘤导致的波动加以区分(图1.d);4.在样本检出小范围波动时,难以区分是肿瘤性波动还是遗传性变异。某些肿瘤样本可能并没有明显的大片段的染色体波动异常,而只有小片段波动,但这些波动区域往往包含了某些关键的癌基因(图1.e)。对于这种情况,仅用染色体波动相关指标来判断,容易忽略这些包含关键癌基因的变异,导致假阴性;5.样本质量和实验操作会直接影响检出的波动信号。在样本质量较差或者实验操作不理想的情况下,非肿瘤样本也可能检测出一些波动异常信号,需要与真实肿瘤样本的波动变异信号加以区分(图 1.f)。
基于上述问题,我们认识到,单纯通过波动检测以及设定波动变异相关的阈值来识别肿瘤样本无法满足实际临床诊断需求。因此,我们需要建立一个基于人工智能的分析系统,用于识别肿瘤样本中各种染色体波动变异的模式,并与其他原因导致的波动变异信号进行区分,自动判断检测样本是否含有肿瘤信号。
发明内容
本发明针对宏基因组高通量测序得到的人源序列进行人基因组的染色体波动变异分析,并通过人工智能方法来自动判断样本是否含有肿瘤信号。
基于人工智能的用宏基因组测序数据进行肿瘤检测的分析系统,其特征在于,所述分析系统包括:
(1)用于过滤低质量序列的数据过滤模块;
(2)用于将序列比对至人参考基因组上的数据比对模块;
(3)用于获取样本的染色体波动信息及波动变异情况的染色体波动分析模块;
(4)用于判断样本是否含有肿瘤信号的基于人工智能的肿瘤信号识别模块。
本发明的分析系统具有分析时间短、准确性高的优点,可以利用常规mNGS 测序数据来检测肿瘤,实现一份样本在检测病原体的情况下同时进行肿瘤检测的功能。
进一步地,所述数据过滤模块负责对输入的高通量测序数据进行质控,去除低质量数据,保证进入后续分析流程的数据质量可靠;具体过滤条件为:1)去除含有测序接头序列的读长序列(reads);2)去除包含两个及以上的N的reads;
3)去除含有最低质量值的碱基数超过10%的reads。
进一步地,所述数据比对模块负责将通过质控的干净数据与人类参考基因组序列比对,只选取能唯一比对到人类参考基因组序列且不允许错配的reads数据进行后续波动变异分析,将基因组分割成固定长度的连续窗口片段(bin),统计比对到每个窗口中的reads数量。
进一步地,所述染色体波动分析模块通过分析基因组上各窗口比对上的 reads数,得到样本的染色体波动信号,并检测样本中的染色体波动。
更进一步地,所述染色体波动分析模块的具体分析方法包括:
①数据归一化
计算唯一比对到所有常染色体上的序列数量(TotalUniq),将样本的常染色体上的唯一比对数据量归一化至5M,并对每个窗口进行归一化。
Figure BDA0002975957230000031
BINij是染色体i上第j个窗口的唯一比对读长序列数量;
binRCij是归一化后染色体i上第j个窗口的唯一比对读长序列数量;
②计算染色体波动信号
计算第i条染色体第j个窗口待测样本与参考集数据量的比值(fold change,fd值),计算公式如下:
Figure BDA0002975957230000032
其中binRCij是归一化后染色体i上第j个窗口的唯一比对读长序列数量,binlibRCi,j代表参考集中归一化后染色体i上第j个窗口的的唯一比对读长序列数量。
③Waviness的计算
用所有bin的标准差之和表示样本的波动情况,计算公式如下:
Figure BDA0002975957230000033
其中n代表位点总数,μ代表位点平均数;
④PCA-HMM方法分析样本染色体波动
PCA(主成分分析)利用正交变换依次寻找使得数据投影方差最大的方向,得到一系列线性不相关变量(主成分);利用PCA获得步骤②中计算得到的染色体波动信号中方差最大的几个主成分,去除噪声,平滑数据;
数据平滑后,基于参考集计算出样本每个bin的z值,接着采用HMM(隐马尔可夫模型)估算每个bin含有波动变异的概率。
进一步地,所述肿瘤信号识别模块通过预先训练好的神经网络,根据染色体波动分析模块输出的结果,判断样本是否含有肿瘤信号。
更进一步地,所述肿瘤信号识别模块的识别方法为:
①数据标准化
肿瘤信号识别模块的输入特征包括染色体波动信号数据、唯一比对数据量、 GC含量、性别,将性别数据以外的其他各项特征通过下述公式进行标准化,使得数据分布在-1到1的区间内:
Figure BDA0002975957230000041
其中x表示某个特征,μ表示该特征的整体平均值,σ表示该特征的整体标准差,z为标准化的结果;
②构建特征提取网络
将样本的唯一比对数据量、GC含量、性别输入到深度神经网络中,经过多个级联的全连接层,提取样本QC数据集波动总体结果特征;
③构建波动信号卷积神经网络
将样本染色体波动信号(fd值)输入到卷积神经网络(CNN),经过多个级联的卷积和最大池化变换后,得到波动信号信息;
④构建肿瘤信号识别网络
将特征提取网络和波动信号卷积神经网络的输出结果通过连接层整合为一个矩阵,经过全连接层和有监督学习二分类器,输出最终的判断结果;
⑤模型迭代与评估
将训练集数据输入到模型中进行训练,共训练50轮(epoch),并计算每一轮的F1-score,选取其中F1-score最高的轮次,且训练集的准确度(accuracy) 要超过0.95作为最优模型;F1-score的计算公式如下:
Figure BDA0002975957230000042
其中precision和recall的计算公式如下,其中TP表示预测结果中真阳性的数量,FP为结果中假阳性的数量,FN为结果中假阴性的数量:
Figure BDA0002975957230000051
Figure BDA0002975957230000052
本发明还公开一种基于人工智能的用宏基因组测序数据进行染色体波动分析的方法,包括以下步骤:
(1)用数据过滤模块过滤低质量序列,去除低质量数据:具体过滤条件为: 1)去除含有测序接头序列的读长序列(reads);2)去除包含两个及以上的N的 reads;3)去除含有最低质量值的碱基数超过10%的reads;
(2)用数据比对模块将序列比对至人参考基因组上:将通过质控的干净数据与人类参考基因组序列比对,只选取能唯一比对到人类参考基因组序列且不允许错配的reads数据进行后续波动变异分析,将基因组分割成固定长度的连续窗口片段(bin),统计比对到每个窗口中的reads数量;
(3)用染色体波动分析模块获取样本的染色体波动信息:通过分析基因组上各窗口比对上的reads数,得到样本的染色体波动信号,并检测样本中的波动。
进一步地,步骤(3)中染色体波动分析模块的具体分析方法包括:
①数据归一化
计算唯一比对到所有常染色体上的序列数量(TotalUniq),将样本的常染色体上的唯一比对数据量归一化至5M,并对每个窗口进行归一化。
Figure BDA0002975957230000053
BINij是染色体i上第j个窗口的唯一比对读长序列数量;
binRCij是归一化后染色体i上第j个窗口的唯一比对读长序列数量;
②计算染色体波动信号
计算第i条染色体第j个窗口待测样本与参考集数据量的比值(fold change,fd值),计算公式如下:
Figure BDA0002975957230000061
其中binRCij是归一化后染色体i上第j个窗口的唯一比对读长序列数量,binlibRCi,j代表参考集中归一化后染色体i上第j个窗口的的唯一比对读长序列数量。
③Waviness的计算
用所有bin的标准差之和表示样本的波动情况,计算公式如下:
Figure BDA0002975957230000062
其中n代表位点总数,μ代表位点平均数;
④PCA-HMM方法分析样本染色体波动
PCA(主成分分析)利用正交变换依次寻找使得数据投影方差最大的方向,得到一系列线性不相关变量(主成分);利用PCA获得步骤②中计算得到的染色体波动信号中方差最大的几个主成分,去除噪声,平滑数据;
数据平滑后,基于参考集计算出样本每个bin的z值,接着采用HMM(隐马尔可夫模型)估算每个bin含有波动变异的概率。
我们收集了包含各种染色体变异的肿瘤样本作为阳性样本集,除了具有明显波动变异的外,还包括染色体两端异常、染色体波动信号呈波浪形、含有包括关键癌基因的小片段波动的肿瘤样本;同时收集了阴性样本集,除了正常的阴性样本外,还包括GC含量异常导致染色体波动信号呈波浪形、含有不同长度的遗传性染色体变异、以及由于样本质量或实验操作问题导致检出大量波动变异的阴性样本。通过训练,AI在识别常规肿瘤样本的基础上,还能够较好地识别这些常规方法难以分辨的模式。
附图说明
图1是常规波动检测方法识别肿瘤的局限性示意图。其中,a.大量染色体异常,临床确诊腹膜后肿瘤.b.染色体两端异常,临床确诊食管癌.c.染色体波动信号呈波浪形,临床确诊淋巴瘤.d.染色体波动信号呈波浪形,文库GC含量高(43.8%),临床未确诊肿瘤.e.7号染色体上检出7p11.2(dup_1.7Mb),包含EGFR 基因,临床确诊肺癌.f.检出大量波动,临床未确诊肿瘤。
图2是本发明分析流程示意图。
图3是HMM模型示意图。a.包含三种染色体波动隐含状态的HMM模型示意图.b.HMM转换概率矩阵,包含了三个隐含状态间两两转换的概率.c.考虑了波动间距的HMM转换概率矩阵,f为由波动间距d和波动平均间距D决定的概率衰减因子.d.包含n个bin的序列及对应的z值信号链.e.HMM输出概率矩阵,分别使用中心为0,3,-3的正态分布作为三种染色体波动隐含状态的输出概率函数dnorm代表正态分布函数.f.计算第n个bin含有波动变异的概率。
图4是CNN与FC结合的神经网络模型示意图。其中CNN block中包含6 个covd2d层,3个max_pooling2d层,3个Dropout层,一个用于输出的Dense 层和一个flatten层用于打平网络。DNN block,则包含两个Dense层和一个 Dropout层。
图5是模型训练过程示意图。a表示训练集和测试集F1 score在50轮次的训练中的变化情况,b表示准确率Accuracy在50轮次中的变化情况,超过橙色线条的epoch中F1score最高点的模型权重被我们选用。
图6是实施例2分析结果示意图。
具体实施方式:
下面结合实施例对本发明进一步说明,可以帮助本领域的技术人员更全面的理解本发明。但不以任何方式限制本发明,凡依照本发明的内容所做的任何本领域的等同替换均属于本发明的保护范围之内。
实施例1
本发明分析系统主要由数据过滤模块,数据比对模块,染色体波动分析模块,基于人工智能的肿瘤信号识别模块构成(如图2所示)。
1.数据过滤模块
数据过滤模块负责对输入的高通量测序数据进行质控,去除低质量数据,保证进入后续分析流程的数据质量可靠。具体过滤条件为:1)去除含有测序接头序列的读长序列(reads);2)去除包含两个及以上的N的reads;3)去除含有最低质量值的碱基数超过10%的reads。
2.数据比对模块
数据比对模块负责将通过质控的干净数据与人类参考基因组序列比对,只选取能唯一比对到人类参考基因组序列且不允许错配的reads数据进行后续波动变异分析。将基因组分割成固定长度的连续窗口片段(bin),统计比对到每个窗口中的reads数量。
3.染色体波动分析模块
染色体波动分析模块通过分析基因组上各窗口比对上的reads数,得到样本的染色体波动信号,并检测样本中的波动。
3.1数据归一化
计算唯一比对到所有常染色体上的序列数量(TotalUniq),将样本的常染色体上的唯一比对数据量归一化至5M,并对每个窗口进行归一化。
Figure BDA0002975957230000081
BINij是染色体i上第j个窗口的唯一比对读长序列数量;
binRCij是归一化后染色体i上第j个窗口的唯一比对读长序列数量。
3.2计算染色体波动信号
计算第i条染色体第j个窗口待测样本与参考集数据量的比值(fold change,fd值),计算公式如下:
Figure BDA0002975957230000082
其中binRCij是归一化后染色体i上第j个窗口的唯一比对读长序列数量,binlibRCi,j代表参考集中归一化后染色体i上第j个窗口的的唯一比对读长序列数量。
3.3 Waviness的计算
用所有bin的标准差之和表示样本的波动情况,一般情况下含有肿瘤细胞的样本波动较大。计算公式如下:
Figure BDA0002975957230000091
其中n代表位点总数,μ代表位点平均数。
3.4 PCA-HMM方法分析样本染色体波动
PCA(主成分分析)利用正交变换依次寻找使得数据投影方差最大的方向,得到一系列线性不相关变量(主成分)。我们利用PCA获得3.2中计算得到的染色体波动信号中方差最大的几个主成分,去除噪声,平滑数据。
数据平滑后,基于参考集计算出样本每个bin的z值,接着采用HMM(隐马尔可夫模型)估算每个bin含有波动变异的概率(图3)。
4.基于人工智能的肿瘤信号识别模块
肿瘤信号识别模块通过预先训练好的神经网络,根据染色体波动分析模块输出的结果,判断样本是否含有肿瘤信号。
4.1数据标准化
肿瘤信号识别模块的输入特征包括染色体波动信号数据、唯一比对数据量、GC含量、性别。我们将性别数据以外的其他各项特征通过下述公式进行标准化,使得数据分布在1-到1的区间内:
Figure BDA0002975957230000092
其中x表示某个特征,μ表示该特征的整体平均值,σ表示该特征的整体标准差,z为标准化的结果。
4.2构建特征提取网络
将样本的唯一比对数据量、GC含量、性别输入到深度神经网络中,经过多个级联的全连接层,提取样本QC数据集波动总体结果特征。
4.3构建波动信号卷积神经网络
将样本染色体波动信号(fd值)输入到卷积神经网络(CNN),经过多个级联的卷积和最大池化变换后,得到波动信号信息。
4.4构建肿瘤信号识别网络
将特征提取网络和波动信号卷积神经网络的输出结果通过连接层整合为一个矩阵,经过全连接层和有监督学习二分类器,输出最终的判断结果,如图4。
4.5模型迭代与评估
将训练集数据输入到模型中进行训练,共训练50轮(epoch),并计算每一轮的F1-score,选取其中F1-score最高的轮次,且训练集的准确度(accuracy) 要超过0.95作为最优模型(F1在训练过程中的变化情况如图5)。F1-score的计算公式如下:
Figure BDA0002975957230000101
其中precision和recall的计算公式如下(其中TP表示预测结果中真阳性的数量,FP为结果中假阳性的数量,FN为结果中假阴性的数量):
Figure BDA0002975957230000102
Figure BDA0002975957230000103
实施例2
为了评估本发明的分析性能,确定嵌合肿瘤样本的检测限,我们用25种肿瘤细胞系与25个阴性样本分别做了0%、5%、10%、20%、50%和100%肿瘤细胞比例的嵌合样本,按mNGS实验流程建库上机后,用本系统分析生成的测序数据并得到肿瘤判断结果。
肿瘤细胞比例(%) 判断正确 假阳 假阴
100 25 0 0
50 25 0 0
20 25 0 0
10 21 0 4
5 16 0 9
0 25 0 0
如上表和图6所示,分析得到,本发明的准确率、精度、敏感性与特异性分别为92.6%,100%,91.3%与100%。嵌合比例在20%及以上的样本的准确率为 100%,嵌合样本的检出限在5%左右。

Claims (6)

1.基于人工智能的用宏基因组测序数据进行肿瘤检测的分析系统,其特征在于,所述分析系统包括:
(1)用于过滤低质量序列的数据过滤模块;
(2)用于将序列比对至人参考基因组上的数据比对模块;
(3)用于获取样本的染色体波动情况的染色体波动分析模块;
(4)用于判断样本是否含有肿瘤信号的基于人工智能的肿瘤信号识别模块;
所述染色体波动分析模块通过分析基因组上各窗口比对上的reads数,得到样本的染色体波动信号,并检测样本中的染色体波动情况;
所述染色体波动分析模块的具体分析方法包括:
①数据归一化
计算唯一比对到所有常染色体上的序列数量TotalUniq,将样本的常染色体上的唯一比对数据量归一化至5M,并对每个窗口进行归一化;
Figure FDA0003728705560000011
BINij是染色体i上第j个窗口的唯一比对读长序列数量;
binRCij是归一化后染色体i上第j个窗口的唯一比对读长序列数量;
②计算染色体波动信号
计算第i条染色体第j个窗口待测样本与参考集数据量的比值fd值,计算公式如下:
Figure FDA0003728705560000012
其中binRCij是归一化后染色体i上第j个窗口的唯一比对读长序列数量,binlibRCi,j代表参考集中归一化后染色体i上第j个窗口的唯一比对读长序列数量;
③Waviness的计算
用所有bin的标准差之和表示样本的波动情况,计算公式如下:
Figure FDA0003728705560000021
其中n代表位点总数,μ代表位点平均数;
④PCA-HMM方法分析样本染色体波动
PCA(主成分分析)利用正交变换依次寻找使得数据投影方差最大的方向,得到一系列线性不相关变量;利用PCA获得步骤②中计算得到的染色体波动信号中方差最大的几个主成分,去除噪声,平滑数据;
数据平滑后,基于参考集计算出样本每个bin的z值,接着采用HMM(隐马尔可夫模型)估算每个bin含有波动变异的概率。
2.如权利要求1所述的分析系统,其特征在于,所述数据过滤模块负责对输入的高通量测序数据进行质控,去除低质量数据,保证进入后续分析流程的数据质量可靠;具体过滤条件为:1)去除含有测序接头序列的读长序列reads;2)去除包含两个及以上的N的reads;3)去除含有最低质量值的碱基数超过10%的reads。
3.如权利要求1所述的分析系统,其特征在于所述数据比对模块负责将通过质控的干净数据与人类参考基因组序列比对,只选取能唯一比对到人类参考基因组序列且不允许错配的reads数据进行后续染色体波动分析,将基因组分割成固定长度的连续窗口片段bin,统计比对到每个窗口中的reads数量。
4.如权利要求1所述的分析系统,其特征在于,所述肿瘤信号识别模块通过预先训练好的神经网络,根据染色体波动分析模块输出的结果,判断样本是否含有肿瘤信号。
5.如权利要求4所述的分析系统,其特征在于,所述肿瘤信号识别模块的识别方法为:
①数据标准化
肿瘤信号识别模块的输入特征包括染色体波动信号数据、唯一比对数据量、GC含量、性别,将性别数据以外的其他各项特征通过下述公式进行标准化,使得数据分布在-1到1的区间内:
Figure FDA0003728705560000022
其中x表示某个特征,μ表示该特征的整体平均值,σ表示该特征的整体标准差,z为标准化的结果;
②构建特征提取网络
将样本的唯一比对数据量、GC含量、性别输入到深度神经网络中,经过多个级联的全连接层,提取样本QC数据集波动总体结果特征;
③构建波动信号卷积神经网络
将样本染色体波动信号fd值输入到卷积神经网络(CNN),经过多个级联的卷积和最大池化变换后,得到波动信号信息;
④构建肿瘤信号识别网络
将特征提取网络和波动信号卷积神经网络的输出结果通过连接层整合为一个矩阵,经过全连接层和有监督学习二分类器,输出最终的判断结果;
⑤模型迭代与评估
将训练集数据输入到模型中进行训练,共训练50轮,并计算每一轮的F1-score,选取其中F1-score最高的轮次,且训练集的准确度要超过0.95作为最优模型;F1-score的计算公式如下:
Figure FDA0003728705560000031
其中precision和recall的计算公式如下,其中TP表示预测结果中真阳性的数量,FP为结果中假阳性的数量,FN为结果中假阴性的数量:
Figure FDA0003728705560000032
Figure FDA0003728705560000033
6.基于人工智能的用宏基因组测序数据进行肿瘤检测的分析方法,其特征在于包括以下步骤:
(1)用数据过滤模块过滤低质量序列,去除低质量数据:具体过滤条件为:1)去除含有测序接头序列的读长序列reads;2)去除包含两个及以上的N的reads;3)去除含有最低质量值的碱基数超过10%的reads;
(2)用数据比对模块将序列比对至人参考基因组上:将通过质控的干净数据与人类参考基因组序列比对,只选取能唯一比对到人类参考基因组序列且不允许错配的reads数据进行后续波动变异分析,将基因组分割成固定长度的连续窗口片段bin,统计比对到每个窗口中的reads数量;
(3)用染色体波动分析模块获取样本的染色体波动信息:通过分析基因组上各窗口比对上的reads数,得到样本的染色体波动信号,并检测样本中的波动;
其中染色体波动分析模块的具体分析方法包括:
①数据归一化
计算唯一比对到所有常染色体上的序列数量TotalUniq,将样本的常染色体上的唯一比对数据量归一化至5M,并对每个窗口进行归一化:
Figure FDA0003728705560000041
BINij是染色体i上第j个窗口的唯一比对读长序列数量;
binRCij是归一化后染色体i上第j个窗口的唯一比对读长序列数量;
②计算染色体波动信号
计算第i条染色体第j个窗口待测样本与参考集数据量的比值fd值,计算公式如下:
Figure FDA0003728705560000042
其中binRCij是归一化后染色体i上第j个窗口的唯一比对读长序列数量,binlibRCi,j代表参考集中归一化后染色体i上第j个窗口的唯一比对读长序列数量;
③Waviness的计算
用所有bin的标准差之和表示样本的波动情况,计算公式如下:
Figure FDA0003728705560000043
其中n代表位点总数,μ代表位点平均数;
④PCA-HMM方法分析样本染色体波动
PCA(主成分分析)利用正交变换依次寻找使得数据投影方差最大的方向,得到一系列线性不相关变量;利用PCA获得步骤②中计算得到的染色体波动信号中方差最大的几个主成分,去除噪声,平滑数据;
数据平滑后,基于参考集计算出样本每个bin的z值,接着采用HMM(隐马尔可夫模型)估算每个bin含有波动变异的概率。
CN202110278297.8A 2021-03-15 2021-03-15 基于智能宏基因组测序数据肿瘤检测的分析系统及方法 Active CN113113085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110278297.8A CN113113085B (zh) 2021-03-15 2021-03-15 基于智能宏基因组测序数据肿瘤检测的分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110278297.8A CN113113085B (zh) 2021-03-15 2021-03-15 基于智能宏基因组测序数据肿瘤检测的分析系统及方法

Publications (2)

Publication Number Publication Date
CN113113085A CN113113085A (zh) 2021-07-13
CN113113085B true CN113113085B (zh) 2022-08-19

Family

ID=76711291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110278297.8A Active CN113113085B (zh) 2021-03-15 2021-03-15 基于智能宏基因组测序数据肿瘤检测的分析系统及方法

Country Status (1)

Country Link
CN (1) CN113113085B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064212B (zh) * 2022-06-24 2023-03-14 哈尔滨星云生物信息技术开发有限公司 基于wgs数据的预设区域人群肿瘤特异突变识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106795551A (zh) * 2014-09-26 2017-05-31 深圳华大基因股份有限公司 单细胞染色体的cnv分析方法和检测装置
CN111052249A (zh) * 2017-09-15 2020-04-21 深圳华大智造科技有限公司 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ745249A (en) * 2016-02-12 2021-07-30 Regeneron Pharma Methods and systems for detection of abnormal karyotypes
CN117286217A (zh) * 2016-08-25 2023-12-26 分析生物科学有限公司 用于检测dna样品中基因组拷贝变化的方法
CN108229099B (zh) * 2017-12-29 2021-01-05 北京科迅生物技术有限公司 数据处理方法、装置、存储介质及处理器
EP3759237A4 (en) * 2018-02-27 2022-06-01 Cornell University ULTRASENSITIVE DETECTION OF CIRCULATING TUMOR DNA BY GENOME-WIDE INTEGRATION
CN108573125B (zh) * 2018-04-19 2022-05-13 上海亿康医学检验所有限公司 一种基因组拷贝数变异的检测方法及包含该方法的装置
WO2020077232A1 (en) * 2018-10-12 2020-04-16 Cambridge Cancer Genomics Limited Methods and systems for nucleic acid variant detection and analysis
AU2020274091A1 (en) * 2019-05-14 2021-12-09 Tempus Ai, Inc. Systems and methods for multi-label cancer classification
CN112397143B (zh) * 2020-10-30 2022-06-21 深圳思勤医疗科技有限公司 基于血浆多组学多维特征和人工智能预测肿瘤风险值的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106795551A (zh) * 2014-09-26 2017-05-31 深圳华大基因股份有限公司 单细胞染色体的cnv分析方法和检测装置
CN111052249A (zh) * 2017-09-15 2020-04-21 深圳华大智造科技有限公司 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质

Also Published As

Publication number Publication date
CN113113085A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
WO2023197825A1 (zh) 多癌种早筛模型构建方法以及检测装置
CN109801680A (zh) 基于tcga数据库的肿瘤转移复发预测方法及系统
CN113392894A (zh) 一种多组学数据的聚类分析方法和系统
CN113113085B (zh) 基于智能宏基因组测序数据肿瘤检测的分析系统及方法
JP7467504B2 (ja) 染色体異数性を判定するためおよび分類モデルを構築するための方法およびデバイス
CN113355421A (zh) 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
CN116204831A (zh) 一种基于神经网络的道地性分析方法
CN115457966A (zh) 基于改进ds证据理论多分类器融合的猪咳嗽声识别方法
Amiri et al. Feature selection for bleeding detection in capsule endoscopy images using genetic algorithm
CN116153420B (zh) 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法
CN111582370B (zh) 一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法
Sun et al. LRSK: a low-rank self-representation K-means method for clustering single-cell RNA-sequencing data
CN115129503A (zh) 一种设备故障数据清洗方法及系统
WO2022139735A1 (en) Disease classification based on rna-sequencing data and an algorithm for the detection of disease-related genes
CN114242178A (zh) 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法
CN113159220A (zh) 基于随机森林的混凝土侵彻深度经验算法评价方法和装置
CN115881218B (zh) 用于全基因组关联分析的基因自动选择方法
Cardoso et al. Quality indices for (practical) clustering evaluation
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
CN117556245B (zh) 一种四甲基氢氧化铵生产过滤杂质检测方法
CN110797083B (zh) 基于多网络的生物标志物识别方法
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
CN115841847B (zh) 一种微生物信息测定及提取系统和方法
CN116130105A (zh) 一种基于神经网络的健康风险预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant