CN113192557A - 一种染色体变异检测方法、装置、电子设备及介质 - Google Patents

一种染色体变异检测方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN113192557A
CN113192557A CN202110620219.1A CN202110620219A CN113192557A CN 113192557 A CN113192557 A CN 113192557A CN 202110620219 A CN202110620219 A CN 202110620219A CN 113192557 A CN113192557 A CN 113192557A
Authority
CN
China
Prior art keywords
chromosome
sequencing data
detected
outlier
initial sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110620219.1A
Other languages
English (en)
Other versions
CN113192557B (zh
Inventor
陈河兵
杨骞
李�昊
伯晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Pharmacology and Toxicology of AMMS
Academy of Military Medical Sciences AMMS of PLA
Original Assignee
Institute of Pharmacology and Toxicology of AMMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Pharmacology and Toxicology of AMMS filed Critical Institute of Pharmacology and Toxicology of AMMS
Priority to CN202110620219.1A priority Critical patent/CN113192557B/zh
Publication of CN113192557A publication Critical patent/CN113192557A/zh
Application granted granted Critical
Publication of CN113192557B publication Critical patent/CN113192557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本申请提供了一种染色体变异检测方法、装置、电子设备及介质,该方法包括:获取待检测染色体的初始测序数据;根据所述初始测序数据的分辨率,构造所述初始测序数据的特征谱;根据所述初始测序数据的特征谱,统计各个待检测染色体的第一离群量和第一特征向量;从所述待检测染色体中,选择第一离群量大于第一预设阈值的染色体,并确定为发生变异染色体;根据所述发生变异染色体对应的第一特征向量,确定所述发生变异染色体的变异位置;本申请使用的仅仅是初始测序数据的全局信息和背景信息区分异常点,能更准确去除数据噪声和其他生物学信号的影响,假阳性低;使用简便,无需大量标注良好的训练数据集。

Description

一种染色体变异检测方法、装置、电子设备及介质
技术领域
本申请涉及染色体变异技术领域,具体而言,涉及一种染色体变异检测方法、装置、电子设备及介质。
背景技术
染色体结构变异(SV)是染色体变异的一种,是内因和外因共同作用的结果,外因有各种射线、化学药剂、温度的剧变等,内因有生物体内代谢过程的失调、衰老等。染色体结构变异是癌症细胞基因组的显著特征。
现有技术中,常采用HiCtrans方法和HiNT方法来鉴定癌细胞中染色体间易位的断点位置,并将染色体间Hi-C(High-throughput/resolution chromosome conformationcapture)矩阵的行、列和向量发生变化的位置作为染色体间易位的断点位置。但现有检测方法在识别处于染色体断点位置时,识别的准确率较低。
发明内容
有鉴于此,本申请的目的在于提供一种染色体变异检测方法、装置、电子设备及介质,仅使用初始测序数据即可准确确定染色体变异位点。
第一方面,本申请实施例提供了一种染色体变异检测方法,所述方法包括:
获取待检测染色体的初始测序数据;
根据所述初始测序数据的分辨率,构造所述初始测序数据的特征谱;其中,所述特征谱表征了所述初始测序数据对应的不同强度信号的分布情况;
根据所述初始测序数据的特征谱,统计各个待检测染色体的第一离群量和第一特征向量;
从所述待检测染色体中,选择第一离群量大于第一预设阈值的染色体,并确定为发生变异染色体;
根据所述发生变异染色体对应的第一特征向量,确定所述发生变异染色体的变异位置。
在本申请较佳的技术方案中,上述根据所述初始测序数据的分辨率,构造所述初始测序数据的特征谱,包括:
基于初始测序数据中每一个序列数据的不同分辨率,将所述初始测序数据转化为多个表征染色体片段间的交互频率的测序互作矩阵;
计算每个所述测序互作矩阵的特征值;
根据多个测序互作矩阵分别对应的特征值,构造所述初始测序数据的特征谱。
在本申请较佳的技术方案中,上述根据所述初始测序数据的特征谱,统计各个待检测染色体的第一离群量,包括:
计算所述特征谱的直方统计区间;
根据所述直方统计区间,统计各个待检测染色体的第一离群量。
在本申请较佳的技术方案中,上述根据所述初始测序数据的特征谱,统计各个待检测染色体的第一特征向量,包括:
构建第一离群量中各个离群值的第二特征向量;
基于所述第二特征向量,按照各个待检测染色体分辨率位置取平均值,确定为所述各个待检测染色体的第一特征向量。
在本申请较佳的技术方案中,上述第一预设阈值通过如下方式确定,包括:
获取待检测染色体的参考测序数据;
统计所述参考测序数据的第二离群量;
从所述第二离群量中,统计相关性大于第二预设阈值的第三离群量,作为第一预设阈值。
在本申请较佳的技术方案中,上述根据所述发生变异染色体对应的第一特征向量,确定所述发生变异染色体的变异位置,包括:
计算所述参考测序数据的第二特征向量;
根据所述发生变异染色体对应的第一特征向量与所述第二特征向量的峰值位置,确定所述发生变异染色体的变异位置。
在本申请较佳的技术方案中,上述计算所述参考测序数据的第二特征向量,包括:
构建第二离群量中各个离群值的第三特征向量;
基于所述第三特征向量,按照各个参考染色体分辨率位置取平均值,确定为所述各个待检测染色体的第二特征向量。
第二方面,本申请实施例提供了一种染色体变异检测装置,所述装置包括:
获取模块,用于获取待检测染色体的初始测序数据;
构造模块,用于根据所述初始测序数据的分辨率,构造所述初始测序数据的特征谱;其中,所述特征谱表征了所述初始测序数据对应的不同强度信号的分布情况;
统计模块,用于根据所述初始测序数据的特征谱,统计各个待检测染色体的第一离群量和第一特征向量;
选择模块,用于从所述待检测染色体中,选择第一离群量大于第一预设阈值的染色体,并确定为发生变异染色体;
确定模块,用于根据所述发生变异染色体对应的第一特征向量,确定所述发生变异染色体的变异位置。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的染色体变异检测方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的染色体变异检测方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
获取待检测染色体的初始测序数据;根据所述初始测序数据的分辨率,构造所述初始测序数据的特征谱;其中,所述特征谱表征了所述初始测序数据对应的不同强度信号的分布情况;根据所述初始测序数据的特征谱,统计各个待检测染色体的第一离群量和第一特征向量;从所述待检测染色体中,选择第一离群量大于第一预设阈值的染色体,并确定为发生变异染色体;根据所述发生变异染色体对应的第一特征向量,确定所述发生变异染色体的变异位置;本申请使用的仅仅是初始测序数据的全局信息和背景信息区分异常点,能更准确去除数据噪声和其他生物学信号的影响,假阳性低;使用简便,无需大量标注良好的训练数据集。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种染色体变异检测方法的流程示意图;
图2示出了本申请实施例所检测结果示意图;
图3示出了本申请实施例所提供的一种染色体变异检测装置示意图;
图4示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
HiC数据(初始测序数据)的具体表现形式是染色体片段之间相互作用的矩阵,一般染色体片段越接近,对应矩阵位置上记录的数值越高。发生结构变异的部位,其对应的矩阵位置会有异于周边背景的强信号。
现有技术例如HiCTrans和HiNT通过统计HiC互作矩阵行列和的波峰以及计算表征局部不平衡性的基尼系数来探测染色体之间的结构易位变异。还有基于图像识别与人工智能迁移学习的易位识别技术,其关键点是将HiC互作矩阵的热图转化为灰度图像,作为AI模型的输入,再利用已知易位变异位点的癌细胞数据信息进行模型训练,使得该模型能够成功预测易位发生的未知区域与位置。
现有技术的缺点:1、HiNT和HiTrans在易位探测时不够稳定,判定结构易位变异的发生与背景数据选择相关,易受到其他生物学信号干扰,假阳性高;
2、HiNT使用不方便,需要预先下载大数据量的control组背景信息,否则无法运行。
3、基于人工智能的易位探测技术,受制于现有数据不足,整体探测结果不准确;受制于图像预处理步骤,热图生成灰度图时损失了一些极大值信号,而这些信号恰恰是易位高发区域;受制于模型的可解释性不足,难以帮助理解易位变异发生的生物学问题。
本申请实施例提供了一种染色体变异检测方法、装置、电子设备及介质,下面通过实施例进行描述。
图1示出了本申请实施例所提供的一种染色体变异检测方法的流程示意图,其中,该方法包括步骤S101-S105;具体的:
S101、获取待检测染色体的初始测序数据;
S102、根据初始测序数据的分辨率,构造初始测序数据的特征谱;其中,特征谱表征了初始测序数据对应的不同强度信号的分布情况;
S103、根据初始测序数据的特征谱,统计各个待检测染色体的第一离群量和第一特征向量;
S104、从待检测染色体中,选择第一离群量大于第一预设阈值的染色体,并确定为发生变异染色体;
S105、根据发生变异染色体对应的第一特征向量,确定发生变异染色体的变异位置。
本申请使用的仅仅是初始测序数据的全局信息和背景信息区分异常点,能更准确去除数据噪声和其他生物学信号的影响,假阳性低;使用简便,无需大量标注良好的训练数据集。
下面对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
S101、获取待检测染色体的初始测序数据。
这里的初始测序数据为HiC数据,HiC数据是通过HiC技术对待识别染色体进行处理,通过超声波手段打碎DNA片段得到测序片段,基于测序片段得到。
S102、根据初始测序数据的分辨率,构造初始测序数据的特征谱;其中,特征谱表征了初始测序数据对应的不同强度信号的分布情况。
将基因组划分为等长的窗口,这样的窗口称之为bin,bin窗口的长度称之为初始测序数据的分辨率。bin窗口的长度越小,则基因组区域的划分越细致。也就是说,分辨率表征了对基因组划分的精细程度。
具体的,根据初始测序数据的分辨率,构造初始测序数据的特征谱,包括:
基于初始测序数据中每一个序列数据的不同分辨率,将初始测序数据转化为多个表征染色体片段间的交互频率的测序互作矩阵;
计算每个测序互作矩阵的特征值;
根据多个测序互作矩阵分别对应的特征值,构造初始测序数据的特征谱。
经过Hi-C技术测序、基因组比对等处理操作,可以将初始测序数据(Hi-C数据)转化为一个m×m大小的矩阵。即将全基因组按照固定长度划分为等间距的区间,矩阵中(i,j)位置的数值表示基因组区间i与基因组区间j中DNA片段的交互频率。
假设染色体x和染色体y之间形成的互作矩阵M,规模大小是m×n。对矩阵A=MMT有特征值λ1,λ2,...,λm,,根据特征值可以构造一维经验分布函数:
Figure BDA0003099571550000081
这样的分布函数,称为HiC交互矩阵的特征谱。根据特征谱的分布信息、离散情况,可以计算其离群值数量,以此量化对应的染色体对发生易位结构变异的概率。矩阵的特征谱,代表了矩阵中不同强度的信号分布。从计算上讲,一个随机矩阵所有特征值进行直方图频次统计,其构成的分布函数就是该矩阵的特征谱。
S103、根据初始测序数据的特征谱,统计各个待检测染色体的第一离群量和第一特征向量。
计算各个待检测染色体的离群值的数量,待检测染色体中离群值数量表征了该染色体变异的程度。也就是说待检测染色体中离群值越多。该染色体变异程度越高。
通过离群值的数量,从待检测染色体中确定发生变异染色体。各个发生变异染色体中的特征向量可以确定发生变异的位点。
根据初始测序数据的特征谱,统计各个待检测染色体的第一离群量,包括:
计算特征谱的直方统计区间;
根据直方统计区间,统计各个待检测染色体的第一离群量。
根据初始测序数据的特征谱,统计各个待检测染色体的第一特征向量,包括:
构建第一离群量中各个离群值的第二特征向量;
基于第二特征向量,按照各个待检测染色体分辨率位置取平均值,确定为各个待检测染色体的第一特征向量。
S104、从待检测染色体中,选择第一离群量大于第一预设阈值的染色体,并确定为发生变异染色体。
在具体操作时,待检测染色体中离群值的数量通过与对照组进行比较,当待检测染色体中离群值数量大于对照组的离群值数量时,认为该染色体发生了变异。
第一预设阈值通过如下方式确定,包括:
获取待检测染色体的参考测序数据;
统计参考测序数据的第二离群量;
从第二离群量中,统计相关性大于第二预设阈值的第三离群量,作为第一预设阈值。
这里的参考测序数据为对照组的测序数据。这里的对照组可以是设置的对照组。如果没有设置的对照组,也可以选择默认的对照组。默认的对照组为公共认同的事实。
例如,通过对照组离群值的95%分位数设定变异与否的第一预设阈值。
S105、根据发生变异染色体对应的第一特征向量,确定发生变异染色体的变异位置。
根据发生变异染色体对应的第一特征向量,确定发生变异染色体的变异位置,包括:
计算参考测序数据的第二特征向量;
根据发生变异染色体对应的第一特征向量与第二特征向量的峰值位置,确定发生变异染色体的变异位置。
计算参考测序数据的第二特征向量,包括:
构建第二离群量中各个离群值的第三特征向量;
基于第三特征向量,按照各个参考染色体分辨率位置取平均值,确定为各个待检测染色体的第二特征向量。
图2为通过本方法的检测结果,癌症组七号染色体与十号染色体发生染色体易位,通过计算两个染色体HiC交互矩阵的特征谱,可以发现癌症组的整体分布偏高并且离群值更多。通过本方法计算两者差异,可以准确探测易位信号。
图3示出了本申请实施例所提供的一种染色体变异检测装置的结构示意图,装置包括:
获取模块,用于获取待检测染色体的初始测序数据;
构造模块,用于根据初始测序数据的分辨率,构造初始测序数据的特征谱;其中,特征谱表征了初始测序数据对应的不同强度信号的分布情况;
统计模块,用于根据初始测序数据的特征谱,统计各个待检测染色体的第一离群量和第一特征向量;
选择模块,用于从待检测染色体中,选择第一离群量大于第一预设阈值的染色体,并确定为发生变异染色体;
确定模块,用于根据发生变异染色体对应的第一特征向量,确定发生变异染色体的变异位置。
构造模块在用于根据初始测序数据的分辨率,构造初始测序数据的特征谱时,包括:
基于初始测序数据中每一个序列数据的不同分辨率,将初始测序数据转化为多个表征染色体片段间的交互频率的测序互作矩阵;
计算每个测序互作矩阵的特征值;
根据多个测序互作矩阵分别对应的特征值,构造初始测序数据的特征谱。
统计模块,在用于根据初始测序数据的特征谱,统计各个待检测染色体的第一离群量时,包括:
计算特征谱的直方统计区间;
根据直方统计区间,统计各个待检测染色体的第一离群量。
统计模块,在用于根据初始测序数据的特征谱,统计各个待检测染色体的第一特征向量时,包括:
构建第一离群量中各个离群值的第二特征向量;
基于第二特征向量,按照各个待检测染色体分辨率位置取平均值,确定为各个待检测染色体的第一特征向量。
选择模块用于从待检测染色体中,选择第一离群量大于第一预设阈值的染色体,并确定为发生变异染色体时,第一预设阈值通过如下方式确定,包括:
获取待检测染色体的参考测序数据;
统计参考测序数据的第二离群量;
从第二离群量中,统计相关性大于第二预设阈值的第三离群量,作为第一预设阈值。
确定模块在用于根据发生变异染色体对应的第一特征向量,确定发生变异染色体的变异位置时,包括:
计算参考测序数据的第二特征向量;
根据发生变异染色体对应的第一特征向量与第二特征向量的峰值位置,确定发生变异染色体的变异位置。
确定模块在用于计算参考测序数据的第二特征向量时,包括:
构建第二离群量中各个离群值的第三特征向量;
基于第三特征向量,按照各个参考染色体分辨率位置取平均值,确定为各个待检测染色体的第二特征向量。
如图4所示,本申请实施例提供了一种电子设备,用于执行本申请中的染色体变异检测方法,该设备包括存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序,其中,上述处理器执行上述计算机程序时实现上述的染色体变异检测方法的步骤。
具体地,上述存储器和处理器可以为通用的存储器和处理器,这里不做具体限定,当处理器运行存储器存储的计算机程序时,能够执行上述的染色体变异检测方法。
对应于本申请中的染色体变异检测方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述的染色体变异检测方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述的染色体变异检测方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种染色体变异检测方法,其特征在于,所述方法包括:
获取待检测染色体的初始测序数据;
根据所述初始测序数据的分辨率,构造所述初始测序数据的特征谱;其中,所述特征谱表征了所述初始测序数据对应的不同强度信号的分布情况;
根据所述初始测序数据的特征谱,统计各个待检测染色体的第一离群量和第一特征向量;
从所述待检测染色体中,选择第一离群量大于第一预设阈值的染色体,并确定为发生变异染色体;
根据所述发生变异染色体对应的第一特征向量,确定所述发生变异染色体的变异位置。
2.根据权利要求1所述的方法,其特征在于,所述根据所述初始测序数据的分辨率,构造所述初始测序数据的特征谱,包括:
基于初始测序数据中每一个序列数据的不同分辨率,将所述初始测序数据转化为多个表征染色体片段间的交互频率的测序互作矩阵;
计算每个所述测序互作矩阵的特征值;
根据多个测序互作矩阵分别对应的特征值,构造所述初始测序数据的特征谱。
3.根据权利要求1所述的方法,其特征在于,所述根据所述初始测序数据的特征谱,统计各个待检测染色体的第一离群量,包括:
计算所述特征谱的直方统计区间;
根据所述直方统计区间,统计各个待检测染色体的第一离群量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述初始测序数据的特征谱,统计各个待检测染色体的第一特征向量,包括:
构建第一离群量中各个离群值的第二特征向量;
基于所述第二特征向量,按照各个待检测染色体分辨率位置取平均值,确定为所述各个待检测染色体的第一特征向量。
5.根据权利要求1所述的方法,其特征在于,所述第一预设阈值通过如下方式确定,包括:
获取待检测染色体的参考测序数据;
统计所述参考测序数据的第二离群量;
从所述第二离群量中,统计相关性大于第二预设阈值的第三离群量,作为第一预设阈值。
6.根据权利要求5所述的方法,其特征在于,所述根据所述发生变异染色体对应的第一特征向量,确定所述发生变异染色体的变异位置,包括:
计算所述参考测序数据的第二特征向量;
根据所述发生变异染色体对应的第一特征向量与所述第二特征向量的峰值位置,确定所述发生变异染色体的变异位置。
7.根据权利要求6所述的方法,其特征在于,所述计算所述参考测序数据的第二特征向量,包括:
构建第二离群量中各个离群值的第三特征向量;
基于所述第三特征向量,按照各个参考染色体分辨率位置取平均值,确定为所述各个待检测染色体的第二特征向量。
8.一种染色体变异检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测染色体的初始测序数据;
构造模块,用于根据所述初始测序数据的分辨率,构造所述初始测序数据的特征谱;其中,所述特征谱表征了所述初始测序数据对应的不同强度信号的分布情况;
统计模块,用于根据所述初始测序数据的特征谱,统计各个待检测染色体的第一离群量和第一特征向量;
选择模块,用于从所述待检测染色体中,选择第一离群量大于第一预设阈值的染色体,并确定为发生变异染色体;
确定模块,用于根据所述发生变异染色体对应的第一特征向量,确定所述发生变异染色体的变异位置。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的染色体变异检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的染色体变异检测方法的步骤。
CN202110620219.1A 2021-06-03 2021-06-03 一种染色体变异检测方法、装置、电子设备及介质 Active CN113192557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110620219.1A CN113192557B (zh) 2021-06-03 2021-06-03 一种染色体变异检测方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110620219.1A CN113192557B (zh) 2021-06-03 2021-06-03 一种染色体变异检测方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN113192557A true CN113192557A (zh) 2021-07-30
CN113192557B CN113192557B (zh) 2022-01-25

Family

ID=76975884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110620219.1A Active CN113192557B (zh) 2021-06-03 2021-06-03 一种染色体变异检测方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113192557B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200024653A1 (en) * 2016-10-04 2020-01-23 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
CN111370057A (zh) * 2019-07-31 2020-07-03 深圳思勤医疗科技有限公司 确定样本染色体结构变异信号强度以及插入片段长度分布特征的方法及应用
CN111627492A (zh) * 2020-05-25 2020-09-04 中国人民解放军军事科学院军事医学研究院 癌症基因组Hi-C数据仿真方法、装置和电子设备
CN112052813A (zh) * 2020-09-15 2020-12-08 中国人民解放军军事科学院军事医学研究院 染色体间易位识别方法、装置、电子设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200024653A1 (en) * 2016-10-04 2020-01-23 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
CN111370057A (zh) * 2019-07-31 2020-07-03 深圳思勤医疗科技有限公司 确定样本染色体结构变异信号强度以及插入片段长度分布特征的方法及应用
CN111627492A (zh) * 2020-05-25 2020-09-04 中国人民解放军军事科学院军事医学研究院 癌症基因组Hi-C数据仿真方法、装置和电子设备
CN112052813A (zh) * 2020-09-15 2020-12-08 中国人民解放军军事科学院军事医学研究院 染色体间易位识别方法、装置、电子设备及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LOUISE HAREWOOD ET AL.: "Hi-C as a tool for precise detection characterisation of chromosomal rearrangements and copy number in human tumours", 《GENOME BIOLOGY》 *
刘聪,张治华: "基于Hi-C技术识别基因组结构变异及其在肿瘤研究中的应用", 《中国科学》 *
肖敏: "基于Hi-C技术对以为染色体三维结构的初步探讨", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Also Published As

Publication number Publication date
CN113192557B (zh) 2022-01-25

Similar Documents

Publication Publication Date Title
Bardwell et al. Bayesian detection of abnormal segments in multiple time series
Cai et al. A new fault detection method for non-Gaussian process based on robust independent component analysis
CN112052813B (zh) 染色体间易位识别方法、装置、电子设备及可读存储介质
JP2002543538A (ja) 実験データの分布状階層的発展型モデリングと可視化の方法
CN110969200B (zh) 基于一致性负样本的图像目标检测模型训练方法及装置
CN113688042A (zh) 测试场景的确定方法、装置、电子设备及可读存储介质
CN116453438B (zh) 一种显示屏参数检测方法、装置、设备及存储介质
US20130304783A1 (en) Computer-implemented method for analyzing multivariate data
CN114584377A (zh) 流量异常检测方法、模型的训练方法、装置、设备及介质
CN113836240A (zh) 时序数据分类方法、装置、终端设备及存储介质
CN113192557B (zh) 一种染色体变异检测方法、装置、电子设备及介质
US8438128B2 (en) Empirical modeling of confusion matrices
CN116612814A (zh) 基于回归模型的基因样本污染批量检测方法、装置、设备及介质
AU2022218581B2 (en) Sequencing data-based itd mutation ratio detecting apparatus and method
CN111476965A (zh) 火灾检测模型的构建方法、火灾检测方法及相关设备
CN111048145A (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
CN112861874B (zh) 一种基于多滤波器去噪结果的专家场去噪方法及系统
Tykierko Using invariants to change detection in dynamical system with chaos
CN113567369A (zh) 一种基于多光谱遥感的森林环境监测方法及系统
JP6950505B2 (ja) 判別プログラム、判別方法および判別装置
CN113609191A (zh) 基于大数据和云计算的产品生产状态确定方法及设备
CN112363859A (zh) 异常判定阈值的确定方法及装置
Yan et al. Change-point detection based on adjusted shape context cost method
CN117169286B (zh) 一种视觉辅助下的工业线束质量检测方法
WO2022107262A1 (ja) 判定装置、判定方法、および、判定プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant