CN116881634B - 用于清洗纳米孔信号数据的方法、设备和存储介质 - Google Patents
用于清洗纳米孔信号数据的方法、设备和存储介质 Download PDFInfo
- Publication number
- CN116881634B CN116881634B CN202311141730.9A CN202311141730A CN116881634B CN 116881634 B CN116881634 B CN 116881634B CN 202311141730 A CN202311141730 A CN 202311141730A CN 116881634 B CN116881634 B CN 116881634B
- Authority
- CN
- China
- Prior art keywords
- data
- channel
- nanopore
- cleaning
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims description 116
- 238000012163 sequencing technique Methods 0.000 claims description 51
- 238000012216 screening Methods 0.000 claims description 33
- 230000002159 abnormal effect Effects 0.000 claims description 23
- 238000009826 distribution Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 238000013136 deep learning model Methods 0.000 claims description 10
- 238000007672 fourth generation sequencing Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 2
- 238000004445 quantitative analysis Methods 0.000 abstract description 2
- 108091006146 Channels Proteins 0.000 description 134
- 239000011148 porous material Substances 0.000 description 25
- 230000004888 barrier function Effects 0.000 description 16
- 239000007787 solid Substances 0.000 description 8
- 239000000463 material Substances 0.000 description 7
- 102000039446 nucleic acids Human genes 0.000 description 7
- 108020004707 nucleic acids Proteins 0.000 description 7
- 150000007523 nucleic acids Chemical class 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 150000002500 ions Chemical class 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 239000012528 membrane Substances 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004907 flux Effects 0.000 description 3
- 229920001184 polypeptide Polymers 0.000 description 3
- 108090000765 processed proteins & peptides Proteins 0.000 description 3
- 102000004196 processed proteins & peptides Human genes 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005684 electric field Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002105 nanoparticle Substances 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 102000004310 Ion Channels Human genes 0.000 description 1
- 108090000862 Ion Channels Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 229910052581 Si3N4 Inorganic materials 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 229920000140 heteropolymer Polymers 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 239000011147 inorganic material Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000011368 organic material Substances 0.000 description 1
- 238000001020 plasma etching Methods 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 235000012239 silicon dioxide Nutrition 0.000 description 1
- 239000000377 silicon dioxide Substances 0.000 description 1
- HQVNEWCFYHHQES-UHFFFAOYSA-N silicon nitride Chemical compound N12[Si]34N5[Si]62N3[Si]51N64 HQVNEWCFYHHQES-UHFFFAOYSA-N 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本发明公开一种用于清洗纳米孔信号数据的方法、设备和存储介质。本发明从通道维度进行第一步清洗,然后通过信号本身维度进一步清洗,通过两步清洗能够大大提升数据清洗效果,从而实现对于纳米孔信号质量的量化分析。
Description
技术领域
本发明涉及数据处理领域,具体地涉及用于清洗纳米孔信号数据的方法、设备和存储介质。
背景技术
基于纳米孔的传感器芯片可以对生物分子如核酸进行测序,其工作原理是基于电场力驱动,生物分子如核酸穿过纳米尺寸的孔道(简称为纳米孔),如蛋白孔道,由于不同的生物分子结构单元如碱基通过纳米孔道时产生了不同的阻断程度和阻断时间的电流信号,简称“纳米孔信号”,由此可根据电流信号识别生物分子的结构单元如碱基信息,从而实现对生物分子的测序。在基于纳米孔的传感器芯片中,具有以纳米尺寸的蛋白孔道为传感器单元的传感器阵列,每个传感器单元具有相应的检测通道(简称为通道)用于输出纳米孔信号,并根据一定的通道编号规则,对所有通道进行编号。在存储获取自各通道的纳米孔信号的过程中,同时也会将纳米孔信号对应的通道的编号即“通道号”作为其属性值一并存储。纳米孔信号的特性在于不同通道之间,纳米孔信号有较大的差异性;同时同一通道中,纳米孔信号有相对较好的一致性,但同时也存在差异性。
目前纳米孔测序数据的处理主要集中于碱基识别领域,例如中国专利公布CN112183486A即公开了一种基于深度网络快速识别单分子纳米孔测序碱基方法,包括从测序原始数据中提取电信号序列,对电信号序列进行第一预处理,得到信号矩阵;构建深度网络模型,对深度网络模型进行训练,直至损失函数达到设定阈值或迭代次数达到设定步数;将得到的信号矩阵输入编码器中提取高维特征信息,输出特征信息矩阵;将得到的特征信息矩阵通过全连接网络层映射生成对应于碱基字符表的概率矩阵;采用基于束搜索算法的连接时序分类模块作为解码器对得到的概率矩阵进行束搜索,得到若干个碱基序列,选择其中得分最高的碱基序列作为输出结果。而对于纳米孔测序数据的预处理研究较少。已知预处理时的数据筛选是主要基于桑格研究所最开始开发的质量分数评估方法。然而对于不同通道之间数据差异的认知以及数据清洗方法未见报道。
背景技术中的信息仅仅在于说明本发明的总体背景,不应视为承认或以任何形式暗示这些信息构成本领域一般技术人员所公知的现有技术。
发明内容
本发明根据纳米孔信号的特性,设计开发了针对纳米孔信号的数据清洗方案。具体地,本发明主要包括以下内容:
本发明的第一方面,提供一种用于清洗纳米孔信号数据的方法,其包括:
获取纳米孔测序数据,所述测序数据包括测序芯片的通道编号数据和不同碱基通过各通道时产生的电流信号数据;和
鉴定离群通道,并从测序数据中剔除所述离群通道编号数据及其产生的电流信号数据。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,获得各个通道的准确率作为第一参数,并根据所有通道的第一参数来鉴定离群通道。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其进一步包括根据第二参数来鉴定离群通道,其中所述第二参数包括通道噪声水平和/或通道信号台阶平整度。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,根据第一参数和第二参数的散点密度图来鉴定离群通道。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,所述各个通道的准确率基于历史芯片指标预测获得。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,所述历史芯片指标包括通道噪声水平和/或通道信号台阶平整度。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,通过下式获得所述各个通道的准确率:
其中:a、b、c各自分别表示通过历史数据拟合获得的常数;
RMS表示通道噪声水平,即各个通道内所有信号的噪声均值;
Uneven表示通道信号台阶平整度,即各个通道内所有信号的同一台阶电流一致性的均值。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,所述各个通道的准确率通过利用机器学习和/或深度学习模型,然后根据通道编号,对各个通道进行统计获得。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其进一步包括将筛选得到的电流信号数据作为训练集A,并根据训练集A中电流信号数据的损失值筛选获得训练集B。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,进一步包括将所述测序芯片获得的所有数据直接制作为数据集0,并在数据集0基础上筛选得到训练集A的步骤。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,所述损失值通过利用训练集A训练得到模型B,然后使用模型B遍历所述训练集A中的所有纳米孔信号,获得信号的损失值。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,利用所述模型B中的损失函数获得所述损失值。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,通过绘制训练集A中所有电流信号损失值的直方图,并根据信号损失值的筛选阈值完成对所述训练集A的筛选。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,所述筛选阈值为固定阈值或自适应阈值。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,所述自适应阈值通过使用正态分布的特性,根据每个数据相对于整体分布的方差来确定;或者根据损失值的分布程度通过N分位法来确定。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,使用训练集B训练获得模型C,然后使用所述模型C判断训练集B中是否存在异常信号,如果不存在异常信号,则数据清洗结束,反之,继续根据训练集B中电流信号数据的损失值筛选获得训练集C,使用训练集C再次训练模型D,以此类推,直至数据清洗结束。
在某些实施方案中,根据第一方面所述的用于清洗纳米孔信号数据的方法,其中,使用训练好的模型C遍历所述训练集B中的所有纳米孔信号,获得信号的损失值,通过绘制所有电流信号损失值的直方图,并根据信号损失值的筛选阈值来判断所述训练集B中是否存在异常信号。
本发明的第二方面,提供一种用于清洗纳米孔信号数据的设备(简称第一设备),其包括:
数据获取单元,其设置为能够获取纳米孔芯片的测序数据,所述测序数据包括芯片的通道编号数据和不同碱基通过各通道时产生的电流信号数据;
数据处理单元,其设置为能够鉴定离群通道,并从测序数据中剔除所述离群通道对应的编号数据及其产生的电流信号数据。
在某些实施方案中,根据第二方面所述的用于清洗纳米孔信号数据的设备,其中,所述数据处理单元进一步设置为:
将剔除所述离群通道对应的编号数据及其产生的电流信号数据后的剩余数据作为训练集A,并根据训练集A中电流信号数据的损失值筛选获得训练集B;和
使用训练集B训练获得模型C,然后使用所述模型C判断训练集B中是否存在异常信号,如果不存在异常信号,则数据清洗结束;反之,继续使用训练集B再次训练模型C,直至数据清洗结束。
本发明的第三方面,提供另一种用于清洗纳米孔信号数据的设备(在此称作第二设备),其包括:存储器、处理器及存储在所述存储器上并能够在所述处理器上运行的清洗纳米孔信号数据的程序,所述程序配置为实现第一方面所述的方法的步骤。
本发明的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有用于清洗纳米孔信号数据的程序,所述程序被处理器执行时实现第一方面所述的方法的步骤。
本发明提出的纳米孔信号的清洗方案从通道维度进行第一步清洗,然后通过信号本身维度进一步清洗,通过两步清洗能够大大提升数据清洗效果,从而实现对于纳米孔信号质量的量化分析。
附图说明
图1 本发明示例性纳米孔信号清洗流程图。
图2 本发明一种示例性异常通道筛选示意图。
图3 一种示例性基于loss分布剔除异常样本的图。
具体实施方式
现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
除非另有说明,否则本文使用的所有技术和科学术语具有本发明所属领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。
本文中,术语“纳米孔”,是指延伸穿过屏障(如膜)的孔结构,其允许离子和/或生物分子如核酸分子从屏障一侧穿过至屏障另一侧。纳米孔可以(但不必)存在于膜中。通常,屏障能够抑制离子或水溶性分子通过,为了允许离子或水溶性分子从屏障一侧穿过屏障到达另一侧,可使屏障包括延伸穿过屏障的孔结构。纳米孔(例如,跨膜孔)包括但不限于生物孔、固态孔和混合孔。
本文中,术语“生物孔”是指由生物来源材料制成的孔,其延伸穿过屏障(例如膜结构),其允许离子和/或水溶性分子从屏障一侧穿过至屏障另一侧。生物来源是指来源于或分离自生物环境(如生物或细胞)的材料,或生物学可用结构的合成产生形式。生物孔包括多肽孔和多核苷酸孔。多肽孔是指由多肽或蛋白(如膜通道蛋白)形成的孔,其可以是单体、均聚物或杂聚物。
本文中,术语“固态孔”是指由非生物来源材料制成的孔,其延伸穿过屏障(例如固态膜),例如通过反应离子蚀刻在固态膜上进行穿孔,并且允许离子和/或水溶性分子从屏障一侧穿过至屏障另一侧。固态孔可以是无机或有机材料。固态孔的实例包括但不限于氮化硅孔、二氧化硅孔和石墨烯孔等。
本文中,术语“混合孔”是指由生物和非生物来源的材料共同制成的杂交孔,例如将生物孔设置在延伸穿过屏障(例如固态膜)的固态孔中,并且允许水合离子和/或水溶性分子从屏障一侧穿过至屏障另一侧。
本文中,术语“纳米孔测序”是指基于纳米孔分析生物分子的序列组成的技术。具体地,通过电场力驱动生物分子从屏障一侧穿过纳米尺寸的孔道至屏障另一侧,由于不同的生物分子的构成单元通过纳米孔道时产生了不同阻断程度的电流信号,由此可根据电流信号识别每个生物分子上的组成单元信息,从而实现测序。其中生物分子包括但不限于核酸(包括DNA或RNA)和蛋白质。
本文中,术语“测序数据”至少包括芯片的通道编号数据和不同碱基通过各通道时产生的电流信号数据。其中,通道编号是指用于区分芯片的纳米孔阵列中各个纳米孔的标记。此类编号可根据各纳米孔在阵列中的位置来分配。
本文中,术语“电信号”,有时称作“纳米孔信号”,是指纳米孔测序时所产生的信号,包括生物分子如核酸穿过纳米孔时产生的电信号。其中,电信号包括但不限于电流、电压、电阻、电位、电容、电导率等。测序数据可以由已知测序仪器所产生。示例性的纳米孔信号包括由齐碳科技制造的基因测序仪如QNome-3841便携式纳米孔基因测序仪、QNome-3841hex桌面式纳米孔基因测序仪所产生的信号数据。
用于清洗纳米孔信号数据的方法
本发明的第一方面,提供用于清洗纳米孔信号数据的方法,有时简称为“本发明的清洗方法”,其包括但不限于以下步骤:
(1) 获取纳米孔测序数据,所述测序数据包括测序芯片的通道编号数据和不同碱基通过各通道时产生的电流信号数据;
(2) 鉴定离群通道,并从测序数据中剔除所述离群通道对应的编号数据及其产生的电流信号数据;可选地,进一步包括至少下述步骤之一:
(3) 将步骤(2)筛选得到的电流信号数据作为训练集A,并根据训练集A中电流信号数据的损失值筛选获得训练集B;
(4) 使用训练集B训练获得模型C,然后使用所述模型C判断训练集B中是否存在异常信号,如果不存在异常信号,则数据清洗结束,反之,继续使用训练集B再次训练模型C,直至数据清洗结束。
本领域技术人员应理解,表示步骤的编号(1)-(4)仅为了区别不同步骤目的,并没有表示步骤先后顺序的含义。只要能够实现本发明的目的,上述步骤的顺序并不特别限定。此外,两个以上的上述步骤可同时进行。
本发明的清洗方法中,步骤(1)为获取纳米孔测序数据的步骤。获取方式不限定,可以是技术人员使用仪器测序直接获得,也可以是通过导入从第三方数据库中已获得的测序数据。
本发明的清洗方法中,步骤(2)为测序数据第一清洗步骤,即从通道维度进行数据清洗的步骤,具体包括鉴定离群通道,并从测序数据中剔除所述离群通道对应的编号数据及其产生的电流信号数据。
本发明中,鉴定离群通道可通过任何方式进行,不特别限定。示例性地,通过统计各个通道的性能参数进行离群通道鉴定。可使用一种以上的性能参数进行离群通道鉴定。性能参数的实例包括但不限于通道准确率、通道噪声水平和通道信号台阶平整度等。在某些实施方案中,本发明使用一种性能参数鉴定离群通道。在另外的实施方案中,本发明使用至少两种性能参数鉴定离群通道。优选地,使用作为第一参数的通道准确率和第二参数共同来鉴定离群通道。第二参数可以是通道噪声水平和/或通道信号台阶平整度。在某一具体实施方案中,根据第一参数和第二参数绘制散点密度图,并根据散点密度鉴定或筛选离群通道。离群通道筛选时所依据的密度阈值不限定,可由本领域技术人员根据需要而设置。示例性的阈值包括0.5、0.4、0.3、0.2、0.1、0.05等。
本发明中,各个通道的准确率获取方式不限定。在示例性实施方案中,本发明的准确率基于规律预测获取。本发明发现通道准确率与其他参数之间存在特定规律。基于此规律可预测各个通道的准确率。例如,测序装置如芯片的某些指标与通道准确率之间存在线性关系,由此可通过基于历史芯片的此类指标与通道准确率之间的线性关系来预测现有芯片通道的通道准确率。这些历史芯片指标包括通道噪声水平和/或通道中信号台阶平整度等,并且这些指标可基于信号分析手段得到。示例性地,本发明发现通道噪声水平和通道信号台阶平整度之间可拟合为以下关系:
其中:
a、b、c各自分别表示常数,其通过历史数据拟合获得;
RMS表示通道噪声水平,其为通道内所有信号的噪声均值;
Uneven表示通道中信号台阶平整度,其为通道内所有信号中的同一台阶电流一致性的均值。
在另外的示例性实施方案中,本发明的准确率通过机器学习或深度学习方式获取。机器学习是指使计算机通过经验和数据自我改进的技术。在机器学习中,计算机通过对训练数据的分析和学习,可以自动地发现数据中的规律和模式,并根据这些规律和模式进行预测和决策。深度学习是指基于深层次神经网络算法的机器学习技术,其主要是使用多重非线性变换结构的模型对数据进行处理和分析。通常情况下,由一个或者多个不同的深度学习模型可以构建得到模型库。机器学习或深度学习的具体模型或算法不具体限定可以使用任何已知模型或算法。
在某些实施方案中,本发明采用深度学习方式获取各个通道的准确率。具体地,基于历史的深度学习模型评估,如利用深度学习模型A,获得纳米孔信号的准确率,然后根据信号属性值通道号,对所有纳米孔信号按通道进行统计,从而获得芯片中所有通道的通道准确率。模型A可以是已有深度模型,也可以是本批次芯片未作任何清洗制作的原始数据集0预训练的模型。
本发明中,通道噪声水平等其他参数的获取方式不特别限定。例如,对于通道噪声水平的获取方式包括但不限于高通滤波、中值滤波等多种方式。
本发明的清洗方法中,步骤(3)为第二清洗步骤,即从信号维度进行数据清洗。具体地,包括将步骤(2)筛选得到的电流信号数据作为训练集A,并根据训练集A中电流信号数据的损失值筛选获得训练集B。
在某些实施方案中,本发明的损失值通过利用训练集A训练得到模型B,然后使用模型B遍历训练集A中的所有纳米孔信号,由此获得信号的损失值。优选地,通过模型B中的损失函数来获得所述损失值。示例性地,通过绘制训练集A中电流信号损失值的直方图,并根据信号损失值的筛选阈值完成对所述训练集A的筛选。
在某些实施方案中,筛选阈值为固定阈值,其通过例如采取经验值法来确定。另外的某些实施方案中,筛选阈值为自适应阈值,其确定可以用但不限于:z-score,N分位法等。其中,Z-score方法是使用正态分布的特性,根据每个数据相对于整体分布的方差(σ)来完成数据的划分,例如3σ滤除;N分位法可以使用例如四分位或90分位等,具体根据损失值的分布程度来设定。
在某一具体实施方案中,使用模型B对训练集A中的所有纳米孔信号进行推理,利用模型B中的损失函数获得信号的损失值。损失函数的获得是模型训练中产生的,根据任务的不同计算损失函数的方法不同,如分类任务使用交叉熵作为损失。加载模型B权重对训练集A中所有纳米孔信号进行测试,并保存训练集A中所有信号的损失值。
在本发明的清洗方法中,步骤(4)为判断清洗是否结束的步骤,具体包括使用训练集B训练获得模型C,然后使用所述模型C判断训练集B中是否还存在异常信号,如果不存在异常信号,则数据清洗结束。反之,继续使用对训练集B进行筛选后的数据集再次训练模型C,以此类推,直至数据清洗结束。
本发明中,是否存在异常信号通过例如损失值大小来进行,例如通过将信号损失值与其筛选阈值的比较进行。示例性的异常信号判断通过以下进行:使用训练好的模型C遍历所述训练集B中的所有纳米孔信号,获得信号的损失值,通过绘制所有电流信号损失值的直方图,并根据信号损失值的筛选阈值来判断所述训练集B中是否存在异常信号。
用于清洗纳米孔信号数据的设备
本发明的第二方面,提供一种用于清洗纳米孔信号数据的设备,称作第一设备,其至少包括:
数据获取单元,其设置为能够获取纳米孔芯片的测序数据,所述测序数据包括芯片的通道编号数据和不同碱基通过各通道时产生的电流信号数据;
数据处理单元,其设置为能够鉴定离群通道,并从测序剔除所述离群通道对应的编号及其产生的电流信号数据。
本发明中,数据获取单元能够获取测序过程中或测序完成后的测序数据。可选地,数据获取单元能够与测序仪通信连接,从而用于获取测序过程中的数据。可选地,数据获取单元能够与数据库通信连接,从而获取数据库中的测序数据。数据库可以是已知公共数据库,也可以是建立于机构或单位内部使用的独立数据库。此类独立数据库可以是暂时性独立数据库,也可以是供长期使用的独立数据库,包括数据不断更新的长期独立数据库。还可选地,数据获取单元能够与可接入的存储器连接,从而调用存储器中的数据。
本发明中,数据处理单元可以是处理器,其设置为能够鉴定离群通道,并从测序数据中剔除所述离群通道产生的电流信号数据,进一步优选能够将剔除所述离群通道产生的电流信号数据后的数据作为训练集A,并根据训练集A中电流信号数据的损失值筛选获得训练集B;使用训练集B训练获得模型C,然后使用所述模型C判断训练集B中是否存在异常信号,如果不存在异常信号,则数据清洗结束,反之,继续使用训练集B再次训练模型C,以此类推,直至数据清洗结束。优选地,数据处理单元设置为能够调用存储器存储的相应数据。
本发明的第三方面,提供用于清洗纳米孔信号数据的设备(第二设备),其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的清洗纳米孔信号数据的程序,所述程序配置为能够实现本发明第一方面所述方法的步骤。
在某些实施方案中,本发明的第二设备为计算机设备,其可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待处理的测序数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实施本发明第一方面所述的方法。
本发明的第一设备或第二设备中,除上述单元或装置、部件外,还可进一步包括其他单元或装置,示例性地包括显示单元或装置等。本发明的第一设备或第二设备中各个单元可全部或部分通过软件、硬件及其组合来实现。各个单元可以硬件形式内嵌于或独立于如何计算机设备,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个单元对应的操作。
示例性地,本发明的第一设备或第二设备进一步包括一个或多个输出装置,其可以与例如计算机系统连接。输出装置的实例包括显示器、打印机、通讯装置如调制解调器和音频输出。可选地,进一步包括一个或多个输入装置,其也可以与计算机系统连接。输入装置的实例包括键盘、鼠标、书写笔和书写板、通讯装置和数据输入装置如传感器。
存储介质
本发明的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有用于清洗纳米孔信号数据的程序,所述程序被处理器执行时实现第一方面所述的方法的步骤。本发明的存储介质包括磁碟、光盘、易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以进一步包括只读存储单元(ROM)。
实施例1
本实施例参考图1说明根据纳米孔信号的特性设计的针对于纳米孔信号的数据清洗流程,具体包括以下:
Step0:将芯片中未经筛选的所有数据,制作为数据集0,并用数据集0作为训练集初步完成模型A的训练,其中模型为seq-to-seq类深度学习模型框架,并使用初步训练后的模型A来获取测序芯片中纳米孔信号的碱基序列结果,并与参考碱基序列进行比对获取纳米孔信号准确率,结合纳米孔信号对应的通道编号信息,统计获得测序芯片中所有通道的通道准确率;
当使用step1来获取测序芯片中所有通道的通道准确率时,该步骤可以省略,即不需要制作数据集0和训练模型A;
Step1:获取芯片中所有通道的通道准确率。
利用通道噪声水平和通道信号台阶平整度拟合的线性关系获取准确率:
其中:
a、b、c通过历史数据拟合获得,如:基于acc取值范围在[0,1]时,a=-0.4;b=-0.15;C=0.95;注:该权重值是基于实例中的历史数据拟合获得。
通道噪声水平:通道内所有信号的噪声均值,
通道中信号台阶平整度:通道内所有信号中的同一台阶电流一致性的均值。
Step2:利用芯片指标,本实施例选择通道噪声水平和通道准确率,剔除芯片中的离群通道。
对纳米孔信号进行信号分析,获取芯片中纳米孔信号的噪声水平,获得芯片所有通道的通道噪声水平;再结合Step1得到的芯片所有通道的通道准确率,绘制通道噪声水平与通道准确率散点密度图。
如图2所示,设置散点密度“density”阈值,根据“density”阈值剔除芯片中的离群通道,如图剔除图中密度低于0.01(蓝黑色)部分的通道。
Step3:使用筛选通道中纳米孔信号,完成模型训练。
使用step2中筛选出来的芯片通道中的纳米孔信号制作成训练集A,完成模型B的训练,其中模型B为seq-to-seq类深度学习模型框架。
Step4:使用模型B,遍历训练集A中的所有纳米孔信号,获得信号的损失值。
使用模型B对训练集A中的所有纳米孔信号进行推理,利用模型B中的损失函数获得信号的损失值。损失函数的获得是模型训练中产生的,在此使用交叉熵作为损失;加载模型B权重对训练集A中所有纳米孔信号进行测试,并保存训练集A中所有信号的损失值。
Step5:根据纳米孔信号损失值的直方图,剔除训练集A中的离群数据,获得训练集B。
绘制训练集A中所有纳米孔信号损失值的直方图,设置信号损失值的筛选阈值,其中筛选阈值可以为固定值,也可以是自适应阈值。固定阈值可以采取经验值法来确定;自适应阈值确定可以用但不限于z-score,N分位法等。其中,Z-score方法是使用正态分布的特性,根据每个数据相对于整体分布的方差(σ)来完成数据的划分,例如3σ滤除;N分位法可以使用如上四分位或90分位等,具体根据损失值的分布程度来设定;本实例使用的N分位法,其中N分位为上四分位。
Step6:使用数据集B再次训练模型C。
使用Step5清洗训练集A后得到的数据集B,完成模型C的训练。
Step7:使用模型C,判断训练集B中是否还存在异常样本。
使用再次训练好的模型C,重复step4-5操作,判断训练集B中是否还存在异常样本,如果不存在异常数据时,数据清洗流程结束;反之,继续执行step6-7,直至数据集清洗完成。
实施例2
Step1:基于历史测序芯片数据,拟合通道准确率与通道噪声水平、通道信号台阶平整度的线性关系,具体的线性公式如下:
其中:在通道准确率acc的取值范围在[0,1]时,a= - 0.4;b= - 0.15;C=0.95。
Step2:遍历所有测序芯片,利用信号分析手段,获得通道噪声水平与通道信号台阶平整度,再结合Step1中的线性公式,获得测序芯片中所有通道的通道准确率,并绘制通道噪声水平与通道准确率散点密度图,设置散点密度“density”阈值为0.1,剔除图中密度低于0.01的通道,完成测序芯片中的通道筛选。
Step3:使用step2中筛选出来的芯片通道中的纳米孔信号制作成训练集A,并完成seq-to-seq类深度学习模型B的训练。
Step4:使用模型B,遍历训练集A中的所有纳米孔信号,利用模型B中交叉熵损失函数来获取训练集A中的所有纳米孔信号的损失值。
Step5:绘制训练集A中所有纳米孔信号损失值的直方图,采用上四分位法来确定损失值筛选阈值,其中实例中的损失值筛选阈值为0.45;剔除训练集A中纳米孔信号的损失值大于0.45的信号样本,获得训练集B。
Step6:使用训练集B再次训练seq-to-seq类深度学习模型,获得模型C。
Step7:使用再次训练好的模型C,重复Step4-5步骤,再次获得训练集B中所有纳米孔信号的损失值,并继续将Step5中的损失值阈值0.45作为判断标准,判断训练集B中不再存在异常信号,至此,数据集的清洗完成。
测试例
纳米孔测序技术的目的是去识别核酸分子上的碱基信息,从而实现对于核酸分子的测序;其中将碱基信息识别的准确率与碱基信息识别的通量作为评价测序结果的好坏。下面是模型训练数据集在清洗前与清洗后,模型在实测芯片中的测试示例。
表1为数据集清洗前后,实施例2的方法在实测测序芯片的测序结果。如表1所示,在测试示例中,模型训练集在经过数据清洗后,模型的碱基信息识别的准确率与碱基信息识别的通量都有明显提升。
表1 模型训练数据集在清洗前与清洗后模型在实测芯片中的测试结果
注:碱基信息识别的总通量:即模型的测序结果中碱基的总数;碱基信息识别的Map通量:即模型的测序结果中能够与目标碱基序列比对上的碱基总数。
尽管本发明已经参考示例性实施方案进行了描述,但应理解本发明不限于公开的示例性实施方案。在不背离本发明的范围或精神的情况下,可对本发明说明书的示例性实施方案做多种调整或变化。权利要求的范围应基于最宽的解释以涵盖所有修改和等同结构与功能。
Claims (17)
1. 一种用于清洗纳米孔信号数据的方法,其特征在于,所述方法包括:
获取纳米孔测序数据,所述测序数据包括测序芯片的通道编号数据和不同碱基通过各通道时产生的电流信号数据;和
鉴定离群通道,并从所述测序数据中剔除所述离群通道对应的编号数据及其产生的电流信号数据,其中,获得各个通道的准确率作为第一参数,并根据所有通道的第一参数来鉴定所述离群通道,所述各个通道的准确率基于历史芯片指标预测获得,或所述各个通道的准确率通过利用机器学习和/或深度学习模型,然后根据通道编号,对各个通道进行统计获得,通过下式获得所述各个通道的准确率:
,
其中:a、b、c各自分别表示通过历史数据拟合获得的常数;
RMS表示通道噪声水平,即各个通道内所有信号的噪声均值;
Uneven表示通道信号台阶平整度,即各个通道内所有信号的同一台阶电流一致性的均值。
2.根据权利要求1所述的用于清洗纳米孔信号数据的方法,其特征在于,进一步包括根据第二参数来鉴定离群通道,其中所述第二参数包括通道的噪声水平和/或通道信号台阶平整度。
3.根据权利要求2所述的用于清洗纳米孔信号数据的方法,其特征在于,根据第一参数和第二参数的散点密度图来鉴定所述离群通道。
4.根据权利要求1所述的用于清洗纳米孔信号数据的方法,其特征在于,所述历史芯片指标包括通道噪声水平和/或通道信号台阶平整度。
5.根据权利要求1所述的用于清洗纳米孔信号数据的方法,其特征在于,进一步包括将筛选得到的电流信号数据作为训练集A,并根据训练集A中电流信号数据的损失值筛选获得训练集B。
6.根据权利要求5所述的用于清洗纳米孔信号数据的方法,其特征在于,进一步包括将所述测序芯片获得的所有数据直接制作为数据集0,并在数据集0基础上筛选得到训练集A的步骤。
7.根据权利要求5所述的用于清洗纳米孔信号数据的方法,其特征在于,所述损失值通过利用训练集A训练得到模型B,然后使用模型B遍历所述训练集A中的所有纳米孔信号,获得信号的损失值。
8.根据权利要求7所述的用于清洗纳米孔信号数据的方法,其特征在于,利用所述模型B中的损失函数获得所述损失值。
9.根据权利要求5所述的用于清洗纳米孔信号数据的方法,其特征在于,通过绘制训练集A中所有电流信号损失值的直方图,并根据信号损失值的筛选阈值完成对所述训练集A的筛选。
10.根据权利要求9所述的用于清洗纳米孔信号数据的方法,其特征在于,所述筛选阈值为固定阈值或自适应阈值。
11.根据权利要求10所述的用于清洗纳米孔信号数据的方法,其特征在于,所述自适应阈值通过使用正态分布的特性,根据每个数据相对于整体分布的方差来确定;或者根据损失值的分布程度通过N分位法来确定。
12.根据权利要求5所述的用于清洗纳米孔信号数据的方法,其特征在于,使用训练集B训练获得模型C,然后使用所述模型C判断训练集B中是否存在异常信号,如果不存在异常信号,则数据清洗结束;反之,继续根据训练集B中电流信号数据的损失值筛选获得训练集C,使用训练集C再次训练模型D,直至数据清洗结束。
13.根据权利要求12所述的用于清洗纳米孔信号数据的方法,其特征在于,使用训练好的模型C遍历所述训练集B中的所有纳米孔信号,获得信号的损失值,通过绘制所有电流信号损失值的直方图,并根据信号损失值的筛选阈值来判断所述训练集B中是否存在异常信号。
14.一种用于清洗纳米孔信号数据的设备,其特征在于,包括:
数据获取单元,其设置为能够获取纳米孔芯片的测序数据,所述测序数据包括芯片的通道编号数据和不同碱基通过各通道时产生的电流信号数据;
数据处理单元,其设置为能够鉴定离群通道,并从所述测序数据中剔除所述离群通道对应的编号数据及其产生的电流信号数据,其中,获得各个通道的准确率作为第一参数,并根据所有通道的第一参数来鉴定所述离群通道,所述各个通道的准确率基于历史芯片指标预测获得,或所述各个通道的准确率通过利用机器学习和/或深度学习模型,然后根据通道编号,对各个通道进行统计获得,通过下式获得所述各个通道的准确率:
,
其中:a、b、c各自分别表示通过历史数据拟合获得的常数;
RMS表示通道噪声水平,即各个通道内所有信号的噪声均值;
Uneven表示通道信号台阶平整度,即各个通道内所有信号的同一台阶电流一致性的均值。
15. 根据权利要求14所述的用于清洗纳米孔信号数据的设备,其特征在于,所述数据处理单元进一步设置为:
将剔除所述离群通道对应的编号数据及其产生的电流信号数据后的剩余数据作为训练集A,并根据训练集A中电流信号数据的损失值筛选获得训练集B;和
使用训练集B训练获得模型C,然后使用所述模型C判断训练集B中是否还存在异常信号,如果不存在异常信号,则数据清洗结束,反之,继续使用训练集B再次训练模型C,直至数据清洗结束。
16.一种用于清洗纳米孔信号数据的设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并能够在所述处理器上运行的清洗纳米孔信号数据的程序,所述程序配置为能够实现根据权利要求1-13任一项所述的方法的步骤。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有用于清洗纳米孔信号数据的程序,所述程序被处理器执行时实现根据权利要求1-13任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311141730.9A CN116881634B (zh) | 2023-09-06 | 2023-09-06 | 用于清洗纳米孔信号数据的方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311141730.9A CN116881634B (zh) | 2023-09-06 | 2023-09-06 | 用于清洗纳米孔信号数据的方法、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116881634A CN116881634A (zh) | 2023-10-13 |
CN116881634B true CN116881634B (zh) | 2023-12-26 |
Family
ID=88271935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311141730.9A Active CN116881634B (zh) | 2023-09-06 | 2023-09-06 | 用于清洗纳米孔信号数据的方法、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116881634B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117594130A (zh) * | 2024-01-19 | 2024-02-23 | 北京普译生物科技有限公司 | 纳米孔测序信号评价方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103275867A (zh) * | 2013-05-02 | 2013-09-04 | 华中科技大学 | 一种用于固态纳米孔核酸测序电信号的检测和采集系统 |
EP3732484A1 (en) * | 2017-12-28 | 2020-11-04 | F. Hoffmann-La Roche AG | Measuring and removing noise in stochastic signals from a nanopore dna sequencing system driven by an alternating signal |
CN113096736A (zh) * | 2021-03-26 | 2021-07-09 | 北京源生康泰基因科技有限公司 | 一种基于纳米孔测序的病毒实时自动分析方法及系统 |
CN113744806A (zh) * | 2021-06-23 | 2021-12-03 | 杭州圣庭医疗科技有限公司 | 一种基于纳米孔测序仪的真菌测序数据鉴定方法 |
CN115312121A (zh) * | 2022-09-29 | 2022-11-08 | 北京齐碳科技有限公司 | 靶基因位点检测方法、装置、介质及程序产品 |
CN115948235A (zh) * | 2022-11-18 | 2023-04-11 | 东南大学 | 一种基于固态纳米孔的dna测序一体化装置 |
CN116127288A (zh) * | 2023-04-14 | 2023-05-16 | 南京邮电大学 | 基于独立成分分析的纳米孔传感信号噪声去除方法及装置 |
-
2023
- 2023-09-06 CN CN202311141730.9A patent/CN116881634B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103275867A (zh) * | 2013-05-02 | 2013-09-04 | 华中科技大学 | 一种用于固态纳米孔核酸测序电信号的检测和采集系统 |
EP3732484A1 (en) * | 2017-12-28 | 2020-11-04 | F. Hoffmann-La Roche AG | Measuring and removing noise in stochastic signals from a nanopore dna sequencing system driven by an alternating signal |
CN113096736A (zh) * | 2021-03-26 | 2021-07-09 | 北京源生康泰基因科技有限公司 | 一种基于纳米孔测序的病毒实时自动分析方法及系统 |
CN113744806A (zh) * | 2021-06-23 | 2021-12-03 | 杭州圣庭医疗科技有限公司 | 一种基于纳米孔测序仪的真菌测序数据鉴定方法 |
CN115312121A (zh) * | 2022-09-29 | 2022-11-08 | 北京齐碳科技有限公司 | 靶基因位点检测方法、装置、介质及程序产品 |
CN115948235A (zh) * | 2022-11-18 | 2023-04-11 | 东南大学 | 一种基于固态纳米孔的dna测序一体化装置 |
CN116127288A (zh) * | 2023-04-14 | 2023-05-16 | 南京邮电大学 | 基于独立成分分析的纳米孔传感信号噪声去除方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116881634A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schrider et al. | S/HIC: robust identification of soft and hard sweeps using machine learning | |
Weinstein et al. | DNA microscopy: optics-free spatio-genetic imaging by a stand-alone chemical reaction | |
CN116881634B (zh) | 用于清洗纳米孔信号数据的方法、设备和存储介质 | |
EP3364341A1 (en) | Analyzing digital holographic microscopy data for hematology applications | |
JPWO2018207524A1 (ja) | 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体 | |
CN113160882B (zh) | 一种基于三代测序的病原微生物宏基因组检测方法 | |
WO2002030265A2 (en) | Method and display for multivariate classification | |
CN113674803A (zh) | 一种拷贝数变异的检测方法及其应用 | |
CN114729397B (zh) | 随机乳化数字绝对定量分析方法及装置 | |
JP6753622B2 (ja) | 表示制御装置、表示制御方法及び表示制御プログラム | |
CN108229098A (zh) | 单分子的识别、计数方法及装置 | |
CN116596933B (zh) | 碱基簇检测方法及装置、基因测序仪及存储介质 | |
CN110501329B (zh) | 比色型化学传感器阵列、检测金属离子的方法,以及评价和优化传感器阵列的方法 | |
Kamimura et al. | Mining of biological data I: identifying discriminating features via mean hypothesis testing | |
US20160188796A1 (en) | Methods of characterizing, determining similarity, predicting correlation between and representing sequences and systems and indicators therefor | |
CN114118306B (zh) | Sds凝胶电泳实验数据的分析方法、装置及sds凝胶试剂 | |
JP3936851B2 (ja) | クラスタリング結果評価方法及びクラスタリング結果表示方法 | |
Lee et al. | Svm classification model of similar bacteria species using negative marker: Based on matrix-assisted laser desorption/ionization time-of-flight mass spectrometry | |
Wei et al. | A hybrid SOM-SVM method for analyzing zebra fish gene expression | |
CN108229097A (zh) | 单分子的识别、计数方法及装置 | |
CN114944188A (zh) | 样本同源性判定模型及其建立方法和应用 | |
Punitha | Extraction of Co-Expressed Degs From Parkinson Disease Microarray Dataset Using Partition Based Clustering Techniques | |
Zineddin et al. | A multi-view approach to cDNA micro-array analysis | |
Stoica et al. | Alternative methods to detect biological communities in freshwater systems | |
De Lannoy | From squiggle to sequence: bioinformatics in the era of single-molecule biopolymer analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |