CN103246698B - 基于纳米通道单分子检测系统的数据处理方法 - Google Patents

基于纳米通道单分子检测系统的数据处理方法 Download PDF

Info

Publication number
CN103246698B
CN103246698B CN201310108495.5A CN201310108495A CN103246698B CN 103246698 B CN103246698 B CN 103246698B CN 201310108495 A CN201310108495 A CN 201310108495A CN 103246698 B CN103246698 B CN 103246698B
Authority
CN
China
Prior art keywords
current
data
signal
time point
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310108495.5A
Other languages
English (en)
Other versions
CN103246698A (zh
Inventor
龙亿涛
李大伟
顾震
萨拉·里亚兹
张星
孟福娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN201310108495.5A priority Critical patent/CN103246698B/zh
Publication of CN103246698A publication Critical patent/CN103246698A/zh
Application granted granted Critical
Publication of CN103246698B publication Critical patent/CN103246698B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于纳米通道单分子检测系统的数据处理方法,包括如下步骤:依次获取所述纳米通道中对应离散时间点的电流数据;分段处理所述电流数据,将所述电流数据分成两个以上数据段;从每一数据段中获取对应该数据段的事件信号;识别所述事件信号的类型;获取对应所述事件信号的事件信息;导出所述事件信息,形成文本文件;统计所述事件信息,形成事件信息数据库;根据所述事件信息数据库绘制并输出事件分布统计图。本发明的优点在于,能够对复杂庞大的实验数据进行快速读取、处理、分类、统计并形成图谱,通过此技术所得到的数据为电流的离散时间序列,有较大的高斯白噪声背景。

Description

基于纳米通道单分子检测系统的数据处理方法
技术领域
本发明涉及纳米通道(Nanopore)技术领域,特别是一种基于纳米通道单分子检测系统的数据处理方法,具体地说,是一种将纳米通道单分子检测系统所获得的海量复杂数据进行快速读取、分类、统计并形成图谱的数据处理方法。
技术背景
纳米通道(Nanopore)技术是一种结合生物物理、分子生物学以及生物传感器等学科于一体的新型纳米检测技术。目前,在大多数实验室用于完成纳米通道(Nanopore)数据采集与记录的是膜片钳(Patch Clamp)技术。该技术是一种通过微电极与细胞膜之间形成紧密接触的方法,采用电压钳或电流钳技术记录生物膜上离子通道的电活动(即记录生物膜上离子通道的微电流信号变化)的微电极技术。实验信号通过Axopatch系列膜片钳放大器输入到Digidata系列数模转换器中,由成熟的商业软件Pclamp中的“单通道模式”对微电流进行数据记录和分析。在该技术中,事件(Event)是单通道数据记录与分析的基本元素,通过分析事件的电流幅度与持续时间,实验者便可得到被检测物质的结构、大小等信息。
纳米通道单分子检测技术是一种根据分子在电场驱动下穿过纳米尺寸孔道时产生的特征信号,从而研究在单分子水平上的生物分子个体行为的分析方法。该方法能在单分子水平上直接地获取和分析生物大分子的结构(包括构象变化)、分子间的相互作用、分子动力学行为、分子反应机理等,推进生物学、化学等进入纵深发展,也是当今科学发展的重大趋势之一。这样的一种纳米通道单分子检测系统,一般会包括用于采集所述纳米通道中微电流数据的数据采集装置、用于处理所述微电流数据的数据处理装置以及数据显示装置等,有些还会包括数据过滤装置、数据显示装置、数据存储与检索装置等等。纳米通道单分子检测技术具有装置小巧、简单,无需扩增、无需标记,快速,廉价等优点。
由于纳米通道单分子技术是捕获单个分子的信息,所以其时间分辨率可达4微秒,电流分辨率可达100飞安,通常每秒钟记录25,000个数据,每分钟数据量可达百兆。由于每个电流阻断信号反映的是每一个独立分子通过纳米通道的状态,因此实验所获得的电流阻断信号形态复杂多变。纳米通道单分子技术的数据处理是基于统计学原理,即需要对1000个以上的独立事件进行统计分析,进而绘制统计图谱,建立单个分子行为模式。传统的数据处理方法是以人工方式读取每个独立信号的起始时间、阻断电流和阻断时间,并根据各信号形态对其进行分类。数据处理过程中,阻断信号中电流细微的变化往往就是反应分子具体的运动状态的关键,对于区分分子构型和研究分子间相互作用十分重要。现有技术中的Clampfit等软件无法识别信号中细微电流变化并且无法实现复杂信号的阻断电流及阻断时间读取。此外,实验环境中的电磁信号、仪器本身噪音、台面微小震动和生物孔对磷脂双分子层膜的碰撞等都会对实验数据形成干扰,从而影响电流分辨。
现有技术的基于纳米通道的单分子检测系统,往往会产生数据采集量过大、无效数据过多、数据信号形态复杂多变、数据处理手段繁琐且耗时较多等问题,这些问题阻碍了纳米通道单分子检测技术从科学研究到实际应用的快速转化。
发明内容
本发明的目的在于,提供一种基于纳米通道单分子检测系统的数据处理方法,有效解决了现有技术中纳米通道的单分子检测技术在数据处理中出现的具有数据量大、信号形态复杂多变、处理手段繁琐、耗时较多等问题。
为实现上述目的,本发明提供如下技术方案:
一种基于纳米通道单分子检测系统的数据处理方法,包括如下步骤:
S1)依次获取所述纳米通道中对应离散时间点的电流数据;
S2)分段处理所述电流数据,将所述电流数据分成两个以上数据段;
S3)从每一数据段中获取对应该数据段的事件信号;
S4)识别所述事件信号的类型;
S5)获取对应所述事件信号的事件信息;
S6)导出所述事件信息,形成文本文件;
S7)统计所述事件信息,形成事件信息数据库;
S8)根据所述事件信息数据库绘制并输出事件分布统计图。
所述分段处理,包括如下步骤:
S21)保存彼此对应的所述离散时间点、所述电流数据至一电流矩阵M中;
S22)初始化所述电流矩阵M;确定突跃系数γ,使得所述突跃系数γ为大于或等于3且小于或等于8的一定值;确定分段计数标记i等于1,使得第1段的起始时间点为P1;其中i为自然数;
S23)在所述电流矩阵M中,预处理从Pi开始的N个时间点所对应的电流数据;计算所述N个时间点所对应的电流数据的均值作为第i段的基线电流值Ii,计算所述N个时间点所对应的电流数据的平均误差作为第i段的电流平均误差εi;其中N为自然数;
S24)计算第i段上突跃阈值Tui及第i段下突跃阈值Tdi;其中,所述突跃阈值Tui为对应第i段的基线电流值Ii加上电流平均误差εi与突跃系数γ的乘积,即Tui=Iii×γ;所述突跃阈值Tdi为对应第i段的基线电流值Ii减去电流平均误差εi与突跃系数γ的乘积,即Tdi=Iii×γ;
S25)在所述电流矩阵M中,依次比较从时间点Pi开始的每一时间点所对应的电流数据与第i段的突跃阈值Ti;当某一时间点对应的电流数据值大于上突跃阈值Tui或小于下突跃阈值Tdi,执行步骤S26);
S26)暂停步骤S25)所述的比较,并对该时间点进行突跃判定;若该时间点之后的N个起始时间点相对应的电流数据的电流平均值大于所述上突跃阈值Tui或小于所述下突跃阈值Tdi,确定该时间点为突跃点,将此突跃点作为后一段数据的起始点Pi+1,确定相邻的两个段起始点Pi与Pi+1之间的数据为第i段;将第i段中彼此对应的所述离散时间点、所述电流数据保存至一电流矩阵Mi中;将i的值加1,返回步骤S23);若该时间点之后的N个起始时间点相对应的电流数据的电流平均值小于或等于所述上突跃阈值Tui并大于或等于所述下突跃阈值Tdi,继续进行步骤S25)所述的比较,当比较进行到最后一时间点时,将最后一时间点与最后的一起始点Pk之间的电流数据定义为第k段,将第k段中彼此对应的所述离散时间点、所述电流数据保存至一电流矩阵中Mk
所述电流矩阵包括一列时间数据和一列电流数据。
所述从每一数据段中获取对应该数据段的事件信号,包括如下步骤:
S31)计算所述数据段中电流数据的电流阈值Tci;所述电流阈值Tci为对应第i段的基线电流值Ii减去电流平均误差εi的β倍;其中,电流阈值系数β大于或等于1.2且小于或等于1.6;
S32)生成事件信号;依次比较所述数据段中每一电流数据与电流阈值Tci,取出所有小于电流阈值Tci的电流数据及其对应的时间点,并根据时间点的连续性将这些电流数据分块存放,每一块数据即为一个信号;
S33)校正所述事件信号;对每一信号及该信号两端延伸0.01~0.1ms的时间范围内的数据进行求导;导数最小值处即为信号电流减小的趋势最大处,向前寻找导数为该最小值0.1~0.4倍值的时间点为信号的初始点;导数最大值点处即为信号电流增加趋势最大处,向后寻找导数为该最大值0.1~0.4倍值的点即为信号的结束点;单独存放校正后的信号数据;
S34)剔除所述事件信号中的噪声信号;在信号两端延伸0.01~0.1ms的时间范围内,比较信号电流最大值与相应的基线电流之差是否大于信号电流最小值与相应的基线电流之差的绝对值,若是,确定对应该电流最大值的信号为电磁噪声,剔除该噪声信号。
所述识别所述事件信号的类型,包括如下步骤:
S41)将所述事件信号进行滤波处理;
S42)提取所述事件信号的特征点;
S43)根据所述特征点对所述事件信号进行归类处理。
所述事件信息包括所述事件信号各部分的阻断电流和/或阻断时间。
所述文本文件包括导出信号类型、阻断电流、阻断时间、基线电流或始末位置中的任一种或两种以上。
统计所述事件信息,包括如下步骤:
S71)使用者设定时间统计的bin值;
S72)统计获得两个以上阻断时间事件发生频率的分布;
S73)使用者设定时间与电流统计的bin值;
S74)统计获得两个以上阻断电流在所述阻断时间分布的频率。
所述事件分布统计图,包括事件阻断时间分布统计图、事件阻断电流对阻断时间的分布统计图以及事件信号叠加图。
本发明的优点在于,提供一种基于纳米通道单分子检测系统的数据处理方法,能够对复杂庞大的实验数据进行快速读取、处理、分类、统计并形成图谱,通过此技术所得到的数据为电流的离散时间序列,有较大的高斯白噪声背景。被测物碰撞或通过孔道表现在电流一段时间内的减少,为获取每个事件所引起的电流减小持续时间与减小量等信息以备统计分析使用,需从背景中提取事件发生过程中电流变化的数据作为响应信号。本发明有较快的数据处理速度与较高准确度,解决了处理纳米通道内单分子技术大量复杂数据的问题;本发明适用于处理此技术中各种不同环境与检测条件下得到的数据,可灵活设定处理系统的各项参数以满足分析目的;本发明实现了对不同类型信号的分类,便于从数据中挖掘更多信息,对纳米通道单分子技术的应用与发展有重大的积极意义。
附图说明
图1为本发明中一种基于纳米通道单分子检测系统的数据处理方法的流程图;
图2为本发明中分段处理过程的流程图;
图3为本发明中从每一数据段中获取对应该数据段的事件信号过程的流程图;
图4为本发明中识别事件信号类型的过程的流程图;
图5为本发明中统计事件信息的过程的流程图.
具体实施方式
以下结合附图详细说明本发明的具体实施方式,使本领域的技术人员更清楚地理解如何实践本发明。应当理解,尽管结合其优选的具体实施方案描述了本发明,但这些实施方案拟阐述,而不是限制本发明的范围。
实施例1
如图1所示,图中包括一种基于纳米通道单分子检测系统的数据处理方法,具体地说,是一种用于分析α-Hemolysin蛋白纳米通道检测DNA所得电流数据的信号处理分析方法,包括如下步骤:
S1)依次采集对应离散时间点的电流数据。
在人机交互界面中,点击“载入数据”按钮,在弹出框中选择数据位置,系统便自动将所需分析的数据载入。每一载入数据包括一时间点及与该时间点对应的电流数据。在预览模块中,所有载入数据以电流-时间图显示出来;
在实施例1中,采集对应离散时间点的电流数据量为10000个数据点。
S2)将所述电流数据进行分段处理,形成两个以上数据段。
如图2所示,所述分段处理,包括如下步骤:
S21)保存彼此对应的所述离散时间点、所述电流数据至一电流矩阵M中,所述电流矩阵包括一列时间数据和一列电流数据;
S22)初始化所述电流矩阵M;确定突跃系数γ,使得所述突跃系数γ为大于或等于3且小于或等于8的一定值;确定分段计数标记i等于1,使得第1段的起始时间点为P1;其中i为自然数;
S23)在所述电流矩阵M中,预处理从Pi开始的N个时间点所对应的电流数据;计算所述N个时间点所对应的电流数据的均值作为第i段的基线电流值Ii,计算所述N个时间点所对应的电流数据的平均误差作为第i段的电流平均误差εi;其中N为自然数;
S24)计算第i段上突跃阈值Tui及第i段下突跃阈值Tdi;其中,所述突跃阈值Tui为对应第i段的基线电流值Ii加上电流平均误差εi与突跃系数γ的乘积,即Tui=Iii×γ;所述突跃阈值Tdi为对应第i段的基线电流值Ii减去电流平均误差εi与突跃系数γ的乘积,即Tdi=Iii×γ;
S25)在所述电流矩阵M中,依次比较从时间点Pi开始的每一时间点所对应的电流数据与第i段的突跃阈值Ti;当某一时间点对应的电流数据值大于上突跃阈值Tui或小于下突跃阈值Tdi,执行步骤S26);
S26)暂停步骤S25)所述的比较,并对该时间点进行突跃判定;若该时间点之后的N个起始时间点相对应的电流数据的电流平均值大于所述上突跃阈值Tui或小于所述下突跃阈值Tdi,确定该时间点为突跃点,将此突跃点作为后一段数据的起始点Pi+1,确定相邻的两个段起始点Pi与Pi+1之间的数据为第i段;将第i段中彼此对应的所述离散时间点、所述电流数据保存至一电流矩阵Mi中;将i的值加1,返回步骤S23);若该时间点之后的N个起始时间点相对应的电流数据的电流平均值小于或等于所述上突跃阈值Tui并大于或等于所述下突跃阈值Tdi,继续进行步骤S25)所述的比较,当比较进行到最后一时间点时,将最后一时间点与最后的一起始点Pk之间的电流数据定义为第k段,将第k段中彼此对应的所述离散时间点、所述电流数据保存至一电流矩阵中Mk
在实施例1中,γ=4,设i等于1,P1等于1;计算第i个上突跃阈值Tui和下突跃阈值Tdi;从数据中Pi开始,逐点搜索电流值大于上突跃阈值Tui或小于下突跃阈值Tdi的点;一旦搜索到符合这种条件的点,则暂停搜索,计算此点之后10000个点的电流平均值,若此平均值不大于上突跃阈值Tui或不小于下突跃阈值Tdi则继续搜索;若结果相反,则将此点作为下一个起始点Pi+1,将Pi到Pi+1间的数据分为一段,单独存放在一个矩阵中,并记录其基线电流Ii,令i值加1;继续从此突跃点开始重复之前的搜索;当搜索到数据结尾时停止,将最后一个起始点Pk至结尾这部分数据分为一段。
S3)从每一数据段中获取对应该数据段的事件信号。
如图3所示,所述从每一数据段中获取对应该数据段的事件信号,包括如下步骤:
S31)计算所述数据段中电流数据的电流阈值Tci;所述电流阈值Tci为对应第i段的基线电流值Ii减去电流平均误差εi的β倍;其中,电流阈值系数β大于或等于1.2且小于或等于1.6。
实施例1中,β等于1.4。
S32)生成事件信号;依次比较所述数据段中每一电流数据与电流阈值Tci,取出所有小于电流阈值Tci的电流数据及其对应的时间点,并根据时间点的连续性将这些电流数据分块存放,每一块数据即为一个信号。
实施例1中,将所有所在段基线电流与电流值之差小于Ti的点取出,并根据时间连续性将这些点分块存放。
S33)校正所述事件信号;对每一信号及该信号两端延伸0.01~0.1ms的时间范围内的数据进行求导;导数最小值处即为信号电流减小的趋势最大处,向前寻找导数为该最小值0.1~0.4倍值的时间点为信号的初始点;导数最大值点处即为信号电流增加趋势最大处,向后寻找导数为该最大值0.1~0.4倍值的点即为信号的结束点;单独存放校正后的信号数据。
实施例1中,分别对每个信号及其两端30个数据点范围内的数据进行求导,获取导数最小值处,并向前寻找导数为此最小值0.25倍值的点为信号初始点;类似地,获取导数最大值处,向后寻找导数为此最大值0.25倍值的点为信号结束点。
S34)剔除所述事件信号中的噪声信号;在信号两端延伸0.01~0.1ms的时间范围内,比较信号电流最大值与相应的基线电流之差是否大于信号电流最小值与相应的基线电流之差的绝对值,若是,确定对应该电流最大值的信号为电磁噪声,剔除该噪声信号。
实施例1中,在信号电流数据两端100个数据点范围内比较最大电流值与基线电流之差是否大于最小电流值与基线电流之差的绝对值,若是,则为电磁噪声,将此信号剔除。
S4)识别所述事件信号的类型。
如图4所示,所述识别所述事件信号的类型,包括如下步骤:
S41)将所述事件信号进行滤波处理;
S42)提取所述事件信号的特征点;
S43)根据所述特征点对所述事件信号进行归类处理。
实施例1中,DNA通过蛋白通道信号类型识别,其步骤如下:
(1)采用db1小波基对信号电流数据进行小波分解,分解层次为3层;
(2)提取第3层的低频系数,即为滤波后数据,对滤波后的数据进行求导,提取导数绝对值小于0.1的点作为特征点;
(3)根据特征点的电流大小和特征点的数量将信号归类为“尖峰型”,“长阻断型”,“阶梯型”和“W型”。
S5)获取对应所述事件信号的事件信息。所述事件信息包括所述事件信号各部分的阻断电流和/或阻断时间。
实施例1中,分别计算已识别的信号前后3000个点的电流平均值,即为基线电流;“尖峰型”信号阻断电流为电流最小值与基线电流差的绝对值;“长阻断型”信号阻断电流为电流平均值与基线电流差的绝对值;“阶梯型”和“W型”信号取各个特征点处的电流值和基线电流值之差的绝对值作为阻断电流,因此可以获得多个阻断电流信息;三种信号类型的阻断时间都取始末点时间之差的绝对值。
S6)导出所述事件信息,形成文本文件。所述文本文件包括导出信号类型、阻断电流、阻断时间、基线电流或始末位置中的任一种或两种以上。
实施例1中,导出上述步骤所得各个信号的信号类型、阻断电流、阻断时间、基线电流、始末位置等信息为文本文件或excel文件。
S7)统计所述事件信息,形成事件信息数据库。
如图5所示,统计所述事件信息,包括如下步骤:
S71)使用者设定时间统计的bin值;
S72)统计获得两个以上阻断时间事件发生频率的分布;
S73)使用者设定时间与电流统计的bin值;
S74)统计获得两个以上阻断电流在所述阻断时间分布的频率。
实施例1中,首先设定时间以0.01ms为单位分割,统计得出不同阻断时间事件发生频率分布;然后设定时间以0.01ms为单位分割与电流以10pA为单位分割,统计得到不同阻断电流在各时间频率分布。
S8)根据所述事件信息数据库绘制事件分布统计图并将其输出。所述事件分布统计图,包括事件阻断时间分布统计图、事件阻断电流对阻断时间的分布统计图以及事件信号叠加图。
实施例1中,阻断时间分布统计图是根据阻断时间分布统计结果绘制出的柱状图;阻断电流对阻断时间的分布统计图是根据阻断电流对阻断时间的分布统计绘制出的地形图。
实施例1采用以基线电流为参考水平,设定电流阈值筛选信号数据。由于在多孔或阵列孔实验条件下,基线电流会在孔道堵塞时发生阶跃式变化,因而在获取事件信号时应采用不同的基线电流参考,即对数据分段后处理。由于直接设置阈值的方法会使获得的事件信号失真,丢失信号始末位置部分数据,故还需采用修正方法以获得完整信号。再对所获得的事件信号采取识别操作,得到信号类型,并根据信号类型提取信号的有用信息,数据导出、数据统计、图形输出操作将信号信息进一步处理,提取被测物的有用信息。
被测物碰撞或通过孔道表现在电流一段时间内的减少,为获取每个事件所引起的电流减小持续时间与减小量等信息以备统计分析使用,需从背景中提取事件发生过程中电流变化的数据作为响应信号。本发明有较快的数据处理速度与较高准确度,解决了处理纳米通道内单分子技术大量复杂数据的问题;本发明适用于处理此技术中各种不同环境与检测条件下得到的数据,可灵活设定处理系统的各项参数以满足分析目的;本发明实现了对不同类型信号的分类,便于从数据中挖掘更多信息,对纳米通道单分子技术的应用与发展有重大的积极意义。
实施例2
如图1所示,实施例2包括一种基于纳米通道单分子检测系统的数据处理方法,具体地说,是一种用于分析固体纳米通道检测纳米颗粒所得电流数据的信号处理分析方法,包括如下步骤:
S1)依次采集对应离散时间点的电流数据。
在人机交互界面中,点击“载入数据”按钮,在弹出框中选择数据位置,系统便自动将所需分析的数据载入。每一载入数据包括一时间点及与该时间点对应的电流数据。在预览模块中,所有载入数据以电流-时间图显示出来。
在实施例2中,采集对应离散时间点的电流数据量为15000个数据点。
S2)将所述电流数据进行分段处理,形成两个以上数据段。
如图2所示,所述分段处理,包括如下步骤:
S21)保存彼此对应的所述离散时间点、所述电流数据至一电流矩阵M中;
S22)初始化所述电流矩阵M;确定突跃系数γ,使得所述突跃系数γ为大于或等于3且小于或等于8的一定值;确定分段计数标记i等于1,使得第1段的起始时间点为P1;其中i为自然数;
S23)在所述电流矩阵M中,预处理从Pi开始的N个时间点所对应的电流数据;计算所述N个时间点所对应的电流数据的均值作为第i段的基线电流值Ii,计算所述N个时间点所对应的电流数据的平均误差作为第i段的电流平均误差εi;其中N为自然数;
S24)计算第i段上突跃阈值Tui及第i段下突跃阈值Tdi;其中,所述突跃阈值Tui为对应第i段的基线电流值Ii加上电流平均误差εi与突跃系数γ的乘积,即Tui=Iii×γ;所述突跃阈值Tdi为对应第i段的基线电流值Ii减去电流平均误差εi与突跃系数γ的乘积,即Tdi=Iii×γ;
S25)在所述电流矩阵M中,依次比较从时间点Pi开始的每一时间点所对应的电流数据与第i段的突跃阈值Ti;当某一时间点对应的电流数据值大于上突跃阈值Tui或小于下突跃阈值Tdi,执行步骤S26);
S26)暂停步骤S25)所述的比较,并对该时间点进行突跃判定;若该时间点之后的N个起始时间点相对应的电流数据的电流平均值大于所述上突跃阈值Tui或小于所述下突跃阈值Tdi,确定该时间点为突跃点,将此突跃点作为后一段数据的起始点Pi+1,确定相邻的两个段起始点Pi与Pi+1之间的数据为第i段;将第i段中彼此对应的所述离散时间点、所述电流数据保存至一电流矩阵Mi中;将i的值加1,返回步骤S23);若该时间点之后的N个起始时间点相对应的电流数据的电流平均值小于或等于所述上突跃阈值Tui并大于或等于所述下突跃阈值Tdi,继续进行步骤S25)所述的比较,当比较进行到最后一时间点时,将最后一时间点与最后的一起始点Pk之间的电流数据定义为第k段,将第k段中彼此对应的所述离散时间点、所述电流数据保存至一电流矩阵中Mk
在实施例2中,γ=6,设i等于1,P1等于1;计算第i个上突跃阈值Tui和下突跃阈值Tdi;从数据中Pi开始,逐点搜索电流值大于上突跃阈值Tui或小于下突跃阈值Tdi的点;一旦搜索到符合这种条件的点,则暂停搜索,计算此点之后15000个点的电流平均值,若此平均值不大于上突跃阈值Tui或不小于下突跃阈值Tdi则继续搜索;若结果相反,则将此点作为下一个起始点Pi+1,将Pi到Pi+1间的数据分为一段,单独存放在一个矩阵中,并记录其基线电流Ii,令i值加1;继续从此突跃点开始重复之前的搜索;当搜索到数据结尾时停止,将最后一个起始点Pk至结尾这部分数据分为一段。
S3)从每一数据段中获取对应该数据段的事件信号。
如图3所示,从每一数据段中获取对应该数据段的事件信号,包括如下步骤:
S31)计算所述数据段中电流数据的电流阈值Tci;所述电流阈值Tci为对应第i段的基线电流值Ii减去电流平均误差εi的β倍;其中,电流阈值系数β大于或等于1.2且小于或等于1.6。
实施例2中,β等于1.6。
S32)生成事件信号;依次比较所述数据段中每一电流数据与电流阈值Tci,取出所有小于电流阈值Tci的电流数据及其对应的时间点,并根据时间点的连续性将这些电流数据分块存放,每一块数据即为一个信号。
实施例2中,将所有所在段基线电流与电流值之差小于Ti的点取出,并根据时间连续性将这些点分块存放。
S33)校正所述事件信号;对每一信号及该信号两端延伸0.01~0.1ms的时间范围内的数据进行求导;导数最小值处即为信号电流减小的趋势最大处,向前寻找导数为该最小值0.1~0.4倍值的时间点为信号的初始点;导数最大值点处即为信号电流增加趋势最大处,向后寻找导数为该最大值0.1~0.4倍值的点即为信号的结束点;单独存放校正后的信号数据。
实施例2中,分别对每个信号及其两端50个数据点范围内的数据进行求导,获取导数最小值处,并向前寻找导数为此最小值0.25倍值的点为信号初始点;类似地,获取导数最大值处,向后寻找导数为此最大值0.25倍值的点为信号结束点。
S34)剔除所述事件信号中的噪声信号;在信号两端延伸0.01~0.1ms的时间范围内,比较信号电流最大值与相应的基线电流之差是否大于信号电流最小值与相应的基线电流之差的绝对值,若是,确定对应该电流最大值的信号为电磁噪声,剔除该噪声信号。
实施例2中,在信号电流数据两端100个数据点范围内比较最大电流值与基线电流之差是否大于最小电流值与基线电流之差的绝对值,若是则为电磁噪声,将此信号剔除。
S4)识别所述事件信号的类型。
如图4所示,所述识别所述事件信号的类型,包括如下步骤:
S41)将所述事件信号进行滤波处理;
S42)提取所述事件信号的特征点;
S43)根据所述特征点对所述事件信号进行归类处理。
实施例2中,DNA通过蛋白通道信号类型识别,其步骤如下:
(1)采用db1小波基对信号电流数据进行小波分解,分解层次为3层;
(2)提取第3层的低频系数,即为滤波后数据,对滤波后的数据进行求导,提取导数绝对值小于0.1的点作为特征点;
(3)根据特征点的电流大小和特征点的数量将信号归类为“尖峰型”,“长阻断型”,“阶梯型”和“W型”。
S5)获取对应所述事件信号的事件信息。所述事件信息包括所述事件信号各部分的阻断电流和/或阻断时间。
实施例2中,分别计算已识别的信号前后3000个点的电流平均值,即为基线电流;“尖峰型”信号阻断电流为电流最小值与基线电流差的绝对值;“长阻断型”信号阻断电流为电流平均值与基线电流差的绝对值;“阶梯型”和“W型”信号取各个特征点处的电流值和基线电流值之差的绝对值作为阻断电流,因此可以获得多个阻断电流信息;三种信号类型的阻断时间都取始末点时间之差的绝对值。
S6)导出所述事件信息,形成文本文件。所述文本文件包括导出信号类型、阻断电流、阻断时间、基线电流或始末位置中的任一种或两种以上。
实施例2中,导出上述步骤所得各个信号的信号类型、阻断电流、阻断时间、基线电流、始末位置等信息为文本文件或excel文件。
S7)统计所述事件信息,形成事件信息数据库。
如图5所示,统计所述事件信息,包括如下步骤:
S71)使用者设定时间统计的bin值;
S72)统计获得两个以上阻断时间事件发生频率的分布;
S73)使用者设定时间与电流统计的bin值;
S74)统计获得两个以上阻断电流在所述阻断时间分布的频率。
实施例2中,首先设定时间以0.01ms为单位分割,统计得出不同阻断时间事件发生频率分布;然后设定时间以0.01ms为单位分割与电流以10pA为单位分割,统计得到不同阻断电流在各时间频率分布。
S8)根据所述事件信息数据库绘制事件分布统计图并将其输出。所述事件分布统计图,包括事件阻断时间分布统计图、事件阻断电流对阻断时间的分布统计图以及事件信号叠加图。
实施例2中,阻断时间分布统计图是根据阻断时间分布统计结果绘制出的柱状图;阻断电流对阻断时间的分布统计图是根据阻断电流对阻断时间的分布统计绘制出的地形图。
实施例2采用以基线电流为参考水平,设定电流阈值筛选信号数据。由于在多孔或阵列孔实验条件下,基线电流会在孔道堵塞时发生阶跃式变化,因而在获取事件信号时应采用不同的基线电流参考,即对数据分段后处理。由于直接设置阈值的方法会使获得的事件信号失真,丢失信号始末位置部分数据,故还需采用修正方法以获得完整信号。再对所获得的事件信号采取识别操作,得到信号类型,并根据信号类型提取信号的有用信息,数据导出、数据统计、图形输出操作将信号信息进一步处理,提取被测物的有用信息。
被测物碰撞或通过孔道表现在电流一段时间内的减少,为获取每个事件所引起的电流减小持续时间与减小量等信息以备统计分析使用,需从背景中提取事件发生过程中电流变化的数据作为响应信号。本发明有较快的数据处理速度与较高准确度,解决了处理纳米通道内单分子技术大量复杂数据的问题;本发明适用于处理此技术中各种不同环境与检测条件下得到的数据,可灵活设定处理系统的各项参数以满足分析目的;本发明实现了对不同类型信号的分类,便于从数据中挖掘更多信息,对纳米通道单分子技术的应用与发展有重大的积极意义。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于纳米通道单分子检测系统的数据处理方法,其特征在于,包括如下步骤:
S1) 依次获取所述纳米通道中对应离散时间点的电流数据;
S2) 分段处理所述电流数据,将所述电流数据分成两个以上数据段;
S3) 从每一数据段中获取对应该数据段的事件信号;
S4) 识别所述事件信号的类型;
S5) 获取对应所述事件信号的事件信息;
S6) 导出所述事件信息,形成文本文件;
S7) 统计所述事件信息,形成事件信息数据库;
S8) 根据所述事件信息数据库绘制并输出事件分布统计图;
其中,所述分段处理所述电流数据,包括如下步骤:
S21)保存彼此对应的所述离散时间点、所述电流数据至一电流矩阵M中;
S22)初始化所述电流矩阵M;确定突跃系数γ,使得所述突跃系数γ为大于或等于3且小于或等于8的一定值;确定分段计数标记i等于1,使得第1段的起始时间点为P1;其中i为自然数;
S23)在所述电流矩阵M中,预处理从Pi开始的N个时间点所对应的电流数据;计算所述N个时间点所对应的电流数据的均值作为第i段的基线电流值Ii,计算所述N个时间点所对应的电流数据的平均误差作为第i段的电流平均误差εi ;其中N为自然数;
S24)计算第i段上突跃阈值Tui及第i段下突跃阈值Tdi;其中,所述突跃阈值Tui为对应第i段的基线电流值Ii加上电流平均误差εi与突跃系数γ的乘积,即Tui = Ii + εi × γ;所述突跃阈值Tdi为对应第i段的基线电流值Ii减去电流平均误差εi与突跃系数γ的乘积,即Tdi = Iii × γ;
S25)在所述电流矩阵M中,依次比较从时间点Pi开始的每一时间点所对应的电流数据与第i段的突跃阈值Ti;当某一时间点对应的电流数据值大于上突跃阈值Tui或小于下突跃阈值Tdi,执行步骤S26);
S26)暂停步骤S25)所述的比较,并对该时间点进行突跃判定;若该时间点之后的N个起始时间点相对应的电流数据的电流平均值大于所述上突跃阈值Tui或小于所述下突跃阈值Tdi,确定该时间点为突跃点,将此突跃点作为后一段数据的起始点Pi+1,确定相邻的两个段起始点Pi与Pi+1之间的数据为第i段;将第i段中彼此对应的所述离散时间点、所述电流数据保存至一电流矩阵Mi中;将i的值加1,返回步骤S23);若该时间点之后的N个起始时间点相对应的电流数据的电流平均值小于或等于所述上突跃阈值Tui并大于或等于所述下突跃阈值Tdi,继续进行步骤S25)所述的比较,当比较进行到最后一时间点时,将最后一时间点与最后的一起始点Pk之间的电流数据定义为第k段,将第k段中彼此对应的所述离散时间点、所述电流数据保存至一电流矩阵中Mk
2.如权利要求1所述的数据处理方法,其特征在于,所述电流矩阵包括一列时间数据和一列电流数据。
3.如权利要求1所述的数据处理方法,其特征在于,所述从每一数据段中获取对应该数据段的事件信号,包括如下步骤:
S31)计算所述数据段中电流数据的电流阈值Tci;所述电流阈值Tci为对应第i段的基线电流值Ii减去电流平均误差εi的β倍;其中,电流阈值系数β大于或等于1.2且小于或等于1.6;
S32)生成事件信号;依次比较所述数据段中每一电流数据与电流阈值Tci,取出所有小于电流阈值Tci的电流数据及其对应的时间点,并根据时间点的连续性将这些电流数据分块存放,每一块数据即为一个信号;
S33)校正所述事件信号;对每一信号及该信号两端延伸0.01~0.1ms的时间范围内的数据进行求导;导数最小值处即为信号电流减小的趋势最大处,向前寻找导数为该最小值0.1~0.4倍值的时间点为信号的初始点;导数最大值点处即为信号电流增加趋势最大处,向后寻找导数为该最大值0.1~0.4倍值的点即为信号的结束点;单独存放校正后的信号数据;
S34)剔除所述事件信号中的噪声信号;在信号两端延伸0.01~0.1ms的时间范围内,比较信号电流最大值与相应的基线电流之差是否大于信号电流最小值与相应的基线电流之差的绝对值,若是,确定对应该电流最大值的信号为电磁噪声,剔除该噪声信号。
4.如权利要求1所述的数据处理方法,其特征在于,所述识别所述事件信号的类型,包括如下步骤:
S41)将所述事件信号进行滤波处理;
S42)提取所述事件信号的特征点;
S43)根据所述特征点对所述事件信号进行归类处理。
5.如权利要求1所述的数据处理方法,其特征在于,所述事件信息包括所述事件信号各部分的阻断电流和/或阻断时间。
6.如权利要求1所述的数据处理方法,其特征在于,所述文本文件包括导出信号类型、阻断电流、阻断时间、基线电流或始末位置中的任一种或两种以上。
7.如权利要求1所述的数据处理方法,其特征在于,所述事件分布统计图,包括事件阻断时间分布统计图、事件阻断电流对阻断时间的分布统计图以及事件信号叠加图。
CN201310108495.5A 2013-03-29 2013-03-29 基于纳米通道单分子检测系统的数据处理方法 Expired - Fee Related CN103246698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310108495.5A CN103246698B (zh) 2013-03-29 2013-03-29 基于纳米通道单分子检测系统的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310108495.5A CN103246698B (zh) 2013-03-29 2013-03-29 基于纳米通道单分子检测系统的数据处理方法

Publications (2)

Publication Number Publication Date
CN103246698A CN103246698A (zh) 2013-08-14
CN103246698B true CN103246698B (zh) 2016-12-07

Family

ID=48926218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310108495.5A Expired - Fee Related CN103246698B (zh) 2013-03-29 2013-03-29 基于纳米通道单分子检测系统的数据处理方法

Country Status (1)

Country Link
CN (1) CN103246698B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201852815U (zh) * 2010-04-23 2011-06-01 华东理工大学 基于LabVIEW的纳米通道单分子检测系统
CN102150037A (zh) * 2008-07-11 2011-08-10 康奈尔大学 集成电荷传感器的纳米流体通道及基于该纳米流体通道的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7258838B2 (en) * 1999-06-22 2007-08-21 President And Fellows Of Harvard College Solid state molecular probe device
US20060210995A1 (en) * 2005-03-15 2006-09-21 Joyce Timothy H Nanopore analysis systems and methods of using nanopore devices

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102150037A (zh) * 2008-07-11 2011-08-10 康奈尔大学 集成电荷传感器的纳米流体通道及基于该纳米流体通道的方法
CN201852815U (zh) * 2010-04-23 2011-06-01 华东理工大学 基于LabVIEW的纳米通道单分子检测系统

Also Published As

Publication number Publication date
CN103246698A (zh) 2013-08-14

Similar Documents

Publication Publication Date Title
Dimitriadis et al. t-SNE visualization of large-scale neural recordings
CN107728995B (zh) 一种技术文档辅助撰写系统及方法
Wen et al. A guide to signal processing algorithms for nanopore sensors
Hamel et al. Cellular level brain imaging in behaving mammals: an engineering approach
Oikarinen et al. Deep convolutional network for animal sound classification and source attribution using dual audio recordings
Palla et al. Directed network modules
Briggs et al. Acoustic classification of multiple simultaneous bird species: A multi-instance multi-label approach
CN110353673A (zh) 一种基于标准互信息的脑电通道选择方法
CN110247910A (zh) 一种异常流量的检测方法、系统及相关组件
CN113316713A (zh) 颗粒分析仪的自适应分选
CN108108455A (zh) 目的地的推送方法、装置、存储介质及电子设备
CN109009084A (zh) 多导联心电信号的qrs波群校验方法、装置及设备、介质
Yada et al. State-dependent propagation of neuronal sub-population in spontaneous synchronized bursts
CN104516962A (zh) 一种微博舆情监控方法及监控系统
CN107274679A (zh) 车辆识别方法、装置、设备及计算机可读存储介质
CN107239447A (zh) 垃圾信息识别方法及装置、系统
Guan et al. Active learning for efficient analysis of high-throughput nanopore data
JP2022529196A (ja) フローサイトメトリイベントデータのサブサンプリング
CN113255682B (zh) 一种目标检测系统、方法、装置、设备及介质
CN103246698B (zh) 基于纳米通道单分子检测系统的数据处理方法
Duygan et al. Recent advances in microbial community analysis from machine learning of multiparametric flow cytometry data
CN109060924A (zh) 一种基于云分析的多维电化学检测系统
US20230417694A1 (en) Automated classification of biological subpopulations using impedance parameters
CN113791018B (zh) 基于电阻抗信号的单细胞机械本征参数测量系统和方法
Pathania et al. Classification of Music Genre Using Machine Learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161207

CF01 Termination of patent right due to non-payment of annual fee