CN110929542A - 基于分组纠错码的测序条形码构造与软判决识别方法 - Google Patents

基于分组纠错码的测序条形码构造与软判决识别方法 Download PDF

Info

Publication number
CN110929542A
CN110929542A CN201911137709.5A CN201911137709A CN110929542A CN 110929542 A CN110929542 A CN 110929542A CN 201911137709 A CN201911137709 A CN 201911137709A CN 110929542 A CN110929542 A CN 110929542A
Authority
CN
China
Prior art keywords
sequencing
code
bit
information
bar code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911137709.5A
Other languages
English (en)
Other versions
CN110929542B (zh
Inventor
陈为刚
王丽霞
韩昌彩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911137709.5A priority Critical patent/CN110929542B/zh
Publication of CN110929542A publication Critical patent/CN110929542A/zh
Application granted granted Critical
Publication of CN110929542B publication Critical patent/CN110929542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • G06K7/14Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
    • G06K7/1404Methods for optical code recognition
    • G06K7/146Methods for optical code recognition the method including quality enhancement steps
    • G06K7/1473Methods for optical code recognition the method including quality enhancement steps error correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K19/00Record carriers for use with machines and with at least a part designed to carry digital markings
    • G06K19/06Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code
    • G06K19/06009Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code with optically detectable marking
    • G06K19/06046Constructional details
    • G06K19/06075Constructional details the marking containing means for error correction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Electromagnetism (AREA)
  • General Health & Medical Sciences (AREA)
  • Toxicology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Detection And Correction Of Errors (AREA)

Abstract

本发明公开了一种基于分组纠错码的测序条形码构造与软判决识别方法,所述方法包括:将分组纠错码表示为不同的样本,与预定伪随机序列组合生成测序条形码;内译码器接收测序条形码并进行解映射,建立估计碱基序列插入/删节的隐马尔科夫模型,通过对前向‑后向算法进行修正,输出分组码各个比特的软判决信息;内译码器将码字比特概率信息输入外译码器,作为先验信息进行译码,得到信息序列估计值,据此进行样本识别。本发明能够有效纠正DNA合成、建库与测序中的插入、删节和替代错误。

Description

基于分组纠错码的测序条形码构造与软判决识别方法
技术领域
本发明涉及基因组学的高通量测序领域,尤其涉及一种基于分组纠错码的测序条形码构造与软判决识别方法。
背景技术
下一代测序技术正在以其高测序通量和低测序成本改变传统基因组学研究范式。例如,Illumina测序平台能够在2天产生1.8Tb的数据量,华大基因最新推出的超高通量基因测序仪MGISEQ-T7日产出数据高达6Tb。但是,单个测序样本往往并不需要如此高的通量,可以通过多个样本复用的方法同时进行测序,可以充分利用测序仪不断增长的测序通量。使用多路复用技术,需利用测序条形码来区分混合物中的不同样品。测序后,通过识别测序条形码将测序读段进行分离,分配给不同样品。但是,在该过程中,由于引物合成、连接、样品扩增以及高通量测序中的错误,测序条形码上可能发生各类错误。更为严重的是,对于某些典型的三代测序技术,例如PacBio单分子实时(Single Molecule Real-Time,SMRT)测序技术和牛津纳米孔技术(Oxford Nanopore Technology,ONT),读取的DNA测序读段(read)很长,并且插入、删节和替代错误率很高。例如,SMRT测序中的测序错误率甚至会达到11%,并且插入/删节错误占主要部分,只有1%左右的替代错误。ONT测序中有15%左右的测序错误率,其中插入/删节为主要的错误类型(10%),其次是替代错误(约占5%)。这些错误在解复用过程中导致样本错误分配,严重影响测序效率。因此,需要通过设计纠错DNA测序用条形码来抵抗DNA合成和测序中引入的插入/删节和替代错误,从而增加正确识别的样本量,提高整体测序效率。
目前,已经提出了许多基于纠错码的测序条形码构造与识别方法。针对可能存在的插入、删节错误,研究者提出了基于Levenshtein距离的长度为6bp,最小距离为3的测序条形码集,因此能够纠正单个插入/删节/替代错误。又有研究者在此基础上,将传统的Levenshtein距离度量进行改进,提出了“Sequence-Levenshtein”码,将其作为DNA测序条形码,这种新的距离度量考虑了DNA文本的干扰以及由此产生的测序条形码之间的距离。该方法能够检测DNA文本中测序条形码的边界,并且纠正比传统的Levenshtein更多的随机突变;但是,这种方法对于选择符合纠错条件的测序条形码集具有更高的难度和复杂度。
研究者也提出利用Davey和Mackay提出的水印码作为DNA测序条形码,并对用于测序的信道模型和译码器进行适当的修改,使其适用于DNA文本。这种识别方法能够检测并恢复测序条形码在DNA测序的长读段中的位置,而且识别错误率较低。但是这种方法的译码复杂度较高,短码的性能并不突出。
针对上述问题,发明人发明了一种基于一般的分组纠错码结合已知的伪随机序列的高通量复用测序用条形码,一方面可生成不同长度、不同容错能力的条形码;另一方面,设计条形码具有很强的纠错能力,尤其是对抗三代测序中的插入与删节错误的能力,非常适合三代测序应用。进一步,本发明提出了针对上述条形码的检测方法,通过建立序列的隐马尔科夫模型结合前后向算法以及纠错纠删译码,能高效识别被错误破坏的读段恢复原始测序条形码,具有很高的鲁棒性。总之,本发明提供一种针对未来三代高通量、高错误率、长读段条件下复用测序的条形码的灵活设计方法与识别方法,具有很好的应用前景。
发明内容
本发明提供了一种基于分组纠错码的测序条形码构造与软判决识别方法,本发明能够有效纠正DNA合成、建库与测序中的插入、删节和替代错误,详见下文描述:
一种基于分组纠错码的测序条形码构造与软判决识别方法,所述方法包括:
将分组纠错码表示为不同的样本,与预定伪随机序列组合生成测序条形码;
内译码器接收测序条形码并进行解映射,建立估计碱基序列插入/删节的隐马尔科夫模型,通过对前向-后向算法进行修正,输出分组码各个比特的软判决信息;
内译码器将码字比特概率信息输入外译码器,作为先验信息进行译码,得到信息序列估计值,据此进行样本识别。
其中,所述将分组纠错码表示为不同的样本,与预定伪随机序列组合生成测序条形码具体为:
将表示某一特定样本序号的k比特的信息向量,经分组码编码器产生长度为n的分组码码字;将预定伪随机序列与分组码码字对应位置的比特组合成比特对,按照映射规则将比特对转换成碱基,生成长度为n的测序条形码。
进一步地,所述建立估计碱基序列插入/删节的隐马尔科夫模型具体为:
将碱基漂移量xi作为HMM的隐状态,接收测序条形码估计值作为HMM的观测向量;当发送第i个碱基ti时,发生从xi-1到xi的状态转移,接收测序条形码子序列r(i)输出。
其中,所述通过对前向-后向算法进行修正,输出分组码各个比特的软判决信息具体为:
计算由当前时刻的漂移状态a转移到下一时刻的漂移状态b的转移概率Pa,b
对由xi=a转移到xi+1=b时,计算输出碱基序列的条件概率;
对0≤i<n,-xmax≤a≤xmax,a-1≤b≤a+I且b∈X,
Figure BDA0002280005510000032
计算发送碱基为ti=λ时,从状态xi=a转移到xi+1=b得到接收碱基序列的中间度量值;
对0≤i<n,-xmax≤a≤xmax,初始化第0时刻的前向度量值,利用转移概率Pc,a和输出概率,计算第i时刻状态xi=a的前向度量值;
对0<i≤n,-xmax≤b≤xmax,初始化第n时刻的后向度量值,利用转移概率Pb,c和输出概率,递归计算第i时刻状态xi=b的后向度量值;
对0≤i<n,
Figure BDA0002280005510000031
计算发送碱基ti=λ时的核苷酸级软信息;
对0≤i<n,基于核苷酸级软信息,根据发送碱基与码字比特的映射关系,计算码字比特di取0和1的概率值,组成比特级软信息。
本发明提供的技术方案的有益效果是:
1、本发明将分组纠错码表示不同的样本,与已知伪随机序列组合构造高可靠的测序用条形码;
2、本发明建立估计碱基序列的隐马尔科夫模型(HMM),采用前向-后向算法,依据已知的伪随机序列估计插入/删节,生成分组码各个比特的软判决信息;
3、本发明执行软判决译码,纠正测序条形码上的各类错误,这种测序条形码识别方案对于测序中的插入、删节与替代错误,具有高鲁棒性。
附图说明
图1为本发明提出的测序用条形码软判决识别方法框图;
图2为本发明提出的测序用条形码软判决识别方法中译码流程图;
图3为本发明提出的核苷酸级HMM模型以及HMM中输出概率Qi,a,b的计算示意图;
图4为DNA测序用条形码在多路测序中应用的系统框图以及两种不同的测序错误场景图;
图5为本发明用于测序用条形码(BCH(24,9,3))时,在两种错误场景下,其识别错误率比较示意图;
图6为本发明用于具有不同k值的长度为24碱基的测序用条形码时,其识别错误率比较示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明提出一种高鲁棒性的基于分组纠错码的测序条形码构造与软判决识别方法。具体而言,将一般的分组纠错码表示不同的样本,与预定伪随机序列组合构造测序用条形码。进一步,建立估计碱基序列的隐马尔科夫模型(HMM),采用前向-后向算法,依据已知的伪随机序列估计插入/删节,生成分组码各个比特的软判决信息。进一步执行软判决译码,有效地纠正测序条形码上的各类错误。这种识别方法能够抵抗DNA合成、建库与测序中的插入、删节和替代错误,具有很高鲁棒性。
参见图1和图2,一种基于分组纠错码的测序条形码构造与软判决识别方法的具体步骤为:
(1)用长度为k比特的不同信息序列分别表示样本序号{0,1,...,2k-1},则DNA测序用条形码最多能支持2k个不同样本并行测序;将表示某一特定样本序号i(i∈{0,1,...,2k-1})的k比特的信息向量mi,经过分组码编码器(n,k,t),产生长度为n的分组码码字d(参数t表示分组码码字的纠错能力,可根据具体测序质量进行选择);将预定伪随机序列w=(w0,...,wn-1)与分组码码字d=(d0,...,dn-1)对应位置的比特组合成比特对(w0d0,w1d1,...,wn-1dn-1),按照映射规则{00→A,01→T,10→G,11→C},将比特对转换成碱基,生成长度为n的测序条形码t;经过样本建库、扩增与测序,得到包含各类错误的接收测序条形码估计值
Figure BDA0002280005510000041
其中,上述对样本进行建库、扩增与测序的操作为本领域技术人员所公知,本发明实施例对此不做赘述。
(2)对接收测序条形码估计值
Figure BDA0002280005510000042
进行解映射,按照解映射规则{A→00,T→01,G→10,C→11},将碱基序列(r0,...,rn-1)转换为比特对(u0c0,u1c1,...,un-1cn-1),得到相应的接收序列估计值u=(u0,...,un-1)和接收码字估计值c=(c0,...,cn-1);
(3)参见图3(a),建立估计碱基序列插入/删节的隐马尔科夫模型(HMM),将碱基漂移量xi作为HMM的隐状态,接收测序条形码估计值
Figure BDA0002280005510000043
作为HMM的观测向量,其中,
Figure BDA0002280005510000044
为接收测序条形码
Figure BDA0002280005510000045
的子序列;当发送第i个碱基ti时,发生从xi-1到xi的状态转移,从而导致接收测序条形码子序列r(i)的输出;这里,第i个位置碱基的漂移量xi(i=0,1,...,n)表示从发送第一个碱基t0到待发送碱基ti之间存在的插入数目减去删节数目,漂移量xi的状态集为X={-xmax,...,-1,0,1,...,xmax},共有X=2xmax+1个取值,xmax表示最大漂移量,设置为
Figure BDA0002280005510000051
(Pd为碱基删节概率);
(4)计算由当前时刻的漂移状态a(a∈X)转移到下一时刻的漂移状态b(b∈{a-1,...,a+I}且b∈X)的转移概率Pa,b,具体公式为,
Figure BDA0002280005510000052
其中,Pi、Pd分别表示碱基插入、删节概率,根据测序后的碱基插入、删节数目估计得到;I表示最大连续插入碱基数,设置为大于1的常数;连续插入碱基序列的长度呈几何分布,当限定连续插入长度不超过I的条件下,归一化常数
Figure BDA0002280005510000053
(5)参见图3(b),对0≤i<n,-xmax≤a≤xmax,a-1≤b≤a+I且b∈X,计算由xi=a转移到xi+1=b时,输出碱基序列(ri+a,...,ri+b)的条件概率,即输出概率Qi,a,b(ri+a,...,ri+b);以wi=0,ti=A为例,当u*=wi(u*=ui+b是接收序列u中与伪随机比特wi相关联的接收比特),除发生插入/删节外,碱基可能有两种传输情形:(i)正确传输A(00)→A(00),正确传输概率为(1-Ps)(Ps表示碱基替代概率);(ii)替代A(00)→T(01),该替代情形占wi=0对应的所有可能的碱基替代情形(A(00)→T(01),A(00)→G(10),A(00)→C(11))的1/3,因此,概率为1/3Ps;当u*≠wi时,除发生插入/删节外,碱基只有一种传输情形,即替代情形A(00)→G(10),A(00)→C(11),占所有可能符号替代情形的2/3,因此,概率为2/3Ps;wi=1的情况类似;因此,输出概率Qi,a,b(ri+a,...,ri+b)修正后的计算公式为:
Figure BDA0002280005510000054
其中,u*=ui+b是接收序列u中与伪随机比特wi相关联的接收比特。
(6)对0≤i<n,-xmax≤a≤xmax,a-1≤b≤a+I且b∈X,
Figure BDA00022800055100000612
计算发送碱基为ti=λ时,从状态xi=a转移到xi+1=b的中间度量值
Figure BDA0002280005510000061
中间度量包含码字信息(di=0,1),则发送符号ti是已知的。
因此,直接通过比较发送符号ti和对应的接收符号r*,计算中间度量值;即若ti=r*,除发生插入/删节外,碱基正确传输,概率为1-Ps;若ti≠r*,则碱基发生替代,概率为Ps;中间度量值
Figure BDA0002280005510000062
修正后的计算公式为:
Figure BDA0002280005510000063
Figure BDA0002280005510000064
其中,
Figure BDA0002280005510000065
r*=ri+a是接收碱基序列
Figure BDA0002280005510000066
中与发送碱基ti相关联的接收碱基;
Figure BDA0002280005510000067
表示伪随机比特wi对应的碱基符号子集,由比特对到碱基的映射规则可知,当wi=0,
Figure BDA0002280005510000068
当wi=1,
Figure BDA0002280005510000069
(7)对0≤i<n,-xmax≤a≤xmax,初始化第0时刻的前向度量值
Figure BDA00022800055100000610
利用转移概率Pc,a和输出概率Qi,c,a(ri+c,...,ri+a),递归计算第i时刻状态xi=a的前向度量值Fi(a)=P(r0,...,ri-1+a,xi=a|w),
Figure BDA00022800055100000611
其中,a,c表示同步漂移状态,c∈{a-I,...,a+1}且c∈X;Fi(a)表示xi=a且接收到前i+a个碱基的概率;
(8)对0<i≤n,-xmax≤b≤xmax,初始化第n时刻的后向度量值
Figure BDA0002280005510000071
利用转移概率Pb,c和输出概率Qi,b,c(ri+b,...,ri+c),递归计算第i时刻状态xi=b的后向度量值Bi(b)=P(ri+b,...,rn|xi=b,w),
Figure BDA0002280005510000072
其中,b,c表示同步漂移状态,c∈{b-1,...,b+I}且c∈X;Bi(b)表示xi=b的条件下输出碱基序列(ri+b,...)的概率;
(9)对0≤i<n,
Figure BDA0002280005510000073
计算发送碱基ti=λ时的核苷酸级软信息P(r|ti=λ,w):
Figure BDA0002280005510000074
(10)对于0≤i<n,基于核苷酸级软信息
Figure BDA0002280005510000075
同时根据发送碱基
Figure BDA0002280005510000076
与码字比特di∈{0,1}的映射关系,计算码字比特di取0和1的概率值(li0,li1),组成比特级软信息l=((l00,l01),(l10,l11),...,(ln-1,0,ln-1,1));
Figure BDA0002280005510000077
具体地,对于wi=0,χ0={A,T},
Figure BDA0002280005510000078
对于wi=1,χ1={G,C},
Figure BDA0002280005510000079
(11)根据分组码各个比特对应的软信息l,进行软判决译码,输出译码码字
Figure BDA00022800055100000710
得到信息向量的估计值
Figure BDA00022800055100000711
从而识别不同测序样本。
下面给出一个具体的实施例,说明本发明给出的基于分组纠错码的测序条形码构造与软判决识别方法的具体执行步骤以及对各种非理想因素的高鲁棒性。
如图4所示,在本发明的实施例中,分组纠错码具体采用Bose-ChaudhuriHocquenghem(BCH)码和定义在高阶伽罗华域(Galois Field,GF)上的非二进制单奇偶校验(Non-Binary Single Parity Check,NB-SPC)码构造DNA测序用条形码。然后,经过DNA样本建库、扩增和测序,基于测序读上的引物位置,得到包含各类错误的接收测序条形码。最后,对接收测序条形码进行基于软信息的识别。
在步骤(1)中,分别用BCH(24,14,2),BCH(24,9,3)和定义在GF(26)的NB-SPC(4,3)生成编码码字d。这里,定义在GF(26)的NB-SPC(4,3)可以视为n=24,k=18的二进制单奇偶校验码。然后将设计的长度为24的伪随机序列w与码字d对应位置的比特组合成比特对,通过映射{00→A,01→T,10→G,11→C},生成三种不同的长度为24碱基的测序条形码t。
考虑到实际测序场景中,barcode需要嵌入到DNA文本中,由于没有“分隔符”将barcode与DNA文本分开,因而检测不到由于插入或删节而导致的barcode长度变化。为了模拟实际测序错误情形,按照以下两种不同的错误场景对barcode加入一定量的插入、删节和替代错误,如图4所示。(i)Barcode上随机发生相同数目的插入和删节,以及一定数目的替代,barcode长度不变。(ii)Barcode上发生插入或者删节,导致barcode长度发生变化。若barcode长度由于删节而缩短,则在barcode尾部补入来自后续样本序列的碱基。若barcode长度由于插入而延长,则删除barcode尾部多余碱基。然后,得到包含各类错误的长度固定的接收测序条形码估计值
Figure BDA0002280005510000081
其中,Ni=Nd,则t与
Figure BDA0002280005510000082
的长度相等。
在步骤(2)中,首先,按照规则{A→00,T→01,G→10,C→11},对
Figure BDA0002280005510000083
进行解映射,得到接收序列估计值u。然后,将
Figure BDA0002280005510000084
w和u输入内译码器,采用修正的基于HMM的前向-后向算法,输出码字比特软信息。各个参数设置如下:根据碱基插入、删节、替代数目Ni、Nd、Ns确定插入、删节、替代概率分别为:Pi=Ni/n,Pd=Nd/n,Ps=Ns/n(n=24),则可得测序条形码上每碱基突变概率Pmut=Pi+Pd+Ps;信道中最大连续插入数目设为I=2,最大漂移量设为
Figure BDA0002280005510000085
每个时刻的状态数X=2xmax+1。最后输出比特概率信息l=((l00,l01),(l10,l11),...,(l23,0,l23,1))。最后,将比特概率信息l输入分组码译码器得到译码码字
Figure BDA0002280005510000086
其中,BCH(n,k,t)译码器采用Chase软判决译码算法进行译码,最小不可靠位数设为p=8。NB-SPC(n,k)译码器采用基于快速傅里叶变换的置信传播(belief propagationdecoding algorithm based on fast Fourier transform,FFT-BP)译码算法。
图5给出了在两种错误场景下,由BCH(24,9,3)构造的24-nt的测序条形码的识别错误率与条形码上碱基突变概率Pmut∈[0.10,0.25]的关系曲线。本次仿真考虑了两种插入/删节概率情形Pi=Pd=0.033和Pi=Pd=0.066。仿真结果表明对于固定的碱基突变概率Pmut,测序条形码在插入/删节概率为Pi=Pd=0.066情形下的识别错误率低于在Pi=Pd=0.033情形下,表明测序条形码上不同错误类型的比例会对测序条形码的识别错误率产生影响。此外,对于Pmut∈[0.10,0.25],错误场景(ii)下的识别错误率与错误场景(i)下的识别错误率差异很小,当Pmut≤0.10,识别错误率均低于10-5,具有高鲁棒性。说明测序条形码在两种测序错误场景中均具有良好的纠错性能,这为测序条形码在DNA实际测序中的应用提供了可靠保证。
图6给出了在错误场景(ii)中,构造的三种具有不同k值的长度为24碱基的测序条形码的识别错误率与碱基突变概率Pmut的关系图,其中Pmut∈[0.10,0.22](Pi=Pd=0.033和Pi=Pd=0.066)。仿真结果表明,具有不同k值的测序条形码具有不同的纠错性能,k值越小,其纠错能力越强,但其能支持的并行样本数越少。因此,可以根据不同的测序质量和试验要求构造具有不同长度、不同纠错能力的测序条形码。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于分组纠错码的测序条形码构造与软判决识别方法,其特征在于,所述方法包括:
将分组纠错码表示为不同的样本,与预定伪随机序列组合生成测序条形码;
内译码器接收测序条形码并进行解映射,建立估计碱基序列插入/删节的隐马尔科夫模型,通过对前向-后向算法进行修正,输出分组码各个比特的软判决信息;
内译码器将码字比特概率信息输入外译码器,作为先验信息进行译码,得到信息序列估计值,据此进行样本识别。
2.根据权利要求1所述的一种基于分组纠错码的测序条形码构造与软判决识别方法,其特征在于,所述将分组纠错码表示为不同的样本,与预定伪随机序列组合生成测序条形码具体为:
将表示某一特定样本序号的k比特的信息向量,经分组码编码器产生长度为n的分组码码字;将预定伪随机序列与分组码码字对应位置的比特组合成比特对,按照映射规则将比特对转换成碱基,生成长度为n的测序条形码,所述测序条形码用于样本建库、扩增与测序。
3.根据权利要求1所述的一种基于分组纠错码的测序条形码构造与软判决识别方法,其特征在于,所述建立估计碱基序列插入/删节的隐马尔科夫模型具体为:
将碱基漂移量xi作为HMM的隐状态,接收测序条形码估计值作为HMM的观测向量;当发送第i个碱基ti时,发生从xi-1到xi的状态转移,接收测序条形码子序列r(i)输出。
4.根据权利要求1所述的一种基于分组纠错码的测序条形码构造与软判决识别方法,其特征在于,所述通过对前向-后向算法进行修正,输出分组码各个比特的软判决信息具体为:
计算由当前时刻的漂移状态a转移到下一时刻的漂移状态b的转移概率Pa,b
对由xi=a转移到xi+1=b时,计算输出碱基序列的条件概率;
对0≤i<n,-xmax≤a≤xmax,a-1≤b≤a+I且b∈X,
Figure FDA0002280005500000011
计算发送碱基为ti=λ时,从状态xi=a转移到xi+1=b得到接收碱基序列的中间度量值;
对0≤i<n,-xmax≤a≤xmax,初始化第0时刻的前向度量值,利用转移概率Pc,a和输出概率,计算第i时刻状态xi=a的前向度量值;
对0<i≤n,-xmax≤b≤xmax,初始化第n时刻的后向度量值,利用转移概率Pb,c和输出概率,递归计算第i时刻状态xi=b的后向度量值;
对0≤i<n,
Figure FDA0002280005500000021
计算发送碱基ti=λ时的核苷酸级软信息;
对0≤i<n,基于核苷酸级软信息,根据发送碱基与码字比特的映射关系,计算码字比特di取0和1的概率值,组成比特级软信息。
CN201911137709.5A 2019-11-19 2019-11-19 基于分组纠错码的测序条形码构造与软判决识别方法 Active CN110929542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911137709.5A CN110929542B (zh) 2019-11-19 2019-11-19 基于分组纠错码的测序条形码构造与软判决识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911137709.5A CN110929542B (zh) 2019-11-19 2019-11-19 基于分组纠错码的测序条形码构造与软判决识别方法

Publications (2)

Publication Number Publication Date
CN110929542A true CN110929542A (zh) 2020-03-27
CN110929542B CN110929542B (zh) 2021-12-07

Family

ID=69851233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911137709.5A Active CN110929542B (zh) 2019-11-19 2019-11-19 基于分组纠错码的测序条形码构造与软判决识别方法

Country Status (1)

Country Link
CN (1) CN110929542B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343736A (zh) * 2021-06-21 2021-09-03 天津大学合肥创新发展研究院 一种dna测序用条形码识别算法的硬件加速装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656209A (zh) * 2016-12-14 2017-05-10 天津大学 一种采用迭代译码的纠正同步错误的级联码方法
US20180211001A1 (en) * 2016-04-29 2018-07-26 Microsoft Technology Licensing, Llc Trace reconstruction from noisy polynucleotide sequencer reads
CN109559780A (zh) * 2018-09-27 2019-04-02 华中科技大学鄂州工业技术研究院 一种高通量测序的rna数据处理方法
CN110060734A (zh) * 2019-03-29 2019-07-26 天津大学 一种高鲁棒性dna测序用条形码生成和读取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180211001A1 (en) * 2016-04-29 2018-07-26 Microsoft Technology Licensing, Llc Trace reconstruction from noisy polynucleotide sequencer reads
CN106656209A (zh) * 2016-12-14 2017-05-10 天津大学 一种采用迭代译码的纠正同步错误的级联码方法
CN109559780A (zh) * 2018-09-27 2019-04-02 华中科技大学鄂州工业技术研究院 一种高通量测序的rna数据处理方法
CN110060734A (zh) * 2019-03-29 2019-07-26 天津大学 一种高鲁棒性dna测序用条形码生成和读取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张林林: ""流水印中的插入删节错误处理方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343736A (zh) * 2021-06-21 2021-09-03 天津大学合肥创新发展研究院 一种dna测序用条形码识别算法的硬件加速装置
CN113343736B (zh) * 2021-06-21 2023-07-25 天津大学合肥创新发展研究院 一种dna测序用条形码识别算法的硬件加速装置

Also Published As

Publication number Publication date
CN110929542B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
Davey et al. Reliable communication over channels with insertions, deletions, and substitutions
US7956772B2 (en) Methods and apparatus employing FEC codes with permanent inactivation of symbols for encoding and decoding processes
US7539920B2 (en) LDPC decoding apparatus and method with low computational complexity algorithm
CZ407497A3 (cs) Optimální dekodér se slabými výstupy pro trellis kódy s koncovými bity
Dingel et al. Parameter estimation of a convolutional encoder from noisy observations
CN110060734B (zh) 一种高鲁棒性dna测序用条形码生成和读取方法
CN101257310A (zh) 用于预确定误差型式的误差校正方法及装置
CN106656208A (zh) 一种纠正同步错误的符号级硬判决迭代译码的级联码方法
JP5374156B2 (ja) データを復号化及び符号化するための装置及び方法
CN106712901B (zh) 一种符号插入与删节信道下硬判决导向的前后向估计方法
Chen et al. Sequencing barcode construction and identification methods based on block error-correction codes
CN110929542B (zh) 基于分组纠错码的测序条形码构造与软判决识别方法
CN106656209B (zh) 一种采用迭代译码的纠正同步错误的级联码方法
Hamoum et al. Channel model with memory for DNA data storage with nanopore sequencing
CN112332864A (zh) 一种自适应有序移动剪枝列表的极化码译码方法及系统
Maarouf et al. Concatenated codes for multiple reads of a DNA sequence
CN106788458B (zh) 面向插入删节与替代错误的硬判决导向前后向估计方法
CN108134612B (zh) 纠正同步与替代错误的级联码的迭代译码方法
CN111313908B (zh) 一种纠正非二进制插入/删节的非规则水印编译码方法
RU2379841C1 (ru) Декодер с исправлением стираний
Yin et al. PREMIER—PRobabilistic error-correction using Markov inference in errored reads
RU2327297C2 (ru) Способ декодирования блоковых кодов со стираниями элементов
CN111510166A (zh) 一种4dppm检测中符号插入与删节的处理方法
CN116760425A (zh) 一种ldpc码的crc辅助osd译码方法
CN116614142A (zh) 一种基于bpl译码和osd译码的联合译码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant