CN105956417A - 云环境下基于编辑距离的相似碱基序列查询方法 - Google Patents

云环境下基于编辑距离的相似碱基序列查询方法 Download PDF

Info

Publication number
CN105956417A
CN105956417A CN201610289866.8A CN201610289866A CN105956417A CN 105956417 A CN105956417 A CN 105956417A CN 201610289866 A CN201610289866 A CN 201610289866A CN 105956417 A CN105956417 A CN 105956417A
Authority
CN
China
Prior art keywords
base sequence
sequence
checked
monocase
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610289866.8A
Other languages
English (en)
Inventor
张世哲
李辉
马建峰
马鑫迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201610289866.8A priority Critical patent/CN105956417A/zh
Publication of CN105956417A publication Critical patent/CN105956417A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种云环境下基于编辑距离的相似碱基序列查询方法,主要解决云不完全可信时,从云端大量的电子记录中找出相似碱基序列的问题。其实现步骤为:(1)计算用户碱基序列的单字符操作集;(2)聚类;(3)用户碱基序列和聚类中心的哈希映射;(4)计算待查询碱基序列的单字符操作集;(5)待查询序列的哈希映射;(6)选择候选客户端;(7)查找相似碱基序列。本发明是将基于编辑距离的相似碱基序列查询方法应用于云环境下,较之传统的相似碱基序列查询方法,具有较好的扩展性和伸缩性,保证云环境下的碱基序列的安全,减少硬件资源的消耗。

Description

云环境下基于编辑距离的相似碱基序列查询方法
技术领域
本发明属于计算机技术领域,更进一步涉及云计算技术领域中的一种云环境下基于编辑距离的相似碱基序列查询方法。本发明可用于云计算环境下云不完全可信时,从云端大量的电子记录中找出相似碱基序列。
背景技术
序列数据是一类重要而特殊的数据类型,广泛存在于文本、Web访问序列以及生物数据库中的碱基序列和蛋白质序列等应用中。随着社会的发展和技术的进步,对序列数据高效查询研究也提出了严峻的挑战。字符序列是一种常见的序列数据,由于字符序列具有特征难以抽取及有效表达、相似性度量的计算量较大的特点,使得对其进行有效查询成为研究的难点。现有关于字符序列的大多相似性查询算法中,大多只利用基于序列自身特征进行计算,存在的问题:消耗大量的时间,运行效率不高,需要投入大量的硬件设施,无法保证序列数据的安全。
深圳市华奥数据技术有限公司申请的专利“一种基于编辑距离计算中文字符串相似度的方法及装置”(申请号:201310324978.9,公开号:CN103399907A)公开一种基于编辑距离计算中文字符串相似度的方法。该专利的具体步骤包括:(1)采用四角号码将汉字转换成四角编码;(2)采用编辑距离计算汉字的相似度。该方法存在的不足是:采用编辑距离计算字符串的相似度,计算效率会受到数据规模的限制,可扩展性及伸缩性不强;在计算编辑距离时无法保证序列数据的安全,字符串可能遭受到黑客的恶意攻击或窃取,泄露字符串的信息。
百世嘉(上海)医疗技术有限公司申请的专利“用于疾病关联的人类基因组变异分析和报告的系统及方法”(申请号:201480014598.8,公开号:CN105229649A)公开了一种用于疾病关联的人类基因组变异分析和报告的系统及方法。该专利的具体步骤包括:(1)接收和提取疾病相关变异信息;(2)将该疾病相关变异信息存储在第一数据结构中;(3)识别多个基因组变异并且确定与所述多个基因组变异中的至少一个或更多个基因组变异相关联的一个或多个基因组变异。该方法存在的不足之处是:将基因组数据都存储在本地数据库中,占用硬件资源,随着数据量的增大,会超出数据库的承载范围,无法进行计算。
发明内容
本发明的目的在于克服上述现有技术中的不足,提出一种云环境下基于编辑距离的相似碱基序列查询方法。该方法采用碱基序列压缩算法压缩碱基序列,运用隐私差值大小协议计算两个碱基序列的近似编辑距离,从云端大量的电子记录中找出相似碱基序列。
实现本发明目的的技术思路是,云环境下的客户端先计算所有用户碱基序列的单字符操作集,对用户碱基序列的单字符操作集进行聚类,对用户碱基序列和聚类中心分别进行哈希映射,计算待查询碱基序列的单字符操作,对待查询碱基序列的单字符操作集合进行哈希映射;在云计算平台上使用隐私差值大小协议比较待查询碱基序列和聚类中心的近似编辑距离与聚类阈值,选择含有相似碱基序列的候选客户端,使用隐私差值大小协议比较待查询碱基序列和候选客户端中的每个用户的近似编辑距离与近似参数,确定相似碱基序列。
本发明的具体实现步骤包括如下:
(1)计算用户碱基序列的单字符操作集:
(1a)从云环境下的客户端输入每个用户基因组中的脱氧核糖核酸DNA全部信息保存到本地数据库中,所述脱氧核糖核酸DNA包含腺嘌呤A,胸腺嘧啶T,胞嘧啶G,鸟嘌呤C的碱基序列;
(1b)从云环境下的客户端输入一个与碱基序列对应的公共参考序列Ref,保存到本地数据库中;
(1c)采用碱基序列压缩算法,将公共参考序列Ref转化为数据库存储的碱基序列,得到公共参考序列Ref和数据库存储的碱基序列的最小编辑序列;
(1d)运用拆分操作,将最小编辑序列拆分成单字符操作集;
(2)聚类:
采用KMeans聚类方法,在云环境下的客户端上将所有用户的单字符操作集分成几个聚类;
(3)用户碱基序列和聚类中心的哈希映射:
(3a)在云环境下的客户端上,对每个用户的单字符操作集进行哈希映射,得到每个用户的哈希映射集;
(3b)对每个用户的哈希映射集求和,将所得结果作为每个用户碱基序列的映射值;
(3c)对每个聚类中心的单字符操作集分别进行哈希映射,得到每个聚类中心的哈希映射集;
(3d)对每个聚类中心的哈希映射集求和,将所得结果作为每个聚类中心的映射值;
(3e)将每个用户和每个聚类中心的映射值发送给云计算平台;
(4)计算待查询碱基序列的单字符操作集:
(4a)将云环境下客户端输入一个待查询碱基序列保存到本地数据库中;
(4b)采用碱基序列压缩算法,将公共参考序列Ref转化为待查询碱基序列,得到公共参考序列Ref和待查询碱基序列的最小编辑序列;
(4c)运用拆分操作,将最小编辑拆分成单字符操作集;
(5)待查询碱基序列的哈希映射:
(5a)在云环境下的客户端上,对待查询碱基序列的单字符操作集进行哈希映射,得到待查询碱基序列的哈希映射集;
(5b)对待查询碱基序列的哈希映射集求和,将所得结果作为待查询碱基序列的映射值;
(5c)将待查询碱基序列的映射值发送给云计算平台;
(6)选择候选客户端:
(6a)采用隐私差集大小协议,在云计算平台上对待查询碱基序列的映射值和聚类中心的映射值进行计算,得到待查询碱基序列与聚类中心的近似编辑距离;
(6b)比较近似编辑距离与含有近似参数的聚类阈值,将近似编辑距离小于聚类阈值时聚类所在的客户端作为候选客户端;
(7)查找相似碱基序列:
(7a)采用隐私差集大小协议,在云计算平台上对待查询碱基序列的映射值和候选客户端中用户碱基序列的映射值进行计算,得到待查询碱基序列与用户碱基序列的近似编辑距离;
(7b)将近似编辑距离小于近似参数时所对应的用户碱基序列作为待查询碱基序列相似的碱基序列。
本发明与现有的技术相比具有以下优点:
第1、由于本发明采用了碱基序列压缩算法,计算云端数据库中的碱基序列的编辑距离来计算两个碱基序列的差集,克服了现有技术计算效率会受到数据规模的限制,可扩展性及伸缩性不强的不足,使得本发明能够对大规模的碱基序列进行快速的计算。
第2、由于本发明采用隐私差集大小协议,在云计算平台上对计算查询碱基序列的映射值和聚类中心的映射值进行计算,得到两个碱基序列的近似编辑距离,克服了现有技术存在的无法保证序列数据的安全问题的不足,使得本发明能够保证云环境下的碱基序列的安全。
第3、由于本发明应用在云计算平台上查询相似碱基序列,克服了现有技术占用硬件资源的问题,使得本发明可应用到云计算平台上进行相似碱基序列查询,减少使用硬件资源的数量。
附图说明
图1为本发明的流程图;
图2为本发明中计算近似编辑距离步骤的示意图。
具体实施方式
下面结合附图对本发明做进一步的详细描述。
参照图1,本发明的具体实施步骤如下:
步骤1、计算用户碱基序列的单字符操作集。
从云环境下的客户端输入每个用户基因组中的脱氧核糖核酸DNA全部信息保存到本地数据库中,所述脱氧核糖核酸DNA包含腺嘌呤A,胸腺嘧啶T,胞嘧啶G,鸟嘌呤C的碱基序列。
从云环境下的客户端输入一个与碱基序列对应的公共参考序列Ref,保存到本地数据库中。
采用碱基序列压缩算法,将公共参考序列Ref转化为数据库存储的碱基序列,得到公共参考序列Ref和数据库存储的碱基序列的最小编辑序列。
所述的碱基序列压缩算法的具体步骤如下:
第1步,从数据库存储的碱基序列起始位置依次找出所有与公共参考序列Ref中不同的碱基,直至数据库存储的碱基序列结束;
第2步:对于公共参考序列Ref和病人碱基序列中的一个不同碱基,通过插入碱基、删除碱基、替换碱基操作,使得公共参考序列Ref和查询的碱基序列中的不同碱基相同,所述的碱基操作是一个编辑e=(pos,op,aux),其中,pos表示编辑的位置,op表示编辑的类型,aux表示编辑信息具体操作;
第3步,对公共参考序列Ref和数据库存储的碱基序列中所有的不同碱基依次按照第2步计算编辑;
第4步,判断公共参考序列Ref和数据库存储的碱基序列中所有的不同碱基是否全部计算完毕,若是,则执行第5步,否则,执行第2步;
第5步,统计公共参考序列Ref转化为数据库存储的碱基序列的所有编辑,从中挑选出碱基操作最少的编辑,得到公共参考序列Ref和数据库存储的碱基序列之间的最小编辑。
碱基序列的最小编辑序列是多字符操作,运用拆分操作将最小编辑拆分成单字符操作集,具体形式为:(loc,ins,c1...cn)表示在位置loc上插入字符串c1...cn,表示为,被拆分成(loc,ins,c1),(loc,ins,c2),…,(loc,ins,cn);在位置loc上删除长为n的字符串,表示为(loc,del,n),被拆分成(loc,del,1),…,(loc+n-1,del,1),其中,ins表示插入碱基,del表示删除碱基。
下面结合图2对采用碱基序列压缩算法,将公共参考序列Ref转化为数据库存储的碱基序列,得到公共参考序列Ref和数据库存储的碱基序列的最小编辑序列作进一步的说明。
在云环境下的客户端采用碱基序列压缩算法,将碱基序列GCAATAGCCTTC转化为Ref=GCACTGGCCTT,得到公共参考序列Ref和碱基序列的最小编辑序列A{(4,sub,A),(6,sub,A),(12,ins,C)}。采用碱基序列压缩算法,将碱基序列CACAAGCCATTC转化为Ref=GCACTGGCCTT,得到公共参考序列Ref和碱基序列CACAAGCCATTC的最小编辑序B{(1,del,1),(5,sub,A),(6,sub,A),(10,ins,A),(12,sub,C)}。
步骤2、聚类。
采用KMeans聚类方法,在云环境下的客户端上将所有用户的单字符操作集分成几个聚类。
所述的KMeans聚类方法的具体步骤如下:
第1步:将n个单字符操作集聚集为c个聚类,n表示初始待聚类的单字符操作集的数目,c表示初始聚类的数目;
第2步:将每个类中单字符操集的平均值作为每个类的聚类中心;
第3步:设定迭代次数K,设定初始迭代次数为1;
第4步:读取待聚类的单字符操作集;
第5步:计算待聚类的单字符操作集和各个聚类中心的编辑距离;
第6步:将待聚类的单字符操作集归到编辑距离最小的聚类中心所在的类,计算新类中单字符操作集的平均值作为聚类中心;
第7步:判断迭代次数是否等于K,若是,完成聚类,否则,将迭代次数加1,执行第4步。
步骤3、用户碱基序列和聚类中心的哈希映射。
云环境下的客户端对每个用户的单字符操作集中的元素进行预处理,将用户的单字符操作集合的元素转换成整数,得到整数集合D。
利用二元哈希函数对每个用户整数集合D中的每一位元素都进行m次哈希映射,其中,U表示整数集合D中所有的元素,m是足够大的数,目的是减少哈希映射的误差。
对m次哈希映射后的函数值求和得到映射值dD=∑d∈Dh(d),其中,dD表示映射值∑表示求和操作,d表示整数集合D中的元素,h(d)表示二元哈希映射函数。
云环境下的客户端对每个聚类中心的单字符操作集中的元素进行预处理,将聚类中心的单字符操作集合的元素转换成整数,得到整数集合E。
利用二元哈希函数对每个聚类中心整数集合E中的每一位元素都进行m次哈希映射,其中,U表示整数集合E中所有的元素,m是足够大的数,目的是减少哈希映射的误差。
对m次哈希映射后的函数值求和得到映射值dE=∑e∈Eh(e),其中,dE表示映射值∑表示求和操作,e表示整数集合E中的元素,h(e)表示二元哈希映射函数。
将每个用户和每个聚类中心的映射值发送给云计算平台。
下面结合图2对碱基序列的哈希映射作进一步的说明。对碱基序列GCAATAGCCTTC的单字符操作集进行哈希映射,得到映射值dA,对碱基序列CACAAGCCATTC的单字符操作集进行哈希映射,得到映射值dB
步骤4、计算待查询碱基序列的单字符操作集。
将云环境下客户端输入一个待查询碱基序列保存到本地数据库中。
采用碱基序列压缩算法,将公共参考序列Ref转化为待查询碱基序列,得到公共参考序列Ref和查询的碱基序列的最小编辑序列。
所述的碱基序列压缩算法的具体步骤如下:
第1步:从待查询碱基序列起始位置依次找出所有与公共参考序列Ref中不同的碱基,直至查询的碱基序列结束;
第2步:对于公共参考序列Ref和待查询碱基序列中的一个不同碱基,通过插入碱基、删除碱基、替换碱基操作,使得公共参考序列Ref和待查询碱基序列中的不同碱基相同,所述的碱基操作是一个编辑e=(pos,op,aux),其中,pos表示编辑的位置,op表示编辑的类型,aux表示编辑信息具体操作;
第3步:对公共参考序列Ref和待查询碱基序列中所有的不同碱基依次按照第2步计算编辑;
第4步:判断公共参考序列Ref和待查询碱基序列中所有的不同碱基是否全部计算完毕,若是,则执行第5步,否则,执行第2步;
第5步:统计公共参考序列Ref转化为待查询碱基序列的所有编辑,从中挑选出碱基操作最少的编辑,得到公共参考序列Ref和查询的碱基序列之间的最小编辑。
碱基序列的最小编辑序列是多字符操作,运用拆分操作将最小编辑拆分成单字符操作集,具体形式为:(loc,ins,c1...cn)表示在位置loc上插入字符串c1...cn,表示为,被拆分成(loc,ins,c1),(loc,ins,c2),…,(loc,ins,cn);在位置loc上删除长为n的字符串,表示为(loc,del,n),被拆分成(loc,del,1),…,(loc+n-1,del,1),其中,ins表示插入碱基,del表示删除碱基。
步骤5、待查询碱基序列的哈希映射。
云环境下的客户端对待查询碱基序列的单字符操作集中的元素进行预处理,将待查询碱基序列的单字符操作集合的元素转换成整数,得到整数集合F。
利用二元哈希函数对整数集合F中的每一位元素都进行m次哈希映射,其中,U表示整数集合中所有的元素,m表示哈希映射次数,m是足够大的数,目的是减少哈希映射的误差。
云环境下的客户端对m次哈希映射后的函数值分别求和得到m个映射值dF=∑f∈Fh(f),其中,dF表示映射值,∑表示求和操作,f表示整数集合F中的元素,h(f)表示二元哈希映射函数。
将待查询碱基序列的映射值发送给云计算平台。
步骤6、选择候选客户端。
碱基序列X和碱基序列Y的编辑距离表示为碱基序列X和碱基序列Y的对称差集,即(X-Y)∪(Y-X),本发明利用碱基序列X的映射值dX和碱基序列Y映射值dY计算两个碱基序列的近似编辑距离,理论证明如下:
二元哈希函数对于碱基序列S中任何元素s,s1,s2(s1≠s2)
E[h(s1)h(s2)]=E[h(s1)]E[h(s2)]=0
E [ d s 2 ] = E [ ( Σ s ∈ S h ( s ) ) 2 ] = E [ Σ s ∈ S h 2 ( s ) + 2 · Σ s 1 ≠ s 2 h ( s 1 ) h ( s 2 ) ] = E [ Σ s ∈ S h 2 ( s ) ] = | S |
对于任意碱基序列X和碱基序列Y,有
d X - d Y = Σ s ∈ X h ( s ) - Σ s ∈ Y h ( s ) = Σ s ∈ X - Y h ( s ) - Σ s ∈ Y - X h ( s )
E [ ( d X - d Y ) 2 ] = E [ ( Σ s ∈ X - Y h ( s ) ) 2 + ( Σ s ∈ Y - X h ( s ) ) 2 + 2 · ( Σ s 1 ∈ X - Y h ( s 1 ) ) · ( Σ s 2 ∈ Y - X h ( s 2 ) ) ] = | X - Y | + | Y - X | + 2 · 0 = | D i f f ( X , Y ) |
因此,可以用E[(dX-dY)2]表示碱基序列X和碱基序列Y之间的近似编辑距离|Diff(X,Y)|,其中,E[(dX-dY)2]表示碱基序列X的映射值dX和碱基序列Y映射值dY差的平方的期望值。
云计算平台接收到客户端发送来的待查询碱基序列和聚类中心的m次哈希映射后的函数值,保存在云端数据库中。
将待查询碱基序列和聚类中心的m次哈希映射后的函数值计算差的平方,作为m个待查询碱基序列和聚类中心的近似编辑距离。
将m个近似编辑距离的平均值作为待查询碱基序列和聚类中心最终的近似编辑距离。
比较近似编辑距离与含有近似参数的聚类阈值,将近似编辑距离小于聚类阈值时聚类所在的客户端作为候选客户端。
下面结合图2对两个碱基序列作进一步的说明。在云计算平台上采用隐私差集大小协议计算单字符操作集A和单字符操作集B的近似编辑距离。
比较近似编辑距离与含有近似参数的聚类阈值,将近似编辑距离小于含有近似参数的聚类阈值时聚类所在的客户端作为候选客户端,含有近似参数的聚类阈值是:δ+ε,其中,δ表示每个聚类的半径,ε表示近似参数,0<ε<1,由用户事先给定,控制结果精确度。
步骤7、查找相似碱基序列。
云计算平台接收到客户端发送来的待查询碱基序列和候选客户端中用户碱基序列的m次哈希映射后的函数值,保存在云端数据库中。
将待查询碱基序列和候选客户端中用户碱基序列的m次哈希映射后的函数值计算差的平方,作为m个待查询碱基序列和候选客户端中用户碱基序列的近似编辑距离。
将m个近似编辑距离的平均值作为待查询碱基序列和候选客户端中用户碱基序列最终的近似编辑距离。
比较待查询碱基序列和候选客户端的用户碱基序列的近似编辑距离与近似参数,近似编辑距离小于近似参数所对应的用户碱基序列就是我们要找的相似碱基序列。

Claims (6)

1.一种云环境下基于编辑距离的相似碱基序列查询方法,包括如下步骤:
(1)计算用户碱基序列的单字符操作集:
(1a)从云环境下的客户端输入每个用户基因组中的脱氧核糖核酸DNA全部信息保存到本地数据库中,所述脱氧核糖核酸DNA包含腺嘌呤A,胸腺嘧啶T,胞嘧啶G,鸟嘌呤C的碱基序列;
(1b)从云环境下的客户端输入一个与碱基序列对应的公共参考序列Ref,保存到本地数据库中;
(1c)采用碱基序列压缩算法,将公共参考序列Ref转化为数据库存储的碱基序列,得到公共参考序列Ref和数据库存储的碱基序列的最小编辑序列;
(1d)运用拆分操作,将最小编辑序列拆分成单字符操作集;
(2)聚类:
采用KMeans聚类方法,在云环境下的客户端上将所有用户的单字符操作集分成几个聚类;
(3)用户碱基序列和聚类中心的哈希映射:
(3a)在云环境下的客户端上,对每个用户的单字符操作集进行哈希映射,得到每个用户的哈希映射集;
(3b)对每个用户的哈希映射集求和,将所得结果作为每个用户碱基序列的映射值;
(3c)对每个聚类中心的单字符操作集分别进行哈希映射,得到每个聚类中心的哈希映射集;
(3d)对每个聚类中心的哈希映射集求和,将所得结果作为每个聚类中心的映射值;
(3e)将每个用户和每个聚类中心的映射值发送给云计算平台;
(4)计算待查询碱基序列的单字符操作集:
(4a)将云环境下客户端输入一个待查询碱基序列保存到本地数据库中;
(4b)采用碱基序列压缩算法,将公共参考序列Ref转化为待查询碱基序列,得到公共参考序列Ref和待查询碱基序列的最小编辑序列;
(4c)运用拆分操作,将最小编辑拆分成单字符操作集;
(5)待查询碱基序列的哈希映射:
(5a)在云环境下的客户端上,对待查询碱基序列的单字符操作集进行哈希映射,得到待查询碱基序列的哈希映射集;
(5b)对待查询碱基序列的哈希映射集求和,将所得结果作为待查询碱基序列的映射值;
(5c)将待查询碱基序列的映射值发送给云计算平台;
(6)选择候选客户端:
(6a)采用隐私差集大小协议,在云计算平台上对待查询碱基序列的映射值和聚类中心的映射值进行计算,得到待查询碱基序列与聚类中心的近似编辑距离;
(6b)比较近似编辑距离与含有近似参数的聚类阈值,将近似编辑距离小于聚类阈值时聚类所在的客户端作为候选客户端;
(7)查找相似碱基序列:
(7a)采用隐私差集大小协议,在云计算平台上对待查询碱基序列的映射值和候选客户端中用户碱基序列的映射值进行计算,得到待查询碱基序列与用户碱基序列的近似编辑距离;
(7b)将近似编辑距离小于近似参数时所对应的用户碱基序列作为待查询碱基序列相似的碱基序列。
2.根据权利要求1所述的云环境下基于编辑距离的相似碱基序列查询方法,其特征在于:步骤(1c)中所述的碱基序列压缩算法的具体步骤如下:
第1步,从数据库存储的碱基序列起始位置依次找出所有与公共参考序列Ref中不同的碱基,直至数据库存储的碱基序列结束;
第2步,对于公共参考序列Ref和数据库存储的碱基序列中的一个不同碱基,通过对碱基的编辑,使得公共参考序列Ref和数据库存储的碱基序列中的不同碱基相同;
第3步,对公共参考序列Ref和数据库存储的碱基序列中所有的不同碱基依次按照第2步计算编辑;
第4步,判断公共参考序列Ref和数据库存储的碱基序列中所有的不同碱基是否全部计算完毕,若是,则执行第5步,否则,执行第2步;
第5步,统计公共参考序列Ref转化为数据库存储的碱基序列的所有编辑,从中挑选出碱基操作最少的编辑,得到公共参考序列Ref和数据库存储的碱基序列之间的最小编辑。
3.根据权利要求1所述的云环境下基于编辑距离的相似碱基序列查询方法,其特征在于:步骤(2)中所述的KMeans聚类方法的具体步骤如下:
第1步,将n个单字符操作集聚集为c个聚类,n表示初始待聚类的单字符操作集的数目,c表示初始聚类的数目;
第2步,将每个类中单字符操集的平均值作为每个类的聚类中心;
第3步,设定迭代次数K,设定初始迭代次数为1;
第4步,读取待聚类的单字符操作集;
第5步,计算待聚类的单字符操作集和各个聚类中心的编辑距离;
第6步,将待聚类的单字符操作集归到编辑距离最小的聚类中心所在的类,计算新类中单字符操作集的平均值作为聚类中心;
第7步,判断迭代次数是否等于K,若是,完成用户的单字符操作集聚类,否则,将迭代次数加1,执行第4步。
4.根据权利要求1所述的云环境下基于编辑距离的相似碱基序列查询方法,其特征在于:步骤(3)、步骤(5)中所述的哈希映射的具体步骤如下:
第1步,云环境下的客户端对单字符操作集中的元素进行预处理,将单字符操作集合的元素转换成整数,得到整数集合S;
第2步,利用二元哈希函数对整数集合中的每一位元素都进行m次哈希映射,其中,U表示整数集合中所有的元素,m表示哈希映射次数;
第3步,云环境下的客户端对m次哈希映射后的函数值分别求和,得到m个映射值dS=∑s∈Sh(s),其中,dS表示映射值,∑表示求和操作,s表示整数集合S中的元素,h(s)表示二元哈希映射函数。
5.根据权利要求1所述的云环境下基于编辑距离的相似碱基序列查询方法,其特征在于:步骤(6a)中所述的隐私差集大小协议的具体步骤如下:
第1步,云计算平台接收到客户端发送来的待查询碱基序列和聚类中心的m次哈希映射后的函数值,保存到云端数据库中;
第2步,将待查询碱基序列和聚类中心的m次哈希映射后的函数值差的平方,作为m个待查询碱基序列和聚类中心的近似编辑距离;
第3步,将m个近似编辑距离的平均值作为待查询碱基序列和聚类中心最终的近似编辑距离。
6.根据权利要求1所述的云环境下基于编辑距离的相似碱基序列查询方法,其特征在于:步骤(6b)中所述的含有近似参数的聚类阈值是:δ+ε,其中,δ表示每个聚类的半径,ε表示近似参数,0<ε<1。
CN201610289866.8A 2016-05-04 2016-05-04 云环境下基于编辑距离的相似碱基序列查询方法 Pending CN105956417A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610289866.8A CN105956417A (zh) 2016-05-04 2016-05-04 云环境下基于编辑距离的相似碱基序列查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610289866.8A CN105956417A (zh) 2016-05-04 2016-05-04 云环境下基于编辑距离的相似碱基序列查询方法

Publications (1)

Publication Number Publication Date
CN105956417A true CN105956417A (zh) 2016-09-21

Family

ID=56914985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610289866.8A Pending CN105956417A (zh) 2016-05-04 2016-05-04 云环境下基于编辑距离的相似碱基序列查询方法

Country Status (1)

Country Link
CN (1) CN105956417A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110121577A (zh) * 2016-10-11 2019-08-13 基因组系统公司 使用参考序列表示和处理生物信息数据的方法和系统
CN112242978A (zh) * 2019-07-18 2021-01-19 京东数字科技控股有限公司 一种处理数据的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739337A (zh) * 2009-12-14 2010-06-16 北京理工大学 一种基于聚类的软件漏洞序列特征的分析方法
CN102521528A (zh) * 2011-12-05 2012-06-27 中国科学院计算机网络信息中心 一种基因序列数据的筛选方法
CN102750461A (zh) * 2012-06-14 2012-10-24 东北大学 一种可得到完全解的生物序列局部比对方法
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CN105229649A (zh) * 2013-03-15 2016-01-06 百世嘉(上海)医疗技术有限公司 用于疾病关联的人类基因组变异分析和报告的系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739337A (zh) * 2009-12-14 2010-06-16 北京理工大学 一种基于聚类的软件漏洞序列特征的分析方法
CN102521528A (zh) * 2011-12-05 2012-06-27 中国科学院计算机网络信息中心 一种基因序列数据的筛选方法
CN102750461A (zh) * 2012-06-14 2012-10-24 东北大学 一种可得到完全解的生物序列局部比对方法
CN105229649A (zh) * 2013-03-15 2016-01-06 百世嘉(上海)医疗技术有限公司 用于疾病关联的人类基因组变异分析和报告的系统及方法
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAO SHAUN WANG 等: "Efficient Genome-Wide, Privacy-Preserving Similar Patient Query based on Private Edit Distance", 《CCS’15 PROCEEDINGS OF THE 22ND ACM SIGSAC CONFERENCE ON COMPUTER AND COMMUNICATIONS SECURITY》 *
华辉有 等: "一种融合Kmeans和KNN的网络入侵检测算法", 《计算机科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110121577A (zh) * 2016-10-11 2019-08-13 基因组系统公司 使用参考序列表示和处理生物信息数据的方法和系统
CN110121577B (zh) * 2016-10-11 2023-09-19 基因组系统公司 编码/解码基因组序列数据的方法、基因组编码器/解码器
CN112242978A (zh) * 2019-07-18 2021-01-19 京东数字科技控股有限公司 一种处理数据的方法和装置
CN112242978B (zh) * 2019-07-18 2023-04-07 京东科技控股股份有限公司 一种处理数据的方法和装置

Similar Documents

Publication Publication Date Title
Srivastava et al. Alevin efficiently estimates accurate gene abundances from dscRNA-seq data
Ahmad et al. Techniques of data mining in healthcare: a review
Wang et al. An algorithm for finding the largest approximately common substructures of two trees
Snir et al. Quartets MaxCut: a divide and conquer quartets algorithm
Bhargava et al. DNA barcoding in plants: evolution and applications of in silico approaches and resources
Chanda et al. An efficient approach to mine flexible periodic patterns in time series databases
Bryant et al. Constructing optimal trees from quartets
Tseng et al. Effective temporal data classification by integrating sequential pattern mining and probabilistic induction
CN106104541B (zh) 序列数据分析装置、dna分析系统以及序列数据分析方法
Bernardes et al. Evaluation and improvements of clustering algorithms for detecting remote homologous protein families
Wang et al. Imbalance data processing strategy for protein interaction sites prediction
CN114287000A (zh) 信息检索和/或可视化方法
Yu et al. Effective algorithms for vertical mining probabilistic frequent patterns in uncertain mobile environments
Niu et al. Predicting DNA binding proteins using support vector machine with hybrid fractal features
Jiang et al. Microarray gene expression data association rules mining based on BSC-tree and FIS-tree
Zheng et al. Efficient simrank-based similarity join
Zhang DBSCAN Clustering Algorithm Based on Big Data Is Applied in Network Information Security Detection
CN105956417A (zh) 云环境下基于编辑距离的相似碱基序列查询方法
Rodríguez et al. Mining association rules from biological databases
Vaddadi et al. Read mapping on genome variation graphs
Weitschek et al. Genomic data integration: A case study on next generation sequencing of cancer
Gudmundsson et al. A practical index structure supporting Fréchet proximity queries among trajectories
Zou et al. HPTree: reconstructing phylogenetic trees for ultra-large unaligned DNA sequences via NJ model and Hadoop
Zhang et al. A program plagiarism detection model based on information distance and clustering
Okada Rule induction in cascade model based on sum of squares decomposition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160921

WD01 Invention patent application deemed withdrawn after publication