CN105956417A

CN105956417A - 云环境下基于编辑距离的相似碱基序列查询方法

Info

Publication number: CN105956417A
Application number: CN201610289866.8A
Authority: CN
Inventors: 张世哲; 李辉; 马建峰; 马鑫迪
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-05-04
Filing date: 2016-05-04
Publication date: 2016-09-21

Abstract

本发明公开了一种云环境下基于编辑距离的相似碱基序列查询方法，主要解决云不完全可信时，从云端大量的电子记录中找出相似碱基序列的问题。其实现步骤为：(1)计算用户碱基序列的单字符操作集；(2)聚类；(3)用户碱基序列和聚类中心的哈希映射；(4)计算待查询碱基序列的单字符操作集；(5)待查询序列的哈希映射；(6)选择候选客户端；(7)查找相似碱基序列。本发明是将基于编辑距离的相似碱基序列查询方法应用于云环境下，较之传统的相似碱基序列查询方法，具有较好的扩展性和伸缩性，保证云环境下的碱基序列的安全，减少硬件资源的消耗。

Description

云环境下基于编辑距离的相似碱基序列查询方法

技术领域

本发明属于计算机技术领域，更进一步涉及云计算技术领域中的一种云环境下基于编辑距离的相似碱基序列查询方法。本发明可用于云计算环境下云不完全可信时，从云端大量的电子记录中找出相似碱基序列。

背景技术

序列数据是一类重要而特殊的数据类型，广泛存在于文本、Web访问序列以及生物数据库中的碱基序列和蛋白质序列等应用中。随着社会的发展和技术的进步，对序列数据高效查询研究也提出了严峻的挑战。字符序列是一种常见的序列数据，由于字符序列具有特征难以抽取及有效表达、相似性度量的计算量较大的特点，使得对其进行有效查询成为研究的难点。现有关于字符序列的大多相似性查询算法中，大多只利用基于序列自身特征进行计算，存在的问题：消耗大量的时间，运行效率不高，需要投入大量的硬件设施，无法保证序列数据的安全。

深圳市华奥数据技术有限公司申请的专利“一种基于编辑距离计算中文字符串相似度的方法及装置”(申请号：201310324978.9，公开号：CN103399907A)公开一种基于编辑距离计算中文字符串相似度的方法。该专利的具体步骤包括：(1)采用四角号码将汉字转换成四角编码；(2)采用编辑距离计算汉字的相似度。该方法存在的不足是：采用编辑距离计算字符串的相似度，计算效率会受到数据规模的限制，可扩展性及伸缩性不强；在计算编辑距离时无法保证序列数据的安全，字符串可能遭受到黑客的恶意攻击或窃取，泄露字符串的信息。

百世嘉(上海)医疗技术有限公司申请的专利“用于疾病关联的人类基因组变异分析和报告的系统及方法”(申请号：201480014598.8，公开号：CN105229649A)公开了一种用于疾病关联的人类基因组变异分析和报告的系统及方法。该专利的具体步骤包括：(1)接收和提取疾病相关变异信息；(2)将该疾病相关变异信息存储在第一数据结构中；(3)识别多个基因组变异并且确定与所述多个基因组变异中的至少一个或更多个基因组变异相关联的一个或多个基因组变异。该方法存在的不足之处是：将基因组数据都存储在本地数据库中，占用硬件资源，随着数据量的增大，会超出数据库的承载范围，无法进行计算。

发明内容

本发明的目的在于克服上述现有技术中的不足，提出一种云环境下基于编辑距离的相似碱基序列查询方法。该方法采用碱基序列压缩算法压缩碱基序列，运用隐私差值大小协议计算两个碱基序列的近似编辑距离，从云端大量的电子记录中找出相似碱基序列。

实现本发明目的的技术思路是，云环境下的客户端先计算所有用户碱基序列的单字符操作集，对用户碱基序列的单字符操作集进行聚类，对用户碱基序列和聚类中心分别进行哈希映射，计算待查询碱基序列的单字符操作，对待查询碱基序列的单字符操作集合进行哈希映射；在云计算平台上使用隐私差值大小协议比较待查询碱基序列和聚类中心的近似编辑距离与聚类阈值，选择含有相似碱基序列的候选客户端，使用隐私差值大小协议比较待查询碱基序列和候选客户端中的每个用户的近似编辑距离与近似参数，确定相似碱基序列。

本发明的具体实现步骤包括如下：

(1)计算用户碱基序列的单字符操作集：

(1a)从云环境下的客户端输入每个用户基因组中的脱氧核糖核酸DNA全部信息保存到本地数据库中，所述脱氧核糖核酸DNA包含腺嘌呤A，胸腺嘧啶T，胞嘧啶G，鸟嘌呤C的碱基序列；

(1b)从云环境下的客户端输入一个与碱基序列对应的公共参考序列Ref，保存到本地数据库中；

(1c)采用碱基序列压缩算法，将公共参考序列Ref转化为数据库存储的碱基序列，得到公共参考序列Ref和数据库存储的碱基序列的最小编辑序列；

(1d)运用拆分操作，将最小编辑序列拆分成单字符操作集；

(2)聚类：

采用KMeans聚类方法，在云环境下的客户端上将所有用户的单字符操作集分成几个聚类；

(3)用户碱基序列和聚类中心的哈希映射：

(3a)在云环境下的客户端上，对每个用户的单字符操作集进行哈希映射，得到每个用户的哈希映射集；

(3b)对每个用户的哈希映射集求和，将所得结果作为每个用户碱基序列的映射值；

(3c)对每个聚类中心的单字符操作集分别进行哈希映射，得到每个聚类中心的哈希映射集；

(3d)对每个聚类中心的哈希映射集求和，将所得结果作为每个聚类中心的映射值；

(3e)将每个用户和每个聚类中心的映射值发送给云计算平台；

(4)计算待查询碱基序列的单字符操作集：

(4a)将云环境下客户端输入一个待查询碱基序列保存到本地数据库中；

(4b)采用碱基序列压缩算法，将公共参考序列Ref转化为待查询碱基序列，得到公共参考序列Ref和待查询碱基序列的最小编辑序列；

(4c)运用拆分操作，将最小编辑拆分成单字符操作集；

(5)待查询碱基序列的哈希映射：

(5a)在云环境下的客户端上，对待查询碱基序列的单字符操作集进行哈希映射，得到待查询碱基序列的哈希映射集；

(5b)对待查询碱基序列的哈希映射集求和，将所得结果作为待查询碱基序列的映射值；

(5c)将待查询碱基序列的映射值发送给云计算平台；

(6)选择候选客户端：

(6a)采用隐私差集大小协议，在云计算平台上对待查询碱基序列的映射值和聚类中心的映射值进行计算，得到待查询碱基序列与聚类中心的近似编辑距离；

(6b)比较近似编辑距离与含有近似参数的聚类阈值，将近似编辑距离小于聚类阈值时聚类所在的客户端作为候选客户端；

(7)查找相似碱基序列：

(7a)采用隐私差集大小协议，在云计算平台上对待查询碱基序列的映射值和候选客户端中用户碱基序列的映射值进行计算，得到待查询碱基序列与用户碱基序列的近似编辑距离；

(7b)将近似编辑距离小于近似参数时所对应的用户碱基序列作为待查询碱基序列相似的碱基序列。

本发明与现有的技术相比具有以下优点：

第1、由于本发明采用了碱基序列压缩算法，计算云端数据库中的碱基序列的编辑距离来计算两个碱基序列的差集，克服了现有技术计算效率会受到数据规模的限制，可扩展性及伸缩性不强的不足，使得本发明能够对大规模的碱基序列进行快速的计算。

第2、由于本发明采用隐私差集大小协议，在云计算平台上对计算查询碱基序列的映射值和聚类中心的映射值进行计算，得到两个碱基序列的近似编辑距离，克服了现有技术存在的无法保证序列数据的安全问题的不足，使得本发明能够保证云环境下的碱基序列的安全。

第3、由于本发明应用在云计算平台上查询相似碱基序列，克服了现有技术占用硬件资源的问题，使得本发明可应用到云计算平台上进行相似碱基序列查询，减少使用硬件资源的数量。

附图说明

图1为本发明的流程图；

图2为本发明中计算近似编辑距离步骤的示意图。

具体实施方式

下面结合附图对本发明做进一步的详细描述。

参照图1，本发明的具体实施步骤如下：

步骤1、计算用户碱基序列的单字符操作集。

从云环境下的客户端输入每个用户基因组中的脱氧核糖核酸DNA全部信息保存到本地数据库中，所述脱氧核糖核酸DNA包含腺嘌呤A，胸腺嘧啶T，胞嘧啶G，鸟嘌呤C的碱基序列。

从云环境下的客户端输入一个与碱基序列对应的公共参考序列Ref，保存到本地数据库中。

采用碱基序列压缩算法，将公共参考序列Ref转化为数据库存储的碱基序列，得到公共参考序列Ref和数据库存储的碱基序列的最小编辑序列。

所述的碱基序列压缩算法的具体步骤如下：

第1步，从数据库存储的碱基序列起始位置依次找出所有与公共参考序列Ref中不同的碱基，直至数据库存储的碱基序列结束；

第2步：对于公共参考序列Ref和病人碱基序列中的一个不同碱基，通过插入碱基、删除碱基、替换碱基操作，使得公共参考序列Ref和查询的碱基序列中的不同碱基相同，所述的碱基操作是一个编辑e＝(pos,op,aux)，其中，pos表示编辑的位置,op表示编辑的类型，aux表示编辑信息具体操作；

第3步，对公共参考序列Ref和数据库存储的碱基序列中所有的不同碱基依次按照第2步计算编辑；

第4步，判断公共参考序列Ref和数据库存储的碱基序列中所有的不同碱基是否全部计算完毕，若是，则执行第5步，否则，执行第2步；

第5步，统计公共参考序列Ref转化为数据库存储的碱基序列的所有编辑，从中挑选出碱基操作最少的编辑，得到公共参考序列Ref和数据库存储的碱基序列之间的最小编辑。

碱基序列的最小编辑序列是多字符操作，运用拆分操作将最小编辑拆分成单字符操作集，具体形式为：(loc,ins,c₁...c_n)表示在位置loc上插入字符串c₁...c_n,表示为,被拆分成(loc,ins,c₁)，(loc,ins,c₂)，…，(loc,ins,c_n)；在位置loc上删除长为n的字符串，表示为(loc,del,n)，被拆分成(loc,del,1)，…，(loc+n-1,del,1)，其中，ins表示插入碱基，del表示删除碱基。

下面结合图2对采用碱基序列压缩算法，将公共参考序列Ref转化为数据库存储的碱基序列，得到公共参考序列Ref和数据库存储的碱基序列的最小编辑序列作进一步的说明。

在云环境下的客户端采用碱基序列压缩算法，将碱基序列GCAATAGCCTTC转化为Ref＝GCACTGGCCTT，得到公共参考序列Ref和碱基序列的最小编辑序列A{(4,sub,A),(6,sub,A),(12,ins,C)}。采用碱基序列压缩算法，将碱基序列CACAAGCCATTC转化为Ref＝GCACTGGCCTT，得到公共参考序列Ref和碱基序列CACAAGCCATTC的最小编辑序B{(1,del,1),(5,sub,A),(6,sub,A),(10,ins,A),(12,sub,C)}。

步骤2、聚类。

采用KMeans聚类方法，在云环境下的客户端上将所有用户的单字符操作集分成几个聚类。

所述的KMeans聚类方法的具体步骤如下：

第1步：将n个单字符操作集聚集为c个聚类，n表示初始待聚类的单字符操作集的数目，c表示初始聚类的数目；

第2步：将每个类中单字符操集的平均值作为每个类的聚类中心；

第3步：设定迭代次数K，设定初始迭代次数为1；

第4步：读取待聚类的单字符操作集；

第5步：计算待聚类的单字符操作集和各个聚类中心的编辑距离；

第6步：将待聚类的单字符操作集归到编辑距离最小的聚类中心所在的类，计算新类中单字符操作集的平均值作为聚类中心；

第7步：判断迭代次数是否等于K，若是，完成聚类，否则，将迭代次数加1，执行第4步。

步骤3、用户碱基序列和聚类中心的哈希映射。

云环境下的客户端对每个用户的单字符操作集中的元素进行预处理，将用户的单字符操作集合的元素转换成整数，得到整数集合D。

利用二元哈希函数对每个用户整数集合D中的每一位元素都进行m次哈希映射,其中，U表示整数集合D中所有的元素，m是足够大的数，目的是减少哈希映射的误差。

对m次哈希映射后的函数值求和得到映射值d_D＝∑_d∈Dh(d),其中，d_D表示映射值_，∑表示求和操作，d表示整数集合D中的元素，h(d)表示二元哈希映射函数。

云环境下的客户端对每个聚类中心的单字符操作集中的元素进行预处理，将聚类中心的单字符操作集合的元素转换成整数，得到整数集合E。

利用二元哈希函数对每个聚类中心整数集合E中的每一位元素都进行m次哈希映射,其中，U表示整数集合E中所有的元素，m是足够大的数，目的是减少哈希映射的误差。

对m次哈希映射后的函数值求和得到映射值d_E＝∑_e∈Eh(e),其中，d_E表示映射值_，∑表示求和操作，e表示整数集合E中的元素，h(e)表示二元哈希映射函数。

将每个用户和每个聚类中心的映射值发送给云计算平台。

下面结合图2对碱基序列的哈希映射作进一步的说明。对碱基序列GCAATAGCCTTC的单字符操作集进行哈希映射，得到映射值d_A，对碱基序列CACAAGCCATTC的单字符操作集进行哈希映射，得到映射值d_B。

步骤4、计算待查询碱基序列的单字符操作集。

将云环境下客户端输入一个待查询碱基序列保存到本地数据库中。

采用碱基序列压缩算法，将公共参考序列Ref转化为待查询碱基序列，得到公共参考序列Ref和查询的碱基序列的最小编辑序列。

所述的碱基序列压缩算法的具体步骤如下：

第1步：从待查询碱基序列起始位置依次找出所有与公共参考序列Ref中不同的碱基，直至查询的碱基序列结束；

第2步：对于公共参考序列Ref和待查询碱基序列中的一个不同碱基，通过插入碱基、删除碱基、替换碱基操作，使得公共参考序列Ref和待查询碱基序列中的不同碱基相同，所述的碱基操作是一个编辑e＝(pos,op,aux)，其中，pos表示编辑的位置,op表示编辑的类型，aux表示编辑信息具体操作；

第3步：对公共参考序列Ref和待查询碱基序列中所有的不同碱基依次按照第2步计算编辑；

第4步：判断公共参考序列Ref和待查询碱基序列中所有的不同碱基是否全部计算完毕，若是，则执行第5步，否则，执行第2步；

第5步：统计公共参考序列Ref转化为待查询碱基序列的所有编辑，从中挑选出碱基操作最少的编辑，得到公共参考序列Ref和查询的碱基序列之间的最小编辑。

步骤5、待查询碱基序列的哈希映射。

云环境下的客户端对待查询碱基序列的单字符操作集中的元素进行预处理，将待查询碱基序列的单字符操作集合的元素转换成整数，得到整数集合F。

利用二元哈希函数对整数集合F中的每一位元素都进行m次哈希映射，其中，U表示整数集合中所有的元素，m表示哈希映射次数，m是足够大的数，目的是减少哈希映射的误差。

云环境下的客户端对m次哈希映射后的函数值分别求和得到m个映射值d_F＝∑_f∈Fh(f),其中，d_F表示映射值，∑表示求和操作，f表示整数集合F中的元素，h(f)表示二元哈希映射函数。

将待查询碱基序列的映射值发送给云计算平台。

步骤6、选择候选客户端。

碱基序列X和碱基序列Y的编辑距离表示为碱基序列X和碱基序列Y的对称差集，即(X-Y)∪(Y-X)，本发明利用碱基序列X的映射值d_X和碱基序列Y映射值d_Y计算两个碱基序列的近似编辑距离，理论证明如下：

二元哈希函数对于碱基序列S中任何元素s，s₁，s₂(s₁≠s₂)

E[h(s₁)h(s₂)]＝E[h(s₁)]E[h(s₂)]＝0

E [d_{s}^{2}] = E [{(\underset{s &Element; S}{Σ} h (s))}^{2}] = E [\underset{s &Element; S}{Σ} h^{2} (s) + 2 \cdot \underset{s_{1} &NotEqual; s_{2}}{Σ} h (s_{1}) h (s_{2})] = E [\underset{s &Element; S}{Σ} h^{2} (s)] = | S |

对于任意碱基序列X和碱基序列Y，有

d_{X} - d_{Y} = \underset{s &Element; X}{Σ} h (s) - \underset{s &Element; Y}{Σ} h (s) = \underset{s &Element; X - Y}{Σ} h (s) - \underset{s &Element; Y - X}{Σ} h (s)

\begin{matrix} E [{(d_{X} - d_{Y})}^{2}] = E [{(\underset{s &Element; X - Y}{Σ} h (s))}^{2} + (\underset{s &Element; Y - X}{Σ} h (s))^{2} + 2 \cdot (\underset{s_{1} &Element; X - Y}{Σ} h (s_{1})) \cdot (\underset{s_{2} &Element; Y - X}{Σ} h (s_{2}))] \\ = | X - Y | + | Y - X | + 2 \cdot 0 = | D i f f (X, Y) | \end{matrix}

因此，可以用E[(d_X-d_Y)²]表示碱基序列X和碱基序列Y之间的近似编辑距离|Diff(X,Y)|，其中，E[(d_X-d_Y)²]表示碱基序列X的映射值d_X和碱基序列Y映射值d_Y差的平方的期望值。

云计算平台接收到客户端发送来的待查询碱基序列和聚类中心的m次哈希映射后的函数值，保存在云端数据库中。

将待查询碱基序列和聚类中心的m次哈希映射后的函数值计算差的平方，作为m个待查询碱基序列和聚类中心的近似编辑距离。

将m个近似编辑距离的平均值作为待查询碱基序列和聚类中心最终的近似编辑距离。

比较近似编辑距离与含有近似参数的聚类阈值，将近似编辑距离小于聚类阈值时聚类所在的客户端作为候选客户端。

下面结合图2对两个碱基序列作进一步的说明。在云计算平台上采用隐私差集大小协议计算单字符操作集A和单字符操作集B的近似编辑距离。

比较近似编辑距离与含有近似参数的聚类阈值，将近似编辑距离小于含有近似参数的聚类阈值时聚类所在的客户端作为候选客户端，含有近似参数的聚类阈值是：δ+ε，其中，δ表示每个聚类的半径，ε表示近似参数，0<ε<1，由用户事先给定，控制结果精确度。

步骤7、查找相似碱基序列。

云计算平台接收到客户端发送来的待查询碱基序列和候选客户端中用户碱基序列的m次哈希映射后的函数值，保存在云端数据库中。

将待查询碱基序列和候选客户端中用户碱基序列的m次哈希映射后的函数值计算差的平方，作为m个待查询碱基序列和候选客户端中用户碱基序列的近似编辑距离。

将m个近似编辑距离的平均值作为待查询碱基序列和候选客户端中用户碱基序列最终的近似编辑距离。

比较待查询碱基序列和候选客户端的用户碱基序列的近似编辑距离与近似参数，近似编辑距离小于近似参数所对应的用户碱基序列就是我们要找的相似碱基序列。

Claims

1.一种云环境下基于编辑距离的相似碱基序列查询方法，包括如下步骤：

(1)计算用户碱基序列的单字符操作集：

(1d)运用拆分操作，将最小编辑序列拆分成单字符操作集；

(2)聚类：

(3)用户碱基序列和聚类中心的哈希映射：

(3e)将每个用户和每个聚类中心的映射值发送给云计算平台；

(4)计算待查询碱基序列的单字符操作集：

(4c)运用拆分操作，将最小编辑拆分成单字符操作集；

(5)待查询碱基序列的哈希映射：

(5c)将待查询碱基序列的映射值发送给云计算平台；

(6)选择候选客户端：

(7)查找相似碱基序列：

2.根据权利要求1所述的云环境下基于编辑距离的相似碱基序列查询方法，其特征在于：步骤(1c)中所述的碱基序列压缩算法的具体步骤如下：

第2步，对于公共参考序列Ref和数据库存储的碱基序列中的一个不同碱基，通过对碱基的编辑，使得公共参考序列Ref和数据库存储的碱基序列中的不同碱基相同；

3.根据权利要求1所述的云环境下基于编辑距离的相似碱基序列查询方法，其特征在于：步骤(2)中所述的KMeans聚类方法的具体步骤如下：

第1步，将n个单字符操作集聚集为c个聚类，n表示初始待聚类的单字符操作集的数目，c表示初始聚类的数目；

第2步，将每个类中单字符操集的平均值作为每个类的聚类中心；

第3步，设定迭代次数K，设定初始迭代次数为1；

第4步，读取待聚类的单字符操作集；

第5步，计算待聚类的单字符操作集和各个聚类中心的编辑距离；

第6步，将待聚类的单字符操作集归到编辑距离最小的聚类中心所在的类，计算新类中单字符操作集的平均值作为聚类中心；

第7步，判断迭代次数是否等于K，若是，完成用户的单字符操作集聚类，否则，将迭代次数加1，执行第4步。

4.根据权利要求1所述的云环境下基于编辑距离的相似碱基序列查询方法，其特征在于：步骤(3)、步骤(5)中所述的哈希映射的具体步骤如下：

第1步，云环境下的客户端对单字符操作集中的元素进行预处理，将单字符操作集合的元素转换成整数，得到整数集合S；

第2步，利用二元哈希函数对整数集合中的每一位元素都进行m次哈希映射，其中，U表示整数集合中所有的元素，m表示哈希映射次数；

第3步，云环境下的客户端对m次哈希映射后的函数值分别求和，得到m个映射值d_S＝∑_s∈Sh(s),其中，d_S表示映射值，∑表示求和操作，s表示整数集合S中的元素，h(s)表示二元哈希映射函数。

5.根据权利要求1所述的云环境下基于编辑距离的相似碱基序列查询方法，其特征在于：步骤(6a)中所述的隐私差集大小协议的具体步骤如下：

第1步，云计算平台接收到客户端发送来的待查询碱基序列和聚类中心的m次哈希映射后的函数值，保存到云端数据库中；

第2步，将待查询碱基序列和聚类中心的m次哈希映射后的函数值差的平方，作为m个待查询碱基序列和聚类中心的近似编辑距离；

第3步，将m个近似编辑距离的平均值作为待查询碱基序列和聚类中心最终的近似编辑距离。

6.根据权利要求1所述的云环境下基于编辑距离的相似碱基序列查询方法，其特征在于：步骤(6b)中所述的含有近似参数的聚类阈值是：δ+ε，其中，δ表示每个聚类的半径，ε表示近似参数，0<ε<1。