CN111540409B

CN111540409B - 基于隐私保护的基因相似度计算方法及基因信息获取方法

Info

Publication number: CN111540409B
Application number: CN202010312340.3A
Authority: CN
Inventors: 汪洁; 张由甲
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2023-06-27
Anticipated expiration: 2040-04-20
Also published as: CN111540409A

Abstract

本发明公开了一种基于隐私保护的基因相似度计算方法，包括数据库端和用户端分别进行初始化；用户端和数据库端对各自的基因序列进行字符填充；用户端得到用户基因移动序列；数据库端得到存储基因移动序列；用户端得到用户基因移动序列向量；数据库端得到存储基因移动序列向量；用户端对用户基因移动序列向量加密并发送数据库端；数据库端解密并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度并得到最终的基因相似度计算结果。本发明还公开了包括所述基于隐私保护的基因相似度计算方法的基因信息获取方法。本发明实现了对用户基因序列与数据库中基因序列的相似度计算、比对和保密传输，而且可靠性高、实用性、保密性和准确性好。

Description

基于隐私保护的基因相似度计算方法及基因信息获取方法

技术领域

本发明属于生物信息技术领域，具体涉及一种基于隐私保护的基因相似度计算方法及基因信息获取方法。

背景技术

人类的全部生物信息可以由基因数据反映出来，并存储在人类的脱氧核糖核酸(deoxyribonucleic acid，简称DNA)序列之中。生物的遗传和变异都与DNA密切相关。如今基因测序技术飞速发展，基因测序的成本正在逐渐降低；基因数据在很多领域有着广泛的应用。

在医学上，为了给病人提供最佳的治疗方案，医生需要将病人的DNA与远程基因组数据库进行比对。数据库中存储个体基因组序列，每个序列都标有此人的医疗状况(Medical Conditions)。医生需要在数据库中找到与病人基因组序列最相似的少数个体，并了解这些个体的医疗状况。这种在数据库中的查询称为相似病人查询(Similar PatientQueries，简称SPQ)。SPQ有利于确定疾病背后的基因突变，也有利于避免无法治愈疾病的痛苦治疗方案，提供更准确的疾病预测和指导。

人类有99.9％以上的DNA是相同的，剩下部分由于遗传变异而不同。最常见的变异只涉及单个核苷酸，这种变异称为单核苷酸多态性(single nucleotide polymorphism，简称SNP)。在基因组序列中只需30～80个独立的SNP位点就可以唯一重识别个体，并含有该个体的隐私敏感信息，例如，载脂蛋白E(apolipoprotein E)基因的两个SNP(rs429358和rs7412)会增加患阿尔茨海默病(Alzheimer’s disease)的风险。

现阶段，信息技术快速发展，医生能够较为轻松的将病人的基因组数据与远程数据库中的若干个体基因组数据进行比对，从而获取相应的相似基因组的相关数据。但是，随着信息技术的发展，病人基因组数据的发送和接收，以及数据库中基因组数据的传输等过程，极易受到攻击，从而导致数据的泄露，紧接着可能会造成严重的隐私泄露，并给社会带来重要的影响。

为了安全地使用数据库中的人类基因数据，需要隐私保护技术保证基因数据的隐私性。目前主要有三种保护基因隐私的思路：基于加密算法的方法、基于差分隐私的方法和基于安全计算协议的方法。

为了解决微生物测序的隐私问题，Wagner等人使用安全计算实现宏基因组分析。Baldi等人提出的PSI协议和Brudno等人提出的PSIS协议是基于海明距离(hammingdistance)近似计算基因数据的相似性。虽然保护了基因数据的隐私性，但只能处理较短的基因组片段。Wang等人通过基因编辑距离(edit distance)近似算法和Private SetDifference Size协议提出了隐私编辑距离协议。但在一些情况下的计算结果并不理想，因为序列的字符排列方式会影响到单字符编辑操作(single-character edits)集合的计算结果，使得相似度计算的偏差，从而导致相似病人查询结果不准确。

发明内容

本发明的目的之一在于提供一种可靠性高、实用性好、保密性好且准确性好的基于隐私保护的基因相似度计算方法。

本发明的目的之二在于提供一种包括了所述基于隐私保护的基因相似度计算方法的基因信息获取方法。

本发明提供的这种基于隐私保护的基因相似度计算方法，包括如下步骤：

S1.数据库端和用户端分别进行初始化；

S2.用户端对用户基因序列进行字符填充；数据库端对数据库存储的存储基因序列进行字符填充；

S3.用户端对用户基因序列进行移动划分，从而得到用户基因移动序列；

S4.数据库端对存储基因序列进行若干次移动划分，从而得到存储基因移动序列；

S5.用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量，得到用户基因移动序列向量；同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量，得到存储基因移动序列向量；

S6.用户端对用户基因移动序列向量加密，并将加密后的用户基因移动序列向量和设定阈值发送给数据库端；

S7.数据库端对接收的步骤S6发送的数据进行解密，并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度，从而得到最终的基因相似度计算结果。

步骤S1所述的数据库端和用户端分别进行初始化，具体为数据库端初始化划分窗口值b；用户端初始化公钥pk和私钥sk。

步骤S2所述的用户端对用户基因序列进行字符填充；数据库端对数据库存储的存储基因序列进行字符填充，具体为用户端对用户基因序列Q进行字符填充，数据库端对数据库存储的存储基因序列S进行字符填充，且填充字符的个数均为

为向上取整函数；b为划分窗口值。

步骤S3所述的用户端对用户基因序列进行移动划分，从而得到用户基因移动序列，具体为用户端对用户基因序列Q进行一次移动划分，从而得到用户基因移动序列

步骤S4所述的数据库端对存储基因序列进行若干次移动划分，从而得到存储基因移动序列，具体为数据库端对存储基因序列S进行b次移动划分，从而得到存储基因移动序列

其中b为划分窗口值。

步骤S4所述的数据库端对存储基因序列进行若干次移动划分，从而得到存储基因移动序列，具体为采用如下步骤进行划分：

A.初始化序列参数n＝1；

B.初始化循环参数t＝1；

C.将划分窗口移动到距离序列S_n首字符t-1的位置；

D.移动划分序列S_n得到

其中/>

的元素个数为l，且l≤b；S_n的元素个数为L，且满足/>

b为划分窗口值；

E.根据步骤C的结果，得到序列

F.将循环参数t增加1，并重复步骤C～步骤E，直至循环参数t等于b；其中b为划分窗口值；

F.将序列参数n增加1，并重复步骤B～步骤F，直至序列参数n等于k；其中k为存储基因序列的元素个数。

步骤S5所述的用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量，得到用户基因移动序列向量；同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量，得到存储基因移动序列向量，具体为采用如下步骤得到用户基因移动序列向量和存储基因移动序列向量：

a.设定集合M＝{m₁,m₂,...,m_L}，且满足用户基因移动序列

和/>

其中/>

为序列/>

中的元素，且i∈[1,k]，t＝1,2,...,b；

b.采用如下规则，用户端构建得到用户基因移动序列向量

数据库端构建得到存储基因移动序列向量/>

其中b为划分窗口值。

步骤S6所述的用户端对用户基因移动序列向量加密，具体为用户端采用公钥，利用同态加密算法对用户基因移动序列向量进行加密。

步骤S7所述的计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度，具体为采用如下步骤计算序列相似度：

(1)将相似度值δ初始化为0；

(2)初始化第二循环参数i＝1；

(3)初始化中间参数ω＝0；

(4)令第二中间参数γ＝min(α,β)；

(5)初始化第三循环参数t＝1；

(6)初始化第四循环参数j＝1；

(7)数据库端采用如下算式计算得到第三中间参数E(v_j)：

(8)数据库端将步骤(7)得到的第三中间参数E(v_j)加密后发送给用户端；

(9)用户端将接收的数据解密后得到v_j，并更新ω的值为ω+v_j；同时第四循环参数j的值增加1；

(10)重复步骤(7)～步骤(9)直至第四循环参数j的值等于L；然后第三循环参数t的值增加1；

(11)重复步骤(6)～步骤(10)直至第三循环参数t的值为γ；

(12)再次更新ω的值为

(13)更新δ的值为ω+δ；同时第二循环参数i的值增加1；

(14)重复步骤(3)～步骤(13)直至第二循环参数i的值为b；

(15)最终得到的相似度值δ为数据库端存储的所有存储基因序列与用户端的用户基因序列之间的相似度值。

本发明还公开了一种包括了所述基于隐私保护的基因相似度计算方法的基因信息获取方法，具体还包括如下步骤：

S8.根据步骤S7得到的基因相似度计算结果，数据库端将基因相似度值大于设定值时所对应的存储基因序列的基因信息，加密发送给用户端，从而完成用户端的基因信息获取。

本发明提供的这种基于隐私保护的基因相似度计算方法及基因信息获取方法，通过对用户基因和存储基因的填充、分块、加密传输和相似度计算，实现了对用户基因序列与数据库中存储的基因序列的相似度计算、比对和保密传输；而且本发明方法的可靠性高、实用性好、保密性好且准确性好。

附图说明

图1为本发明方法的相似度计算方法的方法流程示意图。

图2为本发明方法的移动划分示意图。

图3为本发明方法的基因信息获取方法的方法流程示意图。

具体实施方式

如图1所示为本发明方法的相似度计算方法的方法流程示意图：本发明提供的这种基于隐私保护的基因相似度计算方法，包括如下步骤：

S1.数据库端和用户端分别进行初始化；具体为数据库端初始化划分窗口值b；用户端初始化公钥pk和私钥sk；

S2.用户端对用户基因序列进行字符填充；数据库端对数据库存储的存储基因序列进行字符填充；具体为用户端对用户基因序列Q进行字符填充，数据库端对数据库存储的存储基因序列S进行字符填充，且填充字符的个数均为

为向上取整函数；b为划分窗口值；

S3.用户端对用户基因序列进行移动划分，从而得到用户基因移动序列；具体为用户端对用户基因序列Q进行一次移动划分，从而得到用户基因移动序列

S4.数据库端对存储基因序列进行若干次移动划分，从而得到存储基因移动序列；具体为数据库端对存储基因序列S进行b次移动划分，从而得到存储基因移动序列

其中b为划分窗口值；

在具体实施时，采用如下步骤进行划分：

A.初始化序列参数n＝1；

B.初始化循环参数t＝1；

C.将划分窗口移动到距离序列S_n首字符t-1的位置；

D.移动划分序列S_n得到

其中/>

的元素个数为l，且l≤b；S_n的元素个数为L，且满足/>

b为划分窗口值；

E.根据步骤C的结果，得到序列

F.将序列参数n增加1，并重复步骤B～步骤F，直至序列参数n等于k；其中k为存储基因序列的元素个数；

S5.用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量，得到用户基因移动序列向量；同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量，得到存储基因移动序列向量；具体为采用如下步骤得到用户基因移动序列向量和存储基因移动序列向量：

a.设定集合M＝{m₁,m₂,...,m_L}，且满足用户基因移动序列

和/>

其中/>

为序列/>

中的元素，且i∈[1,k]，t＝1,2,...,b；

b.采用如下规则，用户端构建得到用户基因移动序列向量

数据库端构建得到存储基因移动序列向量/>

其中b为划分窗口值；

其中，移动划分的示意图如图2所示；

移动划分的定义为：在对序列进行划分时，划分窗口的有规律地移动。划分窗口每次移动b个偏移量，b为划分窗口的大小；

划分窗口对序列进行移动划分，将序列划分成若干块。划分窗口的工作效果如图2所示。划分窗口将序列S移动划分为s₁～s₄四块；

比如：序列S发生单字符缺失产生序列Q；设置划分窗口大小为4。

S＝CGGGACCAAGACTGTTACGATAAATTTACGAACCATAAGG

Q＝CGGGACCAAGACTGTTCGATAAATTTACGAACCATAAGG

对序列Q进行字符填充(填充字符用#表示)，得到序列Q’：

Q’＝##CGGGACCAAGACTGTTGATAAATTTACGAACCATAAGG

对序列S和序列Q’进行新的序列分块方案:

S＝CGGG/ACCA/AGAC/TGTT/ACGA/TAAA/TTTA/CGAA/CCAT/AAGG

Q₁’＝#CGG/GACC/AAGA/CTGT/TCGA/TAAA/TTTA/CGAA/CCAT/AAGG

Q₂’＝CGGG/ACCA/AGAC/TGTT/CGAT/AAAT/TTAC/GAAC/CATA

Q₃’＝GGGA/CCAA/GACT/GTTC/GATA/AATT/TACG/AACC/ATAA

Q₄’＝GGAC/CAAG/ACTG/TTCG/ATAA/ATTT/ACGA/ACCA/TAAG

得到的序列相似度为94.4％。

而序列简单划分下：

S＝CGGG/ACCA/AGAC/TGTT/ACGA/TAAA/TTTA/CGAA/CCAT/AAGG

Q＝CGGG/ACCA/AGAC/TGTT/CGAT/AAAT/TTAC/GAAC/CATA

得到的序列块相似度为44.4％。

S6.用户端对用户基因移动序列向量加密，并将加密后的用户基因移动序列向量和设定阈值发送给数据库端；具体为用户端采用公钥，利用同态加密算法对用户基因移动序列向量进行加密；

在具体实施时，使用Paillier同态加密算法：

Encryption：

plaintext m<n；

select a random r<n；

ciphertext c＝g^m·rⁿ mod n²

Decryption:

ciphertext c<n²,

其中，n＝pq，p和q为两个大素数，

λ表示λ(n)＝lcm(p-1,q-1)，

且满足gcd(L(g^λmod n²),n)＝1；其中lcm()为求最小公倍数函数；gcd()为求最大公约数函数；

Paillier同态加密算法中公钥是(n,g)，私钥是(p,q)，加密函数记为E(·)，该同态加密算法拥有如下加法同态性：

E(m₁)E(m₂)mod n²＝E(m₁+m₂)mod n

上述两式的运算性质可以保证在不知道m₁内容的情况下得到E(m₁+m₂)和E(m₁·m₂)的计算结果；

S7.数据库端对接收的步骤S6发送的数据进行解密，并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度，从而得到最终的基因相似度计算结果；具体为采用如下步骤计算序列相似度：

(1)将相似度值δ初始化为0；

(2)初始化第二循环参数i＝1；

(3)初始化中间参数ω＝0；

(4)令第二中间参数γ＝min(α,β)；

(5)初始化第三循环参数t＝1；

(6)初始化第四循环参数j＝1；

(7)数据库端采用如下算式计算得到第三中间参数E(v_j)：

(11)重复步骤(6)～步骤(10)直至第三循环参数t的值为γ；

(12)再次更新ω的值为

(13)更新δ的值为ω+δ；同时第二循环参数i的值增加1；

(14)重复步骤(3)～步骤(13)直至第二循环参数i的值为b；

其中，衡量两个被分块的序列

和/>

之间的相似程度的量为序列相似度ω，其满足/>

其中l＝min(n,m)；函数φ用于判断两个块s_i和q_i是否相等，且相等时返回1，不相等时返回0。

以下几个一个实施例，对本发明方法进行进一步说明：

以个人基因组计划(PGP)公开数据集中所被选择个体的基因组片段作为实验数据。实验结果如表1所示：

表1各个方案下的序列相似度

最小编辑距离	序列相似度计算协议	隐私编辑距离协议
			95.3763％	99.5235％	92.6426％
93.2884％	97.4249％	89.2430％
			91.9731％	94.4413％	88.1841％
90.9115％	91.9723％	86.0484％
			90.0580％	90.1067％	85.6169％

从表中展示的结果可以看到：当寻找某一阈值下的相似病人时，基于隐私编辑距离的方案会错误地将应该留下的数据过滤掉；而本发明方法则可以保留下正确的数据，提高查询结果的质量。

如图3所示为本发明的基因信息获取方法的方法流程示意图：

本发明还公开了一种包括了所述基于隐私保护的基因相似度计算方法的基因信息获取方法，具体包括如下步骤：

S1.数据库端和用户端分别进行初始化；

S7.数据库端对接收的步骤S6发送的数据进行解密，并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度，从而得到最终的基因相似度计算结果；

Claims

1.一种基于隐私保护的基因相似度计算方法，包括如下步骤：

S1.数据库端和用户端分别进行初始化；

其中b为划分窗口值；具体为采用如下步骤进行划分：

A.初始化序列参数n＝1；

B.初始化循环参数t＝1；

C.将划分窗口移动到距离序列S_n首字符t-1的位置；

D.移动划分序列S_n得到

其中/>

的元素个数为l，且l≤b；S_n的元素个数为L，且满足/>

b为划分窗口值；

E.根据步骤C的结果，得到序列

S7.数据库端对接收的步骤S6发送的数据进行解密，并计算用户基因移动序列向量与存储基因移动序列向量之间的序列相似度，从而得到最终的基因相似度计算结果。

2.根据权利要求1所述的基于隐私保护的基因相似度计算方法，其特征在于步骤S1所述的数据库端和用户端分别进行初始化，具体为数据库端初始化划分窗口值b；用户端初始化公钥pk和私钥sk。

3.根据权利要求2所述的基于隐私保护的基因相似度计算方法，其特征在于步骤S2所述的用户端对用户基因序列进行字符填充；数据库端对数据库存储的存储基因序列进行字符填充，具体为用户端对用户基因序列Q进行字符填充，数据库端对数据库存储的存储基因序列S进行字符填充，且填充字符的个数均为

为向上取整函数；b为划分窗口值。

4.根据权利要求3所述的基于隐私保护的基因相似度计算方法，其特征在于步骤S3所述的用户端对用户基因序列进行移动划分，从而得到用户基因移动序列，具体为用户端对用户基因序列Q进行一次移动划分，从而得到用户基因移动序列

5.根据权利要求4所述的基于隐私保护的基因相似度计算方法，其特征在于步骤S5所述的用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量，得到用户基因移动序列向量；同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量，得到存储基因移动序列向量，具体为采用如下步骤得到用户基因移动序列向量和存储基因移动序列向量：

a.设定集合M＝{m₁,m₂,...,m_L}，且满足用户基因移动序列