CN111540409B - 基于隐私保护的基因相似度计算方法及基因信息获取方法 - Google Patents

基于隐私保护的基因相似度计算方法及基因信息获取方法 Download PDF

Info

Publication number
CN111540409B
CN111540409B CN202010312340.3A CN202010312340A CN111540409B CN 111540409 B CN111540409 B CN 111540409B CN 202010312340 A CN202010312340 A CN 202010312340A CN 111540409 B CN111540409 B CN 111540409B
Authority
CN
China
Prior art keywords
gene
user
sequence
database
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010312340.3A
Other languages
English (en)
Other versions
CN111540409A (zh
Inventor
汪洁
张由甲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010312340.3A priority Critical patent/CN111540409B/zh
Publication of CN111540409A publication Critical patent/CN111540409A/zh
Application granted granted Critical
Publication of CN111540409B publication Critical patent/CN111540409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于隐私保护的基因相似度计算方法,包括数据库端和用户端分别进行初始化;用户端和数据库端对各自的基因序列进行字符填充;用户端得到用户基因移动序列;数据库端得到存储基因移动序列;用户端得到用户基因移动序列向量;数据库端得到存储基因移动序列向量;用户端对用户基因移动序列向量加密并发送数据库端;数据库端解密并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度并得到最终的基因相似度计算结果。本发明还公开了包括所述基于隐私保护的基因相似度计算方法的基因信息获取方法。本发明实现了对用户基因序列与数据库中基因序列的相似度计算、比对和保密传输,而且可靠性高、实用性、保密性和准确性好。

Description

基于隐私保护的基因相似度计算方法及基因信息获取方法
技术领域
本发明属于生物信息技术领域,具体涉及一种基于隐私保护的基因相似度计算方法及基因信息获取方法。
背景技术
人类的全部生物信息可以由基因数据反映出来,并存储在人类的脱氧核糖核酸(deoxyribonucleic acid,简称DNA)序列之中。生物的遗传和变异都与DNA密切相关。如今基因测序技术飞速发展,基因测序的成本正在逐渐降低;基因数据在很多领域有着广泛的应用。
在医学上,为了给病人提供最佳的治疗方案,医生需要将病人的DNA与远程基因组数据库进行比对。数据库中存储个体基因组序列,每个序列都标有此人的医疗状况(Medical Conditions)。医生需要在数据库中找到与病人基因组序列最相似的少数个体,并了解这些个体的医疗状况。这种在数据库中的查询称为相似病人查询(Similar PatientQueries,简称SPQ)。SPQ有利于确定疾病背后的基因突变,也有利于避免无法治愈疾病的痛苦治疗方案,提供更准确的疾病预测和指导。
人类有99.9%以上的DNA是相同的,剩下部分由于遗传变异而不同。最常见的变异只涉及单个核苷酸,这种变异称为单核苷酸多态性(single nucleotide polymorphism,简称SNP)。在基因组序列中只需30~80个独立的SNP位点就可以唯一重识别个体,并含有该个体的隐私敏感信息,例如,载脂蛋白E(apolipoprotein E)基因的两个SNP(rs429358和rs7412)会增加患阿尔茨海默病(Alzheimer’s disease)的风险。
现阶段,信息技术快速发展,医生能够较为轻松的将病人的基因组数据与远程数据库中的若干个体基因组数据进行比对,从而获取相应的相似基因组的相关数据。但是,随着信息技术的发展,病人基因组数据的发送和接收,以及数据库中基因组数据的传输等过程,极易受到攻击,从而导致数据的泄露,紧接着可能会造成严重的隐私泄露,并给社会带来重要的影响。
为了安全地使用数据库中的人类基因数据,需要隐私保护技术保证基因数据的隐私性。目前主要有三种保护基因隐私的思路:基于加密算法的方法、基于差分隐私的方法和基于安全计算协议的方法。
为了解决微生物测序的隐私问题,Wagner等人使用安全计算实现宏基因组分析。Baldi等人提出的PSI协议和Brudno等人提出的PSIS协议是基于海明距离(hammingdistance)近似计算基因数据的相似性。虽然保护了基因数据的隐私性,但只能处理较短的基因组片段。Wang等人通过基因编辑距离(edit distance)近似算法和Private SetDifference Size协议提出了隐私编辑距离协议。但在一些情况下的计算结果并不理想,因为序列的字符排列方式会影响到单字符编辑操作(single-character edits)集合的计算结果,使得相似度计算的偏差,从而导致相似病人查询结果不准确。
发明内容
本发明的目的之一在于提供一种可靠性高、实用性好、保密性好且准确性好的基于隐私保护的基因相似度计算方法。
本发明的目的之二在于提供一种包括了所述基于隐私保护的基因相似度计算方法的基因信息获取方法。
本发明提供的这种基于隐私保护的基因相似度计算方法,包括如下步骤:
S1.数据库端和用户端分别进行初始化;
S2.用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充;
S3.用户端对用户基因序列进行移动划分,从而得到用户基因移动序列;
S4.数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列;
S5.用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量;
S6.用户端对用户基因移动序列向量加密,并将加密后的用户基因移动序列向量和设定阈值发送给数据库端;
S7.数据库端对接收的步骤S6发送的数据进行解密,并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度,从而得到最终的基因相似度计算结果。
步骤S1所述的数据库端和用户端分别进行初始化,具体为数据库端初始化划分窗口值b;用户端初始化公钥pk和私钥sk。
步骤S2所述的用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充,具体为用户端对用户基因序列Q进行字符填充,数据库端对数据库存储的存储基因序列S进行字符填充,且填充字符的个数均为
Figure BDA0002458329730000031
为向上取整函数;b为划分窗口值。
步骤S3所述的用户端对用户基因序列进行移动划分,从而得到用户基因移动序列,具体为用户端对用户基因序列Q进行一次移动划分,从而得到用户基因移动序列
Figure BDA0002458329730000041
步骤S4所述的数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列,具体为数据库端对存储基因序列S进行b次移动划分,从而得到存储基因移动序列
Figure BDA0002458329730000042
其中b为划分窗口值。
步骤S4所述的数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列,具体为采用如下步骤进行划分:
A.初始化序列参数n=1;
B.初始化循环参数t=1;
C.将划分窗口移动到距离序列Sn首字符t-1的位置;
D.移动划分序列Sn得到
Figure BDA0002458329730000043
其中/>
Figure BDA0002458329730000044
的元素个数为l,且l≤b;Sn的元素个数为L,且满足/>
Figure BDA0002458329730000045
b为划分窗口值;
E.根据步骤C的结果,得到序列
Figure BDA0002458329730000046
F.将循环参数t增加1,并重复步骤C~步骤E,直至循环参数t等于b;其中b为划分窗口值;
F.将序列参数n增加1,并重复步骤B~步骤F,直至序列参数n等于k;其中k为存储基因序列的元素个数。
步骤S5所述的用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量,具体为采用如下步骤得到用户基因移动序列向量和存储基因移动序列向量:
a.设定集合M={m1,m2,...,mL},且满足用户基因移动序列
Figure BDA0002458329730000051
和/>
Figure BDA0002458329730000052
其中/>
Figure BDA0002458329730000053
为序列/>
Figure BDA0002458329730000054
中的元素,且i∈[1,k],t=1,2,...,b;
b.采用如下规则,用户端构建得到用户基因移动序列向量
Figure BDA0002458329730000055
数据库端构建得到存储基因移动序列向量/>
Figure BDA0002458329730000056
Figure BDA0002458329730000057
Figure BDA0002458329730000058
Figure BDA0002458329730000059
Figure BDA00024583297300000510
Figure BDA00024583297300000511
其中b为划分窗口值。
步骤S6所述的用户端对用户基因移动序列向量加密,具体为用户端采用公钥,利用同态加密算法对用户基因移动序列向量进行加密。
步骤S7所述的计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度,具体为采用如下步骤计算序列相似度:
(1)将相似度值δ初始化为0;
(2)初始化第二循环参数i=1;
(3)初始化中间参数ω=0;
(4)令第二中间参数γ=min(α,β);
(5)初始化第三循环参数t=1;
(6)初始化第四循环参数j=1;
(7)数据库端采用如下算式计算得到第三中间参数E(vj):
Figure BDA00024583297300000512
(8)数据库端将步骤(7)得到的第三中间参数E(vj)加密后发送给用户端;
(9)用户端将接收的数据解密后得到vj,并更新ω的值为ω+vj;同时第四循环参数j的值增加1;
(10)重复步骤(7)~步骤(9)直至第四循环参数j的值等于L;然后第三循环参数t的值增加1;
(11)重复步骤(6)~步骤(10)直至第三循环参数t的值为γ;
(12)再次更新ω的值为
Figure BDA0002458329730000061
(13)更新δ的值为ω+δ;同时第二循环参数i的值增加1;
(14)重复步骤(3)~步骤(13)直至第二循环参数i的值为b;
(15)最终得到的相似度值δ为数据库端存储的所有存储基因序列与用户端的用户基因序列之间的相似度值。
本发明还公开了一种包括了所述基于隐私保护的基因相似度计算方法的基因信息获取方法,具体还包括如下步骤:
S8.根据步骤S7得到的基因相似度计算结果,数据库端将基因相似度值大于设定值时所对应的存储基因序列的基因信息,加密发送给用户端,从而完成用户端的基因信息获取。
本发明提供的这种基于隐私保护的基因相似度计算方法及基因信息获取方法,通过对用户基因和存储基因的填充、分块、加密传输和相似度计算,实现了对用户基因序列与数据库中存储的基因序列的相似度计算、比对和保密传输;而且本发明方法的可靠性高、实用性好、保密性好且准确性好。
附图说明
图1为本发明方法的相似度计算方法的方法流程示意图。
图2为本发明方法的移动划分示意图。
图3为本发明方法的基因信息获取方法的方法流程示意图。
具体实施方式
如图1所示为本发明方法的相似度计算方法的方法流程示意图:本发明提供的这种基于隐私保护的基因相似度计算方法,包括如下步骤:
S1.数据库端和用户端分别进行初始化;具体为数据库端初始化划分窗口值b;用户端初始化公钥pk和私钥sk;
S2.用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充;具体为用户端对用户基因序列Q进行字符填充,数据库端对数据库存储的存储基因序列S进行字符填充,且填充字符的个数均为
Figure BDA0002458329730000071
Figure BDA0002458329730000076
为向上取整函数;b为划分窗口值;
S3.用户端对用户基因序列进行移动划分,从而得到用户基因移动序列;具体为用户端对用户基因序列Q进行一次移动划分,从而得到用户基因移动序列
Figure BDA0002458329730000072
S4.数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列;具体为数据库端对存储基因序列S进行b次移动划分,从而得到存储基因移动序列
Figure BDA0002458329730000073
其中b为划分窗口值;
在具体实施时,采用如下步骤进行划分:
A.初始化序列参数n=1;
B.初始化循环参数t=1;
C.将划分窗口移动到距离序列Sn首字符t-1的位置;
D.移动划分序列Sn得到
Figure BDA0002458329730000074
其中/>
Figure BDA0002458329730000075
的元素个数为l,且l≤b;Sn的元素个数为L,且满足/>
Figure BDA0002458329730000081
b为划分窗口值;
E.根据步骤C的结果,得到序列
Figure BDA0002458329730000082
F.将循环参数t增加1,并重复步骤C~步骤E,直至循环参数t等于b;其中b为划分窗口值;
F.将序列参数n增加1,并重复步骤B~步骤F,直至序列参数n等于k;其中k为存储基因序列的元素个数;
S5.用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量;具体为采用如下步骤得到用户基因移动序列向量和存储基因移动序列向量:
a.设定集合M={m1,m2,...,mL},且满足用户基因移动序列
Figure BDA0002458329730000083
和/>
Figure BDA0002458329730000084
其中/>
Figure BDA0002458329730000085
为序列/>
Figure BDA0002458329730000086
中的元素,且i∈[1,k],t=1,2,...,b;
b.采用如下规则,用户端构建得到用户基因移动序列向量
Figure BDA0002458329730000087
数据库端构建得到存储基因移动序列向量/>
Figure BDA0002458329730000088
Figure BDA0002458329730000089
Figure BDA00024583297300000810
Figure BDA00024583297300000811
Figure BDA00024583297300000812
Figure BDA00024583297300000813
其中b为划分窗口值;
其中,移动划分的示意图如图2所示;
移动划分的定义为:在对序列进行划分时,划分窗口的有规律地移动。划分窗口每次移动b个偏移量,b为划分窗口的大小;
划分窗口对序列进行移动划分,将序列划分成若干块。划分窗口的工作效果如图2所示。划分窗口将序列S移动划分为s1~s4四块;
比如:序列S发生单字符缺失产生序列Q;设置划分窗口大小为4。
S=CGGGACCAAGACTGTTACGATAAATTTACGAACCATAAGG
Q=CGGGACCAAGACTGTTCGATAAATTTACGAACCATAAGG
对序列Q进行字符填充(填充字符用#表示),得到序列Q’:
Q’=##CGGGACCAAGACTGTTGATAAATTTACGAACCATAAGG
对序列S和序列Q’进行新的序列分块方案:
S=CGGG/ACCA/AGAC/TGTT/ACGA/TAAA/TTTA/CGAA/CCAT/AAGG
Q1’=#CGG/GACC/AAGA/CTGT/TCGA/TAAA/TTTA/CGAA/CCAT/AAGG
Q2’=CGGG/ACCA/AGAC/TGTT/CGAT/AAAT/TTAC/GAAC/CATA
Q3’=GGGA/CCAA/GACT/GTTC/GATA/AATT/TACG/AACC/ATAA
Q4’=GGAC/CAAG/ACTG/TTCG/ATAA/ATTT/ACGA/ACCA/TAAG
得到的序列相似度为94.4%。
而序列简单划分下:
S=CGGG/ACCA/AGAC/TGTT/ACGA/TAAA/TTTA/CGAA/CCAT/AAGG
Q=CGGG/ACCA/AGAC/TGTT/CGAT/AAAT/TTAC/GAAC/CATA
得到的序列块相似度为44.4%。
S6.用户端对用户基因移动序列向量加密,并将加密后的用户基因移动序列向量和设定阈值发送给数据库端;具体为用户端采用公钥,利用同态加密算法对用户基因移动序列向量进行加密;
在具体实施时,使用Paillier同态加密算法:
Encryption:
plaintext m<n;
select a random r<n;
ciphertext c=gm·rn mod n2
Decryption:
ciphertext c<n2,
Figure BDA0002458329730000101
其中,n=pq,p和q为两个大素数,
Figure BDA0002458329730000102
λ表示λ(n)=lcm(p-1,q-1),
Figure BDA0002458329730000103
且满足gcd(L(gλmod n2),n)=1;其中lcm()为求最小公倍数函数;gcd()为求最大公约数函数;
Paillier同态加密算法中公钥是(n,g),私钥是(p,q),加密函数记为E(·),该同态加密算法拥有如下加法同态性:
E(m1)E(m2)mod n2=E(m1+m2)mod n
Figure BDA0002458329730000104
上述两式的运算性质可以保证在不知道m1内容的情况下得到E(m1+m2)和E(m1·m2)的计算结果;
S7.数据库端对接收的步骤S6发送的数据进行解密,并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度,从而得到最终的基因相似度计算结果;具体为采用如下步骤计算序列相似度:
(1)将相似度值δ初始化为0;
(2)初始化第二循环参数i=1;
(3)初始化中间参数ω=0;
(4)令第二中间参数γ=min(α,β);
(5)初始化第三循环参数t=1;
(6)初始化第四循环参数j=1;
(7)数据库端采用如下算式计算得到第三中间参数E(vj):
Figure BDA0002458329730000111
(8)数据库端将步骤(7)得到的第三中间参数E(vj)加密后发送给用户端;
(9)用户端将接收的数据解密后得到vj,并更新ω的值为ω+vj;同时第四循环参数j的值增加1;
(10)重复步骤(7)~步骤(9)直至第四循环参数j的值等于L;然后第三循环参数t的值增加1;
(11)重复步骤(6)~步骤(10)直至第三循环参数t的值为γ;
(12)再次更新ω的值为
Figure BDA0002458329730000112
(13)更新δ的值为ω+δ;同时第二循环参数i的值增加1;
(14)重复步骤(3)~步骤(13)直至第二循环参数i的值为b;
(15)最终得到的相似度值δ为数据库端存储的所有存储基因序列与用户端的用户基因序列之间的相似度值。
其中,衡量两个被分块的序列
Figure BDA0002458329730000113
和/>
Figure BDA0002458329730000114
之间的相似程度的量为序列相似度ω,其满足/>
Figure BDA0002458329730000115
其中l=min(n,m);函数φ用于判断两个块si和qi是否相等,且相等时返回1,不相等时返回0。
以下几个一个实施例,对本发明方法进行进一步说明:
以个人基因组计划(PGP)公开数据集中所被选择个体的基因组片段作为实验数据。实验结果如表1所示:
表1各个方案下的序列相似度
最小编辑距离 序列相似度计算协议 隐私编辑距离协议
95.3763% 99.5235% 92.6426%
93.2884% 97.4249% 89.2430%
91.9731% 94.4413% 88.1841%
90.9115% 91.9723% 86.0484%
90.0580% 90.1067% 85.6169%
从表中展示的结果可以看到:当寻找某一阈值下的相似病人时,基于隐私编辑距离的方案会错误地将应该留下的数据过滤掉;而本发明方法则可以保留下正确的数据,提高查询结果的质量。
如图3所示为本发明的基因信息获取方法的方法流程示意图:
本发明还公开了一种包括了所述基于隐私保护的基因相似度计算方法的基因信息获取方法,具体包括如下步骤:
S1.数据库端和用户端分别进行初始化;
S2.用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充;
S3.用户端对用户基因序列进行移动划分,从而得到用户基因移动序列;
S4.数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列;
S5.用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量;
S6.用户端对用户基因移动序列向量加密,并将加密后的用户基因移动序列向量和设定阈值发送给数据库端;
S7.数据库端对接收的步骤S6发送的数据进行解密,并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度,从而得到最终的基因相似度计算结果;
S8.根据步骤S7得到的基因相似度计算结果,数据库端将基因相似度值大于设定值时所对应的存储基因序列的基因信息,加密发送给用户端,从而完成用户端的基因信息获取。

Claims (8)

1.一种基于隐私保护的基因相似度计算方法,包括如下步骤:
S1.数据库端和用户端分别进行初始化;
S2.用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充;
S3.用户端对用户基因序列进行移动划分,从而得到用户基因移动序列;
S4.数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列;具体为数据库端对存储基因序列S进行b次移动划分,从而得到存储基因移动序列
Figure FDA0004178190820000011
其中b为划分窗口值;具体为采用如下步骤进行划分:
A.初始化序列参数n=1;
B.初始化循环参数t=1;
C.将划分窗口移动到距离序列Sn首字符t-1的位置;
D.移动划分序列Sn得到
Figure FDA0004178190820000012
其中/>
Figure FDA0004178190820000013
的元素个数为l,且l≤b;Sn的元素个数为L,且满足/>
Figure FDA0004178190820000014
b为划分窗口值;
E.根据步骤C的结果,得到序列
Figure FDA0004178190820000015
F.将循环参数t增加1,并重复步骤C~步骤E,直至循环参数t等于b;其中b为划分窗口值;
F.将序列参数n增加1,并重复步骤B~步骤F,直至序列参数n等于k;其中k为存储基因序列的元素个数;
S5.用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量;
S6.用户端对用户基因移动序列向量加密,并将加密后的用户基因移动序列向量和设定阈值发送给数据库端;
S7.数据库端对接收的步骤S6发送的数据进行解密,并计算用户基因移动序列向量与存储基因移动序列向量之间的序列相似度,从而得到最终的基因相似度计算结果。
2.根据权利要求1所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S1所述的数据库端和用户端分别进行初始化,具体为数据库端初始化划分窗口值b;用户端初始化公钥pk和私钥sk。
3.根据权利要求2所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S2所述的用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充,具体为用户端对用户基因序列Q进行字符填充,数据库端对数据库存储的存储基因序列S进行字符填充,且填充字符的个数均为
Figure FDA0004178190820000021
为向上取整函数;b为划分窗口值。
4.根据权利要求3所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S3所述的用户端对用户基因序列进行移动划分,从而得到用户基因移动序列,具体为用户端对用户基因序列Q进行一次移动划分,从而得到用户基因移动序列
Figure FDA0004178190820000022
5.根据权利要求4所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S5所述的用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量,具体为采用如下步骤得到用户基因移动序列向量和存储基因移动序列向量:
a.设定集合M={m1,m2,...,mL},且满足用户基因移动序列
Figure FDA0004178190820000031
和/>
Figure FDA0004178190820000032
其中
Figure FDA0004178190820000033
为序列/>
Figure FDA0004178190820000034
中的元素,且i∈[1,k],t=1,2,...,b;
b.采用如下规则,用户端构建得到用户基因移动序列向量
Figure FDA0004178190820000035
数据库端构建得到存储基因移动序列向量/>
Figure FDA0004178190820000036
Figure FDA0004178190820000037
Figure FDA0004178190820000038
Figure FDA0004178190820000039
Figure FDA00041781908200000310
Figure FDA00041781908200000311
其中b为划分窗口值。
6.根据权利要求5所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S6所述的用户端对用户基因移动序列向量加密,具体为用户端采用公钥,利用同态加密算法对用户基因移动序列向量进行加密。
7.根据权利要求6所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S7所述的计算用户基因移动序列向量与存储基因移动序列向量之间的序列相似度,具体为采用如下步骤计算序列相似度:
(1)将相似度值δ初始化为0;
(2)初始化第二循环参数i=1;
(3)初始化中间参数ω=0;
(4)令第二中间参数γ=min(α,β);
(5)初始化第三循环参数t=1;
(6)初始化第四循环参数j=1;
(7)数据库端采用如下算式计算得到第三中间参数E(vj):
Figure FDA0004178190820000041
(8)数据库端将步骤(7)得到的第三中间参数E(vj)加密后发送给用户端;
(9)用户端将接收的数据解密后得到vj,并更新ω的值为ω+vj;同时第四循环参数j的值增加1;
(10)重复步骤(7)~步骤(9)直至第四循环参数j的值等于L;然后第三循环参数t的值增加1;
(11)重复步骤(6)~步骤(10)直至第三循环参数t的值为γ;
(12)再次更新ω的值为
Figure FDA0004178190820000042
(13)更新δ的值为ω+δ;同时第二循环参数i的值增加1;
(14)重复步骤(3)~步骤(13)直至第二循环参数i的值为b;
(15)最终得到的相似度值δ为数据库端存储的所有存储基因序列与用户端的用户基因序列之间的相似度值。
8.一种包括了权利要求1~7之一所述的基于隐私保护的基因相似度计算方法的基因信息获取方法,具体还包括如下步骤:
S8.根据步骤S7得到的基因相似度计算结果,数据库端将基因相似度值大于设定值时所对应的存储基因序列的基因信息,加密发送给用户端,从而完成用户端的基因信息获取。
CN202010312340.3A 2020-04-20 2020-04-20 基于隐私保护的基因相似度计算方法及基因信息获取方法 Active CN111540409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010312340.3A CN111540409B (zh) 2020-04-20 2020-04-20 基于隐私保护的基因相似度计算方法及基因信息获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010312340.3A CN111540409B (zh) 2020-04-20 2020-04-20 基于隐私保护的基因相似度计算方法及基因信息获取方法

Publications (2)

Publication Number Publication Date
CN111540409A CN111540409A (zh) 2020-08-14
CN111540409B true CN111540409B (zh) 2023-06-27

Family

ID=71975165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010312340.3A Active CN111540409B (zh) 2020-04-20 2020-04-20 基于隐私保护的基因相似度计算方法及基因信息获取方法

Country Status (1)

Country Link
CN (1) CN111540409B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765651B (zh) * 2021-01-05 2024-06-28 广州岸边网络科技有限公司 一种基于用户终端的隐私风险排查方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867134A (zh) * 2012-08-16 2013-01-09 盛司潼 一种对基因序列片段进行拼接的系统和方法
WO2014156400A1 (ja) * 2013-03-28 2014-10-02 三菱スペース・ソフトウエア株式会社 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム
CN106874317A (zh) * 2015-12-11 2017-06-20 财团法人工业技术研究院 数据可视化方法与数据可视化装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631239B (zh) * 2014-10-30 2018-08-17 国际商业机器公司 用于管理基因序列的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867134A (zh) * 2012-08-16 2013-01-09 盛司潼 一种对基因序列片段进行拼接的系统和方法
WO2014156400A1 (ja) * 2013-03-28 2014-10-02 三菱スペース・ソフトウエア株式会社 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム
CN106874317A (zh) * 2015-12-11 2017-06-20 财团法人工业技术研究院 数据可视化方法与数据可视化装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Asharov G等.Privacy-preserving search of similar patients in genomic data. Cryptology ePrint Archive.2017,全文. *
Salem A等.Privacy-Preserving Similar Patient Queries for Combined Biomedical Data.Proc. Priv. Enhancing Technol..2019,第2019卷(第1期),第48页第1栏第40行-第2栏第3行、第49页第1栏第30-40行、第50页第1栏第11-20行、第52页第2栏第20行-第53页第1栏第30行、第54页第1栏第8-20行,附图1. *
刘文彬等.人防御素2和酸性成纤维因子1融合蛋白hBD2-haFGF1的构建、表达及生物信息学分析.广东药科大学学报.2019,第35卷(第01期),全文. *
王占兵 ; 宋伟 ; 彭智勇 ; 杨先娣 ; 崔一辉 ; 申远 ; .一种面向密文基因数据的子序列外包查询方法.计算机科学.2018,第45卷(第06期),全文. *

Also Published As

Publication number Publication date
CN111540409A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
Wood et al. Private naive bayes classification of personal biomedical data: application in cancer data analysis
US10402588B2 (en) Method to manage raw genomic data in a privacy preserving manner in a biobank
US9215068B2 (en) Search system, search method, and program
EP2329423B1 (en) Authenticating a device and a user
TWI510939B (zh) Gene information memory device, gene information retrieval device, gene information memory program product, gene information retrieval program product, gene information memory method, gene information retrieval method and gene information retrieval system
Pride et al. Comparisons of clustered regularly interspaced short palindromic repeats and viromes in human saliva reveal bacterial adaptations to salivary viruses
Khedr et al. Securemed: Secure medical computation using gpu-accelerated homomorphic encryption scheme
CN111540409B (zh) 基于隐私保护的基因相似度计算方法及基因信息获取方法
Namasudra et al. Introduction of DNA computing in cryptography
CN111723354A (zh) 提供生物数据的方法、加密生物数据的方法以及处理生物数据的方法
EP3000067A2 (en) Fast and secure retrieval of dna sequences
CN112614545A (zh) 一种支持多属性匿名认证的基因序列安全比对方法及系统
Borst et al. The Swiss solution for anonymously chaining patient files
Liu et al. Secure medical data on cloud storage via DNA homomorphic encryption technique
Kingsford et al. A mathematical model for a hybrid system framework for privacy preservation of patient health records
Özdel et al. Privacy-preserving Scanpath Comparison for Pervasive Eye Tracking
Rosen et al. Investigation of coding structure in DNA
Arkin et al. Ciphertext-policy attribute based encryption with selectively-hidden access policy
De Cristofaro et al. Privacy-preserving genetic relatedness test
Mahdi et al. Secure count query on encrypted heterogeneous data
CN111523125B (zh) 数据分析系统与数据分析方法
Akgün An Active Genomic Data Recovery Attack
Jafarbeiki et al. Pressgendb: Privacy-preserving substring search on encrypted genomic database
WO2020259847A1 (en) A computer implemented method for privacy preserving storage of raw genome data
JP7579343B2 (ja) 遺伝子データを処理するための方法及びデータ処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant