CN111540409B - 基于隐私保护的基因相似度计算方法及基因信息获取方法 - Google Patents
基于隐私保护的基因相似度计算方法及基因信息获取方法 Download PDFInfo
- Publication number
- CN111540409B CN111540409B CN202010312340.3A CN202010312340A CN111540409B CN 111540409 B CN111540409 B CN 111540409B CN 202010312340 A CN202010312340 A CN 202010312340A CN 111540409 B CN111540409 B CN 111540409B
- Authority
- CN
- China
- Prior art keywords
- gene
- sequence
- user
- database
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 183
- 238000004364 calculation method Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000002068 genetic effect Effects 0.000 claims description 18
- 238000005192 partition Methods 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 4
- 241000023308 Acca Species 0.000 description 5
- 102000053602 DNA Human genes 0.000 description 5
- 108020004414 DNA Proteins 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 101000829958 Homo sapiens N-acetyllactosaminide beta-1,6-N-acetylglucosaminyl-transferase Proteins 0.000 description 3
- 102100023315 N-acetyllactosaminide beta-1,6-N-acetylglucosaminyl-transferase Human genes 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- CJWXCNXHAIFFMH-AVZHFPDBSA-N n-[(2s,3r,4s,5s,6r)-2-[(2r,3r,4s,5r)-2-acetamido-4,5,6-trihydroxy-1-oxohexan-3-yl]oxy-3,5-dihydroxy-6-methyloxan-4-yl]acetamide Chemical compound C[C@H]1O[C@@H](O[C@@H]([C@@H](O)[C@H](O)CO)[C@@H](NC(C)=O)C=O)[C@H](O)[C@@H](NC(C)=O)[C@@H]1O CJWXCNXHAIFFMH-AVZHFPDBSA-N 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- BZSALXKCVOJCJJ-IPEMHBBOSA-N (4s)-4-[[(2s)-2-acetamido-3-methylbutanoyl]amino]-5-[[(2s)-1-[[(2s)-1-[[(2s,3r)-1-[[(2s)-1-[[(2s)-1-[[2-[[(2s)-1-amino-1-oxo-3-phenylpropan-2-yl]amino]-2-oxoethyl]amino]-5-(diaminomethylideneamino)-1-oxopentan-2-yl]amino]-1-oxopropan-2-yl]amino]-3-hydroxy Chemical compound CC(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCCC)C(=O)N[C@@H](CCCC)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](C)C(=O)N[C@@H](CCCN=C(N)N)C(=O)NCC(=O)N[C@H](C(N)=O)CC1=CC=CC=C1 BZSALXKCVOJCJJ-IPEMHBBOSA-N 0.000 description 2
- JTTIOYHBNXDJOD-UHFFFAOYSA-N 2,4,6-triaminopyrimidine Chemical compound NC1=CC(N)=NC(N)=N1 JTTIOYHBNXDJOD-UHFFFAOYSA-N 0.000 description 2
- 102100029470 Apolipoprotein E Human genes 0.000 description 2
- 101710095339 Apolipoprotein E Proteins 0.000 description 2
- 102100034330 Chromaffin granule amine transporter Human genes 0.000 description 2
- 101000641221 Homo sapiens Chromaffin granule amine transporter Proteins 0.000 description 2
- 101000724418 Homo sapiens Neutral amino acid transporter B(0) Proteins 0.000 description 2
- 108700010674 N-acetylVal-Nle(7,8)- allatotropin (5-13) Proteins 0.000 description 2
- 102100028267 Neutral amino acid transporter B(0) Human genes 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000010362 genome editing Methods 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 208000011130 pituitary stalk interruption syndrome Diseases 0.000 description 1
- 102200017290 rs429358 Human genes 0.000 description 1
- 102200017284 rs7412 Human genes 0.000 description 1
- 230000003245 working effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/40—Encryption of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Genetics & Genomics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于隐私保护的基因相似度计算方法,包括数据库端和用户端分别进行初始化;用户端和数据库端对各自的基因序列进行字符填充;用户端得到用户基因移动序列;数据库端得到存储基因移动序列;用户端得到用户基因移动序列向量;数据库端得到存储基因移动序列向量;用户端对用户基因移动序列向量加密并发送数据库端;数据库端解密并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度并得到最终的基因相似度计算结果。本发明还公开了包括所述基于隐私保护的基因相似度计算方法的基因信息获取方法。本发明实现了对用户基因序列与数据库中基因序列的相似度计算、比对和保密传输,而且可靠性高、实用性、保密性和准确性好。
Description
技术领域
本发明属于生物信息技术领域,具体涉及一种基于隐私保护的基因相似度计算方法及基因信息获取方法。
背景技术
人类的全部生物信息可以由基因数据反映出来,并存储在人类的脱氧核糖核酸(deoxyribonucleic acid,简称DNA)序列之中。生物的遗传和变异都与DNA密切相关。如今基因测序技术飞速发展,基因测序的成本正在逐渐降低;基因数据在很多领域有着广泛的应用。
在医学上,为了给病人提供最佳的治疗方案,医生需要将病人的DNA与远程基因组数据库进行比对。数据库中存储个体基因组序列,每个序列都标有此人的医疗状况(Medical Conditions)。医生需要在数据库中找到与病人基因组序列最相似的少数个体,并了解这些个体的医疗状况。这种在数据库中的查询称为相似病人查询(Similar PatientQueries,简称SPQ)。SPQ有利于确定疾病背后的基因突变,也有利于避免无法治愈疾病的痛苦治疗方案,提供更准确的疾病预测和指导。
人类有99.9%以上的DNA是相同的,剩下部分由于遗传变异而不同。最常见的变异只涉及单个核苷酸,这种变异称为单核苷酸多态性(single nucleotide polymorphism,简称SNP)。在基因组序列中只需30~80个独立的SNP位点就可以唯一重识别个体,并含有该个体的隐私敏感信息,例如,载脂蛋白E(apolipoprotein E)基因的两个SNP(rs429358和rs7412)会增加患阿尔茨海默病(Alzheimer’s disease)的风险。
现阶段,信息技术快速发展,医生能够较为轻松的将病人的基因组数据与远程数据库中的若干个体基因组数据进行比对,从而获取相应的相似基因组的相关数据。但是,随着信息技术的发展,病人基因组数据的发送和接收,以及数据库中基因组数据的传输等过程,极易受到攻击,从而导致数据的泄露,紧接着可能会造成严重的隐私泄露,并给社会带来重要的影响。
为了安全地使用数据库中的人类基因数据,需要隐私保护技术保证基因数据的隐私性。目前主要有三种保护基因隐私的思路:基于加密算法的方法、基于差分隐私的方法和基于安全计算协议的方法。
为了解决微生物测序的隐私问题,Wagner等人使用安全计算实现宏基因组分析。Baldi等人提出的PSI协议和Brudno等人提出的PSIS协议是基于海明距离(hammingdistance)近似计算基因数据的相似性。虽然保护了基因数据的隐私性,但只能处理较短的基因组片段。Wang等人通过基因编辑距离(edit distance)近似算法和Private SetDifference Size协议提出了隐私编辑距离协议。但在一些情况下的计算结果并不理想,因为序列的字符排列方式会影响到单字符编辑操作(single-character edits)集合的计算结果,使得相似度计算的偏差,从而导致相似病人查询结果不准确。
发明内容
本发明的目的之一在于提供一种可靠性高、实用性好、保密性好且准确性好的基于隐私保护的基因相似度计算方法。
本发明的目的之二在于提供一种包括了所述基于隐私保护的基因相似度计算方法的基因信息获取方法。
本发明提供的这种基于隐私保护的基因相似度计算方法,包括如下步骤:
S1.数据库端和用户端分别进行初始化;
S2.用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充;
S3.用户端对用户基因序列进行移动划分,从而得到用户基因移动序列;
S4.数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列;
S5.用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量;
S6.用户端对用户基因移动序列向量加密,并将加密后的用户基因移动序列向量和设定阈值发送给数据库端;
S7.数据库端对接收的步骤S6发送的数据进行解密,并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度,从而得到最终的基因相似度计算结果。
步骤S1所述的数据库端和用户端分别进行初始化,具体为数据库端初始化划分窗口值b;用户端初始化公钥pk和私钥sk。
步骤S2所述的用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充,具体为用户端对用户基因序列Q进行字符填充,数据库端对数据库存储的存储基因序列S进行字符填充,且填充字符的个数均为为向上取整函数;b为划分窗口值。
步骤S4所述的数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列,具体为采用如下步骤进行划分:
A.初始化序列参数n=1;
B.初始化循环参数t=1;
C.将划分窗口移动到距离序列Sn首字符t-1的位置;
F.将循环参数t增加1,并重复步骤C~步骤E,直至循环参数t等于b;其中b为划分窗口值;
F.将序列参数n增加1,并重复步骤B~步骤F,直至序列参数n等于k;其中k为存储基因序列的元素个数。
步骤S5所述的用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量,具体为采用如下步骤得到用户基因移动序列向量和存储基因移动序列向量:
其中b为划分窗口值。
步骤S6所述的用户端对用户基因移动序列向量加密,具体为用户端采用公钥,利用同态加密算法对用户基因移动序列向量进行加密。
步骤S7所述的计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度,具体为采用如下步骤计算序列相似度:
(1)将相似度值δ初始化为0;
(2)初始化第二循环参数i=1;
(3)初始化中间参数ω=0;
(4)令第二中间参数γ=min(α,β);
(5)初始化第三循环参数t=1;
(6)初始化第四循环参数j=1;
(7)数据库端采用如下算式计算得到第三中间参数E(vj):
(8)数据库端将步骤(7)得到的第三中间参数E(vj)加密后发送给用户端;
(9)用户端将接收的数据解密后得到vj,并更新ω的值为ω+vj;同时第四循环参数j的值增加1;
(10)重复步骤(7)~步骤(9)直至第四循环参数j的值等于L;然后第三循环参数t的值增加1;
(11)重复步骤(6)~步骤(10)直至第三循环参数t的值为γ;
(13)更新δ的值为ω+δ;同时第二循环参数i的值增加1;
(14)重复步骤(3)~步骤(13)直至第二循环参数i的值为b;
(15)最终得到的相似度值δ为数据库端存储的所有存储基因序列与用户端的用户基因序列之间的相似度值。
本发明还公开了一种包括了所述基于隐私保护的基因相似度计算方法的基因信息获取方法,具体还包括如下步骤:
S8.根据步骤S7得到的基因相似度计算结果,数据库端将基因相似度值大于设定值时所对应的存储基因序列的基因信息,加密发送给用户端,从而完成用户端的基因信息获取。
本发明提供的这种基于隐私保护的基因相似度计算方法及基因信息获取方法,通过对用户基因和存储基因的填充、分块、加密传输和相似度计算,实现了对用户基因序列与数据库中存储的基因序列的相似度计算、比对和保密传输;而且本发明方法的可靠性高、实用性好、保密性好且准确性好。
附图说明
图1为本发明方法的相似度计算方法的方法流程示意图。
图2为本发明方法的移动划分示意图。
图3为本发明方法的基因信息获取方法的方法流程示意图。
具体实施方式
如图1所示为本发明方法的相似度计算方法的方法流程示意图:本发明提供的这种基于隐私保护的基因相似度计算方法,包括如下步骤:
S1.数据库端和用户端分别进行初始化;具体为数据库端初始化划分窗口值b;用户端初始化公钥pk和私钥sk;
S2.用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充;具体为用户端对用户基因序列Q进行字符填充,数据库端对数据库存储的存储基因序列S进行字符填充,且填充字符的个数均为 为向上取整函数;b为划分窗口值;
在具体实施时,采用如下步骤进行划分:
A.初始化序列参数n=1;
B.初始化循环参数t=1;
C.将划分窗口移动到距离序列Sn首字符t-1的位置;
F.将循环参数t增加1,并重复步骤C~步骤E,直至循环参数t等于b;其中b为划分窗口值;
F.将序列参数n增加1,并重复步骤B~步骤F,直至序列参数n等于k;其中k为存储基因序列的元素个数;
S5.用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量;具体为采用如下步骤得到用户基因移动序列向量和存储基因移动序列向量:
其中b为划分窗口值;
其中,移动划分的示意图如图2所示;
移动划分的定义为:在对序列进行划分时,划分窗口的有规律地移动。划分窗口每次移动b个偏移量,b为划分窗口的大小;
划分窗口对序列进行移动划分,将序列划分成若干块。划分窗口的工作效果如图2所示。划分窗口将序列S移动划分为s1~s4四块;
比如:序列S发生单字符缺失产生序列Q;设置划分窗口大小为4。
S=CGGGACCAAGACTGTTACGATAAATTTACGAACCATAAGG
Q=CGGGACCAAGACTGTTCGATAAATTTACGAACCATAAGG
对序列Q进行字符填充(填充字符用#表示),得到序列Q’:
Q’=##CGGGACCAAGACTGTTGATAAATTTACGAACCATAAGG
对序列S和序列Q’进行新的序列分块方案:
S=CGGG/ACCA/AGAC/TGTT/ACGA/TAAA/TTTA/CGAA/CCAT/AAGG
Q1’=#CGG/GACC/AAGA/CTGT/TCGA/TAAA/TTTA/CGAA/CCAT/AAGG
Q2’=CGGG/ACCA/AGAC/TGTT/CGAT/AAAT/TTAC/GAAC/CATA
Q3’=GGGA/CCAA/GACT/GTTC/GATA/AATT/TACG/AACC/ATAA
Q4’=GGAC/CAAG/ACTG/TTCG/ATAA/ATTT/ACGA/ACCA/TAAG
得到的序列相似度为94.4%。
而序列简单划分下:
S=CGGG/ACCA/AGAC/TGTT/ACGA/TAAA/TTTA/CGAA/CCAT/AAGG
Q=CGGG/ACCA/AGAC/TGTT/CGAT/AAAT/TTAC/GAAC/CATA
得到的序列块相似度为44.4%。
S6.用户端对用户基因移动序列向量加密,并将加密后的用户基因移动序列向量和设定阈值发送给数据库端;具体为用户端采用公钥,利用同态加密算法对用户基因移动序列向量进行加密;
在具体实施时,使用Paillier同态加密算法:
Encryption:
plaintext m<n;
select a random r<n;
ciphertext c=gm·rn mod n2
Decryption:
ciphertext c<n2,
Paillier同态加密算法中公钥是(n,g),私钥是(p,q),加密函数记为E(·),该同态加密算法拥有如下加法同态性:
E(m1)E(m2)mod n2=E(m1+m2)mod n
上述两式的运算性质可以保证在不知道m1内容的情况下得到E(m1+m2)和E(m1·m2)的计算结果;
S7.数据库端对接收的步骤S6发送的数据进行解密,并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度,从而得到最终的基因相似度计算结果;具体为采用如下步骤计算序列相似度:
(1)将相似度值δ初始化为0;
(2)初始化第二循环参数i=1;
(3)初始化中间参数ω=0;
(4)令第二中间参数γ=min(α,β);
(5)初始化第三循环参数t=1;
(6)初始化第四循环参数j=1;
(7)数据库端采用如下算式计算得到第三中间参数E(vj):
(8)数据库端将步骤(7)得到的第三中间参数E(vj)加密后发送给用户端;
(9)用户端将接收的数据解密后得到vj,并更新ω的值为ω+vj;同时第四循环参数j的值增加1;
(10)重复步骤(7)~步骤(9)直至第四循环参数j的值等于L;然后第三循环参数t的值增加1;
(11)重复步骤(6)~步骤(10)直至第三循环参数t的值为γ;
(13)更新δ的值为ω+δ;同时第二循环参数i的值增加1;
(14)重复步骤(3)~步骤(13)直至第二循环参数i的值为b;
(15)最终得到的相似度值δ为数据库端存储的所有存储基因序列与用户端的用户基因序列之间的相似度值。
以下几个一个实施例,对本发明方法进行进一步说明:
以个人基因组计划(PGP)公开数据集中所被选择个体的基因组片段作为实验数据。实验结果如表1所示:
表1各个方案下的序列相似度
最小编辑距离 | 序列相似度计算协议 | 隐私编辑距离协议 |
95.3763% | 99.5235% | 92.6426% |
93.2884% | 97.4249% | 89.2430% |
91.9731% | 94.4413% | 88.1841% |
90.9115% | 91.9723% | 86.0484% |
90.0580% | 90.1067% | 85.6169% |
从表中展示的结果可以看到:当寻找某一阈值下的相似病人时,基于隐私编辑距离的方案会错误地将应该留下的数据过滤掉;而本发明方法则可以保留下正确的数据,提高查询结果的质量。
如图3所示为本发明的基因信息获取方法的方法流程示意图:
本发明还公开了一种包括了所述基于隐私保护的基因相似度计算方法的基因信息获取方法,具体包括如下步骤:
S1.数据库端和用户端分别进行初始化;
S2.用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充;
S3.用户端对用户基因序列进行移动划分,从而得到用户基因移动序列;
S4.数据库端对存储基因序列进行若干次移动划分,从而得到存储基因移动序列;
S5.用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量;
S6.用户端对用户基因移动序列向量加密,并将加密后的用户基因移动序列向量和设定阈值发送给数据库端;
S7.数据库端对接收的步骤S6发送的数据进行解密,并计算存储基因移动序列向量与存储基因移动序列向量之间的序列相似度,从而得到最终的基因相似度计算结果;
S8.根据步骤S7得到的基因相似度计算结果,数据库端将基因相似度值大于设定值时所对应的存储基因序列的基因信息,加密发送给用户端,从而完成用户端的基因信息获取。
Claims (8)
1.一种基于隐私保护的基因相似度计算方法,包括如下步骤:
S1.数据库端和用户端分别进行初始化;
S2.用户端对用户基因序列进行字符填充;数据库端对数据库存储的存储基因序列进行字符填充;
S3.用户端对用户基因序列进行移动划分,从而得到用户基因移动序列;
A.初始化序列参数n=1;
B.初始化循环参数t=1;
C.将划分窗口移动到距离序列Sn首字符t-1的位置;
F.将循环参数t增加1,并重复步骤C~步骤E,直至循环参数t等于b;其中b为划分窗口值;
F.将序列参数n增加1,并重复步骤B~步骤F,直至序列参数n等于k;其中k为存储基因序列的元素个数;
S5.用户端将步骤S3得到的用户基因移动序列中每一个块编码为向量,得到用户基因移动序列向量;同时数据库端将步骤S4得到的存储基因移动序列中的每一个块编码为一个向量,得到存储基因移动序列向量;
S6.用户端对用户基因移动序列向量加密,并将加密后的用户基因移动序列向量和设定阈值发送给数据库端;
S7.数据库端对接收的步骤S6发送的数据进行解密,并计算用户基因移动序列向量与存储基因移动序列向量之间的序列相似度,从而得到最终的基因相似度计算结果。
2.根据权利要求1所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S1所述的数据库端和用户端分别进行初始化,具体为数据库端初始化划分窗口值b;用户端初始化公钥pk和私钥sk。
6.根据权利要求5所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S6所述的用户端对用户基因移动序列向量加密,具体为用户端采用公钥,利用同态加密算法对用户基因移动序列向量进行加密。
7.根据权利要求6所述的基于隐私保护的基因相似度计算方法,其特征在于步骤S7所述的计算用户基因移动序列向量与存储基因移动序列向量之间的序列相似度,具体为采用如下步骤计算序列相似度:
(1)将相似度值δ初始化为0;
(2)初始化第二循环参数i=1;
(3)初始化中间参数ω=0;
(4)令第二中间参数γ=min(α,β);
(5)初始化第三循环参数t=1;
(6)初始化第四循环参数j=1;
(7)数据库端采用如下算式计算得到第三中间参数E(vj):
(8)数据库端将步骤(7)得到的第三中间参数E(vj)加密后发送给用户端;
(9)用户端将接收的数据解密后得到vj,并更新ω的值为ω+vj;同时第四循环参数j的值增加1;
(10)重复步骤(7)~步骤(9)直至第四循环参数j的值等于L;然后第三循环参数t的值增加1;
(11)重复步骤(6)~步骤(10)直至第三循环参数t的值为γ;
(13)更新δ的值为ω+δ;同时第二循环参数i的值增加1;
(14)重复步骤(3)~步骤(13)直至第二循环参数i的值为b;
(15)最终得到的相似度值δ为数据库端存储的所有存储基因序列与用户端的用户基因序列之间的相似度值。
8.一种包括了权利要求1~7之一所述的基于隐私保护的基因相似度计算方法的基因信息获取方法,具体还包括如下步骤:
S8.根据步骤S7得到的基因相似度计算结果,数据库端将基因相似度值大于设定值时所对应的存储基因序列的基因信息,加密发送给用户端,从而完成用户端的基因信息获取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010312340.3A CN111540409B (zh) | 2020-04-20 | 2020-04-20 | 基于隐私保护的基因相似度计算方法及基因信息获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010312340.3A CN111540409B (zh) | 2020-04-20 | 2020-04-20 | 基于隐私保护的基因相似度计算方法及基因信息获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111540409A CN111540409A (zh) | 2020-08-14 |
CN111540409B true CN111540409B (zh) | 2023-06-27 |
Family
ID=71975165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010312340.3A Active CN111540409B (zh) | 2020-04-20 | 2020-04-20 | 基于隐私保护的基因相似度计算方法及基因信息获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111540409B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765651B (zh) * | 2021-01-05 | 2024-06-28 | 广州岸边网络科技有限公司 | 一种基于用户终端的隐私风险排查方法 |
CN114978468B (zh) * | 2022-05-22 | 2024-11-22 | 深圳前海新心数字科技有限公司 | 一种基于同态加密的隐私基因序列距离矩阵计算方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867134A (zh) * | 2012-08-16 | 2013-01-09 | 盛司潼 | 一种对基因序列片段进行拼接的系统和方法 |
WO2014156400A1 (ja) * | 2013-03-28 | 2014-10-02 | 三菱スペース・ソフトウエア株式会社 | 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム |
CN106874317A (zh) * | 2015-12-11 | 2017-06-20 | 财团法人工业技术研究院 | 数据可视化方法与数据可视化装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631239B (zh) * | 2014-10-30 | 2018-08-17 | 国际商业机器公司 | 用于管理基因序列的方法和装置 |
-
2020
- 2020-04-20 CN CN202010312340.3A patent/CN111540409B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867134A (zh) * | 2012-08-16 | 2013-01-09 | 盛司潼 | 一种对基因序列片段进行拼接的系统和方法 |
WO2014156400A1 (ja) * | 2013-03-28 | 2014-10-02 | 三菱スペース・ソフトウエア株式会社 | 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム |
CN106874317A (zh) * | 2015-12-11 | 2017-06-20 | 财团法人工业技术研究院 | 数据可视化方法与数据可视化装置 |
Non-Patent Citations (4)
Title |
---|
Asharov G等.Privacy-preserving search of similar patients in genomic data. Cryptology ePrint Archive.2017,全文. * |
Salem A等.Privacy-Preserving Similar Patient Queries for Combined Biomedical Data.Proc. Priv. Enhancing Technol..2019,第2019卷(第1期),第48页第1栏第40行-第2栏第3行、第49页第1栏第30-40行、第50页第1栏第11-20行、第52页第2栏第20行-第53页第1栏第30行、第54页第1栏第8-20行,附图1. * |
刘文彬等.人防御素2和酸性成纤维因子1融合蛋白hBD2-haFGF1的构建、表达及生物信息学分析.广东药科大学学报.2019,第35卷(第01期),全文. * |
王占兵 ; 宋伟 ; 彭智勇 ; 杨先娣 ; 崔一辉 ; 申远 ; .一种面向密文基因数据的子序列外包查询方法.计算机科学.2018,第45卷(第06期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111540409A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wood et al. | Private naive bayes classification of personal biomedical data: application in cancer data analysis | |
US10402588B2 (en) | Method to manage raw genomic data in a privacy preserving manner in a biobank | |
US20230385437A1 (en) | System and method for fast and efficient searching of encrypted ciphertexts | |
EP2329423B1 (en) | Authenticating a device and a user | |
US20140355756A1 (en) | Search system, search method, and program | |
Hasan et al. | Secure count query on encrypted genomic data | |
CN111540409B (zh) | 基于隐私保护的基因相似度计算方法及基因信息获取方法 | |
CN108111294B (zh) | 一种基于ML-kNN的保护隐私的多标记分类方法 | |
US20140121990A1 (en) | Secure Informatics Infrastructure for Genomic-Enabled Medicine, Social, and Other Applications | |
US9875375B2 (en) | Method for performing similar-information search while keeping content confidential by encryption | |
Namasudra et al. | Introduction of DNA computing in cryptography | |
CN109117662A (zh) | 基于区块链的电子病历安全搜索方法 | |
Zhou et al. | Secure scheme for locating disease-causing genes based on multi-key homomorphic encryption | |
CN112614545B (zh) | 一种支持多属性匿名认证的基因序列安全比对方法及系统 | |
Randall et al. | Privacy preserving record linkage using homomorphic encryption | |
Yamada et al. | Homomorphic encryption for privacy-preserving genome sequences search | |
Arkin et al. | Ciphertext-policy attribute based encryption with selectively-hidden access policy | |
CN106209354A (zh) | 一种支持属性隐藏的可验证属性基加密外包方案 | |
Liu et al. | Secure medical data on cloud storage via DNA homomorphic encryption technique | |
US7280663B1 (en) | Encryption system based on crossed inverse quasigroups | |
Kingsford et al. | A mathematical model for a hybrid system framework for privacy preservation of patient health records | |
De Cristofaro et al. | Privacy-preserving genetic relatedness test | |
CN117371560A (zh) | 提供全局模型的计算机实现方法、计算机程序和提供系统 | |
Jafarbeiki et al. | Pressgendb: Privacy-preserving substring search on encrypted genomic database | |
JP7579343B2 (ja) | 遺伝子データを処理するための方法及びデータ処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |