CN107729762A - 一种基于差分隐私保护模型的dna闭频繁模体识别方法 - Google Patents

一种基于差分隐私保护模型的dna闭频繁模体识别方法 Download PDF

Info

Publication number
CN107729762A
CN107729762A CN201710778923.3A CN201710778923A CN107729762A CN 107729762 A CN107729762 A CN 107729762A CN 201710778923 A CN201710778923 A CN 201710778923A CN 107729762 A CN107729762 A CN 107729762A
Authority
CN
China
Prior art keywords
max
die body
tree
dna
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710778923.3A
Other languages
English (en)
Inventor
吴响
魏裕阳
赵辰阳
王辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Medical University
Original Assignee
Xuzhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou Medical University filed Critical Xuzhou Medical University
Priority to CN201710778923.3A priority Critical patent/CN107729762A/zh
Publication of CN107729762A publication Critical patent/CN107729762A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于差分隐私保护模型的DNA闭频繁模体识别方法,涉及生物信息隐私保护技术领域。本方法首先构建基于闭频繁模式剪枝的探索树(a perturbed expansion tree),利用Laplace机制进行加噪,得到了闭频繁扰动探索树;然后采用最优线性无偏估计方法对闭频繁扰动探索树进行后置性处理,使每个DNA模体满足一致性约束;最后计算每个DNA模体的合并频率,并获取结果。实验结果表明,本方法能够有效的保护DNA模体识别过程的隐私,并且在准确性方面和模体支持度计数可用性方面均优于现有的隐私保护DNA模体识别方法。

Description

一种基于差分隐私保护模型的DNA闭频繁模体识别方法
技术领域
本发明涉及生物信息隐私保护技术领域,具体是一种基于差分隐私保护模型的DNA闭频繁模体识别方法。
背景技术
DNA数据蕴含丰富的人类自身遗传信息和进化密码,其研究对于发现疾病的成因,实现个体化的预防、诊断和治疗具有重要意义。然而,DNA序列包含大量关于个人特征、功能、疾病和人格障碍等私人信息,近年来这些DNA序列的研究引发了严重隐私信息的泄露问题,已经引起了社会的广泛关注。其中,Homer等人证明通过DNA序列的关联分析可以在一组数据中检测到特定个体。此外,Gymrek等人提出他们有能力重新从1000个基因组数据集中识别出50个DNA参与者的个人信息。这些研究的结果使得隐私保护成为基因研究的关键环节。
而DNA motif(模体)识别是DNA序列研究的基础研究方法之一,对于发现调控信号和破解基因组中的调控编码有着重要意义。基于以上的研究,如何保证模体识别过程中的隐私保护成为DNA模体识别进一步发展的关键。然而,由于DNA数据庞大的信息存储,研究者目前还没有确切地了解要保护哪些信息或者可能存在何种背景知识攻击使得隐私泄露。因此,DNA模体识别的隐私保护最好使用无需考虑背景攻击、泄露风险小的差分隐私技术。但是,现有的差分隐私DNA模体识别方法添加噪音量过大,识别精度较低,无法满足生物信息学高精准度的要求。
发明内容
为了克服上述问题,本发明提供一种基于差分隐私保护模型的DNA闭频繁模体识别方法,有效的防止了DNA数据集的隐私泄露,并且提高了识别的准确性。
本发明是以如下技术方案实现的:一种基于差分隐私保护模型的DNA闭频繁模体识别方法,包括模式分解单元、构建闭频繁扰动树单元、一致性约束后置处理单元和识别模体单元,具体步骤如下:
模式分解单元:利用nmax参数对DNA原始数据集进行模式分解,获得数据集中长度为nmax-1和nmax模体及其支持度计数;
构建闭频繁扰动树单元:利用长度为nmax-1和nmax模体构建探索树,利用闭频繁模体等价关系进行剪枝,然后对每一个模体的支持度计数进行加噪,获得由剪枝后nmax-1模体和nmax模体组成的闭频繁扰动探索树;
一致性约束后置处理单元:利用最优线性无偏估计方法对扰动探索树的每一个节点的支持度计数进行一致性约束后置处理,获得满足树的一致性约束的支持度计数;
识别模体单元:在n-gram模型的基础上利用马尔可夫假设方法进行预测所有nmax+1模体的支持度计数,不断迭代获取长度在[nmax,Lu]之间的模体,求解每个模体的联合支持度计数,获得长度在[nmax,Lu]之间的频繁模体。
优选的,模式分解单元具体步骤如下:
1)首先设置nmax的值,利用nmax对DNA原始数据集进行分解,获得所有长度为nmax的模体,并求出其支持度计数;
2)利用nmax-1对DNA原始数据集进行分解,获得所有长度为nmax-1的模体,并求出其支持度计数。
优选的,构建闭频繁扰动树单元具体步骤如下:
1)以nmax-1长度的模体为第一层、nmax长度的模体为第二层构建树结构;
2)利用闭频繁等价关系进行剪枝,保留满足等价关系的较长序列,减除较短序列;
3)获取原始数据集DNA序列的最长长度,记为lmax
4)以lmax为全局敏感度对树结构的每个节点进行Laplace机制加噪,获得扰动探索树。
优选的,一致性约束后置处理单元具体步骤如下:
1)判断每个节点加噪后的支持度计数是否满足一致性约束,树的子节点的支持度计数小于树的父节点、树每个节点的子节点支持度计数之和等于该节点的支持度计数以及每个节点的支持度计数均为整数;
2)取出不满足的节点,使用最优线性无偏估计方法对其支持度计数进行一致性约束处理。
优选的,识别模体单元具体步骤如下:
1)利用nmax-1模体和nmax模体为参数进行马尔可夫假设,求解出nmax+1长度的模体;
2)利用nmax和nmax+1模体为参数进行马尔可夫假设,求解出nmax+2长度的模体;
3)按照上述方式不断迭代,最终获取长度[nmax,Lu]之间的所有模体及其支持度计数;
4)使用汉明距离进行模体的联合支持度计数求解;
5)获取最小支持度阈值min_sup,去除联合支持度计数小于min_sup的模体;
6)获得长度在[nmax,Lu]之间的所有频繁模体。
本发明的有益效果是:首先构建闭频繁扰动探索树,采用闭频繁模体进行剪枝,减少模体的冗余,同时可以减少隐私预算ε的消耗;其次利用探索树结构可以调高内存使用和模体搜索效率,并且可以快速有效的分配隐私预算;最后利用最优线性无偏估计对加噪支持度计数进行一致性约束处理,提高数据的可用性,有效的保护DNA模体识别过程的隐私,并且在准确性方面和模体支持度计数可用性方面均优于现有的隐私保护DNA模体识别方法。
附图说明
图1是本发明流程框架图;
图2(a)不同隐私预算ε下,本方法和已有算法处理Washington数据集的准确度对比图;
图2(b)在不同隐私预算ε下,本方法和已有算法处理Upstream数据集的准确度对比图;
图3(a)在不同N下,本方法和已有算法处理Washington算法的准确度对比图;
图3(b)在不同N下,本方法和已有算法处理Upstream数据集的准确度对比图;
图4(a)在不同DNA模体长度lU下,本方法和已有算法处理Washington算法的准确度对比图;
图4(b)在不同DNA模体长度lU下,本方法和已有算法处理Upstream数据集的准确度对比图;
图5(a)在不同数据量下,本方法和已有算法处理Washington算法的准确度对比图;
图5(b)在不同数据量下,本方法和已有算法处理Upstream数据集的准确度对比图。
具体实施方式
本发明主要提出了一种基于差分隐私保护模型的DNA闭频繁模体识别方法,首先构建基于闭频繁模式剪枝的探索树(a perturbed expansion tree),利用Laplace机制进行加噪,得到了闭频繁扰动探索树;然后采用最优线性无偏估计方法对闭频繁扰动探索树进行后置性处理,使每个DNA模体满足一致性约束;最后计算每个DNA模体的合并频率,并获取结果。以下为本发明方法使用到的概念。
1.差分隐私概念
差分隐私保护模型的核心思想为:一方面可以确保在某一数据集中插入或者删除一条记录的操作不会影响任何计算(如计数查询)的输出结果;另一方面,该模型不关心攻击者所具有的背景知识,即使攻击者已经掌握除某一条记录之外的所有记录的敏感信息,该记录的敏感信息也无法被披露。其形式化定义如下:
定义1差分隐私:给定两个至多相差一条记录的数据集D1和D2(即|D1ΔD2|≤1),对于一个设定的随机函数G,其取值范围为range(G),若算法G在数据集D1和D2上的任意输出结果满足如下定义,则称算法G满足ε差分隐私。
Pr[G(D1)∈S]≤eε×Pr[G(D2)∈S]
其中:Pr[·]表示隐私被披露的概率,且由算法G具有随机性,故攻击者具有的背景知识无效;ε是事先给定的隐私预算,用来表示隐私保护的程度,ε越小表示隐私保护程度越高。
定义2全局敏感度:对于任何函数f:D→Rd,其中D1和D2只有一条记录不同,f与Δf的全局敏感度满足如下定义:
定义3拉普拉斯机制:拉普拉斯机制是一种严格的加噪机制,它利用拉普拉斯分布产生适当校准噪声来干扰函数的真实输出。它需要三个参数作为输入,包括数据集D,一个函数f,和隐私预算ε。产生的噪声服从拉普拉斯分布的概率密度函数,换句话说,噪声是独立于数据集D的,仅仅根据敏感度和隐私预算确定。
定理1:对于任何函数f:D→Rd,随机函数
G(D)=f(D)+Laplace(Δf/ε)
如果满足上述定理,则随机函数G满足ε差分隐私。通常情况下,给定一个函数,我们可以通过改变ε的值来控制加噪的数量。一般来说,较小的ε值会导致更多的噪声,敏感信息更加安全。
一般来说,复杂的隐私保护问题通常需要多步骤的差分隐私保护。在这种情况下,为了确保整个过程的隐私保护水平控制在一个给定的隐私的预算,则需要使用到差分隐私两个重要的性质,即串行组合原理或并行结合原理。
定理2:串行组合原理如果对于每一个随机算法A1,A2,…,An,均有隐私保护预算ε1,ε2,…,εn相对应,且每个算法满足εi-差分隐私,那么算法A作用于同一数据集时满足-差分隐私。
定理3:并行结合原理如果对于每一个随机算法A1,A2,…,An,均有隐私保护预算ε1,ε2,…,εn相对应,且每个算法满足εi-差分隐私,那么算法A的组合作用于不同数据集D1,D2,…,Dn时,算法均满足最大的隐私预算εi-差分隐私。
定义4频繁模体集合(Frequent motif set,FM):在这个数据集中的每个模体的支持数至少为min_sup。定义为:
定义5闭合频繁模体集合(Closed frequent motif set,CM):对于该数据集中的每个模体序列s,不存在与其支持数相同的模体定义为:
定理4:等价关系假设有两个模体序列s和s′。当且仅当且|Ds|=|Ds′|时,s和s′是等价的,Ds是有s作为前缀序列的集合。
然而,DNA模体识别有其自身的特点,频繁序列模式挖掘算法不能直接应用于DNA序列的发现过程。为了保证识别模体的高保守性,模体识别过程一般利用一种近似序列方法来计算其频率,即联合支持度计数。为了度量的近似序列和原序列之间的“近似”的程度,本发明利用汉明距离模型作为标准(汉明距离是指近似程度的一个基本概念)。在汉明距离计算过程中,DNA序列所有的字符源于碱基序列{A,T,C,G}。在模体识别中,一般原则为实现给定一个容错率δ,当两个序列之间的汉明距离小于δ时,近似认为两序列相同,其每一个序列的支持度计数等于两序列支持度计数之和,即联合支持度计数。
定义6汉明距离:对于一个给定长度为l的DNA序列S1和S2,我们假设则汉明距离为
2.马尔可夫假设
马尔可夫过程是一个具有马尔可夫性质的统计模型,而马尔可夫属性是概率论中的一个概念。即:一个给定了当前状态和过去状态的随机过程,其未来状态的条件概率分布只依赖于当前的状态;换句话说,如果当前状态与过去状态是相互独立的,则这个随机过程具有马尔可夫性质。
马尔可夫假设的一种特殊的情况下n-1马尔可夫的过程。对于序列数据,这意味着下一个模式出现的频率只取决于第n-1,而不是前面全部的模式。给定的条件概率Ii+1(i≥n)满足
P(Ii+1|I1→I2→...→Ii)≈P(Ii+1|Ii-n+2→Ii-n+3→...→Ii).
基于以上定义,本发明提出一种基于差分隐私保护模型的DNA闭频繁模体识别方法一-DP-CFMF方法,包括模式分解单元、构建闭频繁扰动树单元、一致性约束后置处理单元和识别模体单元,具体步骤如下:
模式分解单元:利用nmax参数对DNA原始数据集进行模式分解,获得数据集中长度为nmax-1和nmax模体及其支持度计数。
1)首先设置nmax的值,利用nmax对DNA原始数据集进行分解,获得所有长度为nmax的DNA短序列(即模体),并求出其支持度计数;
2)利用nmax-1对DNA原始数据集进行分解,获得所有长度为nmax-1的DNA短序列(即模体),并求出其支持度计数。
构建闭频繁扰动树单元:利用长度为nmax-1和nmax模体构建探索树,利用闭频繁模体等价关系进行剪枝,然后对每一个模体的支持度计数进行加噪,获得由剪枝后nmax-1模体和nmax模体组成的闭频繁扰动探索树。
1)以nmax-1长度的模体为第一层、nmax长度的模体为第二层构建树结构;
2)利用闭频繁等价关系进行剪枝,保留满足等价关系的较长序列,减除较短序列;
3)获取原始数据集DNA序列的最长长度,记为lmax
4)以lmax为全局敏感度对树结构的每个节点进行Laplace机制加噪,获得扰动探索树。
一致性约束后置处理单元:利用最优线性无偏估计方法对扰动探索树的每一个节点的支持度计数进行一致性约束后置处理,获得满足树的一致性约束的支持度计数。
1)判断每个节点加噪后的支持度计数是否满足一致性约束(即树的子节点的支持度计数小于树的父节点、树每个节点的子节点支持度计数之和等于该节点的支持度计数以及每个节点的支持度计数均为整数);
2)取出不满足的节点,使用最优线性无偏估计方法对其支持度计数进行一致性约束处理。
识别模体单元:在n-gram模型的基础上利用马尔可夫假设方法进行预测所有nmax+1模体的支持度计数,不断迭代获取长度在[nmax,Lu]之间的模体,求解每个模体的联合支持度计数,获得长度在[nmax,Lu]之间的频繁模体。
1)利用nmax-1模体和nmax模体为参数进行马尔可夫假设,求解出nmax+1长度的模体;
2)利用nmax和nmax+1模体为参数进行马尔可夫假设,求解出nmax+2长度的模体;
3)按照上述方式不断迭代,最终获取长度[nmax,Lu]之间的所有模体及其支持度计数;
4)使用汉明距离进行模体的联合支持度计数求解;
5)获取最小支持度阈值min_sup,去除联合支持度计数小于min_sup的模体;
6)获得长度在[nmax,Lu]之间的所有频繁模体。
该方法是一种基于差分隐私保护模型的DNA闭频繁模体识别方法,由以上步骤可知,在构建闭频繁扰动树单元,步骤2)中利用闭频繁进行扰动树的剪枝,可以保障准确表达模体包含信息的同时,有效减除冗余模体。同时,该步骤去除大量冗余模体,减少了步骤4)进行Laplace加噪的隐私预算的消耗。而在一致性约束单元,利用最优线性无偏估计方法对数据进行后置处理,使数据满足树结构的一致性。该单元使得加噪后的数据更加符合实际情况,便于后续的挖掘分析。在识别模体单元,步骤1)、2)和3)利用马尔可夫模型预测,可以快速得到长度在[nmax,Lu]之间的模体。
本发明所提方法首先对原始数据集进行模体分解,得到nmax-1和nmax模体及其支持度计数;再利用nmax-1和nmax模体构建探索树,压缩了模体存储空间,提高了模体搜索速度;其次,利用闭频繁进行剪枝,减少了冗余模体对隐私预算的消耗;再次,利用Laplace机制对模体支持度计数进行加噪,使的模体支持度计数满足差分隐私模型,保证了数据的安全;然后利用最优线性无偏估计方法对噪声支持度计数进行后置性约束处理,提高了加噪数据的可用性;然后利用马尔可夫假设进行迭代识别,该步骤保证了模体识别的安全性;最后按照汉明距离计算模体联合支持度计数,获得长度在[nmax,Lu]之间的频繁模体。由此可知,该方法满足差分隐私模型,可以有效地解决模体识别隐私泄露问题,同时,该方法利用闭频繁模体和最优线性无偏估计等模型,有效地解决了隐私预算分配不合理及加噪后数据可用性较低等问题。
实验验证及结果分析
为了评估本文的方法,本发明进行了算法性能测试。实验使用两个真实的DNA数据集,分别是Washington数据集(http://bio.cs.washington.edu/assessment/download.html)共有14,126个元组,另一个为Upstream数据集(http://hgdownload.soe.ucsc.edu/downloads.html)共有487,760个元组。
测试方法的实验平台配置如下:2.2GHz e5-2660CPU,16G内存,64位CentOS 5.8系统,语言为Python2.7。以下实验结果均为5次实验后取得的平均值。
在实验中,我们通过测试两个真实的DNA数据集上运行的效果来比较本发明算法与经典的DNA模体识别算法——N-gram算法和Simple算法的性能。主要通过隐私预算、DNA序列的最大长度和最高频率计数等参数对算法进行全面对比,实验各参数默认值设置均在表1中列出。
表1参数的默认值
实验结果分析
我们采用两种广泛使用的度量标准:准确度和平均相对误差来评估算法的性能。准确性公式为:
设FN是在原始数据集中发现的Top-N模体,而表示差分隐私加噪后识别出的Top-N模体,|FN∩FN|表示FN交集中模体的数量。由公式可知,准确度的的变化范围在[0,1]之间,而其越接近1表示差分隐私加噪后模体识别准确度越高。
1.隐私预算ε的影响
图2(a)和图2(b)展示了DP-CFMF算法和对比算法Washington与Upstream在不同隐私预算ε情况下的准确度对比。在Washington数据集上,隐私预算ε设置范围为0.6到1,而在Upstream数据集上,算法的隐私预算ε设置范围为0.01到0.05(实验中使用的隐私预算是常规使用的设置)。隐私预算决定添加噪声量,当隐私预算增加时,添加的噪声量减少,数据的隐私程度降低。
从图2(a)和图2(b)可以看出:当隐私预算ε变化时,三种算法的结果波动范围在90%以内。从图中可以观察到在不同容错率下,DP-CFMF算法的精度优于其他算法,且本发明准确度比n-gram算法高出了10%,达到了96.6%。其中,δ=2时,随着ε的增加,DP-CFMF算法的准确度达到了90%以上。在Washington数据集上,比N-gram高出了20%,同时,相比于Simple算法而言,本发明在准确度上的优势就更加明显,从图3(b)中可以看出,在不同数据范围和不同的容错率δ下,本发明表现更加稳定。
此外,表2显示的是在不同隐私预算ε下,DP-CFMF和N-gram算法的噪声联合支持度计数的平均相对误差。如表所示,DP-CFMF的平均相对误差比N-gram小的多,这就意味着DP-CFMF的噪声联合支持度计数的增加比N-gram缓慢。甚至当ε=0.9时,DP-CFMF的平均相对误差只有Washington的0.09,这是因为后置处理方法有效提高了联合支持度计数的可用性。
表2在不同隐私预算ε下各算法的噪声联合支持度计数的平均相对误差
2.最频繁的模体计数N对准确性的影响
本实验研究在不同最频繁的模体计数N情况下,模体准确度的影响。对于Washington和Upstream数据集,我们设置了5个不同的N的参数,分别是10,30,50,100,和300。当N增加时,各算法的准确度随之增加。这是因为当N变大时,单一模体的相对排名变动对精确度的影响较小,因此,将N设置为较大的值,使得准确度更高,获得的模体更加具有代表性。此外,从图3(a)和图3(b)可以观察到DP-CFMF准确度更高,分别达到了96%和93%。
从3(a)和图3(b)中观察到:在数据集Washington上,N-gram和Simple需要一个较大的δ,而在Upstream上,N-gram和Simple需要较小的δ。不像N-gram和Simple算法的容错率需要依赖数据量的大小和数据特性,本发明在不同容错率的情况下,趋势较为稳定,即是δ=1优于δ=2,并不依赖于数据量和数据本身特性。由此可以得出,无需考虑数据集特性,DP-CFMF算法应设置较小的δ。
同样,表3展示了不同N下,各算法的噪声联合支持度计数的平均相对误差。表3表明,DP-CFMF的噪声联合支持度计数的准确性优于N-gram算法。
表3不同N下各算法的噪声联合支持度计数的平均相对误差
3.DNA模体长度lU的影响
本实验在固定lL的情况下,研究DNA模体的最大长度lU对算法准确度的影响。在模体识别中,lU影响了模体位点和模体数量。一般来说,模体长度在生物信息学中的长度小于30bps。在表4中,我们设置lU的范围为[6,10]。从图4(a)和图4(b),我们可以观察到随着lU变大,模体的准确率呈现总体下降的趋势。当lU很小时,相对于其他算法,DP-CFMF加入的噪声较少。同时,lU增大时,噪声数量增加,模体的精度降低。
此外,本实验展示了不同DNA模体长度lU下各算法的噪声联合支持度计数的平均相对误差。如表4所示,当模体识别率增加时,DP-CFMF获得较高精确度的频率。且无论lU值如何变化,DP-CFMF在相同的容错率下,数据可用性优于N-gram算法。
表4不同DNA模体长度lU下各算法的噪声联合支持度计数的平均相对误差
4.数据集大小的影响
一般来说,数据集的大小影响数据地隐私效果,较大的数据集隐私效果更好。在图5(a)和图5(b)中,实验评估了N-gram和DP-CFMF在不同规模数据的准确性,小数据集是随机从原始数据中提取的。其他参数设置为默认值。可以看出,随着数据量的增加,这两种算法均展现出更好的效用,这表明DP-CFMF和N-gram算法均适合处理大规模数据集。此外,我们在图5(a)和图5(b)中展现了不同nmax下两种算法的效果。在Washington数据集中,相比于nmax=7,当nmax=6时算法整体呈现更高的准确度。这表明数据集规模较小时,尽量避免选择较大的nmax

Claims (5)

1.一种基于差分隐私保护模型的DNA闭频繁模体识别方法,其特征在于:包括模式分解单元、构建闭频繁扰动树单元、一致性约束后置处理单元和识别模体单元,具体步骤如下:
模式分解单元:利用nmax参数对DNA原始数据集进行模式分解,获得数据集中长度为nmax-1和nmax模体及其支持度计数;
构建闭频繁扰动树单元:利用长度为nmax-1和nmax模体构建探索树,利用闭频繁模体等价关系进行剪枝,然后对每一个模体的支持度计数进行加噪,获得由剪枝后nmax-1模体和nmax模体组成的闭频繁扰动探索树;
一致性约束后置处理单元:利用最优线性无偏估计方法对扰动探索树的每一个节点的支持度计数进行一致性约束后置处理,获得满足树的一致性约束的支持度计数;
识别模体单元:在n-gram模型的基础上利用马尔可夫假设方法进行预测所有nmax+1模体的支持度计数,不断迭代获取长度在[nmax,Lu]之间的模体,求解每个模体的联合支持度计数,获得长度在[nmax,Lu]之间的频繁模体。
2.根据权利要求1所述的一种基于差分隐私保护模型的DNA闭频繁模体识别方法,其特征在于:模式分解单元具体步骤如下:
1)首先设置nmax的值,利用nmax对DNA原始数据集进行分解,获得所有长度为nmax的模体,并求出其支持度计数;
2)利用nmax-1对DNA原始数据集进行分解,获得所有长度为nmax-1的模体,并求出其支持度计数。
3.根据权利要求2所述的一种基于差分隐私保护模型的DNA闭频繁模体识别方法,其特征在于:构建闭频繁扰动树单元具体步骤如下:
1)以nmax-1长度的模体为第一层、nmax长度的模体为第二层构建树结构;
2)利用闭频繁等价关系进行剪枝,保留满足等价关系的较长序列,减除较短序列;
3)获取原始数据集DNA序列的最长长度,记为lmax
4)以lmax为全局敏感度对树结构的每个节点进行Laplace机制加噪,获得扰动探索树。
4.根据权利要求3所述的一种基于差分隐私保护模型的DNA闭频繁模体识别方法,其特征在于:一致性约束后置处理单元具体步骤如下:
1)判断每个节点加噪后的支持度计数是否满足一致性约束,树的子节点的支持度计数小于树的父节点、树每个节点的子节点支持度计数之和等于该节点的支持度计数以及每个节点的支持度计数均为整数;
2)取出不满足的节点,使用最优线性无偏估计方法对其支持度计数进行一致性约束处理。
5.根据权利要求1所述的一种基于差分隐私保护模型的DNA闭频繁模体识别方法,其特征在于:识别模体单元具体步骤如下:
1)利用nmax-1模体和nmax模体为参数进行马尔可夫假设,求解出nmax+1长度的模体;
2)利用nmax和nmax+1模体为参数进行马尔可夫假设,求解出nmax+2长度的模体;
3)按照上述方式不断迭代,最终获取长度[nmax,Lu]之间的所有模体及其支持度计数;
4)使用汉明距离进行模体的联合支持度计数求解;
5)获取最小支持度阈值min_sup,去除联合支持度计数小于min_sup的模体;
6)获得长度在[nmax,Lu]之间的所有频繁模体。
CN201710778923.3A 2017-08-31 2017-08-31 一种基于差分隐私保护模型的dna闭频繁模体识别方法 Pending CN107729762A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710778923.3A CN107729762A (zh) 2017-08-31 2017-08-31 一种基于差分隐私保护模型的dna闭频繁模体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710778923.3A CN107729762A (zh) 2017-08-31 2017-08-31 一种基于差分隐私保护模型的dna闭频繁模体识别方法

Publications (1)

Publication Number Publication Date
CN107729762A true CN107729762A (zh) 2018-02-23

Family

ID=61204900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710778923.3A Pending CN107729762A (zh) 2017-08-31 2017-08-31 一种基于差分隐私保护模型的dna闭频繁模体识别方法

Country Status (1)

Country Link
CN (1) CN107729762A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664807A (zh) * 2018-04-03 2018-10-16 徐州医科大学 基于随机采样及模体压缩的差分隐私dna模体识别的方法
CN110059228A (zh) * 2019-03-11 2019-07-26 西安电子科技大学 一种dna数据集植入模体搜索方法及其装置与存储介质
CN110471957A (zh) * 2019-08-16 2019-11-19 安徽大学 基于频繁模式树的本地化差分隐私保护频繁项集挖掘方法
CN111858507A (zh) * 2020-06-16 2020-10-30 广州大学 基于dna的数据存储方法、解码方法、系统和装置
CN112182497A (zh) * 2020-09-25 2021-01-05 齐鲁工业大学 一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质
CN112214733A (zh) * 2020-09-30 2021-01-12 中国科学院数学与系统科学研究院 面向隐私保护的分布式估计方法、系统与可读存储介质
WO2021052201A1 (zh) * 2019-09-20 2021-03-25 华为技术有限公司 数据防窃取方法和相关产品
CN113569286A (zh) * 2021-03-26 2021-10-29 东南大学 基于本地化差分隐私的频繁项集挖掘方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050267A (zh) * 2014-06-23 2014-09-17 中国科学院软件研究所 基于关联规则满足用户隐私保护的个性化推荐方法及系统
CN104537025A (zh) * 2014-12-19 2015-04-22 北京邮电大学 频繁序列挖掘方法
US20150236849A1 (en) * 2012-09-14 2015-08-20 Ecole Polytechnique Federale De Lausanne (Epfl) Privacy-enhancing technologies for medical tests using genomic data
US20160292455A1 (en) * 2013-11-22 2016-10-06 The Trustees Of Columbia University In The City Of New York Database Privacy Protection Devices, Methods, And Systems
CN106991335A (zh) * 2017-02-20 2017-07-28 南京邮电大学 一种基于差分隐私保护的数据发布方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150236849A1 (en) * 2012-09-14 2015-08-20 Ecole Polytechnique Federale De Lausanne (Epfl) Privacy-enhancing technologies for medical tests using genomic data
US20160292455A1 (en) * 2013-11-22 2016-10-06 The Trustees Of Columbia University In The City Of New York Database Privacy Protection Devices, Methods, And Systems
CN104050267A (zh) * 2014-06-23 2014-09-17 中国科学院软件研究所 基于关联规则满足用户隐私保护的个性化推荐方法及系统
CN104537025A (zh) * 2014-12-19 2015-04-22 北京邮电大学 频繁序列挖掘方法
CN106991335A (zh) * 2017-02-20 2017-07-28 南京邮电大学 一种基于差分隐私保护的数据发布方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
METE AKGUN ET AL.: "Privacy preserving processing of genomic data : A survey", 《JOURNAL OF BIOMEDICAL INFORMATICS》 *
MICHAEL HAY ET AL.: "Boosting the accuracy of differentially private histograms through consistency", 《PROC.VLDB ENDOW》 *
RUI CHEN ET AL.: "A private DNA motif finding algorithm", 《JOURNAL OF BIOMEDICAL INFORMATICS》 *
SHENGZHI XU ET AL.: "Differentially Private Frequent Sequence Mining", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
XIFENG YAN ET AL.: "Clospan Mining Closed sequential patterns in large datasets", 《PROCEEDINGS OF THE 2003 SIAM INTERNATIONAL CONFERENCE ON DATA MINING》 *
丁丽萍等: "面向频繁模式挖掘的差分隐私保护研究综述", 《通信学报》 *
卢国庆等: "差分隐私下的一种频繁序列模式挖掘方法", 《计算机研究与发展》 *
雷小三: "基因组数据的隐私保护技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664807A (zh) * 2018-04-03 2018-10-16 徐州医科大学 基于随机采样及模体压缩的差分隐私dna模体识别的方法
CN110059228A (zh) * 2019-03-11 2019-07-26 西安电子科技大学 一种dna数据集植入模体搜索方法及其装置与存储介质
CN110059228B (zh) * 2019-03-11 2021-11-30 西安电子科技大学 一种dna数据集植入模体搜索方法及其装置与存储介质
CN110471957A (zh) * 2019-08-16 2019-11-19 安徽大学 基于频繁模式树的本地化差分隐私保护频繁项集挖掘方法
CN110471957B (zh) * 2019-08-16 2021-10-26 安徽大学 基于频繁模式树的本地化差分隐私保护频繁项集挖掘方法
WO2021052201A1 (zh) * 2019-09-20 2021-03-25 华为技术有限公司 数据防窃取方法和相关产品
CN111858507A (zh) * 2020-06-16 2020-10-30 广州大学 基于dna的数据存储方法、解码方法、系统和装置
CN111858507B (zh) * 2020-06-16 2023-06-20 广州大学 基于dna的数据存储方法、解码方法、系统和装置
CN112182497A (zh) * 2020-09-25 2021-01-05 齐鲁工业大学 一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质
CN112214733A (zh) * 2020-09-30 2021-01-12 中国科学院数学与系统科学研究院 面向隐私保护的分布式估计方法、系统与可读存储介质
CN112214733B (zh) * 2020-09-30 2022-06-21 中国科学院数学与系统科学研究院 面向隐私保护的分布式估计方法、系统与可读存储介质
CN113569286A (zh) * 2021-03-26 2021-10-29 东南大学 基于本地化差分隐私的频繁项集挖掘方法
CN113569286B (zh) * 2021-03-26 2024-03-19 东南大学 基于本地化差分隐私的频繁项集挖掘方法

Similar Documents

Publication Publication Date Title
CN107729762A (zh) 一种基于差分隐私保护模型的dna闭频繁模体识别方法
Bozic et al. Accumulation of driver and passenger mutations during tumor progression
Lawrence et al. Modelling transcriptional regulation using Gaussian processes
Vrbik et al. Analytic calculations for the EM algorithm for multivariate skew-t mixture models
Huang et al. Predicting lncRNA-miRNA interaction via graph convolution auto-encoder
Wilber et al. Scale collapse and the emergence of the power law species–area relationship
Matos‐Maraví et al. Species limits in butterflies (Lepidoptera: Nymphalidae): reconciling classical taxonomy with the multispecies coalescent
Hedman Constraints on clade ages from fossil outgroups
Bandyopadhyay et al. A biologically inspired measure for coexpression analysis
Xu et al. Bayesian analysis of Birnbaum–Saunders distribution with partial information
CN110993113A (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
Zuanetti et al. Clustering distributions with the marginalized nested Dirichlet process
Yang et al. NCResNet: noncoding ribonucleic acid prediction based on a deep resident network of ribonucleic acid sequences
Chang et al. Research on side-channel analysis based on deep learning with different sample data
Hanel et al. Living on the edge of chaos: minimally nonlinear models of genetic regulatory dynamics
Chen et al. ncDENSE: a novel computational method based on a deep learning framework for non-coding RNAs family prediction
Wei et al. Identification of a combination of SNPs associated with Graves’ disease using swarm intelligence
CN108664807A (zh) 基于随机采样及模体压缩的差分隐私dna模体识别的方法
Fu et al. An event-centric prediction system for COVID-19
Gupta et al. Genome Sequence Identification Using Neural Network for Breast Cancer Diagnosis
Jiang et al. Prediction of drug-disease associations based on long short-term memory network and Gaussian interaction profile kernel
Xing et al. DP-gSpan: A pattern growth-based differentially private frequent subgraph mining algorithm
Shi et al. A combined expression-interaction model for inferring the temporal activity of transcription factors
Zhang et al. Privacy-preserving gradient descent for distributed genome-wide analysis
Manté Application of iterated Bernstein operators to distribution function and density approximation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180223

WD01 Invention patent application deemed withdrawn after publication