CN106570348B - 一种具有抑制机制的流式生物数据隐私保护增量发布方法 - Google Patents

一种具有抑制机制的流式生物数据隐私保护增量发布方法 Download PDF

Info

Publication number
CN106570348B
CN106570348B CN201610876549.6A CN201610876549A CN106570348B CN 106570348 B CN106570348 B CN 106570348B CN 201610876549 A CN201610876549 A CN 201610876549A CN 106570348 B CN106570348 B CN 106570348B
Authority
CN
China
Prior art keywords
tuple
data
biological data
data collection
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610876549.6A
Other languages
English (en)
Other versions
CN106570348A (zh
Inventor
吴响
余文文
李娜娜
沙岩
林童
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Medical University
Original Assignee
Xuzhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou Medical University filed Critical Xuzhou Medical University
Priority to CN201610876549.6A priority Critical patent/CN106570348B/zh
Publication of CN106570348A publication Critical patent/CN106570348A/zh
Application granted granted Critical
Publication of CN106570348B publication Critical patent/CN106570348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种具有抑制机制的流式生物数据隐私保护增量发布算法,涉及匿名隐私保护技术领域。本发明基于k‑匿名模型,取出流式生物数据中最早到达的元组s,将其插入到临时存储元组的集合Setw中,等待发布,然后声明一个用于储存抑制元组的集合Sets,再判断Setw中等待时间最长的元组与时延约束δ的关系从而采取抑制机制,换言之,一旦Setw中元组数量大于时延δ且Sets中元组数量小于抑制阈值ε时,将Setw中的ts最小的元组a插入Sets中。该算法利用时延和抑制阈值的思想,以牺牲少量数据为代价换取发布数据的可用性,有效地控制了流式生物数据匿名发布中的信息损失。实验表明:该算法能够有效地匿名化流式生物数据,同时,保证发布的生物数据具有较高可用性。本算法在处理流式生物数据具有显著优势。

Description

一种具有抑制机制的流式生物数据隐私保护增量发布方法
技术领域
本发明涉及数据发布中的匿名隐私保护技术领域,具体是一种具有抑制机制的流式生物数据隐私保护增量发布方法。
背景技术
随着DNA测序技术的进步,DNA测序向着高通量、低成本的方向不断发展,“人类基因组计划”得以完成。在此之后,大量以基因数据为主体的生物数据仍然不间断地产生,并且这些生物数据通过发布被广泛应用于医学研究和临床诊断。动态生物数据以数据流的形式到达收集方后,该数据会被及时更新到已发布的数据集中。然而,生物数据的发布具有潜在的隐私泄露风险,易造成数据提供者身份被识别问题。这将会阻碍生物数据的分享,导致生物数据难以被安全地应用于医学研究。因此,生物数据在发布时需要保护提供者身份不被识别,进行合理的隐私保护。
目前,针对生物数据隐私保护的方法主要为基于一种DNA泛化格的k-匿名算法——DNALA,如图2所示。该算法直接对基因组序列进行泛化操作,使发布的生物数据表满足2-匿名。在DNALA算法中,Malin已经证明了若k>2,则匿名后的基因组数据容易造成过度泛化,使得发布的数据集效用偏低。为保留数据的可用性,DNALA算法尽可能保证序列聚合成两两一组的簇,再对每个簇进行泛化。因此,DNALA算法在保证满足2-匿名的同时,保留了数据的可用性。此外,Li等人提出Hybrid算法解决流式生物数据的匿名问题。然而,Hybrid算法往往会形成大量三序列簇,导致发布的数据集可用性降低。
发明内容
为了克服上述现有技术的缺点,本发明提供一种具有抑制机制的流式生物数据的隐私保护方法,大幅度提升了发布的生物数据集的实用性,使其具有较高的挖掘价值。
本发明是以如下技术方案实现的:一种具有抑制机制的流式生物数据隐私保护增量发布方法,输入:流式生物数据集S;抑制阈值ε;已发布数据集A;时延约束δ;已发布数据集A的平均距离AD(Average Distance);已发布数据集A的聚类结果m个簇(n1,n2,...,nm),其中,任意ni与nj不包含相同的元组,且任意一个元组簇ni中包含元组的数量为2或者3,已发布数据集A中的元组均存在于这m个簇;输出:更新后的匿名表A';具体步骤如下:
1)首先,设有空集合Setw用来存放等待发布的元组,空集合Sets用来存放被抑制的元组;
2)当流式生物数据集S非空时,取出流式生物数据集S中ts值最小的元组s,将其插入到Setw中,ts为元组达到收集方的时间;
3)若集合Setw中元组个数不大于δ,则执行步骤4);否则,执行步骤6);
4)找到集合Setw内距元组s最近的序列r,计算出r和s的距离dist(r,s);
5)如果,dist(r,s)小于已发布数据集A的平均距离AD时,从集合Setw取出元组r和s形成的簇放入已发布数据集A中,并泛化r和s,然后执行步骤7);否则,直接执行步骤7);
6)若集合Setw中元组个数大于δ,且集合Sets中元组个数小于ε,则将集合Setw中ts最小的元组a移入集合Sets中,然后执行步骤7);若集合Setw中元组个数大于δ,且Sets中元组个数大于ε,则获取集合Setw中ts值最小的元组a,找到已发布数据集A中距离a最近的序列b,将a添加到含b的元组簇ni中;针对新形成的元组簇ni所含元素个数的不同,采取相应处理方式:若此时的ni中元组个数为3时,则泛化ni;若ni中元组个数为4,则把ni划分为元素个数相等的g和h两个簇,并确保两个分组的内部元素距离之和最小,然后泛化g和h;
7)跳转到步骤2),直到流式生物数据集S为空;
8)得到更新后的匿名表A'。
本发明的有益效果是:通过抑制机制,有效地抑制了离群点的发布,在保障发布数据集隐私安全的同时保证了其具有较高的可用性,克服现存匿名流式数据的Hybrid算法容易数据集过度泛化的缺陷,另设置一个抑制阈值,可以控制抑制元组的数量,平衡了牺牲数据量和提高可用性之间的关系;本算法基于现存算法的框架,提高了匿名后的流式生物数据的可用性。与DNALA算法和改进后的Hybrid算法相比,本算法可形成较少的三元组簇,使待发布的数据集可用性得以显著提升,同时确保了基因数据的安全性,防止个人隐私的泄露。
附图说明
图1是本发明流程框图:
图2为DNALA算法下的DNA泛化格示意图;
图3为多序列比对机制(MSA)和两两序列比对机制(PSA)示意图;
图4为Hybrid算法下新到达的生物数据更新到已发布数据集中的示例图;
图5为WSPSGD方法下新到达的生物数据更新到已发布数据集中的示例图;
图6a为数据集I,δ=40,ε=20时WSPSGD的影响示例图;
图6b为数据集II,δ=40,ε=30时WSPSGD的影响示例图;
图6c为数据集III,δ=80,ε=40时WSPSGD的影响示例图;
图7a为数据集I,ε=20时流基因函数的平均距离示例图;
图7b为数据集II,ε=30时流基因函数的平均距离示例图;
图7c为数据集III,ε=40时流基因函数的平均距离示例图。
图8a为数据集I,δ=40时抑制阈值的影响示例图;
图8b为数据集II,δ=40时抑制阈值的影响示例图;
图8c为数据集III,δ=80时抑制阈值的影响示例图。
具体实施方式
本发明主要提出了一种具有抑制机制的流式生物数据的k-匿名隐私保护增量发布方法,以下为本发明方法使用到的k-匿名概念以及流式基因组数据的概念。
定义1 k-匿名模型定义:发布的数据集中每条元组至少具有k-1条不可区分的元组。根据这一原则,k-匿名模型确保重新确定一个人在发布数据集中的概率不超过1/k。具体参考表1的处理结果。表1为原数据集及其k-匿名的转换示意图。其中年龄和性别属性已被泛化,并且表中最后一条数据被抑制。从表中可以得出,处理后的数据集满足2-匿名。
表1
定义2 流式基因组数据的k-匿名:假设S为一个具有属性集AS=(pid,DNAsequence,at)的流式基因组数据集,其中pid标志个人序列号、DNA sequence表示基因序列,ts为S中元组的到达时间。假设S'为S匿名后的数据,则S'中不包含pid、ts属性。若S'满足k-匿名,则需满足以下条件:
(1)对于t'由t泛化而得,
(2)对于所有EQ(t')中的元组和t'相同,并且|EQ(t')|代表|EQ(t')|的数目,那么我们将S'命名为一个满足k-匿名的流式基因数据集。例如表2所示,表格中左边的数据集为原始流式基因数据,右边的数据则是匿名后满足2-匿名的数据集。其中pid为3201和3202的元组为一个EQ(t'),此时|EQ(t')|=2。
表2
定义3 延迟约束δ:设P是一个动态基因组数据集的匿名策略,如果由P输出的满足k-匿名的数据集S'满足:其中,t是S中与t'相对应的元组,δ为一个给定的实数且δ>0。那么,我们称P满足时延约束δ。
针对现存的DNALA算法和Hybrid算法处理动态基因数据的缺陷,我们提出了一种改进的k-匿名算法。首先,DNALA是一种静态基因组数据,其处理动态序列花费时间较长。其次,在DNALA中,已证明对包含三个元组的聚簇进行泛化时容易造成过度泛化,降低数据的可用性,而Hybrid算法在处理动态生物数据时会形成大量包含三元组的簇,造成数据集的过度泛化。为为解决这一问题,本发明中的算法尽可能地使得元组两两聚合成簇并进行泛化,使匿名后的数据表在满足k=2的同时,聚合更多的包含两元组的簇。
定义4 抑制阈值ε:一个待发布数据集定义为D。如果D中的元组d将不会被发布,那么称元组d被抑制。其中,给定参数ε是可抑制的最大数据量,该阈值用于限制不被发布的元组数量。
基于以上定义,一种具有抑制机制的流式生物数据隐私保护增量发布方法,输入:流式生物数据集S;抑制阈值ε;已发布数据集A;时延约束δ;已发布数据集A的平均距离AD(Average Distance);已发布数据集A的聚类结果m个簇(n1,n2,...,nm),其中,任意ni与nj不包含相同的元组,且任意一个元组簇ni中包含元组的数量为2或者3,已发布数据集A中的元组均存在于这m个簇;输出:更新后的匿名表A';具体步骤如下:
1)首先,设有空集合Setw用来存放等待发布的元组,空集合Sets用来存放被抑制的元组;
2)当流式生物数据集S非空时,取出流式生物数据集S中ts值最小的元组s,将其插入到Setw中,ts为元组达到收集方的时间;
3)若集合Setw中元组个数不大于δ,则执行步骤4);否则,执行步骤6);
4)找到集合Setw内距元组s最近的序列r,计算出r和s的距离dist(r,s);
5)如果,dist(r,s)小于已发布数据集A的平均距离AD时,从集合Setw取出元组r和s形成的簇放入已发布数据集A中,并泛化r和s,然后执行步骤7);否则,直接执行步骤7);
6)若集合Setw中元组个数大于δ,且集合Sets中元组个数小于ε,则将集合Setw中ts最小的元组a移入集合Sets中,然后执行步骤7);若集合Setw中元组个数大于δ,且Sets中元组个数大于ε,则获取集合Setw中ts值最小的元组a,找到已发布数据集A中距离a最近的序列b,将a添加到含b的元组簇ni中;针对新形成的元组簇ni所含元素个数的不同,采取相应处理方式:若此时的ni中元组个数为3时,则泛化ni;若ni中元组个数为4,则把ni划分为元素个数相等的g和h两个簇,并确保两个分组的内部元素距离之和最小,然后泛化g和h;
7)跳转到步骤2),直到流式生物数据集S为空;
8)得到更新后的匿名表A'。
该方法简称WSPSGD(With Suppression Publishing Streaming Genomic Data)方法,由以上步骤可知,WSPSGD方法的步骤2),取出S中最先到达的元组s,并将其插入一个等待发布的临时存储集合Setw。步骤3),判断Setw中是否有元组等待时间超过时延。步骤4)~5),若Setw中元组的等待时间均未超过时延,则从Setw找到离s最近的元组r,计算r和s的间距dist(r,s)。如果dist(r,s)小于AD,把r和s组成的簇更新到A中,这一步确保了已发布数据集新增簇时,不会增大其信息损失量。步骤6)~步骤7),若Setw中存在元组的等待时间超过时延,则判断Sets包含元组的数量与抑制阈值ε的关系。如果Sets小于ε,那么将Setw中的ts最小的元组a转移到用于存储不发布数据的集合Sets中,换言之,抑制掉超出时延的数据(即永远不发布这些数据);如果Sets数目不小于ε,则取出Setw中最先到达的元组a,在数据集A中找到距a最近的元组b,将a插入到包含b的簇中。如果a插入后的簇包括四个序列,将其分成两个小簇,使每个簇中仅包含两个元组,接着泛化这些序列;而新组成的簇包括三个序列时,则直接泛化这些序列。
WSPSGD方法尽管牺牲少量的数据,但通过抑制机制有效地减少三元组簇的形成,使发布的数据集具有较大的挖掘价值。此外,WSPSGD方法中的参数ε可以控制被抑制的元组数量,通过调节ε,可以在牺牲数据量和提高可用性之间得到平衡。图3为多序列比对机制(MSA)和两两序列比对机制(PSA)示意图,图5是WSPSGD方法处理流式数据的例图,图4是Hybrid算法处理流式数据的例图。由图可知,WSPSGD方法处理的流式数据集包含三序列的簇的个数比Hybrid算法少,因此,WSPSGD方法具有更高的精确度。
实验验证及结果分析
实验数据集及环境:为了评估WSPSGD方法,进行算法性能测试,实验使用来自NCBI的三个数据集,分别包含元组个数为:327、540和711。详情如表3所示。为模拟大数据流,实验将这些数据的1/3作为静态处理数据集,采用Hybrid和其他MWM-based算法对其进行匿名处理。此后将剩余的2/3作为动态更新数据,再通过WSPSGD方法进行动态匿名化处理。
表3
测试WSPSGD方法的实验平台配置如下:AMD Athlon(tm)II 2.1GHz CPU/4GB内存,Window 10系统。以下所得实验数据均为在运行10次实验的基础上取其结果的平均值。
实验结果分析
图6a、图6b以及图6c所示为WSPSGD方法中,不同数据集情景下平均距离随流基因序列更新数量的变化情况。从图6a中可以看出,WSPSGD方法处理后形成的平均距离小于Hybrid算法,WSPSGD方法隐匿的数据平均距离在[20-120]范围内不断缩减,[120-180]范围内出现上升,Hybrid算法总体呈现曲折下降。在这个过程中,Hybrid算法泛化产生了许多三序列簇,从而导致平均距离增大,而WSPSGD方法可以找到一些Setw中适当的二序列簇使得平均距离减小。因此,被WSPSGD方法隐匿的数据相比于Hybrid算法的处理结果具有更小的平均距离和IL。图6b和图6c也显示了相同结论:在处理流式数据时,WSPSGD方法比Hybrid算法有更高的精度。
图7a、图7b以及图7c主要展现WSPSGD方法本身所具有的参数与效果之间的评估,图中数据表示平均距离与发布序列量、时延δ之间的函数关系。从中可以看出普遍规律,随着时延的增大,在同一发布数据量的情况下,平均距离随之减小。
图8a、图8b以及图8c证明了平均距离随着流基因序列更新数量的增大逐渐增大。此外,抑制阈值越大,平均距离越小的实验现象说明,WSPSGD方法在抑制离群数据发布,提高数据实用性方面效果显著。
综上所述,相比于Hybrid算法,WSPSGD方法整体性能更优。尤其在数据处理量较少时,具有更大的优越性。同时,实验结果表明该算法遵循一般规则:在整个过程中抑制阈值越大,信息损失得越少。它能够保障生物数据隐私安全的同时,克服现存的Hybrid算法生成大量三序列聚类的缺陷,发布更精确的数据集,使得发布的生物数据集的实用性大大增强。

Claims (1)

1.一种具有抑制机制的流式生物数据隐私保护增量发布方法,其特征在于:输入:流式生物数据集S;抑制阈值ε;已发布数据集A;时延约束δ;已发布数据集A的平均距离AD;已发布数据集A的聚类结果m个簇n1,n2,...,nm,其中,任意ni与nj不包含相同的元组,且任意一个元组簇ni中包含元组的数量为2或者3,已发布数据集A中的元组均存在于这m个簇,1≤i≤m,1≤j≤m,且i≠j;输出:更新后的匿名表A';具体步骤如下:
1)首先,设有空集合Setw用来存放等待发布的元组,空集合Sets用来存放被抑制的元组;
2)当流式生物数据集S非空时,取出流式生物数据集S中ts值最小的元组s,将其插入到Setw中,ts为元组达到收集方的时间;
3)若集合Setw中元组个数不大于δ,则执行步骤4);否则,执行步骤6);
4)找到集合Setw内距元组s最近的序列r,计算出r和s的距离dist(r,s);
5)如果,dist(r,s)小于已发布数据集A的平均距离AD时,从集合Setw取出元组r和s形成的簇放入已发布数据集A中,并泛化r和s,然后执行步骤7);否则,直接执行步骤7);
6)若集合Setw中元组个数大于δ,且集合Sets中元组个数小于ε,则将集合Setw中ts最小的元组a移入集合Sets中,然后执行步骤7);若集合Setw中元组个数大于δ,且Sets中元组个数大于ε,则获取集合Setw中ts值最小的元组a,找到已发布数据集A中距离a最近的序列b,将a添加到含b的元组簇ni中;针对新形成的元组簇ni所含元素个数的不同,采取相应处理方式:若此时的ni中元组个数为3时,则泛化ni;若ni中元组个数为4,则把ni划分为元素个数相等的g和h两个簇,并确保两个分组的内部元素距离之和最小,然后泛化g和h;
7)跳转到步骤2),直到流式生物数据集S为空;
8)得到更新后的匿名表A'。
CN201610876549.6A 2016-10-08 2016-10-08 一种具有抑制机制的流式生物数据隐私保护增量发布方法 Active CN106570348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610876549.6A CN106570348B (zh) 2016-10-08 2016-10-08 一种具有抑制机制的流式生物数据隐私保护增量发布方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610876549.6A CN106570348B (zh) 2016-10-08 2016-10-08 一种具有抑制机制的流式生物数据隐私保护增量发布方法

Publications (2)

Publication Number Publication Date
CN106570348A CN106570348A (zh) 2017-04-19
CN106570348B true CN106570348B (zh) 2018-11-13

Family

ID=58531644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610876549.6A Active CN106570348B (zh) 2016-10-08 2016-10-08 一种具有抑制机制的流式生物数据隐私保护增量发布方法

Country Status (1)

Country Link
CN (1) CN106570348B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10700864B2 (en) 2017-07-12 2020-06-30 International Business Machines Corporation Anonymous encrypted data
CN108664807A (zh) * 2018-04-03 2018-10-16 徐州医科大学 基于随机采样及模体压缩的差分隐私dna模体识别的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012158621A1 (en) * 2011-05-13 2012-11-22 Indiana University Reaserch And Technology Coporation Secure and scalable mapping of human sequencing reads on hybrid clouds
CN105512566A (zh) * 2015-11-27 2016-04-20 电子科技大学 一种基于k-匿名的健康数据隐私保护方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012158621A1 (en) * 2011-05-13 2012-11-22 Indiana University Reaserch And Technology Coporation Secure and scalable mapping of human sequencing reads on hybrid clouds
CN105512566A (zh) * 2015-11-27 2016-04-20 电子科技大学 一种基于k-匿名的健康数据隐私保护方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
k-APPRP:一种基于划分的增量数据重发布隐私保护k-匿名算法;吴英杰 等;《小型微型计算机系统》;20090831;第30卷(第8期);第1581-1587页 *
一种个人DNA数据隐私保护算法的改进;李光 等;《生物信息学》;20070615(第2期);第78-81页 *
基于时间密度的数据流匿名方法;谢静 等;《通信学报》;20141130;第35卷(第11期);第191-198页 *

Also Published As

Publication number Publication date
CN106570348A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
O’Connor The distribution of common-variant effect sizes
Kalinowski How many alleles per locus should be used to estimate genetic distances?
Wei et al. Variable selection and estimation in high-dimensional varying-coefficient models
Secrier et al. Arena3D: visualizing time-driven phenotypic differences in biological systems
Chu et al. Feature screening for time-varying coefficient models with ultrahigh dimensional longitudinal data
Silver et al. Fast identification of biological pathways associated with a quantitative trait using group lasso with overlaps
Hajiaghayi et al. Analysis of energy-based algorithms for RNA secondary structure prediction
Vangestel et al. Genetic diversity and population structure in contemporary house sparrow populations along an urbanization gradient
CN106570348B (zh) 一种具有抑制机制的流式生物数据隐私保护增量发布方法
Fernando et al. An efficient exact method to obtain GBLUP and single-step GBLUP when the genomic relationship matrix is singular
Raithel et al. Inferential considerations for low-count RNA-seq transcripts: a case study on the dominant prairie grass Andropogon gerardii
Chalise et al. Comparison of penalty functions for sparse canonical correlation analysis
Bandyopadhyay et al. A biologically inspired measure for coexpression analysis
CN107729762A (zh) 一种基于差分隐私保护模型的dna闭频繁模体识别方法
Kammers et al. Survival models with preclustered gene groups as covariates
Tabatabai et al. Robust logistic and probit methods for binary and multinomial regression
Yu et al. Two community types occur in gut microbiota of large‐sample wild plateau pikas (Ochotona curzoniae)
Zhou et al. Influence of batch effect correction methods on drug induced differential gene expression profiles
Zhao et al. Cross‐trait prediction accuracy of summary statistics in genome‐wide association studies
CN106570412B (zh) 一种增量发布流式生物数据的隐私保护方法
Jung et al. Ancestry informative markers (AIMs) for Korean and other East Asian and south east asian populations
Ma et al. Analysis on censored quantile residual life model via spline smoothing
Nkurunziza et al. Estimation strategies for the regression coefficient parameter matrix in multivariate multiple regression
Kimani et al. Point estimation following two‐stage adaptive threshold enrichment clinical trials
Kheirabadi et al. Modeling lactation curves and estimation of genetic parameters in H olstein cows using multiple‐trait random regression models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant