CN116034365A - 从个体基因组信息得出的匿名数字身份 - Google Patents

从个体基因组信息得出的匿名数字身份 Download PDF

Info

Publication number
CN116034365A
CN116034365A CN202180046726.7A CN202180046726A CN116034365A CN 116034365 A CN116034365 A CN 116034365A CN 202180046726 A CN202180046726 A CN 202180046726A CN 116034365 A CN116034365 A CN 116034365A
Authority
CN
China
Prior art keywords
user
genomic
key
snps
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180046726.7A
Other languages
English (en)
Inventor
埃斯特尔·吉劳德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grid Health Systems Co
Original Assignee
Grid Health Systems Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grid Health Systems Co filed Critical Grid Health Systems Co
Publication of CN116034365A publication Critical patent/CN116034365A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords
    • H04L9/0866Generation of secret information including derivation or calculation of cryptographic keys or passwords involving user or device identifiers, e.g. serial number, physical or biometrical information, DNA, hand-signature or measurable physical characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3218Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using proof of knowledge, e.g. Fiat-Shamir, GQ, Schnorr, ornon-interactive zero-knowledge proofs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3228One-time or temporary data, i.e. information which is sent for every authentication or authorization, e.g. one-time-password, one-time-token or one-time-key
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/50Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

计算生物建模和生物信息学实现的密码术/信息安全用于在数字公共账本系统上为用户生成可变的公共身份。本文公开的是密码化协议增强功能,可防止用户被其公钥跟踪,同时仍然能够使用公钥的功能。每次用户与公共账本交互时,该用户都会通过从其基因组中随机选择其单核苷酸多态性(“SNP”)来被标识。交互用户有用于交互的随机SNP的记录,并且可以通过其个人基因组确认的零知识证明来验证自己是交互用户。但是,其他人将无法将用户的活动与可变基因组身份相关联。用于编码多个基因组和多组学信息流的基因组数据结构进一步支持可变基因组身份的生成和网络人工验证。

Description

从个体基因组信息得出的匿名数字身份
相关申请交叉引用
本申请要求标题为“从个体基因组信息得出的匿名数字身份”并于2020年4月29日提交的美国临时申请号63/017,561的优先权,其通过引用整体并入本文。
技术领域
本技术涉及计算生物建模和生物信息学实现的密码术/信息安全。更具体地,本技术涉及数字交互中的可变公共标识。
背景技术
当公共记录系统(例如使用区块链数据结构进行操作的那些)的用户交互时,常常由密码化密钥对中的公钥来标识用户。密码化密钥对不会变化。当给定用户交互时,可以从与其公钥关联的活动构建交互模式。从该模式中,可以得出用户的真实身份(例如,用户何时进行交易或用户与谁进行交易的模式提供了关于匿名身份背后是谁的洞察)。当用户经常使用相同的密码化身份时,密码化标识符的匿名性不一定足以保护一个人的身份。
“大数据”的世界充满了许多实体,这些实体彼此之间不会特别信任,也不直接竞争,但仍能从相互共享的数据中获益。通过数据共享实现互利的一个这样的例子是在机器学习或AI模块的训练中。机器学习应用使用附加的训练数据进行改善;因此,多方之间共享训练数据可以改善这些模块的整体功能。尽管有明显的互利,但在各方没有理由信任彼此的情况下,就必须采取防备措施。
附图说明
图1是示出生成可变密码化身份(“基因组密钥”)的方法的流程图。
图2是示出验证用户是区块链上交易(transaction)的一方的方法的流程图。
图3是示出验证社交媒体平台上的人类的流程图。
图4是单实体系统架构的示意框图。
图5是具有一个数据存储的多实体系统架构的示意框图。
图6是示出计算系统的示例的框图,其中可以实现本文描述的至少一些操作。
具体实施方式
在本描述中,对“实施例”,“一个实施例”等的提及意味着所描述的特定特征,功能,结构或特性被包括在本文的至少一个实施例中。本说明书中出现此类短语不一定都涉及相同的实施例。另一方面,所涉及的实施例也不一定是相互排斥的。
本文公开的是利用用户的基因组信息来提供可变的,密码化的,公共的身份的技术。在一些实施例中,每次用户与公共的或有权限的账本进行交互时,通过对人类基因组中常见的单核苷酸多态性(“SNP”)的新的,随机的选择来标识该用户。交互的用户具有用于给定交互的随机SNP的记录,并且可以通过其个人基因组确认(validate)的零知识证明来验证(verify)自己是交互用户。人类大约有50,000个常见的SNP(递交时的次等位基因频率(MAF)>0.25–MAF<0.75)。基于对SNP的随机选择,在交易记录中标识任何给定用户是不太可能的,因为该用户不会使用同一公共密码化身份两次。
本文解决的问题是防止行为模式与给定的静态密码化标识符相关联。用户可以以一定方式与区块链系统进行交互,该方式使他们能够证明他们是在给定记录中进行交互的用户,同时防止外部人员/不受信任的各方构建使用静态密码化标识符的交互模式。
在一些实施例中,可能需要向用于生成密码化公共身份的个体SNP信息添加额外的身份保护层。这主要是由于SNP本身可以标识信息。掩藏此潜在标识代码的一种方式是包括公共标识符中的一些信息缺失,其保留个体将SNP序列与其基因组交叉参照以在账本中标识自己的能力。
本文解决的其它问题包括更有效地编码基因组和多组学信息的多个流,以及在社交媒体类应用(或其它用户帐户管理平台)上对人类的验证。
例如,如果用户具有包括私有数据(例如,他们的基因的或基因组的信息和/或关于该个体的其它医疗数据)的数据库,并且用户希望在不共享任何个人标识信息(PII)的情况下将该数据提交给生物信息学研究,则他们能够在不创建可以通过静态身份(即使该静态身份是匿名的)绑定到他们的记录的情况下这样做。这样的实例的示例是,给定用户向构建生物信息学AI模型的组提供或允许对其个人基因组的访问(以加密方式)。
在一些实施例中,用户通过(例如,除了SNP之外或替代SNP)其基因组的时变部分而被标识,例如通过DNA甲基化或RNA表达。同卵双胞胎通常具有相同的SNP,因此使用从DNA甲基化得出的特征将区分这些用户。此外,如果用户的基因组曾被捕获/窃取,在该用户一生中的不同阶段使用甲基化状态可提供附加的安全层。时变基因组信息的其他示例包括组蛋白乙酰化,基于时间点的转录组信息,或V(D)J适应性免疫系统状态。每个都贡献于给定人的基因组信息的独特元素,这些元素可以被实施为随时间变化的密码化密钥的种子元素。
图1是示出生成可变密码化身份(“基因组密钥”)的方法的流程图。创建的公共身份可因实施例而异。公共身份的示例包括:一组在密码学上相关的密钥(公和私钥对)中的公钥或用于替换记录中的公钥的假名。示例类型可以是静态的,或者有限次使用的(例如,一次,两次等)。
在一些实施例中,公共身份的生成被链接到新密码化密钥对的创建。不可预知的(通常为大的且随机的)字符串用于开始生成适合非对称密钥算法使用的密钥对。基因组是大的伪随机字符串。也就是说,人类基因组在大约30亿个位置/位点使用4个字符。尽管那些位点中的许多对于人类是一致(因此没有变化),但在统计学上相关基因组长度是可变的和/或伪随机的。
SNP是表现出伪随机性的人类基因组的方面。通过使用从中得出基因组密钥的常见SNP,结合某种形式的信息掩藏,例如从3个可能的SNP等位基因选项(AA/AB/BB)中得出仅2个值,相关性也被掩藏(例如,遗传学上的家族关系不能通过比较SNP序列来推断)。
在一些实施例中,用户的密码化密钥对(例如,用于在密码化级别上与区块链交互的密钥)与用户的基因组信息无关,并且用户的基因组信息被用来生成有限次使用的假名(例如,一次性的)以取代给定交易记录中的用户公钥。为了本公开的目的,从用户的基因组数据得出的密钥称为基因组密钥,而不管所述密钥的其他实现特征如何(例如,基因组密钥是否是密码化密钥对的一部分,或者密钥是静态的还是有限次使用)。
在步骤102中,数据管理系统接收给定用户的基因组数据。在不同的实施例中,基因组数据的形式可以不同。示例包括简单记载基因组数据的平面文件(flat file)(例如,FASTA或FASTQ文件),比对数据文件(例如,BAM或SAM文件),调用格式(例如,VCF或BCF文件),本领域已知的其它适合的基因组文件格式,或本文公开的文件格式。
用户的基因组数据存储在数据库中(例如,在个人设备上,在云/边缘存储中,或在本地服务器中)。基因组数据在后续步骤中用于产生基因组密钥或验证基因组密钥的给定实例是否属于活动用户。可以基于对相关数字文件的直接操作,或经由授权设备访问源基因组数据。
在步骤104中,数据管理系统经由凭证(credentials)确认用户。凭证可以是本领域已知的密码化方式(例如,基于密码和/或密钥对)。在一些实施例中,可以将用户的基因组,或者其部分或表示物用作密钥。在步骤106中,用户发起受保护的数据请求或传送。数据请求或传送中的另一方具有已知的公共标识(例如,静态公钥)。在一些实施例中,交易可发生在两方之间,该两方在交易记录中由基因组密钥保护;但是,初始交易请求使用至少一个已知的公共身份。也就是说,交易的初始化使用静态公钥,但存储在区块链上的记录使用可变基因组密钥。
在步骤108中,用户向数据管理系统表示他们是否是孪生体或有理由使用其基因组密钥所基于的演变基因组数据。孪生体的基因大致相同。因此,在统计学上大部分时间中,仅基于用户基因的密钥会与其他孪生体混淆。
然而,哺乳动物的部分DNA随时间变化。表观遗传修饰是对DNA进行的持续和可遗传的变化,它调节基因的表达方式,但不影响核苷酸序列本身。表观遗传修饰的一个例子包括甲基化状态。用户基因组内不同位点存在甲基化的表示会随时间变化。此外,有些DNA位点根据个体模式以独特的方式进行甲基化。这些甲基化位点的示例是系统性个体间变异的相关区域(CORSIV)。现今,大约有10000个已知位点基因组范围对应于每个个体独特的甲基化签名,在出生时/子宫内设置并且在一生和所有组织中是稳定的。位点数量在将来可能会增加。在一些实施例中,CORSIV位点可以被合并到用于相合同胞(identical siblings)的可变密码化身份的一组位点中。CORSIV可以经由二进制值合并到基因组密钥中。具体地,该二进制值存储所表示的位点是否被甲基化。在一些实施例中,基于甲基化程度将CORSIV作为更复杂的值并入。
其它表观遗传修饰或其它时变的基因组信息包括组蛋白乙酰化,或基于时间点的转录组信息。
另一个时变基因组元素是一个人的免疫基因组史。具体地,由T细胞(T细胞受体,或TCR)和B细胞(B细胞受体,或BCR,和可溶性抗体)表达的抗原受体代表了个体接触抗原历史的记录,无论是来自病原体,过敏原,还是其他来源。在这些受体的抗原结合袋中产生变异的机制涉及在称为V(D)J重组的过程中混合和匹配变量(V),多样性(D),和连接性(J)基因片段。为了组合单个功能受体,预先存在的V,D,和J基因片段被重新排布以产生连续的V(D)J区域。因此,这些V(D)J重新排布定义了对特定抗原具有特异性的T细胞或B细胞克隆型,并且这种克隆型可以通过最初暴露于所选择的抗原的原代T或B细胞的克隆扩增和克隆血统(clonal descent)经时维持。因此,适应性免疫系统的V(D)J克隆性,多样性,和特异性是一组可行的时变基因组信息。
除了孪生体之外,如果恶意行为者/盗窃者获得了用户基因组的副本,则使用CORSIV位点作为基因组密钥的一部分使基因组密钥的源数据能够随时间而变化,并且恶意行为者将不太可能能够通过使用基因组密钥的多种迭代来标识用户的被记录的区块链交易。此外,只有真正的用户会有交易历史中使用的特定随机SNP的记录,可以访问该人基因组的恶意行为者没有洞察在账本上的基因组密钥公共标识符,交互的频率或时间等的历史随机SNP选择。
步骤108中的表示可以是帐户设置,预基因组密钥生成设置,或者可以基于步骤102中提及的原始源基因组数据包含的详细程度自动发生。
在步骤110中,数据管理系统确定用于生成基因组密钥的基因组位点。位点是从可用池中的位点中随机选择的(并且具有随机排序)。可用池可以从用户基因组的任何部分中提取。然而,在一些实施例中,可用池仅限于一组特定的SNP和/或CORSIV。在一些实施例中,用户的基因组密钥使用有限数量(例如,96,96或更多,等等)的用户可用位点池(例如,SNP和/或CORSIV)。虽然可以使用少于96个位点,但两个用户在95个位点上具有相同值的可能性在统计学上相关。使用更多位点可以提高没有两个用户在同一组位点上具有相同值的几率。
如上所述,在人类中大约有50,000个常见的SNP具有在0.25<x<0.75范围内的MAF。在这个情境中,MAF是指给定位点上第二最常见的等位基因相对于参考基因组的频率。由于参考基因组的变化不如数据的变化频繁,因此在许多情况下,在给定时间的“第二最常见等位基因”实际上是该位点处最经常出现的已知等位基因。
MAF被解释的方式将随着参考基因组的更新和改进而随时间变化。收集到的基因组数据的质量与接近精确MAF的MAF定义直接相关——也就是说,参考基因组变得高度准确,并且位点处的第二最常见等位基因必须出现在x<50%(例如,不能是如上述范围中所述的0.75)。随着MAF接近精确MAF,本文数据管理系统使用的SNP可能会有所不同。
选择数据管理系统所使用的SNP的一些指导包括:那些在大约50%的人群中变化的SNP,那些精确MAF大于25%的SNP,第X最可变的SNP(例如,X=50,000),和/或具有0.25<x<0.8的替代等位基因频率(AAF)的SNP(其中AAF是所有潜在次等位基因的频率和插入缺失的可能性的组合)。虽然不是完全随机的,但可变性适合于从中得出公钥/私钥对。在一些实施例中,从可用SNP得出的公钥/私钥是一次性密钥对。
使用SNP和CORSIV作为可以被使用的潜在位点的示例。预期对人类进行进一步的基因组分析,并且具有上述任何MAF范围的人类基因组内的任何位点(无论它是否是SNP)是优良的候选者。此外,特定时间点的RNA表达签名,或拷贝数变化(CNV)是对于可以被考虑或整合到基因组密钥中的人类差异的独特生物人的附加示例。
在步骤112中,一旦从可用池的已实施的实施例中随机选择了位点,所使用的位点就与使用基因组密钥的交易的时间戳一起被存储。将来,当用户希望验证区块链的给定交易是他们时,知道哪些位点被使用是至少一方在所述验证期间需要的信息。
多种实施例以不同的方式存储所使用的位点/时间戳。在一些实施例中,所使用的位点/时间戳可以是可信的第三方。使用的位点/时间戳在区块链上可以是公共的或私有的(例如,通过智能合约对寻求验证的用户执行零知识证明挑战)。此外,使用的位点/时间戳可以作为私有记录存储在用户设备/数据库中。
在所使用的位点/时间戳与交易一起存储在区块链上的情况下,为验证用户作为交易的参与者而执行的零知识证明可以公共地或私有地取决于哪一方/哪些方打算证明知道秘密信息。在一个示例中,所使用的位点与交易一起私有地被存储,并且当查询时,数据管理系统可以使用基于交易中使用的公共基因组密钥的零知识证明来挑战用户的基因组数据(来自步骤102),以及用于该交易的秘密位点。此类挑战可以自动化并作为区块链搜索功能的一部分一同执行(例如,“查找我的交易”类型搜索)。
在步骤114中,数据管理系统基于所选择的位点生成基因组密钥。在一些实施例中,基因组密钥是代表在每个随机选择的基因组密钥位点上的等位基因的字符串。在一些实施例中,基因组密钥是随机选择的位点的二进制代表。0用来表示主等位基因的存在,1用来表示任何次等位基因的存在(反之亦可),而不是用来表示用户在每个位点的特定等位基因。此外,如上所述,CORSIV可以被代表为表示给定位点是否被甲基化的二进制值。
在一些实施例中,二进制值可以代表SNP位点处的3种可能结果。三种结果包括,等位基因AA(REF)=值1,等位基因AB(REF/ALT)=值0,等位基因BB(ALT/ALT)=值0。因此,从常见SNP得出的二进制公共标识符中,不可能确定具体的基因型。值得注意的是,还有其他编码技术(例如,除了二进制外)可以掩藏公共基因组密钥中使用的生物信息,同时仍然保留独特性和个体在账本中跟踪其标识符的能力。
步骤114的输出是用作基因组密钥的一组数字或字符。
每次请求新的基因组密钥时执行步骤110-114(有时还有108,取决于实施例)。
在步骤116中,执行相关的区块链交易并在标识用户参与交易时将基因组密钥记录到公共账本中。
图2是示出验证用户是区块链上交易的一方的方法的流程图。在步骤202中,用户打开区块链搜索界面。在步骤204中,用户指示用于搜索区块链的参数。参数包括可过滤主题的任意组合,例如:日期范围,交易的数据类型,交易中的公共参与者(例如,不使用可变密码化数字身份的用户),以及该搜索用户是否参与。
在步骤206中,在用户已经指示搜索查询至少包括他们曾经参与的一组交易的情况下,数据管理系统在搜索参数内的每个交易上递送零知识证明挑战。零知识证明用于标识搜索用户是否是参与者。数据管理系统通过存储与每笔交易相关联的数据(例如,通过智能合约或加密的交易数据),可以访问用于生成与交易相关联的基因组密钥的随机选择的位点。相对地,用户的设备可以访问用户的完整基因组。所有各方都知道用于给定交易的基因组密钥的值(例如,与交易相关联的96位)。
另一个可能的用例是受控的和用户同意的重建联系,这可能是作为科学研究的一部分所需要的。例如,如果数据以匿名或加密的方式与研究人员共享,并且研究中有重要的发现,在此情况下研究人员希望联系参与者或多组参与者;可以通过查询来使用账本以通过零知识证明标识参与者,并在向研究人员披露任何身份或联系信息之前提示各用户同意重新联系。
基于上述信息分割并通过使用高效的基因组数据结构,在现代硬件上可以在不到一秒的时间内对区块链上(包括十亿笔交易)的每笔交易执行零知识证明。
在步骤208中,区块链搜索引擎基于参数返回用户搜索结果并成功回答零知识挑战。
基因组数据结构
上述数据管理系统参考了基因组的编码格式。消耗基因组的标准文件格式是FASTA和FASTQ,两者旨在是人类可读的。这些格式是使用ASCII字符的平面文件,每个字符各自代表单个数据点(例如,每个字符一个核苷酸或蛋白质,或每个字符一个读取质量表示符)。由于这些格式力求人类可读性,因此编码效率极低。
许多生物信息学模型(机器学习/AI)和生物信息学工具(例如,NCBI BLAST)使用人类可读的FASTA和FASTQ文件进行操作。因此,这些模型和工具的算法效率受到影响。还有更专业的文件类型,例如以二进制编写的BAM文件。二进制编码比ASCII编码更有效,但文件格式并不总是遵循典型的编码方案,并且倾向于单个二进制代码字仅编码单个数据点的情况下的编码(例如,每个字符一个核苷酸或蛋白质,或每个字符一个读取质量表示符)。BAM格式没有利用仅计算机可读文件可以使用的任何结构效率。
相对地,当平面文件将相关数据编码为8,16,或24位“像素”(例如,可见图像文件像素,或者替代地,存储类似于像素的信息的数据结构)的情况下,相关数据的压缩明显效率更高。平面文件中的每个位置对应于基因组中的一个位置。每个“颜色”(例如,8位的256个选项到24位的近1700万)不仅编码给定位置的碱基,还编码许多其他潜在特征。
可编码到每个碱基像素的可能的特征的示例包括以下任意组合:对碱基的读取的质量;是否插补(impute)了碱基;碱基是否甲基化,以及甲基化的程度;是否已有CNV;碱基是否与DNA转录,翻译,或蛋白质编码具有特别相关性;碱基是否与特定基因相关联;用于确定生物学的技术平台(例如,下一代测序,微阵列技术和特定技术供应商);碱基的原始来源(例如,执行分析的特定临床测试实验室或公司,GenBank等);关于基因组结构支架的定量信息(例如,CNV的3D信号,表达水平);碱基在一段时间内的变化(例如,甲基化状态,表达,或突变)或单独的测序事件;或本领域已知的其它等位基因状态。
在给定维度上的变化随着时间,时间维度上的推移被捕获的情况下,基因组文件可以随时间推移被执行为代表个体随时间推移的生物变化的2D或3D“电影”。编码空间进一步允许能够将基因组文件的位置设置到或将基因组文件锚定到有机体的数字代表的区域,包括随时间推移在3D空间上物理映射多个“基因组”,多个应用包括随时间推移创建肿瘤生物学和转移的数字代表,随时间推移的免疫/感染反应(例如,V(D)J适应性免疫系统)。针对特定时间段内人的独特生物性以密码类型功能来使用这部电影和/或图像的方面(例如,在孪生体基因组或被盗基因组的实例中改变用户的基因组密钥,参见上文)。
在人类基因组中的~30亿个碱基(或~60亿个双倍的碱基)上使用24位碱基,未压缩的文件大小约为16GB。BAM格式的整个人类基因组的当前文件大小趋于~90GB,对于人类基因组的其他上游文件输出,这可能更大。使用类似像素的数据结构进一步使基因组文件格式能够利用图像压缩技术的优势。
所公开的格式(“基因组文件”)能够将来自多种分析的多个基因测试信息流集成到一个文件中且基于个体的完整基因组(不与当前标准的参考基因组进行比较)。
基因组文件是平面文件,在基因组中已知和固定的排序/位置以及已知的关于碱基的任何附加信息中,每个“像素”或位置条目被编码来代表该碱基的2D或3D“图像”文件。文件格式中每个碱基的这个位置在不同个体的文件中完全相同。位置参考是完整的,双倍的,分阶段的人类基因组。
图像的“形状”不受限制。在这个例子中,矩形2D/3D图像约束是任意的,文件可以利用基因序列的一维平面文件或其他一些非矩形形式。该文件可以是1x30亿个矩形或适合所有基因组的任何维度组合。
每个碱基的编码方案可以利用现有的8位(bit)-256颜色方案,
(或可根据需要添加附加通道)。例如,可以在8位-256颜色空间中捕获代表正确碱基的数据点的概率或质量分数,并且之后在附加数据和/或复制(replication)被添加到文件中时解决精确度。研究级数据/插补数据/基因分型阵列/NGS/临床级确认的下一代测序(NGS)数据全部被编码在单个文件中,通过特定通道中的不同值进行区分(类似于颜色文件中的色调(tonal)变化)。
基因组文件可以从任意数量的原始格式得出,并且原始测序的基因组的质量可能参差不齐。公共数据库中记录的多种测序基因组的质量在质量上参差不齐,并且随时间推移随着技术改进。公共数据库对提交的内容几乎没有质量控制。当传统文件格式转换为基因组文件格式时,在一些实施例中,一组值被编码到每个“像素”中,作为对原始数据来源的置信度。来源的置信度是用于读取质量分数的单独的,附加的统计信息。
基因组文件还可以通过与参考基因组文件进行比较而转换回包括VCF文件和其它标准文件格式的传统格式,并且如果需要的话导出到其它应用。
每个基因组文件被索引到相同的人类基因组位置上下文,从而为许多个体上的特定遗传区域提供了提取的计算简易性。索引还使在整个个体群体上特定位点处的比较能够简易化。
基因组文件格式还实现标准化的图像过滤和掩藏技术从而为任何数据共享选择特定区域。除了在与数据进行交易时保留匿名身份(如上所述)之外,共享的数据可以被限制。例如,在一些实施例中,数据管理系统使用户能够指定共享基因组文件的特定区域或组(例如,特定基因,或蛋白质序列)。此外,基因组文件格式使用户能够从数据共享中过滤掉碱基。例如,用户可过滤掉的碱基可以是内含子或外显子区域内的那些碱基,或用于生成基因组密钥的SNP或CORSIV的那些碱基。
该文件格式还允许潜在优势,以便于在基因组“图像”文件上使用图像识别/模式识别/AI技术,并且由于以下原因而具有在基因组数据上使用AI的优势:
A)基因组文件是标准化的个体到个体的文件结构和被索引的DNA碱基信息。
B)在可预见的未来,在没有群体规模全基因组测序的情况下,利用插补和来自多种置信水平的数据来获得更完整的个体基因组图像的能力(例如,机器学习或AI模型被更早地使用插补数据进行训练,并随时间推移而使用更具体的数据解决分辨率)。
C)能够将生物学的许多方面包括到一个文件中用于模型训练,而不是每个个体有多个文件(用于基因组DNA序列,CNV数据,表达数据,甲基化模式等的单独文件)。
在一些实施例中,基因组文件的压缩是通过已知序列组合的平铺像素(经过哈希的平铺的序列),或者通过现有的图像压缩技术和算法来实现的。
社交媒体基因组验证
社交媒体充斥着机器人或多帐户用户。控制大量帐户的机器人和用户能够以有毒的方式(in toxic ways)推动社交媒体平台,这对平台的合法用户有害。
类似于如上所述的基因组密钥的生成,社交媒体基因组验证说明给定的社交媒体帐户由一个人操作,或链接多个帐户使得平台知道所有帐户都绑定到同一个人。
图3是示出在社交媒体平台上验证人类的流程图。在步骤302中,用户创建新的社交媒体帐户(或对现有帐户进行验证)。在创建过程中,用户连接到验证服务器。在步骤304中,在连接到帐户创建服务器时,将用户的基因组文件或其部分传递给验证服务器。所述传递可以包括基因组文件(或其部分)的传输,或者包括由验证服务器发出的挑战,这些挑战由用户设备使用基因组文件作为参考自动应答。传递也可以通过第三方平台传达,该平台通过基因组文件注册了人类身份。
在步骤306中,验证服务器标识用户的基因组文件是否属于真的人类。也就是说,确定基因组是否匹配人类基因组的预期规范。在一些实施例中,匹配人类(例如,智人)基因组的预期规范包括与人类基因组数据库的比对,并在数学上将新基因组放入与整个数据库的树中。真正的人类在数学上会与其他人类相关。也就是说,新基因组的一定比例应该与其他相关人类的基因组相匹配,并且该百分比每代减半。如果给定的基因组没有展现出将几代人的匹配部分减半的数学关系,那么这个基因组就是假的人类。一个强大的人类基因组数据库将在多个点链接到大多数新输入的人类基因组。在一些实施例中,验证还包括标识基因组文件适合的分类单元(taxon)。
标识基因组文件的人类真实性可防止用户人工合成地生成“通用”人类基因组。真正的人类基因组会连接到数据库中其他基因组的家族系。如果验证服务器确定新帐户不属于真的人类,则用户管理平台可决定拒绝帐户创建或生成未被验证的帐户。
如果用户的基因组文件匹配人类规范并且在人类基因组数据库内相适合,在步骤308中,用户被验证为人类并且社交媒体平台被告知新用户帐户与特定人类相关联(其要么是社交媒体平台的新用户,要么是先前与另一个帐户相关联)。
参考社交媒体平台作为账户管理者的目的是说明性的。管理一组用户帐户的其他数字服务也可以为其用户实施类似的人工验证技术。虽然使用传统文件类型执行人工验证过程是可行的,但本文公开的基因组文件格式可实现机器高效的握手和易于部分共享。
区块链数据传输系统
本文公开了一种系统,其中区块链系统与独立的数据库相接。本文中提及的数据存储包括多个示例,例如服务器数据库,文件系统,或数据管理系统,类似于Windows,OSX或POSIX(unix)机器。附加示例包括云驱动器,例如Google Drive,Amazon Web Services(AWS)S3,或其他云数据存储。系统还支持用户空间文件系统(FUSE),使得人们可以挂载驱动器并与Windows或OSX中的文件系统进行交互,并且同时获取数据起源(dataprovenance)和访问控制权限。为了跟踪给定数据存储中的事件,事件元数据被嵌入到区块链账本中。
将数据嵌入区块链账本,例如比特币/以太坊/超级账本区块链,被用于许多加密货币应用。每个密码化区块链交易都包含输入和输出。以太坊和其他币也可以包括与交易相关联的智能合约。加密货币和非基于币的账本允许输出包含任意数据,同时标识它不是可消费的输出(不是为以后赎回而被传送的加密货币)。任意数据可以是包含大量数据的哈希代码。只要提交的交易是有效的交易,该交易(“经编码的交易”)就会通过网络传播并被挖掘成一个区块。这允许以许多与保护区块链相同的好处存储数据。在本文中参考分布式账本应用和技术所公开的所有内容也可以在没有加密货币令牌化和具有智能合约功能的有权限的区块链上被利用,例如Hyperledger Fabric上。
一旦数据被存储在有权限的账本或区块链账本中(特别是在比特币/以太坊/超级账本主链上),就很难移除或更改该数据。从这个意义上说,区块链账本是不可变的。为了对比特币区块链的发布区块进行更改,必须控制网络51%的挖矿能力。由于比特币节点的数量以千计,因此比特币区块链实际上是不可变的。在一些实施例中,以及在私有的受控的加密货币中,由于节点数量较少,存储在相应账本上的记录更容易被操控或接管。然而,风险低,并且管理得当的区块链账本,无论是公共的还是私有的,都被认为是不可变的。
由此产生的效果是,无论谁用数据创建交易都可以证明他们创建了它,因为他们持有用于签署交易的私钥。本文所公开的,个人通过零知识证明连接到基因组密钥的证明也证明了给定用户是交易的一方。此外,用户可以证明数据成为区块链账本一部分的大致时间和日期。
所公开的系统提出了用于数据起源和数据存储的数据管理系统,其允许多个独立方(可能彼此不信任)安全地共享数据,跟踪数据起源,维护审计(audit)日志,保持数据同步,遵守法规,处理权限,以及控制谁可以访问数据。连接数据管理系统,区块链创建了安全且完全可审计的文档跟踪系统,其可以在计算机网络上不受信任的各方之间进行共享。该系统既适用于公共区块链账本(就本公开的目的,将不可变的密码化账本仅称为“区块链”),如比特币和以太坊,超级账本,也适用于私有区块链。
图4是单实体系统架构20的示意框图。底层数据存储22可以是现有的数据存储(即,Amazon Web Services S3或文件服务器或数据库),控制节点24可以在其上运行并提供附加功能。区块链层26中的控制节点24和API 28组件是系统架构20的核心。
API 28和控制节点24是作为机器级(machine-level)安装的软件组件,到数据存储22的软件网关。自定义用户提供的应用与API 28结合。即使这些组件被安装在每台机器上,也不一定需要协调后端服务器(acoordinating backend server)。然而,在一些实施例中,附加地具有后端服务器以将更新推送到控制节点24和API 28。
应用/实体30组件可以是构建在此系统之上的任何软件应用,其需要存储和取得数据或取得数据起源和审计跟踪。可以在该系统上运行的应用30包括:对数据起源,权限,数据访问进行可视化的多种分析应用,提供审计和验证功能的法规和合规性应用,以及机器学习应用。就本公开的目的,术语“应用”和“实体”几乎可以互换。每个都指软件应用,操作该软件应用的一方,或为该软件应用的利益行事的一方。
API组件28是软件接口,其与应用30(或用户)相接并支持用于数据存储和检索的命令以及改变数据访问控制权限。API 28将命令传递给控制节点24。控制节点24连接到区块链网络(或网络,可能不止一个,可能既是公共的,如比特币和以太坊,也可能是私有的/有权限的,如公司内部的区块链)和连接到数据存储22。控制节点24实施对数据存储22中的数据的权限和访问,并为数据起源,权限更改,和所有应用30(或用户)行为创建审计跟踪。审计跟踪和权限被存储在数据存储22中,并且它们也被存储或哈希到区块链层26中以证明审计跟踪和权限的正确性。原始文件内容数据(例如,基因组文件)被存储在数据存储22中。经由控制节点24将元数据,数据的哈希,其权限或哈希,以及命令写入区块链。
控制节点24与区块链相接,其可支持可编程智能合约。智能合约可以在优选实施例中使用来实现功能的任何子集。零个,一个,或多个智能合约可用于通过区块链提供数据服务。在优选实施例中,一个智能合约用于数据起源,另一个智能合约用于记录数据所有权和权限。在一些实施例中,基因组文件被用作访问数据的密钥。
当数据被存储在数据存储22中时,数据的哈希,数据的所有者,和数据权限与数据起源的任何源数据的哈希(例如,基因组密钥)一起写入区块链。负责此次写入的一个或多个行为者可包括区块链本身或外部网络服务流程上的一个或多个智能合约。
当要取得数据时,可以使用智能合约或外部网络服务过程来查看取得器(retriever)是否具有访问数据的权限。如果是这样,则授予对数据存储22上的数据的访问权。这种访问也记录在区块链中。在一些实施例中,如果不允许访问,则也写入区块链。
当更新数据时,与取得类似,首先用智能合约查看权限。如果权限存在,则将更新后的数据的哈希和数据来源(起源)写入区块链。
如上所述,区块链包含所有活动的不可变审计日志。这个组件在系统中很重要,因为与集中式数据起源解决方案不同,区块链中的合约日志和执行不需要信任任何单方。多个不受信任的各方共同确保区块链上的数据是正确的。例如以太坊之类的区块链支持公钥和私钥以进行密码化签名。控制节点24可以使用基于该区块链中的公钥的本地地址作为到系统20中的用户的映射。由使用用户密钥的密码化签名通过区块链使用的算法执行对用户的认证。
数据存储22可以是任何现有的数据存储,例如AWS S3,GoogleCloud Storage,Microsoft Azure Storage,Box.com,独立文件服务器,或单个笔记本电脑。数据存储22还可以是分布式数据存储,例如IPFS(星际文件系统)或分布式数据库。控制节点24中的适合的接口与每种类型的数据存储22相接。这具有的优点是,现有数据存储22可以继续在系统20内使用。不同类型的数据存储22可以在同一系统中使用,并且即使它们各自具有不同的接口,API 28为所有数据存储22提供公共接口。
在一些实施例中,为了提高效率,文件内容数据被存储在数据存储22的区块链之外。数据和权限的哈希以及审计日志(读取和写入数据存储22上的数据)被存储在区块链上。这提供了文件内容数据的隐私性,并提高了可扩展性的效率。
在一些实施例中,至少一些帐户密钥(公共和私有)在控制节点24内保持为不可访问的数据。帐户密钥可能与特定用户或应用无关,并且是为记录保存而创建的。用户的活动由其基因组密钥标识。例如,区块链层26的一组帐户密钥(公共和私有)可由控制节点24代表应用30的用户组来存储整个组的数据访问控制权限。交易数据包括该组用户的相应基因组密钥。在另一示例中,一组给定的帐户密钥可以具体地涉及数据存储22内的数据子集。在一些实施例中,控制节点24执行对此类帐户的所有处理并且使用密码化记录对用户保持透明。
或者,在一些实施例中,给定的控制节点24维护单个区块链帐户,并在与该单个帐户的交易中嵌入所有必要的数据访问控制,起源,和审计日志详细信息。
图5是具有一个数据存储的多实体系统架构40的示意性框图。在该配置中,存在具有关联数据存储22A的实体/应用30A,以及一个或多个其它实体30N,它们在多实体系统40内通信耦接。有很多情况会发生这样的配置。一个这样的示例是,给定实体/应用30N执行合规性角色并使用多实体系统40来监控数据存储22A中第一实体30A的数据以确保合规性。
在另一示例中,数据存储22A是云存储服务器,实体30N是数据所有者。在此示例中,实体30N正在使用实体30A的数据存储22A作为驻留应用的数据存储。在反转的示例中,实体30A是数据的所有者,并将数据共享给应用30N以对数据执行功能。
在实体30A是数据的所有者且实体30N正在应用中使用数据的例子中,实体30A可以基于被跟踪和有权限的数据使用,通过使用区块链层24的加密货币进行支付直接对数据使用进行货币化。实体30A可以使用实体30A的数据为实体30N提供益处(例如,为实体30N训练AI模型)。在这种多方数据共享的例子中,来自数据存储22A的数据可能包含不能共享的个人标识信息(PII)。可以通过控制节点分配的权限将PII数据剥离出来,并且仅共享非PII数据。第三方可以通过运行合规性节点(如前面的另一个示例中所述)来参与,并监控未共享任何PII数据。
人工智能(AI)近年来取得了巨大的成就。基因组学是将AI模型用来展示多种分类单元之间的同源性的领域。基因组AI模型进一步帮助研究人员了解有机体中的基因表达,成功的一个关键因素是,今天AI有能力处理大量数据并利用这些数据来降低错误率从而通过成功基准线。但是,当今的大多数AI应用都利用训练数据通过集中和受控环境来训练模型。多实体系统架构40能够在不泄露PII的情况下控制该信息的共享。
在示例中,使多实体系统40能够实现通过经由API 26向控制节点24提供的命令提供数据访问控制并让机器学习专家访问必要的数据。机器学习专家能够获取这些数据,将其转换为训练数据,并将数据馈送给机器学习模型。此外,可能还有另一种类型的实体,其执行模型/数据确认,以确保机器学习专家使用正确的数据来训练模型。这些服务提供商可以通过利用区块链层26中的原生支付功能来支付。
多实体系统40为所训练的AI模型提供清楚的数据起源。控制节点24向区块链层24生成交易,该交易嵌入了审计日志,以准确提供其数据用于训练AI模型。此过程创建了虚拟市场,该虚拟市场使AI/机器学习服务和数据共享能够在多方之间在安全分布式环境中进行交易。
图6是示出计算系统600的示例的框图,其中可以实现本文描述的至少一些操作。计算系统可以包括通信连接到总线616的一个或多个中央处理单元(“处理器”)602,主存储器606,非易失性存储器610,网络适配器612(例如,网络接口),视频显示器618,输入/输出设备620,控制设备622(例如,键盘和指点设备),包括存储介质626的驱动单元624,和信号生成设备630。总线616被示为代表由适合的网桥,适配器,或控制器连接的任意一条或多条独立的物理总线,点对点连接,或两者的抽象。因此,总线616可以包括,例如,系统总线,外围组件互连(PCI)总线或PCI-Express总线,超传输或行业标准体系结构(ISA)总线,小型计算机系统接口(SCSI)总线,通用串行总线(USB),IIC(I2C)总线,或电气和电子工程师协会(IEEE)标准1394总线,也称为“火线(Firewire)”。
在多种实施例中,计算系统600作为独立设备操作,尽管计算系统600也可以(例如,有线或无线)连接到其它机器。在网络化部署中,计算系统600可以在客户端-服务器网络环境中以服务器或客户端机器运行,或者在对等(或分布式)网络环境中作为对等机器运行。
计算系统600可以是服务器计算机,客户端计算机,个人计算机(PC),用户设备,平板PC,膝上型计算机,个人数字助理(PDA),蜂窝电话,iPhone,iPad,黑莓,处理器,电话,网络设备,网络路由器,交换机或桥接器,控制台,手持控制台,(手持)游戏设备,音乐播放器,任何便携式,移动式,手持式设备,或任何能够执行规定计算系统要采取的动作的一组指令(顺序或其他方式)的机器。
虽然主存储器606,非易失性存储器610,和存储介质626(也称为“机器可读介质”)被示为单个介质,但术语“机器可读介质”和“存储介质”应被理解为包括存储一组或多组指令628的单个介质或多个介质(例如,集中式或分布式数据库,和/或相关的缓存和服务器)。术语“机器可读介质”和“存储介质”还应被理解为包括能够存储,编码,或携带一组指令以供计算系统执行并且使计算系统执行本文公开的实施例的任何一种或多种方法的任何介质。
通常,为实现本公开实施例而执行的例程可以被实现为操作系统或称为“计算机程序”的特定应用,组件,程序,对象,模块或指令序列的一部分。计算机程序通常包括在不同时间设置在计算机中的多种存储器和存储设备中的一条或多条指令(例如,指令604,608,628),并且当该指令由一个或多个处理单元或处理器602读取和执行时,使计算系统600执行操作以执行涉及本技术的多个方面的元素。
此外,虽然已经在全功能的计算机和计算机系统的情境中描述实施例,但是本领域技术人员将理解,多种实施例能够以多种形式作为程序产品被分布,并且无论用于实际实现分布的特定类型的机器或计算机可读介质如何,本技术都同样适用。
机器可读存储介质,机器可读介质,或计算机可读(存储)介质的进一步示例包括但不限于可记录型介质,例如易失性和非易失性存储器设备610,软盘和其它可移动磁盘,硬盘驱动器,光盘(例如,光盘只读存储器(CD-ROMS),数字多功能磁盘,(DVD),蓝光磁盘),以及例如数字和模拟通信链路之类的传输型介质。
网络适配器612使计算系统600能够通过计算系统600和外部实体支持的任何已知和/或方便的通信协议将网络614中的数据传达至计算设备600外部的实体。网络适配器612可以包括网络适配器卡,无线网络接口卡,路由器,接入点,无线路由器,交换机,多层交换机,协议转换器,网关,网桥,网桥路由器,集线器,数字媒体接收器,和/或中继器中的一个或多个。
网络适配器612可以包括防火墙,在一些实施例中,防火墙可以控制和/或管理访问/代理计算机网络中数据的权限,并跟踪不同机器和/或应用之间的不同信任级别。防火墙可以是具有硬件和/或软件组件的任意组合的任意数量的模块,这些硬件和/或软件组件能够在特定的一组机器和应用,机器和机器,和/或应用和应用之间实施预定的一组访问权,例如,以管理这些不同实体之间的流量和资源共享。防火墙可以附加地管理和/或访问访问控制列表,该列表详细说明了权限,例如,由个体,机器,和/或应用对对象的访问和操作权限,以及权限所处的环境。
在防火墙的功能中可以执行或包含其他网络安全功能,可以包括但不限于入侵防御,入侵检测,下一代防火墙,个人防火墙等。
本文所述的技术可以被体现为专用硬件(例如,电路),或者为使用软件和/或固件适合地被编程的可编程电路,或者为专用和可编程电路的组合。因此,实施例可以包括其上存储有指令的机器可读介质,该指令可用于对计算机(或其它电子设备)进行编程以执行过程。机器可读介质可以包括但不限于软盘,光盘,光盘只读存储器(CD-ROM),磁光盘,只读存储器(ROM),随机存取存储器(RAM),可擦除可编程只读存储器(EPROM),电可擦除可编程只读存储器(EEPROM),磁卡或光卡,闪存,或适用于存储电子指令的其他类型的介质/机器可读介质。
示例
组1
1.一种方法包括:
随机标识预定人类基因组的一部分;
从所述预定人类基因组的随机标识的部分生成有限次使用的密码化密钥;以及
在区块链记录的操作中使用所述有限次使用的密码化密钥作为公共身份。
2.一种方法包括:
接收测序的基因组;以及
将所述测序的基因组编码为多个像素,其中所述测序的基因组中的多个碱基中的每一个对应于所述多个像素中的单个像素,并且所述多个碱基中的每一个对应于根据所述测序的基因组的排序来设置位置的所述单个像素。
组2
1.一种将基因组数据编码为机器可读数据结构的方法,包括:
将基因组的氮碱基和所述氮碱基的元数据编码为单个像素,其中所述单个像素的值对应于氮碱基和该氮碱基的元数据的预定组合,并且其中所述机器可读数据结构中所述单个像素的排序位置对应于所述氮碱基在所述基因组的排序位置;以及
为所述基因组的每个氮碱基重复所述编码,从而产生被编码的基因组。
2.根据示例1所述的方法,还包括:
对包括所述被编码的基因组的所述机器可读数据结构应用图像压缩。
3.根据示例1所述的方法,其中所述氮碱基的所述元数据包括以下任意组合:
对所述氮碱基的读取的质量;
是否插补了所述氮碱基;
所述氮碱基是否甲基化,以及甲基化的程度;
是否存在拷贝数变化;
所述氮碱基是否与DNA转录,翻译,或蛋白质编码特别相关;
所述氮碱基是否与特定基因相关联;
用于确定所述氮碱基的技术平台;
所述氮碱基的来源;
所述基因组的所述结构支架的定量信息;或
一段时间内所述氮碱基的变化。
4.根据示例1所述的方法,其中所述元数据包括时变核苷酸状态,并且所述机器可读数据结构是第一机器可读数据结构,所述方法还包括:
生成第二机器可读基因组数据结构,该元数据包括来自与所述第一机器可读数据结构不同时间段的所述基因组的元数据;以及
组合视频演示,该视频演示包括所述第一机器可读数据结构和所述第二机器可读数据结构作为所述视频演示中的帧。
5.根据示例4所述的方法,其中所述基因组由于癌转移而随时间而变化。
6.根据示例4所述的方法,其中所述基因组由于V(D)J适应性免疫系统的变化而随时间而变化。
7.根据示例1所述的方法,还包括:
基于所述机器可读数据结构的多个像素生成密码化密钥,其中所述密码化密钥基于的像素具有对应于所述基因组的单核苷酸多态性(“SNP”)的位置。
8.根据示例1所述的方法,其中所述机器可读数据结构为2D或3D图像文件。
9.根据示例1所述的方法,其中所述机器可读数据结构是平面文件。
10.一种系统,包括:
存储在存储器中的机器可读数据结构,其被配置为编码基因组数据,其中基因组的每个氮碱基和该氮碱基的元数据被编码为相应的单个像素,其中每个单个像素的值对应于氮碱基和该氮碱基的元数据的预定组合,并且其中所述机器可读数据结构中每个单个像素的排序位置对应于所述基因组中的所述氮碱基的排序位置;以及
被配置为读取所述机器可读数据结构的处理器。
11.根据示例10所述的系统,其中所述存储器还包括指令,当该指令由所述处理器执行时:
对包括所述被编码的基因组的所述机器可读数据结构应用图像压缩。
12.根据示例10所述的系统,其中所述氮碱基的所述元数据包括以下任意组合:
对所述氮碱基的读取的质量;
是否插补了所述氮碱基;
所述氮碱基是否甲基化,以及甲基化的程度;
是否存在拷贝数变化;
所述氮碱基是否与DNA转录,翻译,或蛋白质编码特别相关;
所述氮碱基是否与特定基因相关联;
用于确定所述氮碱基的技术平台;
所述氮碱基的来源;
所述基因组的所述结构支架的定量信息;或
一段时间内所述氮碱基的变化。
13.根据示例10所述的系统,其中元数据包括时变核苷酸状态,并且机器可读数据结构是第一机器可读数据结构,其中所述存储器还包括指令,当该指令由处理器执行时:
生成所述基因组的第二机器可读数据结构,该元数据包括来自与所述第一机器可读数据结构不同的时间段的所述基因组的元数据;以及
组合视频演示,该视频演示包括所述第一机器可读数据结构和所述第二机器可读数据结构作为视频演示中的帧。
14.根据示例13所述的系统,其中所述基因组由于癌转移而随时间而变化。
15.根据示例10所述的系统,其中所述存储器还包括指令,当该指令由所述处理器执行时:
基于所述机器可读数据结构的多个像素生成密码化密钥,其中所述密码化密钥基于的像素具有对应于所述基因组的单核苷酸多态性(“SNP”)的位置。
16.根据权利要求10所述的系统,其中所述机器可读数据结构为2D或3D图像文件。
组3
1.一种方法,包括:
响应于创建网络的第一新用户帐户,向验证服务器提供第一基因组文件或其部分;
自动确定所述第一基因组文件或其部分被分类为人类;以及
响应于所述自动确定,确认所述第一新用户帐户是否与真正的人类相关联。
2.根据示例1所述的方法,其中所述自动确定还包括:
在所述第一基因组文件或其部分处与智人基因组数据库进行比对;以及
基于所述比对,标识所述第一基因组或其部分在数学上与所述智人基因组数据库中的其他基因组相关,与真正的人类基因组一致。
3.根据示例2所述的方法,其中响应于所述标识而执行所述确认。
4.根据示例1所述的方法,还包括:
响应于创建网络的第二新用户帐户,向所述验证服务器提供第二基因组文件或其部分;
在所述第二基因组文件或其部分自动与所述智人基因组数据库进行比对;
基于所述比对,标识所述第二基因组文件或其部分在数学上不像真正的人类基因组那样而与所述智人基因组数据库中的其他基因组无关;以及
响应于所述标识,确定所述第二新用户帐户不与真正的人类相关联。
5.根据示例1所述的方法,其中所述第一基因组文件是编码基因组数据的机器可读数据结构,其中基因组的每个氮碱基和该氮碱基的元数据被编码为相应的单个像素,其中每个单个像素的值对应于氮碱基和该氮碱基的元数据的预定组合,并且其中所述机器可读数据结构中每个单个像素的排序位置对应于所述基因组中所述氮碱基的排序位置。
6.根据示例1所述的方法,还包括:
标识现有用户帐户被链接到所述第一基因组文件或其部分;以及
由于属于同一个人而将所述现有用户帐户和所述第一新用户帐户链接在一起。
7.根据示例1所述的方法,其中所述第一新用户账户是在社交网络平台上生成的。
8.根据示例1所述的方法,还包括:
对每个未与真正的人类相关联的用户帐户发出补救动作。
9.一种系统,包括:
验证服务器,其被配置为响应于创建网络的第一新用户帐户而接收第一基因组文件或其部分;
处理器;以及
包括指令的存储器,当执行该指令时使所述处理器:
自动确定所述第一基因组文件或其部分被分类为人类;以及
响应于所述自动确定,确认所述第一新用户帐户是否与真正的人类相关联。
10.根据示例9所述的系统,其中所述自动确定还包括:
在所述第一基因组文件或其部分处与智人基因组数据库进行比对;以及
基于所述比对,标识所述第一基因组或其部分在数学上与所述智人基因组数据库中的其他基因组相关,与真正的人类基因组一致。
11.根据示例10所述的系统,其中响应于在所述智人基因组数据库内的分类单元进行所述标识而执行所述确认。
12.根据示例9所述的系统,其中所述指令还包括:
响应于创建第二新用户帐户,向所述验证服务器提供第二基因组文件或其部分;
在所述第二基因组文件或其部分处自动与所述智人基因组数据库进行比对;
基于所述比对,标识所述第二基因组文件或其部分在数学上不像真正的人类基因组那样而与所述智人基因组数据库中的其他基因组无关;以及
响应于所述标识,确定所述第二新用户帐户不与真正的人类相关联。
13.根据示例9所述的系统,其中所述第一基因组文件是编码基因组数据的机器可读数据结构,其中基因组的每个氮碱基和该氮碱基的元数据被编码为相应的单个像素,其中每个单个像素的值对应于氮碱基和该氮碱基的元数据的预定组合,并且其中所述机器可读数据结构中每个单个像素的排序位置对应于所述基因组中所述氮碱基的排序位置。
14.根据示例9所述的系统,其中所述指令还包括:
标识现有用户帐户被链接到所述第一基因组文件或其部分;以及
由于属于同一个人而将所述现有用户帐户和所述第一新用户帐户链接在一起。
15.根据示例9所述的系统,其中所述第一新用户账户是在社交网络平台上生成的。
尽管本文参照优选实施例描述了本技术,但本领域技术人员将容易地理解,在不背离本技术的精神和范围的情况下,其它应用可以代替本文中提出的那些。因此,本发明应仅受以下权利要求的限制。

Claims (22)

1.一种方法,包括:
接收用户的基因组信息,所述基因组信息包括一组单核苷酸多态性(“SNP”);
基于所述一组SNP生成与所述用户相关联的密码化密钥;以及
经由零知识证明从所述密码化密钥确认所述用户,其中所述用户能够用所述基因组信息满足所述证明。
2.根据权利要求1所述的方法,还包括:
在基于所述一组SNP生成所述密码化密钥之前,基于所述一组SNP的每个给定等位基因是否与相应基因组位置的参考基因组匹配,而将所述一组SNP修改为二进制序列。
3.根据权利要求1所述的方法,其中所述密码化密钥是一次性密钥,并且所述密码化密钥的生成还包括:
确定所述密码化密钥所基于的所述一组SNP的随机子集。
4.根据权利要求3所述的方法,还包括:
存储所述一组SNP的所述随机子集的位置,其中所述位置与所述基因组信息相结合被所述用户用来完成所述零知识证明。
5.根据权利要求3所述的方法,其中所述密码化密钥是非对称密钥对的公钥,所述方法还包括:
发起区块链记录的交互,其中经由所述一次性密钥标识所述用户。
6.根据权利要求1所述的方法,其中所述基因组信息还包括表观遗传修饰或其它时变状态,并且其中所述密码化密钥还基于所述表观遗传修饰或其它时变状态。
7.根据权利要求6所述的方法,其中所述表观遗传修饰或其它时变状态包括以下任意项:
DNA甲基化;
组蛋白乙酰化;
非编码RNA关联基因沉默;
基于时间点的转录组信息;或
V(D)J适应性免疫系统状态。
8.根据权利要求3所述的方法,还包括:
由所述用户向实体传输数据,其中由基于所述一组SNP的所述随机子集的所述一次性密钥在所述传输中标识所述用户。
9.一种系统,包括:
处理器;
包括用户的基因组信息的存储器,所述基因组信息包括一组单核苷酸多态性(“SNP”),所述存储器还具有指令,当执行该指令时使所述处理器:
基于所述一组SNP生成与所述用户相关联的密码化密钥;以及
经由零知识证明从所述密码化密钥确认所述用户,其中所述用户能够用所述基因组信息满足所述证明。
10.根据权利要求9所述的系统,所述存储器还包括指令,当执行该指令时使所述处理器:
在基于所述一组SNP生成所述密码化密钥之前,基于所述一组SNP的每个给定等位基因是否与相应基因组位置的参考基因组匹配,而将所述一组SNP修改为二进制序列。
11.根据权利要求9所述的系统,其中所述密码化密钥是一次性密钥,并且所述密码化密钥的生成还包括:
确定所述密码化密钥所基于的所述一组SNP的随机子集。
12.根据权利要求11所述的系统,所述存储器还包括指令,当执行该指令时使所述处理器:
存储所述一组SNP的所述随机子集的位置,其中所述位置与所述基因组信息相结合被所述用户用来完成所述零知识证明。
13.根据权利要求11所述的系统,其中所述密码化密钥是非对称密钥对的公钥,所述存储器还包括指令,当执行该指令时使所述处理器:
发起区块链记录的交互,其中经由所述一次性密钥标识所述用户。
14.根据权利要求9所述的系统,其中所述基因组信息还包括表观遗传修饰或其它时变状态,并且其中所述密码化密钥还基于所述表观遗传修饰或其它时变状态。
15.根据权利要求14所述的系统,其中所述表观遗传修饰或其它时变状态包括以下任意项:
DNA甲基化;
组蛋白乙酰化;
非编码RNA关联基因沉默;
基于时间点的转录组信息;或
V(D)J适应性免疫系统状态。
16.根据权利要求11所述的系统,还包括:
网络接口,该网络接口被配置为由所述用户向实体传输数据,其中由基于所述一组SNP的所述随机子集的所述一次性密钥在所述传输中标识所述用户。
17.一种方法,包括:
接收用户的基因组,所述基因组信息包括一组单核苷酸多态性(“SNP”);
基于所述一组SNP的随机子集生成与所述用户相关联的一次性密码化密钥(“基因组密钥”)作为种子序列,其中所述基因组密钥是在区块链记录的交互中标识所述用户的非对称密钥对的公钥;
存储所述一组SNP的所述随机子集的位置;
发起在所述用户和由相应公钥标识的实体之间的所述区块链记录的交互,其中仅经由该区块链记录的交互的所述基因组密钥在所述区块链上标识所述用户;以及
随后将所述区块链记录的交互附加到所述区块链中,经由零知识证明从所述基因组密钥确认所述用户参与所述区块链记录的交互,其中所述用户能够用所述存储的位置与所述基因组信息相结合来满足所述证明。
18.根据权利要求17所述的方法,其中所述区块链记录的交互是提交与所述用户相关联的个人标识信息(PII),所述方法还包括:
由所述用户从所述实体请求访问所述PII,从而由所述实体触发所述确认。
19.根据权利要求17所述的方法,还包括:
在基于所述SNP序列生成所述基因组密钥之前,基于所述SNP序列的每个给定等位基因是否与相应基因组位置的参考基因组匹配,而将所述SNP序列修改为二进制序列。
20.根据权利要求17所述的方法,其中所述基因组信息还包括DNA甲基化状态,并且所述基因组密钥还基于所述DNA甲基化状态。
21.根据权利要求17所述的方法,其中经由应用于所述基因组密钥所基于的基因组元素的单向哈希函数生成所述基因组密钥。
22.根据权利要求17所述的方法,其中所述基因组密钥还基于以下任意项:
特定时间点的RNA表达签名;
基因组结构变异;
拷贝数变化(CNV);或
系统性个体间变异的相关区域(CORSIV)。
CN202180046726.7A 2020-04-29 2021-04-28 从个体基因组信息得出的匿名数字身份 Pending CN116034365A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063017561P 2020-04-29 2020-04-29
US63/017,561 2020-04-29
PCT/US2021/029724 WO2021222458A1 (en) 2020-04-29 2021-04-28 Anonymous digital identity derived from individual genome information

Publications (1)

Publication Number Publication Date
CN116034365A true CN116034365A (zh) 2023-04-28

Family

ID=78332234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180046726.7A Pending CN116034365A (zh) 2020-04-29 2021-04-28 从个体基因组信息得出的匿名数字身份

Country Status (4)

Country Link
US (1) US20230177211A1 (zh)
EP (1) EP4143722A4 (zh)
CN (1) CN116034365A (zh)
WO (1) WO2021222458A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220081256A (ko) * 2020-12-07 2022-06-15 주식회사 마이지놈박스 블록체인 기술을 이용한 dna 데이터의 인증과 무결성 확보를 위한 장치
WO2024020245A1 (en) * 2022-07-22 2024-01-25 NFTy Lock, LLC Authentication system and method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130044876A1 (en) * 2010-11-09 2013-02-21 National Aeronautics And Space Administration Genomics-based keyed hash message authentication code protocol
US20180260522A1 (en) * 2017-03-08 2018-09-13 Grant A. Bitter Identity verification by computational analysis of genomic dna
US11107556B2 (en) * 2017-08-29 2021-08-31 Helix OpCo, LLC Authorization system that permits granular identification of, access to, and recruitment of individualized genomic data
EP3477527A1 (en) * 2017-10-31 2019-05-01 Twinpeek Privacy management
EP3812952A4 (en) * 2018-06-19 2022-02-09 BGI Shenzhen Co., Limited METHOD, DEVICE AND SYSTEM FOR DIGITAL IDENTIFICATION AND STORAGE MEDIUM

Also Published As

Publication number Publication date
EP4143722A1 (en) 2023-03-08
US20230177211A1 (en) 2023-06-08
WO2021222458A1 (en) 2021-11-04
EP4143722A4 (en) 2023-10-25

Similar Documents

Publication Publication Date Title
US11700249B2 (en) Systems and methods for user authentication based on a genetic sequence
US20220198410A1 (en) Providing data provenance, permissioning, compliance, and access control for data storage systems using an immutable ledger overlay network
CN110915165B (zh) 用于共享私有数据的计算机实现的方法和装置
Ayday et al. Protecting and evaluating genomic privacy in medical tests and personalized medicine
US10522244B2 (en) Bioinformatic processing systems and methods
US9595034B2 (en) System and method for monitoring third party access to a restricted item
US9270446B2 (en) Privacy-enhancing technologies for medical tests using genomic data
US20200073560A1 (en) Methods for decentralized genome storage, distribution, marketing and analysis
CN111919417A (zh) 在基于云的计算环境中用共识管理为分布式分类账技术实现超级社区和社区侧链的系统、方法和装置
US20170242961A1 (en) Systems and methods for personal omic transactions
RU2430412C2 (ru) Услуга определения, был ли аннулирован цифровой сертификат
EP3061057A1 (en) System and method for monitoring third party access to a restricted item
JP2023532297A (ja) セキュアな発見フレームワークを介した一時的なクラウドプロバイダクレデンシャル
US20230177211A1 (en) Anonymous digital identity derived from individual genome information
Ayday et al. Privacy-enhancing technologies for medical tests using genomic data
US11258771B2 (en) Systems and methods for sending user data from a trusted party to a third party using a distributed registry
Dedeturk et al. Blockchain for genomics and healthcare: a literature review, current status, classification and open issues
JP2023532296A (ja) サービスとしてのソフトウェアテナントのためのポリシーベースのゲノムデータ共有
US12081657B2 (en) Watermarking of genomic sequencing data
WO2021113539A1 (en) Pyramid construct with trusted score validation
KR20210132741A (ko) 중개 디바이스와 네트워크 간의 보안 통신
Oprisanu et al. How Much Does GenoGuard Really" Guard"? An Empirical Analysis of Long-Term Security for Genomic Data
Bellafqira et al. Robust and imperceptible watermarking scheme for GWAS data traceability
Fernandes et al. Security, privacy, and trust management in DNA computing
Mittos et al. Systematizing genomic privacy research–a critical analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination