CN112840403A

CN112840403A - 用于保存和使用基因组及基因组数据的方法

Info

Publication number: CN112840403A
Application number: CN201980060499.6A
Authority: CN
Inventors: 李伦京; 李有振; 李荣优
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-07-17
Filing date: 2019-07-16
Publication date: 2021-05-25
Also published as: JP2021530930A; EP3826021B1; EP3826021A1; KR102209178B1; US20210271982A1; EP3826021A4; JP7037700B2; WO2020017869A1; KR20200008854A; US11954601B2

Abstract

本发明涉及用于进行下述操作的方法：将基因组数据分配并存储在多个节点中，多个节点各自包括通过将块进行连接而构造的区块链；检索所存储的基因组数据中的至少一个基因组数据；以及从用于存储多个基因组材料的基因组材料存储单元中获取与所检索的基因组数据相对应的基因组材料，基因组材料各自包括基因组和人工核酸序列。该方法包括：(1)由多个节点中的每个节点执行的基因组数据存储步骤；(2)由多个节点中的至少一个节点执行的基因组数据检索步骤；以及(3)认证步骤。

Description

用于保存和使用基因组及基因组数据的方法

技术领域

本发明涉及存储和使用基因组及基因组信息的方法，该方法基于用于存储、分配和再处理信息的加密技术。更具体地，本发明涉及如下技术，该技术用于通过在保存和分配个体的基因组时基于人工核酸序列的加密来实现个体的持续认证，以及通过构建用于使用诸如区块链技术的密码学技术来安全且可靠地存储、分配、提供和再处理基因组信息的系统，来使用基因组引入各种工业领域以采用直接到客户(DTC)系统并共享个体的基因组或基因组信息。

背景技术

常规地，为了研究活体或尸体的基因组，科学家必须通过请求具有基因组的个体或拥有许多个体的基因组的特定机构来收集基因组。然而，在这种情况下，可以获得的基因组的类型和量是有限的，并且只有富有或著名的机构或公司才可以获得基因组以用于他们的研究。因此，一般研究者对基因组和基因组信息的访问受到限制，导致资源浪费，并且成为基因组深入研究的障碍。

另一方面，会发生如下情况：来自基因组分析的数据被出售给商业组织，而基因组供体却不知道该情况或者提供基因组未获得回报。因此，基因组相关利润的分配是不适当的，并且源自基因组分析的信息的安全性和存储是低效的。

关于基因组的保存，基因组以从每个供体中提取的DNA、组织或血液的形式和通过每个个体的特定序列(碱基序列信息)对个体(即，供体)进行分类的库进行存储。在人类基因组保存的情况下，寻求构建拥有每个国家所有人口的基因组序列分析结果的库。然而，由于保存技术、个人信息安全技术、成本的不完善，尚未建立每个国家的基因保存库，并且仅零星地建立了用于研究个体疾病和性状的基因组保存保护库。

为了纪念已故者，使用埋有尸体或尸体的骨灰的墓。然而，就环境和成本而言，墓已成为负担。为了解决这个问题，基因组墓的概念是必需的。根据该概念，人最终留下的东西不应为尸体或骨灰形式，而应为基因组资源。

在这点上，为了保存每个个体的基因组并且将其作为研究资源进行分配，主要使用利用外部识别标签或标记的识别方法。然而，这样的识别标签或标志可能被不正确地记录或错误地粘贴。另外，该方法不能支持个体的持续认证，并且在编写关于基因组的信息方面是不便的。

发明内容

技术问题

本发明的目的在于提供一种保存和利用基因组信息的方法，在该方法中基因组或基因组信息不被单个方垄断，而是能够被公众共享，并且能够进行认证。

技术解决方案

为了实现本发明的目的，提供了一种方法，将基因组信息分配和存储在多个节点中，检索被存储的基因组信息中的至少一项，并且从存储基因组材料的基因组材料存储单元中获取与所检索的基因组信息相对应的基因组材料，其中，多个节点各自包括其中连接了多个块的区块链，基因组材料各自包含基因组和人工核酸序列，该方法包括：(1)由每个节点存储基因组信息；(2)由作为节点中的至少一个节点的搜索节点检索基因组信息；以及(3)认证，其中，(1)存储步骤包括：(1a)存储基因组信息，(1b)存储节点中的每个节点的位置信息，(1c)在存储了基因组信息之后，创建交易(transaction)，并且将交易发送至多个节点中的特定节点，所述交易包括所存储的基因组信息和作为存储有基因组信息的节点的位置信息的所有者信息，以及(1d)从多个节点中的特定节点接收交易，在最早针对所接收的交易创建块时，将块哈希值和随机数值发送至其他节点，并且在从某个节点接收到块哈希值和随机数值时，使用所接收的块哈希值和随机数值来创建块，并将生成的块连接至区块链，其中，(2)检索步骤包括：(2a)当输入搜索信息时，读取区块链的每个块上的随机数值，并且使用从块读取的随机数值、输入的搜索信息和多个节点的位置信息来生成哈希值，(2b)确定所生成的哈希值是否与存储有随机数值的块的块哈希值匹配，以及(2c)确定在存在具有与所生成的哈希值匹配的块哈希值的块的情况下具有位置信息的节点为所有者，并且其中，(3)认证步骤包括：(3a)从相关节点接收所有者的认证信息，以及(3b)通过将认证信息与基因组材料存储单元中存储的基因组材料中包含的人工核酸序列进行比较来认证基因组。

有利效果

在根据本发明的基因组信息保存和利用方法中，在通过区块链搜索获得目标基因组的所有者的位置之后，允许访问基因组信息。因此，本发明防止了基因组或基因组信息被特定方垄断，而是使得基因组或基因组信息能够被公众共享，从而有助于遗传研究的进步。

另外，在根据本发明的基因组信息保存和利用方法中，仅在从基因组信息的所有者获得认证信息时，才允许访问基因组，因此可以防止未经授权的人使用基因组。

另外，在根据本发明的基因组信息保存和利用方法中，区块链的块哈希值包括基因组信息和所有者信息。因此，其他用户可以容易地找到基因组信息的位置。

另外，在根据本发明的基因组信息保存和利用方法中，在创建区块链的处理中，保证了可靠性。因此，通过基于数字签名的认证、不可否认性和用于块哈希生成的消息摘要来保证安全完整性。

附图说明

图1是示出根据本发明的一个实施方式的基于区块链的基因组信息管理系统的整体构造的框图。

图2是示出根据本发明的一个实施方式的保存基因组的囊状物的图。

图3是示出根据本发明的基因组信息管理系统中的每个节点的结构的框图。

图4是顺序地示出根据本发明的一个实施方式的由基因组信息管理系统中的每个节点执行的将包括基因组信息和所有者信息的块连接至区块链的处理的流程图。

图5是示出根据本发明的优选实施方式的基因组信息管理系统中的每个节点的交易发送模块生成交易的处理的框图。

图6是示出用于根据本发明的优选实施方式的基因组信息管理系统中的数字签名的加密和解密算法的概念图。

图7是示出根据本发明的优选实施方式的在基因组信息管理系统中交易接收节点通过工作量证明生成和发送块哈希值的处理的概念图。

图8是示出根据本发明的优选实施方式的基因组信息管理系统中的每个节点的基因组信息搜索模块的操作的流程图。

图9是示出在使用每个节点的基因组信息搜索模块来搜索区块链中存储的基因组信息后，识别所有者的处理的概念图。

具体实施方式

在下文中，将参照附图详细描述根据本发明的优选实施方式的用于基于区块链来保存和利用基因组及基因组信息的系统和方法。

在本说明书中，可以从活的个体或尸体获得基因组。本文中使用的基因组概念不仅包括例如从组织或血液中提取的细胞核DNA、全基因组DNA和部分基因组DNA以及包含在孕妇血液中的胎儿DNA的基因组DNA，而且还包括例如从特定细胞中提取的特定细胞组的细胞核DNA、全基因组DNA和部分基因组DNA的基因组DNA，所述特定细胞选自包括体细胞、生殖细胞、肿瘤细胞、微生物和其他生物体的感染细胞的组。基因组是诸如cDNA或mRNA的物质，其是测序的基础并且利用被开发用于研究基因组DNA的技术进行提取。然而，基因组的类别或定义不限于基于当前可用技术定义的基因组。

此外，在本说明书中，基因组信息包括从以下项当中选择的至少一项：性状信息、病理信息、医疗信息、基因组序列信息、基因组实验分析数据信息、示出基因组与性状或疾病之间的关系的数据挖掘分析数据信息、通过与现有的基因组数据库进行比较而提取的数据信息、研究基因组和相关表型所需的任何可观察表型、以及各种测量数据的表型。基因组序列信息包括cDNA序列、mRNA序列和/或表达谱、表观遗传学数据、蛋白质数据、全基因组数据、甲基化数据、代谢物数据、微生物组数据、人序列数据、来自PCR的基因型数据、来自DNA微阵列的基因型数据、来自总基因组测序的基因型数据、来自全基因组测序的基因型数据、来自基因测序的基因型数据、核型数据、植入前遗传测试数据、胚胎或胎儿无创产前遗传测试数据等。这些数据的范围不受限制，并且可以通过本领域公知的方法获得。

图1是示出根据本发明的一个实施方式的基于区块链的基因组信息管理系统的整体构造的图。

参照图1，根据本发明的一个实施方式的基因组信息管理系统(1)是用于使用区块链来管理和搜索存储在多个节点中的基因组信息的系统。基因组信息管理系统(1)包括基因组存储单元(1000)和多个节点(2、3、4、...和n)。

基因组存储单元(1000)存储多个个体的基因组材料。每个基因组材料包括基因组(基因组DNA)和人工核酸序列。基因组材料可以例如以囊状物的形式被提供。当基因组存储单元(1000)接收到访问特定基因组的请求时，基因组存储单元(1000)使用与特定基因组相对应的人工核酸序列执行认证处理，并且根据认证结果提供或不提供基因组DNA。存储在基因组存储单元(1000)中的基因组材料可以是取自活体或尸体的基因组材料。当存储尸体的基因组材料时，基因组存储单元(1000)可以用作基因组墓。

在下文中，将详细描述设置人工核酸序列的方法和执行认证的方法。

作为根据本发明的信息的基本单元的DNA或RNA是其中核酸的基本结构通过磷酸二酯键链接的物质，并且与基因工程领域中通常定义的相同。核酸通过磷酸二酯结合法链接成链以形成DNA和RNA。在核酸结构中，总共5种类型的化合物可以键合到碱基结合部分。根据结合的化合物，DNA由包括腺嘌呤(Adenine：A)、胸腺嘧啶(Thymine：T)、鸟嘌呤(Guanine：G)和胞嘧啶(Cytosine：C)的四种类型的碱基组成，RNA由包括腺嘌呤(A)、尿嘧啶(Uracil：U)、鸟嘌呤(G)和胞嘧啶(C)的四种类型的碱基组成。根据-H或-OH之间的哪个基团与图1A中环结构的碳2键合，DNA和RNA彼此不同。在体内，以DNA或RNA的形式，通过四种类型的碱基的三种组合表达特定的氨基酸，并且通过这些氨基酸的特定组合形成蛋白质。作为参考，存在一种类型的碱基存在于两种或更多种化合物中的情况。另外，该核酸序列通过结合天然存在的碱基的方法的磷酸二酯结合法形成。

例如，如下所述，存在三种用于匹配和设置序列组合和信息单元的方法。

根据第一设置方法，如表1所示，根据一个或更多个碱基(序列单元)的在一定可允许计数内的重复次数来设置一系列信息单元。将特定的碱基组合设置为指示序列组合的结合的标记。

[表1]

序列组合	信息单元
		A	1
AA	2
		AAA	3
C	4
		CC	5
CCC	6
		T	7
TT	8
		TTT	9
G	0
		ATG	结合标记

[序列单元为A、T、C和G]

表1示出了将特定信息单元设置为碱基的人工组合并且使用该设置方法来表达值信息的方法的实施方式。如表1所示，使用的碱基是A、C、T和G，并且允许重复次数被设置为3。ATG用作结合标记。作为结合标记的ATG提供了测序期间碱基分析的方向，并且可以用作指示碱基分析的方向是否正确的指示符。例如，当分析的细节包括GTA的序列组合时，碱基分析应被反向解释。如表1所示，当表达作为居民登记号的一部分的值信息“1480632”时，序列组合“A”、“C”和“TT”用于分别指示信息单元“1”、“4”、“8”，并且序列组合中的每个序列组合之间的结合标记“ATG”用于验证适当的结合形式。因此，在利用序列单元的每个任意组合设置一系列的信息单元后，在表达特定信息数据“1480632”时，如果预先构造其核酸序列，则可以容易地识别值信息。

值信息：1 4 8 0 6 3 2

核酸序列：A ATG C ATG TT ATG G ATG CCC ATG AAA ATG AA

根据第二设置方法，如表2和表3所示，使用特定碱基(序列单元)作为序列组合的起始标记和/或终止标记，并且根据重复计数或其他碱基的一个或更多个碱基的任意组合来顺序地设置信息单元。

表2示出了将特定信息单元设置为碱基的人工组合并且使用该设置方法来表达值信息的方法的另一实施方式。

[表2]

序列组合	信息单元
		AT	1
AAT	2
		AAAT	3
AAAAT	4
		AAAAAT	5
CT	6
		CCT	7
CCCT	8
		CCCCT	9
CCCCCT	0
		T	终止标记

[序列单元为A、C和T]

如表2所示，T是序列组合的终止标记，A和C是序列组合的重复序列单元，并且允许重复计数为5。当以表2所示的方式对作为居民登记号的尾部的信息数据“1480632”进行加密时，加密的信息数据如下所示。

值信息：1 4 8 0 6 3 2

核酸序列：AT AAAAT CCCT CCCCCT CT AAAT AAT

另外，如表3所示，A是序列组合的起始标记，并且A、T、C和G中的两个碱基的组合被设置为序列组合。当以表3所示的方式对信息数据“1480632”进行加密时，加密的信息数据如下所示。

[表3]

[序列单元为A、C、T和G]

值信息：1 4 8 0 6 3 2

核酸序列：ACC ATC AGT AAA ATG ACG ACT

根据第三方法，如表4所示，将特定信息单元设置为两个或更多个碱基的组合，并且利用特定组合设置值信息。

表4示出了将特定信息单元设置为碱基的人工组合并且使用该设置方法来表达信息数据的方法的另一实施方式。如表4所示，三个碱基以第一碱基、第二碱基和第三碱基的顺序进行组合以表示一个信息单元(字母表)。信息单元在表4中用A到Z指示。例如，通过将第一碱基A、第二碱基T和第三碱基T进行组合来创建序列组合“ATT”，并且为该序列组合分配信息单元“K”。为了检查核酸序列是否包含完美信息，将序列组合“CCC”设置为终止标记。另一方面，为了指示核酸序列的完整性，可以使用序列组合“CCC”作为起始标记。在一些情况下，使用序列组合“CCC”作为起始标记和终止标记两者。当信息数据是“JONG IL LEE”时，如下执行对该信息数据的加密。

[表4]

[序列单元为A、T和C]

值信息：J O N G I L L E E

核酸序列：ATA TTC TTT CAA CAC ATC ATC TAT TAT CCC

本发明的人工核酸序列通过选择将序列组合映射到信息单元的上述示例性方法中的任一种来形成。然而，上述方法仅是将序列组合映射到信息单元的许多方式当中的一些示例性方式。

可以与上述方法相反地认证这样的人工核酸序列。例如，当接收到认证信息时，基因组材料存储单元(1000)通过反向应用该方法从核酸序列中获得值信息，并且通过将获得的值信息与认证信息进行比较来执行认证。当确认认证信息的提供者是合法的权利所有者时，可以将与作为核酸序列的认证信息相对应的基因组提供给认证信息的提供者。

图2是示出根据本发明的一个实施方式的保存基因组材料的囊状物(1100)的图。基因组材料存储单元(1000)存储针对各个对象生成的多个囊状物1100。

参照图2，囊状物(1100)由左囊状物(1110)和右囊状物(1120)组成，左囊状物和右囊状物由不会因热和机械外部应力而变形的材料制成并且可以彼此分离和组合。在一些情况下，囊状物还可以包括内表层(1130)，内表层由使得能够更安全地保存内容物并保护其免受外部热的影响的耐热材料或者便于存储和保护的防水材料制成。由于囊状物(1100)包含分散在溶液(1400)中的大量特定人基因组DNA(1200)和人工核酸序列DNA(1300)，因此尽管一些基因组DNA(1200)或人工核酸序列DNA(1300)被破坏，但可以通过分析剩余DNA来执行认证。

另一方面，如图2所示，人工核酸序列可以与载体键合的状态(1310)存在于囊状物(1100)中。如上所述，由于人工核酸序列DNA(1300)由比基因组DNA(1200)相对少得多的碱基组成，因此可以在短时间内简单地对人工核酸序列DNA进行分析。

上述囊状物形式仅是示例，并且对于本领域技术人员来说将明显的是，其可以被修改为各种形式和构造中的一种。

返回参照图1，多个节点(2、3、4、...和n)向基因组材料存储单元(1000)提供基因组材料，存储与各个基因组材料相对应的基因组信息，并且搜索基因组信息。在个体向基因组材料存储单元(1000)提供基因组材料并将与该基因组材料相对应的基因组信息直接存储在他或她的计算机中的情况下，个体的计算机对应于多个节点(2、3、4、...和n)之一。替选地，个体可以向基因组材料存储单元(1000)提供基因组材料并且向专门管理基因组信息的公司提出管理基因组信息的请求。在这种情况下，基因组信息管理公司可以对应于多个节点(2、3、4、...和n)之一。进一步替选地，节点(2、3、4、...和n)可以对应于需要基因组用于分析的医疗相关基因组分析人员或个体、组织、公司等。

参照图3，节点(2、3、4、...、n)中的每一个节点配备有区块链(10)、节点位置信息存储模块(11)、基因组信息存储模块(12)、交易发送模块(13)、区块链执行模块(14)以及基因组信息搜索模块(15)。

通过将多个块连接成链状而形成区块链(10)。在这点上，参照图3，区块链中的每个块包含当前块的哈希值、随机数值、前一块的哈希值和时间戳。哈希值和随机数值是基于基因组信息以及所有者的IP地址和端口号，通过使用预设的哈希函数而获得的值。由于区块链中的每个块不仅包含它们自己的块哈希值，而且还包含前一块的块哈希值，因此区块链中的每个块像链一样彼此连接。

节点位置信息存储模块(11)存储节点(2、3、4、...和n)中的每个节点的位置信息。这样的位置信息可以是例如每个节点的IP地址和端口号。每个节点配备有节点位置信息存储模块(11)。

基因组信息存储模块(12)是存储有基因组信息的存储区域，并且每个节点预先指定用于存储要与其他节点共享的基因组信息的文件夹。利用根据本发明的系统，可以提供信息共享平台，通过该信息共享平台，所有节点可以共享存储在它们的基因组信息存储模块(12)中的基因组信息。节点(2、3、4、...、n)中的每个节点向图1的基因组材料存储单元(1000)提供基因组材料，并且然后将与所提供的基因组材料相对应的基因组信息存储在节点的基因组信息存储模块(12)中。替选地，节点(2、3、4、...、n)中的每个节点从节点(2、3、4、...和n)当中定位存储有期望的基因组信息的节点，从找到的节点(即，所有者节点)接收认证信息，基于接收到的认证信息从基因组材料存储单元(1000)接收基因组信息，基于分析结果生成新的基因组信息(在下文中，称为次级基因组信息)，并且将生成的基因组信息(即，次级基因组信息)存储到节点的基因组信息存储模块(12)中。基因组信息或次级基因组信息可以包括选自表达性状诸如个体的外貌或病史、治疗史和遗传分析信息中的至少一项。在下文中，将术语“基因组信息”定义为包括次级基因组信息的概念。

在将基因组信息存储在基因组信息存储模块(12)的预定文件夹中的情况下，交易发送模块(13)生成包括所存储的基因组信息、所有者信息以及数字签名的交易，并且将所生成的交易传送至具有其区块链的其他节点。另外，在将次级基因组信息存储在基因组信息存储模块(12)的预定文件夹中的情况下，交易发送模块(13)生成包括所存储的次级基因组信息、所有者信息以及数字签名的第二交易，并且将第二交易传送至具有其区块链的其他节点。在下文中，术语“交易”用于包括第二交易。在本说明书中，为了便于描述，将发送交易和第二交易的节点称为“交易发送节点”。所有者信息可以包括其中存储有基因组信息的节点的IP地址和端口号。

基因组信息以ASCII码的形式包括在交易中，并且所有者的IP地址和端口号以十进制数的形式包括在交易中。

当区块链执行模块(14)从具有区块链的其他节点接收到交易时，区块链执行模块(14)针对所接收的交易创建块，并且将该块连接至其区块链，从而扩展该区块链。在本说明书中，为了便于描述，从交易发送节点接收交易的节点被称为“交易接收节点”。在下文中，将更详细地描述区块链执行模块(14)的操作。

当区块链执行模块(14)从另一节点接收到交易时，它执行工作量证明(proof-of-work)以创建由自身创建块所必需的块哈希值。工作量证明是通过使用预设的哈希函数利用接收到的交易计算随机的随机数值来创建满足预定数目的“0”的十六进制块哈希值的操作。根据本发明的系统使用SHA256哈希函数。替选地，可以使用不同的哈希函数。工作量证明的原因是使得不可能知道参与创建区块链的节点中的哪个节点将生成块，从而防止恶意节点知道哪个节点将生成当前块并且防止恶意节点攻击将生成块的节点。例如，比特币的区块链的高度为417453，并且该块哈希值中的“0”的数目为17。比特币通过增加“0”的数目来调整块生成难度。在当前具有最高CPU或GPU性能的系统每10分钟生成一个块时以取“0”的数目的方式来设置块生成难度。

当交易接收节点在所有交易接收节点当中成功地最早执行工作量证明时，其区块链执行模块(14)找到块哈希值和随机的随机数值，使用这些值创建块，并且将这些值发送至所有节点。在本说明书中，为了便于描述，将交易接收节点当中首先成功进行工作量证明的节点称为“工作量证明成功节点”。

当区块链执行模块(14)从工作量证明成功节点接收到块哈希值和随机数值时，区块链执行模块(14)利用有效性验证算法来验证交易、接收到的块哈希值和接收到的随机数值，当成功完成验证时使用接收到的块哈希值和接收到的随机数值来创建新块，并且将生成的块连接至区块链。

基因组信息搜索模块(15)使用区块链(10)和节点位置信息存储模块(11)来搜索在节点中的每个节点中存储的基因组信息和所有者信息。

当输入搜索信息时，基因组信息搜索模块(15)读取存储在区块链中的每个块的随机数值，使用随机数值、搜索信息以及包括在IP列表中的节点中的每个节点的IP地址和端口号生成块哈希值，并且检查所生成的块哈希值是否与包含有随机数值的块的块哈希值匹配。当存在具有与所生成的块哈希匹配的块哈希值的块时，将具有该IP地址和该端口号的节点确定为所有者，并且请求该节点提供与基因组信息存储单元(1000)中存储的人工核酸序列相对应的认证信息。基因组信息存储单元(1000)通过将认证信息与人工核酸序列进行比较来确认呈现认证信息的人具有使用所请求的基因组的适当权限，并且将所请求的基因组提供给呈现认证信息的人。当不存在具有与所生成的块哈希值匹配的块哈希值的块时，确定不存在对应的数据。

同时，在根据本发明的系统中，当从具有区块链的其他节点之一接收到交易时，区块链执行模块(14)针对所接收的交易生成块，并且将所生成的块连接至区块链。

在下文中，在具有上述构造的基于区块链的基因组信息管理系统中，将更详细地描述每个节点处的管理和搜索基因组信息的方法。

图4是示出根据本发明的实施方式的基因组信息管理系统中的每个节点将包含基因组信息和所有者信息的块连接至区块链的处理的流程图。参照图4，下面将详细描述每个节点将包含基因组信息和所有者信息的块连接至区块链的处理。

每个节点具有区块链和IP列表，并且在节点的基因组信息存储模块中预指定用于存储要与其他节点共享的基因组信息的区域。

首先，每个节点使用其交易发送模块生成基因组信息并将基因组信息存储在预设区域中，创建包括基因组信息、基因组信息的所有者的节点的IP地址和端口号、以及所有者的数字签名的交易，并且将所生成的交易发送至其他节点(S400)。

其他节点从交易发送节点接收交易(S410)。

交易接收节点执行工作量证明，以便生成使用区块链执行模块针对所接收的交易生成块所必需的块哈希值(S420)。

在交易接收节点当中，首先成功进行工作量证明的节点使用区块链执行模块来找到块哈希值和随机的随机数值，基于块哈希值和随机数值创建块，向其他块通知其已经生成块，并且向其他节点发送该块的块哈希值和随机数值(S430)。

从工作量证明成功节点接收到块哈希值和随机数值的其他节点使用有效性验证算法来验证交易和接收到的块哈希值和随机数值(S440)，当成功完成验证时，基于接收到的块哈希值和随机数值创建它们的新块，并且将新生成的块连接至区块链(S450)。

图5是示出根据本发明的优选实施方式的基因组信息管理系统中的每个节点的交易发送模块创建交易的处理的构造图。

参照图5，所有者将基因组信息存储在预定区域中。在这种情况下，基因组信息包括各种项例如身高、体重、视力、呼吸治疗史和高血压治疗史，并且用于存储相应项的每个字段填充有与该信息相对应的数字或字母。期望以ASCII码的形式表达所生成的基因组信息，ASCII码是由字母到数字的转换产生的，并且其中代码被排列形成简单的字符串。此外，IP地址首先被转换成二进制码，并且然后被转换成十进制码。通过该处理，连同提取的基因组信息、所有者的IP地址和端口号、以及所有者的数字签名一起创建交易。

参照图6，在根据本发明的系统中，当作为数据所有者的节点的交易发送节点发送交易时，交易发送节点使用私钥生成数字签名，并且将数字签名插入到要发送的交易中。交易接收节点使用公钥对包括在所接收的交易中的数字签名进行解码，并且检查发送交易的所有者的IP地址和端口号是否与包括在交易中的IP地址和端口号匹配。

根据本发明的系统使用私钥和公钥来生成数字签名。用于生成数字签名的密码学理论是ECDSA。布置使用TCP套接字通信的交易发送节点的IP地址和所有者的端口号，并且然后利用私钥对其进行加密以生成数字签名。将数字签名附加到交易，并且将封装有利用ECDSA生成的公钥的交易发送至其他节点。交易接收节点通过利用封装的公钥解密交易并检查输出结果是真(True)还是假(False)来验证交易。通过验证数字签名来防止欺骗，可以防止任何恶意节点发送无效交易，从而防止无效交易中的信息被用于生成块。

图7是示出根据本发明的优选实施方式的在基因组信息管理系统中的交易接收节点通过工作量证明生成块哈希值并且发送块哈希值的处理的概念图。

参照图7，比特币区块链的块生成难度的所需级别被设置成使得块哈希中的“0”的数目为17，并且相应地设置难度级别。与块包含多个交易的现有的区块链不同，根据本发明的系统中的块仅包含一个交易。也就是说，在一个块中提供一条基因组信息和一条所有者信息。预先仅使用该信息来制作块。因此，当稍后搜索数据时，可以通过块哈希分析来检查搜索信息和所有者信息。列出通过交易接收的IP、端口号和基因组信息以应用哈希算法，随机生成随机数值，并且使用SHA256哈希算法生成块哈希(步骤1)。连续改变随机数值，直到找到具有多于作为预设参考零计数的17个零的哈希值。当找到满足该条件的哈希时，将其接受为块哈希。将由随机节点生成的块哈希值和随机数值发送至参与区块链的所有节点(步骤2)，并且接收节点中的每个节点通过分析接收到的块哈希值和随机数值来执行交易的验证(步骤3)。由于每个节点具有创建块所需的所有交易信息，因此列出了包括在交易信息中的IP地址、端口号和基因组信息，并且基于接收到的随机数值来执行SHA256哈希算法。当SHA256哈希算法的执行的输出哈希值与接收到的块哈希值相同时，该节点确定交易的内容未被更改。这样，可以防止基于来自恶意节点的信息创建块。经历验证的块以Json文件的形式被存储(步骤4)，然后连接至区块链(步骤5)。

图8是示出根据本发明的优选实施方式的基因组信息管理系统中的每个节点的基因组信息搜索模块的操作的流程图，并且图9是示出每个节点在使用基因组信息搜索模块搜索区块链中存储的基因组信息后，检查所有者信息的处理的概念图。

参照图8和图9，当用户输入搜索信息(a)时(S800)，将搜索信息转换为ASCII码，并且然后将节点位置信息存储模块(11)中的每个节点的IP地址和端口号的信息与ASCII码列在一起(S810)。读取以Json文件格式存储的区块链(10)以读取随机数值(S820)，将SHA256哈希算法应用于读取的随机数值和列出的信息以获得哈希值(S830)，并且检查获得的哈希值是否与Json文件的块哈希值匹配(S840)。打开一个Json块，以使用包括在IP列表中的所有节点的IP地址和端口号来找到哈希值和随机数值。如果在块中不存在匹配的哈希值，则打开下一块，并且对打开的块执行相同的操作。当找到与块的哈希值匹配的哈希值时，可以确认具有IP地址和端口号的节点是被搜索的数据的所有者(S850)。当在区块链中不存在搜索到的基因组信息时，返回“未找到”消息(S860)。

如上所述，根据本发明的基因组信息管理系统通过在区块链中搜索基因组的哈希，找到所请求的基因组的所有者的IP地址和端口信息，从而实现了能够提供可共享基因组信息的列表的平台。另外，当从区块链中找到基因组信息的所有者信息时，搜索节点请求所有者节点提供与基因组信息相对应的认证信息，并且所有者节点发送认证信息以使得搜索节点能够在基因组材料存储单元中执行认证。因此，基因组材料存储单元可以将与认证信息相对应的基因组提供给搜索节点(即，执行认证的人)。

此处，所有者节点可以仅在满足特定条件时将认证信息发送至搜索节点。例如，条件可以包括与搜索节点相对应的研究机构或分析员在由所有者节点指定的领域中进行研究的情况，或者搜索节点支付期望成本的情况。因此，基因组的所有者可能不被疏远，而是参与分配遗传资源的处理。

此后，从所有者节点接收到认证信息的搜索节点可以分析从基因组材料存储单元获得的基因组，并且生成基因组分析信息(即，次级基因组信息)。

基因组分析信息是通过将获得的基因组与存储在针对生物医学研究构建的各种数据库中的信息进行比较的比较分析，或者通过各种数据库对基因组信息进行数值或文本数据挖掘，而获得的统计学重要数据。下面描述了针对生物医学研究构建的数据库的示例，并且还将包括新构建的数据库。下面列出了这些示例。

NCBI数据库(包括但不限于GenBank和Entrez)或其他公共或私人数据库，例如日本DNA数据库(DNA Data Bank of Japan)(国立遗传学研究所)，欧洲核苷酸档案馆(European Nucleotide Archive)(欧洲生物信息学研究所)、Ensembl、UniProt、Swiss-Prot、蛋白质组学鉴定数据库(Proteomics IdentificationsDatabase)、欧洲蛋白质信息库、日本蛋白质信息库、生物分子相互作用网络数据库(Biomolecular InteractionNetwork Database)、Reactome、mGen、PathogenPortal、SOURCE、MetaBase、BioGraph、生物信息采集器(Bioinformatic Harvester)、Enzyme Portal、马克斯普朗克研究所、包括但不限于Illumins实验室和/或BASESPACE的Illumina、美国生命技术公司(LifeTechnologies)、全基因组公司(Complete Genomics)、太平洋生物科学公司(PacificBiosciences)、昂飞公司(Affymetrix)、安捷伦科技公司(Agilent)、西格诺公司(Sequenom)、Arrayit公司、美国实验室公司(Laboratory Corporation of American)、奎斯特诊断公司(Quest Diagnostics)、帝国基因(Empire Genomics)、表达分析有限公司(ExpressionAnalysis)、GeneDx、Gene by Gene、Natera、Ambry Genetics、国家地理、科里利医学研究所(CoriellInstitute for Medical Research)、凯撒健康计划和医疗集团(Kaiser Permanente)、政府数据库、研究者数据库、大学数据库、实验室数据库、实验室遗传检测设备、执行遗传检查的设备(例如测序仪和/或芯片实验室)、医疗机构的数据库、健康相关数据库、健康保险公司的数据库、公共企业的数据库、以及由生物物理公司(BioPhysical Corporation)拥有或控制的基因组信息分析数据库、Spectracell实验室、健康诊断实验室有限公司(Health Diagnostic Laboratory Inc.)、Knome、Counsyl、Ancestry.com、家谱DNA(Family Tree DNA)、Match.com、eHarmony、okCupid、Drugs.com、人类基因突变数据库(Human Gene Mutation Database)、在线人类孟德尔遗传数据库(Online MendelianInheritance in Man)、SNPedia、维基百科、脸书(Facebook)、聚友网(Myspace)、领英(LinkedIn)、谷歌(Google)(包括但不限于因特网搜索历史、点击历史、GooglePlus数据库)、亚马逊(Amazon)、苹果(Apple)、雅虎！(Yahoo！)、照片墙(Instagram)、品趣志(Pinterest)、推特(Twitter)、欧洲分子生物学实验室(EuropeanMolecularBiology Laboratory)、亚太生物信息网络(Asia Pacific BioInformaticsNetwork)、北京基因组研究所(BeijingGenomics Institute)、Healthcare.gov、美国卫生与公众服务部(United States Department of Health and Human Services)、医疗保险和医疗补助服务中心(The Centers for Medicare and Medicaid Services)、美国退伍军人交易部(United States Veterans Affairs)、Calico、DNANexus、路径基因公司(PathwayGenomics)、艾吉泰康生物科技公司(i-gene)、个人计算机、个人电话、个人平板设备、个人电子设备、Genotek、bio-logis、Genelex、Lumigenix、Spiral Genetics、医务人员数据库、电子病历、电子健康记录、Xcode生命科学(Xcode Life Sciences)、Riken Genesis、Personalis、MapMyGenome和/或23andMe。

搜索节点以与存储基因组信息的方法相同的方式存储次级基因组信息，创建块，并且将该块连接至区块链。因此，公众可以访问源自初级基因组信息的次级基因组信息以及初级基因组信息，从而有助于遗传学和相关产业的突破。

根据本发明的基因组信息管理系统和使用该系统的方法可以通过使用区块链存储基因组信息和所有者信息并共享必要的数据来解决消耗大存储容量的问题。以首先通过区块链搜索找到数据的位置和所有者并且请求从数据的所有者提供信息的方式来执行数据共享。

因此，通过将基因组材料存储在对应于基因组材料存储单元(1000)的基因组墓中，每个个体可以减少制造和管理墓所需的工作量或成本，并且可以允许第三方共享基因组材料。

另外，执行基因组分析的一方可以通过与对应的基因组材料的所有者接触来容易地找到必要的基因组材料的基因组信息并且获得基因组材料。因此，虽然基因组材料通常被特定公司或机构垄断，但是本发明使得基因组材料可被公开地访问，从而有助于医疗和遗传产业的发展。

尽管已经参照优选实施方式描述了本发明，但是优选实施方式仅出于说明的目的而被呈现以描述本发明的技术精神，并且不旨在限制本发明的范围。另外，本领域技术人员将理解，在不偏离本发明的基本特征的情况下，各种修改和改变是可能的。另外，与这些修改和应用相关的差异应当被解释为落入所附权利要求中限定的本发明的范围内。

Claims

1.一种方法，其用于将基因组信息分配和存储在多个节点中，检索被存储的基因组信息中的至少一项，并且从存储基因组材料的基因组材料存储单元中获取与所检索的基因组信息相对应的基因组材料，其中，所述多个节点各自包括其中连接了多个块的区块链，所述基因组材料各自包含基因组和人工核酸序列，所述方法包括：

(1)由每个节点存储基因组信息；

(2)由作为所述节点中的至少一个节点的搜索节点检索基因组信息；以及

(3)认证，

其中，(1)存储步骤包括：

(1a)存储所述基因组信息；

(1b)存储所述节点中的每个节点的位置信息；

(1c)在存储了所述基因组信息之后，创建交易，并且将所述交易发送至所述多个节点中的特定节点，所述交易包括所存储的基因组信息和作为存储有所述基因组信息的节点的位置信息的所有者信息；以及

(1d)从所述多个节点中的特定节点接收所述交易，在最早针对所接收的交易创建块时，将块哈希值和随机数值发送至其他节点，并且在从某个节点接收到块哈希值和随机数值时，使用所接收的块哈希值和随机数值来创建块，并将生成的块连接至区块链，

(2)检索步骤包括：

(2a)当输入搜索信息时，读取所述区块链的每个块上的随机数值，并且使用从所述块读取的随机数值、输入的搜索信息和所述多个节点的位置信息来生成哈希值；

(2b)确定所生成的哈希值是否与存储有所述随机数值的块的块哈希值匹配；以及

(2c)确定在存在具有与所生成的哈希值匹配的块哈希值的块的情况下具有所述位置信息的节点为所有者，并且

(3)认证步骤包括：

(3a)从相关节点接收所述所有者的认证信息；以及

(3b)通过将所述认证信息与所述基因组材料存储单元中存储的基因组材料中包含的人工核酸序列进行比较来认证所述基因组。

2.根据权利要求1所述的方法，其中，(3b)认证步骤包括：

(3b-1)将数字或字母的信息单元映射到DNA或RNA碱基的人工组合；

(3b-2)将能够根据对应关系通过所述信息单元的顺序结合来表达的值信息表达为人工核酸序列，所述人工核酸序列是DNA或RNA碱基的顺序结合的形式；以及

(3b-3)根据所述对应关系将所述人工核酸序列解释为值信息，并且将根据分析得到的值信息与当输入所述认证信息时被输入的所述认证信息进行比较。

3.根据权利要求2所述的方法，其中，所述值信息是姓名、居民登记号或唯一认证号。

4.根据权利要求1所述的方法，其中，所述基因组材料中的每个材料是包含对象的基因组和与载体连接的人工核酸序列的囊状物。

5.根据权利要求1所述的方法，其中，针对所述多个节点中存储的基因组信息生成所述区块链的每个块，并且

通过对所述基因组信息、与所述基因组信息相对应的所有者信息、以及与所述基因组信息相对应的随机数值应用预定的哈希算法来生成每个块的块哈希值。

6.根据权利要求1所述的方法，其中，所述所有者信息包括存储有所述基因组信息的节点的IP地址和端口号。

7.根据权利要求1所述的方法，其中，所述交易包含数字签名。

8.根据权利要求1所述的方法，其中，所述基因组信息是个体的表型性状、个体的治疗史或两者。

9.根据权利要求1所述的方法，其中，(3a)认证信息接收步骤包括：

(3a-1)当搜索节点满足预定条件时，由与所述所有者相对应的节点向所述搜索节点发送所述认证信息；以及

(3a-2)由所述搜索节点接收所述认证信息。

10.根据权利要求1所述的方法，还包括(4)在执行所述(3)认证步骤之后更新所述基因组信息，

其中，(4)更新步骤包括：

(4a)基于与在所述认证步骤中使用的人工核酸序列相对应的基因组来生成并存储次级基因组信息；

(4b)在存储了所述次级基因组信息之后，创建第二交易，并且将所生成的第二交易发送至其他节点，所述第二交易包含所述次级基因组信息和作为存储有所述次级基因组信息的节点的位置信息的第二所有者信息；以及

(4c)从所述节点之一接收所述第二交易，在最早针对所接收的第二交易生成块时，将块哈希值和随机数值发送至其他节点，在从所述节点之一接收到块哈希值和随机数值时，基于所接收的值生成块，并将所生成的块连接至所述区块链。