CN105512142A

CN105512142A - 基因变异与药物关系数据库和数据库系统

Info

Publication number: CN105512142A
Application number: CN201410504780.3A
Authority: CN
Inventors: 安娜; 叶晓飞; 王惠; 钟国兴
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2014-09-26
Filing date: 2014-09-26
Publication date: 2016-04-20

Abstract

本发明提供一种基因变异与药物关系信息数据库、其构建方法及构建装置、数据库系统。也包含自动更新数据库的方法和系统。本发明的基因变异与药物关系信息数据库的构建方法包括：接收基因变异和药物关系的初始数据；建立相应于所述初始数据的数据文件，所述数据文件包括基因变异数据表、药物数据表以及基因变异-药物关系数据表，每个数据表各自含有多个字段，所述基因变异数据表和所述药物数据表分别与所述基因变异-药物关系数据表有相同字段，所述每个数据表包含依据各自包含的每个字段建立的索引。

Description

基因变异与药物关系数据库和数据库系统

技术领域

本发明涉及生物信息和数据库，特别是能够提供基因变异与药物关系信息的数据库、其构建方法及构建装置、数据库系统。

背景技术

在测序技术的发展及询证医学的推动下，基因组学，表达谱等生物信息领域与医学领域交叉越来越密切。肿瘤的诊断和治疗方案不再是完全依赖传统的表观判断，更多的是通过检测基因变化提供更可靠的证据。近几十年，大批的科研人员及机构投入到药物与基因组学的研究中，大量的实验证据产出为基因组变化与药物关系提供了有力的支持。而肿瘤个体化治疗正是在这些大量的研究数据上建立起来的，为了使药物在临床治疗中更好的发挥作用，减少不良反应的发生，给患者提供最佳的药物使用方案，根据患者的个体基因型的差异“量体裁衣”，选择特异和最佳的药物方案进行治疗。个体化治疗帮助患者选择合适的药物，提高治疗的针对性，最大程度的延长患者的生存期。这类基因检测在临床上的应用，是实现现行医疗模式转变的有效手段。同时必将大大促进临床合理用药的发展进程，为医药学事业的发展做出贡献。

数据库是信息管理最有效的手段，因此肿瘤个体化治疗解读数据库是个体化治疗知识信息管理的重要信息传递的方法。基于数据库的使用需要设计数据库，构造最优化的数据库模式，建立数据库及其调用平台，满足数据库上下游数据的调用，有效的存储数据，数据库信息的挖掘和更新机制，最终实现用户的信息要求使用和处理。

目前，有一些相关的数据库，但总的来说这些数据库基本上提供的是基因与药物的关系，而且信息并不是很全面。另外这些数据库对基因，药物的名称，基因变异信息，基因药物的关系，参考资料都没有统一规范的标准，这对参考数据源可靠性，及信息传递及管理带来很大问题。这些数据库并不太适用于测序检测得到的基因变异信息对应药物关系的直接解读。

发明内容

本发明一方面提供一种数据库的构建方法，所说的数据库能够提供基因变异与药物关系信息，该方法包括：接收基因变异和药物关系的初始数据；建立相应于所述初始数据的数据文件，所述数据文件包括基因变异数据表、药物数据表以及基因变异-药物关系数据表，每个数据表各自含有多个字段，所述基因变异数据表和所述药物数据表分别与所述基因变异-药物关系数据表有相同字段，所述每个数据表包含依据各自包含的每个字段建立的索引。

本发明的另一方面，提供一种数据库，该数据库能够提供基因变异与药物关系信息，该数据库是通过本发明一方面的方法构建获得的。

本发明的再一方面，提供本发明一方面的数据库在确定基因变异与药物关系中的用途，供于对变异检测结果与药物对应关系的解读。

本发明的又一方面，提供一种自动更新数据库数据的方法，在通过本发明一方面的方法获得数据库之后，该自动更新方法包括：接收基因变异和药物关系的更新数据；将所述更新数据辨识为所述初始数据的副本；修改所述数据文件中的记录，以便包含所述更新数据。

本发明的一方面，还提供基因变异与药物关系信息的数据库的构建装置，用于执行实现本发明一方面的数据库构建方法的全部或部分步骤，该装置包括：数据接收单元，用于接收基因变异和药物关系的初始数据；数据输出单元，用于输出数据库记录；存储单元，用于存储数据，包括可执行的程序；处理器，与所述数据输入单元、数据输出单元及存储单元连接，用于执行所述可执行的程序，所述程序的执行包括完成本发明一方面的数据库构建方法的全部或部分步骤。

本发明的最后一方面，提供一种数据库系统，该数据库系统包含的数据库能够提供基因变异与药物关系信息，该系统包括：应用程序接口，用于接收用户检索需求及反馈结果；数据库，用于对来自应用程序接口的用户检索需求的关键词特征进行匹配，将匹配结果输出至应用程序接口，所述数据库是利用本发明一方面的数据库构建方法构建获得的。在本发明的一个具体实施方式中，在从应用程序接口接收用户检索需求后，利用访问控制列表对所述用户检索需求信息进行检查以控制访问，以进一步对进入该数据库系统的权限进行管理。

利用本发明的数据库构建方法获得的数据库和/数据库系统，能够提供全面的基因变异与药物关系的信息，而且对原始数据进行筛选及统一标准处理，使得所得的数据库信息准确可靠、规范标准，利于信息传递以及数据库的管理，能够用于解读通过各种方式得来的基因变异信息以及查获药物与基因变异的关系信息。利用本发明的数据库更新方法，能够自动将后续收集到的各种文献资料加入到已构建的数据库中，使数据库的数据得到不断或定期补充修正。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本发明的一个具体实施方式中的肿瘤个体化治疗解读数据库结构ER图，图中，首行显示“mutationdrug”的框图表示基因变异与药物关系数据表，首行显示“genemutation”的框图表示基因变异数据表，首行显示“drug”的框图表示药物数据表，首行显示“publication”的框图表示信息原始来源数据表，首行显示“geneinformation”的框图表示基因信息数据表，首行显示“samplelevel”的框图表示样本信息数据表，各个数据表中的第二行钥匙标志的表示各个表的主键，各个数据表中黑点标志的表示各个数据表的外键；

图2是本发明的一个具体实施方式中的基因变异与药物关系信息的数据库的构建装置示意图；

图3是本发明的一个具体实施方式中的肿瘤个体化治疗解读数据库模块示意图；

图4是本发明的一个具体实施方式中的肿瘤个体化治疗解读数据库构建和更新流程图；

图5是本发明的一个具体实施方式中的文献自动化筛选流程图。

具体实施方式

根据本发明的一个实施方式，提供一种数据库的构建方法，所说的数据库能够提供基因变异与药物关系信息，该方法包括：接收基因变异和药物关系的初始数据；建立相应于所述初始数据的数据文件，所述数据文件包括基因变异数据表、药物数据表以及基因变异-药物关系数据表，每个数据表各自含有多个字段，所述基因变异数据表和所述药物数据表分别与所述基因变异-药物关系数据表有相同字段，所述每个数据表包含依据各自包含的每个字段建立的索引。所说的数据表的字段为数据表包含的列，每列即为数据表的的一个字段，数据表的一行为一个记录，所说的索引实际上也是数据库中一种特殊类型的表，其中含有关键字段的值(由用户定义)和指向实际记录位置的指针，这些值和指针按照特定的顺序(也由用户定义)存储，从而可以以较快的速度查找到所需要的数据记录。根据本发明的一个具体实施方式中，选定原始数据信息来源为PubMed文献信息，为考虑数据来源的可靠性，支持信息皆为已发表文献，文献来源均为NCBIPubMed数据库。通过PubMed的导出功能下载txt格式文档，此文档数据包括期刊信息、标题、作者及作者信息、研究机构、摘要、著作权、PMID(PubMed文献的ID号)。接着，选取与肿瘤相关的重要基因列表，通过PubMed的搜索功能筛选此基因变异与药物相关文献。通过收集调研，我们从各种公开报道信息中收集了与肿瘤相关的基因集。这些基因与肿瘤临床治疗，肿瘤高频突变及机制通路相关。将这些收集的基因按一定的搜索条件通过PubMed的搜索功能筛选此基因变异与药物相关文献，比如，包含以下关键词：基因名称(genename)、肿瘤(cancer或tumor或neoplasms)、突变(mutation)、拷贝数(copynumber)、表达(expression)、融合(fusion)、扩增(amplication)、重排(rearrangement)、治疗(therapy)、存活(survival)、预后(prognosis)、综述(review)等，搜索式如：“(IKBKE[title/abstract]OR"IKK-epsilon"[title/abstract])(cancer[title/abstract]ORneoplasms[title/abstract]ORtumor[title/abstract]ORcarcinoma[title/abstract]ORsarcoma[title/abstract])(mutation[title/abstract]OR"copynumber"[title/abstract]ORexpression[title/abstract]ORfusion[title/abstract]ORamplication[title/abstract]orrearrangement[title/abstract])(therapy[title/abstract]ORsurvival[title/abstract]ORprognosis[title/abstract]ORtreatment[title/abstract]ORsensitive[title/abstract]ORresistant[title/abstract]ORoutcome[title/abstarct])NOTreview[pt]”，另外还可利用截词符等进一步扩宽命中范围，比如检索“neoplasm*”能得到出现neoplasm和neoplasms任一词的文献。从命中篇目中挑选出可录入数据的文章，设定数据库文章的录入标准如下，必需包含：(1)文章中有此基因的变异信息，变异包括核苷酸变异，单核苷酸多态性，基因插入缺失，拷贝数变异，基因融合这6种情况；(2)此种基因变异有对应的药物治疗或反应，药物包括靶向药物，化疗药物，激素药物，抗体药物，放疗药物，疫苗等，在文章中的药物名称可为已命名的药物名，也可为研发阶段的药物编号；(3)在文章中此项研究与某种癌症相关，包括肿瘤临床实验，肿瘤组织回顾性研究，动物体内实验或体外细胞实验；(4)基因变异与药物有明确的作用关系，药物关系包括：药物敏感，药物抗性，有反应，无反应等。从上述各种实施方式方法中，可以看出根据本发明的这一方法构建的数据库包含基因变异类型多，构建的数据库收集的基因的变异信息包含了目前DNA，RNA检测的多种变异类型，包括了核苷酸/氨基酸点突变，核苷酸/氨基酸的插入缺失，基因的拷贝数变异，单核苷酸或基因的多态性，基因融合，基因表达量的变异等。覆盖实验研究的全部基因的变异信息。不同基因变异还详细记录了变异程度，如拷贝数变异的比率、表达量变异的程度。基于目前实验研究的有一些基因表达量的变化是基于蛋白表达水平检测的，我们将这类数据也收录数据库，同时对检测方法信息也做了详细记录。这些基因变异类型、检测类型及变异范围的信息在最大程度上反映了药物试验适用范围，为个体化治疗检测的基因变异类型提供了全面信息支持，使用者参照此信息能做出最合适的判断。也可以看出，根据本发明的这一实施方式构建的数据库包含的药物种类全面，药物的信息包含了Drugbank，Clinicaltrails，FDA已批准药物等多个数据来源，同时通过治疗方法等词汇补充进行搜索，使数据库收集的药物涵盖了靶向、化疗、激素、疫苗、放疗及代谢等多种类型。数据包括了FDA批准药物，NCCN推荐药物，临床实验药物及还未进入临床的实验药物的信息。数据库中的药物信息可以涵盖目前研究的所有药物类型。还有，构建得的数据库适应癌症种类多，此数据库通过Clinicaltrials数据库，及NCBIMESH的肿瘤词汇同义词，肿瘤词汇词库等多个肿瘤词汇的搜索能够收集目前所有癌症基因变异与用药关系的信息，其中还包括一些罕见或是研究稀少的肿瘤信息。一旦有这些肿瘤信息的发布，数据库自动化更新流程就能将这些研究数据收集起来。

在本发明的一个具体实施方式中，在接收所述初始数据时，对所述初始数据进行筛选和/或格式转换，所述筛选包括第一筛选和第二筛选。根据本发明的一个具体实施方式，所述第一筛选为筛选出所述初始数据中的符合第一参数的数据，所述第一参数是通过统计所述初始数据中包含的第一关键词组合中各关键词出现的次数N来设置的，所述第一关键词组合包含以下四个预置词汇集中的每个预置词汇集中的至少一个词汇：预置的肿瘤名称词汇集、预置的基因变异词汇集、预置的药物和治疗方法词汇集、以及预置的药效或治疗效果词汇集。对未被所述第一筛选筛选出的初始数据进行第二筛选，从剩余的初始数据中筛选出符合第二参数的数据，所述第二参数是通过统计所述初始数据中包含的第二关键词组合中各关键词出现的次数M来设置的，所述第二关键词组合包含以下五个预置词汇集中的每个预置词汇集中的至少一个词汇：预置的肿瘤名称词汇集、预置的基因变异词汇集、预置的药物和治疗方法词汇集、预置的药效或治疗效果词汇集以及预置的期刊词汇集，所述第二关键词组合包含所述第一关键词组合中的每个关键词，其中，M和N为两个自然数集合，对于同一关键词i，Mi＜Ni。在本发明中，第一参数也称为严格参数，第二参数也成为宽松参数，通过严格参数筛选原始数据得到敏感度相对高的第一步结果，将未被第一筛选筛选出的原始数据文献进行宽松筛选得到第二步结果。依据上述说的录入标准对经第一和第二筛选筛选出的数据进行录入。

在本发明的一个具体实施方式中，上述的各个预置词汇集是通过收集已知数据库、文献中的名称，包括统称命名的、全称、简称、同义词及其它符号代码等书写方式，来获得的。比如预置的肿瘤(癌症)名称词汇集：包括各种癌症的全称，简称及其他书写方式。同时也包括肿瘤统称的各种命名。癌症参数的范围来自于收集文献中肿瘤、clinicaltrials.gov数据库中的肿瘤、PubMedMESH中的肿瘤等；预置的基因变异词汇集包括基因碱基及氨基酸变异，单核苷酸或基因多态性，基因拷贝数，基因插入缺失，基因融合，基因表达量相关的变异类型；药物及治疗方法：包括已批准的药物名称(含商品名)，研发阶段的药物名称或代号，一种抑制剂或拮抗剂的总称及肿瘤治疗方法；预置的药物和治疗方法词汇集包括基因变异对应药物的药效，包括基因是否反应，细胞是否减少，药物敏感，药物抗性，生存期等词汇；预置的期刊词汇集包含与肿瘤研究相关的专门期刊，包含肿瘤研究的大型或综合期刊，期刊名称按PubMed数据库的期刊名整理。在本发明的一个具体实施方式中，将初始数据，这边是指用少数关键词比如肿瘤名称、基因名称等在一个或多个数据库检索收集的文献，将这些文献的标题，期刊，作者，摘要信息提出建立词频统计表，具体地，将文献按NCBIPubMed下载模式重新整理成txt文档。将这些文献标题、摘要的内容建立词汇频率表，词汇频率包括每个词汇总共出现的次数及出现文章的数目。审核词汇频率表中出现的次数(至少要在一篇文章中出现)，筛选出各个预置词汇集的词频参数范围。在本发明的一个具体实施方式中，也同时统计clinicaltrials数据库内容，补充预置肿瘤名称词汇集调整其参数范围。具体地，参考clinicaltrials.gov网站中“SeeStudiesbyTopic”的CancersandOtherNeoplasmsCategory的肿瘤类型，和/或统计PubMedMESH查询“tumor”“cancer”同类词汇，补充该预置肿瘤词汇集及调整其参数范围。在本发明的一个具体实施方式中，预置的肿瘤名称词汇集第一参数范围是词频大于5且出现的文章的数目大于2或者，词频大于5且在所参考的网站或数据库出现的次数大于1，第二参数范围是词频大于1且出现的文章的数目大于1或者，词频大于5且在所参考的网站或数据库出现的次数大于等于1。在本发明的一个具体实施方式中，统计Drugbank数据库抗肿瘤药物(不包含治疗并发症药物)，和/或clinicaltrials数据库，和/或FDA批准的抗肿瘤药物信息，补充预置的药物及治疗方法词汇集及调整其参数范围。在本发明的一个具体实施方式中，预置的药物及治疗方法词汇集的第一参数范围是词频大于5且出现的文章的数目大于2或者，词频大于5且在所参考的网站或数据库出现的次数大于1，第二参数范围是词频大于1且出现的文章的数目大于1或者，词频大于5且在所参考的网站或数据库出现的次数大于等于1。

在本发明的一个具体实施方式中，所说的格式转换为，以NCBI基因数据库中包含的基因标识为标准转换所述初始数据中的基因名称，包括将核苷酸\氨基酸点突变或插入缺失、表达量变异，拷贝数变异及基因融合变异信息内容统一规范化处理，比如以人类参考基因组hg19版本为标准转换所述初始数据中的变异的类型及位置信息，其中，基因组也可根据需要选择不同版本，默认基因组版本为UCSC人类基因组的hg19。上述格式转换过程可通过编程自动化实现。在本发明的一个具体实施方式中，所说的数据格式转换还包括：将录入的文献中的表达量变化信息转换为与信息分析结果对应的标准描述，比如表达量信息分析结果为肿瘤细胞表达量与正常细胞表达量比值的log2数值，即将文章中肿瘤细胞中基因其达量数值统一换算成与正常细胞基因表达量比值的log2的值；和/或将录入的文献中的拷贝数变异信息转换为与信息分析结果对应的标准描述，比如，拷贝数变异的信息分析结果为肿瘤细胞中基因拷贝数与正常细胞基因拷贝数的比值，可通过自动化流程或脚本将文章中的肿瘤细胞基因拷贝数值统一换算为为肿瘤细胞与正常细胞基因拷贝数的比值；和/或将录入文献中的基因变异用药效果的原文信息转换为与解读流程直接对应的标准描述，比如文章中的描述通常为一段详细的描述，将具有“goodoutcome”(结果好)，“longsurvival”(生存期长)，“goodprognesis”(预后好)，“sensitive”(敏感)，“goodresponse”(反应好)一类的信息转换成药效好的描述“变异阳性敏感”及其标识符号“S”；将具有“badoutcome”(结果不好)，“shortsurvival”(生存期短)，“badprognesis”(预后不好)，“resistant”(耐药)，“toxicity”(具有毒性)，“badresponse”(反应不好)一类的信息转换成用药效不好的描述“变异阳性耐药”及其标识符号“R”。解读流程通过“S”和“R”来判断，给出对应的结果“变异阳性敏感”及“变异阳性耐药”。上述的各种格式或标准化可以借助自然语言处理编写脚本实现，本领域技术人员可以理解，可将上述数据格式转化过程的全部或部分过程通过程序/脚本来指令相关硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。根据本发明的这一方法的各种实施方式对数据库各类信息有统一规范的录入标准，可供各类检测数据直接调用。此数据库通过原始检测的位置信息转换成统一基因组版本的标准位置信息，及检测变异的标准描述信息。这些信息的转换有利于基于基因组检测的变异信息的直接对应，减少中间环节的误差。对药效等其他描述性信息，则同时记录了原始信息及统一标准的表述信息，这些标准化的描述信息则有利于信息的直接输出和调用。

在本发明的一个具体实施方式中，将文献信息录入数据库，每种变异类型的条目信息有对应编号及状态，录入时自动生成流水编号及状态。对数据库内容更新时，条目状态依据需要改变，信息则保留。

依据以上本发明方法的各种实施方式，可以得到一个具有可靠信息来源，信息条目(记录)全面，拥有标准的录入格式的数据库，极大提高对数据信息的合理、全面、准确以及适用性。面对飞速发展的基因检测技术，它能实现快速、高效率、准确的给个体化肿瘤治疗提供有效的解读信息。

在本发明的一个具体实施方式，所述基因变异数据表与基因变异-药物关系数据表的相同字段是所述基因变异数据表的主键，所述药物数据表与基因变异-药物关系数据表的相同字段是所述药物数据表的主键，数据表的主键为能够唯一标识其所在数据表中的一个记录的一个或多个字段的组合。数据表中的一行为一个记录。数据库中的数据表之间通过主键与外键形成关系得以关联，对于A表、B表和共同字段C，若C是B表的主键，则称C为A表的外键。图1为根据该具体实施方式方法构建的数据库结构ER图，ER图也称实体-联系图(EntityRelationshipDiagram)，提供了表示实体类型、属性和联系的方法，用来描述现实世界的概念模型。在图1中，在一个数据表中，钥匙标识的是主键，黑点标识的是外键，用以关联主键的表。没有外键的表一般是边缘端的，即处在表关系中的末端。

在本发明的一个具体实施方式中，如图1所示，所述数据文件还包括基因信息数据表、信息原始来源数据表和样本信息数据表，所述基因信息数据表与所述基因变异数据表有相同字段，所述信息原始来源数据表与所述基因变异-药物关系数据表有相同字段，所述样本信息数据表与所述基因变异数据表有相同字段。在本发明的一个具体实施方式中，所述基因信息数据表与基因变异数据表的相同字段是所述基因信息数据表的主键，所述信息原始来源数据表与基因变异-药物关系数据表的相同字段是所述信息原始来源数据表的主键，所述样本信息数据表与基因变异数据表的相同字段是所述样本信息数据表的主键。这边所说的某表的主键同时也是具有该相同字段的数据表的外键，该数据库中的各个数据表之间通过相同字段，或键和外键得以关联，建立联系。在本发明的一个具体实施方式中，利用MySQL软件进行数据库组建，每个数据表的主键自动形成索引。

在本发明的一个具体实施方式中，所述基因变异数据表和/或基因信息数据表中包含以下基因的记录：ABL1、APC、ARID2、AURKA、BCL2、BLM、BTK、CCND2、CDC73、CDK8、CEBPA、CRKL、CTNNB1、EGFR、EPHB1、ESR1、FANCC、FANCL、FGF23、FGFR2、FLT4、GID4、GPR124、IDH1、IL7R、JAK2、KDM5C、KLHL6、MAP2K4、MED12、MLH1、MSH2、MYCL1、NFE2L2、NPM1、NUP93、PDGFRA、PIK3R1、PRKDC、RAD51、RICTOR、SF3B1、SMO、SPOP、SUFU、TOP1、VHL、ZNF703、AKT1、AR、ASXL1、AURKB、BCL2L2、BRAF、CARD11、CCND3、CDH1、CDKN1B、CHEK1、CRLF2、DAXX、EMSY、ERBB2、EZH2、FANCD2、FBXW7、FGF3、FGFR3、FOXL2、GNA11、GRIN2A、IDH2、INHBA、JAK3、KDM6A、KRAS、MAP3K1、MEF2B、MLL、MSH6、MYCN、NFKBIA、NRAS、PAK3、PDGFRB、PIK3R2、PTCH1、RAF1、RNF43、SMAD2、SOCS1、SRC、TET2、TP53、WISP3、BRCA1、AKT2、ARAF、ATM、AXL、BCL6、CSF1R、CBFB、CCNE1、CDK12、CDKN2A、CHEK2、FGF10、DDR2、EP300、ERBB3、FAM123B、FANCE、IGF1R、FGF4、FGFR4、GATA1、GNA13、GSK3B、MEN1、IRF4、JUN、KDR、LRP1B、MCL1、PALB2、MLL2、MTOR、MYD88、NKX2-1、NTRK1、SMAD4、PDK1、PPP2R1A、PTEN、RARA、RPTOR、BRCA2、SOX10、STAG2、TGFBR2、TSC1、WT1、CTCF、AKT3、ARFRP1、ATR、BAP1、BCOR、FGF14、CBL、CD79A、CDK4、CDKN2B、CIC、IKBKE、DNMT3A、EPHA3、ERBB4、FAM46C、FANCF、MET、FGF6、FLT1、GATA2、GNAQ、HGF、PAX5、IRS2、KAT6A、KEAP1、MAP2K1、MDM2、SMARCA4、MPL、MUTYH、NF1、NOTCH1、NTRK2、BRIP1、PIK3CA、PRDM1、PTPN11、RB1、RUNX1、CTNNA1、SOX2、STAT4、TNFAIP3、TSC2、XPO1、FGF19、ALK、ARID1A、ATRX、BARD1、BCORL1、IKZF1、CCND1、CD79B、CDK6、CDKN2C、CREBBP、MITF、DOT1L、EPHA5、ERG、FANCA、FANCG、PBRM1、FGFR1、FLT3、GATA3、GNAS、HRAS、SMARCB1、JAK1、KDM5A、KIT、MAP2K2、MDM4、MRE11A、MYC、NF2、NOTCH2、NTRK3、PIK3CG、PRKAR1A、RAD50、RET、SETD2、SPEN、STK11、TNFRSF14、TSHR和ZNF217。这些基因及其相关变异基本覆盖了目前已知的变异与疾病、药物的关系中的基因信息。

根据本发明的另一实施方式，提供一种数据库，该数据库能够提供基因变异与药物关系信息，该数据库是通过本发明一方面的方法构建获得的。本发明的这一实施方式的数据库将检测基因变异的信息与实验研究的基因变异与药物的关系紧密连接起来，将个体化肿瘤的治疗由传统的分型推进到分子分型的解决方案中，给医生患者及各类使用者提供更加精确的用药信息。本发明的数据库结构设计合理，包含信息全面，适用于各方面使用需求。数据库的架构设计包含了实验研究的重要信息，包括基因变异的信息，基因变异对应的药物信息，药物治疗或反应的效果，病人样本信息，生存期，期刊信息等。一方面这些实验研究根据实验对象，样本数量，实验结果显著性，发表文献期刊类型可分为不同的可信等级，使用者可根据需要选择不同的信息的阈值对基因变异对应的药物进行选择。另一方面依据数据库包含的各类信息我们对于信息的可信度采用了统一的标准进行界定，同时也依据临床实验的标准制定了本数据库的分级规则。此标准能很好的反应数据库的可信度，为使用者提供更好的参考信息。再者，本发明的数据库构建过程中数据来源可靠，且具有可实时更新的特性。比如，数据库的来源信息选择的是实验研究的文献信息，直接来源为NCBIPubMed数据库文献数据，此数据库包含了发表文献的标题，摘要，作者信息，这部分数据可供直接下载。PubMed会按文献发表时间更新数据内容，定期下载PubMed数据库文献可定期获得选定时间段发表的文献，通过自动化更新流程则能实现数据库内容的不断更新。由于对原始数据及更新数据的筛选和过滤，得自该数据库的结果精确，比如，数据库自动更新流程结合了多个标准参数对数据搜索筛选，参数内容也会依据不同来源不断更新，使筛选出的文献敏感性及精确性都较高，为数据库的补充内容提供了更多的有用信息。同时对需录入的信息采用严格的控制标准，对需要录入的数据都会经过严格的审核，并且对数据库的任何修改都会有相应的记录查询。再者，对本发明一方面的数据库构建方法的技术特征和优点的描述也同样适用于该数据库，在此不再赘述。

根据发明的再一实施方式，提供上述本发明的数据库在确定基因变异与药物关系中的用途，供于对变异检测结果是否与疾病相关的解读。对本发明一方面的数据库构建方法和或数据库的技术特征和优点的描述也同样适用于该用途，在此不再赘述。

根据本发明的又一实施方式，提供一种自动更新数据库数据的方法，在通过本发明一方面的方法获得数据库之后，该自动更新方法包括：接收基因变异和疾病关系的更新数据；将所述更新数据辨识为所述初始数据的副本；修改所述数据文件中的记录，以便包含所述更新数据。在本发明的一个具体实施方式中，在接收所述更新数据时，对所述更新数据进行过滤，所述过滤包括第一过滤和第二过滤，所述第一过滤为将更新数据中的每条数据的肿瘤名称、基因变异类型、药物名称和治疗方法、以及治疗效果描述分别与所述预置的肿瘤词汇集、预置的基因变异词汇集、预置的药物和治疗方法词汇集以及预置的药效或治疗效果词汇集比对，完全匹配上的数据保留至第一数据集，匹配上所述四个预置词汇集中的三个的数据保留至第二数据集，弃去其它的更新数据；所述第二过滤为将所述第二数据集数据的每条数据的期刊名称与预置的期刊词汇集比对，将完全匹配上的第二数据集中的数据归到第一数据集，弃去其它的第二数据集数据。上述实施方式的数据自动更新方法、过滤等的全部或部分步骤可以通过程序来指令相关硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。该数据库数据自动更新方法，可将科学研究发表的文献或其他类型的文件经过自动化流程筛选后定期加入到数据库中，使数据库内容不断补充修正。

根据本发明的一个实施方式，还提供基因变异与药物关系信息的数据库的构建装置，用于执行实现本发明一方面的数据库构建方法的全部或部分步骤，如图2所示，该装置包括：数据接收单元，用于接收基因变异和药物关系的初始数据；数据输出单元，用于输出数据库记录；存储单元，用于存储数据，包括可执行的程序；处理器，与所述数据输入单元、数据输出单元及存储单元连接，用于执行所述可执行的程序，所述程序的执行包括完成本发明一方面的数据库构建方法的全部或部分步骤。对本发明一方面的数据库构建方法的技术特征或优点的描述也同样适用于该装置，在此不再赘述。

根据发明的最后一个实施方式，提供一种数据库系统，该数据库系统包含的数据库能够提供基因变异与药物关系信息，该系统包括：应用程序接口，用于接收用户检索需求及反馈结果；数据库，用于对来自应用程序接口的用户检索需求的关键词特征进行匹配，将匹配结果输出至应用程序接口，所述数据库是利用本发明一方面的数据库构建方法构建获得的。在本发明的一个具体实施方式中，如图3所示，在从应用程序接口接收用户检索需求后，利用访问控制列表对所述用户检索需求信息进行检查以控制访问，以进一步管理该数据库系统。在本发明的一个具体实施方式中，在构建该数据库系统时，将该系统构建分为三个模块来构建和关联，三个模块分别为后台数据库，权限管理及应用程序接口(API)，权限管理是通过访问控制列表(ACL)实现的，用户通过API提供数据需求，由ACL检查接口，该接口一旦激活以后，则针对进出应用程序接口的每一个数据特征进行匹配，决定该需求被允许通过还是拒绝，从而达到访问控制的目的，最终API从后台数据库服务中查询数据并反馈给用户。这边，所说的后台数据库为根据本发明一个实施方式的数据库构建方法获得的。

利用本发明的数据库构建方法获得的数据库和/或数据库系统，能够提供全面的基因变异与药物关系的信息，而且对原始数据进行筛选及统一标准处理，使得所得的数据库信息准确可靠、规范标准，利于信息传递以及数据库的管理，能够用于解读通过各种方式得来的基因变异信息以及查获药物与基因变异的关系信息。利用本发明的实施方式的数据库数据更新方法，能够自动将后续收集到的各种文献资料加入到已构建的数据库中，使数据库的数据得到不断或定期补充修正。本发明的数据库或数据库系统用来记录目前已有的基因变异对应的药物关系信息。这些信息包括药物的作用效果，基因变异信息，药物信息，样本信息和文献信息等。该数据库解决了目前肿瘤数据库在个体化治疗上信息不确切，信息不全面，及标准不一致等问题。使测序检测数据与实验证据来源的基因变异药物关系直接承接，达到信息传递的目的。

实施例

如图4和图5所示，展示了以肿瘤个体化治疗数据库的构建，也展示了数据库自动化更新方法的筛选流程及结果，包括以下步骤：

1.肿瘤个体化治疗解读数据库的构建

在本发明的具体实施方式中，共收集现有的全部与肿瘤用药密切相关的重要基因236个，基因列表详见表1。这些基因变异与肿瘤药物干预的治疗效果密切相关。将这些收集的基因通过步骤五中的搜索条件在PubMed数据库搜索并人工筛选出此基因变异与药物反应相关文献。将基因的变异信息，对应的药物，药物干预效果及肿瘤类型等按照数据库的录入标准及格式整理到数据库中。具体包括以下步骤：

(1)收集肿瘤用药相关的基因和变异信息及对应的药物治疗效果等信息

通过查询PubMed数据库收集现有的236个基因的变异信息及其对应的药物治疗效果等信息。这些信息包括基因的名称、基因的变异情况、对应的药物、药物治疗效果、参考文献和肿瘤类型等。

表1基因列表

(2)将变异位点信息转换成hg19上对应位置信息

对数据库的内容统一规范化处理。将录入文献中的变异位点信息转换成对应基因组版本(hg19)的染色体上对应位置信息。

(3)数据的录入及复核

按照数据库的录入格式要求整理各类信息，注意需将文献中录入的基因名转换为NCBIgene的官方名称，具体示例如表2所列，录入完成后再复核结果的正确性。

表2肿瘤个体化治疗解读数据库信息(部分)

数据库的自动化更新

数据库自动化更新流程可以通过多种类型关键词参数匹配的方式对PubMed文献数据库输出的标准txt文档按数据库录入需求进行筛选过滤，能够有效的筛选出基因变异与肿瘤用药相关的文献，为数据可持续定期更新提供可靠的信息来源。本实例选取了471篇文献进行流程过滤筛选，审核和最终录入。

下面对数据库自动化更新流程文件及自动化更新流程输出结果说明：

PCTdb_AU_V1是由Perl编写的数据库自动化更新流程的打包文件，内含标准的输入文件夹input、输出文件夹output、运行流程的文件夹(bin)、调用数据参数的文件夹(lib)及流程说明文件(readme)等。

pubmed_result.txt是用pubmed数据库自动导出的包含文献摘要等信息的文档。

data.correct.1.xls是第一次过滤后流程筛选的可录入数据库文献的id、期刊、出版日期、PMID和各类参数筛选出的具体词汇。

data.correct.2.xls仅包含第一次过滤后流程筛选的可录入数据库文献的id、期刊、出版日期和PMID。

data.error.1.xls是第一次过滤后流程筛选的不可录入数据库文献的id、期刊、出版日期、PMID和各类参数筛选出的具体词汇。

data.error.2.xls仅包含第一次过滤后流程筛选的不可录入数据库文献的id、期刊、出版日期、PMID和缺少的词汇类型。

inaccurate.xls是第一次过滤后流程筛选的不可录入数据库且仅筛选出三类参数文献的id、期刊、出版日期和PMID。

inaccurate.data.correct.1.xls是第二次过滤后流程筛选的可录入数据库文献的id、期刊、出版日期、PMID和各类参数筛选出的具体词汇。

inaccurate.data.correct.2.xls仅包含第二次过滤后流程筛选的可录入数据库文献的id、期刊、出版日期和PMID。

inaccurate.data.error.1.xls是第二次过滤后流程筛选的不可录入数据库文献的id、期刊、出版日期、PMID和各类参数筛选出的具体词汇。

inaccurate.data.error.2.xls仅包含第二次过滤后流程筛选的不可录入数据库文献的id、期刊、出版日期、PMID和缺少的词汇类型。

2.1自动化更新流程筛选的步骤

第一步过滤：

(1)将选择测试的471篇文献导出的pubmed_result.txt上传到大型机input文件夹后在PCTdb_AU_V1目录下执行流程。

(2)将导入的pubmed_result.txt文档通过四类严格的参数(肿瘤词汇参数、药物及治疗方法词汇参数、基因突变词汇参数和治疗效果词汇参数)筛选，四类参数完全匹配的输出到data.correct.1.xls和data.correct.2.xls，不完全匹配的输出到data.error.1.xls和data.error.2.xls。此外，仅三类参数匹配的再另输出一个文件inaccurate.xls用于二步过滤时调用。该步骤筛选出真阳性结果的准确度较高，可以满足大部分的更新需求。

第二步过滤是：

(3)调用pubmed输出的pubmed_result.txt文档，将第一步过滤结果中满足仅三类参数匹配的文献，经四类宽泛的参数过滤，最后再通过期刊词汇参数进行过滤。完全匹配的输出到文件inaccurate.data.correct.1.xls和inaccurate.data.correct.2.xls，不完全匹配的输出到文件inaccurate.data.error.1.xls和inaccurate.data.error.2.xls。这步过滤的结果可作为第一步过滤的补充结果。精确度相对于第一步结果较低，但可以保证不遗漏可录入的文献。

2.2自动化更新筛选流程的评价标准及筛选结果

(1)评价标准

供筛选的文献中有379真阳性文献，92篇真阴性文献。筛选结果依据以下公式进行评价：

①灵敏度(TPR)

TPR＝TP/P＝TP/(TP+FN)

②精确度(PPV)

PPV＝TP/(TP+FP)

③阴性预测值(NPV)

NPV＝＝TN/(TN+FN)

④特异度(SPC)

SPC＝TN/(FP+TN)

⑤准确度(ACC)

ACC＝(TP+TN)/(P+N)

根据公式分别计算流程自动化筛选的灵敏度、精确度、阴性预测值、特异度和准确度。

(2)筛选结果

如表3所示，471篇文献经第一步过滤后可筛选出361篇文献，其中有355篇真阳性文献，有6篇假阳性文献。对第一步流程未过滤出的24篇真阳性文献采用第二步过滤流程筛选，结果第二步过滤流程可筛选出11篇真阳性文献，剩下13篇真阳性文献未能筛选出。流程对于这471篇文献的筛选效率分别用以上公式进行计算。

表3

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.基因变异与药物关系信息的数据库的构建方法，其特征在于，包括：

接收基因变异和药物关系的初始数据；

建立相应于所述初始数据的数据文件，所述数据文件包括基因变异数据表、药物数据表、以及基因变异-药物关系数据表，其中，

所述基因变异数据表、药物数据表以及基因变异-药物关系数据表的每一个分别含有多个字段，

所述基因变异数据表和所述药物数据表分别具有与所述基因变异-药物关系数据表相同字段，以及

所述基因变异数据表、药物数据表以及基因变异-药物关系数据表的每一个分别含有索引，所述索引是基于相应的数据表中所包含的每个字段确定的。

2.权利要求1的方法，其特征在于，在接收所述初始数据时，对所述初始数据进行筛选和/或格式转换，所述筛选包括第一筛选和第二筛选，

所述第一筛选为筛选出所述初始数据中的符合第一参数的数据，所述第一参数是通过统计所述初始数据中包含的第一关键词组合中各关键词出现的次数N来设置的，所述第一关键词组合包含以下四个预置词汇集中的每个预置词汇集中的至少一个词汇：预置的肿瘤名称词汇集、预置的基因变异词汇集、预置的药物和治疗方法词汇集、以及预置的药效或治疗效果词汇集，

对未被所述第一筛选筛选出的初始数据进行第二筛选，从剩余的初始数据中筛选出符合第二参数的数据，所述第二参数是通过统计所述初始数据中包含的第二关键词组合中各关键词出现的次数M来设置的，所述第二关键词组合包含以下五个预置词汇集中的每个预置词汇集中的至少一个词汇：预置的肿瘤名称词汇集、预置的基因变异词汇集、预置的药物和治疗方法词汇集、预置的药效或治疗效果词汇集以及预置的期刊词汇集，所述第二关键词组合包含所述第一关键词组合中的每个关键词，其中，

M和N为两个自然数集合，对于同一关键词i，M_i＜N_i；

所述格式转换为，以NCBI基因数据库中包含的基因标识为标准转换所述初始数据中的基因名称，以人类参考基因组hg19版本为标准转换所述初始数据中的基因变异的类型及位置。

3.权利要求1的方法，其特征在于，所述基因变异数据表与基因变异-药物关系数据表的相同字段是所述基因变异数据表的主键，所述药物数据表与基因变异-药物关系数据表的相同字段是所述药物数据表的主键，数据表的主键为能够唯一标识其所在数据表中的一个记录的一个或多个字段的组合。

4.权利要求1的方法，其特征在于，所述数据文件还包括基因信息数据表、信息原始来源数据表和样本信息数据表，

所述基因信息数据表与所述基因变异数据表有相同字段，所述信息原始来源数据表与所述基因变异-药物关系数据表有相同字段，所述样本信息数据表与所述基因变异数据表有相同字段。

5.权利要求4的方法，其特征在于，所述基因信息数据表与基因变异数据表的相同字段是所述基因信息数据表的主键，

所述信息原始来源数据表与基因变异-药物关系数据表的相同字段是所述信息原始来源数据表的主键，

所述样本信息数据表与基因变异数据表的相同字段是所述样本信息数据表的主键。

6.权利要求1的方法，其特征在于，所述基因变异数据表和/或基因信息数据表中包含以下基因的记录：ABL1、APC、ARID2、AURKA、BCL2、BLM、BTK、CCND2、CDC73、CDK8、CEBPA、CRKL、CTNNB1、EGFR、EPHB1、ESR1、FANCC、FANCL、FGF23、FGFR2、FLT4、GID4、GPR124、IDH1、IL7R、JAK2、KDM5C、KLHL6、MAP2K4、MED12、MLH1、MSH2、MYCL1、NFE2L2、NPM1、NUP93、PDGFRA、PIK3R1、PRKDC、RAD51、RICTOR、SF3B1、SMO、SPOP、SUFU、TOP1、VHL、ZNF703、AKT1、AR、ASXL1、AURKB、BCL2L2、BRAF、CARD11、CCND3、CDH1、CDKN1B、CHEK1、CRLF2、DAXX、EMSY、ERBB2、EZH2、FANCD2、FBXW7、FGF3、FGFR3、FOXL2、GNA11、GRIN2A、IDH2、INHBA、JAK3、KDM6A、KRAS、MAP3K1、MEF2B、MLL、MSH6、MYCN、NFKBIA、NRAS、PAK3、PDGFRB、PIK3R2、PTCH1、RAF1、RNF43、SMAD2、SOCS1、SRC、TET2、TP53、WISP3、BRCA1、AKT2、ARAF、ATM、AXL、BCL6、CSF1R、CBFB、CCNE1、CDK12、CDKN2A、CHEK2、FGF10、DDR2、EP300、ERBB3、FAM123B、FANCE、IGF1R、FGF4、FGFR4、GATA1、GNA13、GSK3B、MEN1、IRF4、JUN、KDR、LRP1B、MCL1、PALB2、MLL2、MTOR、MYD88、NKX2-1、NTRK1、SMAD4、PDK1、PPP2R1A、PTEN、RARA、RPTOR、BRCA2、SOX10、STAG2、TGFBR2、TSC1、WT1、CTCF、AKT3、ARFRP1、ATR、BAP1、BCOR、FGF14、CBL、CD79A、CDK4、CDKN2B、CIC、IKBKE、DNMT3A、EPHA3、ERBB4、FAM46C、FANCF、MET、FGF6、FLT1、GATA2、GNAQ、HGF、PAX5、IRS2、KAT6A、KEAP1、MAP2K1、MDM2、SMARCA4、MPL、MUTYH、NF1、NOTCH1、NTRK2、BRIP1、PIK3CA、PRDM1、PTPN11、RB1、RUNX1、CTNNA1、SOX2、STAT4、TNFAIP3、TSC2、XPO1、FGF19、ALK、ARID1A、ATRX、BARD1、BCORL1、IKZF1、CCND1、CD79B、CDK6、CDKN2C、CREBBP、MITF、DOT1L、EPHA5、ERG、FANCA、FANCG、PBRM1、FGFR1、FLT3、GATA3、GNAS、HRAS、SMARCB1、JAK1、KDM5A、KIT、MAP2K2、MDM4、MRE11A、MYC、NF2、NOTCH2、NTRK3、PIK3CG、PRKAR1A、RAD50、RET、SETD2、SPEN、STK11、TNFRSF14、TSHR和ZNF217。

7.权利要求1-6任一方法，其特征在于，还包括：

接收基因变异和药物关系的更新数据；

将所述更新数据辨识为所述初始数据的副本；

修改所述数据文件中的记录，以便包含所述更新数据。

8.权利要求7的方法，其特征在于，在接收所述更新数据时，对所述更新数据进行过滤，所述过滤包括第一过滤和第二过滤，

所述第一过滤为将更新数据中的每条数据的肿瘤名称、基因变异类型、药物名称和治疗方法、以及治疗效果描述分别与所述预置的肿瘤词汇集、预置的基因变异词汇集、预置的药物和治疗方法词汇集以及预置的药效或治疗效果词汇集比对，完全匹配上的数据保留至第一数据集，匹配上所述四个预置词汇集中的三个的数据保留至第二数据集，弃去其它的更新数据，

所述第二过滤为将所述第二数据集数据的每条数据的期刊名称与预置的期刊词汇集比对，将完全匹配上的第二数据集中的数据归到第一数据集，弃去其它的第二数据集数据。

9.一种数据库，其能够提供基因变异与药物关系信息，其由权利要求1-8任一方法构建获得。

10.权利要求9的数据库在确定基因变异与药物关系中的用途。

11.基因变异与药物关系信息的数据库的构建装置，其特征在于，包括：

数据接收单元，用于接收基因变异和药物关系的初始数据；

数据输出单元，用于输出数据库数据；

存储单元，用于存储数据，其中包括可执行的程序；

处理器，与所述数据输入单元、数据输出单元及存储单元连接，用于执行所述可执行的程序，所述程序的执行包括完成权利要求1-8任一方法。

12.数据库系统，所述数据库系统包含的数据库能够提供基因变异与药物关系信息，其特征在于，包括：

应用程序接口，用于接收用户检索需求及反馈结果；

数据库，用于对来自应用程序接口的用户检索需求数据特征进行匹配，将匹配结果输出至应用程序接口，所述数据库利用权利要求1-8任一方法构建获得。

13.权利要求12的数据库系统，其特征在于，在接收用户检索需求后，利用访问控制列表对所述用户检索需求信息进行检查以控制访问。