CN110364266A

CN110364266A - 用于指导临床肿瘤个体化用药的数据库及其构建方法和装置

Info

Publication number: CN110364266A
Application number: CN201910574338.0A
Authority: CN
Inventors: 杨洁; 杨露; 陈丽; 王鹏; 何雨鸣; 李淼; 唐俊; 刘一洋
Original assignee: Shenzhen Yulce Biological Technology Co Ltd
Current assignee: Shenzhen Yulce Biological Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-22

Abstract

一种用于指导临床肿瘤个体化用药的数据库及其构建方法、检索方法和装置。数据库构建方法包括：获取与肿瘤化疗、靶向和免疫用药指导相关的生物标志物等信息的公共数据资源；对公共数据资源进行筛选和分类，得到生物标志物信息的关键字段及属性；对临床证据信息进行等级归类和划分；建立与肿瘤化疗、靶向和免疫相关的生物标志物的解读数据库结构框架；以及，将关键字段对应的信息录入到数据库结构框架的相应字段位置，得到用于指导临床肿瘤个体化用药指导的数据库。本方法综合考虑高通量测序、免疫组化等检测技术检测到的多个层面的生物标志物，覆盖肿瘤化疗、靶向和免疫用药指导等方面的信息，为临床医学指导肿瘤个体化用药做好知识资源储备。

Description

用于指导临床肿瘤个体化用药的数据库及其构建方法和装置

技术领域

本发明涉及精准医疗技术领域，具体涉及一种用于指导临床肿瘤个体化用药的数据库及其构建方法、检索方法和装置。

背景技术

随着人类基因组计划的完成，近些年来测序行业发展迅猛，测序成本呈超摩尔定律下降，中国正逐步迈进精准医疗的时代。随着基因检测指导用药被医生、患者及其家属广泛接受，市场不断扩大，越来越多的检测机构正致力于为肿瘤患者提供个体化精准治疗检测和解读服务。目前在临床上，已经有一大批患者开始接受为他们量身定制的治疗方案。

个体化精准治疗检测和解读服务的整个过程主要包括样本处理、上机测序、生物信息分析和结果解读。由于该产业属于新兴产业，解读标准仍不够完善，所以结果解读仍然是肿瘤精准治疗的瓶颈。由于对结果的解读需要海量的知识储备，近些年来，相关文献量又呈井喷式上升，人工查阅文献效率低，且及时性没有保证，如果对大量信息没有一个系统管理，很难将资源充分利用，行业急需一个资源整合型的数据库将这些信息管理起来。市面上现有数据库类型较为单一，仅对变异层面进行解读，蛋白层面鲜有涉及。

2018年，随着纳武利尤单抗、帕博利珠单抗在国内上市，以及国产免疫药物特瑞普利单抗，信迪利单抗，陆续获批，中国在2018年迎来了免疫治疗的元年。越来越多的免疫相关生物标志物(biomarker)被发现报道并伴随药物一起获批，伴随这些生物标志物在临床的认可度越来越高，部分生物标志物也被NCCN指南相继纳入。然而，目前市面上大多数机构仅针对基因变异做出的靶向用药的指导，对免疫用药进行疗效指导的相关数据库相对匮乏。

目前对于肿瘤精准用药指导的信息(化疗、靶向和免疫)存储数据库比较零散，且数据库基本提供的是基因变异与化疗或/和靶向药物之间的关系，尤其在免疫精准用药领域，目前鲜有机构汇集多种生物标志物层面(基于高通量测序、免疫组化等检测技术检测到的多个层面的生物标志物标签等)对免疫用药信息进行关联匹配，另外在相关肿瘤介绍，多种组织机构对肿瘤病理分类上标准不统一，相关化疗、靶向和免疫药物在临床肿瘤治疗中的发展情况，作用机理，毒副作用等信息没有统一数据库记录，对生物标志物具体状态与肿瘤发生发展等相关关系阐述不明确等，导致相关人员在对与肿瘤个体化用药的相关生物标志物进行解读的过程中往往需要查询多方信息。因此如何从海量信息中对关键信息进行汇总，是实现个体化精准治疗的关键。

发明内容

本发明的目的在于提供一种用于指导临床肿瘤个体化用药的数据库及其构建方法、检索方法和装置，该数据库包含基于高通量测序、免疫组化等检测技术检测到的多个层面的生物标志物。随着个体化精准治疗的发展，针对化疗、靶向和免疫在肿瘤治疗领域越来越多的生物标志物在临床试验和基础研究中得到证实，该方法对该类信息进行覆盖和记录，为临床医学指导肿瘤个体化用药做好知识资源储备，同时通过国内外相关信息和平台数据库等的综合汇总，能够为数据库使用人员实现单一平台出口，多个数据库页面信息跟踪查询工作。

根据第一方面，一种实施例中提供一种用于指导临床肿瘤个体化用药的数据库，包括：

药物信息版块，用于存储精准用药治疗相关的化疗药物、靶向药物和免疫药物信息；

相关肿瘤化疗信息版块，用于存储具体肿瘤所涉及的化疗用药信息；

肿瘤适应症信息版块，用于存储肿瘤的基本介绍信息和肿瘤类型以及肿瘤相关亚型分类信息；

基因信息版块，用于存储基因生物学功能解析描述信息；

生物标志物版块，用于存储基因变异标签、其他生物标志物标签信息；

生物标志物和药物之间的临床证据关联版块，用于存储生物标志物与化疗药物、生物标志物与靶向药物和生物标志物与免疫药物之间的临床证据关联信息；

易感性临床证据版块，用于存储遗传性肿瘤相关基因以及该类基因与肿瘤发生发展关系的信息；

临床试验版块，用于存储中国临床试验和国际临床试验数据库信息；

上述版块之间通过相同关键字段相互关联，向上述版块输入检索关键词，将上述关键词与版块中的信息进行比对，得到与上述关键词匹配的检索结果。

在优选实施例中，上述数据库还包括：

全局修改版块，用于针对需要修改的词汇进行全部数据库对该词汇的更新和覆盖；

和/或

统计版块，用于快速直观了解更新和覆盖。

根据第二方面，一种实施例中提供一种用于指导临床肿瘤个体化用药的数据库构建方法，包括：

获取公共数据资源，其包括与肿瘤化疗、靶向和免疫治疗相关的生物标志物信息、基因信息、变异信息、疾病信息、药物信息及临床证据信息；

对上述公共数据资源进行筛选和分类，确定待录入数据库中的上述信息的关键字段及属性；

按照循证医学证据等级的判断标准，对上述临床证据信息进行等级归类和划分；

建立与肿瘤个体化用药指导相关的解读数据库结构框架，其包括药物信息版块、相关肿瘤化疗信息版块、肿瘤适应症信息版块、基因信息版块、生物标志物版块、生物标志物和药物之间的临床证据关联版块、易感性临床证据版块和临床试验版块；和

按照统一的标准化录入规则将上述关键字段对应的信息录入到上述数据库结构框架的相应字段位置，得到用于指导临床肿瘤个体化用药的数据库。

在优选实施例中，上述解读数据库结构框架还包括：

和/或

统计版块，用于快速直观了解更新和覆盖。

在优选实施例中，上述药物信息版块主要包括用药治疗相关的化疗药物、靶向药物和免疫药物信息；上述相关肿瘤化疗信息版块主要包括NCCN指南、CSCO指南、WHO等相关指南中对具体肿瘤所涉及推荐的化疗用药信息；上述肿瘤适应症信息版块主要包括肿瘤的基本介绍信息和肿瘤类型以及肿瘤相关亚型分类信息；上述基因信息版块主要包括基因生物学功能解析描述信息；上述生物标志物版块主要包括基因变异标签、和其他生物标志物标签标签；上述生物标志物和药物之间的临床证据关联版块主要包括生物标志物与化疗药物、生物标志物与靶向药物和生物标志物与免疫药物之间的临床证据关联数据表；上述易感性临床证据版块主要包括遗传性肿瘤相关基因以及该类基因与肿瘤发生发展关系的信息；上述临床试验版块主要包括中国临床试验和国际临床试验数据库信息。

在优选实施例中，上述解读数据库结构框架还包括：

和/或

统计版块，用于快速直观了解更新和覆盖。

在优选实施例中，上述方法还包括：对录入的信息进行多次审核和/或修正。

在优选实施例中，上述方法还包括：将录入的信息部署在线上系统，结构化地存储，并以网站页面的形式展示，且实现线上的增删改查及统计分析功能。在优选实施例中，上述方法还包括：根据肿瘤化疗、靶向和免疫用药治疗最新研究进展，对上述数据库中的信息进行更新和/或补充。对于相关肿瘤化疗信息版块以及药物信息版块，生物标志物与药物之间的临床证据关联版块，临床试验版块，肿瘤适应症信息版块原则上保持每两周跟踪更新和补充。例如，固定更新时间可以为每个月的1日和15日各更新一次。对于生物标志物版块，基因信息版块，易感性临床证据版块，原则上可以保持每天持续跟踪更新状态，数据库信息录入人员在处理数据库未记载的解读信息时，可实时对数据库相关版块进行更新和记录。

在优选实施例中，上述方法还包括：对上述数据库设置登录访问权限及增删改查权限，同时对线上数据进行实时备份，以确保数据库的安全。

根据第三方面，一种实施例中提供一种用于指导临床肿瘤个体化用药的数据库构建装置，包括：

数据资源获取单元，用于获取公共数据资源，其包括与肿瘤化疗、靶向和免疫治疗相关的生物标志物信息、基因信息、变异信息、疾病信息、药物信息及临床证据信息；

信息筛选分类及关键字段确定单元，用于对上述公共数据资源进行筛选和分类，确定待录入数据库中的上述信息的关键字段及属性；

证据等级归类单元，用于按照循证医学证据等级的判断标准，对上述临床证据信息进行等级归类和划分；

数据库建立单元，用于建立与肿瘤个体化用药指导相关的解读数据库结构框架，其包括药物信息版块、相关肿瘤化疗信息版块、肿瘤适应症信息版块、基因信息版块、生物标志物版块、生物标志物和药物之间的临床证据关联版块、易感性临床证据版块和临床试验版块；和

关键字段录入单元，用于按照统一的标准化录入规则将上述关键字段对应的信息录入上述数据库结构框架的相应字段位置，得到用于指导临床肿瘤个体化用药的数据库。

在优选实施例中，上述解读数据库结构框架还包括：

和/或

统计版块，用于快速直观了解更新和覆盖。

根据第四方面，一种实施例中提供一种用于指导临床肿瘤个体化用药的数据库检索方法，其中，数据库是通过如第一方面的方法构建得到的数据库，上述方法包括：

向上述数据库输入检索关键词；

将上述关键词与数据库中的信息进行比对，得到与上述关键词匹配的检索结果；

输出上述检索结果。

根据第五方面，一种实施例中提供一种用于指导临床肿瘤个体化用药的数据库检索装置，其中，数据库是通过如第一方面的方法构建得到的数据库，上述装置包括：

数据输入单元，用于向上述数据库输入检索关键词；

数据比对单元，用于将上述关键词与数据库中的信息进行比对，得到与上述关键词匹配的检索结果；

数据输出单元，用于输出上述检索结果。

本发明的方法，通过利用肿瘤化疗、靶向和免疫治疗方面的研究成果和内容总结，对与治疗相关的生物标志物进行捕捉和记录，链接现有临床研究和指南共识等，形成数据库。该数据库不仅基于基因变异的角度，且涵盖其他蛋白分子，基因组学层面的相关生物标志物，能够完善市面上对免疫知识库的缺陷，同时通过对国内外临床文献及生物标志物相关信息进行记录存储，方便数据库使用人员对出现过的生物标志物进行判定分析，避免重复信息重复查询或多人判断标准不一致等情况；同时该数据库还通过对肿瘤适应症信息版块、临床试验版块、药物信息版块等多方面信息进行储存和记录，可以从多个层面经过单一平台实现信息查询等工作，极大提升了工作效率，也为后续个体化肿瘤精准用药相关报告自动化出具提供一个强大而丰富的知识储备系统。

附图说明

图1为本发明实施例中一种用于指导临床肿瘤个体化用药的数据库构建方法流程图；

图2为本发明实施例中一种用于指导临床肿瘤个体化用药的数据库构建装置结构框图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

如图1所示，本发明的一种实施例中提供一种用于指导临床肿瘤个体化用药的数据库构建方法，包括：

S101：数据查询收集

获取公共数据资源，获取与肿瘤化疗、靶向和免疫治疗相关的公共数据资源，包括与肿瘤治疗相关的化疗、靶向、免疫治疗相关的生物标志物信息、基因信息、变异信息、疾病信息、药物信息及临床证据相关临床证据信息。

生物标志物具体而言，全面检索国际、国内公认的公共数据库(如NCBI、COSMIC、FDA、NMPA、PubMed、Drugbank、Clinical Trails等数据库)、指南共识(NCCN指南、ASCO指南、ESMO指南、CSCO指南、其他专家共识等)及重大会议(如AACR会议、ASCO会议、ESMO会议、CSCO会议、WCLC会议、ELCC会议等)的相关报道，从中获取相关资料。

在优选实施例中，公共数据资源包括：第一类的公共组学数据库，如NCBI、ClinVar、COSMIC等，从中提取基因变异的组学属性及其他信息；第二类的诊疗相关数据资源，包括FDA批文、NMPA批文、EMA批文、NCCN指南、ASCO指南、ESMO指南、CSCO指南、Drugbank数据库、Clinical Trails数据库及其他指南和专家共识等，从中提取疾病信息、生物标志物信息、药物信息和诊疗方案；第三类的来源于公共文献库(如PubMed)的海量临床文献及重大会议的会议报道(如AACR会议、ASCO会议、ESMO会议、CSCO会议、WCLC会议、ELCC会议等)，从中提取生物标志物信息以及生物标志物与疾病、药物/治疗方案的关系证据。

S102：数据抽提筛选

对上述公共数据资源进行筛选和分类，确定待录入数据库中的上述信息的关键字段及属性。

S103：证据等级确定

按照循证医学证据等级的判断标准，对上述临床证据信息进行等级归类和划分。

具体而言，临床证据的证据等级参考循证医学证据等级划分方法制定，其中划分生物标志物与靶向和免疫药物之间临床证据关联信息时，证据等级定义为：Level 1——FDA/NMPA批准的生物标志物预测FDA/NMPA批准的适用于本肿瘤药物；Level 2A——本肿瘤NCCN指南或其他指南共识提及的标准治疗生物标志物预测FDA/NMPA批准的适用于本肿瘤药物；Level 2B——本肿瘤NCCN指南或其他指南共识提及的标准治疗生物标志物预测FDA/NMPA批准的适用于其他肿瘤(非本肿瘤)药物；Level 3A——高质量的随机对照研究(RCT)；高质量的RCT且结论一致的系统评价或Meta分析；Level 3B——低质量的RCT；前瞻性研究；低质量的RCT、前瞻性研究及存在结论不一致的高质量RCT的系统评价或Meta分析；Level3C——病例对照；回顾性分析；病例对照及回顾性分析的系统评价或Meta分析；对于Level3等级的证据，定义RCT：随机对照试验(randomized controlled trial)，将研究对象随机分组，对不同组实施不同的干预，以对照效果的不同。具有能够最大程度地避免临床试验设计、实施中可能出现的各种偏倚，平衡混杂因素，提高统计学检验的有效性等诸多优点，被公认为是评价干预措施的金标准。系统评价(Systematic review)，是根据某一具体的临床问题，采用系统、明确的方法收集、选择和评估相关的临床原始研究，筛选出合格者并从中提取和分析数据，为疾病的诊治提供科学的依据。Meta——分析：是指采用统计方法，将多个独立、针对同一临床问题、可以合成的临床研究综合起来进行定量分析。Level 4A——病例系列；病例系列：无对照的观察性研究，涉及对多个患者(10个以上)同种干预、疾病或结局的描述，主要用于以下3方面：1)报告药物治疗的潜在危害和不良反应；2)描述一种新出现的疾病或罕见病的临床表现、诊断措施、新的手术方法、护理方法或其他保健措施；3)观察某药物或疗法的效果。Level 4B——病例报告；专家意见/个人观点。病例报告：单个或10个以下病例的详尽临床报告。专家意见/个人观点：未经明确阐述的批判性评价的专家观点，或基于生理学、实验室研究或按“优先原则”获得的推论，基于经验且未经严格论证。Level5——动物试验，细胞试验。Level 6——基因的功能预测研究。基因功能预测：利用生物信息学进行功能学上的预测和从结构学方面预测基因的功能。

其中生物标志物与药物之间的临床证据关联为敏感时，证据等级由高到低排序如下：Level 1>Level 2A>Level 2B>Level 3A>Level 3B>Level 3C>Level 4>Level 5>Level6。

同理，生物标志物与药物之间的临床证据关联为耐药时，证据等级按照上述Level1至Level 6划分标准进行记录，为了方便区分耐药和敏感证据等级，生物标志物对药物指导为耐药时，记录为Level R1至Level R6，由高到低排序如下：Level R1>Level R2A>LevelR2B>Level R3A>Level R3B>Level R3C>Level R4>Level R5>Level R6。

生物标志物和化疗药物对应关系与靶向和免疫药物对应关系的证据划分不一致，具体如下：等级的划分：依据PharmGKB网站http://www.pharmgkb.org/page/clinAnn。Level 1A：注释基于被医学会认可的指南或经某些重大卫生系统的认可；Level 1B：注释基于多项有统计显著的研究；Level 2A：注释基于多项重复研究，故药效关系很有可能是有意义的；Level 2B：注释基于多项重复研究，但某些研究可能无统计显著性或样本数量少；Level 3：注释仅基于1项有显著差异的研究(未重复)或多项研究但缺乏明显药效关联性；Level 4：注释仅基于少量病例、非权威研究或体外的分子功能研究。证据等级由高到低排序如下：Level 1A>Level 1B>Level 2A>Level 2B>Level 3>Level 4

S104：数据库结构构建

建立与肿瘤个体化用药指导相关的解读数据库结构框架，其包括药物信息版块、相关肿瘤化疗信息版块、肿瘤适应症信息版块、基因信息版块、生物标志物版块、生物标志物和药物之间的临床证据关联版块、易感性临床证据版块、临床试验版块、全局修改版块和统计版块。

具体说明如下：

(1)构建药物信息版块。对目前涉及精准用药治疗相关的化疗药物、靶向药物和免疫药物进行录入，构建药物信息版块。该模块主要包含以下关键字：编号，通用名(中文)，通用名(英文)，商品名(中文)，商品名(英文)，临床试验名称，药物类型，作用机制，不良反应，获批状态，获批详情，获批肿瘤适应症，生产厂家，药物描述，信息来源，参考文献。对于药物信息数据表，信息来源主要来源于FDA、NMPA、Drugbank，各大药厂官网等，进行综合描述。值得注意的是，如果该药物在国内NMPA上市，则通用名(中文)需要按照国内上市名称进行填充。

(2)构建相关肿瘤化疗信息版块。根据NCCN指南和WHO等相关指南和文献等建立相关肿瘤化疗版块，该版块包含具体肿瘤所涉及的化疗用药。该版块主要从疾病和化疗药物维度进行分类。如录入肺癌在NCCN指南涵盖的所有化疗药物，如果对具体亚型有分类，如：非小细胞肺癌和小细胞肺癌在NCCN指南涵盖的化疗药物不一致，需要进行分开录入。原则上优先考虑NCCN指南中涉及的化疗药，如果该肿瘤在NCCN指南中没有相关化疗药介绍，需要在相关其他指南，网站或文献中总结获取化疗方案。

(3)构建肿瘤适应症信息版块。该版块包含对肿瘤的基本介绍，(如该肿瘤在中国发生率，五年内存活率等)，同时根据WHO、NCCN、Madanderson等分类，对肿瘤类型以及肿瘤相关亚型进行分类，构建肿瘤分类树。该版块最多对肿瘤分类划分到第四等级(亚型最细致等级)。针对目前常见的肿瘤，如支气管肺癌，头颈部肿瘤，黑色素瘤，皮肤癌，消化道肿瘤(胃，肠，肝，胆，胰)软组织肉瘤，中枢神经系统肿瘤，胸腺瘤和胸腺癌，胸腺间皮瘤，乳腺癌，神经内分泌肿瘤，生殖泌尿肿瘤，子宫肿瘤，卵巢癌，骨肿瘤，骨髓相关肿瘤等，进行肿瘤分类，构建分类树。构建肿瘤分类树时不一定完全参照所参考的分类体系，可尽量结合临床实际(组织+病理，主要考虑肿瘤不同命名及分类类型对治疗策略的影响)，同时考虑如何与解读数据库关联，如数据库中出现非鳞状非小细胞肺癌，应如何对接。格式尽可能统一，肿瘤二、三级分类名称尽可能完整，如非小细胞肺癌，下一级有腺癌、鳞癌，写肺腺癌、肺鳞癌。资料整理参考优先级：NCCN指南>WHO疾病分类>NIH(https://www.cancer.gov/types)> http://oncotree.mskcc.org/#/home>https://www.mdanderson.org/cancer-types。

针对一种肿瘤，由于参考肿瘤分类标准不统一，通常会出现多种分类，如支气管肺癌包含NCCN指南分类和WHO分类。参考多种肿瘤分类标准主要考虑到目前临床上对肿瘤命名规范标准不一致，通过肿瘤分类树，能够比较准确查询临床病理诊断的具体亚型里属于哪种指南分类：如临床病理诊断：肺乳头型腺癌；按照NCCN指南，无法识别该亚型，通过检索WHO分类标准，乳头型腺癌属于四级亚型，其上级三级亚型属于肺腺癌，二级亚型属于上皮源性肿瘤，肿瘤类型属于支气管肺癌。

(4)构建基因信息版块。该版块主要对基因生物学功能进行解析描述。包含以下几个关键字(基因ID，基因名称，基因生物学功能介绍，相关信号通路，信息来源)基因生物学功能介绍：通过Genecards、Uniprot、Cancer genome interpreter等网页进行查询，主要客观描述基因所在染色体位置，基因/表达蛋白所发挥的主要作用和功能，如果该基因参与肿瘤发生发展，同时需要注明该基因属于原癌基因或抑癌基因；与肿瘤发生发展的关系；常见变异类型是否药物靶点及涉及的主要相关药物等信息。

(5)构建生物标志物版块：一方面：通过追踪以及调研现有临床试验和基础研究，查找和肿瘤患者接受化疗、靶向、免疫药物疗效相关的生物标志物，对生物标志物进行记录。另一方面，对新检测到的生物标志物进行记录，该类生物标志物未被其他数据库和文献记录并报道过。为了储存该类生物标志物信息，生物标志物数据库版块包含如下两个内容：

(5.1)基因变异标签，该模块主要对基因变异信息进行储存，包含以下几个关键字：基因名称，ENS转录本，NM转录本，染色体位置，变异类型(SNV、Indel、CNV、基因融合/重排)，cDNA核苷酸变异，变异详情(氨基酸变化、基因扩增或缺失、基因融合方向)，三大软件(Shft、Polyphen、MutationTaster)预测评估结果、变异解析，变异生物学意义，其他公共数据库链接、相关药物。

具体地，生物标志物版块中基因变异标签版块还包含其他公共数据库链接；对于已被其他数据库(如COSMIC)囊括的变异，通过点击具体链接可以直接跳转到对应数据库(如COSMIC)中对该变异的具体解析页面，极大缩短数据库使用人员额外的对该变异搜索时间。

由于对具体变异生物学意义分析需要结合多方面因素，其中软件预测为判定提供一个依据，因此根据生物信息变异判定相关指南，挑选目前软件预测功能较为精准的三款软件对具体变异的评估结果，提供遗传解读参考，为具体变异生物学意义判定提供依据，该评估结果可通过生物信息编写的脚本实现自动化展现。

生物学意义判定：可能的生物学意义包括功能丧失(Loss of function)/可能功能丧失(Likely Loss of function)/功能获得(Gain of function)/可能功能获得(Likely Gain of function)/不确定的(Inconclusive)/中性(Netual)/可能中性(LikelyNetual)，综合ACMG以及AMP、ASCO、CAP联合发起的癌症相关变异注释和报告标准化以及Genome Medicine等对变异判定指南(ACMG)，结合基因生物学功能介绍以及基因变异解析，对该变异功能进行等级分类。

生物标志物版块通过对已报道和新发现生物标志物但未被其他数据库或文献报道相关信息的记载可实现以下目标：方便数据库使用者对具体生物标志物状态的查询和跟踪，信息直观，减少或避免重复查询工作。

(5.2)其他生物标志物标签，该版块主要对除基因变异标签以外的生物标志物进行记录，该版块可能涉及需要用免疫组化进行评估衡量的生物标志物状态进行记录，如(PD-L1、CD8、IFGN、ERBB2等)，同时还可能基于基因检测水平需要结合生物信息统计计算或需要通过构建模型或相关软件对标志物进行定性评估(如MSI、TMB、TNB、HLA等)。相关生物标志物英文简称解释如下：肿瘤突变负荷(Tumor Mutation Burden，TMB)，微卫星不稳定性(Microsatellite instability，MSI)，肿瘤新生抗原负荷(Tumor Neoantigen Burden，TNB)，人类白细胞抗原(Human leukocyte antigen，HLA)。该标志物版块包含以下字眼：

(5.2.1)生物标志物名称(如HLA分型，TNB，TMB，MSI等)；

(5.2.2)名词解释：通过公共数据库对该生物标志物检测意义以及在肿瘤发生过程中的功能或对指导肿瘤用药意义进行阐述；

(5.2.3)生物标志物状态：判读标准：MSI-H表示微卫星不稳定水平检测值高；MSI-H：发生改变的短串联重复序列(STR)数量≥20％；MSI-L：发生改变的STR数量<20％。c)TMB：TMB-L表示TMB检测值低，TMB-M表示TMB检测值中等，TMB-H表示TMB检测值高；TMB-H：TMB>10Muts/Mb；TMB-M：2.5Muts/Mb≤TMB≤10Muts/Mb；TMB-L：TMB<2.5Muts/Mb。注意不同的生物标志物判读标准不一样，需要具体生物标志物具体分析；

(5.2.4)相关药物：通过调取生物标志物具体状态下对化疗、靶向和免疫药物的关联数据库，匹配生物标志物具体状态下相关联的药物信息，对并该信息进行超链接。注意该处没有匹配具体肿瘤信息，因此原则上匹配原则适配该生物标志物状态下对应所有肿瘤相关的药物信息。例如TMB-H中，在肺癌、尿路上皮癌、黑色素瘤中针对帕博利珠单抗均有相关证据，则相关药物匹配栏目对该药物进行适配去重处理，帕博利珠单抗仅出现一次，但是通过对该药物超链接，可以连接到不同肿瘤下对该药物的适配证据；

(5.2.5)参考文献；对该生物标志物判读依据来源，可能为病理指南，可能为伴随诊断试剂盒确定生物标志物和药物疗效之间的关联性。

(6)按照化疗、靶向、免疫药物三个方向建立生物标志物和药物之间的临床证据关联版块。

具体说明如下：

(6.1)生物标志物与化疗药物模块主要包含以下关键字：基因名称，染色体位置，rs号，参考基因，基因型，药物通用中文名，药物通用英文名，肿瘤适应症，疗效，毒副作用，药物剂量，药物代谢，临床注解，证据来源，证据等级，信息来源。

(6.2)生物标志物与靶向药物模块主要包含以下关键字：基因名称，变异类型，变异影响，外显子，核苷酸变化，氨基酸变化，基因组定位，转录本，药物/疗法通用名，肿瘤适应症，敏感性，临床提示，治疗阶段，临床注解，证据来源，证据等级，发布时间，信息来源，参考文献。

(6.3)生物标志物与免疫药物模块主要包含以下关键字：生物标志物，生物标志物状态，药物/疗法通用名，肿瘤适应症，敏感性，临床提示，治疗阶段，临床注解，证据来源，证据等级，发布时间，信息来源，参考文献。

具体地，建立确定生物标志物和药物疗效之间的关联性，构建生物标志物与化疗、靶向、免疫三个维度与肿瘤之间的临床证据关联数据表，在该三个关联数据表录入过程中需要注意以下几点：

A.药物/疗法通用名(以NMPA批准中文官方名称为准；联合用药优先顺序：免疫>靶向>化疗>内分泌，药物之间用“+”连接；同一个用药方案中既可用A药又可用B药时，A、B药用“/”隔开；注意事项：通用名(中文)、通用名(英文)、临床试验名这3个名称中至少要有一项必填，药物通用名可以和数据库中药物信息内容匹配，原则上只要实现通用名(中文)、通用名(英文)、临床试验名这3个名称中有一项进行填写，后续自动化能够实现另外两项借助数据库中药物信息版块已经备注的内容进行填充，该方法可以通过生物信息人员编写自动化编程语言进行实现。

B.肿瘤适应症的填写理论上以原始数据中所记录的针对具体肿瘤适应症亚型为主，例如，如果文献强调生物标志物与药物之间对应关系是建立在非小细胞肺腺癌患者中，则肿瘤适应症应该填写为肺腺癌，通过连接数据库中已有的肿瘤适应症数据库中肿瘤分类树版块，可以实现自动化识别该肿瘤适应症同时包含上级分型非小细胞肺癌和上上级肺癌。该类规则的限定有利于在实现信息搜索时，查询人员想搜查关于肺癌的证据，可以同时匹配到涵盖肺癌相关亚型如肺腺癌，肺鳞癌，小细胞肺癌等相关联的证据，如果查询人员想实现搜查更小范围的肺腺癌的证据，可以实现更准确搜索关于肺癌或非小细胞肺癌，肺腺癌的证据，而过滤出小细胞肺癌，肺鳞癌相关的证据。

C.生物标志物指导药物敏感性的填写主要依据原始文件对疗效的描述，原则上如果有涉及翻译后表示为预后好、疾病缓解、临床应答、药物敏感、疗效好、反应好、总生存期延长、疾病无进展生存期延长、客观缓解率提高等字眼则反应为该标志物对药物疗效为：敏感；同样，若原始文件对疗效描述涉及翻译后表示为预后差、临床缓解率较低、疗效差、毒副作用强不可耐受、耐药、不敏感、生存期短及并未与进展生存期短等字眼，则反映该生物标志物对药物疗效为耐药。

值得注意的是，目前很多临床文献和研究针对复合变异用药进行相关用药推荐报道，针对该类情况，标记物与靶向药物数据表能够实现对复合变异综合推荐药物证据的记录，主要表现在对基因名称和变异类型进行特殊格式处理，例如：

(a)基因名称填写时要求与基因信息中的名称保持一致，写Official Symbol，并确认基因信息中有该基因描述，如果没有则需要补充。注意事项：避免使用集合或类别名称，例如DDR通路相关基因，应该把包含的基因都列出来。多个基因要求同时满足的情况下，基因名称用“+”连接，对应的变异情况也用“+”相连；多个不同基因只要满足其中一个基因的情况，用“/”相连；对于忽略生物标志物只批准于某肿瘤适应症的临床证据此处可空缺不填。

(b)变异类型填写：针对单个某一变异类型的证据，直接写该变异类型(Mutation(突变)，Amplification(扩增)，Rearrangement(重排)，Fusion(融合))即可。如有多个变异需要同时满足或只需满足其中某个变异，不同变异用“+”或“/”连接。注意事项：插入或缺失变异统一用Deletion(缺失)、Insertion(插入)，避免del、ins等多重写法；基因与变异类型两栏只能有一栏可以用“/”写多个基因或变异类型；CNV拷贝数扩增有具体数值的要写清楚(L833V+L858R；L858R/L861Q/G719X；Amp8)。

具体地，生物标志物与化疗药物模块数据表中录入规则和标志物与靶向药物模块和标记物与免疫药物模块数据表有差异，标志物与化疗数据表包含以下关键字：基因名称，核苷酸变化，氨基酸变化，基因组定位，rs号，基因型，通用名(中)，肿瘤适应症，疗效，毒副作用，药物剂量，药物代谢，临床注解，证据来源，证据等级，信息来源。特别值得注意的是，参考基因型代表具体rs位点的野生型，该基因型需要生物信息人员通过编程语言将该位点与参考序列进行匹对，得到具体野生型信息(A/G/C/T)，临床注解根据PharmGKB中的数据进行翻译，用最简洁的形式进行表示，如:AA型相比AG型无复发生存期可能较短，突变型和野生型进行比较用表示动态变化的词来表示，如升高、降低、减少、延长等，野生型和突变型进行比较用表示状态的词来表示，如：较短、较高、较长等。若临床注解中生物标志物对药物影响为临床获益则该证据主要影响疗效，如生物标志物对药物影响无进展生存期、总生存期、疾病进展风险、存活率、完全将缓解可能性、应答等。若生物标志物对药物影响主要为临床不良反应，则该证据主要影响毒副作用，如贫血风险、腹泻风险、心脏损害风险、白血球减少症、肾毒性等。

由于生物标志物不仅仅包含基因变异信息，还包含一些免疫组化(PD-L1,CD8等)，RNA表达水平，以及基因组学概念(TMB,TNB等)，对于上述数据表的关键词，不是每个关键词都为必选项目。

(7)构建易感性临床证据版块。该版块主要涵盖与遗传性肿瘤相关的基因，并对该类基因与肿瘤发生发展关系记录，主要涵盖以下信息：基因名称，外显子，核苷酸变化，氨基酸变化，基因组定位，rs号，变异类型，变异描述，临床意义，易感描述，临床注解，证据来源，证据等级，参考文献。

具体地，该版块主要针对于肿瘤易感相关基因具体位点变异进行解读，如遗传性乳腺癌卵巢癌综合征相关基因BRCA1/2变异，遗传性结直肠癌相关基因MMR(PMS2、MLH1、MSH2、PMS1)等，由于该类基因在Clinvar、BRCAexchange等数据库对具体基因点位有做相关介绍，因此首先生物信息通过编程自动化下载该类网页数据库相关信息，并对Clinvar数据库中证据级别为致病性，可能致病且信息可信度4等级的证据进行直接下载按照具体格式导入该临床证据库。临床意义严格按照2015年ACMG指南对该类遗传性肿瘤相关变异按照致病、可能致病、意义不明确、可能良性、良性五个等级进行判定。判定规则遵循ACMG指南。临床注解主要阐述该变异进行临床意义判定的依据，如在人群中的发现频率，家系中共分离情况，软件预测水平，其他数据证据，以及等位基因数据等进行综合分析，同时按照ACMG指南对变异规定按照查找证据所属级别进行罗列，如对一个变异判断为致病，是遵循ACMG指南中涵盖的PVS1(非常强)+PP1(辅助证据)。

(8)构建临床试验版块。该版块主要涵盖两个版块：国内临床实验，国际临床实验；生物信息通过自动化脚本语言对国际临床试验(https://clinicaltrials.gov/ct2/home)官网以及国内临床试验，国内临床试验又包含国内药物临床试验等级与信息展示平台(http://www.chinadrugtrials.org.cn/eap/clinicaltrials.searchlist)和中国临床试验注册中心(http://www.chictr.org.cn/searchproj.aspx)对国际临床试验，国内临床试验相关数据进行下载，主要涵盖一下信息：试验编号，实验名称，招募肿瘤患者类型，招募患者合格标准，试验药物，试验分期，试验状态，研究终点，招募地点。该版块通过对关键字引索，能够实现在页面输入相关肿瘤，相关药物，相关生物标志物，以及临床试验分期，用药阶段等精准找到该类条件目前在国内外临床试验开展情况，包含已经停止招募，招募正在进行，招募终止，招募未开始的临床试验。同时后台生物信息会每周对该类信息进行更新下载，确保临床解读查找的信息为实时更新数据。该版块的实现一方面为后期数据库实行临床个体化用药报告自动化出具中临床试验推荐内容提供强有力支持，另一方面方便数据库使用人员对目前临床试验开展期药物进行跟踪管理。

(9)构建全局修改模块。随着某些药物或者指南的更新，通常该类词汇在数据库中多个模块含有多个证据，该界面可以解决针对需要修改的词汇进行全部数据库对该字眼的更新和覆盖，极大减少了手动人工操作的时间。

(10)构建统计版块。通过上述各个子数据库如：药物信息数据库，肿瘤适应症数据库等信息的大量补充，该版块能够实现对上述信息进行汇总，如本数据库涵盖药物数量，涵盖生物标志物与化疗，靶向，免疫药物数量，涵盖各级别证据数量，涵盖基因信息数量等。该板块用于快速直观了解数据库储存信息的更新和覆盖情况。

S105：数据整理录入

具体地，在信息录入过程中需要对一些项目进行基本规范和要求，例如：

(a)基因名称书写时需要注意使用官方规范名称。根据HGNC数据库对基因名称进行校正，赋予该基因人类基因标准库标准名称，例如MEK1通过HGNC矫正，官方名称应该写MAP2K1。

(b)基因变异基本信息。涵盖该变异所处染色体具体位置，核苷酸和氨基酸变异，外显子，转录本等信息。染色体位置通过参考基因组参考校正，转录本一般选择最长转录本，核苷酸和氨基酸变异严格按照HGVS标准进行校正，该版块格式规范可通过生物信息编程自动化实现。

(c)变异解析。汇总调研Jackson Knowledgebase(JKB)、cBioportal、Oncokb、Clinvar、Cosmic、CIViC、Precision Medicine Knowledgebase(PMKB)等相关数据库或临床报道文献对具体氨基酸或类似氨基酸功能分析研究，并对该变异对肿瘤发生发展或肿瘤用药基本作用进行阐述。

(d)参考文献。参考文献的书写按照临床文献撰写参考文献要求进行填充，信息录入人员通过输入PMID号，或具体文献名称，生物信息后期通过脚本能够实现借助百度学术平台对文献的引用格式实现参考文献标准化填充。

如图1所示，在一个优选实施例中，一种用于指导临床肿瘤个体化用药的数据库构建方法，除包括上述S101至S105步骤以外，还包括如下步骤：

S106：数据审核修改

对录入的信息进行多次审核和/或修正。信息的录入采取双人配合制，即保证录入和审核至少有不同的两人。每个信息版块都包含信息来源信息，审核者可以通过对原始来源信息的查阅审核录入者相关信息录入的准确性，若录入信息不准确或不规范，审核者可在平台对该证据进行驳回，并记录信息的不合理之处提供给录入者修改，对于录入信息的修改，系统会对修改具体内容进行统计记录，供给后续使用人员溯源信息的修改历程。

S107：数据库线上化

将录入的信息部署在线上系统，结构化地存储，并以网站页面的形式展示，且实现线上的增删改查及统计分析功能。

S108：数据库更新维护

跟踪肿瘤化疗、靶向和免疫治疗最新研究进展，及时对数据库中的信息进行更新、补充。对于相关肿瘤化疗信息版块以及药物信息版块，生物标志物与药物之间的临床证据关联版块，临床试验版块，肿瘤适应症信息版块保持跟踪更新和补充，例如，每两周跟踪更新和补充。例如，固定更新时间可以为每个月的1日和15日各更新一次。对于生物标志物版块，基因信息版块，易感性临床证据版块，例如可以保持每天持续跟踪更新状态，数据库信息录入人员在处理数据库未记载的解读信息时，可实时对数据库相关版块进行更新和记录。

S109：数据库安全管理

对上述数据库设置登录访问权限及增删改查权限，同时对线上数据进行实时备份，以确保数据库的安全。

对应于上述数据库构建方法，本发明一个实施例还提供一种用于指导临床肿瘤个体化用药的数据库构建装置，如图2所示，包括：数据资源获取单元201，用于获取与肿瘤个体化化疗、靶向和免疫治疗相关的公共数据资源，上述公共数据资源包括与肿瘤化疗、靶向和免疫治疗相关的生物标志物信息、基因信息、变异信息、疾病信息、药物信息及临床证据信息；信息筛选分类及关键字段确定单元202，用于对上述公共数据资源进行筛选和分类，确定待录入数据库中的上述信息的关键字段及属性；证据等级归类单元203，用于按照循证医学证据等级的判断标准，对上述临床证据信息进行等级归类和划分；数据库建立单元204，用于建立与肿瘤个体化用药指导化疗、靶向和免疫相关的解读数据库结构框架，其包括药物信息版块、相关肿瘤化疗信息版块、肿瘤适应症信息版块、基因信息版块、生物标志物版块、生物标志物和药物之间的临床证据关联版块、易感性临床证据版块、临床试验版块、全局修改版块和统计版块；以及，关键字段录入单元205，用于按照统一的标准化录入规则将上述关键字段对应的信息录入到上述数据库结构框架的相应字段位置，得到用于指导临床肿瘤个体化用药的数据库。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一种计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

因此，一种实施例中提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现如本发明的用于指导临床肿瘤个体化用药的数据库构建方法。

本发明的一种实施例中，提供一种用于指导临床肿瘤个体化用药的数据库检索方法，其中，数据库是通过本发明的用于指导临床肿瘤个体化用药的数据库构建方法建得到的数据库，该数据库检索方法包括：向上述数据库输入检索关键词；将上述关键词与数据库中的信息进行比对，得到与上述关键词匹配的检索结果；输出上述检索结果。

相应地，本发明的一种实施例中，提供一种用于指导临床肿瘤个体化用药的数据库检索装置，其中，数据库是通过本发明的用于指导临床肿瘤个体化用药的数据库构建方法建得到的数据库，该数据库检索装置包括：数据输入单元，用于向上述数据库输入检索关键词；数据比对单元，用于将上述关键词与数据库中的信息进行比对，得到与上述关键词匹配的检索结果；数据输出单元，用于输出上述检索结果。

相应地，本发明的一种实施例中，提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现如本发明的数据库检索方法。

本发明的方法，通过利用化疗、靶向和免疫治疗方面的研究成果和内容总结，对与治疗相关的生物标志物进行捕捉和记录，链接现有临床研究和指南共识等，形成数据库。该数据库不仅基于基因变异的角度，且涵盖其他蛋白分子，基因组学层面的相关生物标志物，能够完善市面上对免疫知识库的缺陷，同时通过对国内外临床文献及生物标志物相关信息进行记录存储，方便数据库使用人员对出现过的生物标志物进行判定分析，避免重复信息重复查询或多人判断标准不一致等情况；同时该数据库还通过对肿瘤适应症信息版块、临床试验版块、药物信息版块等多方面信息进行储存和记录，可以从多个层面经过单一平台实现信息查询等工作，极大提升了工作效率，也为后续个体化肿瘤精准用药相关报告自动化出具提供一个强大而丰富的知识储备系统。

以下通过具体实施例详细说明本发明的技术方案，应当理解，实施例仅是示例性的，不能理解为对本发明保护范围的限制。

实施例1

1、数据查询收集

获取公共数据资源，获取与肿瘤个体化化疗、靶向和免疫治疗相关的公共数据资源，所述公共数据资源包括与肿瘤化疗、靶向和免疫治疗相关的生物标志物信息、基因信息、变异信息、疾病信息、药物信息及临床证据信息。

本实施例中，公共数据资源包括：第一类的公共组学数据库，如NCBI、ClinVar、COSMIC等，从中提取基因变异的组学属性及其他信息；第二类的诊疗相关数据资源，包括FDA批文、NMPA批文、EMA批文、NCCN指南、ASCO指南、ESMO指南、CSCO指南、Drugbank数据库、Clinical Trails数据库及其他指南和专家共识等，从中提取疾病信息、生物标志物信息、药物信息和诊疗方案；第三类的来源于公共文献库(如PubMed)的海量临床文献及重大会议的会议报道(如AACR会议、ASCO会议、ESMO会议、CSCO会议、WCLC会议、ELCC会议等)，从中提取生物标志物信息以及生物标志物与疾病、药物/治疗方案的关系证据。

2、数据抽提筛选

3、证据等级确定

按照循证医学证据等级的判断标准，对上述临床证据信息进行等级归类和划分。具体而言，临床证据的证据等级参考循证医学证据等级划分方法制定，其中描述生物标志物与靶向和免疫药物之间的临床证据关联时，证据等级定义为：Level 1——FDA/NMPA批准的生物标志物预测FDA/NMPA批准的适用于本肿瘤药物；Level 2A——本肿瘤NCCN指南或其他指南共识提及的标准治疗生物标志物预测FDA/NMPA批准的适用于本肿瘤药物；Level2B——本肿瘤NCCN指南或其他指南共识提及的标准治疗生物标志物预测FDA/NMPA批准的适用于其他肿瘤(非本肿瘤)药物；Level 3A——高质量的随机对照研究(RCT)；高质量的RCT且结论一致的系统评价或Meta分析；Level 3B——低质量的RCT；前瞻性研究；低质量的RCT、前瞻性研究及存在结论不一致的高质量RCT的系统评价或Meta分析；Level 3C——病例对照；回顾性分析；病例对照及回顾性分析的系统评价或Meta分析；对于Level 3等级的证据，定义RCT：随机对照试验(randomized controlled trial)，将研究对象随机分组，对不同组实施不同的干预，以对照效果的不同。具有能够最大程度地避免临床试验设计、实施中可能出现的各种偏倚，平衡混杂因素，提高统计学检验的有效性等诸多优点，被公认为是评价干预措施的金标准。系统评价(Systematic review)，是根据某一具体的临床问题，采用系统、明确的方法收集、选择和评估相关的临床原始研究，筛选出合格者并从中提取和分析数据，为疾病的诊治提供科学的依据。Meta——分析：是指采用统计方法，将多个独立、针对同一临床问题、可以合成的临床研究综合起来进行定量分析。Level 4A——病例系列；病例系列：无对照的观察性研究，涉及对多个患者(10个以上)同种干预、疾病或结局的描述，主要用于以下3方面：1)报告药物治疗的潜在危害和不良反应；2)描述一种新出现的疾病或罕见病的临床表现、诊断措施、新的手术方法、护理方法或其他保健措施；3)观察某药物或疗法的效果。Level 4B——病例报告；专家意见/个人观点。病例报告：单个或10个以下病例的详尽临床报告。专家意见/个人观点：未经明确阐述的批判性评价的专家观点，或基于生理学、实验室研究或按“优先原则”获得的推论，基于经验且未经严格论证。Level 5——动物试验，细胞试验。Level 6——基因的功能预测研究。基因功能预测：利用生物信息学进行功能学上的预测和从结构学方面预测基因的功能。

其中生物标志物与药物之间临床证据关联为敏感时，证据等级由高到低排序如下：Level1>Level 2A>Level 2B>Level 3A>Level 3B>Level 3C>Level 4>Level 5>Level6。

同理，生物标志物与药物之间临床证据关联为耐药时，证据等级按照上述Level 1至Level6划分标准进行记录，为了方便区分耐药和敏感证据等级，生物标志物对药物指导为耐药时，记录为Level R1至Level R6为由高到低排序如下：Level R1>Level R2A>LevelR2B>Level R3A>Level R3B>Level R3C>Level R4>Level R5>Level R6。

化疗中，生物标志物和药物对应关系与靶向和免疫对应关系的证据划分不一致，具体如下：等级的划分：依据PharmGKB网站http://www.pharmgkb.org/page/clinAnn。Level 1A：注释基于被医学会认可的指南或经某些重大卫生系统的认可；Level 1B：注释基于多项有统计显著的研究；Level 2A：注释基于多项重复研究，故药效关系很有可能是有意义的；Level 2B：注释基于多项重复研究，但某些研究可能无统计显著性或样本数量少；Level 3：注释仅基于1项有显著差异的研究(未重复)或多项研究但缺乏明显药效关联性；Level 4：注释仅基于少量病例、非权威研究或体外的分子功能研究。证据等级由高到低排序如下：Level 1A>Level1B>Level 2A>Level 2B>Level 3>Level 4

4、数据库构建

建立与肿瘤个体化用药指导化疗、靶向、免疫相关的解读数据库，该数据库包含以下几个版块：

(1)构建药物信息版块。对目前设计精准用药治疗相关的靶向药物和免疫药物进行录入，构建药物信息版块。该版块主要包含以下关键字：编号，通用名(中文)，通用名(英文)，商品名(中文)，商品名(英文)，临床试验名称，药物类型，作用机制，不良反应，获批状态，获批详情，获批肿瘤适应症，生产厂家，药物描述，信息来源，参考文献。对于药物信息数据表，生物标志物信息表信息主要来源于FDA、NMPA、Drugbank，各大药厂官网等进行综合描述。值得注意的是如果该药物在国内NMPA上市，则通用名(中文)需要按照上市名称进行填充。

(2)构建相关肿瘤化疗信息版块。根据NCCN指南和WHO等建立相关肿瘤化疗信息版块，该版块包含具体肿瘤所涉及的化疗用药。该版块主要从疾病和化疗药物维度进行分类。如录入肺癌在NCCN指南涵盖的所有化疗药物，如果对具体亚型有分类，如：非小细胞肺癌和小细胞肺癌在NCCN指南涵盖的化疗药物不一致，需要进行分开录入。原则上优先考虑NCCN指南中设计的化疗药，如果该肿瘤在NCCN指南中没有相关化疗药介绍，需要在相关网站或文献总中总结获取化疗方案。

(3)构建肿瘤适应症信息版块。该版块包含对肿瘤的基本介绍(如该肿瘤在中国发生率，五年内存活率等)同时根据WHO、NCCN、Madanderson等分类，对肿瘤类型以及肿瘤相关亚型进行分类。该版块最多对肿瘤分类划分到第四等级(亚型最细致等级)。针对目前常见的肿瘤，如支气管肺癌、头颈部肿瘤、黑色素瘤、皮肤癌、消化道肿瘤(胃，肠，肝，胆，胰)、软组织肉瘤、中枢神经系统肿瘤、胸腺瘤和胸腺癌、胸腺间皮瘤、乳腺癌、神经内分泌肿瘤、生殖泌尿肿瘤、子宫肿瘤、卵巢癌、骨肿瘤、骨髓相关肿瘤等进行肿瘤树分类。注意：(a)构建肿瘤分类树时不一定完全参照所参考的分类体系，可尽量结合临床实际(组织+病理，主要考虑肿瘤不同命名及分类类型对治疗策略的影响)，同时考虑如何与解读数据库关联，如数据库中出现非鳞状非小细胞肺癌时和肿瘤树分类中的相关具体亚型进行匹配。(b)格式尽可能统一，肿瘤二、三级分类名称尽可能完整，如非小细胞肺癌，下一级有腺癌、鳞癌，请写肺腺癌、肺鳞癌。(c)资料整理参考优先级：NCCN指南>WHO疾病分类>NIH(https:// www.cancer.gov/types)>http://oncotree.mskcc.org/#/home>https:// www.mdanderson.org/cancer-types。

故针对一种肿瘤，由于参考肿瘤分类标准不统一，通常会出现多种分类，如支气管肺癌包含NCCN指南分类和WHO分类。参考多种肿瘤分类标准主要考虑到目前临床上对肿瘤命名规范标准不一致，通过该肿瘤分类树，能够比较准确查询临床病理诊断的具体亚型所属的指南分类：如临床病理诊断：肺乳头型腺癌；按照NCCN指南，无法识别该亚型，通过检索WHO分类标准，乳头型腺癌属于四级亚型，其上级三级亚型属于肺腺癌，二级亚型属于上皮源性肿瘤，肿瘤类型属于支气管肺癌。

(4)构建基因信息版块。该版块主要对基因生物学功能进行解析描述。包含以下几个关键字：基因ID，基因名称，基因生物学功能介绍，相关信号通路，信息来源。基因生物学功能介绍：通过Genecards、Uniprot、Cancer genome interpreter等网页进行查询，主要客观描述基因所在染色体位置，基因/表达蛋白所发挥的主要作用和功能，如果该基因参与肿瘤发生发展，同时需要注明该基因属于原癌基因或抑癌基因；与肿瘤发生发展的关系；常见变异类型是否药物靶点及涉及的主要相关药物等信息。

(5)生物标志物版块：一方面：通过追踪以及调研现有临床试验和基础研究，查找和肿瘤患者接受化疗、靶向、免疫药物疗效相关的生物标志物，对生物标志物进行记录。另一方面，对新检测到的生物标志物进行记录，该类生物标志物未被其他数据库和文献记录并报道过。为了储存该类生物标志物信息，生物标志物版块包含如下2个内容：

(5.1)基因变异标签，该模块主要对基因变异信息进行储存，包含以下几个关键字：基因名称，ENS转录本，NM转录本，染色体位置，变异类型(SNV、indel、CNV、基因融合/重排)，cDNA核苷酸突变，变异详情(氨基酸变化、基因扩增或缺失、基因融合方向)，三大软件(Shft、Polyphen、MutationTaster)预测评估结果、变异解析，变异生物学意义，其他公共数据库链接、相关药物)。

具体地，生物标志物版块中基因变异标签版块还包含其他公共数据库链接；对于已被其他数据库(如COSMIC)囊括的变异，通过点击具体相关数据库可以直接跳转到该数据库(如COSMIC)对该变异的具体解析页面，极大缩短数据库使用人员额外的对变异搜索时间。

生物学意义判定：可能的生物学意义包括功能丧失(Loss of function)/可能功能丧失(Likely Loss of function)/功能获得(Gain of function)/可能功能获得(Likely gain of function)/不确定的(Inconclusive)/中性(Netual)/可能中性(LikelyNetual)，综合ACMG以及AMP、ASCO、CAP联合发起的癌症相关变异注释和报告标准化以及Genome Medicine等对变异判定指南(以ACMG)，结合基因生物学功能介绍以及基因变异解析，对该变异功能进行等级分类。

如下表1为生物标志物版块中基因变异标签模块涵盖的部分主要内容：

表1

(5.2)其他生物标志物标签，该版块主要对除基因变异标签以外的生物标志物进行记录，该版块可能涉及需要用免疫组化进行评估衡量的生物标志物状态进行记录，如(PD-L1、CD8、IFGN、ERBB2等)，同时还可能基于基因检测水平需要结合生物信息统计计算或需要通过构建模型或相关软件对生物标志物进行定性评估(如MSI、TMB、TNB、HLA等)。该生物标志物版块包含以下字眼：

(5.2.1)生物标志物名称(如HLA，TNB，TMB，MSI等)；

(5.2.2)名词解释：通过公共数据库对该生物标志物检测意义以及在肿瘤发生过程中的功能进行阐述；

(5.2.3)生物标志物状态：判读标准：MSI-H表示微卫星不稳定水平检测值高；MSI-H：发生改变的STR数量≥20％；MSI-L：发生改变的STR数量<20％。c)TMB：TMB-L表示TMB检测值低，TMB-M表示TMB检测值中等，TMB-H表示TMB检测值高；TMB-H：TMB>10Muts/Mb；TMB-M：2.5Muts/Mb≤TMB≤10Muts/Mb；TMB-L：TMB<2.5Muts/Mb。注意不同的生物标志物判读标准不一样，需要具体生物标志物具体分析；

(5.2.4)相关药物：通过调取生物标志物该状态下对免疫、化疗和靶向药物的关联数据库，匹配生物标志物该状态下相关药物信息。对并该信息进行超链接。注意该处没有匹配具体肿瘤信息，因此原则上匹配原则适配该生物标志物状态下对应所有肿瘤相关的药物信息。例如TMB-H中，在肺癌、尿路上皮癌、黑色素瘤中针对帕博利珠单抗均有相关证据，则相关药物匹配栏目对该药物进行适配去重处理，帕博利珠单抗仅出现一次，但是通过对该药物超链接，可以连接到不同肿瘤下对该药物的适配证据；

如下表2为生物标志物版块中其他生物标志物标签模块涵盖的部分主要内容：

表2

(6)确定生物标志物和药物疗效之间的关联性。按照化疗、靶向、免疫三个方向建立生物标志物和药物之间的关联数据表。

具体地，建立确定生物标志物和药物疗效之间的临床证据关联性，构建生物标志物与化疗、靶向、免疫三个维度与肿瘤之间的关联数据表，在该三个关联数据表录入过程中需要注意以下几点：

B.肿瘤适应症的填写理论上以原始数据中所记录的针对具体肿瘤适应症亚型为主，例如，如果文献强调生物标志物与药物之间对应关系是建立在非小细胞肺腺癌患者中，则肿瘤适应症应该填写为肺腺癌，通过链接数据库中已有的肿瘤分类树，可以实现自动化识别该肿瘤适应症同时包含上级分型非小细胞肺癌和上上级肺癌。该类规则的限定有利于在实现信息搜索时，查询人员想搜查关于肺癌的证据，可以同时匹配到涵盖肺癌相关亚型如肺腺癌，肺鳞癌，小细胞肺癌等相关联的证据，如果查询人员想实现搜查更小范围的肺腺癌的证据，可以实现更准确搜索关于肺癌或非小细胞肺癌，肺腺癌的证据，而过滤出小细胞肺癌，肺鳞癌相关的证据。

C.生物标志物指导药物敏感性的填写主要依据原始文件对疗效的描述，原则上如果有涉及翻译后表示为预后好、疾病缓解、临床应答、药物敏感、疗效好、反应好、总生存期延长、疾病无进展生存期延长、客观缓解率提高等字眼则反应为该生物标志物对药物疗效为：敏感；同样，若原始文件对疗效描述涉及翻译后表示为预后差、临床缓解率较低、疗效差、毒副作用强不可耐受、耐药、不敏感、生存期短及并未与进展生存期短等字眼，则反映该生物标志物对药物疗效为耐药。

值得注意的是，目前很多临床文献和研究针对复合变异用药进行相关用药推荐报道，针对该类情况，靶向数据表能够实现对复合变异综合推荐药物证据的记录，主要表现在对基因名称和变异类型进行特殊格式处理，例如：

(a)基因名称填写时要求与基因信息中的名称保持一致，写Official Symbol，并确认基因信息中有该基因描述，如果没有则需要补充。注意事项：避免使用集合或类别名称，例如DDR基因，应该把包含的基因都列出来。多个基因要求同时满足的情况下，基因名称用“+”连接，对应的变异情况也用“+”相连；多个不同基因只要满足其中一个基因的情况，用“/”相连；对于忽略生物标志物只批准于某肿瘤适应症的临床证据此处可空缺不填。

(b)变异类型填写：针对单个某一变异类型的证据，直接写该变异类型(Mtation(突变)，Amplification(扩增)，Rearrangement(重排)，Fusion(融合))即可。如有多个变异需要同时满足或只需满足其中某个变异，不同变异用“+”或“/”连接。注意事项：插入或缺失变异统一用Deletion(缺失)、Insertion(插入)，避免del、ins等多重写法；基因与变异类型两栏只能有一栏可以用“/”写多个基因或变异类型；CNV拷贝数扩增有具体数值的要写清楚(L833V+L858R；L858R/L861Q/G719X；Amp8)。

具体地，生物标志物和化疗药物数据表中录入规则和标记物与靶向以及免疫数据表有差异，化疗数据表包含以下关键字：基因名称，核苷酸变化，氨基酸变化，基因组定位，rs号，基因型，通用名(中文)，肿瘤适应症，疗效，毒副作用，药物剂量，药物代谢，临床注解，证据来源，证据等级，信息来源。特别值得注意的是，参考基因型代表具体rs位点的野生型，该基因型需要生物信息人员通过编程语言将该位点与参考序列进行匹对，得到具体野生型信息(A/G/C/T)，临床注解根据PharmGKB中的数据进行翻译，用最简洁的形式进行表示，如:AA型相比AG型无复发生存期可能较短，突变型和野生型进行比较用表示动态变化的词来表示，如升高、降低、减少、延长等，野生型和突变型进行比较用表示状态的词来表示，如：较短、较高、较长等。若临床注解中生物标志物对药物影响为临床获益则该证据主要影响疗效，如生物标志物对药物影响无进展生存期、总生存期、疾病进展风险、存活率、完全将缓解可能性、应答等。若生物标志物对药物影响主要为临床不良反应，则该证据主要影响毒副作用，如贫血风险、腹泻风险、心脏损害风险、白血球减少症、肾毒性等。

由于生物标志物与化疗药物模块，生物标志物与靶向药物模块，生物标志物与免疫药物模块不仅仅包含基因变异信息，还包含一些免疫组化，RNA表达水平，以及基因组学概念，对于上述数据表的关键词，不是每个关键词都为必选项目。

如下表3、表4和表5，分别包含了生物标志物对靶向、免疫、化疗药物的临床证据关联数据表：

表3生物标志物与靶向药物临床证据关联数据表

表4生物标志物与免疫药物临床证据关联数据表

表5生物标志物与化疗药物临床证据关联数据表

(7)构建易感性临床证据版块。该版块涵盖对遗传性肿瘤相关基因，并对该类基因与肿瘤发生发展关系记录，主要涵盖一下信息：基因名称，外显子，核苷酸变化，氨基酸变化，基因组定位，rs号，变异类型，变异描述，临床意义，易感描述，临床注解，证据来源，证据等级，参考文献。

具体地，该版块主要针对于肿瘤易感相关基因具体位点变异进行解读，如遗传性乳腺癌卵巢癌综合征相关基因BRCA1/2变异，遗传性结直肠癌相关基因MMR(PMS2、MLH1、MSH2、PMS1)等，由于该类基因在Clinvar、BRCA exchange等数据库对具体基因点位有做相关介绍，因此首先生物信息通过编程自动化下载该类网页数据库相关信息，并对Clinvar数据库中证据级别致病，可能致病且信息可信度4等级的证据进行直接下载按照具体格式导入该临床证据库。临床意义严格按照2015年ACMG指南对该类遗传性肿瘤相关变异按照致病、可能致病、意义不明确、可能良性、良性五个等级进行判定。判定规则遵循ACMG指南。临床注解主要阐述该变异进行临床意义判定的依据，如在人群中的发现频率，家系中共分离情况，软件预测水平，其他数据证据，以及等位基因数据等进行综合分析，同时按照ACMG指南对变异规定按照查找证据所属级别进行罗列，如对一个变异判断为致病，是遵循ACMG指南中涵盖的PVS1(非常强)+PP1(辅助证据)。

如表6为易感性临床证据库版块涵盖的部分主要内容：

表6

(8)构建临床试验数据库。该版块涵盖两个版块：国内临床实验，国际临床实验；生物信息通过自动化脚本语言对国际临床试验(https://clinicaltrials.gov/ct2/home)官网以及国内临床试验，国内临床试验又包含国内药物临床试验等级与信息展示平台(http://www.chinadrugtrials.org.cn/eap/clinicaltrials.searchlist)和中国临床试验注册中心(http://www.chictr.org.cn/searchproj.aspx)对国际临床试验，国内临床试验相关数据进行下载，主要涵盖一下信息：试验编号，实验名称，招募肿瘤患者类型，招募患者合格标准，试验药物，试验分期，试验状态，研究终点，招募地点。该版块通过对关键字引索，能够实现在页面输入相关肿瘤，相关药物，相关生物标志物，以及临床试验分期，用药阶段等精准找到该类条件目前在国内外临床试验开展情况，包含已经停止招募，招募正在进行，招募终止，招募未开始的临床试验。同时后台生物信息会每周对该类信息进行更新下载，确保临床解读查找的信息为实时更新数据。该版块的实现一方面为后期数据库实行临床个体化用药报告自动化出具中临床试验推荐内容提供强有力支持，另一方面方便数据库使用人员对目前临床试验开展期药物进行跟踪管理。

5、数据整理录入

采用统一的标准化的录入规则(如疾病分类采用WHO的命名及分类标准、基因名称采用HGNC的基因规范名称、变异的分类及写法参考ACMG指南和HGVS命名指南等)，确定每个字段的录入规则，并按标准、规则整理录入相关信息。

6、数据审核修改

对录入的信息进行多次审核、修正。每个信息版块都包含信息来源信息，审核者可以通过对原始来源信息的查阅审核录入者相关信息录入的准确性，并及时反馈给录入者需要修改之处，每次修改系统会对修改具体内容进行统计记录。

7、数据库线上化

将线下整理录入的信息部署在线上系统，结构化地存储，并以网站页面的形式展示，且能够实现线上的增删改查及统计分析功能。

8、数据库更新维护

跟踪肿瘤化疗、靶向、免疫治疗最新研究进展，及时对数据库中的信息进行更新、补充。对于相关肿瘤化疗信息版块以及药物信息版块，生物标志物与药物之间的临床证据关联版块，临床试验版块，肿瘤适应症信息版块原则上保持每两周跟踪更新和补充。固定更新时间为每个月的1日和15日各更新一次。对于生物标志物版块，基因信息版块，易感性临床证据版块原则上可能保持每天持续跟踪更新状态，数据库信息录入人员在处理数据库未记载的解读信息时，可实时对数据库相关版块进行更新和记录。

9、数据库安全管理

对数据库设置登录访问权限及增删改查权限，同时对线上数据进行实时备份，确保数据库的安全。

实施例2

本实施例提供一种实施例1得到的数据库的应用，包括：信息查询搜索，对数据库建立搜索窗口，提供给解读人员、生物信息人员或者其他使用人员根据检索关键字去进行信息匹配。对数据库构建的每个子版块建立可视化首页搜索界面。具体界面搜索关键词根据该版块信息库所包含的主要关键字段设置，关键字段信息限制越多样化，实现查询准确度越精准。数据库版块搭建过程对每个页面关键字段有进行阐述，故在此不做赘述。

下面对数据库中生物标志物版块中的信息进行查询搜索功能加以说明。

对变异EGFR：E746_T751delinsA进行查询：

1、进入生物标志物版块信息储存池：该版块主要对基因变异的信息进行调取，故在基因变异表以及其他生物标志物表格中首先匹配基因变异表。

2、筛选基因变异表中所有EGFR所包含的信息表(gene mutation excle1)，该表格包含有对EGFR SNV、Indel、Amplication、Fusion等所有变异形式信息。

3、根据目标信息，对氨基酸变异(E746_T751delinsA)进行适配，由于该变异属于indel变异，故对步骤2中的信息筛选所有包含EGFR Indel的信息数据表(gene mutationIndel excle2)。

4、在Gene mutation Indel excle2数据表格中针对E746_T751delinsA氨基酸进行适配，过滤掉与该氨基酸不匹配的所有信息。同时，如果对于某些条录没有注明具体核苷酸，氨基酸变化，而是包含具体某个外显子上的变异或包含具体某种变异类型，则该类证据也应该进行筛选适配(例如生物标志物与靶向药物临床证据版块中，某条证据显示：EGFRexon19突变对EGFR TKI抑制剂的预后敏感，在录入该证据时并没有注明具体的核苷酸和氨基酸变异位点信息，而是针对任何EGFR exon19Mutation都具有指导EGFR TKI敏感性的意义，原则上，EGFR E746_T751delinsA属于EGFR exon19Mutation，故该类证据应该进行筛选适配)，优先展现适配度最高的数据条目。

5、对于没有限定的关键信息，如核苷酸变异具体形式等，默认为经过步骤4过滤后的所有信息都符合要求。

6、部分过滤结果如表7所示：

表7

7、过滤后的信息部分具有超链接功能——相关药物

该相关药物为生物标志物与相关药物关联汇总数据，通过点击该相关药物中的数据，如EGFR TKI抑制剂分别能够连接到其他版块，如生物标志物与药物关联版块中的具体数据，针对该生物标志物与药物之间关联的具体信息进行查询。结果如表8、表9和表10所示：

表8

表9

表10

8、过滤后的信息部分具有超链接功能——其他公共数据库ID

该部分信息主要记载专页至其他数据库对该具体变异的注释。如E746_T751delinsA该变异在多个数据库中均有记载，优选Cosmic、Oncokb、The ClinicalKnowledgebase(CKB)、cBioportal四大数据库中记载链接，分别点击相关数据库名称，可跳转到该官网对该变异具体注释页面进行查看相关信息。

9、过滤后的信息部分具有超链接功能——判读依据

判读依据主要为解读工程师对该变异进行变异生物学信息基本判定过程中参考的文献。通过该处可以实现直接链接到NCBI Pubmed数据库或相关重要会议报道链接地址。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种用于指导临床肿瘤个体化用药的数据库，其特征在于，所述数据库包括：

基因信息版块，用于存储基因生物学功能解析描述信息；

所述版块之间通过相同关键字段相互关联，向所述版块输入检索关键词，将所述关键词与版块中的信息进行比对，得到与所述关键词匹配的检索结果。

2.根据权利要求1所述的数据库，其特征在于，所述数据库还包括：

和/或

统计版块，用于快速直观了解更新和覆盖。

3.一种用于指导临床肿瘤个体化用药的数据库构建方法，其特征在于，所述方法包括：

对所述公共数据资源进行筛选和分类，确定待录入数据库中的所述信息的关键字段及属性；

按照循证医学证据等级的判断标准，对所述临床证据信息进行等级归类和划分；

按照统一的标准化录入规则将所述关键字段对应的信息录入到所述数据库结构框架的相应字段位置，得到用于指导临床肿瘤个体化用药的数据库。

4.根据权利要求3所述的数据库构建方法，其特征在于，所述药物信息版块包括用药治疗相关的化疗药物、靶向药物和免疫药物信息；

所述相关肿瘤化疗信息版块包括具体肿瘤所涉及的化疗用药信息；

所述肿瘤适应症信息版块包括肿瘤的基本介绍信息和肿瘤类型以及肿瘤相关亚型分类信息；

所述基因信息版块包括基因生物学功能解析描述信息；

所述生物标志物版块包括基因变异标签、其他生物标志物标签

所述生物标志物和药物之间的临床证据关联版块包括生物标志物与化疗药物、生物标志物与靶向药物和生物标志物与免疫药物之间的临床证据关联版块；

所述易感性临床证据版块包括遗传性肿瘤相关基因以及该类基因与肿瘤发生发展关系的信息；

所述临床试验版块包括中国临床试验和国际临床试验数据库信息。

5.根据权利要求3或4所述的数据库构建方法，其特征在于，所述解读数据库结构框架还包括：

和/或

统计版块，用于快速直观了解更新和覆盖。

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：对录入的信息进行多次审核和/或修正；

优选地，所述方法还包括：将录入的信息部署在线上系统，结构化地存储，并以网站页面的形式展示，且实现线上的增删改查及统计分析功能；

优选地，所述方法还包括：根据肿瘤化疗、靶向和免疫治疗最新研究进展，对所述数据库中的信息进行更新和/或补充；

优选地，所述方法还包括：对所述数据库设置登录访问权限及增删改查权限，同时对线上数据进行实时备份，以确保数据库的安全。

7.一种用于指导临床肿瘤个体化用药的数据库构建装置，其特征在于，所述装置包括：

信息筛选分类及关键字段确定单元，用于对所述公共数据资源进行筛选和分类，确定待录入数据库中的所述信息的关键字段及属性；

证据等级归类单元，用于按照循证医学证据等级的判断标准，对所述临床证据信息进行等级归类和划分；

数据库建立单元，用于建立与肿瘤个体化用药指导相关的解读数据库结构框架，其包括药物信息版块、相关肿瘤化疗信息版块、肿瘤适应症信息版块、基因信息版块、生物标志物版块、生物标志物和药物之间的临床证据关联版块、易感性临床证据版块和临床试验版块、；和

关键字段录入单元，用于按照统一的标准化录入规则将所述关键字段对应的信息录入所述数据库结构框架的相应字段位置，得到用于指导临床肿瘤个体化用药的数据库。

8.根据权利要求7所述的数据库构建装置，其特征在于，所述解读数据库结构框架包括：

和/或

统计版块，用于快速直观了解更新和覆盖。

9.一种用于指导临床肿瘤个体化用药的数据库检索方法，其特征在于，所述数据库是通过如权利要求3至6任一项所述的方法构建得到的数据库，所述方法包括：

向所述数据库输入检索关键词；

将所述关键词与数据库中的信息进行比对，得到与所述关键词匹配的检索结果；

输出所述检索结果。

10.一种用于指导临床肿瘤个体化用药的数据库检索装置，其特征在于，所述数据库是通过如权利要求3至6任一项所述的方法构建得到的数据库，所述装置包括：

数据输入单元，用于向所述数据库输入检索关键词；

数据比对单元，用于将所述关键词与数据库中的信息进行比对，得到与所述关键词匹配的检索结果；

数据输出单元，用于输出所述检索结果。