CN113488119B

CN113488119B - 药物小分子数值特征结构化数据库及其建立方法

Info

Publication number: CN113488119B
Application number: CN202110680394.XA
Authority: CN
Inventors: 潘建波; 李强; 马世勇; 张雪鲁; 翟朝宇; 周露
Original assignee: Chongqing Medical University
Current assignee: Chongqing Medical University
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2024-02-02
Anticipated expiration: 2041-06-18
Also published as: CN113488119A

Abstract

本发明公开了一种药物小分子数值特征结构化数据库及其建立方法，属于药物研究领域，该数据库的建立方法包括：获取期刊、专著及权威数据库中经实验验证的数据作为数据源；筛选数据源中药物特征的文本信息，对其中的条件和条件相关性进行编码以建立编码规范；摘录文本信息中的数值信息，根据编码规范对数值信息进行注释和分类，生成初始参考数据；对初始数据进行数据清洗，得到最优参考数据；采用数据统计方法分析最优参考数据并建立数据分析图，构建出药物小分子数值特征结构化数据库。该方法所建数据库可直接用于计算机输入以辅助药物研究，为人工智能、大数据等新兴信息技术提供高质量的数据，节省药物研究相关人员在前期数据处理上花费的时间。

Description

药物小分子数值特征结构化数据库及其建立方法

技术领域

本发明涉及药物研究技术领域，特别涉及一种药物小分子数值特征结构化数据库及其建立方法。

背景技术

新药研发具有成本高、研发周期长、成功率低的三大高风险特性。新药研发成本已超20亿美元，耗时近10年，但最终只有不到1/10的成功率。过程包括了漫长的小分子筛选、临床前研究、三期临床试验、注册审批以及最终的上市后监测。因此，降低研发费用，提高成功率，缩短周期，从而开发有原创性、竞争力和技术门槛高的药物是当前药物研究迫切需要解决的问题。

近些年，信息技术的快速发展带来了数据和计算机算力的爆发式增长，结合行业对于数据分析的需求的推动，人工智能(AI)得到了快速发展，已由实验室走向市场。在药物研究领域，从前期的新药发现到体量巨大的临床试验，都积累了大量的数据。这些数据推动了AI在药物研究中应用的发展，以提高新药研发的成功率和解决复杂的临床问题。目前，AI的各种技术，包括机器学习、图像识别和生成，以及认知计算等已经被用于靶点发现、药物设计、药物性质预测、优化临床试验设计等药物研究的诸多过程。

通过人工智能、大数据等计算机技术辅助设计一种满足指定标准(包括生物活性、药物代谢、药代动力学、可人工合成等)的小分子化合物是新药研发的热点，该方法依靠计算机强大的算力进行虚拟设计和评估，加速药物研究。

计算机技术在应用到药物研究时需要大量的数据支撑，但是现有的药物数据，特别是药代动力学、药物剂量和药物毒性数据，很大一部分都是以文本描述形式，零散的分布在文献、实验记录中。即使是药物信息数据库，如DailyMed、DrugBank、ChEBI等对于这些数据的记录方式也是以文本信息为主，鲜有结构化的数值信息，这就导致研究人员在使用这些数据时需要花费大量的时间去检索、比对、摘录、清洗数据，并且这些数据在整理过程中由于对研究的年龄群体、给药途径等条件信息注释方式的不同，也导致了一些研究难以复现，增加了研究之间结果对比的难度。因此，如何进行条件注释降低信息损失；如何同步这些多源数据的条件信息，使其具有统一性等，这些都是药物数据在应用计算机辅助时的难点。

此外，目前未有专门针对药物小分子数值特征的结构化数据库专利和公开数据库。在搜索国内外已发布的文献中发现有两个相关数据库，PK/DB(http://www.pkdb.ifsc.usp.br)和PK-DB(https://pk-db.com)。但是PK/DB数据库已无法访问，数据无法获取，而且根据其描述仅包含了药代动力学的5个特征，数据量仅为2973条。另一个数据库PK-DB仅包含512项药代动力学临床研究的数据，提供从数据中计算的8项药代动力学参数。这些数据库包含的药物特性有限，并且不是专为药物筛选、比较和分析而设计构建。

因此，亟待一种药物小分子数值特征结构化数据库，将其他药物数据库和文献中收录的药物数值信息数据挖掘出来，通过建立统一的规范，使数据具有一致性，进而能够直接用于计算机输入以辅助药物研究。

发明内容

基于此，本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种药物小分子数值特征结构化数据库及其建立方法，该方法建立的数据库能直接用于计算机输入以辅助药物研究，节省药物研究相关人员在前期数据处理上花费的时间。

本发明的另一个目的在于提出一种基于药物特征的类药性分析系统。

为达到上述目的，本发明一方面实施例提出了药物小分子数值特征结构化数据库的建立方法，包括以下步骤：步骤S1，获取期刊、专著及权威数据库中经实验验证的数据作为数据源；步骤S2，筛选所述数据源中药物特征的文本信息，将所述文本信息中描述的特征产生条件和条件相关性进行编码，以建立编码规范；步骤S3，通过人工或机器摘录所述文本信息中的数值信息，并根据所述编码规范对所述数值信息进行注释、分类和归纳，生成初始参考数据；步骤S4，对所述初始参考数据进行数据清洗，得到最优参考数据；步骤S5，通过统计学方法、频次计数、数据值范围域分析对所述最优参考数据进行分析得到多个统计分析图，将所述多个统计分析图和所述最优参考数据构建成药物小分子数值特征结构化数据库。

本发明实施例的药物小分子数值特征结构化数据库及其建立方法，通过选取公开权威的数据源，建立条件编码规范，然后对其中的药物数值特征摘录，再进行数据清洗，得到可直接用于计算机输入的数值信息，最终以此构建结构化数据库，该数据库为计算机辅助药物特征研究提供了全面、可靠的数据，既能为科研人员提供药物数值特征的快速浏览，又具有结构化高可用性，为人工智能、大数据等新兴信息技术提供高质量的数据输入，节省药物研究相关人员在前期数据处理上花费的时间，从而加速药物研究中新药发现、临床前研究两个阶段的过程。

另外，根据本发明上述实施例的药物小分子数值特征结构化数据库及其建立方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述数据源来源于Drugbank、T3DB、ATSDR、PDR和《The Pharmacological Basis of Therapeutics》附录和《Trend Analysis of aDatabase of Intravenous Pharmacokinetic Parameters in Humans for 1352DrugCompounds》。

进一步地，在本发明的一个实施例中，所述步骤S2从化学结构、给药途径、年龄群体、物种、蛋白结合方式、清除途径、清除率、代谢方式、健康水平、半衰期、分布容积和其他影响的12个方面建立所述编码规范，且所述编码规范均以字母开头，遵循编码之间独立互斥的原则，在描述药物多条件时用“-”连接。

进一步地，在本发明的一个实施例中，所述编码规范中的正负相关采用最后一位标记，1表示正相关，即上调；2表示负相关，即下调；3表示当前因素无影响。

进一步地，在本发明的一个实施例中，所述步骤S3具体包括：步骤S301，人为或机器筛选所述文本信息中的重要段落；步骤S302，人为或机器摘录所述重要段落中的数值信息；步骤S303，根据所述编码规范对所述数值信息进行注释，标记影响因素的正负相关性，并进行分类归纳，得到初始参考数据。

进一步地，在本发明的一个实施例中，所述步骤S4中根据所述初始参考数据的数据特点提取出可直接用于数据分析的值，且在提取过程中校对所述初始参考数据中的错误和不合理内容，统一单位，以及简化范围数据提取分析值。

进一步地，在本发明的一个实施例中，所述步骤S5具体包括：步骤S501，将所述最优参考数据中的单个药物所摘录的特征与总体特征进行参照对比，构建出每个药物特征雷达图；步骤S502，从预设药物小分子数据中对已批准药物小分子的特征数量和所述最优参考数据中的特征值数量进行统计，构建出药物特征数量统计图；步骤S503，构建所述最优参考数据中的药物单个特征的数据频次直方图；步骤S504，将所述每个药物特征雷达图、所述药物特征数量统计图和所述药物单个特征的数据频次直方图和所述最优参考数据进行数据分析整理，得到所述药物小分子数值特征结构化数据库。

进一步地，在本发明的一个实施例中，所述雷达图的上限为Q3+1.5IQR，下限为Q1-1.5IQR。

为达到上述目的，本发明另一方面实施例提出了基于药物特征的类药性分析系统，包括：药物特征类药性评估子系统和药物特征富集分子系统，其中，所述药物特征类药性评估子系统包括第一数据输入模块、第一数据分析模块和第一结果输出据模块，所述第一数据输入模块，用于输入待分析药物的特征数据，作为第一样本数据；所述第一数据分析模块，用于在所述药物小分子数值特征结构化数据库中查询与所述待分析药物特征对应的所有已批准药物小分子数据作为第一总体数据，对所述第一总体数据进行正态性检验，对所述第一总体数据和所述第一样本数据进行T检验和秩和检验，获得总体正态性检验结果、二者T检验和秩和检验的统计量和P值；所述第一结果输出模块，用于输出所述总体正态性检验结果、所述二者T检验和秩和检验的统计量和所述P值，并绘制所述样本数据和所述总体数据的第一violin plot对比图；所述药物特征富集分子系统包括第二数据输入模块、第二数据分析模块和第二结果输出模块，所述第二数据输入模块，用于输入待分析的一组药物ID；所述第二数据分析模块，用于在所述药物小分子数值特征结构化数据库中查询所述待分析一组药物ID中每个ID对应的药物数据，根据特征值和单位对所述每个ID的全部数据进行分类汇总，作为第二样本数据，查询所述药物小分子数值特征结构化数据库中已批准小分子对应特征和单位的全部数据作为第二总体数据，将所述第二样本数据和所述第二总体数据进行总体正态性检验、样本正态性检验结果、F检验和T检验和秩和检验，获得正态性检验结果、F检验结果、T检验和秩和检验的统计量和P值；所述第二结果输出模块，用于输出所述总体正态性检验结果、所述样本正态性检验结果、所述F检验结果、所述T检验和秩和检验的统计量和所述P值，并绘制所述样本数据和所述总体数据的第二violin plot对比图，其中，所述第一violin plot图和所述第二violin plot图均包括两部分，内部为箱线图，用于展示数据分布特征，外部为核密度图，用于估计任意值区间的数据概率密度。

本发明实施例的基于药物特征的类药性分析系统，一方面可在药物发现早期对所研究药物和已批准小分子进行类药性评估，另一方面可用于分析与DDPD(DDPD，全称Digital Drug Property Database，用于代指本方法构建的数据库实例)中已批准药物相比，具有共同特性的一组药物，其特征是否集中在较高/较低的水平。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的药物小分子数值特征结构化数据库的建立方法的流程图；

图2是本发明具体实施例一的药物特征雷达图；

图3是本发明具体实施例一的已批准药物小分子的特征数量图；

图4是本发明具体实施例一的已批准药物小分子的特征值数量图；

图5是本发明具体实施例一的数据频次直方图；

图6是本发明具体实施例一的基于药物小分子数值特征结构化数据库构建的网站HOME示意图；

图7是本发明具体实施例一的基于药物小分子数值特征结构化数据库构建的网站SEARCH示意图；

图8是本发明具体实施例一的基于药物小分子数值特征结构化数据库构建的网站BROWSE示意图；

图9是本发明具体实施例一的基于药物小分子数值特征结构化数据库构建的网站ANALYSIS示意图；

图10是本发明具体实施例一的基于药物小分子数值特征结构化数据库构建的网站STATISTICS示意图；

图11是本发明具体实施例一的基于药物小分子数值特征结构化数据库构建的网站DOWNLOAD示意图；

图12是本发明具体实施例一的基于药物小分子数值特征结构化数据库构建的网站HELP示意图；

图13是本发明一个实施例的基于药物特征的类药性分析系统的结构示意图；

图14是本发明一个实施例的药物特征类药性评估子系统绘制的第一violin plot对比图；

图15是本发明一个实施例的药物特征富集分析子系统绘制的第二violin plot对比图；

图16是本发明具体实施例二中药物特征类药性评估子系统的输出结果示意图；

图17是本发明具体实施例二中药物特征富集分析子系统的输出结果示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的药物小分子数值特征结构化数据库的建立方法以及基于药物特征的类药性分析系统，首先将参照附图描述根据本发明实施例提出的药物小分子数值特征结构化数据库的建立方法。

图1是本发明一个实施例的药物小分子数值特征结构化数据库的建立方法的流程图。

如图1所示，该药物小分子数值特征结构化数据库的建立方法包括以下步骤：

在步骤S1中，获取期刊、专著及权威数据库中经实验验证的数据作为数据源。

可以理解的是，数据源的选择要具有权威性，数据真实可靠，并经过实验验证，可以选择期刊、专著等文献，以及公开发表的药物类数据库和可免费获取的药物类软件中提供的数据，故本发明实施例的数据源可选取来源于Drugbank、T3DB、ATSDR、PDR和《ThePharmacological Basis of Therapeutics》附录以及期刊文献《Trend Analysis of aDatabase of Intravenous Pharmacokinetic Parameters in Humans for 1352DrugCompounds》。需要说明的是，摘录数据来源不限，仅需是公开发表期刊、专著等文献，以及权威数据库即可，本领域技术人员可根据实际情况进行选择，在此不做具体限定。

在步骤S2中，筛选数据源中药物特征的文本信息，将文本信息中描述的特征的产生条件和条件相关性进行编码，以建立编码规范。

可以理解的是，药物特征信息(如药代动力学、最大剂量等数据)在实验测定时会受到多方面因素的影响，例如受试者的给药剂量、年龄、体重、性别、吸烟、遗传变异或疾病等因素，由此导致同一个药物的同一特征在不同的实验条件下获得的数据不同，因此，需要记录药物指定特征的条件数据，对此在数据摘录过程中需要对数据的产生条件和相关性记录方式进行编码，一是可以简化记录内容，二是编码之间可建立比较规范。另外，这些因素对实验数据测定的影响又存在正相关和负相关，也需要增加编码多样性进行标注。

具体地，本发明实施例所建立的编码规范为统一形式，均以字母开头，并尽可能遵循编码之间独立互斥的原则以降低编码数量，编码的正负相关采用最后一位标记，1表示正相关，即上调；2表示负相关，即下调；3表示当前因素无影响。如“h01”高血压，如果高血压会提高药物的吸收率，采用“h011表示”，且在描述药物多条件时用“-”连接。

进一步地，在实际过程中，本领域技术人员即使前期做了充分的调查和整理来建立编码规范，实际上摘录中仍不能覆盖所有场景，由于一些药品的特殊性，其实验研究条件复杂多样，除了现有编码规范中的化学结构、给药途径、年龄群体、物种、蛋白结合方式、清除途径、清除率、代谢方式、健康水平、半衰期、分布容积、其他影响这12个方面条件约束，还受到情绪、基因型等多重条件约束，因此初始构建的编码规范会存在一定疏漏，本发明实施例中的编码规范需要实际摘录中不断完善补充，从而提高数据准确性。

在步骤S3中，通过人工或机器摘录文本信息中的数值信息，并根据编码规范对数值信息进行注释、分类和归纳，生成初始参考数据。

具体地，由于数据源中记录的内容大多是文本信息，具有数据结构多样、数据内容复杂、信息一致性差的特点，因此难以实现自动化处理，故本发明实施例在确定数据源和编码规范之后，只能人为阅读文献信息，从中筛选语言文字，按步骤S2中所制定编码规范从筛选后的文本信息中摘录数值信息，如数值、单位、条件等信息，并依照上述编码规范予以注释，标记影响因素的正负相关性，最后再进行分类归纳，生成初始参考数据。

在步骤S4中，对初始参考数据进行数据清洗，得到最优参考数据。

具体地，在实际摘录数据的过程中，由于多种原因，如编码规范构建不完善、结构错误、数据重复、单位不统一、范围值数据等情况，都会造成数据无法满足分析需求，因此，在采用计算机模型分析数据之前，需要进行数据清洗提高数据的完整性、全面性、合法性、唯一性。

举例而言，由于数据来自不同的文献，对同一过程的描述也存在一定差异，而这些描述包含的条件在建立编码规范阶段存在一定的遗漏和多对一关系，因此，需要在摘录完参考数据后，对摘录过程的问题进行汇总，根据数据特点提取范围数据中的分析值，补充编码规范和数据规范等数据清洗操作，从而提高数据的可用性。

在步骤S5中，通过统计学方法、频次计数、数据值范围域分析对最优参考数据进行分析得到多个统计分析图，将多个统计分析图和最优参考数据构建成药物小分子数值特征结构化数据库。

换句话说，在完成数据清洗获得高质量可用数据之后，利用统计学方法、频次计数、数据值范围域分析等分析方法，建立直方图、雷达图等统计分析图，以直观的展现数据特点，分析数据内容，并将多个统计分析图和最优参考数据构建成药物小分子数值特征结构化数据库。

具体地，步骤S5采用数据统计方法建立每个药物特征雷达图、药物特征数量统计图、药物单个特征的数据频次直方图，具体如下：

步骤S501，如图2所示，将最优参考数据中的单个药物所摘录的特征与总体特征进行参照对比，构建出每个药物特征雷达图，以反映当前药物每个特征的特点；

步骤S502，如图3和4所示，从已收集的药物小分子数据中选取已批准药物小分子的特征数量和最优参考数据中的特征值数量进行统计，构建出药物特征数量统计图，以反映FDA已批准小分子的总体研究情况，通过与单个药物特征数量和特征值数量的比较，反映该药物的研究热度；

步骤S503，如图5所示，构建最优参考数据中的药物单个特征的数据频次直方图，以反映每个药物数据的分布情况，有助于药物研究人员了解成药小分子特征整体分布，在研究之前对药物特征建立合理的预期范围，优化实验设计；

步骤S504，将每个药物特征雷达图、药物特征数量统计图和药物单个特征的数据频次直方图和最优参考数据进行数据分析整理，得到药物小分子数值特征结构化数据库。

下面通过具体实施例一对本发明的药物小分子数值特征结构化数据库的建立方法进一步说明。

步骤一，确定数据源。数据源的选择要具有权威性，数据真实可靠，并经过实验验证，以为后续的分析提供良好的基础，可以选择期刊、专著等文献，以及公开发表的权威数据库。

(1)Drugbank：www.drugbank.ca

关于药物化学、药理学、药代动力学等信息的综合性数据库

(2)T3DB：www.t3db.ca

常见毒素及其靶标数据库

(3)ATSDR：www.atsdr.cdc.gov

美国毒物与疾病登记署

(4)PDR：www.pdr.net

关于可信药物处方信息的重要资源

(5)《The Pharmacological Basi s of Therapeutics》附录

药理学研究的相关知识

(6)《Trend Analysis of a Database of Intravenous PharmacokineticParameters in Humans for 1352Drug Compounds》

文章的补充表1总结了1352种化合物在人体中的分布容积、清除率和蛋白结合率数据。

步骤二，建立编码规范。

药物性质的研究以实验研究为主，为了确保实验设计的可靠性和研究的安全性，实验条件都比较复杂。这也使药物药代动力学、剂量、毒性等特征在测定时会受到多方面因素的影响，例如受试者的给药剂量、年龄、体重、性别、吸烟、遗传变异或疾病等因素，这些因素同时又存在正相关和负相关，由此导致同一个药物的同一特征在不同的实验条件下获得的数据不同，因此需要在文献记录中对于实验的条件描述必不可少。

由于所选数据源中收录的数据大多从实验研究中摘录，包含大段文本描述阐述实验条件，这些条件千差万别，即使对同一过程的描述也存在一定的差异，如给药方式中，口服的记录形式就有“oral”，“ORAL”，“P.O.”，“PO”，“po”等，记录方式的不统一，导致数据分析阶段需花费大量时间统一记录形式。对此，本发明实施例在数据摘录过程中需要对数据的产生条件和相关性记录方式进行编码统一，以编码代替实验条件记录为数值信息添加注释。这样一方面确定了条件的唯一性，另一方面增加了不同编码间的可比性，例如采用“a100”代替口服，采用“a200”代替静脉注射，此时假如静脉注射默认生物利用度100％，如果药物在静脉注射时单次给药最大剂量是0.3mg，其口服生物利用度为30％，则对应的剂量应该不高于1mg。

本实施例中，根据对数据的整理，从12个方面建立了数据条件的编码规范，参见表1，编码均以字母开头，多条件用“-”连接。数据编码整理的内容如下(部分)：(1)化学结构：用以记录药物的结构性质，如“c01 R/S手性”“c02外消旋D/L型”；(2)给药途径：用以记录给药方式，如“a100口服”，“a400肌肉注射”。在给药途径中，最后一个用于区分给药次数，如“a106”为单次口服给药，“a107”为多次口服给药，“a108”为联合用药，即除口服意外伴随着其它形式的用药，由于联合用药数据量少且完整记录会大幅增加信息的复杂度，本发明对联合用药的详细信息未做记录，如研究人员有需要，可通过参考文献查找，也说明了数据损失是数据转换中不可避免的情况；(3)年龄群体：用以记录受试对象为人时的特征，如“g01男性”，“g10妊娠”；(4)物种：用以记录受试对象的种属，如“s02小鼠”，“s03大鼠”；(5)蛋白结合方式：用以记录药物在体内与蛋白结合的方式，如“p01血浆蛋白”，“p03红细胞”；(6)清除途径：用以记录药物排除体内的方式，如“r01尿路排出”，“r02粪便排出”；(7)清除率：用以记录数值所属的清除率类型，如“t01总清除率”，“t02肾清除率”；(8)代谢方式：用以记录药物的代谢方式，如“m02肾脏代谢”，“m03肝脏代谢”；(9)健康水平：用以记录受试者的健康状况，如“h01高血压”，“h02肝损伤”；(10)半衰期：用以记录半衰期的类型，如“b01elimination half-life”，“b02 terminal half-life”；(11)分布容积：用以记录分布容积的类型，如“v01平均分布容积”，“v04表观分布容积”；(12)其他影响：用以记录一些行为方式、酸碱度等上述11个因素以外的其它影响因素，如“f02食物”，“f03吸烟”。

上述构建编码规范的规则统一，均采用字母开头，并尽可能遵循编码之间独立互斥的原则以降低编码数量。另外，编码的正负相关采用最后一位标记，1表示正相关，即上调；2表示负相关，即下调；3表示该因素无影响。如“h01”编码代表患有高血压，如果高血压会提高药物的吸收率，采用“h011”表示，反之采用“h012”，如在文字描述中特殊说明高血压对吸收率无影响，则记录“h013”，反之，不做记录。

表1

/>

步骤三，获取参考数据。

对于数据源中的数值信息，需要人为从文本信息中摘录其中的数值、单位、条件等信息，分类归纳，作为参考数据。

以下以Drugbank数据库中的药物Leuprolide为例，简述摘录过程。

原文内容为“Leuprolide is typically administered as a single-doselong-acting formulation employing either microsphere or biodegradable soliddepot technologies.Regardless of the exact formulation and initial dosestrength,the Cmax is typically achieved by 4-5hours post-injection anddisplays large variability in the range of 4.6-212ng/mL.Eventual steady-statekinetics are typically achieved by four weeks,with a narrower range of 0.1-2ng/mL.No studies on the effects of food on absorption have been carried out”

其中，可摘录信息如表2(a200用以代表静脉注射)：

表2

另外，最大剂量的数据在摘录时需要综合考虑复合药、制剂、药物成分含量等因素，因为药物给药并不是直接摄入小分子原料药，而是需要添加辅料、添加复合药原料等方式制成成品药。因此，最大剂量的数据需要查询成品药中对应小分子的最大含量，对于复合药，小分子与复合药是多对一的关系，应予以分别记录，表3以药物Rifater为例说明：

Rifater是一种复合药物，对应的三种小分子成分为isoniazid/pyrazinamide/rifampin，对应的含量分别为50mg/300mg/120mg，在剂量描述中为“体重大于55kg：每日口服6片”，则对应的最大剂量为300mg/1800mg/720mg，条件记为a100(口服)。

表3

步骤四，数据清洗。

数据清洗是对数据的再次审查和校验，通过统一单位、校正不合理信息、删除重复信息等方式来建立数据一致性。在数据库在构建过程时，数据摘录由于内容复杂，工作量巨大，不可避免的会存在主观或客观上的问题，导致数据存在错误、遗漏和规范不统一的情况。主观方面，摘录人员的文献阅读能力和药物知识的差异，会导致数据条件的归类错误，如广义上局部用药“Topical”和经皮给药“Transdermal”都可归类为“skin”用药，但是在建立条件编码时将这两种给药方式单独编码，在数据清洗阶段予以纠正，将其归为“skin”用药。再者，编码规范在建立过程中也存一定的遗漏和重复，需要进行完善。客观方面，药物数据库中数据单位统一，数据库中记录错误等情况也会导致数据不合理。

本实施例中对数据清洗过程进行以下举例说明：

例1：单位统一

数据之间进行分析比较时，一定是单位统一才具有可比性。在摘录过程中，对于单位记录形式予以约定，如“H”和“h”统一记录为h，“L”和“l”记录为“L”，“ml”“mL”“ML”记为“ml”，未说明单位的记录为“null”等。但是由于单位的计量大小不一致，在数据分析前还需再次将其进行统一，将相同形式的单位转换为同一单位，转换前的单位如表1，转换后的单位如表4，转换后的单位如表5。转换过程以同一形式的单位数量最多的为基准，如表4中选择了“ng.h/ml”作为基准单位，可以看到转换后大幅缩减了单位的数量，使单位更加集中，保证了后续分析时数据的一致性。

/>

例2：单位选择

药物数据分析需要满足两个条件，一是同一特征对比时，需要具有相同的单位才具有可比性，比如在例一转换后的单位，“ng.h/mg”和“ng/ml”显然不具有可比性；二是要有一定的数量支撑，如果只有几个数据构建频率直方分布图描述数据分布，显然误差较大，参考性小。为此，本发明实施例只选择其中数据量大于50的单位完成后续分析，对于单位数量小于50的数据不做统计分析，统计结果按特征单位进行分类，单位筛选结果如下表6(注：表中“-”表示该数据没有单位，数据可直接比较)：

表6

例3：分析值确定

如“步骤三，获取参考数据”所示，摘录的数据中存在大量范围数据和标准差数据，如“4.6-212ng/ml”“4.5±0.5h”等数据，在实际进行数据分析中仍无法直接用于计算机模型输入，对此在数据清洗阶段将其拆分成三个值，最大值、最小值、分析值，拆分过程分为以四种情况，如表7：

表7

摘录值	摘录单位	分析值	最大值	最小值	单位
						5	h	5	-1	-1	h
4-6	h	5	6	4	h
						4.5±0.5	h	4.5	5	4	h
1±1.2	h	1	2.2	-1	h

(1)对于单个摘录值，如“5”，最大值和最小值记为-1，表示没有数据，分析值记为“5”；

(2)对于范围摘录值，如“4-6”，最大值记为6，最小值记为4，分析值记录其均值“5”；

(3)对于标准差摘录值，如“4.5±0.5”，最大值记为5，最小值记为4，分析值记为4.5；

(4)对于标准差摘录值超过数据合理范围的，如“1±1.2”，最大值记为“2.2”，最小值小于0无意义，因此记为“-1”，分析值记为1。

例4：数据错误

数据清洗阶段，通过单位转换后的数据筛选，检测到这些数据源中存在的一些错误数据，如Drugbank数据库中，ID为“DB00104”的药物Octreotide，其吸收中关于Cmax的描述为“At 20mg twice a day in patients with acromegaly,peak concentration was2.5mg/nL versus 5.30ng/mL at 40mg twice a day.”，经过换算，“2.5mg/nL”为“2.5*1018ng/mL”，不仅远大于所描述的上限“5.3ng/mL”，也远不合常理，经过查询文献出处，发现是网站单位记录错误，故将“2.5mg/nL”改为“2.5ng/mL”。

步骤五，特征统计，构建结构化数据库，并构建网站。

对步骤四得到的数据进行统计分析，具体包括以下：

(1)如图2所示，药物特征雷达图是单个药物所摘录的特征与总体特征的参照对比，反映了本药物每个特征的特点。

(2)如图3和4所示，药物特征数量统计图是从所收集的药物小分子数据中，对FDA已批准的小分子的特征数量和特征值数量的统计，反映了FDA已批准小分子的总体研究情况，通过与单个药物特征数量和特征值数量的比较，能反映该药物的研究热度。

(3)如图5所示，数据频次直方图，反映了每个药物数据的分布情况，有助于药物研究人员了解成药小分子特征整体分布，在研究之前对药物特征建立合理的预期范围，优化实验设计。

然后将上述获得的统计图和步骤四中获得最优参考数据进行数据分析整理，获得结构化数据库。

进一步地，可以基于结构化数据库采用现有的成熟web技术(不区分编程语言，如java的springboot，python的django，golang的beego等)构建网站服务，展示所整理数据内容和分析图，并为用户提供数据介绍和数据下载服务，包括如下功能，一是解释说明网站构建目的，记录网站版本更迭，二是提供多种查询功能和其对应查询结果，三是提供不同方式的全站数据浏览功能，四是提供在线分析工具的入口，五是展示特征统计阶段的分析图，六是提供网站数据的注解和网站使用方法的讲解，七是介绍网站开发组织，例如研究方向、团队成员、联系方式等，即包括HOME(首页)、SEARCH(搜索)、BROWSE(浏览)、ANALYSIS(分析)、STATISTICS(统计)、DOWNLOAD(下载)、HELP(帮助)七个功能模块，其中，HOME页提供了快速搜索功能和网站基本介绍，SEARCH页提供了多种搜索功能，BROWSE提供了不同的数据浏览方式和每个药物的详情，ANALYSIS页提供了基于药物特征的类药性分析系统的访问入口，STATISTICS页提供了对于数据的统计分析，DOWNLOAD页提供了数据下载服务，HELP是对网站特征和功能的介绍，具体如下：

如图6所示，HOME页提供了快速搜索功能和网站基本介绍，并对本实例中收集的数据做了全面分类统计，首先是已批准且有研究数据的药物小分子，数据库中收录的药物特征种类数，无重复的药物特征数量和特征值的总数，然后用三个表格分别列出了实验测定的理化性质、药动学/毒理性质、最大剂量性质中每种特征的药物数和特征值数量，如图6b所示。其中，特征值的计数方式是如果药物具有多个同一特征，则记录多个，而特征数量的计数方式是无论药物在某个特征中有几个数据，只记1次。

如图7所示，SEARCH页提供了高级搜索功能，包括多条件组合查询、结构相似性查询和SMILES相似性查询。多条件组合查询的条件包括药物ID、药物名称、CAS Number以及属性范围过滤查询。结构相似性查询首先通过分子结构画板输入结构，然后输入期望的相似度进行查询。SMILES相似性查询首先直接输入药物的SMILES字符数据，然后输入期望的相似度进行查询。

HOME页的快速搜索和SEARCH页的高级搜索结果页面，显示了药物的ID，NAME，CASNumber，药物结构，特征数和特征值数，并有搜索结果总数统计及搜索结果下载功能。结构相似搜索和SMILES相似搜索在上述高级搜索结果显示内容的基础上增加了相似度和SMILES，同样有结果统计和下载功能。

如图8所示，BROWSE页提供了两种浏览方式：“Browse by Drug Name(根据药名浏览)”和“Browse by Drug ID(根据ID浏览)”以对所有数据浏览。页面显示了药物的ID，NAME，CAS Number，药物结构，特征数和特征值数。点击药物ID进入每个药物的详情页面，该页面分为五部分内容，“Basic Information(基本信息)”部分是药物的分子质量、分子式、SMILES等基本信息，“Experimental Physicochemical Property(理化实验性质)”是通过实验获得的药物理化性质数值信息，包括熔点、沸点等，并给出了数据来源。“Pharmacokinetic/Toxicokinetic Property(药动学/毒理特征)”是药代动力学和毒理特征的数值信息，“Maximum Dosage(最大剂量)”是药物的最大剂量数值信息。“DrugProperty Radar Chart(药物特征雷达图)”是根据药物所有特征信息绘制的雷达图展示药物数值特点，在统计学上，认为[Q1-1.5IQR,Q3+1.5IQR]区间以外的数据为离群值，因此雷达图的上限为选择该特征数据的Q3+1.5IQR，雷达图的下限为Q1-1.5IQR，如果超出则取界限值。

如图9所示，ANALYSIS页提供了基于药物特征的类药性分析系统的访问入口，可在药物发现早期化合物筛选中对药物类药性进行评估。功能详情将在下述具体实例二中进行详细说明。

如图10所示，STATISTICS页提供了对于数据的统计分析，分为两部分，第一部分“Drug Property Statistics(药物特征统计)”统计包括两个图，图“Number ofProperties per Drug(每个药物特征数量统计)”统计了本实例药物所具有的特征数，每种特征无论数据多少只统计一次，图“Number of Property Values per Drug(每个药物特征值数量统计)”统计了本实例药物所具有的特征值数，每种特征有多个数值时统计多次。另一个部分“Property Value Statistics(特征值分布统计)”是对每种的特征进行数据整体正态性分析，反映了每个药物特征数据的分布情况，有助于药物研究人员了解已批准药物小分子特征整体分布，以在研究之前对药物特征建立合理的预期范围，优化实验设计。根据单位筛选结果表，统计结果如图2(部分)。

如图11所示，DOWNLOAD页提供了数据下载服务，包括数据库所整理的完整数据和数据name/ID两个部分内容。

如图12所示，HELP是对网站特征和功能的介绍，首先是“Drug PropertyIntroduction(药物特征介绍)”部分，对本实例摘录的三种数据予以解释说明，包括实验测定的理化性质、药动学/毒理性质、最大剂量性质中每个特征的解释说明。然后是“DDPDFunction Introduction”部分，采用图文并茂的形式介绍了网站每个功能模块的使用方法。

本发明实施例提出的药物小分子数值特征结构化数据库的建立方法，将其他药物数据库和文献中收录的药物数值信息数据挖掘出来，通过建立统一的规范，使数据具有一致性，进而能直接用于计算机输入以辅助药物研究，为人工智能、大数据等新兴信息技术提供高质量的数据输入，节省药物研究相关人员在前期数据处理上花费的时间，并且数据库基于此数据提供了药物类药性在线分析工具，通过对所收集数据的分析，对药物特征进行类药性评估，不仅可以为新药设计提供指导，还能对已设计的药物进行合理评估，促进计算机辅助药物设计和研究的发展。

其次参照附图描述根据本发明实施例提出的基于药物特征的类药性分析系统。

图13是本发明一个实施例的基于药物特征的类药性分析系统的结构示意图。

如图13所示，该系统10包括：药物特征类药性评估子系统101和药物特征富集分子系统102。

其中，药物特征类药性评估子系统101包括第一数据输入模块1011、第一数据分析模块1012和第一结果输出模块1013：

第一数据输入模块1011，用于输入待分析药物的特征数据，作为第一样本数据。具体地，首先选择给药方式，然后选择要分析的特征，之后输入所需分析的特征值和单位，可以输入单个数据或者多个数据进行提交；

第一数据分析模块1012，用于在药物小分子数值特征结构化数据库中查询与所输入的药物特征对应的所有已批准药物小分子数据作为第一总体数据，对第一总体数据进行正态性检验，对第一总体数据和第一样本数据进行T检验和秩和检验，获得总体正态性检验结果、二者T检验和秩和检验的统计量和P值，以判别数据之间差异性；

第一结果输出模块1013，用于输出总体正态性检验结果、二者T检验和秩和检验的统计量和P值，并绘制样本数据和总体数据的第一violin plot对比图，以更直观的展现数据的差异性，如图14所示。violin plot图分为两部分，内部为箱线图，用于展示数据分布特征，外部为核密度图，用于估计任意值区间的数据概率密度。

进一步地，药物特征富集分子系统102包括第二数据输入模块1021、第二数据分析模块1022和第二结果输出模块1023，有助于分析与DDPD中已批准药物相比，具有共同特性的一组药物，其特征是否集中在较高/较低的水平。该子系统与药物特征类药性评估子系统一样，包括据输入、分析和输出三个模块，但功能存在差异，具体如下：

第二数据输入模块1021，用于输入待分析的一组药物ID；

第二数据分析模块1022，用于在药物小分子数值特征结构化数据库中查询所输入的一组药物ID中每个ID对应的药物数据，根据特征值和单位对每个ID的全部数据进行分类汇总，作为第二样本数据，查询药物小分子数值特征结构化数据库中对应特征和单位的全部数据作为第二总体数据，将第二样本数据和第二总体数据分别进行正态性检验、F检验和T检验和秩和检验，获得样本正态性检验结果、总体正态性检验结果、F检验结果、T检验和秩和检验的统计量和P值；

第二结果输出模块1023，用于输出总体正态性检验结果、样本正态性检验结果、F检验结果、T检验和秩和检验的统计量和P值，并绘制样本数据和总体数据的第二violinplot对比图，如图15所示，以更直观的展现数据的差异性。

下面通过具体实施例二对本发明提出的基于药物特征的类药性分析系统进一步详细说明。

在药物研究过程中，通过对药物实验数据的类药性分析，可以及时分析实验的阶段成果，从而及时发现所研究药物特征与已成药小分子的分布差异，引导下一步实验。对单个药物特征和多个同类药物进行差异显著性分析。

若科研人员在药物研究中获得一小分子药物的Caco-2渗透性为-1，AUC为35000ng.h/ml，通过药物特征类药性评估子系统，输入系统以后的结果(如图16所示)，可以明显看出，Caco-2渗透性与已批准的药物小分子整体数据相比，已明显超出合理范围，T检验和秩和检验的P值均小于0.05，因此可以考虑对分子基团进行修饰，以降低分子的Caco-2值，提高类药性。AUC虽然没有超出合理区间，但是已批准小分子AUC在该值处的概率密度非常低，由于秩和检验的P值0.055也仅仅略大于0.05，故也应该考虑降低该分子的AUC。

药物特征富集分析子系统允许科研人员输入一组具有共同功能的药物，如针对表皮生长因子受体的药物小分子有“Cetuximab、Gefitinib、Erlotinib”等，先查询药物在数据库中的ID，然后输入到系统中，共得出26个特征的分析数据，如图17所示。从中可以看出，针对表皮生长因子的药物小分子其Caco-2渗透性，Log P和沸点与已批准小分子的药物的该特征具有很高的相似性，大多数P值大于0.05，处于合理范围内，因此在开发针对表皮生长因子受体新药时所筛选的药物小分子，其对应特征也应尽可能处于此区间，以提高新药研发的成功率。

因此，本发明实施例提出的基于药物特征的类药性分析系统，一方面可在药物发现早期对药物和已批准小分子进行类药性评估，另一方面可用于分析与DDPD中已批准药物相比，具有共同特性的一组药物其特征是否集中在较高/较低的水平，从而能够加速药物研究中新药发现、临床前研究两个阶段的过程。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种药物小分子数值特征结构化数据库的建立方法，其特征在于，包括以下步骤：

步骤S1，获取期刊、专著及权威数据库中经实验验证的数据作为数据源，其中，所述数据源来源于Drugbank、T3DB、ATSDR、PDR、《The Pharmacological Basis of Therapeutics》附录和《Trend Analysis of a Database of Intravenous Pharmacokinetic Parametersin Humans for 1352 Drug Compounds》；

步骤S2，筛选所述数据源中药物特征的文本信息，将所述文本信息中描述的特征产生条件和条件相关性进行编码，以建立编码规范，其中，所述步骤S2从化学结构、给药途径、年龄群体、物种、蛋白结合方式、清除途径、清除率、代谢方式、健康水平、半衰期、分布容积和其他影响的12个方面建立所述编码规范，且所述编码规范均以字母开头，遵循编码之间独立互斥的原则，在描述药物多条件时用“-”连接；

步骤S3，通过人工或机器摘录所述文本信息中的数值信息，并根据所述编码规范对所述数值信息进行注释、分类和归纳，生成初始参考数据，具体包括：

步骤S301，人为或机器筛选所述文本信息中的重要段落；

步骤S302，人为或机器摘录所述重要段落中的数值信息；

步骤S303，根据所述编码规范对所述数值信息进行注释，标记影响因素的正负相关性，并进行分类归纳，得到初始参考数据；

步骤S4，对所述初始参考数据进行数据清洗，得到最优参考数据，其中，根据所述初始参考数据的数据特点提取出可直接用于数据分析的值，且在提取过程中校对所述初始参考数据中的错误和不合理内容，统一单位，以及简化范围数据提取分析值；

步骤S5，通过统计学方法、频次计数、数据值范围域分析对所述最优参考数据进行分析得到多个统计分析图，将所述多个统计分析图和所述最优参考数据构建成药物小分子数值特征结构化数据库，具体包括：

步骤S501，将所述最优参考数据中的单个药物所摘录的特征与总体特征进行参照对比，构建出每个药物特征雷达图；

步骤S502，从预设药物小分子数据中对已批准药物小分子的特征数量和所述最优参考数据中的特征值数量进行统计；

步骤S503，构建所述最优参考数据中的药物单个特征的数据频次直方图；

步骤S504，将所述每个药物特征雷达图、所述药物特征数量统计图和所述药物单个特征的数据频次直方图和所述最优参考数据进行数据分析整理，得到所述药物小分子数值特征结构化数据库。

2.根据权利要求1所述的药物小分子数值特征结构化数据库的建立方法，其特征在于，所述编码规范中的正负相关采用最后一位标记，1表示正相关，即上调；2表示负相关，即下调；3表示当前因素无影响。

3.根据权利要求1所述的药物小分子数值特征结构化数据库的建立方法，其特征在于，所述雷达图的上限为Q3+1.5IQR，下限为Q1-1.5IQR。

4.一种基于药物特征的类药性分析系统，基于权利要求1-3中任一项所述的药物小分子数值特征结构化数据库的建立方法，其特征在于，包括药物特征类药性评估子系统和药物特征富集分子系统，其中，

所述药物特征类药性评估子系统包括第一数据输入模块、第一数据分析模块和第一结果输出模块，

所述第一数据输入模块，用于输入待分析药物的特征数据，作为第一样本数据；

所述第一数据分析模块，用于在所述药物小分子数值特征结构化数据库中查询与所述待分析药物特征对应的所有已批准药物小分子数据作为第一总体数据，对所述第一总体数据进行正态性检验，对所述第一总体数据和所述第一样本数据进行T检验和秩和检验，获得总体正态性检验结果、二者T检验和秩和检验的统计量和P值；

所述第一结果输出模块，用于输出所述总体正态性检验结果、所述二者T检验和秩和检验的统计量和所述P值，并绘制所述样本数据和所述总体数据的第一violin plot对比图；

所述药物特征富集分子系统包括第二数据输入模块、第二数据分析模块和第二结果输出模块，

所述第二数据输入模块，用于输入待分析的一组药物ID；

所述第二数据分析模块，用于在所述药物小分子数值特征结构化数据库中查询所述待分析一组药物ID中每个ID对应的药物数据，根据特征值和单位对所述每个ID的全部数据进行分类汇总，作为第二样本数据，查询所述药物小分子数值特征结构化数据库中已批准小分子对应特征和单位的全部数据作为第二总体数据，将所述第二样本数据和所述第二总体数据分别进行正态性检验、F检验和T检验和秩和检验，获得总体正态性检验结果、样本正态性检验结果、F检验结果、T检验和秩和检验的统计量和P值；

所述第二结果输出模块，用于输出所述总体正态性检验结果、所述样本正态性检验结果、所述F检验结果、所述T检验和秩和检验的统计量和所述P值，并绘制所述样本数据和所述总体数据的第二violin plot对比图。

5.根据权利要求4所述的基于药物特征的类药性分析系统，其特征在于，所述第一violin plot图和所述第二violin plot图均包括两部分，内部为箱线图，用于展示数据分布特征，外部为核密度图，用于估计任意值区间的数据概率密度。