CN113268605B

CN113268605B - 一种小分子药物晶型知识图谱的构建方法及系统

Info

Publication number: CN113268605B
Application number: CN202110577719.1A
Authority: CN
Inventors: 李鹤; 温书豪; 马健; 赖力鹏
Original assignee: Shenzhen Jingtai Technology Co Ltd
Current assignee: Shenzhen Jingtai Technology Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2024-01-02
Anticipated expiration: 2041-05-26
Also published as: CN113268605A

Abstract

本发明涉及小分子药物晶型技术领域，为一种小分子药物晶型知识图谱的构建方法及系统，包括：S1，爬取网络已公开的小分子药物的综合数据信息，并对源文件内容进行存储；S2，对所述源文件内容按照关键字归类并进行清洗，其中分子信息及晶体信息按照结构化数据的格式进行处理存放，其他信息按照非结构化数据的方式灵活存放；S3，构建实体数据层，根据所述实体数据层中的数据进一步构建用来存储实体间的关系及实体的属性的模式层。将小分子药物的晶型研究及制成过程中的概念充分发掘，并提供丰富晶型研究中相关实体的类别和属性信息，实现相似晶型的自动查询。对小分子新药的整体研发流程起到促进加速的重要作用。

Description

一种小分子药物晶型知识图谱的构建方法及系统

技术领域

本发明涉及小分子药物晶型技术领域，具体涉及一种小分子药物晶型知识图谱的构建方法及系统。

背景技术

在形成药物晶体的过程中，药物分子以及其他辅助成分（比如溶剂、盐和其他小分子等）通常具有多种空间排列方式，不同排列方式则构成不同的晶型。同一化学药物分子，如果固相不同，溶解度、熔点、溶出度、生物有效性等方面就可能会有显著不同，而药物的稳定性、生物利用度及疗效都会受到影响，直接导致临床试验的成败，有的稳定性问题甚至在药物上架之后才被发现，而那时，药物就不得不下架，给药企造成不可挽回的经济损失和品牌形象的损害。

世界著名药企雅培就曾经发生过这样的事情。1998 年，其抗艾滋药物 Ritonavir（利托那韦）采用了晶型 form I，但在该药物上市两年后，发现 form I 会转变成一种新的更稳定的晶型 form II。form II 的溶解度只有 form I 的四分之一，由于溶解度更差，生物可利用度远低于预期。雅培不得不召回药物，经济损失超过 2.5 亿美元。

现有医药行业构建的知识图谱，大部分集中在了对药物与疾病的相关知识上，而对于药物本身性质的知识图谱构建较少，针对晶型的则暂未发现。

发明内容

本发明提供了一种小分子药物晶型知识图谱的构建方法及系统，解决了以上所述的技术问题。

具体来说，一种小分子药物晶型知识图谱的构建方法，包括：

S1，爬取网络已公开的小分子药物的综合数据信息，并对源文件内容进行存储；

S2，对所述源文件内容按照关键字归类并进行清洗，其中分子信息及晶体信息按照结构化数据的格式进行处理存放，其他信息按照非结构化数据的方式灵活存放；

S3，构建实体数据层，根据所述实体数据层中的数据进一步构建用来存储实体间的关系及实体的属性的模式层。

其中，所述源文件内容可以包含文本信息、图片、视频、音频等信息。

优选地，所述综合数据信息包括小分子药物的分子信息、适应症信息、药物专利、晶体保护专利、药物发现流程文章、晶型制备文章及临床试验结果信息。

优选地，所述S1具体包括：确定关键词，通过多层次多维度信息挖掘方式获取小分子药物研发及制备各环节中的关键信息。

优选地，所述S1进一步包括：确认药物客体的检索词，在一网络数据库中对该关键词的综合数据信息的爬取，若发现所述药物客体的综合数据信息缺失，则在另一网络数据库中爬取缺失数据类别。

优选地，所述S2具体包括：以文件形式直接存储在原始分布式文件系统HDFS（Hadoop Distributed File System）中以供后续被获取及被使用。

优选地，所述S2具体包括：先对对所述源文件内容进行去重、分词、无效信息剔除以及连贯性检查，然后进行标记，以确保清洗后的数据干净可用，没有错误信息。

优选地，对清洗完成的数据归类，具体包括，归类结构化数据为一级分类，且保证分子信息与晶体信息没有重合；归类非结构化信息为二级分类且与一级分类进行分别对应。

优选地，所述S3具体包括：抽取实体及对应的实体属性；

实体抽取包含根据清洗数据中的结构化数据部分，标注命名实体，基于RNN或CNN的方法训练神经网络进行实体抽取；

实体属性抽包含在实体构建的基础上，采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式。

优选地，所述S3还包括：利用统计机器学习，通过面向封闭领域的方法自动化抽取实体间关系；

所述实体间关系包括：一是分子与晶体、晶体与晶体的结构化数据的关系，表现为网状结构；二是分子或晶体与事件及制备相关非结构化数据中抽取的实体，表现为线性连接关系。

本发明还提供了一种用于小分子药物晶型知识图谱方法的系统，包括：

数据采集模块，用于爬取网络已公开的小分子药物的综合数据信息，并对源文件内容进行存储；

预处理模块，用于对所述源文件内容按照关键字归类并进行清洗，其中分子信息及晶体信息按照结构化数据的格式进行处理存放，其他信息按照非结构化数据的方式灵活存放；

图谱构建模块，用于构建实体数据层，根据所述实体数据层中的数据进一步构建用来存储实体间的关系及实体的属性的模式层。

有益效果：本发明提供了一种小分子药物晶型知识图谱的构建方法及系统，将小分子药物的晶型研究及制成过程中的概念充分发掘，并提供丰富晶型研究中相关实体的类别和属性信息，实现相似晶型的自动查询。对小分子新药的整体研发流程起到促进加速的重要作用。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明小分子药物晶型知识图谱的构建方法及系统的流程示意图；

图2为本发明小分子药物晶型知识图谱的构建方法及系统的具体案例解析图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1和图2所示，本发明提供了一种小分子药物晶型知识图谱的构建方法，包括：S1，爬取网络已公开的小分子药物的综合数据信息，并对源文件内容进行存储；S2，对所述源文件内容按照关键字归类并进行清洗，其中分子信息及晶体信息按照结构化数据的格式进行处理存放，其他信息按照非结构化数据的方式灵活存放；S3，构建实体数据层，根据所述实体数据层中的数据进一步构建用来存储实体间的关系及实体的属性的模式层。将小分子药物的晶型研究及制成过程中的概念充分发掘，并提供丰富晶型研究中相关实体的类别和属性信息，实现相似晶型的自动查询。对小分子新药的整体研发流程起到促进加速的重要作用。

知识图谱是一种结构化的语义知识库，用于描述概念及相互关系，通过将数据粒度从文档级别降低到实体级别，可以聚合大量知识，从而实现知识的快速响应、推理。本实施例方案将小分子药物的晶型研究及制成过程中的概念充分发掘，并提供丰富晶型研究中相关实体的类别和属性信息，实现相似晶型的自动查询。

具体来说，数据采集模块构建了知识建模的功能，解决了数据来源与定义的问题。以石杉碱甲为例，在专利搜索网站上对该关键词进行检索，可以搜索到多篇相关专利，包含了多晶型专利与制备专利等，基于多晶型专利，能够采集到其I型、II型、III型晶体形态、XRD图像、晶体物理特征等，从制备专利中，可以采集到制备方法产生的时间、方法所用流程、所需溶液/溶剂、需要的配体/辅料等信息，同时专利中也包含了石杉碱甲的分子式与常见用途。基于以上数据，可以提取到作为药物的石杉碱甲在构建分子实体、晶体实体、事件实体、制备实体时所需信息；专利检索完成后，如果发现还有某种实体的信息存在缺失，则可以进一步通过挖掘百科相关数据或搜索引擎扩大检索范围，例如百度百科中相关词条提到了药典介绍能够对晶型实体所需数据进行补充，而在中科院上海药物研究所的网站上则记录了石杉碱甲的研发时间等事件，作为该小分子药物事件实体的数据补充。

数据采集模块采集到的数据作为原始数据，其来源多样，可以以文本形式存在非结构化的数据存储中心，例如以文件形式直接存储在HDFS中，Hadoop Distributed FileSystem，简称HDFS，是一个分布式文件系统。HDFS有着高容错性（fault-tolerent）的特点。存储时需要注意采集到的原始文件是否有其他特征，例如存在版权信息或者已经加密，或者文件格式难以识别等，尽量保证落盘数据能够方便的被获取以及被使用。

如果是存在较大量的药物信息需要抓取，还可以采用网络爬虫的方式，模拟上述手动搜索的流程进行数据采集，以开源爬虫框架为例，在配置好scrapy的环境后，通过python脚本设定抓取百度百科中晶型相关的页面数据，提取晶型信息，并将相关关键字作为下一步数据爬取的输入，进一步爬取例如相关专利等信息，爬取到的数据同样保存到HDFS中供下一步使用；需要停止时可以通过停止脚本快速停止抓取流程。

通过预处理模块处理采集到的信息时，所有数据都存放在HDFS中，一般以增量模式处理一段时间的数据，例如小时级的采集数据进行一次预处理。预处理流程以数据清洗为主，主要包括信息提取、清洗、去重、归一化等，具体包括：

首先，提取原始数据中的相关信息，通过关键字匹配、模板提取、高频词提取、基于专家的知识提取等方式获取到有实际意义的信息，将分子信息及晶体信息归纳整理成结构化数据，其他信息以非结构化数据形式存放。

其次，对提取出的信息进行清洗。清洗步骤包括去重、分词、无效信息剔除、连贯性检查等，保证清洗后的数据干净可用，没有错误信息，这个阶段的处理可以采用模块处理+标记的方式进行，因为信息存放方式多样化，模块处理可能存在疏漏，为了保证用于建模数据本身的质量，加入标记是有意义的。

最后，对清洗完成的数据归类。清洗完成的数据中，结构化信息包含了分子信息与晶体信息，需要进行区分，保证分子信息与晶体信息没有重合；非结构化信息中，也要对事件信息与制备信息进行归类，同时由于这两种信息会分别对应到分子或晶体上，所以需要建立从分子/晶体->事件/制备的二级分类。

图谱构建模块基于清洗后的数据构建相应实体，并进一步挖掘实体间的关联，形成模式，主要包括以下步骤：

首先，抽取实体及实体属性。根据清洗数据中的结构化数据部分，标注命名实体，可以根据专家知识库里的规则或字典进行识别，也可利用近期发展的基于RNN或CNN的方法训练神经网络进行实体抽取，但这种方法更适合于较大数据量下的实体抽取，对于小分子药物晶体谱图可能存在数据量不足导致的抽取效果不佳；实体属性抽取则是在实体构建的基础上，采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式。

其次，抽取实体间关系。小分子药物晶体知识图谱中的实体间的关系主要体现在两个方面，一是分子与晶体、晶体与晶体等结构化数据中抽取实体间的关系，表现为网状结构；二是分子或晶体与事件及制备相关非结构化数据中抽取的实体，表现为线性连接关系。关系抽取的技术既有基于人工经验的模式匹配，也有半经验的统计机器学习，现已发展到面向封闭领域的方法等自动化抽取方法。基于以上抽取的实体、实体属性及实体关系，即可构建出小分子药物晶体库的知识图谱。

统计机器学习包括常见用于文本的事件挖掘方法的TextCNN模型，具体方案为，以抓取到的药物晶体研究事件文本作为研究对象，通过TextCNN模型对药物研发事件进行领域分类，然后使用Word2vec得到词向量、TF-IDF作为词语的权重来查找相关事件文本。

其中，晶型发现常规使用的是实验手段，主要介绍可以参考https://med.sina.com/article_detail_103_2_34709.html，或者参考《药物晶型》中第七章第三小节中的内容，计算方法近些年也逐渐成为了辅助晶型发现的手段，主要包括MD动力学模拟手段及DFT优化等，还有一些人工智能相关的模型算法。对于实验手段，总体可用的方法是固定的，通过方法关键字即可识别其所属具体方法及类别，对于计算方法，总体上见报道的只有两类，一类是基于量化计算的软件模拟，另一种是神经网络模型；分类原则如上所述。

其中，事件实体就是用于描述晶型研发某环节的事件，可以看成是新闻实体的一个子集，制备实体是制备流程的实体，可以看成工艺实体的子集。事件实体下面有例子了，制备实体这里举个例子： https://wap.cnki.net/touch/web/Dissertation/Article/10636-2006140068.nh.html 这篇文章介绍了关于石杉碱甲药物的一种制备方法，具体制备流程描述为“酸的种类确定为盐酸,酸提pH值为3.0,碱化pH值为9比较合适,氯仿的体积量在10倍原料量,萃取3次,该采用的最佳工艺是酸提固液倍比1/10、酸提时间45分钟、酸提次数3次、酸提温度55℃为最佳。在此条件下,石杉碱甲的提取率普遍能达到79%。” 提取出的结果为，{“酸提时间”：45，“酸提次数”：3，“酸提温度”：55，“酸提pH”：3.0}。

其中，分子及晶体信息包含两个方面，一个是可以用于识别具体分子或晶体的标识，例如CAS号等，晶体没有统一标识，以公开发表的文献中命名标志，如I型、II型，为了保证晶型的唯一性，还应在对应命名之外附上公认的晶体识别数据，例如XRD解析值，这样可解决晶体表示的唯一性问题。

另一方面就是分子及晶体的属性信息，用于描述分子&晶体的物理化学性质，分子属性包括拓扑、构造、几何、电子、分子式、分子量等；晶体属性即用于表征特定晶体形态的属性，包括其结构信息与物理信息，如晶型的空间群、晶胞参数、原子空间位置、特殊键信息、手性信息等，又如熔点、沸点、吸湿性、溶解度等物理信息。

优选的方案，分子及晶体信息按照结构化数据的格式进行处理存放，其他信息按照非结构化数据的方式灵活存放。这里的其他信息即除了采集到的分子及晶体信息外的制备相关信息或事件相关信息，可用于提炼制备实体及事件实体。具体来说，通过搜索引擎获取到的“石杉碱甲”信息中，包含了“石杉碱甲控释片获批进入临床研究”-2018年7月12日，这就是一条其他信息，由于事件信息的信息量差异较大，一般以非结构化数据的方式存储，例如这条信息就可以以{“石杉碱甲20180712”：“石杉碱甲控释片获批进入临床研究”}的格式存储。

图2所示，空心箭头表示了实体与其属性间的关系，实心箭头表示了实体与实体间的网状关系。在一个具体的实施场景中，以石杉碱甲分子为例：

首先，数据采集，采集到的结果大多为文本数据，直接通过文件形式存储。通过搜索引擎及专利网站搜索到的相关信息如下：

1.https://baike.baidu.com/item/%E7%9F%B3%E6%9D%89%E7%A2%B1%E7%94%B2百度百科介绍；

2.https://wap.cnki.net/touch/web/Dissertation/Article/10636-2006140068.nh.html 石杉碱甲的制备；

3.https://patents.google.com/patent/CN104016918A/zh 石杉碱甲多晶型体、其制备方法、包含所述多晶型体的药物组合物及其用途；

4.http://www.simm.cas.cn/web/xwzx/kydt/201407/t20140725_5646524.html石杉碱甲溶剂化物的同质多晶和类质同晶：结构，性质以及相转变。

其次，预处理。对于采集到的数据进行预处理，主要包括信息提取、清洗、去重、归一化等。百科类的文本数据，其结构较为清晰，可直接通过模板进行数据提取，例如百度百科的介绍，通过模板及关键字匹配可获取到的信息包括：

化学名称：(5R，9R，11E)-5-氨基-11-亚乙基-5，8，9，1o-四氢-7-甲基-5，9-亚甲基环辛四烯并[b]吡啶-2-(1H)-酮；分子结构式：图片；分子式： C15H18N20；分子量：242；理化性质：为微黄色结晶性粉末，几乎不溶于水。

对于其他类型的文本，如果结构性较好也可采用相同方式。专利类的文本，其表述较为严谨，比较容易通过关键字匹配的方式进行提取，以一中3.专利为例，通过*晶型为关键字，可以匹配到I晶型、II晶型、III晶型、IV晶型、V晶型五种晶型，通过“X-射线”关键字可以匹配到各晶型对应的x射线衍射峰及对应图像；通过“制备方法”关键字能够匹配到专利提供的多种制备方法信息。对于其他类型的文本，如果结构性较差，则需要通过NLP方法+专家知识提取有效信息，具体来说，通过分词并过滤掉常用字，建立名词列表，并通过tf-idf方法构建列表中名词的权重，针对权重较大的名词，认定其为有意义的专有词汇。根据专有词汇列表再去源文件内容中提取重要信息。

最后，图谱构建。通过归类数据构建图谱，需要借助命名实体识别相关的技术手段，具体来说包含了传统的规则识别，也可利用近期发展的基于RNN（循环神经网络）或CNN（卷积神经网络）（Neural Networks）的方法训练神经网络进行实体及实体关系抽取。

石杉碱甲的实例已经建立了基本实体的信息，这里直接以上述信息为例构建实体与属性及实体间关系。

基于分子/晶体实体信息，从文本中抽取相关联的属性及关系，步骤如下：

1）筛选出包含分子/晶体实体名称的文本，根据文本的分词结果，按句中各名词离实体的距离进行编码；

2）对于存在两条或两条以上实体信息的文本，在识别出实体处进行二次切分，将文本切成多段（两个实体则切为3段），生成文本特征；

3）将位置特征与文本特征拼接，分别通过CNN提取特征；

4）提取出的特征继续通过池化层，并在softmax层分类后得到关系的分类结果根据分类结果，即得到了实体类型间的图谱三元组{ei, relationij, ej}。

对于无法通过实体关系抽取得到关系分类结果的文本，则通过LDA算法计算事件文本与分子/晶体实体相似度，作为分子/晶体的一个实体属性。由此完成了对于某种药物分子相关的图谱构建。

具体地，数据采集模块负责多层次检索已公开的小分子药物相关信息，可以包含（但不限于）以下方面：已公开小分子药物的分子信息、适应症信息、药物专利、晶体保护专利、药物发现流程文章、晶型制备相关文章、临床试验结果信息等，通过多层次多维度信息挖掘获取小分子药物研发及制备各环节的关键信息。

预处理模块对采集模块采集到的信息按照关键字归类，并进行清洗，分子信息及晶体信息按照结构化数据的格式进行处理存放，其他信息按照非结构化数据的方式灵活存放，例如制备环节的事件信息，可以按照时间顺序做时序存储；除此之外，预处理环节还能加入基于专家经验的关键字提取模块，对于研发事件或制备事件中的关键字进行提炼，简化需要保留的信息量。

图谱构建模块基于预处理的结果数据构建相应实体，并在实体基础上挖掘实体与实体间的关联；即在构建模块中先构建实体数据层，再根据实体数据层中的数据进一步构建模式层，存储实体间的关系及实体的属性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种小分子药物晶型知识图谱的构建方法，其特征在于，包括：

S1，爬取网络已公开的小分子药物的综合数据信息，并对源文件内容进行存储；所述综合数据信息包括小分子药物的分子信息、适应症信息、药物专利、晶体保护专利、药物发现流程文章、晶型制备文章及临床试验结果信息；

S3，构建实体数据层，根据所述实体数据层中的数据进一步构建用来存储实体间的关系及实体的属性的模式层；

所述S1具体包括：确定关键词，通过多层次多维度信息挖掘方式获取小分子药物研发及制备各环节中的关键信息；

所述S3具体包括：抽取实体及对应的实体属性；

实体属性抽取包含在实体构建的基础上，采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式；

所述S3还包括：利用统计机器学习，通过面向封闭领域的方法自动化抽取实体间关系；

2.根据权利要求1所述的小分子药物晶型知识图谱的构建方法，其特征在于，所述S1进一步包括：确认药物客体的检索词，在一网络数据库中对该关键词的综合数据信息的爬取，若发现所述药物客体的综合数据信息缺失，则在另一网络数据库中爬取缺失数据类别。

3.根据权利要求1所述的小分子药物晶型知识图谱的构建方法，其特征在于，所述S2具体包括：以文件形式直接存储在原始分布式文件系统HDFS中以供后续被获取及被使用。

4.根据权利要求1所述的小分子药物晶型知识图谱的构建方法，其特征在于，所述S2具体包括：先对所述源文件内容进行去重、分词、无效信息剔除以及连贯性检查，然后进行标记，以确保清洗后的数据干净可用，没有错误信息。

5.根据权利要求4所述的小分子药物晶型知识图谱的构建方法，其特征在于，对清洗完成的数据归类，具体包括，归类结构化数据为一级分类，且保证分子信息与晶体信息没有重合；归类非结构化信息为二级分类且与一级分类进行分别对应。

6.一种用于如权利要求1至5任一项所述的小分子药物晶型知识图谱构建方法的系统，其特征在于，包括：