CN115050478B

CN115050478B - 药品信息挖掘方法、预警方法、装置和存储介质

Info

Publication number: CN115050478B
Application number: CN202210346321.1A
Authority: CN
Inventors: 周立运
Original assignee: Digital Cube Beijing Pharmaceutical Technology Co ltd
Current assignee: Digital Cube Beijing Pharmaceutical Technology Co ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2023-07-25
Anticipated expiration: 2042-03-31
Also published as: CN115050478A

Abstract

本发明提供一种药品信息挖掘方法、预警方法、装置和存储介质，其中挖掘方法包括：基于生物学领域文件，提取各生物药对应的生物序列，生物学领域文件包括生物学专利文件和生物药研发文件；基于生物学专利文件，提取各生物序列的专利信息；基于生物药研发文件，提取各生物药的研发信息；以各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，得到各生物药的药品信息。本发明提供的挖掘方法、预警方法、装置和存储介质，通过从不同数据源中分别提取各生物序列、专利信息以及研发信息，并基于此进行关联整合，在节省人力物力的同时，极大提高了生物药企业的调研效率，并且，为生物药信息查询以及侵权风险的预警提供了便利。

Description

药品信息挖掘方法、预警方法、装置和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种药品信息挖掘方法、预警方法、装置和存储介质。

背景技术

目前，生物药企业一般会在筛选或设计出一款生物药后，检索已知的同名或同类生物药的生物序列，判断是否侵权，如果发现类似的生物序列已经被其他企业所专利保护，则企业会尽早做出调整，采取修改生物序列避开对手的专利范围的方式，或者直接终止药物开发。

然而，企业完全依赖人工来定期跟踪同名或同类生物药的专利申报情况、同名或同类生物药的生物序列信息，这种工作涉及大量的人工检索、比对等重复性枯燥劳动，效率十分低下，时效性也比较差。

发明内容

本发明提供一种药品信息挖掘方法、预警方法、装置和存储介质，用以解决现有技术中生物药的专利信息或生物序列信息跟踪费时费力的缺陷。

本发明提供一种药品信息挖掘方法，包括：

基于生物学领域文件，提取各生物药对应的生物序列，所述生物学领域文件包括生物学专利文件和生物药研发文件；

基于所述生物学专利文件，提取各生物序列的专利信息；

基于所述生物药研发文件，提取各生物药的研发信息；

以所述各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，得到各生物药的药品信息。

根据本发明提供的一种药品信息挖掘方法，所述以所述各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，之后还包括：

在缺少任一生物药对应的生物序列的情况下，基于所述任一生物药的研发信息，确定所述任一生物药的药品类型和/或靶点，以及所述任一生物药的研发机构；

基于所述研发机构的专利文本，提取研发药品类型和/或研发靶点；

基于所述任一生物药的药品类型和/或靶点，在所述研发药品类型和/或研发靶点中进行匹配，并基于匹配得到的研发药品类型和/或研发靶点所属的专利文本，确定所述任一生物药对应的生物序列。

根据本发明提供的一种药品信息挖掘方法，所述基于所述任一生物药的药品类型和/或靶点，在所述研发药品类型和/或研发靶点中进行匹配，之后还包括：

在匹配不到所述任一生物药的药品类型和/或靶点的情况下，基于预先构建的药品类型和/或靶点的字典树，确定所述任一生物药的药品类型的上级类型，和/或，所述任一生物药的靶点的上级靶点；

基于所述任一生物药的药品类型的上级类型，和/或，所述任一生物药的靶点的上级靶点，在所述研发药品类型和/或研发靶点中进行匹配。

根据本发明提供的一种药品信息挖掘方法，所述基于匹配得到的研发药品类型和/或研发靶点所属的专利文本，确定所述任一生物药对应的生物序列，包括：

在所述匹配得到的研发药品类型和/或研发靶点所属的专利文本包括多个专利文本的情况下，对所述多个专利文本进行专利类型分类，得到专利类型为序列的专利文本；

基于所述专利类型为序列的专利文本，确定所述任一生物药对应的生物序列。

根据本发明提供的一种药品信息挖掘方法，所述基于所述生物学专利文件，提取各生物序列的专利信息，包括：

基于所述生物学专利文件，提取所述各生物序列；

基于所述各生物序列所属的生物学专利文件，提取所述各生物序列的专利信息。

根据本发明提供的一种药品信息挖掘方法，所述基于所述生物学专利文件，提取所述各生物序列，包括：

在任一生物学专利文件的文件类型为图片的情况下，对所述任一生物学专利文件进行文字识别，得到所述任一生物学专利文件中的文本内容；

定位所述文本内容中的序列部分；

对所述文本内容中的序列部分进行校正，并基于校正后的文本内容，提取所述任一生物学专利文件中的生物序列。

本发明还提供一种药品信息预警方法，包括：

接收用户终端发送的目标药品名称和/或目标生物序列；

在药品信息集合中，确定出所述目标药品名称和/或目标生物序列对应生物药的药品信息，并将所述药品信息返回至所述用户终端，所述药品信息集合是基于如上所述的药品信息挖掘方法确定的；

若检测到所述药品信息中的专利信息和/或研发信息发生变更，则向所述用户终端发送预警提示。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的药品信息挖掘方法，或药品信息挖掘方法。

本发明提供的药品信息挖掘方法、预警方法、装置和存储介质，通过从不同数据源中分别提取各生物药对应的生物序列、各生物序列的专利信息以及各生物药的研发信息，并以各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行关联整合，从而能够得到较为完善的各生物药的药品信息，在节省人力物力的同时，极大提高了生物药企业的调研效率，并且，为生物药信息查询以及侵权风险的预警提供了便利。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的药品信息挖掘方法的流程示意图之一；

图2是本发明提供的生物药对应的生物序列的确定方法的流程示意图之一；

图3是本发明提供的生物药对应的生物序列的确定方法的流程示意图之二；

图4是本发明提供的药品类型的字典树的示例图；

图5是本发明提供的生物药对应的生物序列的确定方法的流程示意图之三；

图6是本发明提供的专利信息的确定方法的流程示意图之一；

图7是本发明提供的专利信息的确定方法的流程示意图之二；

图8是本发明提供的药品信息挖掘方法的流程示意图之二；

图9是本发明提供的药品信息预警方法的流程示意图；

图10是本发明提供的药品信息挖掘装置的结构示意图；

图11是本发明提供的药品信息预警装置的结构示意图；

图12是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对于小分子药物，目前全球已有各种大小数据库，可以高效地查询小分子药物的化学结构、是否已有专利保护等，进而判断是否具有侵权风险或保护前景。然而，对于大分子生物药，则基础薄弱。一方面，全球已知的大分子生物序列数据库是非常有限的，一般数据收录都并不够完整。其次，生物药的结构是由一个非常长的氨基酸或基因序列所构成，任何一个序列的变化或序列延长，难以用肉眼判断区别与相似程度。再次，生物药的序列数据、专利数据、研发信息，往往分散在不同数据源或文本中，非常分散。目前尚无一款医药数据库产品，可以高效提供上述信息的查询与敏捷预警功能。

目前，生物药企业一般会在筛选或设计出一款生物药后，检索已知的同名或同类生物药的生物序列，判断是否侵权，如果发现类似的生物序列已经被其他企业所专利保护，则企业会尽早做出调整，采取修改生物序列避开对手的专利范围的方式，或者直接终止药物开发。然而，企业完全依赖人工来定期跟踪同名或同类生物药的专利申报情况、同名或同类生物药的生物序列信息，这种工作涉及大量的人工检索、比对等重复性枯燥劳动，效率十分低下，时效性也比较差。

对此，本发明提供一种药品信息挖掘方法。图1是本发明提供的药品信息挖掘方法的流程示意图之一，如图1所示，该方法包括：

步骤110，基于生物学领域文件，提取各生物药对应的生物序列，生物学领域文件包括生物学专利文件和生物药研发文件；

步骤120，基于生物学专利文件，提取各生物序列的专利信息；

步骤130，基于生物药研发文件，提取各生物药的研发信息；

步骤140，以各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，得到各生物药的药品信息。

具体地，生物学领域文件例如可以是论文、期刊杂志、各官方数据源公开的文件等，此处的官方数据源例如可以是NCBI(National Center for BiotechnologyInformation，美国国家生物技术信息中心)、EMBL(European Molecular BiologyLaboratory，欧洲分子生物学实验室)、DDBJ(DNAData Bank of Japan，日本DNA数据库)等。另外，生物学领域文件的文件类型例如可以是文本、图片、PDF等，本发明实施例对此不作具体限定。生物学领域文件具体可以包括生物学专利文件和生物药研发文件，生物学专利文件即生物学领域的专利文件，生物药研发文件可以包括已上市生物药和在研生物药相关的文件。

根据各生物药相关的生物学领域文件，可以提取各生物药的结构信息，得到各生物药对应的生物序列；根据生物学专利文件，可以提取各生物序列的专利信息，此处的专利信息可以包括各生物序列相关专利的文本、法律状态、专利权人、申请日等信息；根据生物药研发文件，可以提取各生物药的研发信息，此处的研发信息包括各生物药的药品名称、适应症、研发进度、研发机构等信息，研发进度指的是生物药在适应症下目前的研发状态，例如已上市、III期临床、I期临床、临床前研究等。

随即，可以以各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，从而得到各生物药对应的生物序列、专利信息和研发信息，并汇总为各生物药的药品信息。此处，所整合的各类信息可以是直接从文件中提取得到的，也可以是对文件中提取的信息进行标准化后得到的，本发明实施例对此也不作具体限定。

需要说明的是，区别于现有技术完全依赖人工来定期跟踪同名或同类生物药的专利信息、生物序列信息的方式，耗费大量人力物力，效率也十分低下，而本发明实施例通过将分散在不同数据源中的序列信息、专利信息、研发信息进行提取并整合，得到较为完善的各生物药的药品信息，从而能够满足生物药企业对于生物药的专利信息、生物序列信息和研发信息的获取需求，在节省人力物力的同时，极大提高了生物药企业的调研效率，并且，由此得到的各生物药的药品信息对于生物药信息查询以及侵权风险的预警提供了便利。

另外，本发明实施例对于步骤110、步骤120和步骤130的执行顺序也不作具体限定，可以同步执行，也可以分先后顺序执行。

本发明实施例提供的药品信息挖掘方法，通过从不同数据源中分别提取各生物药对应的生物序列、各生物序列的专利信息以及各生物药的研发信息，并以各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行关联整合，从而得到较为完善的各生物药的药品信息，在节省人力物力的同时，极大提高了生物药企业的调研效率，并且，为生物药信息查询以及侵权风险的预警提供了便利。

基于上述实施例，图2是本发明提供的生物药对应的生物序列的确定方法的流程示意图之一，如图2所示，步骤140中，以各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，之后还包括：

步骤210，在缺少任一生物药对应的生物序列的情况下，基于该生物药的研发信息，确定该生物药的药品类型和/或靶点，以及该生物药的研发机构；

步骤220，基于研发机构的专利文本，提取研发药品类型和/或研发靶点；

步骤230，基于该生物药的药品类型和/或靶点，在研发药品类型和/或研发靶点中进行匹配，并基于匹配得到的研发药品类型和/或研发靶点所属的专利文本，确定该生物药对应的生物序列。

具体地，考虑到存在部分药品未公开生物序列信息的情况，因此，对于此类药品，无法在步骤110中从生物学专利文件中直接提取得到其对应的生物序列，进而会导致生物序列、专利信息和研发信息无法进行关联，所整合得到的此类药品的药品信息会不够完善。针对这一问题，本发明实施例在对文件中提取的各生物序列、专利信息和研发信息进行整合之后，如果发现缺少任一生物药对应的生物序列，则根据该生物药的研发信息，获取该生物药的药品类型和/或靶点，以及该生物药的研发机构，随即，根据以该研发机构作为专利权人的专利文本，提取该研发机构研发的所有药品类型作为研发药品类型，和/或，提取该研发机构研发的所有靶点作为研发靶点，在此基础上，即可根据该生物药的药品类型和/或靶点，在研发药品类型和/或研发靶点中进行匹配，并根据匹配得到的研发药品类型和/或研发靶点所属的专利文本，获取该生物药的结构信息，从而得到该生物药对应的生物序列。

随即，即可根据该生物药对应的生物序列，关联该生物药对应的专利信息，再整合该生物药的生物序列和研发信息，从而得到该生物药的药品信息。

此处，药品类型例如可以是融合蛋白、抗体、多肽等，靶点例如可以是CD20、IGF-1R等。研发药品类型、研发靶点的提取方式可以是从专利文本的标题、摘要和权利要求中的至少一种提取，具体可以分别通过药品类型分类模型、靶点分类模型实现，药品类型分类模型、靶点分类模型可以根据自然语言处理模型构建，并分别根据标注了药品类型、靶点的样本专利文本训练得到。研发机构可以包括与生物药的研发和医药交易相关的机构，此处的医药交易例如可以是合作、许可、收购、投资等。

另外，在匹配得到的研发药品类型和/或研发靶点所属的专利文本包括多个专利文本的情况下，可以逐个判断各个专利文本中是否可以提取出该生物药对应的生物序列，也可以先对专利文本进行进一步筛选，再基于筛选得到的专利文本提取该生物药对应的生物序列，本发明实施例对此不作具体限定。

基于上述任一实施例，图3是本发明提供的生物药对应的生物序列的确定方法的流程示意图之二，如图3所示，步骤230中，基于任一生物药的药品类型和/或靶点，在研发药品类型和/或研发靶点中进行匹配，之后还包括：

步骤310，在匹配不到该生物药的药品类型和/或靶点的情况下，基于预先构建的药品类型和/或靶点的字典树，确定该生物药的药品类型的上级类型，和/或，该生物药的靶点的上级靶点；

步骤320，基于该生物药的药品类型的上级类型，和/或，该生物药的靶点的上级靶点，在研发药品类型和/或研发靶点中进行匹配。

具体地，考虑到直接根据任一生物药的药品类型和/或靶点，在研发药品类型和/或研发靶点中进行匹配，可能存在匹配不到的情况，对此，本发明实施例在匹配不到该生物药的药品类型和/或靶点的情况下，根据预先构建的药品类型和/或靶点的字典树，确定该生物药的药品类型在药品类型的字典树中对应节点的上级节点，将该上级节点对应的药品类型作为上级类型，和/或，确定该生物药的靶点在靶点的字典树中对应节点的上级节点，将该上级节点对应的靶点作为上级靶点，随即，根据该上级类型和/或该上级靶点，在研发药品类型和/或研发靶点中进行匹配，如果匹配得到，即可获取匹配得到的研发药品类型和/或研发靶点，如果仍匹配不到，则进一步确定更上一级的上级类型和/或上级靶点，再基于此进行匹配，重复上述步骤，直至字典树的根节点。

例如，图4是本发明提供的药品类型的字典树的示例图，如图4a)所示，任一生物药的药品类型为单链抗体，根据单链抗体在研发药品类型中匹配不到，则可以根据药品类型的字典树，确定该生物药的药品类型的上级类型为抗体，随即，根据抗体在研发药品类型中进行匹配；

又例如，如图4b)所示，任一生物药的药品类型为白蛋白融合蛋白，根据白蛋白融合蛋白在研发药品类型中匹配不到，则可以根据药品类型的字典树，确定该生物药的药品类型的上级类型为融合蛋白，随即，根据融合蛋白在研发药品类型中进行匹配。

基于上述任一实施例，图5是本发明提供的生物药对应的生物序列的确定方法的流程示意图之三，如图5所示，步骤230中，基于匹配得到的研发药品类型和/或研发靶点所属的专利文本，确定该生物药对应的生物序列，包括：

步骤510，在匹配得到的研发药品类型和/或研发靶点所属的专利文本包括多个专利文本的情况下，对多个专利文本进行专利类型分类，得到专利类型为序列的专利文本；

步骤520，基于专利类型为序列的专利文本，确定该生物药对应的生物序列。

具体地，考虑到可能存在多个专利文本描述同一个药品类型、靶点，对此，本发明实施例在匹配得到的研发药品类型和/或研发靶点所属的专利文本包括多个专利文本的情况下，对各个专利文本进行专利类型分类，得到各个专利文本的专利类型，并从中筛选专利类型为序列的专利文本，再根据专利类型为序列的专利文本，提取该生物药对应的生物序列，从而实现提高生物序列信息提取的效率。此处，专利类型例如可以是序列、组合物、医药用途、载体、细胞、制备方法等。

进一步地，专利类型的确定方式可以是根据专利文本的权利要求，对专利文本进行专利类型分类得到。如果专利类型为序列的专利文本仅为一个专利文本，则可以直接根据该专利文本，确定该生物药对应的生物序列，基于此关联该生物药对应的专利信息，再整合该生物药的生物序列和研发信息，得到该生物药的药品信息；如果筛选出多个专利类型为序列的专利文本，则可以推送人工进行进一步处理。

需要说明的是，本发明实施例提供的对专利文本的筛选方案中，基于药品类型和/或靶点、专利类型两个层面的筛选，并不限制于先基于药品类型和/或靶点再基于专利类型，也可以先基于专利类型再基于药品类型和/或靶点，也可以同时进行。

基于上述任一实施例，图6是本发明提供的专利信息的确定方法的流程示意图之一，如图6所示，步骤120包括：

步骤121，基于生物学专利文件，提取各生物序列；

步骤122，基于各生物序列所属的生物学专利文件，提取各生物序列的专利信息。

具体地，可以首先从生物学专利文件中，提取各生物序列，再从各生物序列所属的生物学专利文件中，提取专利权人、法律状态、申请日等信息，从而得到各生物序列的专利信息。进一步地，生物学专利文件即生物学领域的专利文件，可以是基于预先构建的医药企业字典或IPC/CPC分类号，对专利文件进行筛选得到的，生物学专利文件的文件类型例如可以是文本、图片、PDF等类型，本发明实施例对此不作具体限定。

另外，在从任一生物序列所属的生物学专利文件中提取出专利权人之后，可以基于预先构建的企业字典进行匹配，从而得到标准的专利权人信息，再将该标准的专利权人信息整合入该生物序列的专利信息。

基于上述任一实施例，图7是本发明提供的专利信息的确定方法的流程示意图之二，如图7所示，步骤121包括：

步骤1211，在任一生物学专利文件的文件类型为图片的情况下，对该生物学专利文件进行文字识别，得到该生物学专利文件中的文本内容；

步骤1212，定位文本内容中的序列部分；

步骤1213，对文本内容中的序列部分进行校正，并基于校正后的文本内容，提取该生物学专利文件中的生物序列。

具体地，在任一生物学专利文件的文件类型为图片的情况下，可以先对该生物学专利文件进行文字识别，得到该生物学专利文件中的文本内容。基于此，又考虑到文字识别得到的文本内容会存在部分内容丢失、格式错乱等问题，因此，本发明实施例先定位出文本内容中生物序列所组成的部分即序列部分，再对该序列部分进行校正，得到校正后的文本内容，以保证获得全面而准确的文本内容，最后根据校正后的文本内容进行序列提取，从而提取得到该生物学专利文件中的生物序列。

进一步地，对生物学专利文件进行文字识别，具体可以通过OCR(OpticalCharacter Recognition，光学字符识别)技术实现。得到生物学专利文件中的文本内容之后，可以先识别文本内容中的定位符(例如尖括号)是否发生缺失并还原，再根据定位符找到序列部分，并对序列部分进行校正，从而得到校正后的文本内容。

对序列部分进行校正，具体可以包括如下几个方面：1)总结常见的序列识别错误，对序列部分中存在的序列识别错误进行替换校正；2)根据识别出的生物序列与标准序列之间的编辑距离，如果编辑距离符合预设条件则可以用该标准序列对序列部分中识别出的生物序列进行替换校正，此处的生物序列例如可以是氨基酸、核酸等；3)对序列部分中存在的非标准氨基酸或核酸组成的字符进行去除；4)将序列部分中格式错乱的序列字符合并整理为单条生物序列。

基于上述任一实施例，在任一生物学专利文件的文件类型为文本的情况下，可以按照《核苷酸和/或氨基酸序列表和序列表和序列表电子文件标准》中所列格式，提取表示生物序列的字段所对应内容，从而提取得到该生物学专利文件中的生物序列。在任一生物学专利文件的文件类型为图片的情况下，通过上述实施例的方法得到校正后的文本内容之后，即可按照文本类型的文件进行序列提取，从而得到该生物学专利文件中的生物序列。在任一生物学专利文件的文件类型为PDF的情况下，可以首先判断从该生物学专利文件中是否可读取文本内容，如果可以读取，则按照文本类型的文件进行序列提取，如果不可读取，则需先将PDF文件转换为相应页数的图片，然后按照图片类型的文件进行序列提取。

基于上述任一实施例，图8是本发明提供的药品信息挖掘方法的流程示意图之二，如图8所示，该方法的具体流程如下：

S1、获取生物学领域文件，并从生物学领域文件中提取各生物药对应的生物序列：

对于任一生物药相关的生物学领域文件，在生物学领域文件的文件类型为文本的情况下，按照《核苷酸和/或氨基酸序列表和序列表和序列表电子文件标准》中所列格式，提取表示生物序列的字段所对应的内容，从而得到该生物药对应的生物序列；在生物学领域文件的文件类型为图片的情况下，首先根据训练完成的基于深度学习的图片分类模型，准确筛选包含生物序列的图片，然后使用OCR技术，提取图片中的文本内容，由于OCR技术识别会产生错误，需要定位文本内容中的序列部分，并对文本内容中的序列部分进行校正，得到校正后的文本内容之后，再按照文本类型的文件进行序列提取，从而得到该生物药对应的生物序列；

在生物学领域文件的文件类型为PDF的情况下，首先判断从文件中是否可读取文本内容，如果可以读取，则按照文本类型的文件进行序列提取，如果不可读取，则需先将PDF文件转换为相应页数的图片，然后按照图片类型的文件进行序列提取。

S2、获取生物学专利文件，并从生物学专利文件中提取各生物序列的专利信息：

按照上述步骤S1中的提取方法从生物学专利文件中提取各生物序列，并根据各生物序列所属的生物学专利文件，提取各生物序列的专利信息。

S3、获取生物药研发文件，并从生物药研发文件中提取各生物药的研发信息：

可以根据各个国家的官方网站或数据库平台获取历年生物药的上市信息，此处的各个国家的官方网站或数据库平台包括但不限于NMPA(National Medical ProductsAdministration，国家药品监督管理局)、FDA(Food and Drug Administration，食品药品监督管理局)、EMA(European Medicines Agency，欧洲药品管理局)、HMA(The Heads ofMedicines Agencies，药品局总部)、PDMA(Pharmaceuticals and Medical DevicesAgency，药品与医疗器械管理局)等；根据各个国家的临床登记平台、论文、年报、企业发布的公告、药监机构等获取生物药的在研信息；从上述得到的上市信息、在研信息中，提取药品名称、适应症、研发进度、研发机构等信息，由此整理得到各生物药的研发信息。

进一步地，在从任一生物药的上市信息、在研信息中提取该生物药的药品名称、适应症、研发进度、研发机构等信息之后，可以基于预先构建的标准药品字典、企业字典、适应症字典进行匹配，得到标准化后的药品信息、企业信息及适应症信息，再将标准化后的药品信息、企业信息及适应症信息整合入该生物药的研发信息。

S4、对各生物序列、专利信息和研发信息进行整合

S4-1、若生物药公开了生物序列信息，即通过步骤S1可以直接得到该生物药对应的生物序列，则可以根据该生物药对应的生物序列，关联该生物药对应的专利信息，再整合该生物药的生物序列和研发信息，即可得到该生物药的药品信息。

S4-2、若生物药未公开生物序列信息，即通过步骤S1无法直接得到该生物药对应的生物序列，则可以通过如下方式获取：

S4-2-1、基于该生物药的研发信息，获取该生物药的药品类型和/或靶点；基于该生物药的研发机构的专利文本，获取研发药品类型和/或研发靶点；基于该生物药的药品类型和/或靶点，在研发药品类型和/或研发靶点中进行匹配，如果匹配得到，则基于匹配得到的研发药品类型和/或研发靶点获取其所属的专利文本，如果匹配不到，则基于预先构建的药品类型和/或靶点的字典树逐级向上进行匹配，直至根节点；

S4-2-2、若只关联到1份专利文本，则直接根据该专利文本，确定该生物药对应的生物序列，基于此关联该生物药对应的专利信息，再整合该生物药的生物序列和研发信息，得到该生物药的药品信息；若可以关联到多份专利文本，则进入步骤S4-2-3中进行进一步处理。

S4-2-3、对专利文本进行专利类型分类，获取专利类型为序列的专利文本；

S4-2-4、若筛选出1份专利类型为序列的专利文本，则直接根据该专利文本，确定该生物药对应的生物序列，基于此关联该生物药对应的专利信息，再整合该生物药的生物序列和研发信息，得到该生物药的药品信息；若筛选出多份专利类型为序列的专利文本，则推送人工进行处理。

基于上述任一实施例，本发明还提供一种药品信息预警方法。图9是本发明提供的药品信息预警方法的流程示意图，如图9所示，该方法包括：

步骤910，接收用户终端发送的目标药品名称和/或目标生物序列；

步骤920，在药品信息集合中，确定出目标药品名称和/或目标生物序列对应生物药的药品信息，并将药品信息返回至用户终端，药品信息集合是基于上述实施例所述的药品信息挖掘方法确定的；

步骤930，若检测到药品信息中的专利信息和/或研发信息发生变更，则向用户终端发送预警提示。

具体地，依照上述实施例中的药品信息挖掘方法，得到药品信息集合后，可以搭建药品检索和预警平台，以便于目标药品信息的快速查找和及时推送，当药品信息中的专利信息、研发信息发生变更时，也可以实现快速预警。

用户可以通过智能手机、电脑、平板电脑等形式的用户终端输入目标药品名称和/或目标生物序列，并且将目标药品名称和/或目标生物序列发送到用于检索的服务端。此处的目标药品名称即需要进行检索或订阅的药品名称，目标生物序列即需要进行检索或订阅的生物序列。

在接收到目标药品名称和/或目标生物序列之后，即可在药品信息集合中，确定出目标药品名称和/或目标生物序列对应生物药的药品信息，并将该药品信息推送给用户终端，以供用户终端查看。如果检测到药品信息中的专利信息和/或研发信息发生变更，例如，专利信息中法律状态的变化、专利权人的变更，研发信息中研发阶段的变更、新适应症的增加等，则可以向用户终端发送预警提示，以提醒企业及时调整生物药的研发策略，帮助企业避免侵权风险。

进一步地，用户输入目标生物序列的方式可以是直接输入目标生物序列，也可以是上传目标生物序列的文件，本发明实施例对此不作具体限定。在接收到的用户终端发送的目标生物序列的情况下，可以根据目标生物序列进行精确检索或模糊检索，针对精确检索，可以仅向用户终端返回该目标生物序列对应生物药的专利信息、研发信息，针对模糊检索，可以向用户终端返回与该目标生物序列相似的多个生物序列对应生物药的专利信息、研发信息，并且按照生物序列的相似度由高到低进行展示，同时还可以展示相似度的大小和差异位点。

本发明实施例提供的药品信息预警方法，通过药品信息集合将分散在不同数据源中的序列信息、专利信息、研发信息进行整合，可以提供生物药的序列信息、专利信息、研发信息的快速查询，并提供生物序列的研发及专利情报的预警，可以辅助企业调研人员大幅降低企业调研的难度，大大提高企业的调研效率，降低企业的侵权风险，并方便企业及时调整研发策略。

基于上述任一实施例，本发明实施例除了提供给用户输入目标生物序列的功能之外，还可以提供给用户选择对应查询参数的功能，此处的查询参数分为蛋白或核酸两类，基于此，系统可以判断用户输入的目标生物序列的类型与所选的查询参数是否匹配，如果不匹配则会进行错误提示，例如，目标生物序列为核酸序列，而所选的查询参数为蛋白时，系统会进行错误提示。另外，系统会根据输入的目标生物序列的类型，判断用户输入的目标生物序列是否包含影响查询结果的非标准字符，如果包含则进行提示和去除，以得到标准的目标生物序列，保证查询过程顺利进行。

在接收到目标生物序列之后，可以使用主流BLAST(Basic Local AlignmentSearch Tool)软件方法进行搜索查询，从而得到目标生物序列对应生物药的药品信息。其中，针对蛋白序列和核酸序列，可以分别使用不同的搜索算法blastp(protein BLAST)和blastn(nucleotide BLAST)，以及相对应的罚分规则和搜索参数。

另外，针对目标生物序列的长短不同，可以使用不同的参数组合，以保证能获得最佳的比对结果，此处的参数组合可以包括E值、打分矩阵，种子序列的长短等。其中，E值表示目标生物序列与候选序列的相似程度；打分矩阵指序列两两比对过程中使用的一组数值，用于计算目标生物序列与候选序列的比对分值，最终会转换成E值，根据序列的长度不同，可选用不同的打分矩阵，以获得最佳的比对结果；在初始比对时，可以将目标生物序列切分成一定长度的多个种子序列，用于和候选序列比对，种子序列的长度越长，数目越少，比对过程越快速，但是比对精度会有所降低，反之亦然。

详细的比对结果默认按照显著性E值进行排序，系统提供可视化的结果展示，比对结果包括序列一致性、比对结果的显著性、序列错配的位置等。用户可方便查看，并能根据指定字段和参数阈值，对结果进行重新排序和筛选，从而获得更准确的目标药品信息。

进一步地，为加快查询速度和准确度，提升用户体验，系统对查询过程和计算框架进行了特定优化，其一是将数据库进行拆分，存储到多个服务器上，通过分发异步请求，将用户提交的目标生物序列分配到相应的多个服务器，在每个子数据库中进行快速查询比对，比对全部完成后，整合所有结果并返回，在此过程中，通过设置比对参数，以保证查询结果的显著性E值不受数据库拆分的影响；其二是预先将数据库读入计算机缓存中，以便数据库能随时并快速响应用户的查询请求。

需要说明的是，显著性E值的计算与数据库的大小有关，在对数据库进行拆分之后，每个子数据库中的序列数目减少，因此，可以将可将每个子数据库对应的比对参数设置为原完整数据库的总序列数目，而不是当前子数据库的实际序列数目，从而保证在每个子数据库中查询时显著性E值的计算与使用完整数据库时相同，从而避免计算结果受到数据库拆分的影响。

基于上述任一实施例，由于药品信息集合中各生物药的研发信息包括研发机构，本发明实施例除了提供给用户基于药品名称、生物序列进行订阅的功能之外，还可以提供给用户基于研发机构或者其它维度进行订阅的功能。

基于药品名称的订阅：基于用户订阅的目标药品名称，可以推送给用户目标药品名称对应的生物序列、专利信息及研发信息；其中，专利信息中法律状态的变化、专利权人的变更，研发信息中研发阶段的变更、新适应症的增加等均可触发预警条件，并向用户终端发送预警提示；

基于生物序列的订阅：基于用户订阅的目标生物序列，可以推送给用户终端对应的专利信息、研发信息；其中，专利信息可以是目标生物序列对应的专利信息，也可以是与目标生物序列的相似度在预设阈值内的多个生物序列对应的专利信息，预设阈值可以是用户自己选择的；进一步，专利信息的变化、对应生物药的研发信息的变化均可以触发预警条件，并向用户终端发送预警提示。

基于研发机构的订阅：基于用户订阅的目标研发机构，可以推送给用户终端目标研发机构对应生物药的研发进度、生物序列、专利信息等。

下面对本发明提供的药品信息挖掘装置进行描述，下文描述的药品信息挖掘装置与上文描述的药品信息挖掘方法可相互对应参照。

基于上述任一实施例，本发明还提供一种药品信息挖掘装置。图10是本发明提供的药品信息挖掘装置的结构示意图，如图10所示，该装置包括：

序列获取单元1010，用于基于生物学领域文件，提取各生物药对应的生物序列，生物学领域文件包括生物学专利文件和生物药研发文件；

专利获取单元1020，用于基于生物学专利文件，提取各生物序列的专利信息；

研发获取单元1030，用于基于生物药研发文件，提取各生物药的研发信息；

信息整合单元1040，用于以各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，得到各生物药的药品信息。

本发明实施例提供的药品信息挖掘装置，通过从不同数据源中分别提取各生物药对应的生物序列、各生物序列的专利信息以及各生物药的研发信息，并以各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行关联整合，从而得到较为完善的各生物药的药品信息，在节省人力物力的同时，极大提高了生物药企业的调研效率，并且，为生物药信息查询以及侵权风险的预警提供了便利。

基于上述任一实施例，以各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，之后还包括：

在缺少任一生物药对应的生物序列的情况下，基于该生物药的研发信息，确定该生物药的药品类型和/或靶点，以及该生物药的研发机构；

基于研发机构的专利文本，提取研发药品类型和/或研发靶点；

基于该生物药的药品类型和/或靶点，在研发药品类型和/或研发靶点中进行匹配，并基于匹配得到的研发药品类型和/或研发靶点所属的专利文本，确定该生物药对应的生物序列。

基于上述任一实施例，基于该生物药的药品类型和/或靶点，在研发药品类型和/或研发靶点中进行匹配，之后还包括：

在匹配不到该生物药的药品类型和/或靶点的情况下，基于预先构建的药品类型和/或靶点的字典树，确定该生物药的药品类型的上级类型，和/或，该生物药的靶点的上级靶点；

基于该生物药的药品类型的上级类型，和/或，该生物药的靶点的上级靶点，在研发药品类型和/或研发靶点中进行匹配。

基于上述任一实施例，基于匹配得到的研发药品类型和/或研发靶点所属的专利文本，确定该生物药对应的生物序列，包括：

在匹配得到的研发药品类型和/或研发靶点所属的专利文本包括多个专利文本的情况下，对多个专利文本进行专利类型分类，得到专利类型为序列的专利文本；

基于专利类型为序列的专利文本，确定该生物药对应的生物序列。

基于上述任一实施例，专利获取单元1020包括：

序列提取子单元，用于基于生物学专利文件，提取各生物序列；

专利提取子单元，用于基于各生物序列所属的生物学专利文件，提取各生物序列的专利信息。

基于上述任一实施例，序列提取子单元用于：

在任一生物学专利文件的文件类型为图片的情况下，对该生物学专利文件进行文字识别，得到该生物学专利文件中的文本内容；

定位文本内容中的序列部分；

对文本内容中的序列部分进行校正，并基于校正后的文本内容，提取该生物学专利文件中的生物序列。

下面对本发明提供的药品信息预警装置进行描述，下文描述的药品信息预警装置与上文描述的药品信息预警方法可相互对应参照。

基于上述任一实施例，本发明还提供一种药品信息预警装置。图11是本发明提供的药品信息预警装置的结构示意图，如图11所示，该装置包括：

接收单元1110，用于接收用户终端发送的目标药品名称和/或目标生物序列；

检索单元1120，用于在药品信息集合中，确定出目标药品名称和/或目标生物序列对应生物药的药品信息，并将药品信息返回至用户终端，药品信息集合是基于如上述的药品信息挖掘方法确定的；

预警单元1130，用于若检测到药品信息中的专利信息和/或研发信息发生变更，则向用户终端发送预警提示。

本发明实施例提供的药品信息预警装置，通过药品信息集合将分散在不同数据源中的序列信息、专利信息、研发信息进行整合，可以提供生物药的序列信息、专利信息、研发信息的快速查询，并提供生物序列的研发及专利情报的预警，可以辅助企业调研人员大幅降低企业调研的难度，大大提高企业的调研效率，降低企业的侵权风险，并方便企业及时调整研发策略。

图12示例了一种电子设备的实体结构示意图，如图12所示，该电子设备可以包括：处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240，其中，处理器1210，通信接口1220，存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令，以执行药品信息挖掘方法，该方法包括：基于生物学领域文件，提取各生物药对应的生物序列，所述生物学领域文件包括生物学专利文件和生物药研发文件；基于所述生物学专利文件，提取各生物序列的专利信息；基于所述生物药研发文件，提取各生物药的研发信息；以所述各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，得到各生物药的药品信息；

或者，以执行药品信息预警方法，该方法包括：接收用户终端发送的目标药品名称和/或目标生物序列；在药品信息集合中，确定出所述目标药品名称和/或目标生物序列对应生物药的药品信息，并将所述药品信息返回至所述用户终端，所述药品信息集合是基于药品信息挖掘方法确定的；若检测到所述药品信息中的专利信息和/或研发信息发生变更，则向所述用户终端发送预警提示。

此外，上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的药品信息挖掘方法，该方法包括：基于生物学领域文件，提取各生物药对应的生物序列，所述生物学领域文件包括生物学专利文件和生物药研发文件；基于所述生物学专利文件，提取各生物序列的专利信息；基于所述生物药研发文件，提取各生物药的研发信息；以所述各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，得到各生物药的药品信息；

或者，执行上述各方法所提供的药品信息预警方法，该方法包括：接收用户终端发送的目标药品名称和/或目标生物序列；在药品信息集合中，确定出所述目标药品名称和/或目标生物序列对应生物药的药品信息，并将所述药品信息返回至所述用户终端，所述药品信息集合是基于药品信息挖掘方法确定的；若检测到所述药品信息中的专利信息和/或研发信息发生变更，则向所述用户终端发送预警提示。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的药品信息挖掘方法，该方法包括：基于生物学领域文件，提取各生物药对应的生物序列，所述生物学领域文件包括生物学专利文件和生物药研发文件；基于所述生物学专利文件，提取各生物序列的专利信息；基于所述生物药研发文件，提取各生物药的研发信息；以所述各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，得到各生物药的药品信息；

或者，以执行上述各方法提供的药品信息预警方法，该方法包括：接收用户终端发送的目标药品名称和/或目标生物序列；在药品信息集合中，确定出所述目标药品名称和/或目标生物序列对应生物药的药品信息，并将所述药品信息返回至所述用户终端，所述药品信息集合是基于药品信息挖掘方法确定的；若检测到所述药品信息中的专利信息和/或研发信息发生变更，则向所述用户终端发送预警提示。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种药品信息挖掘方法，其特征在于，包括：

基于所述生物学专利文件，提取各生物序列的专利信息；

基于所述生物药研发文件，提取各生物药的研发信息；

以所述各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，得到各生物药对应的生物序列、专利信息和研发信息，并汇总为所述各生物药的药品信息；

所述以所述各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，之后还包括：

2.根据权利要求1所述的药品信息挖掘方法，其特征在于，所述基于所述任一生物药的药品类型和/或靶点，在所述研发药品类型和/或研发靶点中进行匹配，之后还包括：

3.根据权利要求1所述的药品信息挖掘方法，其特征在于，所述基于匹配得到的研发药品类型和/或研发靶点所属的专利文本，确定所述任一生物药对应的生物序列，包括：

4.根据权利要求1至3中任一项所述的药品信息挖掘方法，其特征在于，所述基于所述生物学专利文件，提取各生物序列的专利信息，包括：

基于所述生物学专利文件，提取所述各生物序列；

5.根据权利要求4所述的药品信息挖掘方法，其特征在于，所述基于所述生物学专利文件，提取所述各生物序列，包括：

定位所述文本内容中的序列部分；

6.一种药品信息预警方法，其特征在于，包括：

接收用户终端发送的目标药品名称和/或目标生物序列；

在药品信息集合中，确定出所述目标药品名称和/或目标生物序列对应生物药的药品信息，并将所述药品信息返回至所述用户终端，所述药品信息集合是基于如权利要求1至5中任一项所述的药品信息挖掘方法确定的；

7.一种药品信息挖掘装置，其特征在于，包括：

序列获取单元，用于基于生物学领域文件，提取各生物药对应的生物序列，所述生物学领域文件包括生物学专利文件和生物药研发文件；

专利获取单元，用于基于所述生物学专利文件，提取各生物序列的专利信息；

研发获取单元，用于基于所述生物药研发文件，提取各生物药的研发信息；

信息整合单元，用于以所述各生物药对应的生物序列为依据，对各生物序列、专利信息和研发信息进行整合，得到各生物药对应的生物序列、专利信息和研发信息，并汇总为所述各生物药的药品信息；

8.一种药品信息预警装置，其特征在于，包括：

接收单元，用于接收用户终端发送的目标药品名称和/或目标生物序列；

检索单元，用于在药品信息集合中，确定出所述目标药品名称和/或目标生物序列对应生物药的药品信息，并将所述药品信息返回至所述用户终端，所述药品信息集合是基于如权利要求1至5中任一项所述的药品信息挖掘方法确定的；

预警单元，用于若检测到所述药品信息中的专利信息和/或研发信息发生变更，则向所述用户终端发送预警提示。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的药品信息挖掘方法或权利要求6所述的药品信息预警方法。