CN117474000B

CN117474000B - 用于提取化合物专利文件中的主题药物的方法及装置

Info

Publication number: CN117474000B
Application number: CN202311811193.4A
Authority: CN
Inventors: 伍星; 余志颖; 吴忠毅; 李靖; 丁红霞
Original assignee: Jingwei Jingwei Information Technology Beijing Co ltd
Current assignee: Jingwei Jingwei Information Technology Beijing Co ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-04-09
Anticipated expiration: 2043-12-27
Also published as: CN117474000A

Abstract

本公开的实施例提供一种用于提取化合物专利文件中的主题药物的方法及装置。该方法包括：获得化合物专利数据集，化合物专利数据集包括多个化合物专利文件；提取化合物专利数据集中的化合物的指定信息，化合物的指定信息包括：化合物在对应的化合物专利文件中出现的位置和频次以及在化合物专利数据集中出现的总频次；根据目标化合物专利文件中的多个目标化合物的指定信息来计算多个目标化合物的权重；根据多个目标化合物的权重来从多个目标化合物中确定候选化合物；计算候选化合物命中药物数据库中的药物的概率，其中，药物数据库包括不同研发阶段的药物结构信息；以及根据概率来确定目标化合物专利文件的主题药物。

Description

用于提取化合物专利文件中的主题药物的方法及装置

技术领域

本公开的实施例涉及电数字数据处理技术领域，具体地，涉及用于提取化合物专利文件中的主题药物的方法及装置。

背景技术

化合物专利中的信息非常丰富，其中包括很多有用的药物信息。然而，在大量的化合物专利中找到每个化合物专利所讨论的主题药物是一项具有挑战性的任务。传统的方法包括手动阅读、搜索和筛选大量的文本信息，这往往需要耗费大量的时间和人力资源，并且存在着信息遗漏和错误的问题。如果能够通过自动化的方法来从各个化合物专利中提取主题药物，则能够大大提升效率及减少人力成本。

发明内容

本文中描述的实施例提供了一种用于提取化合物专利文件中的主题药物的方法、装置以及存储有计算机程序的计算机可读存储介质。

根据本公开的第一方面，提供了一种用于提取化合物专利文件中的主题药物的方法。该方法包括：获得化合物专利数据集，化合物专利数据集包括多个化合物专利文件；提取化合物专利数据集中的化合物的指定信息，化合物的指定信息包括：化合物在对应的化合物专利文件中出现的位置和频次以及在化合物专利数据集中出现的总频次；根据目标化合物专利文件中的多个目标化合物的指定信息来计算多个目标化合物的权重；根据多个目标化合物的权重来从多个目标化合物中确定候选化合物；计算候选化合物命中药物数据库中的药物的概率，其中，药物数据库包括不同研发阶段的药物结构信息；以及根据概率来确定目标化合物专利文件的主题药物。

在本公开的一些实施例中，提取化合物专利数据集中的化合物的指定信息包括：识别多个化合物专利文件中所有表示形式的化合物，表示形式包括：文字名称、由国际纯粹与应用化学联合会规定的命名法、结构式图片、简化分子输入线性录入规范字符串、化学抽象服务号、国际化学标识符、国际化学标识符密钥；将所有化合物的表示形式统一转换成国际化学标识符密钥；以及统计每个国际化学标识符密钥在对应的化合物专利文件中出现的位置和频次以及在化合物专利数据集中出现的总频次。

在本公开的一些实施例中，提取化合物专利数据集中的化合物的指定信息还包括：计算多个化合物专利文件中的所有化合物的分子量。该方法还包括：将目标化合物专利文件中符合以下条件的化合物确定为目标化合物：分子量在药物分子量范围内的化合物，其中，药物分子量范围根据药物数据库中的药物的分子量来确定；以及在化合物专利数据集中出现的总频次小于第一频次上限的化合物。

在本公开的一些实施例中，根据目标化合物专利文件中的多个目标化合物的指定信息来计算多个目标化合物的权重包括根据下式来计算每个目标化合物的权重：

，

其中，Cscore表示目标化合物的权重，j表示目标化合物在目标化合物专利文件中出现的位置，位置包括目标化合物专利文件的说明书正文、权利要求书、摘要、发明名称、附图，m表示位置的个数，FF_j表示目标化合物在第j位置中出现的频次，FF_j的最大值被限制为第二频次上限，CW_j表示针对第j位置的超参数。

在本公开的一些实施例中，提取化合物专利数据集中的化合物的指定信息还包括：获得每个化合物的国际化学标识符密钥对应的简化分子输入线性录入规范字符串，以及从每个化合物的简化分子输入线性录入规范字符串中提取化合物骨架。其中，根据多个目标化合物的权重来从多个目标化合物中确定候选化合物包括：针对目标化合物专利文件中的每个化合物骨架，根据对应该化合物骨架的目标化合物的权重来计算该化合物骨架的权重；计算目标化合物专利文件中每个化合物骨架的权重占目标化合物专利文件中所有化合物骨架的权重之和的百分比；将所计算的百分比高于第一阈值的化合物骨架确定为候选化合物骨架；计算候选化合物骨架与药物数据库中的药物骨架的第一相似度；将第一相似度大于第一相似度下限的候选化合物骨架确定为核心化合物骨架；计算核心化合物骨架对应的化合物与指定药物骨架对应的药物的第二相似度，其中，指定药物骨架是药物数据库中与核心化合物骨架的第一相似度大于第一相似度下限的药物骨架；以及将第二相似度大于第二相似度下限的化合物确定为候选化合物。其中，根据对应每个化合物骨架的目标化合物的权重来计算该化合物骨架的权重包括根据下式来计算该化合物骨架的权重：

，

其中，CSscore表示该化合物骨架的权重，Cscore_i表示对应该化合物骨架的第i目标化合物的权重，n表示对应该化合物骨架的目标化合物的个数，FN表示在目标化合物专利文件中出现该化合物骨架对应的目标化合物的位置的个数，位置包括目标化合物专利文件的说明书正文、权利要求书、摘要、发明名称、附图，CS_w1表示根据该化合物骨架对应的目标化合物的位置而确定的参数，当该化合物骨架对应的目标化合物只出现在位置中的一处时CS_w1=0，当该化合物骨架对应的目标化合物只出现在权利要求书、摘要、发明名称中的至少两处时CS_w1=a，否则CS_w1=b，a大于b并且a和b都大于0且小于1。

在本公开的一些实施例中，计算候选化合物命中药物数据库中的药物的概率包括：计算候选化合物针对每个指定药物的得分，指定药物是指定药物骨架所对应的与该候选化合物的第二相似度大于第二相似度下限的药物；根据针对同一指定药物的所有候选化合物的得分来计算该指定药物的得分；以及将每个指定药物的得分占所有指定药物的得分之和的百分比作为该指定药物被命中的概率。其中，每个候选化合物针对指定药物的得分被计算为：

RCTscore = CSsmi×Csmi×(CS-P +1)×CTscore，

其中，CTscore=CFW×Cscore，

其中，，

其中，RCTscore表示该候选化合物针对指定药物的得分，CSsmi表示该候选化合物对应的核心化合物骨架与指定药物对应的指定药物骨架的第一相似度，Csmi表示该候选化合物与指定药物的第二相似度，CS-P表示该候选化合物对应的化合物骨架的权重占目标化合物专利文件中所有化合物骨架的权重之和的百分比，CF表示该候选化合物在化合物专利数据集中出现的总频次，Th表示第三频次上限，W表示第一常数，c表示第二常数，Cscore表示该候选化合物的权重。

在本公开的一些实施例中，根据概率来确定目标化合物专利文件的主题药物包括：按照概率对指定药物进行降序排序；确定概率中的最大概率；从指定药物中过滤掉概率小于第一概率下限和第二概率下限的药物，其中，第一概率下限等于最大概率减去最大差值阈值，最大差值阈值和第二概率下限为常数；将过滤后的指定药物中排序最高的N个指定药物确定为目标化合物专利文件的主题药物，其中，N为自然数。

在本公开的一些实施例中，该方法还包括：响应于获得新的化合物专利文件，将新的化合物专利文件加入化合物专利数据集，并提取新的化合物专利文件中的化合物的指定信息；响应于从新的化合物专利文件中提取的任一化合物已经被包括在化合物专利数据集中，更新该化合物在化合物专利数据集中出现的总频次。

根据本公开的第二方面，提供了一种用于提取化合物专利文件中的主题药物的装置。该装置包括至少一个处理器；以及存储有计算机程序的至少一个存储器。当计算机程序由至少一个处理器执行时，使得装置：获得化合物专利数据集，化合物专利数据集包括多个化合物专利文件；提取化合物专利数据集中的化合物的指定信息，化合物的指定信息包括：化合物在对应的化合物专利文件中出现的位置和频次以及在化合物专利数据集中出现的总频次；根据目标化合物专利文件中的多个目标化合物的指定信息来计算多个目标化合物的权重；根据多个目标化合物的权重来从多个目标化合物中确定候选化合物；计算候选化合物命中药物数据库中的药物的概率，其中，药物数据库包括不同研发阶段的药物结构信息；以及根据概率来确定目标化合物专利文件的主题药物。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得装置通过以下操作来提取化合物专利数据集中的化合物的指定信息：识别多个化合物专利文件中所有表示形式的化合物，表示形式包括：文字名称、由国际纯粹与应用化学联合会规定的命名法、结构式图片、简化分子输入线性录入规范字符串、化学抽象服务号、国际化学标识符、国际化学标识符密钥；将所有化合物的表示形式统一转换成国际化学标识符密钥；以及统计每个国际化学标识符密钥在对应的化合物专利文件中出现的位置和频次以及在化合物专利数据集中出现的总频次。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得装置还通过以下操作来提取化合物专利数据集中的化合物的指定信息：计算多个化合物专利文件中的所有化合物的分子量。计算机程序在由至少一个处理器执行时使得装置还：将目标化合物专利文件中符合以下条件的化合物确定为目标化合物：分子量在药物分子量范围内的化合物，其中，药物分子量范围根据药物数据库中的药物的分子量来确定；以及在化合物专利数据集中出现的总频次小于第一频次上限的化合物。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得装置通过以下操作来根据目标化合物专利文件中的多个目标化合物的指定信息来计算多个目标化合物的权重：根据下式来计算每个目标化合物的权重：

，

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得装置还通过以下操作来提取化合物专利数据集中的化合物的指定信息：获得每个化合物的国际化学标识符密钥对应的简化分子输入线性录入规范字符串，以及从每个化合物的简化分子输入线性录入规范字符串中提取化合物骨架。计算机程序在由至少一个处理器执行时使得装置通过以下操作来根据多个目标化合物的权重来从多个目标化合物中确定候选化合物：针对目标化合物专利文件中的每个化合物骨架，根据对应该化合物骨架的目标化合物的权重来计算该化合物骨架的权重；计算目标化合物专利文件中每个化合物骨架的权重占目标化合物专利文件中所有化合物骨架的权重之和的百分比；将所计算的百分比高于第一阈值的化合物骨架确定为候选化合物骨架；计算候选化合物骨架与药物数据库中的药物骨架的第一相似度；将第一相似度大于第一相似度下限的候选化合物骨架确定为核心化合物骨架；计算核心化合物骨架对应的化合物与指定药物骨架对应的药物的第二相似度，其中，指定药物骨架是药物数据库中与核心化合物骨架的第一相似度大于第一相似度下限的药物骨架；以及将第二相似度大于第二相似度下限的化合物确定为候选化合物。其中，计算机程序在由至少一个处理器执行时使得装置通过以下操作来根据对应每个化合物骨架的目标化合物的权重来计算该化合物骨架的权重：根据下式来计算该化合物骨架的权重：

，

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得装置通过以下操作来计算候选化合物命中药物数据库中的药物的概率：计算候选化合物针对每个指定药物的得分，指定药物是指定药物骨架所对应的与该候选化合物的第二相似度大于第二相似度下限的药物；根据针对同一指定药物的所有候选化合物的得分来计算该指定药物的得分；以及将每个指定药物的得分占所有指定药物的得分之和的百分比作为该指定药物被命中的概率。其中，每个候选化合物针对指定药物的得分被计算为：

RCTscore = CSsmi×Csmi×(CS-P +1)×CTscore，

其中，CTscore=CFW×Cscore，

其中，，

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得装置通过以下操作来根据概率来确定目标化合物专利文件的主题药物：按照概率对指定药物进行降序排序；确定概率中的最大概率；从指定药物中过滤掉概率小于第一概率下限和第二概率下限的药物，其中，第一概率下限等于最大概率减去最大差值阈值，最大差值阈值和第二概率下限为常数；将过滤后的指定药物中排序最高的N个指定药物确定为目标化合物专利文件的主题药物，其中，N为自然数。

在本公开的一些实施例中，计算机程序在由至少一个处理器执行时使得装置还：响应于获得新的化合物专利文件，将新的化合物专利文件加入化合物专利数据集，并提取新的化合物专利文件中的化合物的指定信息；响应于从新的化合物专利文件中提取的任一化合物已经被包括在化合物专利数据集中，更新该化合物在化合物专利数据集中出现的总频次。

根据本公开的第三方面，提供了一种存储有计算机程序的计算机可读存储介质，其中，计算机程序在由处理器执行时实现根据本公开的第一方面所述的方法的步骤。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对实施例的附图进行简要说明，应当知道，以下描述的附图仅仅涉及本公开的一些实施例，而非对本公开的限制，其中：

图1是根据本公开的实施例的用于提取化合物专利文件中的主题药物的方法的示例性流程图；

图2是化合物骨架与化合物以及药物骨架与药物的示例性关系图；

图3是根据本公开的实施例的用于提取化合物专利文件中的主题药物的装置的示意性框图。

需要注意的是，附图中的元素是示意性的，没有按比例绘制。

具体实施方式

为了使本公开的实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本公开的实施例的技术方案进行清楚、完整的描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例，也都属于本公开保护的范围。

除非另外定义，否则在此使用的所有术语（包括技术和科学术语）具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是，诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义，并且将不以理想化或过于正式的形式来解释，除非在此另外明确定义。另外，诸如“第一”和“第二”的术语仅用于将一个部件（或部件的一部分）与另一个部件（或部件的另一部分）区分开。

本领域技术人员应了解，所有药物都是化合物，但不是所有化合物都是药物。有些化合物专利文件旨在保护药物，而另一些化合物专利文件并不旨在保护药物本身。在上下文中，化合物专利文件可以指的是国际专利分类号（IPC分类号）属于化学部（C部）的专利文件，也可以指的是所有涉及化合物的专利文件。如果能够通过自动化的方法来从专利文件中包含的大量化合物信息中找到专利所要保护的药物（本文中称之为主题药物）是哪个或者哪些，则能够大大提升发现药物信息的效率及减少人力成本。

为此，本公开提出一种用于提取化合物专利文件中的主题药物的方法。图1示出根据本公开的实施例的用于提取化合物专利文件中的主题药物的方法的示例性流程图。

在图1的框S102处，获得化合物专利数据集。化合物专利数据集包括多个化合物专利文件。化合物专利数据集中的化合物专利文件可以是中国专利，也可以是国际专利或者国外专利。此外，本公开的实施例对化合物专利文件中使用的语言也不限制，可以是中文、英文、或者其它语言。

在框S104处，提取化合物专利数据集中的化合物的指定信息。化合物的指定信息包括：化合物在对应的化合物专利文件中出现的位置和频次以及在化合物专利数据集中出现的总频次。位置可包括化合物专利文件的说明书正文（在这里指的是说明书中除了发明名称之外的部分）、权利要求书、摘要、发明名称、附图（或称为说明书附图）。例如，针对每个化合物，该化合物的指定信息可包括：该化合物在哪些位置出现、该化合物在说明书正文出现的频次、该化合物在权利要求书出现的频次、该化合物在摘要出现的频次、该化合物在发明名称出现的频次、该化合物在附图出现的频次、该化合物在化合物专利数据集中的所有化合物专利中出现的频次之和（总频次）。

在本公开的一些实施例中，在提取化合物专利数据集中的化合物的指定信息的过程中，可识别化合物专利数据集中的该多个化合物专利文件中所有表示形式的化合物。在这里，化合物的表示形式可包括：文字名称、由国际纯粹与应用化学联合会规定的命名法（International Union of Pure and Applied Chemistry，IUPAC）、结构式图片、简化分子输入线性录入规范（Simplified Molecular Input Line Entry Specification，SMILES）字符串、化学抽象服务（chemical Abstracts Service，CAS）号、国际化学标识符（International Chemical Identifier，InChI）、国际化学标识符密钥（InternationalChemical Identifier Key，通常简称为“InChI密钥”或“国际标识符密钥”）以及其它适当的化学标识符或描述方法。InChI密钥是InChI的短字符串表示形式。可通过自然语言识别技术来识别化合物的文字名称、IUPAC名称、SMILES字符串、CAS号、InChI、InChI密钥。可通过图像识别技术来从化合物的结构式图片中识别出化合物。然后，可将所有化合物的表示形式统一转换成SMILES字符串，然后再将SMILES字符串转换成InChI密钥。每个化合物的InChI密钥是唯一的，这样便于将各种表示形式的同一化合物理解成是一种化合物。接着，统计每个InChI密钥（即，每个化合物）在对应的化合物专利文件中出现的位置和频次以及在化合物专利数据集中出现的总频次。

在本公开的一些实施例中，在提取化合物专利数据集中的化合物的指定信息的过程中，还计算该多个化合物专利文件中的所有化合物的分子量。也就是说，化合物的指定信息还包括化合物的分子量。如果某个化合物的分子量超过了药物分子量范围，则该化合物不可能是药物。这样，可通过分子量来对化合物专利文件中的化合物进行粗筛。在这里，药物分子量范围可根据已知的药物数据库中的药物的分子量来确定。在本公开的实施例中，药物数据库中可包括不同研发阶段的药物结构信息。此外，粗筛还可以根据化合物在化合物专利数据集中出现的总频次来实现。如果某个化合物在化合物专利数据集中出现的总频次过高，说明该化合物是很普遍的，而专利不会旨在保护很普遍的化合物，因此该化合物不太可能成为专利的主题药物。

综上，对于任一化合物专利文件（在上下文中可称为目标化合物专利文件），可将目标化合物专利文件中符合以下条件的化合物确定为目标化合物：分子量在药物分子量范围内的化合物，以及在化合物专利数据集中出现的总频次小于第一频次上限的化合物。其中，药物分子量范围根据药物数据库中的药物的分子量来确定。第一频次上限可以是经验值。后续，可在目标化合物中寻找药物。

在框S106处，根据目标化合物专利文件中的多个目标化合物的指定信息来计算该多个目标化合物的权重。在本公开的一些实施例中，根据下式来计算每个目标化合物的权重：

（1）

其中，Cscore表示目标化合物的权重，j表示目标化合物在目标化合物专利文件中出现的位置，位置包括目标化合物专利文件的说明书正文、权利要求书、摘要、发明名称、附图，m表示位置的个数（或者，位置的分类数），FF_j表示目标化合物在第j位置中出现的频次，FF_j的最大值被限制为第二频次上限，CW_j表示针对第j位置的超参数。在位置包括目标化合物专利文件的说明书正文、权利要求书、摘要、发明名称、附图的情况下，m=5。

如果将说明书正文看作目标化合物的第1位置，则FF₁表示目标化合物在说明书正文中出现的频次，CW₁表示针对说明书正文的超参数。类似的，如果将权利要求书看作目标化合物的第2位置，则FF₂表示目标化合物在权利要求书中出现的频次，CW₂表示针对权利要求书的超参数。如果将摘要看作目标化合物的第3位置，则FF₃表示目标化合物在摘要中出现的频次，CW₃表示针对摘要的超参数。如果将发明名称看作目标化合物的第4位置，则FF₄表示目标化合物在发明名称中出现的频次，CW₄表示针对发明名称的超参数。如果将附图看作目标化合物的第5位置，则FF₅表示目标化合物在附图中出现的频次，CW₅表示针对附图的超参数。如果FF_j大于第二频次上限，则FF_j被限制为等于第二频次上限，这样可以避免目标化合物在某个位置出现的频次过大而不合理地影响整体权重。另外，CW₁至CW₅可以是经验值，并且它们可以各不相同。第二频次上限可以是经验值。

在框S108处，根据多个目标化合物的权重来从该多个目标化合物中确定候选化合物。在本公开的一些实施例中，可将该多个目标化合物中权重最大的M个目标化合物确定为核心化合物，M为自然数。然后，可确定核心化合物与药物数据库中的药物的相似度。相似度大于预设阈值的核心化合物可被确定为候选化合物。可通过RDKit软件来计算化合物与药物的相似度。

在本公开的另一些实施例中，可借助于化合物骨架来确定候选化合物。在该实施例中，可在框S104处提取化合物专利数据集中的化合物的指定信息的过程中，获得每个化合物的国际化学标识符密钥对应的SMILES字符串，然后从每个化合物的SMILES字符串中提取化合物骨架。也就是说，化合物的指定信息还可包括化合物骨架。然后，在根据多个目标化合物的权重来从该多个目标化合物中确定候选化合物的过程中，针对目标化合物专利文件中的每个化合物骨架，根据对应该化合物骨架的目标化合物的权重来计算该化合物骨架的权重。其中，可根据下式来计算该化合物骨架的权重：

（2）

其中，CSscore表示该化合物骨架的权重，Cscore_i表示对应该化合物骨架的第i目标化合物的权重，n表示对应该化合物骨架的目标化合物的个数，FN表示在目标化合物专利文件中出现该化合物骨架对应的目标化合物的位置的个数（或者，位置的分类数），位置包括目标化合物专利文件的说明书正文、权利要求书、摘要、发明名称、附图，CS_w1表示根据该化合物骨架对应的目标化合物的位置而确定的参数。当该化合物骨架对应的目标化合物只出现在位置中的一处时CS_w1=0。当该化合物骨架对应的目标化合物只出现在权利要求书、摘要、发明名称中的至少两处时CS_w1=a，否则CS_w1=b。a大于b并且a和b都大于0且小于1。在一个示例中，a=0.6。b=0.3。

参考图2的示例，假设化合物A1、A2和A3都对应化合物骨架A，化合物B1和B2都对应化合物骨架B，化合物C1和C2都对应化合物骨架C。

在根据式（2）计算化合物骨架A的权重时，如果化合物A1、A2和A3只在权利要求书和摘要中出现，则CS_w1=a。如果化合物A1、A2和A3只在权利要求书和附图中出现，则CS_w1=b。如果化合物A1、A2和A3只在权利要求书中出现，则CS_w1=0。如果化合物A1、A2和A3只在说明书正文和附图中出现，则CS_w1=b。

类似的，在根据式（2）计算化合物骨架B的权重时，如果化合物B1和B2只在权利要求书和摘要中出现，则CS_w1=a。如果化合物B1和B2只在权利要求书和附图中出现，则CS_w1=b。如果化合物B1和B2只在权利要求书中出现，则CS_w1=0。如果化合物B1和B2只在说明书正文和附图中出现，则CS_w1=b。

在计算每个化合物骨架的权重之后，计算目标化合物专利文件中每个化合物骨架的权重占目标化合物专利文件中所有化合物骨架的权重之和的百分比。每个化合物骨架的百分比可被计算为CS-P = CSscore / CS-Tscore。其中，CSscore表示该化合物骨架的权重，CS-Tscore表示目标化合物专利文件中所有化合物骨架的权重之和。

然后，将所计算的百分比高于第一阈值的化合物骨架确定为候选化合物骨架。第一阈值可以是经验值。接着，计算候选化合物骨架与药物数据库中的药物骨架的第一相似度。候选化合物骨架与药物骨架的第一相似度可借助RDKit软件来计算。参考图2的示例，假设药物D1和D2都对应药物骨架D，药物E1、E2和E3都对应药物骨架E。在候选化合物骨架是化合物骨架A和B的情况下，计算化合物骨架A与药物数据库中所有药物骨架的第一相似度，以及化合物骨架B与药物数据库中所有药物骨架的第一相似度。

之后，将第一相似度大于第一相似度下限的候选化合物骨架确定为核心化合物骨架。第一相似度下限可以是经验值。假设化合物骨架A与药物骨架D的第一相似度大于第一相似度下限，化合物骨架B与药物骨架D的第一相似度也大于第一相似度下限，那么化合物骨架A和化合物骨架B被确定为核心化合物骨架。

接着，计算核心化合物骨架对应的化合物与指定药物骨架对应的药物的第二相似度。其中，指定药物骨架是药物数据库中与核心化合物骨架的第一相似度大于第一相似度下限的药物骨架。在上述示例中，计算化合物骨架A对应的化合物A1、A2和A3分别与指定药物骨架D对应的药物D1和D2的第二相似度，即，A1与D1的第二相似度，A1与D2的第二相似度，A2与D1的第二相似度，A2与D2的第二相似度，A3与D1的第二相似度，A3与D2的第二相似度。同样地，计算化合物骨架B对应的化合物B1和B2分别与指定药物骨架D对应的药物D1和D2的第二相似度，即，B1与D1的第二相似度，B1与D2的第二相似度，B2与D1的第二相似度，B2与D2的第二相似度。

然后，将第二相似度大于第二相似度下限的化合物确定为候选化合物。第二相似度下限可以是经验值。假设，A1与D1的第二相似度大于第二相似度下限，A3与D2的第二相似度大于第二相似度下限，B1与D2的第二相似度大于第二相似度下限，则化合物A1、A3和B1被确定为候选化合物。

在图1的框S110处，计算候选化合物命中药物数据库中的药物的概率。在本公开的一些实施例中，在计算候选化合物命中药物数据库中的药物的概率的过程中，计算候选化合物针对每个指定药物的得分，在上下文中，指定药物是指定药物骨架所对应的与该候选化合物的第二相似度大于第二相似度下限的药物。换句话说，指定药物是被该候选化合物命中的药物。其中，每个候选化合物针对指定药物的得分被计算为：

RCTscore = CSsmi×Csmi×(CS-P +1)×CTscore （3）

其中，CTscore=CFW×Cscore，

其中，，

其中，RCTscore表示该候选化合物针对指定药物的得分，CSsmi表示该候选化合物对应的核心化合物骨架与指定药物对应的指定药物骨架的第一相似度，Csmi表示该候选化合物与指定药物的第二相似度，CS-P表示该候选化合物对应的化合物骨架的权重占目标化合物专利文件中所有化合物骨架的权重之和的百分比，CF表示该候选化合物在化合物专利数据集中出现的总频次，Th表示第三频次上限，W表示第一常数，c表示第二常数，Cscore表示该候选化合物的权重。Th、 W和c可以是经验值。在一个示例中，Th=100，c=5000。

在获得候选化合物针对指定药物的得分之后，根据针对同一指定药物的所有候选化合物的得分来计算该指定药物的得分。该指定药物的得分可被计算为：

（4）

其中，RDTscore表示该指定药物的得分，k表示对应该指定药物的候选化合物的个数（种类数），RCTscore_i表示对应该指定药物的第i候选化合物的得分（即，第i候选化合物针对该指定药物的得分）。参考图2，假设A3和B1都命中D2，则D2的得分是A3的得分与B1的得分之和。

然后，将每个指定药物的得分占所有指定药物（被命中的药物）的得分之和的百分比作为该指定药物被命中的概率。该指定药物被命中的概率可被计算为DP = RDTscore /RDTscoreS。其中，RDTscore表示该指定药物的得分，RDTscoreS表示所有指定药物的得分之和。

在框S112处，根据在框S110处计算的概率来确定目标化合物专利文件的主题药物。在本公开的一些实施例中，在根据概率来确定目标化合物专利文件的主题药物的过程中，按照概率对指定药物进行降序排序，确定概率中的最大概率，从指定药物中过滤掉概率小于第一概率下限和第二概率下限的药物，将过滤后的指定药物中排序最高的N个指定药物确定为目标化合物专利文件的主题药物。其中，第一概率下限等于最大概率减去最大差值阈值，最大差值阈值和第二概率下限为常数，N为自然数。

参考图2，假设药物D1、D2、E1和E3被命中，且D1被命中的概率为0.3，D2被命中的概率为0.5，E1被命中的概率为0.1，E3被命中的概率为0.1。那么，药物被命中的概率中的最大概率为0.5。在最大差值阈值为0.3且第二概率下限为0.15的情况下，第一概率下限为0.5-0.3=0.2。在这种情况下，使用第一概率下限就可以将药物E1和E3过滤掉，药物D1和D2被保留。在最大差值阈值为0.5且第二概率下限为0.15的情况下，第一概率下限为0.5-0.5=0。在这种情况下，使用第一概率下限不能过滤掉任何药物，而通过第二概率下限可以将药物E1和E3过滤掉，药物D1和D2被保留。通过第一概率下限和第二概率下限的双重保障，可以过滤掉概率较小的药物。

由于一篇化合物专利文件的主题药物不会太多，如果过滤后的药物的个数超过N，则只取排序最高的N个药物作为主题药物。在这里，N可以是经验值。

在本公开的一些实施例中，如果获得新的化合物专利文件，可将新的化合物专利文件加入化合物专利数据集，并提取新的化合物专利文件中的化合物的指定信息。如果从新的化合物专利文件中提取的任一化合物已经被包括在化合物专利数据集中，则更新该化合物在化合物专利数据集中出现的总频次。在框S106处计算的该化合物的权重可使用该化合物的更新后的总频次来计算。

图3示出根据本公开的实施例的用于提取化合物专利文件中的主题药物的装置300的示意性框图。如图3所示，该装置300可包括处理器310和存储有计算机程序的存储器320。当计算机程序由处理器310执行时，使得装置300可执行如图1所示的方法100的步骤。在一个示例中，装置300可以是计算机设备或云计算节点。装置300可获得化合物专利数据集。化合物专利数据集包括多个化合物专利文件。装置300可提取化合物专利数据集中的化合物的指定信息。化合物的指定信息包括：化合物在对应的化合物专利文件中出现的位置和频次以及在化合物专利数据集中出现的总频次。装置300可根据目标化合物专利文件中的多个目标化合物的指定信息来计算多个目标化合物的权重。装置300可根据多个目标化合物的权重来从多个目标化合物中确定候选化合物。装置300可计算候选化合物命中药物数据库中的药物的概率。其中，药物数据库包括不同研发阶段的药物结构信息。装置300可根据概率来确定目标化合物专利文件的主题药物。

在本公开的一些实施例中，装置300可识别多个化合物专利文件中所有表示形式的化合物。表示形式包括：文字名称、由国际纯粹与应用化学联合会规定的命名法、结构式图片、简化分子输入线性录入规范字符串、化学抽象服务号、国际化学标识符、国际化学标识符密钥。装置300可将所有化合物的表示形式统一转换成国际化学标识符密钥。装置300可统计每个国际化学标识符密钥在对应的化合物专利文件中出现的位置和频次以及在化合物专利数据集中出现的总频次。

在本公开的一些实施例中，装置300可计算多个化合物专利文件中的所有化合物的分子量。装置300可将目标化合物专利文件中符合以下条件的化合物确定为目标化合物：分子量在药物分子量范围内的化合物，其中，药物分子量范围根据药物数据库中的药物的分子量来确定；以及在化合物专利数据集中出现的总频次小于第一频次上限的化合物。

在本公开的一些实施例中，装置300可根据下式来计算每个目标化合物的权重：

，

在本公开的一些实施例中，装置300可获得每个化合物的国际化学标识符密钥对应的简化分子输入线性录入规范字符串，以及从每个化合物的简化分子输入线性录入规范字符串中提取化合物骨架。装置300可针对目标化合物专利文件中的每个化合物骨架，根据对应该化合物骨架的目标化合物的权重来计算该化合物骨架的权重。装置300可计算目标化合物专利文件中每个化合物骨架的权重占目标化合物专利文件中所有化合物骨架的权重之和的百分比。装置300可将所计算的百分比高于第一阈值的化合物骨架确定为候选化合物骨架。装置300可计算候选化合物骨架与药物数据库中的药物骨架的第一相似度。装置300可将第一相似度大于第一相似度下限的候选化合物骨架确定为核心化合物骨架。装置300可计算核心化合物骨架对应的化合物与指定药物骨架对应的药物的第二相似度。其中，指定药物骨架是药物数据库中与核心化合物骨架的第一相似度大于第一相似度下限的药物骨架。装置300可将第二相似度大于第二相似度下限的化合物确定为候选化合物。其中，根据对应每个化合物骨架的目标化合物的权重来计算该化合物骨架的权重包括根据下式来计算该化合物骨架的权重：

，

在本公开的一些实施例中，装置300可计算候选化合物针对指定药物的得分。指定药物是指定药物骨架所对应的与该候选化合物的第二相似度大于第二相似度下限的药物。装置300可根据针对同一指定药物的所有候选化合物的得分来计算该指定药物的得分。装置300可将每个指定药物的得分占所有指定药物的得分之和的百分比作为该指定药物被命中的概率。其中，每个候选化合物针对指定药物的得分被计算为：

RCTscore = CSsmi×Csmi×(CS-P +1)×CTscore，

其中，CTscore=CFW×Cscore，

其中，，

在本公开的一些实施例中，装置300可按照概率对指定药物进行降序排序。装置300可确定概率中的最大概率。装置300可从指定药物中过滤掉概率小于第一概率下限和第二概率下限的药物。其中，第一概率下限等于最大概率减去最大差值阈值。最大差值阈值和第二概率下限为常数。装置300可将过滤后的指定药物中排序最高的N个指定药物确定为目标化合物专利文件的主题药物。其中，N为自然数。

在本公开的一些实施例中，响应于获得新的化合物专利文件，装置300可将新的化合物专利文件加入化合物专利数据集，并提取新的化合物专利文件中的化合物的指定信息。响应于从新的化合物专利文件中提取的任一化合物已经被包括在化合物专利数据集中，装置300可更新该化合物在化合物专利数据集中出现的总频次。

在本公开的实施例中，处理器310可以是例如中央处理单元（CPU）、微处理器、数字信号处理器（DSP）、基于多核的处理器架构的处理器等。存储器320可以是使用数据存储技术实现的任何类型的存储器，包括但不限于随机存取存储器、只读存储器、基于半导体的存储器、闪存、磁盘存储器等。

此外，在本公开的实施例中，装置300也可包括输入设备330，例如键盘、鼠标等，用于输入化合物专利文件。另外，装置300还可包括输出设备330，例如显示器等，用于输出从化合物专利文件中提取的主题药物。

在本公开的其它实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，其中，计算机程序在由处理器执行时能够实现如图1所示的方法的步骤。

综上所述，根据本公开的实施例的用于提取化合物专利文件中的主题药物的方法和装置能够自动从大量的化合物专利中提取主题药物，从而大大提升主题药物提取的效率及减少人力成本。

附图中的流程图和框图显示了根据本公开的多个实施例的装置和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

除非上下文中另外明确地指出，否则在本文和所附权利要求中所使用的词语的单数形式包括复数，反之亦然。因而，当提及单数时，通常包括相应术语的复数。相似地，措辞“包含”和“包括”将解释为包含在内而不是独占性地。同样地，术语“包括”和“或”应当解释为包括在内的，除非本文中明确禁止这样的解释。在本文中使用术语“示例”之处，特别是当其位于一组术语之后时，所述“示例”仅仅是示例性的和阐述性的，且不应当被认为是独占性的或广泛性的。

适应性的进一步的方面和范围从本文中提供的描述变得明显。应当理解，本申请的各个方面可以单独或者与一个或多个其它方面组合实施。还应当理解，本文中的描述和特定实施例旨在仅说明的目的并不旨在限制本申请的范围。

以上对本公开的若干实施例进行了详细描述，但显然，本领域技术人员可以在不脱离本公开的精神和范围的情况下对本公开的实施例进行各种修改和变型。本公开的保护范围由所附的权利要求限定。

Claims

1.一种用于提取化合物专利文件中的主题药物的方法，其特征在于，所述方法包括：

获得化合物专利数据集，所述化合物专利数据集包括多个化合物专利文件；

提取所述化合物专利数据集中的化合物的指定信息，所述化合物的指定信息包括：所述化合物在对应的化合物专利文件中出现的位置和频次以及在所述化合物专利数据集中出现的总频次；

根据目标化合物专利文件中的多个目标化合物的所述指定信息来计算所述多个目标化合物的权重；

根据所述多个目标化合物的权重来从所述多个目标化合物中确定候选化合物；

计算所述候选化合物命中药物数据库中的药物的概率，其中，所述药物数据库包括不同研发阶段的药物结构信息；以及

根据所述概率来确定所述目标化合物专利文件的主题药物；

其中，提取所述化合物专利数据集中的化合物的指定信息包括：

识别所述多个化合物专利文件中所有表示形式的化合物，所述表示形式包括：文字名称、由国际纯粹与应用化学联合会规定的命名法、结构式图片、简化分子输入线性录入规范字符串、化学抽象服务号、国际化学标识符、国际化学标识符密钥；

将所有化合物的表示形式统一转换成国际化学标识符密钥；

统计每个国际化学标识符密钥在对应的化合物专利文件中出现的位置和频次以及在所述化合物专利数据集中出现的总频次；

计算所述多个化合物专利文件中的所有化合物的分子量；

获得每个化合物的国际化学标识符密钥对应的简化分子输入线性录入规范字符串；以及

从每个化合物的简化分子输入线性录入规范字符串中提取化合物骨架；

其中，所述方法还包括：将所述目标化合物专利文件中符合以下条件的化合物确定为目标化合物：

分子量在药物分子量范围内的化合物，其中，所述药物分子量范围根据所述药物数据库中的药物的分子量来确定；以及

在所述化合物专利数据集中出现的总频次小于第一频次上限的化合物；

其中，根据目标化合物专利文件中的多个目标化合物的所述指定信息来计算所述多个目标化合物的权重包括根据下式来计算每个目标化合物的权重：

其中，Cscore表示所述目标化合物的权重，j表示所述目标化合物在所述目标化合物专利文件中出现的位置，所述位置包括所述目标化合物专利文件的说明书正文、权利要求书、摘要、发明名称、附图，m表示所述位置的个数，FF_j表示所述目标化合物在第j位置中出现的频次，FF_j的最大值被限制为第二频次上限，CW_j表示针对第j位置的超参数；

其中，根据所述多个目标化合物的权重来从所述多个目标化合物中确定候选化合物包括：

针对所述目标化合物专利文件中的每个化合物骨架，根据对应该化合物骨架的目标化合物的权重来计算该化合物骨架的权重；

计算所述目标化合物专利文件中每个化合物骨架的权重占所述目标化合物专利文件中所有化合物骨架的权重之和的百分比；

将所计算的百分比高于第一阈值的化合物骨架确定为候选化合物骨架；

计算所述候选化合物骨架与所述药物数据库中的药物骨架的第一相似度；

将所述第一相似度大于第一相似度下限的候选化合物骨架确定为核心化合物骨架；

计算所述核心化合物骨架对应的化合物与指定药物骨架对应的药物的第二相似度，其中，所述指定药物骨架是所述药物数据库中与所述核心化合物骨架的所述第一相似度大于所述第一相似度下限的药物骨架；以及

将所述第二相似度大于第二相似度下限的化合物确定为所述候选化合物；

其中，根据对应每个化合物骨架的目标化合物的权重来计算该化合物骨架的权重包括根据下式来计算该化合物骨架的权重：

其中，CSscore表示该化合物骨架的权重，Cscore_i表示对应该化合物骨架的第i目标化合物的权重，n表示对应该化合物骨架的目标化合物的个数，FN表示在所述目标化合物专利文件中出现该化合物骨架对应的目标化合物的位置的个数，所述位置包括所述目标化合物专利文件的说明书正文、权利要求书、摘要、发明名称、附图，CS_w1表示根据该化合物骨架对应的目标化合物的位置而确定的参数，当该化合物骨架对应的目标化合物只出现在所述位置中的一处时CS_w1=0，当该化合物骨架对应的目标化合物只出现在权利要求书、摘要、发明名称中的至少两处时CS_w1=a，否则CS_w1=b，a大于b并且a和b都大于0且小于1。

2.根据权利要求1所述的方法，其特征在于，计算所述候选化合物命中药物数据库中的药物的概率包括：

计算所述候选化合物针对每个指定药物的得分，所述指定药物是所述指定药物骨架所对应的与所述候选化合物的第二相似度大于所述第二相似度下限的药物；

根据针对同一指定药物的所有候选化合物的得分来计算所述指定药物的得分；以及

将每个指定药物的得分占所有指定药物的得分之和的百分比作为所述指定药物被命中的概率；

其中，每个候选化合物针对所述指定药物的得分被计算为：

RCTscore = CSsmi×Csmi×(CS-P +1)×CTscore，

其中，CTscore=CFW×Cscore，

，

其中，RCTscore表示该候选化合物针对指定药物的得分，CSsmi表示该候选化合物对应的核心化合物骨架与所述指定药物对应的指定药物骨架的第一相似度，Csmi表示该候选化合物与所述指定药物的第二相似度，CS-P表示该候选化合物对应的化合物骨架的权重占所述目标化合物专利文件中所有化合物骨架的权重之和的百分比，CF表示该候选化合物在所述化合物专利数据集中出现的总频次，Th表示第三频次上限，W表示第一常数，c表示第二常数，Cscore表示该候选化合物的权重。

3.根据权利要求2所述的方法，其特征在于，根据所述概率来确定所述目标化合物专利文件的主题药物包括：

按照所述概率对所述指定药物进行降序排序；

确定所述概率中的最大概率；

从所述指定药物中过滤掉概率小于第一概率下限和第二概率下限的药物，其中，所述第一概率下限等于所述最大概率减去最大差值阈值，所述最大差值阈值和所述第二概率下限为常数；

将过滤后的指定药物中排序最高的N个指定药物确定为所述目标化合物专利文件的主题药物，其中，N为自然数。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于获得新的化合物专利文件，将所述新的化合物专利文件加入所述化合物专利数据集，并提取所述新的化合物专利文件中的化合物的所述指定信息；

响应于从所述新的化合物专利文件中提取的任一化合物已经被包括在所述化合物专利数据集中，更新该化合物在所述化合物专利数据集中出现的总频次。

5.一种用于提取化合物专利文件中的主题药物的装置，其特征在于，所述装置包括：

至少一个处理器；以及

存储有计算机程序的至少一个存储器；

其中，当所述计算机程序由所述至少一个处理器执行时，使得所述装置执行根据权利要求1至4中任一项所述的方法的步骤。

6.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序在由处理器执行时实现根据权利要求1至4中任一项所述的方法的步骤。