CN112543931A

CN112543931A - 自动识别专利文献中相关化合物的方法、系统和存储介质

Info

Publication number: CN112543931A
Application number: CN201980029275.9A
Authority: CN
Inventors: 沙贝尔·A·阿肯迪; 辛纳克·雷伊; 马库斯·施沃雷尔; 海克·纳优; 加布里埃尔·伊尔曼; 马蒂亚斯·伊默尔; 克劳迪娅·鲍巴斯
Original assignee: OntoChem GmbH; Elsevier Ltd
Current assignee: OntoChem GmbH; Elsevier Ltd; Elsevier Inc
Priority date: 2018-03-07
Filing date: 2019-03-06
Publication date: 2021-03-23
Also published as: US11537788B2; US20210004586A1; WO2019173444A1

Abstract

训练化学实体识别系统以从专利文献中提取化合物并确定所述化合物与所述专利文献的相关性的方法、系统以及非暂时性存储介质。该方法包括：从专利数据库获得专利文献，将每个专利文献规范化为统一格式，并生成化学专利预料库。所述化学专利语料库包括化学实体，每个化学实体包括相关性注释，相关性注释表明与从中提取化学实体的专利文献的相关性。所述方法还包括向所述化学实体识别系统提供所述化学专利语料库，在相应规范化专利文献中标记所述一个或多个化学实体，提取附加化学实体，为每个附加化学实体分配置信度得分，并基于所述化学专利语料库中所包含的信息，将每个附加化学实体标记为与相关专利文献相关或无关。

Description

自动识别专利文献中相关化合物的方法、系统和存储介质

相关申请的交叉引用

本申请要求于2018年3月7日提交的发明名称为“自动识别专利中的相关化合物”的美国临时专利申请No.62/639,656的优先权，其全部内容通过引用合并于此。

技术领域

本公开涉及用于自动识别专利文献中化合物的方法、系统和存储介质，更具体地，涉及用于训练化学实体识别系统以自动地从专利文献中提取化合物并对化合物相对于相应的专利文献相关性进行分类的方法、系统和存储介质。

背景技术

与化学有关的出版物可能包括专利申请和科学期刊文章。在商业研发项目中，新化合物的首次公开披露可能会发生在专利申请过程中。有时，这些化合物可能还需要1-3年才能出现在期刊出版物上。因此，这些化合物可能只能在一段时间内通过专利文献获得。另外，化学专利文献可能包含独特的信息，例如反应、实验条件、作用方式、生物活性数据和催化剂。分析此类信息可能是必要的，因为它可以帮助理解化合物的现有技术，提供了新颖性检查和验证的手段，指出了学术界和工业界化学研究的起点。

发明内容

本公开的一方面涉及一种训练化学实体识别系统以从专利文献中提取一种或多种化合物并确定所述一种或多种化合物与所述专利文献的相关性的方法。该方法包括处理装置从一个或多个专利数据库获得多个专利文献。该方法还包括处理装置将所述多个专利文献中的每个专利文献规范化为统一格式，以实现多个统一的专利文献。该方法还包括处理装置从所述多个统一的专利文献中生成化学专利语料库，所述化学专利语料库包括从所述多个统一的专利文献中提取的一个或多个化学实体。所述一个或多个化学实体中的每个化学实体包括一个或多个相关性注释，所述一个或多个相关性注释表明与从中提取化学实体的专利文献的相关性。该方法还包括所述处理装置向所述化学实体识别系统提供所述化学专利语料库。所述化学实体识别系统响应于接收到所述化学专利语料库，在所述多个统一的专利文献的相应规范化专利文献中标记所述一个或多个化学实体，从所述多个统一的专利文献中提取一个或多个附加化学实体，为所述一个或多个附加化学实体中的每个附加化学实体分配置信度得分，并基于所述化学专利语料库中所包含的信息，将所述一个或多个附加化学实体中的每个附加化学实体标记为与相关专利文献相关或无关。

本公开的另一方面涉及一种系统，该系统被配置为用于训练化学实体识别系统以从专利文献中提取一种或多种化合物并确定所述一种或多种化合物与所述专利文献的相关性。该系统包括一个或多个硬件处理器；和非暂时性处理器可读存储介质，其上包含一个或多个编程指令。编程指令在被执行时，使所述一个或多个硬件处理器从一个或多个专利数据库获得多个专利文献。编程指令在被执行时，使所述一个或多个硬件处理器将所述多个专利文献中的每个专利文献规范化为统一格式，以实现多个统一的专利文献。编程指令在被执行时，使所述一个或多个硬件处理器从所述多个统一的专利文献中生成化学专利语料库。所述化学专利语料库包括从所述多个统一的专利文献中提取的一个或多个化学实体。所述一个或多个化学实体中的每个化学实体包括一个或多个相关性注释，所述一个或多个相关性注释表明与从中提取化学实体的专利文献的相关性。编程指令在被执行时，使所述一个或多个硬件处理器向所述化学实体识别系统提供所述化学专利语料库。所述化学实体识别系统在所述多个统一的专利文献的相应规范化专利文献中标记所述一个或多个化学实体，从所述多个统一的专利文献中提取一个或多个附加化学实体，为所述一个或多个附加化学实体中的每个附加化学实体分配置信度得分，并基于所述化学专利语料库中所包含的信息，将所述一个或多个附加化学实体中的每个附加化学实体标记为与相关专利文献相关或无关。

本公开的再一方面涉及一种非暂时性存储介质，其上包含用于使处理装置执行以下操作的可执行指令：从一个或多个专利数据库获得多个专利文献；将所述多个专利文献中的每个专利文献规范化为统一格式，以实现多个统一的专利文献，从所述多个统一的专利文献中生成化学专利语料库。所述化学专利语料库包括从所述多个统一的专利文献中提取的一个或多个化学实体。所述一个或多个化学实体中的每个化学实体包括一个或多个相关性注释。所述一个或多个相关性注释表明与从中提取化学实体的专利文献的相关性。所述可执行指令还使所述处理装置向所述化学实体识别系统提供所述化学专利语料库。所述化学实体识别系统在所述多个统一的专利文献的相应规范化专利文献中标记所述一个或多个化学实体，从所述多个统一的专利文献中提取一个或多个附加化学实体，为所述一个或多个附加化学实体中的每个附加化学实体分配置信度得分，并基于所述化学专利语料库中所包含的信息，将所述一个或多个附加化学实体中的每个附加化学实体标识为与相关专利文献相关或无关。

考虑以下描述和所附权利要求并结合附图，可以清楚的知道本技术的这些和其他特征、特性，以及结构的相关元件的操作方法和功能，以及部件的结合和制造的经济性，所有这些都形成本说明书的一部分，其中，相似的附图标记在各个附图中表示相应的部件。然而，应当明确理解，附图仅出于说明和描述的目的，并不旨在作为对本发明范围的限制。除非上下文另外明确指出，说明书和权利要求书中所使用的，单数形式的“一个”，“一种”和“所述”包括复数对象。

附图简要说明

图1示意性地描绘了根据本文所示和所描述的一个或多个实施方案的用于训练化学实体识别系统以自动地从专利文献中提取化合物并确定所述化合物与所述专利文献的相关性的系统的示意性网络；

图2A描绘了根据本文所示和所描述的一个或多个实施方案的训练装置的示意性内部组件的方框图，该训练装置被配置为训练化学实体识别系统以自动地从专利文献中提取化合物并确定所述化合物与所述专利文献的相关性；

图2B描绘了根据本文所示和所描述的一个或多个实施方案的训练装置的存储器内的示意性逻辑模块的方框图，该训练装置被配置为训练化学实体识别系统以自动地从专利文献中提取化合物并确定所述化合物与所述专利文献的相关性；

图2C描绘了根据本文所示和所描述的一个或多个实施方案的训练装置的存储设备内的示意性数据组件的方框图，该训练装置被配置为训练化学实体识别系统以自动地从专利文献中提取化合物并确定所述化合物与所述专利文献的相关性；

图3A描绘了根据本文所示和所描述的一个或多个实施方案的化学实体识别系统的示意性内部组件的方框图，该化学实体识别系统被训练为自动从专利文献中提取化合物并确定所述化合物与所述专利文献的相关性；

图3B描绘了根据本文所示和所描述的一个或多个实施方案的化学实体识别系统的存储器内的示意性逻辑模块的方框图，该化学实体识别系统被训练为自动从专利文献中提取化合物并确定所述化合物与所述专利文献的相关性；

图3C描绘了根据本文所示和所描述的一个或多个实施方案的化学实体识别系统的存储设备内的示意性数据组件的方框图，该化学实体识别系统被训练为自动从专利文献中提取化合物并确定所述化合物与所述专利文献的相关性；

图4描绘了根据本文所示和所描述的一个或多个实施方案的训练化学实体识别系统以自动地从专利文献中提取化合物并确定所述化合物与所述专利文献的相关性的示意性一般方法的流程图；

图5描绘了根据本文所示和所描述的一个或多个实施方案的对相关性进行分类的示意性方法的流程图；

图6描绘了根据本文所示和所描述的一个或多个实施方案的开发专利语料库的示意性方法的流程图；

图7描绘了根据本文所示和所描述的一个或多个实施方案的在专利文献中使用注释工具描述注释的示意性用户界面；

图8描绘了根据本文所示和所描述的一个或多个实施方案，基于精度、查全率和F得分的化学实体识别系统的性能的图表；和

图9描绘了根据本文所示和所描述的一个或多个实施方案，当相关性特征被去除时，表示相关性分类系统的性能作为相关性分数阈值的函数图表。

具体实施方式

本公开总体上涉及一种系统，该系统自动地从专利文献中提取化合物并确定所述化合物与所述专利文献的相关性。本文所描述的方法涉及一种训练装置，特别地，该训练装置配置为从数据库中提取专利文献，对专利文献进行规范化并将专利文献供给机器学习系统(在文本中称为化学实体识别系统)，使机器学习系统经过培训后，可以自动识别规范化专利文献中的化合物，并确定这些化合物与相关专利文献是否相关。

专利文献中包含的专利数据可以从各个专利数据库中获得，包括但不限于由各个专利局，例如欧洲专利局(EPO)、美国专利商标局(USPTO)、世界知识产权组织(WIPO)、日本专利局(JPO)、中国国家知识产权局(SIPO)和非洲地区知识产权组织(ARIPO)维护的数据库。在一些实施方案中，专利数据库可以由非政府实体例如谷歌维护。非政府实体维护的数据库中包含的信息可以是各个专利局数据库中包含的信息的副本。因此，本文所用的术语“专利数据库”通常是指包含专利文献或专利数据的任何数据库，包括(但不限于)本文以上所述的数据库。

根据专利局的不同，可获得的数据可以是一种或多种格式，包括但不限于XML、HTML、PDF文本、光学字符识别(OCR)PDF、图像PDF等。专利文献可以遵循由发明名称、著录信息(例如专利号、日期、发明人名称、受让人、申请人和国际专利分类(IPC)类别)、摘要、说明书和权利要求组成的系统结构。在一些实施方案中，专利文献中包含的化学数据可以在说明书的实验部分中获得，而所要求保护的(即受专利保护的)化合物可以在权利要求部分中获得。说明书附图、序列表或包含化学数据的其他信息可以在专利文献的最后(例如，在权利要求书和摘要之后)获得。

专利局虽然提供专利文献，但是不提供系统的连续化学注释和全文搜索功能，因此可以考虑手动或自动摘录方法。手动摘录方法既昂贵又费时，因此可能仅限于商业内容提供商，例如Elsevier Reaxys(Elsevier B.V.，Amsterdam NL)。从专利中提取信息的自动方法可以提取图像和附件文件，但是提取的信息只能通过文本挖掘和图像挖掘来获取，可能仅适用于在特定日期之后公布的某些专利文献(例如，由美国专利商标局为其专利子集提供的文件(2001年至2011年授权的专利)的数字化学结构的信息)。然而，事实证明维护公共数据库很困难，因此许多自动方法已经过时了。此外，这些自动方法在解释某些图像的结构图中发现的各个图像特征(例如化学键)方面存在局限性。此外，利用文本挖掘的自动方法侧重于专利中化合物的识别，这受限于词典中包含的化合物。将所有系统化合物标识符添加到字典中是不可能的，因为这些系统化合物标识符是根据化合物的结构和一组规则通过算法生成的。此外，在化学领域中，与公认的化合物相关的化学结构的正确性是至关重要的。通常，以集成系统形式使用上述方法的组合进行化合物识别，这需要用于训练、开发和测试性能的黄金标准语料库。制造这样的语料库既费力又昂贵。它涉及开发定义明确的注释准则、选择和培训领域专家以进行注释、选择数据、由多个注释者对数据进行注释，以及协调注释。

自动从专利中提取信息是快速的，但有局限性。已经使用专利文献的发明名称和摘要对大多数专利文本挖掘系统进行了开发、训练和测试。因此，其使用不会对全文文档评估。更重要的是，自动提取主要在于提取所有提到的化合物。在手动摘录的数据库中，重点是相关化合物。当化合物在专利申请中起主要作用时(例如，权利要求部分中指定的反应中的起始原料或产物)，该化合物与专利有关。相关化合物在专利文献中提及的所有化合物中仅占很小的比例。自动识别相关化合物将大大减少从专利中提取的数据量，并可以提高专利资源的有效性。此外，这些化合物可用于预测分析，以识别专利中的关键化合物(关键化合物是受专利申请保护的主要化合物，通常在上下文中被很好地隐藏)。

因此，本申请的系统、方法和介质使用自动方法来识别专利文献中的相关化合物，该自动方法确定化学实体与包含该化学实体的专利文献是否相关，从而使数据库最小，该数据库被维护以对不断增加的可用专利文献进行分类，这使得被检索的数据库更有效，能检索到更相关的结果，并且维护成本较低。还可以实现其他优点。

如本文所用，术语“专利文献”通常是指与专利有关的任何出版物，包括但不限于已公开的专利(包括实用新型专利、外观设计专利和植物专利)、已公开的专利申请、已公开的实用新型、已公开的革新专利、已公开的实用证书(utility certificate)、已公开的小专利(petty patent)、已公开的短期专利(short term patent)、已公开的实用新型(utility innovations)、已公开的功能设计(functional design)、已公开的实用证书(utility certificate)等。在一些实施方案中，专利文献可以是其中包含化学信息的化学相关专利文献。即，化学相关的专利文献可以包括但不限于一个或多个化学符号、一个或多个官能团、一种或多种化学类别的标识、一种或多种化学式的标识、一种或多种化学结构式的标识、一种或多种化学前缀的标识、一种或多种化学后缀的标识、一种或多种化学性质的标识、国际纯粹与应用化学联合会(IUPAC)颁布的任何化学命名法和/或术语等。

现在参考附图，图1示意性地描绘了根据各种实施方案的训练化学实体识别系统以自动地从专利文献中提取化合物并确定所述化合物与所述专利文献的相关性的系统的示意性网络。如图1所示，计算机网络100可以包括广域网(WAN)，例如因特网、局域网(LAN)、移动通信网络、公共服务电话网(PSTN)、个人局域网(PAN)、城域网(MAN)、虚拟专用网(VPN)和/或其他网络。计算机网络100通常可以配置为与一个或多个计算装置和/或其组件电连接。示意性计算装置可以包括但不限于训练装置110、化学实体识别系统120、一个或多个数据存储库130、和/或用户计算装置140。

训练装置110通常可以被配置为训练化学实体识别系统120，并且可以进一步被配置为从一个或多个源(例如，化学实体识别系统120；一个或多个数据存储库130；和/或用户计算装置140)发送和/或接收电子数据等，直接操作一个或多个其他装置(例如，化学实体识别系统120；一个或多个数据存储库130；和/或用户计算装置140)，收集来自一个或多个源(例如，专利文献数据，特别是来自一个或多个数据存储库130等的化学专利文献数据)的数据，存储专利文献、相关专利文献中与化学实体相关的数据、与专利文献中化学实体相关性相关的数据等。关于训练装置110的其他细节在本文中描述。在一些实施方案中，训练装置110可能能够根据客户端/服务器架构和/或其他架构与一个或多个其他装置进行通信。

化学实体识别系统120通常是机器学习(ML)服务器，其特别配置为接收与化学专利文献有关的数据，分析这些数据并从中提取化学实体，并确定提取的化学实体是否与从中提取这些化学实体的化学专利文献相关。化学实体识别系统120可以连续地从计算机网络100的一个或多个其他装置接收数据和/或指令，所述一个或多个其他装置包括但不限于训练装置110、一个或多个数据存储库130和/或用户计算装置140。关于化学实体识别系统120的其他细节在本文中描述。

如本文所述，一个或多个数据储存库130通常可以存储用于提取化学实体并确定其相关性的数据。即，一个或多个数据存储库130可以包含专利文献，特别是化学专利文献。在一些实施方案中，包含在一个或多个数据存储库130中的数据可以是第三方服务器，其包含可用于提供动态排名推荐列表的信息，这些信息可通过训练装置110经由应用程序编程接口(API)等、化学实体识别系统120和/或用户计算装置140等获得。例如，一个或多个数据存储库130可以包括专利局例如USPTO、EPO、SIPO、JPO、WIPO和ARIPO维护的一个或多个存储库。在一些实施方案中，为了执行本本文所述过程，可以自动地、连续地从一个或多个数据存储库130中直接获得数据。在其他实施方案中，为了执行本文所述过程，可以将数据从一个或多个数据存储库130复制到训练装置110和/或化学实体识别系统120中。

不管本文是否具体描述，用户计算装置140通常可以分别用作用户与连接到计算机网络100的其他组件，和/或通信耦合至用户计算装置140的各种其他组件(例如，经由一个或多个网络通信耦合至的用户计算装置140的组件)之间的接口(interface)。因此，用户计算装置140可以用于执行一个或多个面向用户的功能，例如从用户接收一个或多个输入或向用户提供信息。例如，用户计算装置140可以接收与研究专利文献(包括化学专利文献)、研究化学信息、研究化学实体、提供信息，进行各种检索等相对应的用户输入。另外，在训练装置110和/或化学实体识别系统120需要监督、更新或校正的情况下，用户计算装置140可以被配置为提供所需的监督、更新或校正。用户计算装置140还可以用于将其他数据输入训练装置110的数据存储部分、化学实体识别系统120和/或一个或多个数据存储库130。例如，用户可以使用用户计算装置140将专利出版物上传至经由计算机网络100连接的一个或多个组件。在一些实施方案中，用户计算装置140可以配置为经由服务器和/或根据点对点架构和/或其他架构与其他平台进行通信。

应当理解，尽管用户计算装置140被描述为个人计算机和训练装置110，化学实体识别系统120以及一个或多个数据储存库130被描述为服务器，但是这些是非限制性示例。更具体地说，在一些实施方案中，任何类型的计算装置(例如，移动计算装置、个人计算机、服务器等)或具有计算组件的任何专用装置都可以用于这些组件中的任何一个。另外，尽管图1中示出的每个装置都是单独的硬件，这也仅仅是示例。更具体地说，训练装置110、化学实体识别系统120、一个或多个数据存储库130和用户计算装置140中的每一个都可以代表多个计算机、服务器、数据库、移动装置、组件、专用装置等。类似地，一个或多个数据存储库130可以是单个计算机、服务器、数据库、移动装置、组件、专用装置等。

图2A示出了训练装置110的示意性硬件组件。总线200可以互连各种组件，所述各种组件包括(但不限于)处理装置210、用户接口硬件220、通信接口硬件230、存储器240和/或存储设备260。处理装置210，例如计算机处理单元(CPU)，可以是训练装置110的中央处理单元，执行执行程序所需的计算和逻辑运算。处理装置210，单独地或与图2A中公开的一个或多个其他元件结合，是示意性处理装置、计算装置，处理器或其组合，如这些术语在本公开中使用。存储器240，例如只读存储器(ROM)和随机存取存储器(RAM)可以构成示例性存储设备(即，非暂时性处理器可读存储介质)。这样的存储器240上可包括一个或多个编程指令，当由处理装置210执行编程指令时，使处理装置210完成各种过程，如本文所描述的过程。在一些实施方案中，程序指令可以存储在有形的计算机可读介质上，例如光盘、数字盘、闪存、存储卡、USB驱动器、光盘存储介质，例如Blu-ray^TM光盘和/或其他非暂时性处理器可读存储介质。

在一些实施方案中，包含在存储器240上的程序指令可以体现为多个软件逻辑模块，其中每个逻辑模块提供编程指令，用于完成一个或多个任务。例如，某些软件逻辑模块可以用于以下目的：收集信息(例如，专利文献中包含的信息，特别是化学专利文献中的信息)；提取信息(例如，化学专利文献中的化学实体)；提供信息(例如，向化学实体识别系统120(图1)传输信息)等。关于逻辑模块的其他细节将在本文中参照图2B进行讨论。

仍参照图2A，存储设备260，通常可以是与存储器240分离的存储介质，可以包含一个或多个数据存储库，用于存储与专利文献特别是化学专利文献相关的数据、与化学实体相关的数据、关于化学实体是否与相关的专利文献相关的数据、传输到化学实体识别系统120(图1)以训练化学实体识别系统120的数据、与注释相关的数据等。仍参照图2A，存储设备260可以是任何物理存储介质，包括但不限于硬盘驱动器(HDD)、存储器、可移动存储等。尽管将存储设备260描绘为本地设备，但是应当理解，存储设备260可以是远程存储设备，例如服务器计算设备、一个或多个数据存储库130(图1)等。关于存储在存储设备260内的数据类型的其他细节将参照图2C进行描述。

仍参照图2A，用户接口硬件220可以允许将来自总线200的信息提供给用户，无论该用户是训练装置110的本地用户还是训练装置110的远程用户(例如，用户计算装置140(图1)的用户)。仍参照图2A，用户界面硬件220可以结合显示器和/或一个或多个输入装置，使得信息以音频、视频、图形或字母数字格式显示在显示器上和/或接收输入。示意性输入装置包括但不限于键盘、鼠标、操纵杆、触摸屏、遥控器、指示装置、视频输入装置、音频输入装置、触觉反馈装置等。

参照图1和图2A，通信接口硬件230通常可以使训练装置110具有与计算机网络100的一个或多个组件接口连接的能力。例如，训练装置可以经由通信接口硬件230与计算机网络100的组件进行通信。该通信接口硬件230包括但不限于化学实体识别系统120、一个或多个数据存储库130和/或用户计算设备140。与外部设备的通信可以使用各种通信端口(未示出)进行。可以将示意性通信端口附接到通信网络，诸如因特网、内联网、局域网、直接连接等。

应当理解，图2A中所示的组件仅是示意性的，并不旨在限制本公开的范围。更具体地，虽然图2A中的组件表示为存在于训练装置110内，但这是非限制性示例。在一些实施方案中，一个或多个组件可以存在于训练装置110的外部，或者在图1描述的一个或多个组件内、其他组件，或作为独立组件。类似地，一个或多个组件可以被包含在本文未具体描述的其他计算装置中。另外，虽然图2A中的组件特别涉及训练装置110，这也是非限制性示例。也就是说，在不脱离本公开的范围的情况下，类似的组件可以位于其他组件内。

现在参照图2B，示出了可以包含在训练装置110(图2A)的存储器240内的示意性逻辑模块。仍参照图2B，该逻辑模块可以包括但不限于专利文献获取逻辑242、专利文献规范化逻辑244、专利语料库生成逻辑246、专利文献提供逻辑248、评分逻辑250和/或通信逻辑252。

专利文献获取逻辑242通常包含用于获取专利文献的编程指令。即，专利文献获取逻辑242可以包括程序，用于使处理装置210(图2A)访问一个或多个数据存储组件(例如，存储设备260(图2A)、一个或多个数据存储库130(图1)等)，并从中获得专利文献，特别是化学专利文献。这样，专利文献获取逻辑242可以包括允许在设备之间建立连接的编程指令、请求包含数据的数据存储的协议、导致数据被复制、移动或读取的指令和/或类似的指令。因此，作为根据专利文献获取逻辑242进行操作的结果，与专利文献特别是化学专利文献相关的数据和信息可用于完成各种其他过程，本文中将更详细描述。

专利文献规范化逻辑244通常包含用于对已经从多个来源获得的专利文献进行规范化的编程指令。即，专利文献规范化逻辑244包含这样的编程指令，使来自专利文献，特别是化学专利文献的信息以统一格式写入以供以后访问，从而产生多个统一的专利文献。通常，将这种统一格式理解为是所有专利文献所共有的格式，类似于在计算数据比较中通常使用的unidiff格式。因此，所述多个统一的专利文献是指已经被修改为符合统一格式的多个专利文献。作为非限制性示例，规范化各个专利文献可包括：利用与所述多个专利文献中的启发式信息相对应的一个或多个预定义的xml标签，将多个专利文献转换成统一的xml表示格式。应当理解，预定义的XML标签通常是指定义了专利文献的特定部分的自定义标签，在不同的国家甚至在同一数据库的不同专利中叫法也不同，以便将根据自定义标签来读取自定义标签标记的任何对象或部分。例如，特定的文本主体在一个专利文献中被称为“详细描述”，在另一专利文献中被称为“实施方案的详细公开”，在第三个专利文献中被称为“公开”。如本文所述，可以设置预定义的XML标签，以便在以后阅读时将这些文本主体中的这三个文本主体识别为同一事物。如本文中所使用，术语“启发式信息”是指与专利文献的特定部分相关联的统计值，其基于直觉、先前的经验、常识等表示该部分在同类之间的相对适合性，例如可以基于机器学习进行开发。

专利语料库生成逻辑246通常包含用于从规范化文献生成语料库的编程指令，该规范化文献是根据专利文献规范化逻辑244进行操作而产生。也就是说，根据专利语料库生成逻辑246，将生成的规范化文献收集到语料库中。在一些实施方案中，根据专利语料库生成逻辑246提供的编程指令，将该语料库进一步存储在数据存储库中。在又一些实施方案中，该数据可以与包含在该专利文献中的数据和/或包含在规范化文献中的数据分开存储。

在一些实施方案中，专利语料库生成逻辑246还可以包含用于从多个统一的/规范化的专利文献中生成化学专利语料库的编程指令。化学专利语料库通常是其中包含一个或多个化学实体的统一的/规范化文献(或从已统一的/规范化的文献中提取的数据)的语料库。在一些实施方案中，所有统一的/规范化的文献中都可以含有化学实体，因此所有文献都可以包括在化学专利语料库中。生成化学专利语料库可以包括，例如，在多个规范化/统一的专利文献的每个专利文献中所包含的文本内识别化合物。生成化学专利语料库还可以包括访问物理性质数据库，并获得所识别的化合物的一种或多种物理性质。应当理解，物理性质数据库通常是包含将特定化合物与特定物理性质匹配的数据的数据库。例如，化合物H₂O可以与和水的物理性质相关的相应数据一起被包含在物理性质数据库中。生成化学专利语料库还可包括基于一种或多种物理性质产生与化合物相对应的化学结构。识别化合物可以包括利用基于字典的方法和/或基于形态学的方法来识别化合物。

基于形态学的方法可以包括识别所述化合物中的一种或多种元素，如果所述化合物是基于所述化合物的结构化学来验证，则将所述一种或多种元素组合以产生所述化合物。作为非限制性实施例，从所述多个规范化/统一的专利文献中生成化学专利语料库包括：用化合物、化合物类别、化合物的后缀、以及化合物的前缀中一种或多种对所述多个统一的专利文献中的每个专利文献进行注释。

应当理解，化合物是由通过化学键结合在一起的化学元素组成的化学物质，包括通过化学键结合在一起的分子(或分子实体)。化合物可以是通过共价键结合在一起的分子、通过离子键结合在一起的离子化合物、通过金属键结合在一起的金属间化合物，或通过配位共价键结合在一起的配合物。化合物可以由化学式表示。作为非限制性实施例，所述化合物选自单组分化合物、化合物混合物部分或预测化合物。单组分化合物可包括纯化合物，例如系统标识符、俗称、元素和化学式。化合物混合物部分可以是具有特定百分比成分的一部分化合物(例如，“Magnesiaflux”，科学上是30％MgF₂和70％MgO的混合物)。预测化合物是在专利文献的文本中未表征的特定化合物，并且仅在保护知识产权的情况下在专利文献的权利要求部分或专利文献的描述部分中提及。

化合物类别通常可以是基于特定标准的化合物的任何分组。例如，可以根据化合物中存在的元素对化合物进行分类(例如，氧化物类可以包含具有一个或多个氧原子的任何化合物；氢化物类可以包含具有一个或多个氢原子的任何化合物；卤化物类可以包含具有一个或多个卤素原子的任何化合物；有机化合物类可以包含具有碳原子主链的任何化合物)。在另一个实施例中，可以根据化合物所包含的键的类型来对化合物进行分类(例如，离子化合物类包含由相反电荷的离子(例如盐)之间的吸引力形成的化合物；分子化合物类包含由共价键形成的化合物)。在又一个实施例中，可以根据特定化合物(例如，酸性化合物类包含溶解在水中时会产生氢离子(质子或H⁺离子)的化合物；碱性化合物类包含形成时接收氢离子的化合物)的反应性对化合物进行分类。化合物的后缀是指化合物名称的结尾。作为非限制性实施例，化合物类别可以选自化学类别、生物分子、聚合物、混合物类别、混合物部分类别或马库什类别。应该理解，生物分子通常是存在于有机体内的分子和离子，例如但不限于蛋白质、碳水化合物、脂质、核酸、代谢产物等。还应理解，聚合物通常是具有这种分子结构的物质，该分子结构主要或全部由大量结合在一起的相似单元组成，例如，用作塑料和树脂的合成有机材料。还应理解，混合物类别是材料的混合物的一般类别，例如溶液、悬浮液、胶体等。类似地，混合物部分类别是指组成混合物的部分类别(例如，组成混合物的一部分的化合物)。马库什类别通常是指以同一马库什基团被接受的一类化合物，例如具有单一的结构相似性、用途等的化合物。

在一些实施方案中，专利语料库生成逻辑可以包含用于将从多个规范化/统一的专利文献中提取的一个或多个化学实体分组为特定语料库的编程指令。应当理解，术语“化学实体”通常是指对化学感兴趣的物理实体，其包括但不限于分子实体，分子实体的部分和化学物质。一个或多个化学实体的每一个可以包括一个或多个相关性注释。如本文更详细的描述，相关性注释是特定化学实体是否与从中提取该特定化学实体的专利文献是否有关的生成注释。所述一个或多个相关性注释可以包括指示为预测化合物或马库什类别的相关化合物。作为非限制性示例，所述一个或多个相关性注释可以包括指示为化合物混合物部分、混合物部分类别、混合物类别、聚合物或生物分子的不相关化合物。可以基于所述相应的统一专利文献的上下文来分配单组分化合物或化学类别的所述一个或多个相关性注释。所述一个或多个相关性注释可以指示与从中提取化学实体的专利文献的相关性。

参照图1至图2B，专利语料库提供逻辑248通常包含编程指令，用于将专利语料库提供给计算机网络100中的另一装置。例如，专利语料库提供逻辑248可以包含允许与专利语料库有关的数据被传输至化学实体识别系统120、一个或多个数据存储器130和/或用户计算装置140的编程指令。

评分逻辑250通常包含用于对包含在专利语料库中的每个化学实体进行评分的编程指令。如本文详细描述，即，评分逻辑250包含用于响应于从化学实体识别系统120接收到的分数而为专利语料库内的每个化学实体分配相关性分数、置信度得分等的编程指令。

通信逻辑252通常包含用于与计算机网络中的一个或多个装置进行通信的编程指令。例如，通信逻辑252可以包含用于建立与化学实体识别系统120、一个或多个数据存储库130和/或用户计算装置140的通信连接的通信协议，使得数据和/或信号可以在它们之间传输。

图2B描述的逻辑模块仅是示意性的。因此，应该理解，在不脱离本公开范围的情况下，存储器240内还可以包括更多或更少的逻辑模块。另外，在一些实施方案中，某些逻辑模块可以被组合成单个逻辑模块和/或某些逻辑模块可以被划分成单独的逻辑模块。

参照图2C，示出了可以包含在存储设备260内的示意性数据类型。数据的类型可以包括但不限于专利文献数据262、统一的专利文献数据264、专利语料库数据266、化学实体数据268和/或注释数据270。

专利文献数据262通常是与专利文献特别是化学专利文献相关的数据。在一些实施方案中，包含在专利文献数据262中的数据可以包括从一个或多个专利数据库(例如，本文描述的专利数据库)接收的全文文本。

统一的专利文献数据264通常是与如本文所述的已被规范化的统一的专利文献有关的数据。如本文更详细的描述，在一些实施方案中，统一的专利文献数据264中包含的数据可以包括具有注释、相关联的XML文件等提供规范化信息的全文文本。

如本文所述，专利语料库数据266通常是由于创建专利语料库而产生的数据。在一些实施方案中，专利语料库数据266可以是化学专利语料库数据。

化学实体数据268可以包括与从多个统一的专利文献中提取的一种或多种化学实体有关的数据。即，化学实体数据268可以识别位于专利语料库的每个专利文献内的每个化学实体，可以提供相关的结构、相关的相关名称、相关的类别等。

注释数据270通常包括与对专利语料库中的各种化学实体和/或专利文献进行的注释有关的数据。例如，在一些实施方案中，化学实体中的每一个化学实体可以包括一个或多个相关性注释，其指示与从中提取化学实体的专利文献的相关性。

图3A示出了化学实体识别系统120的示意性硬件组件。总线300可以与不同组件互连，这些组件包括(但不限于)处理装置310、用户接口硬件320、通信接口硬件330、存储器340和/或存储设备360。处理装置310，例如计算机处理单元(CPU)，可以是化学实体识别系统120的中央处理单元，执行执行程序所需的计算和逻辑运算。处理装置310，单独地或与图3A中公开的一个或多个其他元件结合，是示意性处理装置、计算装置、处理器或其组合，术语如本公开中所使用。存储器340，例如只读存储器(ROM)和随机存取存储器(RAM)，可以构成示意性存储设备(即，非暂时性处理器可读存储介质)。这样的存储器340可以在其上包括一个或多个编程指令，当由处理装置310执行该编程指令时，使处理装置310完成各种过程，例如本文描述的过程。在一些实施方案中，程序指令可以存储在有形的计算机可读介质上，例如光盘、数字盘、闪存、存储卡、USB驱动器、光盘存储介质例如Blu-ray^TM光盘和/或其他非暂时性处理器可读存储介质。

在一些实施方案中，包含在存储器340上的程序指令可以体现为多个软件逻辑模块，其中每个逻辑模块提供用于完成一个或多个任务的编程指令。例如，某些软件逻辑模块可以用于以下目的：收集信息(例如，专利文献中包含的信息，特别是化学专利文献中包含的信息)；提取信息(例如，化学专利文献中的化学实体)；提供信息(例如，传输信息至训练装置110(图1))；了解特定类型的信息的含义等。关于逻辑模块的其他细节，将参照图3B进行讨论。

仍参照图3A，存储设备360，通常可以是与存储器340分开的存储介质，可以包含一个或多个数据存储库，用于存储与专利文献特别是化学专利文献有关的数据、与化学实体有关的数据、与化学实体是否与相关的专利文献有关的数据、传输至训练装置110(图1)的数据、与注释有关的数据、与置信度得分有关的数据等。仍参照图3A，存储设备360可以是任何物理存储介质，包括但不限于硬盘驱动器(HDD)、存储器、可移动存储介质等。尽管将存储设备360被描述为本地设备，但应当理解，存储设备360可以是远程存储设备，例如服务器计算装置、一个或多个数据存储库130(图1)等。关于存储在存储设备360内的数据类型的其他细节，将参照图3C进行讨论。

仍参照图3A，用户接口硬件320可以允许将来自总线300的信息提供给用户，无论该用户是化学实体识别系统120的本地用户还是化学实体识别系统120的远程用户(例如，用户计算装置140(图1)的用户)。仍参照3A，用户界面硬件320可以结合显示器和/或一个或多个输入装置，使得信息以音频、视频、图形或字母数字格式显示在显示器上和/或接收输入。示意性输入装置包括但不限于键盘、鼠标、操纵杆、触摸屏、遥控器、指示装置、视频输入装置、音频输入装置、触觉反馈装置等。

参照图1和图3A，通信接口硬件330通常可以为化学实体识别系统120提供与计算机网络100的一个或多个组件接口的能力。例如，化学实体识别系统120可以经由通信接口硬件330与计算机网络100的组件进行通信，通信接口硬件330包括但不限于训练装置110、一个或多个数据存储库130和/或用户计算装置140。与外部装置的通信可以使用各种通信端口(未显示)进行。示意性的通信端口可以被附接到通信网络，例如因特网、内联网、局域网、直接连接等。

应当理解，图3A所示的组件仅是示意性的，并不旨在限制本公开的范围。更具体地，虽然图3A示出的组件位于化学实体识别系统120内，但这是非限制性示例。在一些实施方案中，一个或多个组件可以位于在化学实体识别系统120的外部，或者位于图1所示的一个或多个组件内，其他组件内，或作为独立组件。类似地，一个或多个组件可以位于本文未具体描述的其他计算装置中。此外，虽然图3A的组件特别涉及化学实体识别系统120，这也是非限制性示例。也就是说，在不脱离本公开范围的情况下，类似的组件可以位于其他组件内。

现在参照图3B，示出了可以包含在化学实体识别系统120(图3A)的存储器340内的示意性逻辑模块。仍然参照图3B，逻辑模块通常可以是机器学习逻辑341模块的模块。示意性逻辑模块包括但不限于化学实体提取逻辑342、化学实体标记逻辑344、置信度分配逻辑346、标记逻辑348和/或评分逻辑250。

机器学习逻辑341通常可以是在其中结合有一种或多种机器学习算法的逻辑模块。包含在机器学习逻辑341中，并由化学实体识别系统120(图3A)使用的机器学习算法不受本公开的限制，并且通常可以是现在已知或以后开发的任何算法，特别是那些具体地适于生成可用于确定特定化学实体与相关化学专利文献的相关性的预测模型。即，机器学习算法可以是监督学习算法、非监督学习算法、半监督学习算法和强化学习算法。机器学习算法的具体示例可以包括但不限于最近邻居算法、朴素贝叶斯算法、决策树算法、线性回归算法、监督向量机、神经网络、聚类算法、关联规则学习算法、Q学习算法、时差算法和深度对抗网络。通常应当理解，机器学习逻辑341内的机器学习算法的其他具体示例，包括在本公开的范围内。

作为机器学习逻辑341的操作结果而生成的预测模型通常是现在已知或以后开发的任何机器学习模型，特别是提供可用于确定化学实体与相关化学专利文献的相关性的结果信息的模型。机器学习模型的示意性示例包括但不限于卷积神经网络(CNN)模型、长短期记忆(LSTM)模型、神经网络(NN)模型、动态时间规整(DTW)模型等。

包含在机器学习逻辑341中的化学实体提取逻辑342通常包含用于从化学专利文献中提取化学实体的编程指令。即，化学实体提取逻辑342可以包含用于从专利文献的语料库接收规范化/统一的专利文献、分析该文献以及确定包含在该文献中的化学实体的编程指令，本文将更详细描述。

机器学习逻辑341中包含的化学实体标记逻辑344通常可以包含用于用与从专利文献中提取的化学实体有关的数据来标记、注释或以其他方式标记规范化/统一的专利文献的编程指令，如本文更详细描述的。

包含在机器学习逻辑341中的置信度得分分配逻辑346通常包含用于向一个或多个化学实体中的每一个化学实体分配置信度得分的编程指令。置信度得分通常表示化学实体是否与基于各种因素的特定文献相关的置信度水平，本文将更详细描述。

机器学习逻辑341中包含的标记逻辑348通常包含用于标注(labeling)、标记(marking)或以其他方式指示专利文献中可能尚未由训练装置110(图1)指示的其他化学实体的编程指令，如本文更详细描述的。

仍参照图3B，包含在机器学习逻辑341中的相关性评分逻辑350通常包含用于确定化学实体与从中提取化学实体的文献的相关性的编程指令，如本文更详细描述的。

图3B示出的逻辑模块仅是示意性的。因此，应当理解，在不脱离本公开范围的情况下，存储器340内还可以包括更多或更少的逻辑模块。另外，在一些实施方案中，某些逻辑模块可以被组合成单个逻辑模块和/或某些逻辑模块可以被划分成单独的逻辑模块。

现在参照图3C，示出了可以包含在存储设备360内的示意性数据类型。数据的类型可以包括但不限于专利语料库数据362、化学实体数据364、置信度得分数据366和/或相关性数据368。

如本文所述，专利语料库数据362通常是由于创建专利语料库而产生的数据。在一些实施方案中，专利语料库数据362可以是化学专利语料库数据。

化学实体数据364可以包括与从多个统一的专利文献中提取的一个或多个化学实体有关的数据，特别是由化学实体识别系统120(图3A)提取的其他实体有关的数据。即，化学实体数据364可以是标识位于专利语料库的每个专利文献内的每个化学实体的数据，可以提供相关联的结构、相关联的相关名称、相关联的类别等。

置信度得分数据366通常包括与由化学实体识别系统120(图3A)确定的置信度得分有关的数据。即，置信度得分数据366包括与确定的置信度有关的数据，即化学实体与从中提取化学实体的专利文献相关或无关，如本文更详细描述的。

相关性数据368通常包括指示每个化学实体与从中提取化学实体的专利文献的相关性的数据。例如，相关性数据368可以是表格或其他类似的数据形式，其列出了在特定专利文献中提取的每个化学实体以及相关的相关性指示符，如本文更详细描述的。

图4示出了根据一种或多种实施方式训练化学实体识别系统以自动从专利文献中提取化合物并确定该化合物与该专利文献的相关性的示意性方法400的方框图。下面呈现的方法400的操作仅为示意性说明。在一些实施方式中，方法400可以在一个或多个未描述的附加操作和/或没有讨论的一个或多个操作的情况下完成。另外，在图4中示出的方法400的操作顺序，以及下面描述的内容并非旨在进行限制。

在一些实施方式中，方法400可以由一个或多个处理装置(例如，数字处理器、模拟处理器、设计为处理信息的数字电路、设计为处理信息的模拟电路、状态机和/或用于电子处理信息的其他机制)，例如本文针对图2A示出和描述的处理装置210和/或本文针对3A示出和描述的处理装置310。仍参照图4，一个或多个处理装置可以包括一个或多个响应电子存储在电子存储介质(例如，图2A-2B示出和描述的存储器240和/或图3A-3B示出和描述的存储器340)上的指令来执行方法400的一些或全部操作的装置。一个或多个处理装置可以包括通过硬件、固件和/或软件配置的一个或多个装置，以被专门设计用于执行方法400的一个或多个操作。

参见图1至图4，在方框402处，可以获得多个专利文献。在一些实施方案中，可以从一个或多个专利数据库(例如，一个或多个数据存储库130)获得多个专利文献。根据一种或多种实施方式，可以由机器可读指令配置的一个或多个硬件处理器来执行方框402的操作，所述机器可读指令包括与专利文献获得逻辑242相同或相似的逻辑。

在方框404处，可以将多个专利文献中的每个专利文献规范化为统一格式，以实现多个统一的专利文献。根据一种或多种实施方式，可以由机器可读指令配置的一个或多个硬件处理器来执行方框404的操作，所述机器可读指令包括与专利文献规范化逻辑244相同或相似的逻辑。

在方框406处，可以存储每个专利文献的原始文本中的每个字符与规范化专利文献中的对应字符之间的一对一映射。根据一种或多种实施方式，可以由机器可读指令配置的一个或多个硬件处理器来执行方框406的操作，所述机器可读指令包括与专利文献规范化逻辑244和/或评分逻辑250相同或相似的逻辑。

在方框408处，可以生成化学专利语料库。在一些实施方案中，化学专利语料库可以从多个统一的专利文献中产生。化学专利语料库可以包括从多个统一的专利文献中提取的一个或多个化学实体。一个或多个化学实体中的每一个化学实体可以包括一个或多个相关性注释。一个或多个相关注释可以指示与从中提取化学实体的专利文献的相关性。根据一种或多种实施方式，可以由机器可读指令配置的一个或多个硬件处理器来执行方框408的操作，所述机器可读指令包括与专利语料库生成逻辑246相同或相似的逻辑。

在框410处，可以将化学专利语料库提供给化学实体识别系统120。因此，如本文更详细描述的，化学实体识别系统120可以在多个统一的专利文献的相应的规范化专利文献中标记一个或多个化学实体；从多个统一的专利文献中提取一个或多个附加化学实体；为一个或多个附加化学实体中的每个附加化学实体分配置信度得分；并基于所述化学专利语料库中所包含的信息，将所述一个或多个附加化学实体中的每个附加化学实体标记为与相关专利文献相关或无关。根据一种或多种实施方式，可以由机器可读指令配置的一个或多个硬件处理器来执行方框410的操作，所述机器可读指令包括与专利语料库提供逻辑248相同或相似的逻辑。

现在参照图5，示出了对相关性进行分类的示意性方法。在方框510，通过专利局提取化学专利。在方框520，将专利源文献规范化为统一的格式。然后将其供给化学实体识别系统530，该化学实体识别系统530由两个不同的命名实体提取系统组成，即化学实体识别器(CER)532(爱思唯尔(Elsevier)，德国法兰克福)和挖掘程序534，例如OCMiner(OntoChem，德国哈勒市)。CER 532提取化学实体并将其标记在规范化的输入文献中。OCMiner 534通过提取附加化学实体并将置信度得分分配给两个系统的所有提取实体，进一步丰富了CER 532的输出。由CER 532或OCMiner 534提取的化合物的相关结构是使用命名服务536(例如Reaxys命名服务(Elsevier，B.V.，荷兰阿姆斯特丹))生成、验证和标准化的。专利语料库540中的化学注释542用于训练和测试化学实体识别系统530。语料库中的相关性注释544用于训练和测试相关性分类器550，其在方框560将由化学实体识别系统提取的化学实体标记为相关或无关。以下将更详细描述每个组件。

规范化

可能有必要将各种输入源和文件规范化为统一的文本表示形式。通过将所有输入文件(例如XML、HTML和PDF)转换为统一的XML表示形式来执行规范化步骤。在此统一表示中使用了与启发式信息(例如文档部分(发明名称、摘要、权利要求、说明书和元数据))相对应的预定义XML标签。规范化还将所有字符编码转换为特定格式，例如UTF-8(8位Unicode转换格式)。

在规范化期间，存储原始文本中的每个字符与规范化文献中的对应字符之间的一对一映射。这可能提供了从规范化文本返回原始文献的可能性，反之亦然。在规范化方法发生变化的情况下，这还可以最大程度地减少更新专利语料库中注释的精力(请注意，语料库中的文献也已被规范化)。

专利语料库开发

具有化学实体和相关性注释的化学专利语料库的开发可以分两个阶段完成。图6示出了示意性语料库创建过程600。第一阶段610集中于构建具有化学实体注释的语料库。第二阶段630可以包括使用从第一阶段610获得的语料库将相关性注释分配给在第一阶段610中注释的实体。在第二阶段630中，注释者还可以标记任何拼写错误的化合物。对于每个阶段，可以开发一组明确的准则，以帮助实现注释一致性。

化学实体注释准则

可以基于专利语料库开发准则，例如在由Akhondi,SA、Klenner,AG、Tyrchan,C等(2014)编写的“带注释的化学专利语料库：文本挖掘的黄金标准”提到的准则，该准则在PLoS One，9，e107477中公开，并通过引用全文并入本文中，根据方框610和612开发化学实体注释准则。准则定义了要注释的实体。对于每个实体，都提供了正面和负面的示例。此外，通过示例定义和说明了任何例外情况。该准则还定义了如何在brat快速标注工具(可从http://brat.nlplab.org/获得)内进行注释。brat标注工具允许使用预定义的实体类型在线注释文本。要求注释者注释化合物(例如四氢呋喃)，化学类别(例如烷氧基锆)和这些化合物的后缀或前缀(例如“稳定的”作为“稳定的氧化锆”的前缀，“纳米颗粒”的作为“银纳米颗粒”的后缀)。

化合物可分为三类：单组分化合物(纯化合物，例如系统标识符、俗称、元素和化学式)、化合物混合物部分(例如“Magnesiaflux”，科学上是30％MgF₂和70％MgO的混合物)或预测化合物(仅出于知识产权保护的目的在权利要求书或说明书中提及且文本中未描述的具体化合物)。

化合物类别可以注释为六类：化学类别(天然产物或子结构名称，例如杂环)；生物分子(例如胰岛素)；聚合物(例如聚乙烯)；混合物类别(例如鸦片)；混合物部分类别(例如奎奴普丁)或马库什类别(马库什通式的文本描述，例如H_aX_bC-C-H)。

Claims

1.一种训练化学实体识别系统以从专利文献中提取一种或多种化合物并确定所述一种或多种化合物与所述专利文献的相关性的方法，所述方法包括：

处理装置从一个或多个专利数据库获得多个专利文献；

所述处理装置将所述多个专利文献中的每个专利文献规范化为统一格式，以实现多个统一的专利文献；

所述处理装置从所述多个统一的专利文献中生成化学专利语料库，所述化学专利语料库包括从所述多个统一的专利文献中提取的一个或多个化学实体，所述一个或多个化学实体中的每个化学实体包括一个或多个相关性注释，所述一个或多个相关性注释表明与从中提取化学实体的专利文献的相关性；以及

所述处理装置向所述化学实体识别系统提供所述化学专利语料库，其中，所述化学实体识别系统响应于接收到所述化学专利语料库，在所述多个统一的专利文献的相应规范化专利文献中标记所述一个或多个化学实体，从所述多个统一的专利文献中提取一个或多个附加化学实体，为所述一个或多个附加化学实体中的每个附加化学实体分配置信度得分，并基于所述化学专利语料库中所包含的信息，将所述一个或多个附加化学实体中的每个附加化学实体标记为与相关专利文献相关或无关。

2.根据权利要求1所述的方法，其中，从所述一个或多个专利数据库获得所述多个专利文献包括：获得被分类为化学相关专利文献的专利文献。

3.根据权利要求1所述的方法，其中，将所述多个专利文献中的每个专利文献规范化包括：将所述多个专利文献转换成统一的XML表示格式，利用与所述多个专利文献中的启发式信息相对应的一个或多个预定义的XML标签，以及存储每个专利文献的原始文本中的每个字符与规范化专利文献中的对应字符之间的一对一映射。

4.根据权利要求1所述的方法，其中，生成所述化学专利语料库包括：

在所述多个统一的专利文献的每个专利文献中所包含的文本中识别化合物；

访问物理性质数据库并获得所识别的化合物的一种或多种物理性质；和

基于所述一种或多种物理性质生成对应所述化合物的化学结构。

5.根据权利要求4所述的方法，其中，识别所述化合物包括：利用基于字典的方法和基于形态学的方法中的一种或多种来识别所述化合物，其中，所述基于形态学的方法包括识别所述化合物中的一种或多种元素，如果所述化合物是基于所述化合物的结构化学来验证，则将所述一种或多种元素组合以产生所述化合物。

6.根据权利要求1所述的方法，其中，从所述多个统一的专利文献中生成化学专利语料库包括：用化合物、化合物类别、化合物的后缀，以及化合物的前缀中的一种或多种对所述多个统一的专利文献中的每个专利文献进行注释。

7.根据权利要求6所述的方法，其中，所述化合物选自单组分化合物、化合物混合物部分或预测化合物。

8.根据权利要求6所述的方法，其中，所述化合物类别选自化学类别、生物分子、聚合物、混合物类别、混合物部分类别或马库什类别。

9.根据权利要求1所述的方法，其中，所述一个或多个相关性注释包括：

表明预测化合物或马库什类别的相关化合物；和

表明化合物混合物部分、混合物部分类别、混合物类别、聚合物或生物分子的不相关化合物。

10.根据权利要求1所述的方法，其中，基于所述相应的统一专利文献的上下文来分配单组分化合物或化学类别的所述一个或多个相关性注释。

11.根据权利要求1所述的方法，其中，所述置信度得分是基于以下中的一个或多个来计算：专利文献中化合物的频率、专利文献的预测部分中化合物的出现、术语的长度、特殊字符中的化合物的出现、专利文献的部分中单一化合物的出现、不含溶剂或实验室化学品的化合物，以及表示大量化学专利文献中化合物频率的一个或多个预定义组中化合物的存在。

12.一种配置为用于训练化学实体识别系统以从专利文献中提取一种或多种化合物并确定所述一种或多种化合物与所述专利文献的相关性的系统，所述系统包括：

一个或多个硬件处理器；和

非暂时性处理器可读存储介质，其上包含一个或多个编程指令，所述一个或多个编程指令在被执行时使所述一个或多个硬件处理器执行以下操作：

从一个或多个专利数据库获得多个专利文献；

将所述多个专利文献中的每个专利文献规范化为统一格式，以实现多个统一的专利文献；

从所述多个统一的专利文献中生成化学专利语料库，所述化学专利语料库包括从所述多个统一的专利文献中提取的一个或多个化学实体，所述一个或多个化学实体中的每个化学实体包括一个或多个相关性注释，所述一个或多个相关性注释指示与从中提取化学实体的专利文献的相关性；和

向所述化学实体识别系统提供所述化学专利语料库，其中，所述化学实体识别系统在所述多个统一的专利文献的相应规范化专利文献中标记所述一个或多个化学实体，从所述多个统一的专利文献中提取一个或多个附加化学实体，为所述一个或多个附加化学实体中的每个附加化学实体分配置信度得分，并基于所述化学专利语料库中所包含的信息，将所述一个或多个附加化学实体中的每个附加化学实体标记为与相关专利文献相关或无关。

13.根据权利要求12所述的系统，其中，使所述一个或多个硬件处理器规范化所述多个专利文献中的每个专利文献的所述编程指令包括这样的编程指令：所述编程指令在被执行时，在使所述一个或多个硬件处理器将所述多个专利文献转换成统一的xml表示格式，利用与所述多个专利文献中的启发式信息相对应的一个或多个预定义xml标签，存储每个专利文献的原始文本中的每个字符与规范化专利文献中的对应字符之间的一对一映射。

14.根据权利要求12所述的系统，其中，使所述一个或多个硬件处理器生成所述化学专利语料库的所述编程指令包括这样的编程指令：所述编程指令在被执行时，使所述一个或多个硬件处理器执行以下操作：

15.根据权利要求12所述的系统，其中，所述一个或多个相关性注释包括：

表明预测化合物或马库什类别的相关化合物；和

16.根据权利要求12所述的系统，其中，基于所述相应的统一专利文献的上下文来分配单组分化合物或化学类别的所述一个或多个相关性注释。

17.根据权利要求12所述的系统，其中，所述置信度得分是基于以下中的一个或多个来计算：专利文献中化合物的频率、专利文献的预测部分中化合物的出现、术语的长度、特殊字符中的化合物的出现、专利文献的部分中单一化合物的出现、不含溶剂或实验室化学品的化合物，以及表示大量化学专利文献中化合物频率的一个或多个预定义组中化合物的存在。

18.一种非暂时性存储介质，其上包含用于使处理装置执行以下操作的可执行指令：

从一个或多个专利数据库获得多个专利文献；

将所述多个专利文献中的每个专利文献规范化为统一格式，以实现多个统一的专利文献，

从所述多个统一的专利文献中生成化学专利语料库，所述化学专利语料库包括从所述多个统一的专利文献中提取的一个或多个化学实体，所述一个或多个化学实体中的每个化学实体包括一个或多个相关性注释，所述一个或多个相关性注释表明与从中提取化学实体的专利文献的相关性；和

向所述化学实体识别系统提供所述化学专利语料库，其中，所述化学实体识别系统在所述多个统一的专利文献的相应规范化专利文献中标记所述一个或多个化学实体，从所述多个统一的专利文献中提取一个或多个附加化学实体，为所述一个或多个附加化学实体中的每个附加化学实体分配置信度得分，并基于所述化学专利语料库中所包含的信息，将所述一个或多个附加化学实体中的每个附加化学实体标识为与相关专利文献相关或无关。

19.根据权利要求18所述的非暂时性存储介质，其中，用于使所述处理装置规范化所述多个专利文献中的每个专利文献的可执行指令包括这样的可执行指令：使所述处理装置将所述多个专利文献转换成统一的xml表示格式，利用与所述多个专利文献中的启发式信息相对应的一个或多个预定义xml标签，存储每个专利文献的原始文本中的每个字符与规范化专利文献中的对应字符之间的一对一映射。

20.根据权利要求18所述的非暂时性存储介质，其中，使所述处理装置生成所述化学专利语料库的编程指令可执行指令包括这样的可执行指令：使所述处理装置执行以下操作：