CN112818645A

CN112818645A - 一种化学信息抽取方法、装置、设备及存储介质

Info

Publication number: CN112818645A
Application number: CN202110145267.XA
Authority: CN
Inventors: 钟实; 张睿哲; 宋悦飞; 潘志锋
Original assignee: Guangzhou Yuding Biotechnology Co ltd
Current assignee: Guangzhou Yuding Biotechnology Co ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-05-18

Abstract

本发明公开了一种化学信息抽取方法、装置、设备及存储介质。方法包括：获取化工文档，从化工文档中分离出图像和文本，从图像中提取出化学结构和用于标注化学结构的标签，建立化学结构与标签的映射关系，得到第一存储信息，从文本中提取出化学实体以及化学实体间的关联关系，得到第二存储信息，将第一存储信息和第二存储信息存储到化学数据库中。可以自动对化工文档进行扫描，从非结构化或半结构化的数据中提取出结构化的数据，便于数据管理，对化工行业的科研、生产、实验提供巨大的帮助。此外，由于无需人工手动，节省了人力成本，同时降低了输入错误，提高了数据更新速度。

Description

一种化学信息抽取方法、装置、设备及存储介质

技术领域

本发明实施例涉及化学信息技术，尤其涉及一种化学信息抽取方法、装置、设备及存储介质。

背景技术

准确的化学数据管理对于化学信息学至关重要。如今，研究人员或探索软件可以访问内部或外部公共数据库，以检索必要的信息，尽管如此知识的主要来源还是科学文献。但由于文献中的信息是非结构化或半结构化的，以自然语言编写的。化学结构以图像形式嵌入报告，期刊和专利中。这些不能直接输入化学数据库或化学软件。手动复制信息非常耗时且容易出错。此外，出版物的快速增长导致难以维护最新的数据集。

发明内容

本发明提供一种化学信息抽取方法、装置、设备及存储介质，以从非结构化或半结构化的数据中提取出结构化的数据，便于数据管理，同时节省人力成本，降低输入错误，提高数据更新速度。

第一方面，本发明实施例提供了一种化学信息抽取方法，包括：

获取化工文档；

从所述化工文档中分离出图像和文本；

从所述图像中提取出化学结构和用于标注所述化学结构的标签；

建立所述化学结构与所述标签的映射关系，得到第一存储信息；

从所述文本中提取出化学实体以及化学实体间的关联关系，得到第二存储信息；

将所述第一存储信息和所述第二存储信息存储到化学数据库中。

可选的，从所述图像中提取出化学结构和用于标注所述化学结构的标签，包括：

基于开源OSRA从所述图像中识别出SMILES化学结构。

基于OCR工具将所述图像中的非结构图像分量转换为标签文本；

将所述标签文本与化学标签特征库中的标签样本进行比对；

在所述标签文本与所述标签样本相匹配时，通过正则表达式识别出所述图像中的标识作为标签。

可选的，建立所述化学结构与所述标签的映射关系，包括：

基于最小权重图匹配算法为每个所述化学结构分配标签，建立所述化学结构与所述标签的映射关系。

可选的，从所述文本中提取出化学实体以及化学实体间的关联关系，得到第二存储信息，包括：

采用分词器从所述文本中拆分出化学词语；

为所述化学词语标注用于区分所述化学词语所属的词语类别；

基于所述化学词语所属的词语类别确定化学实体以及化学实体间的关联关系。

可选的，采用分词器从所述文本中拆分出化学词语，包括：

化合物的名词组的语义，从所述文本中识别出复合词；

基于状态机从所述文本中识别出化学词语系列；

将所述复合词和所述化学词语系列拆分为单个化学词语。

可选的，为所述化学词语标注用于区分所述化学词语所属的词语类别，包括：

获取供深度学习算法训练的带有标注信息的化学语料库；

基于标注好的化学语料库，训练基于BI-LSTM-CRF的深度学习模型；

利用所述深度学习模型为所述化学词语标注。

第二方面，本发明实施例还提供了一种化学信息抽取装置，包括：

化工文档获取模块，用于获取化工文档；

分离模块，用于从所述化工文档中分离出图像和文本；

标签提取模块，用于从所述图像中提取出化学结构和用于标注所述化学结构的标签；

映射关系建立模块，用于建立所述化学结构与所述标签的映射关系，得到第一存储信息；

关联关系提取模块，用于从所述文本中提取出化学实体以及化学实体间的关联关系，得到第二存储信息；

存储模块，用于将所述第一存储信息和所述第二存储信息存储到化学数据库中。

可选的，标签提取模块包括：

标签文本提取子模块，用于基于OCR工具将所述图像中的非结构图像分量转换为标签文本；

比对子模块，用于将所述标签文本与化学标签特征库中的标签样本进行比对；

标识识别子模块，用于在所述标签文本与所述标签样本相匹配时，通过正则表达式识别出所述图像中的标识作为标签。

在本发明的一些实施例中，映射关系建立模块包括：

映射关系建立子模块，用于基于最小权重图匹配算法为每个所述化学结构分配标签，建立所述化学结构与所述标签的映射关系。

在本发明的一些实施例中，关联关系提取模块包括：

化学词语拆分子模块，用于采用分词器从所述文本中拆分出化学词语；

词语类别区分子模块，用于为所述化学词语标注用于区分所述化学词语所属的词语类别；

关联关系确定子模块，用于基于所述化学词语所属的词语类别确定化学实体以及化学实体间的关联关系。

在本发明的一些实施例中，化学词语拆分子模块包括：

复合词识别单元，用于化合物的名词组的语义，从所述文本中识别出复合词；

词语系列识别单元，用于基于状态机从所述文本中识别出化学词语系列；

拆分单元，用于将所述复合词和所述化学词语系列拆分为单个化学词语。

在本发明的一些实施例中，词语类别区分子模块包括：

化学语料库获取单元，用于获取供深度学习算法训练的带有标注信息的化学语料库；

模型训练单元，用于基于标注好的化学语料库，训练基于BI-LSTM-CRF的深度学习模型；

标注单元，用于利用所述深度学习模型为所述化学词语标注。

第三方面，本发明实施例还提供了一种计算机设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明第一方面所述的化学信息抽取方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明第一方面所述的化学信息抽取方法。

本发明实施例提供的化学信息抽取方法，包括：获取化工文档，从化工文档中分离出图像和文本，从图像中提取出化学结构和用于标注化学结构的标签，建立化学结构与标签的映射关系，得到第一存储信息，从文本中提取出化学实体以及化学实体间的关联关系，得到第二存储信息，将第一存储信息和第二存储信息存储到化学数据库中。可以自动对化工文档进行扫描，从非结构化或半结构化的数据中提取出结构化的数据，便于数据管理，对化工行业的科研、生产、实验提供巨大的帮助。此外，由于无需人工手动，节省了人力成本，同时降低了输入错误，提高了数据更新速度。

附图说明

图1为本发明实施例一提供的一种化学信息抽取方法的流程图；

图2为本发明实施例二提供的一种化学信息抽取装置的结构示意图；

图3为本发明实实施例三提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种化学信息抽取方法的流程图，本实施例可适用于从包含非/半结构化数据的化学信息的化工文献中提取结构化数据，该方法可以由本发明实施例提供的化学信息抽取装置来执行，该装置可采用软件和/或硬件的方式实现，并集成于本发明实施例提供的计算机设备中，如图1所示，该方法具体包括如下步骤：

S101、获取化工文档。

示例性的，在本发明的一些实施例中，可以全网收集有关化学组分及其反应的文献及资料。文档格式可以包括word文档、RTF文档、Excel文档、HTML网页、PDF文档等。

S102、从化工文档中分离出图像和文本。

具体的，通过调用绑定的格式转换及提取工具，将文档中的图像及文本分别提取出来，分割为一组图像和纯文本，对于扫描类PDF文档，通过OCR(Optical CharacterRecognition，光学字符识别)的图片识别接口，提取扫描类PDF文档中的文本。

S103、从图像中提取出化学结构和用于标注化学结构的标签。

化学文档里的化学结构图像通常由两部分组成，包括化学实体的结构图和文本内容中引用的标识符的标签。针对分离得到的图像，从图像中提取出化学结构，将化学结构的2D图像转换为机器可读格式，以及提取出用于标注化学结构的标签。

示例性的，在本发明一具体实施例中，基于开源OSRA(Optical StructureRecognition Application，光学结构识别应用)从从2D化学结构图像中识别出SMILES化学结构的表达式，并且可以识别原子标记和电荷、圆形键(旧式芳香环)、双键、三键、楔形键、短键以及桥键等。OSRA是一个很实用的识别工具，可以把图片上的化学结构转换为InChI，InChI-key，SMILES，SDF数据。

在本发明实施例中，标签的提取分为字符识别和模式识别两部分。字符识别是使用OCR工具将非结构图像分量转换为文本，我们称之为标签文本。模式识别是通过正则表达式将一些常用的标识识别出来作为标签，例如，罗马数字(例如I，VI，X)，阿拉伯数字(例如1、2、10)，破折号(例如1-1、3-10)，数字后跟质数(例如，1'，VI'，1-1')和所有以前用括号括起来的特征(例如(1)，(VI)，(5'))。

具体的，首先基于OCR工具将图像中的非结构图像分量转换为标签文本，接着，将标签文本与化学标签特征库中的标签样本进行比对，在标签文本与标签样本相匹配时，通过正则表达式识别出图像中的标识作为标签。

具体的，在将标签文本与化学标签特征库中的标签样本进行比对的过程中，可以将标签文本和标签样本向量化，例如通过词嵌入操作，将标签文本和标签样本向量化，得到标签文本和标签样本的嵌入向量，然后，计算标签文本和标签样本的嵌入向量的相似度，若相似度大于预设值，则确定标签文本与标签样本相匹配。

正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串(包括普通字符(例如，a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，该模式描述在搜索文本时要匹配的一个或多个字符串。

S104、建立化学结构与标签的映射关系，得到第一存储信息。

在提取到化学结构和标签后，建立化学结构与标签之间的映射关系，以便通过二者中的其中一个检索到另一个。具体的，在本发明实施例中，建立化学结构与标签之间的映射关系表。

示例性的，在本发明的一些实施例中，一个化学结构可能包含多个标签，标签可以包含用于引用化学结构的标识号以及其他名称，例如化合物名称或R-基团。为了构建化学结构与标签之间映射表，使用最小权重匹配算法将每个化学结构分配给最近的标签。

S105、从文本中提取出化学实体以及化学实体间的关联关系，得到第二存储信息。

本发明实施例中，从前述化工文档中分离得到的文本中提取出化学实体以及化学实体间的关联关系，得到第二存储信息。示例性的，从文本中提取出化学实体以及化学实体间的关联关系，包括如下步骤：

1、采用分词器从文本中拆分出化学词语。

分词器的作用是将一串字符串改为“词”的列表，分词器首先找到一串字符串中的全部词作为一个集合，在上述集合中找到所有能组合成目标词的子集，在上述产生的所有子集中挑选一个最有可能的作为最终的分词结果。其中，化学词语包括化学实体和化学实体之间的关系。示例性的，本发明实施例中，分词器结合CAS化学品数据库，扫描文本并分拆出化学实体，同时分词器需要处理连字符或其他化学符号，例如2-氨基-2-(羟甲基)-1,3-丙二醇盐酸盐。

在化学文献中，尤其是摘要中，一个句子中会出现多个复合词。这些化合物以标点符号或坐标连词连接。本发明实施例通过协调解决方案，探索化合物的名词组的语义从而改善了知识发现。协调解决方案是识别文本内容中提到的复合块中的每个复合。例如，“多倍体A(1)和B(2)”由两种化合物组成：标记为1的多倍体A，和标记为2的多倍体B。“德莱西林CG(6-10)”由5种化合物组成：德莱西林C(6)，德莱西林D(7)，德莱西林E(8)，德莱西林F(9)和德莱西林G(10)。

此外，协调决议方案还使用状态机，在考虑标签和化学词语系列的情况下识别和解释化合物组。状态机在标记的分词上处理，文本状态不考虑非化学实体令牌。化学名称状态累积一个化学名称，可以是一个或多个单词。化学词语系列和标签状态分别负责系列和标签标记。它们还在两个字母或数字之间插入值。例如，“A-C”变为“A，B，C”，“1-3”变为“1、2、3”。And/To状态处理“and”和“to”令牌。例如，“化合物A和B”变为“化合物A，化合物B”，“化合物A至C”变为“化合物A，化合物B，化合物C”。最后，带有化学词语系列和标签的化学名称将被拆分为独立的化学词语。

2、为化学词语标注用于区分化学词语所属的词语类别。

具体的，本发明实施例中，化学词语标注主要分成化学组分标注及植物信息标注，通过深度学习方法，首先识别化学实体、反应名称、酶和与化学有关的术语，例如实验动作动词或单位，其次标记化学词语类别，例如名词或动词。

示例性的，在本发明其中一实施例中，对于化学组分标注，首先通过标注化学文档生成供深度学习算法训练的语料库。使用BIO编码来进行化学实体的编码命名实体识别标注。在此方案中，每个标记被编码为O(“外部”，不是命名实体的一部分)，B(“开始”)或I(“内部”)。如果存在多个指定的实体类型，则可以使用实体类型扩展B和I代码。例如，一个句子“溶解于乙酸乙酯。”中，命名的实体信息可以这样标注：“溶解_O于_O乙酸_B-CM乙酯_I-CM。_O”。

基于标注好的化学语料库，构造基于BI-LSTM-CRF深度学习模型来进行化学实体的标注，在这个模型中，为了尽量捕捉每个词的信息，选择使用双层长短记忆网络(BI-LSTM)来表示每个词。这个词向量由两部分合并，一部分是基于中文维基语料库并利用GloVe训练的出来的词向量，另一部分，是字符级别的向量。模型的下面一层是CRF(conditional random field，条件随机场)层，进行句子级的序列标注，通过挖掘词与相邻词的标识的相互影响关系，提升预测结果的正确性。

对于植物信息标注，使用基于字典的方法对生物实体进行标记，通过可配置词典注释器，允许用户根据感兴趣的域添加或删除字典，并保留了标识号和数据库源，首先可以检索实体的更多信息。

此外，对于分词中用于表示化学实体之间的动作词，可以通过分析语法结构来识别实验动作阶段，例如“将化合物1添加到溶液中”或“从化合物2中提取化合物1”。在此步骤中还将标识用于化合物引用的编号(标签)。最后，通过分析这些关系可以提取到句子中描述的产物及其来源生物，例如“从真菌中分离出化合物1”。

3、基于化学词语所属的词语类别确定化学实体以及化学实体间的关联关系。

示例性的，“从化合物2中提取化合物1”，化学实体分别为“化合物2”和“化合物1”，关联关系为“提取”。

S106、将第一存储信息和第二存储信息存储到化学数据库中。

将上述步骤中得到的第一存储信息和第二存储信息存储到化学数据库中，以便后续检索过程中，通过检索一个化学实体，可以找到该化学实体的化学结构，以及与该化学实体关联的其他化学实体。

本发明实施例中选择了elastic search(以下简称ES)关系型数据库存储提取出来的化学信息。选择ES，是由于ES具有包括：分布式的搜索引擎和数据分析引擎，全文检索，结构化检索，数据分析，对海量数据进行近实时的处理。对支持我们提取的信息进行管理和检索，非常有效。

实施例二

图2为本发明实施例二提供的一种化学信息抽取装置的结构示意图，如图2所示，该化学信息抽取装置包括：

化工文档获取模块201，用于获取化工文档；

分离模块202，用于从所述化工文档中分离出图像和文本；

标签提取模块203，用于从所述图像中提取出化学结构和用于标注所述化学结构的标签；

映射关系建立模块204，用于建立所述化学结构与所述标签的映射关系，得到第一存储信息；

关联关系提取模块205，用于从所述文本中提取出化学实体以及化学实体间的关联关系，得到第二存储信息；

存储模块206，用于将所述第一存储信息和所述第二存储信息存储到化学数据库中。

在本发明的一些实施例中，标签提取模块203包括：

化学结构提取子模块，用于基于开源OSRA从所述图像中识别出SMILES化学结构。

在本发明的一些实施例中，标签提取模块203包括：

在本发明的一些实施例中，映射关系建立模块204包括：

在本发明的一些实施例中，关联关系提取模块205包括：

在本发明的一些实施例中，化学词语拆分子模块包括：

在本发明的一些实施例中，词语类别区分子模块包括：

上述化学信息抽取装置可执行本发明任意实施例所提供的化学信息抽取方法，具备执行方法相应的功能模块和有益效果。

实施例三

本发明实实施例三提供了一种计算机设备，图3为本发明实实施例三提供的一种计算机设备的结构示意图，如图3所示，该计算机设备包括处理器301、存储器302、通信模块303、输入装置304和输出装置305；计算机设备中处理器301的数量可以是一个或多个，图3中以一个处理器301为例；计算机设备中的处理器301、存储器302、通信模块303、输入装置304和输出装置305可以通过总线或其他方式连接，图3中以通过总线连接为例。上述处理器301、存储器302、通信模块303、输入装置304和输出装置305可以集成在计算机设备的控制主板上。

存储器302作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的化学信息抽取方法对应的模块。处理器301通过运行存储在存储器302中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述实施例提供的化学信息抽取方法。

存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器302可进一步包括相对于处理器301远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块303，用于与外界设备(例如智能终端)建立连接，并实现与外界设备的数据交互。输入装置304可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。

本实施例提供的一种计算机设备，可执行本发明上述任意实施例提供的化学信息抽取方法，具体相应的功能和有益效果。

实施例四

本发明实施例四提供了一种包含计算机可执行指令的存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明上述任意实施例提供的化学信息抽取方法。

化学信息抽取方法包括：

获取化工文档；

从所述化工文档中分离出图像和文本；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明实施例所提供的化学信息抽取方法中的相关操作。

需要说明的是，对于装置、设备和存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的化学信息抽取方法。

值得注意的是，上述装置中，所包括的各个模块、子模块、单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解的是，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种化学信息抽取方法，其特征在于，包括：

获取化工文档；

从所述化工文档中分离出图像和文本；

2.根据权利要求1所述的化学信息抽取方法，其特征在于，从所述图像中提取出化学结构和用于标注所述化学结构的标签，包括：

基于开源OSRA从所述图像中识别出SMILES化学结构。

3.根据权利要求1所述的化学信息抽取方法，其特征在于，从所述图像中提取出化学结构和用于标注所述化学结构的标签，包括：

将所述标签文本与化学标签特征库中的标签样本进行比对；

4.根据权利要求1所述的化学信息抽取方法，其特征在于，建立所述化学结构与所述标签的映射关系，包括：

5.根据权利要求1-4任一所述的化学信息抽取方法，其特征在于，从所述文本中提取出化学实体以及化学实体间的关联关系，得到第二存储信息，包括：

采用分词器从所述文本中拆分出化学词语；

6.根据权利要求5所述的化学信息抽取方法，其特征在于，采用分词器从所述文本中拆分出化学词语，包括：

化合物的名词组的语义，从所述文本中识别出复合词；

基于状态机从所述文本中识别出化学词语系列；

将所述复合词和所述化学词语系列拆分为单个化学词语。

7.根据权利要求5所述的化学信息抽取方法，其特征在于，为所述化学词语标注用于区分所述化学词语所属的词语类别，包括：

获取供深度学习算法训练的带有标注信息的化学语料库；

利用所述深度学习模型为所述化学词语标注。

8.一种化学信息抽取装置，其特征在于，包括：

化工文档获取模块，用于获取化工文档；

分离模块，用于从所述化工文档中分离出图像和文本；

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一所述的化学信息抽取方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一所述的化学信息抽取方法。