CN109815478A

CN109815478A - 基于卷积神经网络的药化实体识别方法及系统

Info

Publication number: CN109815478A
Application number: CN201811511754.8A
Authority: CN
Inventors: 张亮仁; 杨波; 刘振明; 胡建星; 宗晓琳
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-05-28

Abstract

本发明涉及一种基于卷积神经网络的药化实体词识别方法及系统。该方法包括：(1)将待识别药化实体的文献中的每一个词转换成词向量形式；(2)对每个词进行解析，通过字符级卷积神经网络提取每个词的字符级特征；(3)通过词级扩张卷积神经网络识别文献中的药化实体，包括不同扩张卷积提取全局特征的过程；(4)通过解码层计算词级扩张卷积神经网络的输出的仿射变换，进而计算实体词属于某一分类的概率。本发明充分利用卷积神经网络适用于并行计算的特点实现对药化实体的分类识别，自动从文本内容中学习特征表示，省略了人工设计、降维特征的步骤，能够减少人为设计错误的发生，能够高效、准确、自动地完成对药化实体的分类识别。

Description

基于卷积神经网络的药化实体识别方法及系统

技术领域

本发明属于自然语言处理领域，涉及一种信息抽取技术，特别涉及一种药化文献文本挖掘的关键技术。

背景技术

随着生命科学领域高新技术的迅猛发展,药物研究成果不断涌现。科学文献作为成果展示主要方式，包含大量被实验证实的原始知识。借助计算机技术的文献自动采集与整理的方法已成为学科发展的重要组成部分和发展的必然趋势。药化实体是文献中知识单元的载体，包括研究方法、研究理论及领域实体(靶点、药物、疾病等)。实体识别是自然语言处理技术中的重要工作，随着信息出现多样化和复杂化，如何提取最重要信息便成为了一个至关重要的问题。药化实体识别是指从非结构化的相关文献，如学术期刊论文、会议论文、专利等，中识别出药物化学名称并将其划分到预定义的类别中。目前的方法可以分为三类：基于词典的方法、基于规则的方法，基于机器学习的方法。

基于词典的识别方法可以公开在线的药化数据库构造药化名词典，例如DrugBank、KEGG、Pharm GKB等。Rindflesch等人使用生物医学文本映射系统UMLS Meta Map把生物医学文本映射到UMLS Metathesaurus，把映射到“harmacological Substance”类概念的短语当作药化名识别出来。当使用的药化名词典质量不高时，基于词典的药化名识别方法也会取得较低的精度。

基于规则的识别方法,Segura-Bedmar等人利用世界卫生组织推荐的药化非专属名词干列表编制规则识别药化名。他们由每个词干得到一个正则表达式，然后用正则表达式从文本中识别药化名。然而基于药名构成模式编制的规则对不遵循命名规则的药化名识别是无效的。

基于机器学习的识别方法,基于机器学习的识别方法将识别形式化为一个分类问题或者序列标注问题。机器学习模型的选择对识别非常关键。常用于药化名识别的分类模型有最大熵、支持量机等。

现有方法的不足之处：第一，目前由于制药研究的迅速发展，新药不停地被研制出来进入市场，创建并维护一个覆盖范围广泛、更新及时的药化名词典需要花费很高的代价。第二，虽然使用领域专家编制的规则时，基于规则的方法能取得不错的性能，但是编制规则会耗费大量时间与精力。而且太过具体的规则能取得较高的精度但是召回率很低。相反地，太过宽泛的规则召回率很高，但是精度很低。此外，基于规则的方法可移植性很差，针对一类药化名定义的规则很难用于识别其它类型的药化名。第三，基于机器学习的药化名识别方法的缺点在于其需要大规模、高质量的标注语料库用于训练机器学习模型，而构建已标注的语料库却耗时耗力，且需要领域专家参与其中。第四，现有神经网络模型的实体词识别方法多采用循环神经网络与条件随机场结合的方法，但是这些模型没有充分考虑应用GPU并行计算的特点从而限制了方法的应用效率。

发明内容

本发明提出了一种基于卷积神经网络的药化实体词识别方法及系统，能够高效、准确、自动识别文献中药化领域各类实体词。

本发明采用的技术方案如下：

一种基于卷积神经网络的药化实体词识别方法，其步骤包括：

(1)将待识别药化实体的文献中的每一个词与词向量训练算法获得的词向量对应匹配，将文献中的每个词以预训练词向量的形式组成词向量层的内容；

(2)对文献中的每个词进行解析，通过字符级卷积神经网络提取每个词的字符级特征，所得字符级特征为向量形式，并将提取的字符级特征与预训练词向量拼接组成词级扩张卷积神经网络的输入；

(3)通过词级扩张卷积神经网络识别文献中的药化实体词，包括叠加不同扩张卷积提取全局特征的过程。

(4)通过解码层计算词级扩张卷积神经网络的输出的仿射变换，进而计算药化实体词属于某一分类的概率。

上述方法中，步骤(1)所述词向量训练算法可通过开源算法，例如Word2Vec、GLOVE，实现获得预训练词向量。

步骤(2)将药化实体词中每一个字符与预先形成的字典即预定义字符向量字典的索引相关联，预定义字符向量字典是一个随机初始化而成的低维的实数向量组，每一向量对应一个特定字符，称为字符向量；字符向量作为字符级卷积层输入，通过卷积、池化过程提取每个药化实体词特有特征向量作为字符级卷积层输出。

进一步地，步骤(2)包括：

训练字符级卷积神经网络模型中的参数，通过一些具有典型的类型特征的字符训练，获得分类模型的内部各参数，包括w、b，其中w为卷积核加权矩阵，b为偏置量。设立模型的配置选项，批量文本句子数量、卷积核函数大小、dropout值。

步骤(3)首先需要确定训练文本数据中句子长度上限，根据公式2^l+1-1大于长度上限来确定扩张卷积神经网络卷积层数，l为卷积层数，以此有效提取句子全局特征；通过各扩张卷积层提取的向量串联得到输出向量作为解码层输入，最终得到药化实体词得类别概率分布。

进一步地，步骤(3)还包括：

训练词级扩张卷积神经网络模型中的参数，通过一些具有典型的类型特征的字符训练，获得分类模型的内部各参数，包括w、b，其中w为卷积核加权矩阵，b为偏置量。设立模型的配置选项，批量数据大小、核函数大小、扩张率参数、dropout值、扩张卷积层数；

进一步地，步骤(3)还包括：

在卷积神经网络分类模型的配置文件中设立模型的配置选项，批量数据大小、训练数据地址、核函数大小、扩张率参数、dropout值、扩张卷积层数、池化层数；

与上面方法对应地，本发明还提供一种基于卷积神经网络的药化实体识别系统，其包括：

药化文献内容提取模块，用于提取文献中的文本内容，并将文本内容进行分句、分词处理；

药化文献内容解析模块，用于对文本内容进行解析，通过开源词向量训练算法将文本内容中的词转换为二进制词向量化的形式；

药化实体词识别模块，用于通过字符级卷积神经网络对文本内容中的字符向量进行卷积、池化、提取局部特征，并通过词级扩张卷积神经网络对整句词向量提取全局特征，实现对药化实体词识别；

分类模块，用于通过解码层计算词级扩张卷积神经网络的输出的仿射变换，进而计算药化实体词属于某一分类的概率。

与现有技术相比，本发明的有益效果如下：

现有的广泛应用的方法首先应用循环神经网络(例如双向长短期记忆网络)提取文本中特征；然后对获得的局部特征向量应用条件随机场算法学习句子中相邻词间相互依赖关系，从而完成对实体词识别。然而药化领域的实体的具有命名方式差异巨大、大量使用简写、化合物不断出新、特殊符号导致难以界定边界等本领域独有特性，要达到理想性能需要解决这些特殊问题。本发明通过卷积神经网络实现自动从文本内容中学习字符级局部特征表示，该设计主要针对难以界定边界的领域特殊问题；通过扩张卷积神经网络学习词级全局特征表示，省略了人工设计、降维特征的步骤，并由于设定多个固定的卷积核函数可以对整个句子并行运行卷积运算而不像循环神经网络顺序执行运算，因此可以充分利用当前GPU资源的并行计算优势，该设计是采用循环神经网络无法实现的，因而本发明更有利于利用现有计算资源优势，快速准确地识别药化实体。

附图说明

图1为本发明方法的总体架构图。

图2为字符级卷积算法示意图。

图3为词级扩张卷积算法示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明中的技术方案进行清楚、完整地描述。

本发明的技术方法为，通过卷积神经网络提取文本内容局部特征、扩张卷积神经网络提取文本内容全局特征，将药化实体归类到某个已知类别，实现准确识别。

图1是本发明的总体架构图。本发明方法的步骤如下：

(1)提取药化文献文本内容并应用开源词向量训练算法将词转换成向量形式。

(2)字符级卷积神经网络(如图2所示)的输入是字符向量层，将句子中各个词的每一个字符与预先形成的字典即预定义字典的索引相关联，从而将字符序列转换为向量化形式的字符向量。图2中IL-10表示药化实体。

预定义字典是一个随机初始化而成的低维的实数向量组，每一向量对应一个字符，称为字符向量，定义字符向量的维度为d₁。在算法训练过程中将更新关联的字符向量使其具有一定的语义信息。

字符级卷积神经网络的卷积层的目标是捕获文本内容中字符向量的组合语义特征并压缩这些信息到输出向量。

假设x_i：j是连续的字符x_i x_i+1 … x_j。卷积层中涉及对卷积核的操作，卷积核w∈R^h ^×d1是一个窗口函数应用到h个字符提取特征，其中R表示实数，例如特征c_i的生成采用如下公式所示：

c_i＝f(w·x_i：i+h-1+b)

其中，b为偏置量，f为非线性函数，例如双曲正切函数。卷积核的操作是在句子中按x_1：h x_2：h+1 … x_n-h+1：n顺序移动卷积核窗口函数产生局部组合语义特征c₁ c₂ … c_n-h+1。通常在网络模型中采用多个卷积核来捕获不同的特征，假设应用m个卷积核W＝w₁ w₂ …w_m，则卷积操作可按如下公式进行：

c_ji＝f(w_j·x_i：i+h-1+b_j)

其中，j的范围是从1到m。每次卷积核操作生成一个特征图：

c＝[c₁，c₂，…，c_n-h+1]

其中c∈R^(n-h+1)，最终通过卷积运算获得一个特征矩阵C∈R^m×(n-h+1)。

每个核函数生成的特征图维度随词包含字符长度和核函数的窗口大小变化。池化函数的作用是降低每个特征图的维度和待估计的参数。本实施例加入最大池化层逐元素计算求出卷积层各输出的特征向量第k维最大值作为池化层第k维的值。

(3)词级扩张卷积神经网络(如图3所示)的输入是词向量与字符卷积层输出局部特征向量的组合向量，输入向量的维度为d₂。此处需要确定训练文本数据最长句子长度，根据层数l可以覆盖2^l+1-1长度的句子，确定选择叠加的扩张卷积层数。图3中的“Regulatingthe regulator Bhlhe40directly keeps IL-10in check”是本实施例采用的药化文献例句。

词级扩张卷积神经网络的卷积层的目标是捕获文本内容中词向量的全局特征并压缩这些信息到特征图。假设x_i：j是句子中连续的词x_i x_i+1 … x_j。卷积层中涉及对卷积核的操作，卷积核w∈R^h×d是一个窗口函数应用到h个词提取特征，其中R表示实数，例如特征ci的生成采用如下公式所示：

c_i＝f(w·x_{i：(i+h-1)α}+b)

其中，b为偏置量，f为非线性函数，例如线性整流函数，α扩张率参数，当α＝1时表示为普通卷积神经网络。扩张卷积核的操作是在句子中按x_1：hαx_2：(h+1)α…x_{n-h+1：(n)α}顺序移动扩张卷积核窗口函数产生一组碎片的组合语义特征c₁c₂…c_n-h+1。通常在网络模型中采用多个扩张卷积核来捕获不同的组合特征，假设应用m个扩张卷积核W＝w₁ w₂ … w_m，则卷积操作可按如下公式进行：

c_ji＝f(w_j·x_i：i+h-1+b_j)

其中，j的范围是从1到m。每次卷积核操作生成一个特征图：

c＝[c₁，c₂，…，c_n-h+1]

(5)最终药化实体的分类结果是在解码层，通过仿射变换然后利用softmax函数产生类别的概率分布。在softmax层采用“dropout”作为正则化的方法防止过拟合，按如下公式进行。

d_t＝W_dh_t+b

本实施例中，通过python语言编写，实现基于卷积神经网络药化实体识别算法。实验中各参数选取如下，

字符级卷积神经网络参数：非线性函数选择ReLU，卷积核大小分别为：4、8、16，对应的每个特征图维度为100；Dropout为0.5，L2范数为2。根据需求分别控制爬取深度与广度。

词级扩张卷积神经网络参数：非线性函数选择ReLU，卷积核大小3，最大扩张参数为4，对应的每个特征图维度为100；Dropout为0.5，L2范数为2。根据需求分别控制爬取深度与广度。

本发明另一实施例提供一种基于卷积神经网络的药化实体识别系统，其包括药化文献内容提取模块、药化文献内容解析模块、药化实体词识别模块和分类模块：药化文献内容提取模块，提取文献中文本内容，并预处理文本内容，分句、分词等；药化文献内容解析模块，用于对文本内容进行解析，通过开源词向量训练算法将文本内容中的词转换为二进制词向量化的形式；药化文献内容解析模块还负责将各个词的每一个字符与预先形成的字典即预定义字典的索引相关联，预定义字典是一个随机初始化而成的低维的实数向量组，每一向量对应一个字符，称为字符向量。药化实体词识别模块的具体工作过程可以参考上面实施例中方法的具体描述。分类模块用于通过解码层计算词级扩张卷积神经网络的输出的仿射变换，进而计算药化实体词属于某一分类的概率。

综上所述，药化领域的实体的具有命名方式差异巨大、大量使用简写、化合物不断出新、特殊符号导致难以界定边界等本领域独有特性，要达到理想性能需要解决这些特殊问题。然而目前流行的实体词识别方法首先应用循环神经网络提取文本中特征；然后对获得的局部特征向量应用条件随机场算法学习句子中相邻词间相互依赖关系完成对实体词识别，但未考虑以上问题。本发明针对难以界定边界的领域特殊问题通过卷积神经网络自动从文本内容中学习字符级局部特征；并充分利用当前GPU并行计算资源通过扩张卷积神经网络学习词级全局特征表示，实现快速准确识别药化实体。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于卷积神经网络的药化实体词识别方法，其特征在于，包括以下步骤：

(1)采用词向量训练算法将待识别药化实体的文献中的每一个词转换成向量形式，得到词向量；

(2)对文献中的每个词进行解析，通过字符级卷积神经网络提取每个词的字符级特征，将提取的字符级特征与词向量拼接组成词级扩张卷积神经网络的输入；

(3)通过词级扩张卷积神经网络识别文献中的药化实体词，包括叠加不同扩张卷积提取全局特征的过程；

2.根据权利要求1所述的方法，其特征在于，步骤(2)所述字符级卷积神经网络的输入是字符向量层，将字符序列转换为向量化形式的字符向量，输出是捕获文本内容中字符向量的组合语义特征并压缩这些信息到输出向量。

3.根据权利要求2所述的方法，其特征在于，步骤(2)将各个词的每一个字符与预先形成的字典即预定义字典的索引相关联，预定义字典是一个随机初始化而成的低维的实数向量组，每一向量对应一个字符，称为字符向量；字符向量作为字符级卷积神经网络的输入，通过卷积、池化过程提取每个药化实体词特有特征向量作为字符级卷积层输出。

4.根据权利要求1所述的方法，其特征在于，步骤(3)通过叠加的扩张卷积神经网络获得文本内容中词向量的全局特征并压缩这些信息到输出向量。

5.根据权利要求1所述的方法，其特征在于，步骤(4)中最终药化实体的分类结果通过仿射变换然后利用softmax函数产生类别的概率分布，并在softmax层采用“dropout”作为正则化的方法防止过拟合。

6.根据权利要求1所述的方法，其特征在于，所述字符级卷积神经网络包括：卷积层，用于捕获文本内容中字符向量的组合语义特征并压缩这些信息到特征图；池化层，用于采用池化函数降低每个特征图的维度和待估计的参数。

7.根据权利要求6所述的方法，其特征在于，所述池化层为最大池化层。

8.根据权利要求1所述的方法，其特征在于，所述词级扩张卷积神经网络包括：不同扩张卷积层，用于捕获文本内容中组合向量的全局特征并组合这些信息到一起形成该层输出向量。

9.一种基于卷积神经网络的药化实体识别系统，其特征在于，包括：

药化文献内容提取模块，用于提取药化文献中的文本内容，并将文本内容进行分句、分词处理；

药化实体词识别模块，用于通过字符级卷积神经网络对文本内容中的字符向量进行卷积、池化、提取局部特征，并通过词级扩张卷积神经网络对整句词向量提取全局特征，实现对药化实体词的识别；

10.根据权利要求9所述的系统，其特征在于，所述药化文献内容解析模块还负责将各个词的每一个字符与预先形成的字典即预定义字典的索引相关联，预定义字典是一个随机初始化而成的低维的实数向量组，每一向量对应一个字符，称为字符向量。