CN110277175A

CN110277175A - 一种基于深度信念网络的中药不良作用识别方法

Info

Publication number: CN110277175A
Application number: CN201910574252.8A
Authority: CN
Inventors: 李巧勤; 刘勇国; 蒋羽; 杨尚明; 何家欢; 蔡茁; 李杨
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-09-24

Abstract

本发明公开了一种基于深度信念网络的中药不良作用识别方法。本发明能够对中药不良作用进行有效的整理和归纳，有助于中药不良作用实体数据库构建。并将传统的中药毒副作用研究与人工智能方法进行有机的统一，实现对于药物不良作用实体的全自动提取，减少人工提取药物不良作用的时间以及经济损耗，实现了在中药不良作用实体识别研究方法学上的优化。后期，本发明也可以根据不同中药文献集，实现针对特定中药的不良作用识别和关系挖掘，可以有效适用于各种中医药文献，不需要重新训练深度信念网络模型，可以直接从输入中药文献中识别并提取出药物不良作用实体。

Description

一种基于深度信念网络的中药不良作用识别方法

技术领域

本发明涉及药品不良作用识别技术领域，具体涉及一种基于深度信念网络的中药不良作用识别方法。

背景技术

中药在我国有着悠久的应用历史，是我国古代人们在长期生活与医疗实践当中不断总结出来的。中医治病常以方剂为单位，研究方剂对疾病的作用机制有助于解释中医方剂配伍以及治病的科学性。而方剂是由多个单位药物组成，绝大多数的药物具有很好的药物安全性。与西药相比，中药具有伤害小且不易产生药物耐受性及依赖性的特点，但中药也有可能会对患者产生一些不良作用。因此，从海量的中药文献中识别并提取出中药的不良作用，对增加中医临床疗效、减少对患者的不良反应等多个方面都能起到极其重要的推动作用。

随着自然语言处理技术的发展，命名实体识别可用于从大量文献提取某类实体。目前，命名实体识别方法主要包括基于词典、基于规则、基于统计学模型、基于深度学习等四种策略。基于词典和规则的识别方法通常需要人工制定词典以及规则，通过总结实体本身具有的规则和其上下文语境规则来将实体提取出来，该方法可以很好的适应中药文本中不良作用实体表达方式随意的特点。但由于中药不良作用没有标准词库，需要自己构建，因此该方法难以实现自动化识别、且效果往往较差。基于统计学模型的识别方法包括HMM、MEMM和CRF等机器学习模型，这类识别方法适用于对反复出现的实体进行识别，常被用于从文本中提取人名、地名等短语结构，而中药的不良作用不同于一般实体，其表达方式多种多样，很难将其全部识别出来，因此该种方法并不完全适合于中药不良作用的实体识别任务。此外，一些研究尝试将实体识别任务转化为分类问题，这种方法首先需要有一部分语料作为分类模型的训练语料，语料的质量在一定程度上影响着分类结果的好坏。目前采用深度学习模型来进行实体识别工作往往能取得更好的实验结果，克服了识别结果对人工语料标注精度的依赖性，相比其他实体识别方法具有更好的精确度。

经大量调研发现，上述命名实体识别方法在西药不良反应的实体识别领域有开展研究工作，且主要针对英文文献。目前基于中药文献的中药不良反应实体识别研究工作相当匮乏，均依赖于人工方法进行不良反应实体的提取，这主要是由于中药不良反应的文本描述随意性，长度、句式等相对不固定。这种人工标注法虽然可以对实体准确提取，但难以实现自动化，需要消耗较大的人力成本，难以对日益增加的中药文献进行有效利用。目前结合文本挖掘技术的药物不良作用识别工作均应用在西药领域，且主要针对英文文献开展，而对于中药不良作用的实体识别仍然停留在人工层面；同时，基于词典、规则或特定统计学模型的方法，通常需要消耗较大的人力成本进行语料库的构建，而且这些方法在随意性较强的中药文献中难以准确提取出不良作用描述，识别效果通常较差且耗时较长。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于深度信念网络的中药不良作用识别方法解决了难以准确提取出不良作用描述，识别效果通常较差且耗时较长的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于深度信念网络的中药不良作用识别方法，包括以下步骤：

S1、获取包含中药不良作用实体的文档集；

S2、对包含中药不良作用实体的文档集进行预处理，得到预处理后的文档集；

S3、根据预处理后的文档集构建标准语料库；

S4、基于标准语料库对深度信念网络模型进行训练，得到训练好的深度信念网络模型和最佳字符概率阈值；

S5、通过训练好的深度信念网络模型和最佳字符概率阈值对新输入文本识别中药不良作用信息。

进一步地：所述步骤S1中文档集的获取方法包括：利用关键词从中文期刊文献数据库中进行文献检索，并以PDF格式下载检索到的文献并生成PDF文档集，和通过搜索引擎进行检索，并通过网页爬虫的方法将检索到的信息保存为TXT文本格式。

进一步地：所述步骤S2中预处理的具体方法为采用pdfbox工具包对PDF文档集进行文本内容提取为TXT文本格式，并对文档集中的干扰信息进行过滤。

进一步地：所述步骤S3中标准语料库的构建方法为：

根据标点“。”对预处理后的文档集进行分割，通过BIO规则对分割好的句子进行序列标注，其中BIO规则具体为：使用B表示中药不良反应实体的开头，使用I表示不良反应实体去除开头的其他部分，使用O表示除不良反应实体以外的部分。

进一步地：所述步骤S4中的具体步骤为：

S41、将标准语料库中的所有字符表示为多个由二值化字符组成的多维向量；

S42、通过多维向量计算每一层RBM的网络结构参数，将网络结构参数固定后，对每层RBM网络进行训练得到最优解，在DBN网络顶部加入BP网络进行反向调优，完成整个DBN网络的训练；

所述DBN网络由三层RBM网络叠加而成；

S43、计算最佳字符概率阈值。

进一步地：所述步骤S41的具体步骤为：通过分词对标准语料库中的所有词进行编号并对其构建词袋模型，通过one-hot算法根据词袋模型的词频提取特征向量，将特征向量通过训练窗口将特征向量组合成二值化字符组成的多维向量。

进一步地：所述步骤S42的具体步骤为：

S421、将多维向量作为第一层RBM网络的显层输入，并为该多维向量分配初始化权值W₀；

S422、对该层RBM网络的初始显性神经元v⁽⁰⁾计算得到一个由其对应的隐性神经元h⁽⁰⁾重构出的新的显性神经元v⁽¹⁾，并更新该层RBM网络的权值为：

W＝W₀+λ(P(h⁽⁰⁾＝1|v⁽⁰⁾)v^(0)T-p(h⁽¹⁾＝1|v⁽¹⁾)v^(1)T)

上式中，W为更新后的RBM网络的权值，λ为预先设定的学习率，T为向量转置运算，h⁽¹⁾为重构出的新的显性神经元v⁽¹⁾对应的新的隐性神经元，P()为概率运算；

通过设定的学习率λ固定该层RBM网络的权值W，完成对第一层RBM网络的训练；

S423、将第一层RBM网络的隐性神经元作为第二层RBM网络的输入向量，重复步骤S422完成对第二层RBM网络的训练，将第二层RBM网络的隐性神经元作为第三层RBM网络的输入向量，重复步骤S422完成对第三层RBM网络的训练；

S424、在DBN网络的顶部加入BP网络进行反向调优，将第三层RBM网络的隐层数据向量作为BP网络的输入；

S425、通过BP网络将分类错误信息自顶向下传播至每一层RBM网络，微调层间迁移参数，使DBN网络达到最优；

所述层间迁移参数包括权值W、RBM网络中从隐层神经元到显层神经元的偏移向量和RBM网络中从显层神经元到隐层神经元的偏移向量。

进一步地：所述步骤S43最佳字符概率阈值通过对字符概率阈值求偏导计算可得，所述字符概率阈值的计算公式为：

上式中，Δ为字符概率阈值，E_j为每个不良作用实体，D为中药文献合集，c_i为第i个字符，P(c_i|Δ)为第i个字符属于该不良作用实体组成部分的概率。

本发明的有益效果为：本发明能够对中药不良作用进行有效的整理和归纳，有助于中药不良作用实体数据库构建。并将传统的中药毒副作用研究与人工智能方法进行有机的统一，实现对于药物不良作用实体的全自动提取，减少人工提取药物不良作用的时间以及经济损耗，实现了在中药不良作用实体识别研究方法学上的优化。后期，本发明也可以根据不同中药文献集，实现针对特定中药的不良作用识别和关系挖掘，可以有效适用于各种中医药文献，不需要重新训练深度信念网络模型，可以直接从输入中药文献中识别并提取出药物不良作用实体。

附图说明

图1为本发明流程图；

图2为本发明中单层RBM的结构图；

图3为本发明中DBN的结构图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于深度信念网络的中药不良作用识别方法，包括以下步骤：

S1、获取包含中药不良作用实体的文档集；

文档集的获取方法包括：利用关键词从中文期刊文献数据库中进行文献检索，并以PDF格式下载检索到的文献并生成PDF文档集，和通过搜索引擎进行检索，并通过网页爬虫的方法将检索到的信息保存为TXT文本格式。

获取大量包含药物不良作用描述的中药文献，对原始文档数据进行信息提取，只保留文档正文文本数据，形成新的文档集。对于不同类型文档的输入，需要制定不同的文本内容提取方法，预处理的具体方法为：采用pdfbox工具包对PDF文档集进行文本内容提取为TXT文本格式。

此外，由于读取的文档类型不同，文档格式存在差异，文档包含干扰信息，因此需要对文档提取的文本内容进行规范化，从而符合化学命名识别模型的输入要求。例如：来源于科技文献的文本，其中包含期刊信息、作者信息、邮编信息、邮箱信息、参考文献列表等，而这些信息普遍出现在该类文档中，需要对此类信息进行过滤，从而尽可能保留正文信息。

S3、根据预处理后的文档集构建标准语料库；

标准语料库的构建方法为：

例如句子：“柴胡主要成分为柴胡皂苷，柴胡皂苷能导致肾上腺肥大、胸腺萎缩，使人体免疫功能降低。其具有肾毒性，长期服用会损伤肾脏。”目的在于标记出诸如“肾毒性”等中药不良作用实体信息短句，以及“使人体免疫力降低”等长句。

该句式可以标记为：“柴/O胡/O主/O要/O成/O分/O为/O柴/O胡/O皂/O苷/O，/O柴/O胡/O皂/O苷/O能/O导/B致/I肾/I上/I腺/I肥/I大/I、/O胸/B腺/I萎/I缩/I，/O使/B人/I体/I免/I疫/I功/I能/I降/I低/I。/O其/O具/B有/I肾/I毒/I性/I，/O长/O期/O服/O用/O会/O损/B伤/I肾/I脏/I。/O”

深度信念网络在结构上是由多层玻尔兹曼机(Restricted Boltzmann Machines，RBM)叠加而成，单层RBM的结构如图2所示，神经元vi表示显性神经元节点，用于接收输入，hi表示隐性神经元节点，用于提取特征。对于本发明的不良反应实体识别任务，采用三层RBM串联的深度信念网络模型，如图3所示，其中标签信息y在最后一层RBM的输入中加入。

步骤S4的具体步骤为：

具体步骤为：通过分词对标准语料库中的所有词进行编号并对其构建词袋模型，通过one-hot算法根据词袋模型的词频提取特征向量，将特征向量通过训练窗口将特征向量组合成二值化字符组成的多维向量。

以“柴胡主要成分为柴胡皂苷，柴胡皂苷能导致肾上腺肥大”这两句话为例，先通过分词来对所有词进行编号并对其构建词袋模型(bag of words)，得到“1柴胡，2主要，3成分，4为，5皂苷，6能，7导致，8肾上腺肥大”这一编号结果，使用one-hot算法根据词频提取特征向量，从而将该文本描述转化为二值化字符向量[11110000,10001111]。在实际进行文本向量化时，词袋模型对应的语料库为步骤S3中得到的中药文献规范化语料库。其中，训练窗口设置主要是控制向量组合的窗口大小，可以设置为10、50、100等，具体大小可根据实验效果和数据的不同进行调整。

所述DBN网络由三层RBM网络叠加而成；

具体步骤为：

对训练集中的每一条数据分别计算其使隐层神经元被开启的概率，以数据向量v⁽⁰⁾为例，当σ(W_jv⁽⁰⁾)大于任意一个随机值时，则将该层RBM中显性神经元v⁽⁰⁾对应的隐性神经元更新为1，视为开启该隐性神经元节点。得到该隐性神经元对应的统计概率，其中σ(x)函数表示一个归一化函数，将W_jv⁽⁰⁾得到的运算结果转化为一个0到1的概率值:

上式中v和h的上标用于区别不同的输入数据向量，下标j表示同一个向量中的不同维度，b表示从显层元到隐层元的偏移向量。将上式计算出的隐性神经元统计概率用来表示当前隐性神经元的值，如下公式所示：

h⁽⁰⁾～P(h⁽⁰⁾|v⁽⁰⁾)

如下公式所示，采用上式构建出的隐性神经元h⁽⁰⁾来重构当前RBM的显性神经元v⁽⁰⁾，并将该层RBM的初始权值W_j更新为

其中，a表示从隐层元到显层元的偏移向量，用上式计算出的统计概率来表示更新后的显性神经元的值(将v⁽⁰⁾更新为v⁽¹⁾)：

v⁽¹⁾～P(v⁽¹⁾|h⁽⁰⁾)

用更新后的显层神经元v⁽¹⁾(采用h⁽⁰⁾重构得到的)经如下公式计算出隐层神经元被开启的概率：

选择好的学习率λ固定该层RBM网络的权值W，完成对第一层RBM网络的训练；

所述层间迁移参数包括权值W、RBM网络中从隐层元到显层元的偏移向量和RBM网络中从显层元到隐层元的偏移向量。

S43、计算最佳字符概率阈值。

最佳字符概率阈值通过对字符概率阈值求偏导计算可得，所述字符概率阈值的计算公式为：

Claims

1.一种基于深度信念网络的中药不良作用识别方法，其特征在于，包括以下步骤：

S1、获取包含中药不良作用实体的文档集；

S3、根据预处理后的文档集构建标准语料库；

2.根据权利要求1所述的基于深度信念网络的中药不良作用识别方法，其特征在于，所述步骤S1中文档集的获取方法包括：利用关键词从中文期刊文献数据库中进行文献检索，并以PDF格式下载检索到的文献并生成PDF文档集，和通过搜索引擎进行检索，并通过网页爬虫的方法将检索到的信息保存为TXT文本格式。

3.根据权利要求2所述的基于深度信念网络的中药不良作用识别方法，其特征在于，所述步骤S2中预处理的具体方法为：采用pdfbox工具包对PDF文档集进行文本内容提取为TXT文本格式，并对文档集中的干扰信息进行过滤。

4.根据权利要求1所述的基于深度信念网络的中药不良作用识别方法，其特征在于，所述步骤S3中标准语料库的构建方法为：

5.根据权利要求1所述的基于深度信念网络的中药不良作用识别方法，其特征在于，所述步骤S4中的具体步骤为：

所述DBN网络由三层RBM网络叠加而成；

S43、计算最佳字符概率阈值。

6.根据权利要求5所述的基于深度信念网络的中药不良作用识别方法，其特征在于，所述步骤S41的具体步骤为：通过分词对标准语料库中的所有词进行编号并对其构建词袋模型，通过one-hot算法根据词袋模型的词频提取特征向量，将特征向量通过训练窗口将特征向量组合成二值化字符组成的多维向量。

7.根据权利要求5所述的基于深度信念网络的中药不良作用识别方法，其特征在于，所述步骤S42的具体步骤为：

8.根据权利要求5所述的基于深度信念网络的中药不良作用识别方法，其特征在于，所述步骤S43最佳字符概率阈值通过对字符概率阈值求偏导计算可得，所述字符概率阈值的计算公式为：

上式中，△为字符概率阈值，E_j为每个不良作用实体，D为中药文献合集，c_i为第i个字符，P(c_i|△)为第i个字符属于该不良作用实体组成部分的概率。