CN111312356B

CN111312356B - 一种基于bert和融入功效信息的中药处方生成方法

Info

Publication number: CN111312356B
Application number: CN202010054040.XA
Authority: CN
Inventors: 吕建成; 李婵娟; 桑永胜; 蒲翊凡; 孙亚楠
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2022-07-01
Anticipated expiration: 2040-01-17
Also published as: CN111312356A

Abstract

本发明提供了一种基于BERT和融入功效信息的中药处方生成方法，获取症状描述和处方数据对，以及中药功效信息集；并通过预训练好的BERT模型得到固定长度的每个中药的功效信息编码；构建基于BERT‑GRU的中药处方生成模型，并利用所述训练集微调所述中药处方生成模型；利用中药处方生成模型生成处方。本发明通过深度学习的方法，利用预训练的BERT强大的语言表征能力来提升句子表达能力，从中医古籍经典方剂数据中挖掘规律，并融入中药功效信息，通过训练编码器和解码器两个网络，来最大化中药处方序列的条件概率，实现根据症状文本描述开具辅助的中医处方。

Description

一种基于BERT和融入功效信息的中药处方生成方法

技术领域

本发明属于医药技术领域，尤其涉及一种基于BERT和融入功效信息的中药处方生成方法。

背景技术

我国在中医药学方面的研究具有悠久历史和深厚底蕴，至今已有数千年的历史。中医药结合东方传统哲学和古代科技文化的精髓，在诊断、治疗、预防、保健等方面积累、总结、传承了大量经验，形成了自上而下的一套完整的理论诊治体系。现在的许多中医经常在治疗患者时以过去传承下来的经典处方和治疗记录作为参考。

当前，计算机技术日益成熟，渗透到了各个行业。随着人工智能与大数据技术的进一步发展，互联网技术可以为我国中医行业注入新的活力，提高其效率。方剂学在中医药研究中一直是研究的热门方向，处方是中医诊治中非常重要的一环，完整的处方包括草药成分、比例、制备方法和汤剂剂量，而草药组成是最重要的部分。由于中医处方的组成成分、作用机制非常复杂，同时本身理论存在模糊的地方，“方-症-药”关系规整化具有较大的难度，这激励我们设计一种能够通过学习过去中医药几千年来积累、总结下来的经典方剂来根据症状生成处方的模型，从中医经典方剂中挖掘出暗藏的、潜在的“方-药-症”规律，根据症状智能地生成处方，促进中医更好的治疗患者。

大量古籍资料中含有的诊治方法和处方等文本数据，通过自然语言处理能够帮助我们将隐藏在文字中的规律挖掘出来，而深度学习是自然语言处理的强大工具。如图1所示，现有的处方生成方法主要由深度学习中的seq2seq网络结构组成，seq2seq模型包括编码器和解码器，编码器对症状句子进行编码，解码器对其进行解码生成处方。编码器和解码器模型一般采用RNN或其变体GRU等，层数较浅，较为简单，存在很大的不足，不能很好的对症状数据进行编码；且单纯研究症状与处方之间的对应关系，没有引入中药功效、主治等外部知识信息，准确率、召回率、F1值较低。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于BERT和融入功效信息的中药处方生成方法，通过深度学习的方法，利用预训练的BERT模型强大的语言表征能力来提升句子表达能力，从中医古籍经典方剂数据中挖掘规律，并融入中药功效信息，实现根据症状文本描述开具辅助的中医处方。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于BERT和融入功效信息的中药处方生成方法，包括以下步骤：

S1、获取若干一一对应的症状描述和处方数据对，以及中药功效信息，并对所述数据对进行预处理，将预处理后的结果作为训练集；

S2、将所述中药功效信息按中药字典顺序进行排序，并通过预训练好的BERT模型得到固定长度的每个中药的功效信息编码；

S3、将预训练好的BERT模型作为编码器，将GRU作为解码器，利用所述中药功效信息的编码初始化GRU解码器的输出层参数，并利用所述训练集微调BERT编码器，同时利用所述训练集训练GRU解码器，构建中药处方生成模型；

S4、将待预测的症状句子作为测试样本输入至训练好的中药处方生成模型，并利用中药处方生成模型生成中药的处方。

进一步地，所述步骤S1包括以下步骤：

S101、爬取网上公开的资料，得到方剂数据和中药数据，其中，所述中药数据包括中药别名以及中药功效信息；

S102、利用所述中药数据对方剂数据进行清洗，并利用自然语言处理方法去除制备方法和剂量，保留处方症状描述和中药组成，并对中药进行别名替换，构建初始化症状-处方对数据集；

S103、对所述症状-处方对数据集的句子语料进行分词处理；

S104、利用预训练好的BERT模型对症状字符进行词典数值化处理，并按照中药名出现的前后顺序统计不重复的药名，将统计的中药名组成中药词典，并根据中药词典对处方数据进行数值化处理，得到数值化编码后的症状-处方对训练集。

再进一步地，所述步骤S103中的分词处理具体为：

采用字符级划分症状句子，以及按中药名切分处方句子。

再进一步地，所述步骤S3中的编码器包括Embedding层以及堆叠的12层transformer编码单元；

每个所述transformer编码单元均包括多头自注意力层和前向反馈层。

再进一步地，所述中药处方生成模型的损失函数loss的表达式如下：

qt'＝ξ(q_t,q_v)

ξ(q_t,q_v)＝((q_v/M)+q_t)/2

其中，qt'表示目标概率分布，p_t表示t时间步模型输出的概率分布，t表示时间步，ξ(·)表示投影函数，q_v表示单词q的向量表示，q_t表示原始目标概率，M表示目标生成草药的个数。

再进一步地，所述步骤S4包括以下步骤：

S401、初始化BERT编码器；

S402、将待预测的症状句子输入至BERT编码器，利用12层transformer编码单元对所述症状句子进行编码；

S403、取BERT编码器的最后一层输出的隐藏向量表示作为BERT编码器输出；

S404、将所述隐藏向量表示输入至GRU解码器中进行解码，生成中药处方。

再进一步地，所述步骤S404包括以下步骤：

S4041、根据所述隐藏向量表示利用注意力机制得到动态的症状信息编码的上下文向量c_t；

S4042、根据所述症状上下文向量c_t利用GRU解码器进行解码，并根据解码出来的序列生成中药的处方。

再进一步地，所述步骤S4041中上下文向量c_t的表达式如下：

其中，T表示症状序列长度，h_j表示症状编码器各个时间步隐藏向量，a_tj表示注意力权重，a(s_t-1,h_j)表示对齐模型，s_t-1表示解码器上一时间步隐藏状态向量，

表示参数矩阵，

W_a、U_a均表示要学习的参数矩阵。

再进一步地，所述步骤S4042中中药处方生成的过程如下：

s_t＝f(s_t-1,c_t,Ey_t-1)

p(y_t|y_1,...,t,x)＝g(s_t·H)

其中，s_t表示时间步为t时解码器的隐藏状态向量，f(·)表示GRU，c_t表示症状信息编码的上下文向量，E表示中药词汇数量，y_t-1表示上一时间步预测的中药的one-hot编码，p(y_t|y_1,...,t,x)表示在给定症状句子和前t个时间步的中药输出时，该时间步输出中药的概率分布，g(·)表示softmax操作，H表示中药的功效信息编码的Herb Embeddings矩阵。

本发明的有益效果：

(1)本发明一种基于BERT和融入功效信息的中药处方生成方法，主要根据迁移学习的思想，充分利用了BERT编码器具有强大的语言表征能力的特点，使用公开的预训练好的BERT作为编码器，然后在症状处方数据上进行微调，利用了大量的预训练语料，一定程度降低了对所需训练数据量的依赖；同时BERT编码器用的是Transformer编码单元，相对过去用RNN的方法更加高效、能捕捉更长距离的依赖，它能捕捉到上下文信息，并且可以有更深的层数、具有更好的并行性；

(2)本发明通过深度学习的方法，利用预训练的BERT强大的语言表征能力来提升句子表达能力，从中医古籍经典方剂数据中学习名老中医的诊疗思想，挖掘规律，并融入中药功效信息，实现根据症状文本描述开具辅助的中医处方；

(3)本发明将中药的功效信息融入到处方生成过程中，对处方生成进行指导，基于本发明的方法，在召回率、F1得分方面优于以前的模型方法；

(4)本发明通过训练编码器和解码器两个网络，来最大化草药组成序列的条件概率，实现输入症状自动生成处方。

附图说明

图1为传统中药处方生成方法的示意图。

图2为本发明的方法流程图。

图3为本发明的中药处方生成模型图。

图4为本发明的BERT编码器结构示意图。

图5为本发明中BERT编码器的内部结构示意图。

图6为本发明中融入中药功效信息的方法示意图，

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例

本方案提供一种基于BERT和融入功效信息的中药处方生成方法，通过深度学习的方法，利用预训练的BERT强大的语言表征能力来提升句子表达能力，从中医古籍经典方剂数据中挖掘规律，并融入中药功效信息，实现根据症状文本描述开具辅助的中医处方，如图2所示，包括以下步骤：

S1、获取若干一一对应的症状描述和处方数据对，以及中药功效信息，并对所述数据对进行预处理，将预处理后的结果作为训练集，其实现方法如下：

S101、爬取网上公开的资料，得到处方数据和中药数据，其中，所述中药数据包括中药别名以及中药功效信息；

S103、对所述症状-处方对数据集的句子语料进行分词处理，其采用字符级划分症状句子，以及按中药名切分处方句子；

S104、利用预训练好的BERT模型对症状字符进行词典数值化处理，并按照中药名出现的前后顺序统计不重复的药名，将统计的中药名组成中药词典，并根据中药词典对处方数据进行数值化处理，得到数值化编码后的症状-处方对训练集；

S3、将预训练好的BERT模型作为编码器，将GRU作为解码器，以及利用所述中药功效信息的编码初始化GRU解码器的输出层参数，并利用所述训练集调整BERT编码器，以及利用所述训练集训练GRU解码器，构建中药处方生成模型；

S4、将待预测的症状句子作为测试样本输入至训练好的中药处方生成模型，并利用中药处方生成模型生成中药的处方，其实现方法如下：

S401、初始化BERT编码器；

S403、取编码器的最后一层输出的隐藏向量表示作为编码器输出；

S404、将所述隐藏向量表示输入至GRU解码器中进行解码操作，生成中药处方，其实现方法如下：

S4042、根据所述上下文向量c_t利用GRU进行解码，并根据解码出来的序列生成中药的处方。

本实施例中，给定由N个数据样本组成的中药症状-处方对数据集，第i个数据样本(x(i),y(i))包含描述症状的一个源文本x(i)和中药处方y(i)，中药处方y(i)由中药序列

组成。我们的中药处方生成模型的基本目标是优化我们生成草药的条件概率p(y₁,y₂,...,y_t'|x₁,x₂,...,x_t)，具体目标如式所示：

其中，c_i为编码器将输入的症状信息编码的得到的上下文语义向量，每一个p(y_i|c_i,y₁,y₂,...,y_i-1)代表最新生成的草药是由前i-1个草药联合上下文向量p(y_i|c_i,y₁,y₂,...,y_i-1)生成的。该目标通过我们提出的模型实现，模型主要分为编码部分和解码部分。

本实施例中，编码部分由12个Transformer编码单元堆叠组成的深度网络BERT模型，使用在大量公开数据集上预训练好的google开源的预训练权重对该模型进行初始化，将初始化后的BERT作为编码器。通过训练数据进行微调，得到症状句子每个字包含上下文信息的向量编码。

如图3所示，图3中的E₁,E₂,...,E_N表示字的文本输入，经过BERT编码器，就可以得到文本的向量化表示。具体地，症状向量作为输入，每个时刻输入一个字符向量。编码器将模型输入，即可变长度的症状字符序列x＝(x₁,x₂,...,x_T)送入BERT编码器，取最后一层的隐藏层神经元输出作为编码器的输出h＝(h₁,h₂,h₃,...,h_l)。

本实施例中，如图4-图5所示，Bert编码器包括：Embedding层和堆叠的12层transformer编码单元。Embedding层是词嵌入、句子类型嵌入以及位置嵌入之和，分别表示词信息、句子对信息和位置信息，三者之和作为输入向量。堆叠的12层编码单元每层由两个子层构成，其中，多头自注意力层和前向反馈层，用于对症状句子进行编码。计算过程如下：

MultiHead(Q,K,V)＝Concat(head₁,...,head_i)W^o

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中，MultiHead(·)表示多头注意力机制，Q,K,V表示多头注意力层的输入向量，即词向量，Concat(·)表示将多个head拼接成一个向量，head表示多头注意力机制的某一个头，h为头的个数，W^o表示参数矩阵，W_i ^Q、W_i ^K、W_i ^V表示不同子空间的映射矩阵，K^T表示K的转置，Attention是自注意力计算过程，是计算症状句子中的每个字与句子中所有字的关系，反应了症状句子中不同字词之间的关联性以及重要程度，学习句子内部的词依赖关系，捕获句子的内部结构；

表示为K的维度的平方根，通过h个不同的线性变换对Q，K，V进行投影，分成不同的子空间，通过计算多次来捕获不同子空间上的相关信息，最后将不同的注意力结果拼接起来，并映射到原空间中得到最终的症状注意力向量作为输出，得到更立体更全面的词与词之间的关系。

FFN＝max(0,xW₁+b₁)W₂+b₂

out＝LN(x+subLayer(input))

上式中，a、β、W、b表示学习参数，μ_i表示平均值，

表示方差，ε表示一个很小的数，防止数值计算的除0错误，x表示该层的输入，LN和FFN分别为层归一化和残差网络模块，用来解决深度学习中的退化问题，LN为层归一化操作，input为子层输入，subLayer为子层相应的计算公式，即前面提到的MultiHead或FFN公式，output为子层输出。

本实施例中，BERT编码器的输入是预处理过的文本，12层每层的输出为下一层的输入，最后一层编码层的输出作为症状句子转换而成的隐藏向量表达h＝(h₁,h₂,h₃,...,h_l)，即BERT编码器的输出。

本实施例中，解码部分：用前一步骤编码器得到的症状隐藏向量，采用注意力机制，通过GRU构成的解码器进行解码，生成相应处方。具体实现为：在得到编码器各个时间步的隐藏状态向量后，根据注意力机制得到动态的症状信息编码的上下文向量c_t，公式如下：

权重a_tj计算如下：

其中，T表示症状序列长度，h_j表示编码器各个时间步隐藏向量，

表示参数矩阵，a_tj表示注意力权重，即解码器某时间步应分配给每个症状字词多少注意力，

W_a、U_a均表示要学习的参数矩阵，c_t由编码器产生的各个时间步隐藏向量加权的和构成，每个时间步的c_t可能不同，a(s_t-1,h_j)是对齐模型(alignment模型)，通过测量解码器上一时间步隐藏状态向量s_t-1和编码器各个时间步隐藏状态向量h_j之间的相关性得到。我们根据解码器的前一时间步的隐藏状态s_t-1计算第t个输出中药需要多少h_j，即a_tj。

本实施例中，解码器通过GRU逐步解码生成可变长度序列y＝(y₁,y₂,...y_T')，即我们需要生成的处方，公式如下：

s_t＝f(s_t-1,c_t,Ey_t-1)

p(y_t|y_1,...,t,x)＝g(s_t·H)

其中，s_t表示时间步为t时解码器的隐藏状态向量，f(·)表示GRU，c_t表示症状信息编码的上下文向量，E表示目标草药序列的词嵌入矩阵，E∈(V×D)，V是药草词汇数量，D是嵌入维度，y_t-1表示上一时间步预测的草药的one-hot编码，通过上一时间步的隐藏状态输出、上一个时间步预测的草药以及动态的上下文向量迭代生成该时间步的隐藏状态输出，p(y_t|y_1,...,t,x)表示在给定症状句子和前t个时间步的中药输出时，该时间步输出中药的概率分布，g(·)表示softmax操作，H表示中药的功效信息编码的Herb Embeddings矩阵。

本实施例中，如图6所示，在解码时提出了一种融入功效信息的思路，文本生成某种程度上可以看作是embedding层面的匹配，用BERT编码中药功效信息，同时用BERT编码器编码症状信息，使症状信息与中药功效信息在一个语义空间下被编码，将解码器生成的隐藏层向量与用BERT编码中药功效信息得到的Herb Embeddings矩阵做内积，即相似性匹配。

本实施例中，如图6所示，g(·)即softmax激活函数，它能够输出t时刻草药词汇中每个草药生成的概率，经过softmax函数得到字典中每味药在当前时刻输出的概率，选取概率最大值，找到治疗相应病症的中药，然后不断进行解码直到解码器输出结束符，则解码结束，得到生成的处方。

本实施例中，草药的顺序在产生处方时很重要，但不是强有序的。在模型以错误顺序生成草药时，我们也不能认为其完全错误。因此使用一种损失函数，其对交叉熵函数做了一些改进：

本发明中目标概率分布qt'，不是传统交叉熵函数中使用的one-hot目标概率qt，目标概率分布qt'根据原始目标概率q_t和该样本的整体目标序列q计算，q_v表示q的单词向量表示，q中存在的目标草药在q_v中的位置填1，不在的为0。本发明使用函数ξ将原始目标标签概率q_t投影到新的概率分布qt'中：

qt'＝ξ(q_t,q_v)

函数ξ在模型以错误的顺序预测标签时减少严厉的惩罚，投影函数ξ公式为：

ξ(q_t,q_v)＝((q_v/M)+q_t)/2

其中，M是整体目标序列q的长度，即目标生成草药的个数。这个函数意味着在解码的t时刻，对于每个目标药草标记p_i，我们首先将softmax函数处理之后得到的草药的概率分布除以整体目标序列M。然后，我们将该概率分布和原始概率q_t相加取平均值作为时间t的最终概率分布。总的来说，就是加入整体目标序列的信息，降低模型以错误顺序生成草药时的损失。本发明通过训练编码器和解码器两个网络，来最大化草药组成序列的条件概率，实现输入症状自动生成处方。

本实施例中，通过准确率、召回率和F1值来衡量模型效果，准确率即生成的正确的草药占整个生成序列的比例，召回率即生成的正确的草药占目标生成序列的比例，而准确率和召回率往往存在矛盾的情况，提高准确率有时会带来召回率的降低，需要综合考虑，即F1值：

本发明通过以上设计，利用预训练的BERT强大的语言表征能力来提升句子表达能力，从中医古籍经典方剂数据中挖掘规律，并融入中药功效信息，实现根据症状文本描述开具辅助的中医处方。