CN112466436B

CN112466436B - 基于循环神经网络的智能中医开方模型训练方法及装置

Info

Publication number: CN112466436B
Application number: CN202011336491.9A
Authority: CN
Inventors: 王阶; 李谦一; 张振鹏; 李洪峥; 杜强; 杨墨翰; 郭雨晨; 聂方兴; 唐超; 张兴
Original assignee: Beijing Xiao Bai Century Network Technology Co ltd
Current assignee: Beijing Xiao Bai Century Network Technology Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2024-02-23
Anticipated expiration: 2040-11-25
Also published as: CN112466436A

Abstract

本发明公开了一种基于循环神经网络的智能中医开方模型训练方法及装置，包括：构建证候要素库；将症状进行归类；将证候要素和症状进行编码，产生领域词向量和属性词向量；将领域词向量和属性词向量进行叠加产生叠加词向量；使用循环神经网络作为主干网络，将叠加词向量作为输入，预测第一个药材的特征向量a、第二个药材的特征向量b，以此类推，直到产生出给定数量的药材为止。解决了传统开方模型的词向量对词细腻度不够的问题，同时学习药材和药材间的关联，利用循环神经网络时序预测的特征，减少模型预测出药性相冲突的药材的可能性，并且可以体现出预测出的药材的重要性，方便医生后续进行减方或者药方改良。

Description

基于循环神经网络的智能中医开方模型训练方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种基于循环神经网络的智能中医开方模型训练方法及装置。

背景技术

中医是基于阴阳五行以及长期的实践和验证的传统医学。其主要的诊疗思路可以用辨证论治进行概括，即首先根据病人的描述总结出症状，然后依据症状并且基于中医诊断学来判断出病人的证候要素，证候要素决定了病人的主要治疗方向，即可以从证候要素得出病人的治法。最后结合症状，证候要素和治法进行开方。但是中医的诊疗相对与西医来说更加需要经验的沉淀和积累，主要是由于症状和证候要素的判断缺乏统一的标准，同时药材的使用存在各种禁忌，比如所谓“十八反十九畏”等。而普通的医师很难独自进行辩证和开药，因此在现代中医系统中会有一个审方来对初级医师开具的方子进行审核，只有审核通过后才可以抓药。

目前深度学习的发展迅速，在各行各业都有着亮眼的表现，结合深度学习的智能中医开方系统也被广泛的研究并且使用。通过使用智能开方系统，可以辅助初级医师进行快速有效的诊断和开药，提高整个医疗系统的效率。然而目前的智能开方系统存在准确性低，而且预测出的药物存在药性冲突等情况，导致其实用性低下，无法很好的作为一个辅助系统发挥其功能。

发明内容

本发明的目的在于提供一种基于循环神经网络的智能中医开方模型训练方法及装置，旨在解决现阶段中医的智能开方系统准确性低，医疗系统的效率底下的问题。

本发明提供一种基于循环神经网络的智能中医开方模型训练方法，包括：

S1确定所有的证候要素构建证候要素库；

S2将症状依据所述证候要素库进行归类，构建训练样本标签；

S3将所述证候要素进行独热编码产生独热向量a，将所述独热向量a输入到全连接层a中产生所述症状的领域词向量；

S4将所述症状进行独热编码产生独热向量b，将所述的独热向量b输入到全连接层b中产生所述症状的属性词向量；

S5将所述领域词向量和所述属性词向量进行叠加产生叠加词向量；

S6使用循环神经网络作为主干网络，将所述叠加词向量组成的特征矩阵输入到所述循环神经网络的循环神经元中，经过非线性变换输出预测出的药材的特征向量a，将所述特征向量a和所述症状的特征矩阵进行拼接后再次输入回所述循环神经元中，产生第二个药材的特征向量b，以此类推，直到产生出给定数量的药材为止。

本发明提供一种基于循环神经网络的智能中医开方装置，包括：

要素库模块：确定所有的证候要素构建证候要素库；分类模块：将症状依据所述证候要素库进行归类,构建训练样本标签；领域词模块：将所述证候要素进行独热编码产生独热向量a，将所述独热向量a输入到全连接层a中产生所述症状的领域词向量；属性词模块：将所述症状进行独热编码产生独热向量b，将所述的独热向量b输入到全连接层b中产生所述症状的属性词向量；叠加词模块：将所述领域词向量和所述属性词向量进行叠加产生叠加词向量；神经网络模块：使用循环神经网络作为主干网络，将所述叠加词向量组成的特征矩阵输入到所述循环神经网络的循环神经元中，经过非线性变换输出预测出的药材的特征向量a，将所述特征向量a和所述症状的特征矩阵进行拼接后再次输入回所述循环神经元中，产生第二个药材的特征向量b，以此类推，直到产生出给定数量的药材为止。

本发明实施例还提供一种基于循环神经网络的智能中医开方装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述1至4方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现上述方法的步骤。

采用本发明实施例，解决了传统开方模型的词向量对词细腻度不够的问题，同时学习药材和药材间的关联，利用循环神经网络时序预测的特征，减少模型预测出药性相冲突的药材的可能性，并且可以体现出预测出的药材的重要性，方便医生后续进行减方或者药方改良。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的基于循环神经网络的智能中医开方模型训练方法的流程图。

图2是本发明实施例的词向量生成示意图；

图3是本发明实施例的词向量的示意图；

图4是本发明实施例的两个子空间在一个空间下的示意图；

图5是本发明实施例的循环神经网络的结构示意图。

图6是本发明实施例的循环神经网络的应用示意图。

图7是本发明装置实施例一的基于循环神经网络的智能中医开方模型训练装置图。

图8是本发明装置实施例二的基于循环神经网络的智能中医开方模型训练装置的示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“坚直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。此外，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

方法实施例

根据本发明实施例，提供了一种基于循环神经网络的智能中医开方模型训练方法，图1是本发明实施例的基于循环神经网络的智能中医开方模型训练方法流程图，如图1所示，根据本发明实施例的一种基于循环神经网络的智能中医开方模型训练方法具体包括：

S1确定所有的证候要素构建证候要素库。

进一步地，统计训练数据中所有的症状，这些症状应该是符合中医学标准的症状描述，如果不符合标准则进行修改或者删除。以据中医学的知识和专家的指导，对这些症状根据所属的证候要素来进行划分。这样做的原因是因为中医的开方是基于症状以及证候要素来完成的，证候要素体现了不同症状之间的联系与关联。通过将症状进行划分，可以提高对症状本身属性描述的细腻度，从而提高模型判断的准确性。

S2将症状依据所述证候要素库进行归类，构建训练样本标签。

S3将所述证候要素进行独热编码产生独热向量a，将所述独热向量a输入到全连接层a中产生所述症状的领域词向量。

进一步地，所述全连接层a为两层。

S4将所述症状进行独热编码产生独热向量b，将所述的独热向量b输入到全连接层b中产生所述症状的属性词向量。

进一步地，所述全连接层b为两层。

S5将所述领域词向量和所述属性词向量进行叠加产生叠加词向量。

进一步地，将证候要素转换为独热向量，独热向量可以将一系列的词用向量来表示，这样计算机才可以识别。具体来说独热向量就是用一个长度为所有单词数量的向量来表示一个词，每一个词对应一个索引，所以也叫独热向量。举例来说，如果我们有3个证候要素血瘀，寒凝和痰浊，则血瘀的独热向量为[1,0,0]，寒凝的独热向量为[0,1,0]，痰浊的独热向量是[0,0,1]。在我们获得了独热向量之后将这些独热向量输入到两层全连接层中，利用自监督学习生成每个证候要素的词向量，词向量是用来体现一个词的特征属性的向量。在获得了证候要素的独热向量后，我们用同样的方式获取症状本身的独热向量，然后使用另外两层全连接网络通过自监督学习的方法得到症状本身的属性词向量。通过独热编码和全连接层获取词向量的过程如图2所示，图2是本发明实施例的词向量生成示意图。结果如图3所示，图3是本发明实施例的词向量的示意图。在获取了症状的领域词向量和属性词向量后，我们将两个词向量进行叠加处理，图4是本发明实施例的两个子空间在一个空间下的示意图，如图4所示，两个词向量的叠加可以理解为将两个不同的子空间在一个空间中进行表示。所属证候要素相同的症状在进行叠加后会更加接近，这样可以更好的体现出不同症状间的关系，也可以将证候要素的信息引入模型，辅助模型开方预测。同时属性词向量可以帮助区分同一证候要素下的症状之间的差异性，提高同证候要素下的症状的区分度，从而提高药材与症状之间的对应的细腻度。

进一步地，所述循环神经网络为使用PyTorch作为构建平台的长短期记忆网络在多个图形处理器上进行训练，所述梯度下降方法包括：ADAM算法。进一步地，在获取了给定症状的叠加词向量特征矩阵后，我们将这个特征矩阵作为最初的输入，输入到用循环神经元构建的循环神经网络中。循环神经网络由一个循环神经元构成。普通的神经元可以接受一个输入然后经过非线性变换获得一个输出。而循环神经元不同于普通的神经元的地方在于，循环神经元可以将输出又作为自己输入的一部分，获得下一个输出，以此循环直到得到用户指定数量的输出为止。图5是本发明实施例的循环神经网络的结构示意图，如图5所示展示了循环神经网络的基本常见结构，图6是本发明实施例的循环神经网络的应用示意图，如图6所示展示了循环神经网络的展开式。举例来说，假设用户指定想要获得3个药材组成的药方，我们首先将症状的特征矩阵作为最初的输入，产生第一个药材瓜蒌的特征向量，然后将瓜蒌的特征向量和症状的特征矩阵进行拼接，输入回循环神经元，产生下一个预测出的药材薤白的特征矩阵，同理，我们将薤白的特征向量和症状的特征矩阵进行拼接产生最后一个药材法半夏的特征向量。由于用户指定了3个药材，因此循环神经网络停止继续输出药材。

进一步地，通过使用时序相关的药材预测方式，神经网络可以学习到药材和药材之间的关联，从而提升药方开具的准确性；之前预测出的药材作为下一个药材预测的输入的一部分有助于防止网络预测出药性相冲突的药材；循环神经网络可以规定一共输出多少药材，这可以防止智能开方系统给出过于少的药材或者过多的药材，提高了系统的可控性。4)按顺序输出药材实际上反映了对应给定的症状来说，哪些药材更为重要，即越早输出的药材是网络认为对于治疗给定症状来说更为重要的药材，这有利于医师根据结果来对药材进行必要的减方。

S7构建损失函数，并且用预测出的药材和所述训练样本标签作为输入计算损失，使用梯度下降更新模型的参数，直至连续预定迭代次数训练后所述损失不再降低，停止训练并保存模型。

进一步地，所述损失函数包括：二元交叉熵。

进一步地，本发明采用常用的交叉熵函数如公式(1)所示：

Loss_bce＝-(plog(q)+(1-p)log(1-q) (1)

p为正确的药材的标签，q为预测出的药材的概率。在训练的过程中，我们每一轮预测的药材和标签作为输入计算损失，然后将损失进行梯度反传更新模型。

在训练的过程中，我们每一轮预测的药材和标签作为输入计算损失，然后将损失进行梯度反传更新模型。如果连续10轮训练的损失不下降的话，停止进行训练并且保存模型。将损失函数作为需要最小化的目标函数执行梯度反传从而更新模型的参数来进行优化，本发明使用PyTorch作为自动梯度计算工具，优化方法使用Adam梯度优化器，并利用数据分布式算法在多个GPU上进行训练。

S8检测和验证。

为了验证本发明网络的优越性，我们设置的实验包含1个实验组和3个对照组：实验组为使用了词向量叠加技术的循环神经网络,对照组1为不使用词向量叠加技术的普通神经网络，对照组2为使用词向量叠加技术的普通神经网络，对照组3为不使用词向量叠加技术的循环神经网络。数据集为从网络上爬取的古今医案2000条，其中1500例为训练集，500例为测试集。通过训练该数据集直到最后的损失函数收敛然后收集结果并且进行比较，可以从而得出本发明所提出的方法是否对中医智能开方有所提升。

结果显示，实验组对比对照组分别在开方准确率上有5.42，2.24和2.11的提升，由此我们可以看出，不使用词向量叠加技术的普通神经网络表现最差，而使用词向量叠加技术或者循环神经网络都可以提升模型的表现，同时使用词向量叠加技术和循环神经网络有更大的提升。

装置实施例一

根据本发明实施例，提供了一种基于循环神经网络的智能中医开方装置，图7是是本发明装置实施例一的基于循环神经网络的智能中医开方模型训练装置的示意图，如图7所示，根据本发明实施例的基于循环神经网络的智能中医开方装置具体包括：

1.要素库模块701：确定所有的证候要素构建证候要素库。

2.分类模块702：将症状依据所述证候要素库进行归类,构建训练样本标签。

3.领域词模块703：将所述证候要素进行独热编码产生独热向量a，将所述独热向量a输入到全连接层a中产生所述症状的领域词向量。

4.进一步地，所述领域词模块中所述全连接层a为两层。

5.属性词模块704：将所述症状进行独热编码产生独热向量b，将所述的独热向量b输入到全连接层b中产生所述症状的属性词向量；

6.进一步地，所述属性词模块中所述全连接层b为两层。

7.叠加词模块705：将所述领域词向量和所述属性词向量进行叠加产生叠加词向量；

8.神经网络模块706：使用循环神经网络作为主干网络，将所述叠加词向量组成的特征矩阵输入到所述循环神经网络的循环神经元中，经过非线性变换输出预测出的药材的特征向量a，将所述特征向量a和所述症状的特征矩阵进行拼接后再次输入回所述循环神经元中，产生第二个药材的特征向量b，以此类推，直到产生出给定数量的药材为止。

进一步地，所述循环神经网络为使用PyTorch作为构建平台的长短期记忆网络在多个图形处理器上进行训练，所述梯度下降方法包括：ADAM算法。

进一步地，构建损失函数模块，并且用预测出的药材和所述训练样本标签作为输入计算损失，使用梯度下降更新模型的参数，直至连续十轮训练的所述损失不再降低，停止训练并保存模型。

本发明实施例是与上述方法实施例对应的系统实施例，各个模块的具体操作可以参照方法实施例的描述进行理解，在此不再赘述。

装置实施例二

本发明实施例提供一种基于循环神经网络的智能中医开方装置，图8是本发明装置实施例二的基于循环神经网络的智能中医开方模型训练装置的示意图，如图8所示，包括：存储器801、处理器802及存储在所述存储器801上并可在所述处理器802上运行的计算机程序，所述计算机程序被所述处理器801执行时实现如下方法步骤：

S1确定所有的证候要素构建证候要素库。

S3将所述证候要素进行独热编码产生独热向量a，将所述独热向量a输入到全连接层a中产生所述症状的领域词向量

进一步地，所述全连接层a为两层。

进一步地，所述全连接层a为两层，所述全连接层b为两层。

进一步地，所述循环神经网络为使用PyTorch作为构建平台的长短期记忆网络在多个图形处理器上进行训练。

所述方法进一步包括：构建损失函数，并且用预测出的药材和所述训练样本标签作为输入计算损失，使用梯度下降更新模型的参数，直至连续预定迭代次数训练后所述损失不再降低，停止训练并保存模型。

进一步地，所述损失函数包括：二元交叉熵，所述梯度下降方法包括：ADAM算法。。

装置实施例三

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传输的实现程序，如图8所示，所述程序被处理器802执行时实现如下方法步骤：

S1确定所有的证候要素构建证候要素库。

进一步地，所述全连接层a为两层。

进一步地，所述全连接层a为两层，所述全连接层b为两层。

本实施例所述计算机可读存储介质包括但不限于为：ROM、RAM、磁盘或光盘等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于循环神经网络的智能中医开方模型训练方法，其特征在于，包括：

S1确定所有的证候要素构建证候要素库；

2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：构建损失函数，并且用预测出的药材和所述训练样本标签作为输入计算损失，使用梯度下降更新模型的参数，直至连续预定迭代次数训练后所述损失不再降低，停止训练并保存模型。

3.根据权利要求2所述的方法，其特征在于，所述损失函数包括：二元交叉熵；所述全连接层a为两层，所述全连接层b为两层_。

4.根据权利要求3所述的方法，其特征在于，所述循环神经网络为使用PyTorch作为构建平台在多个图形处理器上进行训练的长短期记忆网络，所述梯度下降方法包括：ADAM算法。

5.一种基于循环神经网络的智能中医开方装置，其特征在于，包括：

要素库模块：确定所有的证候要素构建证候要素库；

分类模块：将症状依据所述证候要素库进行归类,构建训练样本标签；领域词模块：将所述证候要素进行独热编码产生独热向量a，将所述独热向量a输入到全连接层a中产生所述症状的领域词向量；

属性词模块：将所述症状进行独热编码产生独热向量b，将所述的独热向量b输入到全连接层b中产生所述症状的属性词向量；

叠加词模块：将所述领域词向量和所述属性词向量进行叠加产生叠加词向量；

神经网络模块：使用循环神经网络作为主干网络，将所述叠加词向量组成的特征矩阵输入到所述循环神经网络的循环神经元中，经过非线性变换输出预测出的药材的特征向量a，将所述特征向量a和所述症状的特征矩阵进行拼接后再次输入回所述循环神经元中，产生第二个药材的特征向量b，以此类推，直到产生出给定数量的药材为止。

6.根据权利要求5所述的装置，其特征在于，所述装置进一步包括损失函数模块，构建损失函数，并且用预测出的药材和所述训练样本标签作为输入计算损失，使用梯度下降更新模型的参数，直至连续预定迭代次数训练后所述损失不再降低，停止训练并保存模型。

7.根据权利要求6所述的装置，其特征在于，损失函数包括：二元交叉熵；所述全连接层a为两层，所述全连接层b为两层。

8.根据权利要求7所述的装置，其特征在于，所述循环神经网络为使用PyTorch作为构建平台在多个处理器上进行训练的长短期记忆网络，所述梯度下降方法包括：ADAM算法。

9.一种基于循环神经网络的智能中医开方装置，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的智能中医开方模型训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如权利要求1至4中任一项所述的智能中医开方模型训练方法的步骤。