CN113505210A

CN113505210A - 一种基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统

Info

Publication number: CN113505210A
Application number: CN202110782860.5A
Authority: CN
Inventors: 李珍妮; 唐健浩; 李文豪; 沈权猷; 苏文胜
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-10-15
Anticipated expiration: 2041-07-12
Also published as: CN113505210B

Abstract

本发明公开了一种基于轻量化Actor‑Critic生成式对抗网络的医疗问答生成系统，包括轻量化Actor‑Critic结构的生成器和判别器，系统输入用户提出的医疗问题后，生成器通过编码‑解码的方式生成医疗诊断方案；已知的医疗问答文本作为数据集，输入到生成器中并采用极大似然估计方法进行预训练，再把预训练好的生成器生成的数据分布作为假样本，已知的数据作为真样本，输入到判别器网络进行预训练。预训练生成器和判别器后，复用生成器为Actor网络并构建结构为长短期记忆网络的Critic网络，采用Actor‑Critic算法对生成器网络权值参数进行更新，并与判别器进行对抗训练，同时采用基于组MCP正则项多路径多层Actor和Critic网络轻量化方法对网络进行轻量化处理。

Description

一种基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统

技术领域

本发明涉及强化学习领域和自然语言处理领域，具体涉及一种基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统。

背景技术

目前，由于医疗资源短缺且分布不均衡等问题给医院带来严峻的运营压力、医患关系紧张等问题。随着移动互联网技术的发展，医疗行业信息化受到越来越多企业和国家重视。医疗问答系统被广泛应用于医疗行业，其通过网络整合不同地域间的医疗资源，以获得高质量医疗服务效率，同时缓解医生的工作压力。问答生成是问答系统的一种实现方式，是近年在人工智能和自然语言处理领域中具有广阔前景的研究方向，其能准确、简洁地生成用户用自然语言提出的问题的答案，可将其应用于实现医疗问答生成系统。目前，医疗领域缺乏有效的信息质量管控机制，且医疗问答信息数据量受限，因此，整合利用有限的知识库的问答数据，开发出能生成准确、专业医疗诊断方案的医疗生成系统显得尤为重要。

深度强化学习(Deep Reinforcement Learning)将强化学习的决策能力和深度学习的感知能力两者结合，可用于解决系统复杂的决策感知问题。近年来其在机器学习、自动控制和人工智能等领域受到广泛的关注和研究，展示其优越的适应性和学习能力，Actor-Critic结构算法是深度强化学习主流方法之一。其中，Actor网络负责逼近连续的策略空间，Critic网络负责评价Actor网络选择策略的好坏。Actor-Critic结构算法不仅可以解决连续空间控制问题，且可实现单步更新，效率更高，已被广泛应用于各重要领域。

生成式对抗网络(Generative Adversarial Networks，GAN)是一种基于零和博弈的深度学习模型，由生成器(Generator)和判别器(Discriminator)组成。判别器用于判别输入样本为真实样本的概率；生成器用于接收输入变量生成逼真的样本，但传统的GAN中的生成器仅适用于生成连续型的数据。Lantao Yu提出的SeqGAN模型(Sequence GenerativeAdversarial Nets)结合了GAN和策略梯度(Policy Gradient)的强化学习方法使GAN得以应用于离散数据，为医疗问答生成系统的实现提供一种新思路。但SeqGAN模型的问答生成质量远达不到预期要求。对此，选用Actor-Critic结构深度强化学习取代已有的策略梯度方法，用于缓解问答生成系统训练不稳定问题。

但Actor-Critic结构深度强化学习通过增加网络深度和神经元个数得到优异性能的同时，不可避免引入了庞大的参数量和计算量，导致其对存储资源和计算资源提出很高要求，难以部署到现有资源受限的移动设备上。因此，实现Actor-Critic结构的深度强化学习网络轻量化，并应用于医疗问答生成系统，使其能部署到计算资源有限的设备上，在深度强化学习领域中是一个迫切需要解决的问题。

发明内容

本发明的目的是提供一种基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统，缓解医疗资源短缺且分布不均衡给医院带来严峻的运营压力、医患关系紧张等问题。

为了实现上述任务，本发明采用以下技术方案：

一种基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统，包括：

轻量化Actor-Critic结构的生成器和判别器；

输入用户提出的医疗问题后，生成器通过编码-解码的方式生成医疗诊断方案作为系统的输出；

其中，所述轻量化Actor-Critic结构的生成器和判别器的训练过程为：

首先，构建生成器和判别器网络，并进行预训练；将已知的医疗问答文本构建的数据集，输入到生成器中并采用极大似然估计方法进行预训练，再把预训练好的生成器生成的问答样本作为假样本，已知的问答样本作为真样本，输入到判别器网络进行预训练；

其次，预训练生成器和判别器后，复用生成器网络为Actor，并构建结构为长短期记忆网络的Critic网络，训练生成器网络和Critic网络，同时，生成器网络与判别器网络进行对抗训练，并在生成器网络进行多次训练后更新一次判别器网络参数；

最后，对生成器网络和Critic网络进行剪枝处理。

进一步地，判别器网络为二分类器，结构为卷积神经网络；将生成器网络输出的问答样本作为假样本，判别器网络使用生成式对抗网络的损失函数计算判别器的损失函数，更新判别器参数；生成器网络采用Seq2Seq模型的问答结构，其网络结构由递归神经网络和全连接层组成，包括编码器和解码器，通过编码-解码过程生成医疗问答；其中，编码器将输入的自然语言医疗问题映射成词向量表示，解码器将映射成的词向量作为输入，然后通过全连接层输出词库里每个单词的概率值，最后通过的激活函数为Softmax。

进一步地，首先，分别将整体的Actor和Critic网络进行多路径多层结构化处理；其次，构建轻量化Actor-Critic网络目标函数：分别使用时间差分法和策略梯度法构建Critic网络Actor网络的目标函数，并在两者的目标函数中，对子路径间的权值参数采用非凸组MCP正则项进行组间稀疏约束，组内的权值参数采用L₂范数进行特征组选择；然后，针对Actor和Critic网络目标函数中组MCP正则项的非凸函数优化难点，采用DC分解技术将非凸优化问题转换为凸优化问题进行求解，并使用Adam算法更新Critic网络和Actor网络权值参数；最后，分别对多路径多层结构化的Critic网络和Actor网络中整体权重值较小的子路径进行剪枝，从而缓解Actor-Critic网络的权值参数冗余问题，实现基于非凸组MCP正则项多路径多层Actor-Critic网络轻量化。

进一步地，所述将整体的Actor和Critic网络进行多路径多层结构化处理，包括：

分别将整体的Actor和Critic网络按每层隐藏层神经元个数均分成n条并行的子路径，每条子路径定义为一组；每条子路径的隐藏层神经元个数相等，为原来完整网络隐藏层神经元个数的

输入层和输出层的神经元个数与原来整体网络相同；各子路径的输入为原来整体的Actor和Critic网络的输入，子路径的输出在最后一层聚合，并通过激活函数得到最终输出；在进行多次的迭代更新后，若多路径多层结构化的Critic或Actor网络的子路径数量大于某个阈值，即对其进行剪枝，若某条子路径权值参数的期望小于某个阈值，即移除该子路径，并更新Critic或Actor网络。

进一步地，所述Critic网络目标函数表示为：

其中，V(S，W)表示Critic网络，W表示Critic网络的权值参数，近似每个状态S下到最终状态的奖励期望为V(S，W)，在当前网络下下一个状态S′到最终状态的奖励期望为V(S′，W)，智能体在环境中的状态为S，在状态中执行动作A，获得环境给出该动作的奖励R，折扣率为γ。智能体转移到下一状态S′，再执行下一个动作A′；

为组MCP正则项，||·||₂为L₂范数，W_l ^g为第g条子路径的第l层的权值矩阵，即

为组MCP正则项对各组子路径间的权值参数进行稀疏约束，L为子路径的总层数，G为子路径的总数，参数λ＞0，μ＞1，β＞0为正则项参数，E(·)代表期望，

为组MCP正则项函数表达式。

进一步地，所述Actor网络目标函数表示为：

其中：

τ＝{S₁，A₁，R₁，S₂，A₂，R₂，…，S_t，A_t，R_t，…，S_k，A_k，R_k}

上式中，Actor网络表示为π(A|S，θ)，S表示Actor网络在当前环境下的状态，A表示在状态中执行的动作，θ表示Actor网络的权值参数；将Actor的控制策略视为k步的策略过程，Actor网络在该环境下的策略轨迹为τ，策略轨迹下的累积奖励表示为R(τ)，S_t表示策略轨迹第t步时生成器的状态，A_t表示策略轨迹第t步时智能体选择的策略，R_t表示第t步时生成器采取策略A_t后获得的奖励；在某个Actor网络参数下策略轨迹出现的概率为P(τ|θ)，

为第g条子路径中第l层的权值矩阵，即

为组MCP正则项对各组子路径间权值参数的稀疏约束，L为子路径的总层数，G为子路径的总数，β＞0为正则项参数。

与现有技术相比，本发明具有以下技术特点：

1.针对基于策略梯度方法的生成式对抗网络技术存在的不稳定问题，本发明设计了基于Actor-Critic生成式对抗网络技术。另外，针对基于Actor-Critic生成式对抗网络参数冗余的问题，本发明采用基于非凸组MCP正则项的多路径多层Actor-Critic网络轻量化方法对其进行剪枝处理。

2.本发明在Actor和Critic网络的目标函数中，对组间各子路径的权值参数采用非凸组MCP正则项进行组间稀疏约束，使属于同一路径内的权值参数同时趋向零点，组内的权值参数采用L₂范数进行特征组选择。相较组Lasso正则项，非凸组MCP具有较强的稀疏性和无偏性，从而可获得更好的轻量化效果。

3.本发明针对非凸组MCP正则项带来的非凸优化难点，首先，采用DC分解技术将非凸组MCP正则项分解为两个凸函数相减的形式，从而将问题转化为凸问题进行求解；其次，采用Adam算法更新网络的权值参数；最后，在训练过程中对网络进行剪枝，缓解网络参数冗余问题，使其能部署到资源有限的设备上。

附图说明

图1为本发明基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统模型训练结构图；

图2为基于非凸组MCP正则项的多路径多层化Actor/Critic网络结构图；

图3为本发明所提出的基于非凸组MCP正则项的多路径多层Actor-Critic网络轻量化方法与现有Actor-Critic算法训练曲线对比。

具体实施方式

一、基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统

参见附图，本发明提出的一种基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统，包括：

轻量化Actor-Critic结构的生成器和判别器；

输入用户提出的医疗问题后，生成器通过编码-解码的方式生成准确、专业医疗诊断方案，作为系统的输出。

首先，基于Actor-Critic生成式对抗网络构建生成器和判别器网络，并进行预训练。将已知的医疗问答文本构建的数据集，输入到生成器中并采用极大似然估计方法进行预训练，再把预训练好的生成器生成的问答样本作为假样本，已知的问答样本作为真样本，输入到判别器网络进行预训练。

其次，预训练生成器和判别器后，复用生成器网络为Actor，并构建结构为长短期记忆网络的Critic网络，采用基于非凸组MCP正则项多路径多层Actor-Critic网络更新方法训练生成器(Actor)网络和Critic网络，同时，生成器(Actor)网络与判别器网络进行对抗训练，并在生成器(Actor)网络进行多次训练后更新一次判别器网络参数。其中，定义生成器(Actor)网络在环境中的状态S为既有的句子，在状态中执行的动作A为待生成的下一个词，获得环境对该动作的奖励R为判别器网络的输出，拼接既有的句子和生成的下一个单词组成新的句子为下一状态S′，再得到下一个生成的单词为动作A′。

最后，采用基于非凸组MCP正则项多路径多层Actor-Critic网络轻量化方法对生成器(Actor)网络和Critic网络进行剪枝处理，缓解基于Actor-Critic生成式对抗网络参数冗余的问题，减少其对时间和存储资源的消耗，使其能部署到计算资源有限的设备。因此，本发明可实现基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统。

二、基于Actor-Critic生成式对抗网络

基于Actor-Critic生成式对抗网络由判别器网络和Actor-Critic结构的生成器网络组成。预训练生成器和判别器后，复用生成器网络作为Actor，构建Critic网络，采用Actor-Critic算法更新生成器(Actor)网络参数，并与判别器进行对抗训练，实现基于Actor-Critic生成式对抗网络。

判别器网络为二分类器，结构为卷积神经网络；将生成器网络输出的问答样本作为假样本，已知的问答样本为真样本，输入真、假样本到判别器网络中，分别得到判别器网络对这些真、假样本判断为真实样本的概率并视为奖励；判别器网络使用生成式对抗网络的损失函数计算判别器的损失函数，更新判别器参数。

生成器网络采用Seq2Seq模型的问答结构，其网络结构由递归神经网络和全连接层组成，通过编码-解码过程生成医疗问答；包括编码器和解码器，其中，编码器将输入的自然语言医疗问题映射成词向量表示，解码器将映射成的词向量作为输入，然后通过全连接层输出词库里每个单词的概率值，最后通过的激活函数为Softmax。

生成器网络的预训练采用极大似然估计方法，与真实问答样本计算交叉熵损失，利用损失值更新网络参数；判别器预训练时，把预训练好的生成器生成的问答样本作为假样本，已知的问答样本作为真样本，输入到判别器网络进行训练。

预训练生成器和判别器后，构造含有初始单词的词向量矩阵，复用生成器网络为Actor，构建结构为长短期记忆网络的Critic网络，采用Actor-Critic算法对生成器(Actor)网络权值参数进行更新。同时生成器(Actor)网络与判别器网络进行对抗训练，并在生成器(Actor)网络进行多次训练后更新一次判别器网络参数。

三、基于非凸组MCP正则项多路径多层Actor-Critic网络轻量化方法

Actor-Critic网络主要分成两个部分，通过训练Critic网络近似环境下的状态价值函数，Actor网络根据从Critic网络反馈的TD-error训练动作策略。Actor网络负责逼近连续的策略空间，Critic网络负责评价Actor网络选择策略的好坏。但网络受限于冗余权值参数，难以部署到计算资源有限的设备。因此，对Actor和Critic网络进行轻量化处理是一个迫切需要解决的问题。

剪枝技术因其高效简单的优点已逐渐成为深度神经网络轻量化的研究热点之一。在Actor-Critic网络的剪枝方法中，稀疏约束的选择决定着剪枝效果的优劣。现有流行的稀疏约束如L₀范数，其不连续的特性导致其优化问题求解为NP-hard问题，在网络训练时使用贪婪算法求解将导致庞大的计算量，难以实现。对此，将L₀范数凸松弛近似为L₁范数，可减少网络训练的计算量，但其将导致弱稀疏性、过惩罚等问题，造成网络估测值偏差较大。Group Lasso为组形式的L₁范数，可进行分组形式的稀疏约束，实现组间稀疏，但其也保留了L₁范数弱稀疏性等问题。

为了克服上述现存技术的不足，本发明提出一种基于非凸组MCP正则项的多路径多层轻量化方法，用于对Actor-Critic网络进行剪枝，缓解网络参数冗余问题。

首先，分别将整体的Actor和Critic网络进行多路径多层结构化处理；其次，构建轻量化Actor-Critic网络目标函数：分别使用时间差分法和策略梯度法构建Critic网络Actor网络的目标函数，并在两者的目标函数中，对子路径间的权值参数采用非凸组MCP正则项进行组间稀疏约束，组内的权值参数采用L₂范数进行特征组选择；然后，针对Actor和Critic网络目标函数中组MCP正则项的非凸函数优化难点，本发明采用DC分解技术将非凸优化问题转换为凸优化问题进行求解，并使用Adam算法更新Critic网络和Actor网络权值参数；最后，分别对多路径多层结构化的Critic网络和Actor网络中整体权重值较小的子路径进行剪枝，从而缓解Actor-Critic网络的权值参数冗余问题，实现基于非凸组MCP正则项多路径多层Actor-Critic网络轻量化。具体内容如下：

1.多路径多层结构化网络

分别将整体的Actor和Critic网络按每层隐藏层神经元个数均分成n条并行的子路径，每条子路径定义为一组。每条子路径的隐藏层神经元个数相等，为原来完整网络隐藏层神经元个数的

输入层和输出层的神经元个数与原来整体网络相同，例如，一条结构为4-32-32-2的网络，可分为8条结构为4-4-4-2的子路径。各子路径的输入为原来完整网络的输入，子路径的输出在最后一层聚合，并通过激活函数得到最终输出。在进行一定次数的迭代更新后，若多路径多层结构化的Critic或Actor网络的子路径数量大于某个阈值，即对其进行剪枝，若某条子路径权值参数的期望小于某个阈值，即移除该子路径，并更新Critic或Actor网络。

2.轻量化Actor-Critic网络目标函数构建

2.1.Critic网络目标函数构建

定义在每一步中，智能体在环境中的状态为S，在状态中执行动作A，获得环境给出该动作的奖励R，折扣率为γ。智能体转移到下一状态S′，再执行下一个动作A′。构建Critic网络A(S,W)，W表示Critic网络的权值参数，近似每个状态S下到最终状态的奖励期望为V(S,W)，在当前网络下下一个状态S′到最终状态的奖励期望为V(S′,W)。因此，当前状态S的V(S,W)可换算为R+γV(S′,W)，并以此作为更新的目标值，计算TD-error如下：

δ＝R+γV(S′,W)-V(S,W)

其中δ代表TD-error，Critic网络通过最小化TD-error更新网络的权值参数，同时，采用非凸组MCP正则项对组间的权值参数进行稀疏约束，使属于同一路径内的权值参数同时趋向零点，子路径间实现组间稀疏，对组内的权值参数施加L₂范数实现特征组选择。因此，基于非凸组MCP正则项的多路径多层Critic网络目标函数如下：

其中，

为组MCP正则项，||·||₂为L₂范数，

为第g条子路径的第l层的权值矩阵，即

为组MCP正则项对各组子路径间的权值参数进行稀疏约束，L为子路径的总层数，G为子路径的总数，β＞0为正则项参数，E[·]代表期望。其中，组MCP正则项函数表达式如下：

其中，参数λ＞0，μ＞1。

2.2.Actor网络目标函数构建

构建Actor网络π(A|S，θ)，其中S表示Actor网络在当前环境下的状态，A表示在状态中执行的动作，θ表示Actor网络的权值参数，π(A|S，θ)近似在状态S下选择动作A的概率。将Actor的控制策略视为k步的策略过程，设Actor网络在该环境下的策略轨迹τ表示如下：

其中，S_t表示策略轨迹第t步时生成器的状态，A_t表示策略轨迹第t步时智能体选择的策略，R_t表示第t步时生成器采取策略A_t后获得的奖励；因此，获得该策略轨迹下的累积奖励表示如下：

设在某个Actor网络参数下该轨迹出现的概率为P(τ|θ)，计算累计奖励的期望值，如下：

其中P(S₁)和P(S_t+1|S_t)表示初始状态的概率和状态从S_t转移到S_t+1的概率，与网络的参数无关。Actor网络通过最大化累计奖励的期望值更新网络的权值参数。与Critic网络目标函数同理，采用非凸组MCP正则项对组间的权值参数进行稀疏约束，因此，基于非凸组MCP正则项的多路径多层Actor网络目标函数如下：

其中，

表示第g条子路径中第l层的权值矩阵，即

3.Actor-Critic网络更新和轻量化方案

3.1.Critic网络更新和轻量化方法

针对Critic网络中组MCP正则项的非凸函数优化难点，首先采用DC分解技术将目标函数分解为两个凸函数相减的形式，将原问题转化为凸函数进行求解；其次，使用Adam算法更新网络权值参数；最后，在训练过程中对整体权重值较小的子路径进行剪枝，具体如下：

(1)DC分解技术处理Critic网络目标函数

首先，将目标函数分解成两个凸函数g₁(W)和g₂(W)相减的形式，如下：

L_Critic(W)＝g₁(W)-g₂(W)

其中，

第一步，计算g₂(W)的导数z，即

第二步，由以下目标函数计算权重W，其中＜W，z＞表示W与z的内积运算：

W∈arg min_Wg₁(W)-＜W，z＞

代入g₁(W)的表达式，得：

W∈arg min_WJ(W)

其中，

(2)Adam算法更新Critic网络权值参数

为高效且稳定地更新Critic网络的权值参数，采用Adam算法对Critic网络进行训练。首先，在第t次迭代时，计算J(W)的梯度g_t(W)，并计算一阶矩估计m_t和二阶矩估计v_t，如下：

m_t＝β₁m_t-1+(1-β₁)g_t(W)

其中，β₁和β₂为一阶矩估计m_t和二阶矩估计v_t的衰减系数；

求出一阶矩估计m_t和二阶矩估计v_t的偏差修正

和

并得到权值参数的更新公式，如下：

其中α^W为学习率用于控制步长，ε表示数值计算稳定性参数，防止分母为0。

(3)Critic网络剪枝处理

最后，根据每条子路径的权值大小对多路径多层结构化的Critic网络进行剪枝。设限制最少子路径的阈值为T_W和权值剪枝阈值为T_p。在进行一定次数的迭代更新后，当Critic网络的所有子路径的数量大于T_W，则对网络进行剪枝。若第g组子路径的权值矩阵W_g的权值w的期望E_w[W_g]满足如下：

|E_w[W_g]|＜T_p

即移除该子路径，并更新Critic网络。

3.2Actor网络更新和轻量化方法

同理，在Actor网络π(A|S，θ)的更新过程中，首先，采用DC分解技术对目标函数进行处理；其次，使用Adam算法更新网络权值参数；最后，在训练过程中对整体权重值较小的子路径进行剪枝。

(1)DC分解技术处理Actor网络目标函数

与上述Critic网络算法设计同理，采用DC分解技术处理Actor网络的目标函数L_Actor(θ)，将其分解成两个凸函数g₁(θ)和g₂(θ)相减的形式，如下：

L_Actor(θ)＝g₁(θ)-g₂(θ)

计算g₂(θ)的导数z，卧

并由以下目标函数计算Actor网络权值参数θ：

(2)Adam算法更新Actor网络权值参数

求出上述DC分解技术处理后目标函数在第t次迭代更新的梯度g_t(θ)，并引入基线b用于减小方差，其中

表示函数对θ的梯度，如下：

为实现单步更新且减小方差，把Critic网络中计算的δ即TD-error返回Actor网络，用δ代替上式中的∑_τR(τ)-b，如下：

同理，利用g′_t(θ)计算出一阶矩估计m_t和二阶矩估计v_t，并求出一阶矩估计m_t和二阶矩估计v_t的偏差修正

和

得到Actor网络权值参数的更新公式，如下：

其中α^θ＞0表示网络更新的学习率，ε表示数值计算稳定性参数，防止分母为0。

(3)Actor网络剪枝处理

设限制最少子路径的阈值为T_θ和权重剪枝阈值为T_p，在进行一定次数的迭代更新后，当多路径多层结构化的Actor网络的所有子路径的数量大于T_θ，则对网络进行剪枝。若第g组子路径的权值矩阵θ_g的权值θ的期望E_θ[θ_g]满足如下：

|E_θ[θ_g]|＜T_p

即移除该子路径，并更新Actor网络。

基于轻量化Actor-Critic生成式对抗网络的医疗问答系统工作具体步骤如下：

步骤1，已知的医疗问答文本作为数据集，输入到生成器网络中并采用极大似然估计方法，与真实问答样本计算交叉熵损失，利用损失值更新网络参数，从而预训练生成器网络。

步骤2，把预训练好的生成器生成的问答样本作为假样本，已知的问答样本作为真样本，输入到判别器网络并使用生成对抗网络的损失函数计算判别器的损失函数，更新判别器参数，从而预训练判别器网络。

步骤3，构造含有初始单词的词向量矩阵；

步骤4，给定最大步的范围，即完整句子所需生成单词的个数，从当前步下既有的句子利用生成器(Actor)网络生成对应的下一个单词为动作A，既有的句子为当前状态S，拼接既有的句子和生成的下一个单词为新的句子，即下一个状态S′；

步骤5，将生成器(Actor)网络预测完整的句子输入到判别器网络(生成器通过蒙特卡洛搜索将句子补全)，得到当前动作A的奖励R；

步骤6，将当前状态S、下一个状态S′、奖励R输入到Critic网络，计算TD-error，同时更新Critic网络的权值参数；

步骤7，将Critic网络计算的TD-error反馈到生成器(Actor)网络，计算其梯度并更新权值参数；

步骤8，训练过程中采用非凸组MCP正则项多路径多层Actor-Critic网络轻量化方法对生成器(Actor)和Critic网络进行剪枝；

步骤9，生成器和判别器进行对抗训练，更新判别器网络参数，通常在进行多次生成器(Actor)网络训练后进行一次判别器参数更新。

附图1示出了本发明基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统模型训练结构图。参照附图1，模型包括轻量化Actor-Critic结构的生成器和判别器。判别器的训练将生成器(Actor)网络输出作为假样本，真实问答数据为真样本，输入真、假样本到判别器网络中，使用生成对抗网络的损失函数公式计算其损失函数，更新判别器参数，判别器输出真实样本的概率值并视为奖励。轻量化Actor-Critic结构的生成器训练主要分为两个部分：Critic网络更新部分和生成器(Actor)网络更新部分。其中，Critic网络更新部分使用时间差分法构建目标函数并采用Adam算法单步更新网络权值参数，并计算TD-error反馈到生成器(Actor)网络；生成器(Actor)网络更新部分采用策略梯度法构建目标函数，在更新参数时引入TD-error并采用Adam算法更新网络权重参数，训练生成器的策略π，即下一个生成的单词。同时，对两者的权值参数进行基于非凸组MCP正则项的多路径多层的稀疏化剪枝。

附图2示出了本发明基于非凸组MCP正则项的多路径多层化Actor/Critic网络结构图。在Actor和Critic网络训练的过程中，将Actor或Critic网络按每层隐藏层神经元个数均分成若干子路径，每条子路径定义为一组。每条子路径的输入为原整体网络的输入，子路径的输出在最后一层聚合，最后通过激活函数输出。同时，对各组子路径间的权值矩阵施加非凸组MCP正则项进行稀疏约束，使子路径间形成组间稀疏，对组内的权值矩阵施加L₂范数实现特征组选择。

附图3示出了本发明基于非凸组MCP正则项的多路径多层Actor-Critic网络轻量化方法的实例。图中红色实线和绿色虚线分别表示本发明与原始Actor-Critic算法应用于环境CartPole-v1的训练曲线，本发明的训练性能优于原始Actor-Critic算法。此外，原始的Actor-Critic网络权重参数占用的内存为71.7KB，轻量化后的Actor-Critic网络权重参数占用内存大小为13.5KB。

Claims

1.一种基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统，其特征在于，包括：

轻量化Actor-Critic结构的生成器和判别器；

最后，对生成器网络和Critic网络进行剪枝处理。

2.根据权利要求1所述的基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统，其特征在于，所述判别器网络为二分类器，结构为卷积神经网络；将生成器网络输出的问答样本作为假样本，判别器网络使用生成式对抗网络的损失函数计算判别器的损失函数，更新判别器参数。

3.根据权利要求1所述的基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统，其特征在于，生成器网络采用Seq2Seq模型的问答结构，其网络结构由递归神经网络和全连接层组成，包括编码器和解码器，通过编码-解码过程生成医疗问答；其中，编码器将输入的自然语言医疗问题映射成词向量表示，解码器将映射成的词向量作为输入，然后通过全连接层输出词库里每个单词的概率值，最后通过的激活函数为Softmax。

4.根据权利要求1所述的基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统，其特征在于，首先，分别将整体的Actor和Critic网络进行多路径多层结构化处理；其次，构建轻量化Actor-Critic网络目标函数：分别使用时间差分法和策略梯度法构建Critic网络Actor网络的目标函数，并在两者的目标函数中，对子路径间的权值参数采用非凸组MCP正则项进行组间稀疏约束，组内的权值参数采用L₂范数进行特征组选择；然后，针对Actor和Critic网络目标函数中组MCP正则项的非凸函数优化难点，采用DC分解技术将非凸优化问题转换为凸优化问题进行求解，并使用Adam算法更新Critic网络和Actor网络权值参数；最后，分别对多路径多层结构化的Critic网络和Actor网络中整体权重值较小的子路径进行剪枝，从而缓解Actor-Critic网络的权值参数冗余问题，实现基于非凸组MCP正则项多路径多层Actor-Critic网络轻量化。

5.根据权利要求4所述的基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统，其特征在于，所述将整体的Actor和Critic网络进行多路径多层结构化处理，包括：

6.根据权利要求1所述的基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统，其特征在于，所述Critic网络目标函数表示为：

其中，V(S，W)表示Critic网络，W表示Critic网络的权值参数，近似每个状态S下到最终状态的奖励期望为V(S，W)，在当前网络下下一个状态S′到最终状态的奖励期望为V(S′，W)，能体在环境中的状态为S，在状态中执行动作A，获得环境给出该动作的奖励R，折扣率为γ。智能体转移到下一状态S′，再执行下一个动作A′；

为组MCP正则项函数表达式。

7.根据权利要求1所述的基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统，其特征在于，所述Actor网络目标函数表示为：

其中：

τ＝{S₁，A₁，R₁，S₂，A₂，R₂，...，S_t，A_t，R_t，...，S_k，A_k，R_k}

为第g条子路径中第l层的权值矩阵，即