CN109817329B

CN109817329B - 一种医疗问诊对话系统以及应用于该系统的强化学习方法

Info

Publication number: CN109817329B
Application number: CN201910054441.2A
Authority: CN
Inventors: 周启贤; 许琳; 詹巽霖; 梁小丹; 林倞
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2021-06-29
Anticipated expiration: 2039-01-21
Also published as: CN109817329A

Abstract

本发明公开了一种医疗问诊对话系统以及应用于该系统的强化学习方法，涉及医疗信息技术领域，本发明包括自然语言理解模块：分类用户的意图，填充槽值组成结构化的语义帧；对话管理模块：通过机器人代理和用户进行交互，输入对话的状态，通过决策网络对语义帧进行动作决策，输出最终的系统动作选择；用户模拟器：用于与对话管理模块进行自然语言交互，输出用户动作选择；自然语言生成模块：接收系统动作选择和用户动作选择，使用基于模板的方法生成类似人类语言的句子，供用户查看，本发明引入疾病和症状之间的医疗知识信息作为指导，通过与模拟病人不断交互丰富问诊历史经验，提高询问症状的合理性和诊断疾病的准确性，使得诊断结果可信度更高。

Description

一种医疗问诊对话系统以及应用于该系统的强化学习方法

技术领域

本发明涉及医疗信息技术领域，更具体的是涉及一种医疗问诊对话系统以及应用于该系统的强化学习方法。

背景技术

看病难一直是我国医疗体系系统最突出的问题，其本质是医患比过低，我国是世界第一人口大国，医疗是人们生活的最基本需求，然而在如此大的人口体量下，看病难便自然成为一个尖锐的问题。老百姓发烧感冒去看医生往往需要等一两个小时，然后和医生聊不上几句话就出来了，所以即使是小病也需要耗费半天的时间，但真正诊断的时间只有短短几分钟。随着大数据和互联网的发展，人们更多地通过搜索引擎来完成疾病的初步自我诊断，然而搜索引擎搜索到的是网上存在的相关案例的问答结果，这种诊断的结果可能由于不存在与用户完全一致的症状表现而导致诊断结果有偏差甚至是错误，而且现存的线下问诊网站医生的素质参差不齐，有一些医生可能会给出错误的诊断结果，所以构建一个具有知识推理能力的自动诊断对话系统是亟待解决的一个需求。

传统的诊断系统并不具备对话交互功能，本质是一个医学领域的专家系统，其内部有许许多多预先设立的医学诊断规则，用户通过填写问卷的方式向系统输入目前的症状表现，系统通过内部的规则判定，得出诊断结果，这种过程比较繁杂，对用户不友好。

近年来对话系统作为一种新型的下一代人机交互方式取得了长足的发展，各种虚拟助理逐渐商用落地，对话系统是自然语言处理的一个重要领域，其可以分为闲聊型对话系统和任务型对话系统，任务型对话系统的主要作用是计算机通过与用户之间的交互帮助用户完成特定的任务，比如电影院订票、餐厅订票、在线购物等等，闲聊型对话系统可以与用户在开放域中聊天，相比于特定人物型的对话系统，闲聊对话系统更具有挑战性，技术也还不成熟。

结合问诊系统精确问诊能力以及对话系统便捷交互能力，一种能与用户自由对话并从中收集用户症状信息的问诊对话系统引起了人们研究的兴趣，问诊对话系统本质是一个任务型的对话系统，系统主要任务是：根据用户的自我陈述，系统通过与用户的交流获得诊断所需要的症状信息，然后自动地作出一个诊断意见。这能够有效的简化诊断流程并且减少从病人处收集信息的成本，此外医疗对话系统作出的诊断结果也可以协助医生更加高效地作出诊断。由于疾病和各种症状之间的复杂联系，基于当前对话历史，自我诊断对话系统接下来要询问的症状或者作出的诊断往往需要症状之间的推理知识，而这种推理能力的强弱将直接影响到诊断的准确率。

目前强化学习方法广泛应用于策略决策任务中，其本质是通过强化学习方法与环境交互，形成一个策略网络，能对各种状态作出比较合理的决策，强化学习可以应用于一切规则固定的评价客观的策略决策任务中，比如训练游戏智能体、棋类游戏智能体、对话系统中的对话管理、机器人的任务规划等，传统的决策网络DQN一般是一个多层感知器，通过与环境千千万万次的交互试错，学习出在不同情况(状态)作出对最后结果最优的决策。

目前常见的问诊系统有以下三种：

1、最常见的问诊系统是以网站或者公众号为载体的在线问诊平台，平台建立了医生与患者在线上的联系，使得患者在询问一些小病或者不太严重的情况时，不必要去医院，只需要在网上问诊即可，但这种方式还是需要耗费医生的工作时间，并没有减轻医生的工作，在医患比突出的今天，并没有多大的意义；

2、另一种问诊系统或者是分诊系统一般不支持自由对话，用户通过填写问卷的形式描述自己的症状，然后后台诊断系统根据规则匹配得到诊断信息，返回给用户，但这种方式需要规则的匹配，用户需要填写固定的表格，灵活度不高；

3、还有一种问诊对话系统通过接收语音输入，语音转换成文字，通过自然语言理解技术抽取关键词，然后通过关键词匹配得到诊断意见，这种问诊对话系统可以接到网页、APP或者微信公众号，灵活度高，但基于关键词匹配得到的结果可解释性不强，匹配结果可能出错。

发明内容

本发明的目的在于：为了解决现有的问诊系统通过自然语言理解技术抽取关键词，然后通过关键词匹配得到诊断意见，但基于关键词匹配得到的结果可解释性不强，匹配结果可能出错的问题，本发明提供一种医疗问诊对话系统以及应用于该系统的强化学习方法，该方法能够有效地引入疾病和症状之间的医疗知识信息作为指导，同时还能通过与模拟病人的不断交互丰富自己的问诊历史经验，提高询问症状的合理性和诊断疾病的准确性，使得系统得出的诊断结果可信度更高。

本发明为了实现上述目的具体采用以下技术方案：

一种医疗问诊对话系统，包括自然语言理解模块、对话管理模块、用户模拟器和自然语言生成模块，

自然语言理解模块：根据用户自我陈述的文本序列，提取用户的意图，并对文本序列中的每个词进行标注，从标注中填充槽值组成结构化的语义帧输入对话管理模块；

所述用户具有四种类型的意图，分别是“请求疾病”、“确认症状”、“否认症状”和“不确定症状”；在填充槽值之前，对疾病、症状等医学术语进行归一化处理；

对话管理模块：通过机器人代理和用户进行交互，输入对话的状态，通过基于融合知识推理和关系增强的决策网络对接收到的语义帧进行决策，得到最终的系统动作选择a_t输出至用户模拟器和自然语言生成模块；

用户模拟器：为了训练端到端的对话系统，建立基于规则的用户模拟器，用于与对话管理模块进行自然语言交互，输出用户动作选择至自然语言生成模块；具体的，对话管理模块根据当前状态作出回复，用户模拟器根据结果给对话管理模块进行奖励或惩罚，以此来训练对话管理模块，对话管理模块控制整个对话流程，最后得出诊断结果，用户模拟器模拟用户给出反馈，训练对话管理模块；当系统作出正确的诊断时，对话成功终止；当系统作出错误的诊断或对话轮数达到设定的阈值，则对话失败终止；

自然语言生成模块：接收到对话管理模块输出的系统动作选择和用户模拟器输出的用户动作选择后，使用基于模板的方法生成类似人类语言的句子，供用户查看。

进一步的，所述决策网络包括基本DQN分支、关系增强分支和知识图谱分支，

基本DQN分支：包括一个隐层的多层感知器，通过多层感知器输出一个粗略的动作选择

所述多层感知器在对话交互过程中不断优化自身参数；

其中，MLP代表多层感知器；

关系增强分支：包括用于表示不同动作之间依赖关系的关系增强矩阵R∈R^DXD，所述动作包括问候语、所有症状的询问以及所有疾病的诊断，所述关系增强矩阵使用疾病与症状共同出现的条件概率初始化，采用后馈传播的方式进行学习调整，对基本DQN分支输出的动作选择

进行加权求和，得到调整后的动作选择

其数学表达式为：

知识图谱分支：以疾病和症状之间的条件概率作为权重，所述知识图谱中包括分别表示M种疾病和N种症状的两类节点，疾病节点和症状节点之间的边有两个权重，一个是疾病到症状的条件概率P(dis|sym)＝R^M×N，另一个是症状到疾病的条件概率P(sym|dis)＝R^N×M，然后计算疾病概率P(dis)和症状概率P(sym)，将疾病概率P(dis)和症状概率P(sym)拼接，得到知识图谱分支的动作选择

进一步的，对动作选择

和动作选择

采用sigmoid激活函数归一化，然后将归一化后的动作选择

和动作选择

与知识图谱分支的动作选择

相加得到最终的系统动作选择a_t。

进一步的，所述自然语言理解模块中采用双向长短期记忆网络，使用监督学习的方式训练双向长短期记忆网络模型，以BIO形式对文本序列中的每个词进行标注。

进一步的，所述对话管理模块包括一个基于规则的会话状态跟踪器，提取完用户的意图以及填充好槽值后，通过会话状态跟踪器存储和更新症状的状态，所述会话状态跟踪器采用固定大小的症状向量来对症状状态进行表示，具体为：“1”表示有这种症状，“-1”表示没有这种症状，“-2”表示不确定是否有这种症状，“0”表示没有提到这种症状；在每一轮对话中，采用对话状态s_t保存机器人代理和用户的之前轮动作、已经知道的症状和当前轮的信息。

进一步的，对于机器人代理有四种类型的动作，分别是“诊断疾病”、“询问症状”、“感谢”和“关闭对话”，总的动作空间大小为D＝num_greeting+M+N；对于用户有五种类型的动作，分别是“请求疾病”、“确认症状”、“否认症状”、“不确定症状”和“关闭”。

进一步的，所述系统设置有奖励机制，利用Q(s_t,a_t|θ)来表示在会话状态s_t下采取系统动作选择a_t所获得的奖励的衰减加权和，根据贝尔曼公式，Q值更新的数学表达式为：

其中，θ′是目标网络的参数，γ是衰减系数，r_t是当前会话状态s_t下采取系统动作选择a_t的即时回报，

是下一会话状态s_t+1的最大回报，使用贪心策略来训练每个阶段，将每个时间步的经验e_t(s_t,a_t,r_t,s_t+1)存储在经验池中，当当前网络的表现比之前的模型好时，更新经验池的存储内容。

进一步的，所述疾病概率P(dis)由症状先验概率P_prior(sym)乘以疾病到症状的条件概率P(dissym)获得，表达式为：

P(dis)＝P(dis|sym)·P_prior(sym)

其中，症状先验概率P_prior(sym)∈R^N，计算方式为：若用户存在提及到的症状则其值为1，若用户不存在提及的症状则其值为-1，没有提及或不确定的症状则设置为它的先验概率，所述先验概率由数据集统计得到；

所述症状概率P(sym)由疾病概率P(dis)乘以症状到疾病的条件概率P(sym|dis)获得，表达式为：

P(sym)＝P(sym|dis)·P(dis)。

进一步的，所述用户模拟器维持用户目标，所述用户目标包括“所患疾病”、“自我陈述”、“隐式症状”和“请求槽值”，“所患疾病”代表用户患上的疾病；“自我陈述”代表用户最初的自我陈述；“隐式症状”代表在用户与机器人代理之间的交流中涉及到的症状；“请求槽值”代表用户需要请求询问的疾病。当系统询问用户模拟器一个症状的时候，用户模拟器将会根据自己的用户目标进行回答，若存在这个症状则回答“有”；若没有发生这个症状则回答“没有”；对于没有提及到的症状则回答“不确定”。

一种应用于医疗问诊对话系统的强化学习方法，包括如下步骤：

S1：建立一个模拟病人，所述模拟病人具有一定数量的训练样本，每次训练随机选取一个训练样本，并且所述模拟病人具有特定的用户目标，由模拟病人给出其病情报告；

S2：初始化自然语言理解模块的双向长短期记忆网络和对话管理模块中的DQN以及关系增强矩阵中的参数，所述参数包括双向长短期记忆网络中每层连接的权重和偏置以及关系增强矩阵中的权值；

S3：建立一个机器人代理，所述机器人代理根据与模拟病人的对话历史向模拟病人作出自己的动作应答，所述应答基于自然语言理解模块、基于决策网络的对话管理模块和自然语言生成模块；

S4：模拟病人根据机器人代理的应答从用户目标中找到相应的内容作出回答，并根据机器人代理疾病诊断结果的正误给出奖励值；

S5：在模拟病人和机器人代理的对话过程中，采用前向和后向算法，模拟病人陈述症状，机器人代理采取动作询问疾病或作出诊断，模拟病人根据诊断结果返回奖励值，经过数轮对话直至诊断结束。

本发明的有益效果如下：

1、相比于一般的强化学习方法用一个多层感知器作为决策函数，本发明的对话管理模块通过基于融合知识推理和关系增强的决策网络对接收到的语义帧进行决策，在问诊对话系统领域能得到更加合理的结果，比如当知道用户已有的症状是喉咙痛、咳嗽、流涕时，由于知识图谱分支以及关系增强分支，本发明的决策网络倾向于作出询问用户是否有发烧作为下一句话，而一般基于强化学习的决策函数不具备这样的推理和相关关系推断能力。

2、本发明的知识图谱分支基于贝叶斯推理，能够辅助增强决策网络的推理能力，症状节点和疾病节点之间的边表示他们之间的条件概率，在某个对话状态下，系统维护了一个用户有哪些症状的状态列表，对话没有涉及或者用户回答不清楚的症状的概率为这个症状发生的先验概率，疾病概率为与这个疾病相关的症状概率乘以条件概率之和，当得出所有候选疾病的概率后，其他未知症状的概率为疾病概率乘以对应的条件概率；这个过程与医生的思考过程是一致的，在与患者的对话过程中，医生有一些候选的可能的疾病，然后通过问询患者相关的症状逐步排除候选疾病，得到确诊结果，而本发明通过知识图谱分支进行疾病的确定，相比于现有的问诊对话系统能够提高询问症状的合理性和诊断疾病的准确性，使得系统得出的诊断结果可信度更高。

3、本发明采用双线性LSTM识别用户的意图和槽值，基于强化学习方法训练对话管理模块决策函数，决策函数融合多层感知器、关系增强分支和知识图谱分支，对数据集不同症状和疾病的关系建模，并且引入医学知识引导，使得决策更精准。

附图说明

图1是本发明的系统构架示意图。

图2是本发明对话管理模块的框架示意图。

图3是本发明实施例中用户目标的示意图。

具体实施方式

为了本技术领域的人员更好的理解本发明，下面结合附图和以下实施例对本发明作进一步详细描述。

实施例1

如图1所示，本实施例提供一种医疗问诊对话系统，包括自然语言理解模块、对话管理模块、用户模拟器和自然语言生成模块，

所述自然语言理解模块中采用双向长短期记忆网络，使用监督学习的方式训练双向长短期记忆网络模型，以BIO形式对文本序列中的每个词进行标注。

如图2所示，本实施例中决策网络包括基本DQN分支、关系增强分支和知识图谱分支，

所述多层感知器在对话交互过程中不断优化自身参数；

其中，MLP代表多层感知器；

进行加权求和，得到调整后的动作选择

其数学表达式为：

所述疾病概率P(dis)由症状先验概率P_prior(sym)乘以疾病到症状的条件概率P(dis|sym)获得，表达式为：

P(dis)＝P(dis|sym)·P_prior(sym)

其中，症状先验概率P_prior(sym)∈R^N，计算方式为：若用户存在提及到的症状则其值为1，若用户不存在提及的症状则其值为-1，能够降低后面与该症状相关联的疾病的概率，没有提及或不确定的症状则设置为它的先验概率，本实施例中先验概率由数据集统计得到；

P(sym)＝P(sym|dis)·P(dis)；

对动作选择

和动作选择

采用sigmoid激活函数归一化，然后将归一化后的动作选择

和动作选择

与知识图谱分支的动作选择

相加得到最终的系统动作选择a_t。

对话管理模块包括一个基于规则的会话状态跟踪器，提取完用户的意图以及填充好槽值后，通过会话状态跟踪器存储和更新症状的状态，所述会话状态跟踪器采用固定大小的症状向量来对症状状态进行表示，具体为：“1”表示有这种症状，“-1”表示没有这种症状，“-2”表示不确定是否有这种症状，“0”表示没有提到这种症状；在每一轮对话中，采用对话状态s_t保存机器人代理和用户的之前轮动作、已经知道的症状和当前轮的信息；

机器人代理有四种类型的动作，分别是“诊断疾病”、“询问症状”、“感谢”和“关闭对话”，总的动作空间大小为D＝num_greeting+M+N；对于用户有五种类型的动作，分别是“请求疾病”、“确认症状”、“否认症状”、“不确定症状”和“关闭”；

本实施例的系统设置有奖励机制，对于正确的诊断的奖励为+44，错误的诊断的奖励为-22，并设置每进行一轮对话的奖励为-1；利用Q(s_t,a_t|θ)来表示在会话状态s_t下采取系统动作选择a_t所获得的奖励的衰减加权和，根据贝尔曼公式，Q值更新的数学表达式为：

是下一会话状态s_t+1的最大回报，使用贪心策略来训练每个阶段，将每个时间步的经验e_t(s_t,a_t,r_t,s_t+1)存储在经验池中，当当前网络的表现比之前的模型好时，更新经验池的存储内容；

如图3所示，所述用户模拟器维持用户目标，所述用户目标包括“所患疾病”、“自我陈述”、“隐式症状”和“请求槽值”，“所患疾病”代表用户患上的疾病；“自我陈述”代表用户最初的自我陈述；“隐式症状”代表在用户与机器人代理之间的交流中涉及到的症状；“请求槽值”代表用户需要请求询问的疾病。当系统询问用户模拟器一个症状的时候，用户模拟器将会根据自己的用户目标进行回答，若存在这个症状则回答“有”；若没有发生这个症状则回答“没有”；对于没有提及到的症状则回答“不确定”。

自然语言生成模块：接收到对话管理模块输出的系统动作选择和用户模拟器输出的用户动作选择后，使用基于模板的方法生成用户能够明白的类似人类语言的句子，供用户查看。

基于上述系统，本实施例还提供一种应用于医疗问诊对话系统的强化学习方法，包括如下步骤：

本实施例的方法能够有效地引入疾病和症状之间的医疗知识信息作为指导，同时还能通过与模拟病人的不断交互丰富自己的问诊历史经验，提高询问症状的合理性和诊断疾病的准确性，使得系统得出的诊断结果可信度更高。

值得一提的是，本实施例中融合知识推理和关系增强的决策网络能够用于任意强化学习任务中，比如应用于游戏领域以决策游戏角色的下一个动作、应用于自动驾驶领域以决策车辆的行车路线等。

以上所述，仅为本发明的较佳实施例，并不用以限制本发明，本发明的专利保护范围以权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种医疗问诊对话系统，其特征在于：包括自然语言理解模块、对话管理模块、用户模拟器和自然语言生成模块，

对话管理模块：通过机器人代理和用户进行交互，输入对话的状态，通过基于融合知识推理和关系增强的决策网络对接收到的语义帧进行动作决策，得到最终的系统动作选择a_t输出至用户模拟器和自然语言生成模块；

用户模拟器：为了训练端到端的对话系统，建立基于规则的用户模拟器，用于与对话管理模块进行自然语言交互，输出用户动作选择至自然语言生成模块；

自然语言生成模块：接收到对话管理模块输出的系统动作选择和用户模拟器输出的用户动作选择后，使用基于模板的方法生成类似人类语言的句子，供用户查看；

所述决策网络包括基本DQN分支、关系增强分支和知识图谱分支，

所述多层感知器在对话交互过程中不断优化自身参数；

其中，MLP代表多层感知器；

进行加权求和，得到调整后的动作选择

其数学表达式为：

2.根据权利要求1所述的一种医疗问诊对话系统，其特征在于：对动作选择

和动作选择

采用sigmoid激活函数归一化，然后将归一化后的动作选择

和动作选择

与知识图谱分支的动作选择

相加得到最终的系统动作选择a_t。

3.根据权利要求1所述的一种医疗问诊对话系统，其特征在于：所述自然语言理解模块中采用双向长短期记忆网络，使用监督学习的方式训练双向长短期记忆网络模型，以BIO形式对文本序列中的每个词进行标注。

4.根据权利要求1所述的一种医疗问诊对话系统，其特征在于：所述对话管理模块包括一个基于规则的会话状态跟踪器，提取完用户的意图以及填充好槽值后，通过会话状态跟踪器存储和更新症状的状态，所述会话状态跟踪器采用固定大小的症状向量来对症状状态进行表示；在每一轮对话中，采用对话状态s_t保存机器人代理和用户的之前轮动作、已经知道的症状和当前轮的信息。

5.根据权利要求4所述的一种医疗问诊对话系统，其特征在于：对于机器人代理有四种类型的动作，分别是“诊断疾病”、“询问症状”、“感谢”和“关闭对话”，总的动作空间大小为D＝num_greeting+M+N；对于用户有五种类型的动作，分别是“请求疾病”、“确认症状”、“否认症状”、“不确定症状”和“关闭”。

6.根据权利要求5所述的一种医疗问诊对话系统，其特征在于：所述系统设置有奖励机制，利用Q(s_t,a_t|θ)来表示在对话状态s_t下采取系统动作选择a_t所获得的奖励的衰减加权和，根据贝尔曼公式，Q值更新的数学表达式为：

7.根据权利要求1所述的一种医疗问诊对话系统，其特征在于：所述疾病概率P(dis)由症状先验概率P_prior(sym)乘以疾病到症状的条件概率P(dis|sym)获得，表达式为：

P(dis)＝P(dis|sym)·P_prior(sym)

P(sym)＝P(sym|dis)×P(dis)。

8.根据权利要求1所述的一种医疗问诊对话系统，其特征在于：所述用户模拟器维持用户目标，所述用户目标包括“所患疾病”、“自我陈述”、“隐式症状”和“请求槽值”，“所患疾病”代表用户患上的疾病；“自我陈述”代表用户最初的自我陈述；“隐式症状”代表在用户与机器人代理之间的交流中涉及到的症状；“请求槽值”代表用户需要请求询问的疾病。

9.一种利用权利要求1所述医疗问诊对话系统的强化学习方法，其特征在于，包括如下步骤：