CN109817329B - 一种医疗问诊对话系统以及应用于该系统的强化学习方法 - Google Patents

一种医疗问诊对话系统以及应用于该系统的强化学习方法 Download PDF

Info

Publication number
CN109817329B
CN109817329B CN201910054441.2A CN201910054441A CN109817329B CN 109817329 B CN109817329 B CN 109817329B CN 201910054441 A CN201910054441 A CN 201910054441A CN 109817329 B CN109817329 B CN 109817329B
Authority
CN
China
Prior art keywords
user
symptoms
symptom
probability
sym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910054441.2A
Other languages
English (en)
Other versions
CN109817329A (zh
Inventor
周启贤
许琳
詹巽霖
梁小丹
林倞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DMAI Guangzhou Co Ltd
Original Assignee
DMAI Guangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DMAI Guangzhou Co Ltd filed Critical DMAI Guangzhou Co Ltd
Priority to CN201910054441.2A priority Critical patent/CN109817329B/zh
Publication of CN109817329A publication Critical patent/CN109817329A/zh
Application granted granted Critical
Publication of CN109817329B publication Critical patent/CN109817329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种医疗问诊对话系统以及应用于该系统的强化学习方法,涉及医疗信息技术领域,本发明包括自然语言理解模块:分类用户的意图,填充槽值组成结构化的语义帧;对话管理模块:通过机器人代理和用户进行交互,输入对话的状态,通过决策网络对语义帧进行动作决策,输出最终的系统动作选择;用户模拟器:用于与对话管理模块进行自然语言交互,输出用户动作选择;自然语言生成模块:接收系统动作选择和用户动作选择,使用基于模板的方法生成类似人类语言的句子,供用户查看,本发明引入疾病和症状之间的医疗知识信息作为指导,通过与模拟病人不断交互丰富问诊历史经验,提高询问症状的合理性和诊断疾病的准确性,使得诊断结果可信度更高。

Description

一种医疗问诊对话系统以及应用于该系统的强化学习方法
技术领域
本发明涉及医疗信息技术领域,更具体的是涉及一种医疗问诊对话系统以及应用于该系统的强化学习方法。
背景技术
看病难一直是我国医疗体系系统最突出的问题,其本质是医患比过低,我国是世界第一人口大国,医疗是人们生活的最基本需求,然而在如此大的人口体量下,看病难便自然成为一个尖锐的问题。老百姓发烧感冒去看医生往往需要等一两个小时,然后和医生聊不上几句话就出来了,所以即使是小病也需要耗费半天的时间,但真正诊断的时间只有短短几分钟。随着大数据和互联网的发展,人们更多地通过搜索引擎来完成疾病的初步自我诊断,然而搜索引擎搜索到的是网上存在的相关案例的问答结果,这种诊断的结果可能由于不存在与用户完全一致的症状表现而导致诊断结果有偏差甚至是错误,而且现存的线下问诊网站医生的素质参差不齐,有一些医生可能会给出错误的诊断结果,所以构建一个具有知识推理能力的自动诊断对话系统是亟待解决的一个需求。
传统的诊断系统并不具备对话交互功能,本质是一个医学领域的专家系统,其内部有许许多多预先设立的医学诊断规则,用户通过填写问卷的方式向系统输入目前的症状表现,系统通过内部的规则判定,得出诊断结果,这种过程比较繁杂,对用户不友好。
近年来对话系统作为一种新型的下一代人机交互方式取得了长足的发展,各种虚拟助理逐渐商用落地,对话系统是自然语言处理的一个重要领域,其可以分为闲聊型对话系统和任务型对话系统,任务型对话系统的主要作用是计算机通过与用户之间的交互帮助用户完成特定的任务,比如电影院订票、餐厅订票、在线购物等等,闲聊型对话系统可以与用户在开放域中聊天,相比于特定人物型的对话系统,闲聊对话系统更具有挑战性,技术也还不成熟。
结合问诊系统精确问诊能力以及对话系统便捷交互能力,一种能与用户自由对话并从中收集用户症状信息的问诊对话系统引起了人们研究的兴趣,问诊对话系统本质是一个任务型的对话系统,系统主要任务是:根据用户的自我陈述,系统通过与用户的交流获得诊断所需要的症状信息,然后自动地作出一个诊断意见。这能够有效的简化诊断流程并且减少从病人处收集信息的成本,此外医疗对话系统作出的诊断结果也可以协助医生更加高效地作出诊断。由于疾病和各种症状之间的复杂联系,基于当前对话历史,自我诊断对话系统接下来要询问的症状或者作出的诊断往往需要症状之间的推理知识,而这种推理能力的强弱将直接影响到诊断的准确率。
目前强化学习方法广泛应用于策略决策任务中,其本质是通过强化学习方法与环境交互,形成一个策略网络,能对各种状态作出比较合理的决策,强化学习可以应用于一切规则固定的评价客观的策略决策任务中,比如训练游戏智能体、棋类游戏智能体、对话系统中的对话管理、机器人的任务规划等,传统的决策网络DQN一般是一个多层感知器,通过与环境千千万万次的交互试错,学习出在不同情况(状态)作出对最后结果最优的决策。
目前常见的问诊系统有以下三种:
1、最常见的问诊系统是以网站或者公众号为载体的在线问诊平台,平台建立了医生与患者在线上的联系,使得患者在询问一些小病或者不太严重的情况时,不必要去医院,只需要在网上问诊即可,但这种方式还是需要耗费医生的工作时间,并没有减轻医生的工作,在医患比突出的今天,并没有多大的意义;
2、另一种问诊系统或者是分诊系统一般不支持自由对话,用户通过填写问卷的形式描述自己的症状,然后后台诊断系统根据规则匹配得到诊断信息,返回给用户,但这种方式需要规则的匹配,用户需要填写固定的表格,灵活度不高;
3、还有一种问诊对话系统通过接收语音输入,语音转换成文字,通过自然语言理解技术抽取关键词,然后通过关键词匹配得到诊断意见,这种问诊对话系统可以接到网页、APP或者微信公众号,灵活度高,但基于关键词匹配得到的结果可解释性不强,匹配结果可能出错。
发明内容
本发明的目的在于:为了解决现有的问诊系统通过自然语言理解技术抽取关键词,然后通过关键词匹配得到诊断意见,但基于关键词匹配得到的结果可解释性不强,匹配结果可能出错的问题,本发明提供一种医疗问诊对话系统以及应用于该系统的强化学习方法,该方法能够有效地引入疾病和症状之间的医疗知识信息作为指导,同时还能通过与模拟病人的不断交互丰富自己的问诊历史经验,提高询问症状的合理性和诊断疾病的准确性,使得系统得出的诊断结果可信度更高。
本发明为了实现上述目的具体采用以下技术方案:
一种医疗问诊对话系统,包括自然语言理解模块、对话管理模块、用户模拟器和自然语言生成模块,
自然语言理解模块:根据用户自我陈述的文本序列,提取用户的意图,并对文本序列中的每个词进行标注,从标注中填充槽值组成结构化的语义帧输入对话管理模块;
所述用户具有四种类型的意图,分别是“请求疾病”、“确认症状”、“否认症状”和“不确定症状”;在填充槽值之前,对疾病、症状等医学术语进行归一化处理;
对话管理模块:通过机器人代理和用户进行交互,输入对话的状态,通过基于融合知识推理和关系增强的决策网络对接收到的语义帧进行决策,得到最终的系统动作选择at输出至用户模拟器和自然语言生成模块;
用户模拟器:为了训练端到端的对话系统,建立基于规则的用户模拟器,用于与对话管理模块进行自然语言交互,输出用户动作选择至自然语言生成模块;具体的,对话管理模块根据当前状态作出回复,用户模拟器根据结果给对话管理模块进行奖励或惩罚,以此来训练对话管理模块,对话管理模块控制整个对话流程,最后得出诊断结果,用户模拟器模拟用户给出反馈,训练对话管理模块;当系统作出正确的诊断时,对话成功终止;当系统作出错误的诊断或对话轮数达到设定的阈值,则对话失败终止;
自然语言生成模块:接收到对话管理模块输出的系统动作选择和用户模拟器输出的用户动作选择后,使用基于模板的方法生成类似人类语言的句子,供用户查看。
进一步的,所述决策网络包括基本DQN分支、关系增强分支和知识图谱分支,
基本DQN分支:包括一个隐层的多层感知器,通过多层感知器输出一个粗略的动作选择
Figure BDA0001951941770000031
所述多层感知器在对话交互过程中不断优化自身参数;
Figure BDA0001951941770000032
其中,MLP代表多层感知器;
关系增强分支:包括用于表示不同动作之间依赖关系的关系增强矩阵R∈RDXD,所述动作包括问候语、所有症状的询问以及所有疾病的诊断,所述关系增强矩阵使用疾病与症状共同出现的条件概率初始化,采用后馈传播的方式进行学习调整,对基本DQN分支输出的动作选择
Figure BDA0001951941770000033
进行加权求和,得到调整后的动作选择
Figure BDA0001951941770000034
其数学表达式为:
Figure BDA0001951941770000035
知识图谱分支:以疾病和症状之间的条件概率作为权重,所述知识图谱中包括分别表示M种疾病和N种症状的两类节点,疾病节点和症状节点之间的边有两个权重,一个是疾病到症状的条件概率P(dis|sym)=RM×N,另一个是症状到疾病的条件概率P(sym|dis)=RN×M,然后计算疾病概率P(dis)和症状概率P(sym),将疾病概率P(dis)和症状概率P(sym)拼接,得到知识图谱分支的动作选择
Figure BDA0001951941770000036
进一步的,对动作选择
Figure BDA0001951941770000037
和动作选择
Figure BDA0001951941770000038
采用sigmoid激活函数归一化,然后将归一化后的动作选择
Figure BDA0001951941770000039
和动作选择
Figure BDA00019519417700000310
与知识图谱分支的动作选择
Figure BDA00019519417700000311
相加得到最终的系统动作选择at
进一步的,所述自然语言理解模块中采用双向长短期记忆网络,使用监督学习的方式训练双向长短期记忆网络模型,以BIO形式对文本序列中的每个词进行标注。
进一步的,所述对话管理模块包括一个基于规则的会话状态跟踪器,提取完用户的意图以及填充好槽值后,通过会话状态跟踪器存储和更新症状的状态,所述会话状态跟踪器采用固定大小的症状向量来对症状状态进行表示,具体为:“1”表示有这种症状,“-1”表示没有这种症状,“-2”表示不确定是否有这种症状,“0”表示没有提到这种症状;在每一轮对话中,采用对话状态st保存机器人代理和用户的之前轮动作、已经知道的症状和当前轮的信息。
进一步的,对于机器人代理有四种类型的动作,分别是“诊断疾病”、“询问症状”、“感谢”和“关闭对话”,总的动作空间大小为D=num_greeting+M+N;对于用户有五种类型的动作,分别是“请求疾病”、“确认症状”、“否认症状”、“不确定症状”和“关闭”。
进一步的,所述系统设置有奖励机制,利用Q(st,at|θ)来表示在会话状态st下采取系统动作选择at所获得的奖励的衰减加权和,根据贝尔曼公式,Q值更新的数学表达式为:
Figure BDA0001951941770000041
其中,θ′是目标网络的参数,γ是衰减系数,rt是当前会话状态st下采取系统动作选择at的即时回报,
Figure BDA0001951941770000042
是下一会话状态st+1的最大回报,使用贪心策略来训练每个阶段,将每个时间步的经验et(st,at,rt,st+1)存储在经验池中,当当前网络的表现比之前的模型好时,更新经验池的存储内容。
进一步的,所述疾病概率P(dis)由症状先验概率Pprior(sym)乘以疾病到症状的条件概率P(dissym)获得,表达式为:
P(dis)=P(dis|sym)·Pprior(sym)
其中,症状先验概率Pprior(sym)∈RN,计算方式为:若用户存在提及到的症状则其值为1,若用户不存在提及的症状则其值为-1,没有提及或不确定的症状则设置为它的先验概率,所述先验概率由数据集统计得到;
所述症状概率P(sym)由疾病概率P(dis)乘以症状到疾病的条件概率P(sym|dis)获得,表达式为:
P(sym)=P(sym|dis)·P(dis)。
进一步的,所述用户模拟器维持用户目标,所述用户目标包括“所患疾病”、“自我陈述”、“隐式症状”和“请求槽值”,“所患疾病”代表用户患上的疾病;“自我陈述”代表用户最初的自我陈述;“隐式症状”代表在用户与机器人代理之间的交流中涉及到的症状;“请求槽值”代表用户需要请求询问的疾病。当系统询问用户模拟器一个症状的时候,用户模拟器将会根据自己的用户目标进行回答,若存在这个症状则回答“有”;若没有发生这个症状则回答“没有”;对于没有提及到的症状则回答“不确定”。
一种应用于医疗问诊对话系统的强化学习方法,包括如下步骤:
S1:建立一个模拟病人,所述模拟病人具有一定数量的训练样本,每次训练随机选取一个训练样本,并且所述模拟病人具有特定的用户目标,由模拟病人给出其病情报告;
S2:初始化自然语言理解模块的双向长短期记忆网络和对话管理模块中的DQN以及关系增强矩阵中的参数,所述参数包括双向长短期记忆网络中每层连接的权重和偏置以及关系增强矩阵中的权值;
S3:建立一个机器人代理,所述机器人代理根据与模拟病人的对话历史向模拟病人作出自己的动作应答,所述应答基于自然语言理解模块、基于决策网络的对话管理模块和自然语言生成模块;
S4:模拟病人根据机器人代理的应答从用户目标中找到相应的内容作出回答,并根据机器人代理疾病诊断结果的正误给出奖励值;
S5:在模拟病人和机器人代理的对话过程中,采用前向和后向算法,模拟病人陈述症状,机器人代理采取动作询问疾病或作出诊断,模拟病人根据诊断结果返回奖励值,经过数轮对话直至诊断结束。
本发明的有益效果如下:
1、相比于一般的强化学习方法用一个多层感知器作为决策函数,本发明的对话管理模块通过基于融合知识推理和关系增强的决策网络对接收到的语义帧进行决策,在问诊对话系统领域能得到更加合理的结果,比如当知道用户已有的症状是喉咙痛、咳嗽、流涕时,由于知识图谱分支以及关系增强分支,本发明的决策网络倾向于作出询问用户是否有发烧作为下一句话,而一般基于强化学习的决策函数不具备这样的推理和相关关系推断能力。
2、本发明的知识图谱分支基于贝叶斯推理,能够辅助增强决策网络的推理能力,症状节点和疾病节点之间的边表示他们之间的条件概率,在某个对话状态下,系统维护了一个用户有哪些症状的状态列表,对话没有涉及或者用户回答不清楚的症状的概率为这个症状发生的先验概率,疾病概率为与这个疾病相关的症状概率乘以条件概率之和,当得出所有候选疾病的概率后,其他未知症状的概率为疾病概率乘以对应的条件概率;这个过程与医生的思考过程是一致的,在与患者的对话过程中,医生有一些候选的可能的疾病,然后通过问询患者相关的症状逐步排除候选疾病,得到确诊结果,而本发明通过知识图谱分支进行疾病的确定,相比于现有的问诊对话系统能够提高询问症状的合理性和诊断疾病的准确性,使得系统得出的诊断结果可信度更高。
3、本发明采用双线性LSTM识别用户的意图和槽值,基于强化学习方法训练对话管理模块决策函数,决策函数融合多层感知器、关系增强分支和知识图谱分支,对数据集不同症状和疾病的关系建模,并且引入医学知识引导,使得决策更精准。
附图说明
图1是本发明的系统构架示意图。
图2是本发明对话管理模块的框架示意图。
图3是本发明实施例中用户目标的示意图。
具体实施方式
为了本技术领域的人员更好的理解本发明,下面结合附图和以下实施例对本发明作进一步详细描述。
实施例1
如图1所示,本实施例提供一种医疗问诊对话系统,包括自然语言理解模块、对话管理模块、用户模拟器和自然语言生成模块,
自然语言理解模块:根据用户自我陈述的文本序列,提取用户的意图,并对文本序列中的每个词进行标注,从标注中填充槽值组成结构化的语义帧输入对话管理模块;
所述用户具有四种类型的意图,分别是“请求疾病”、“确认症状”、“否认症状”和“不确定症状”;在填充槽值之前,对疾病、症状等医学术语进行归一化处理;
所述自然语言理解模块中采用双向长短期记忆网络,使用监督学习的方式训练双向长短期记忆网络模型,以BIO形式对文本序列中的每个词进行标注。
对话管理模块:通过机器人代理和用户进行交互,输入对话的状态,通过基于融合知识推理和关系增强的决策网络对接收到的语义帧进行决策,得到最终的系统动作选择at输出至用户模拟器和自然语言生成模块;
如图2所示,本实施例中决策网络包括基本DQN分支、关系增强分支和知识图谱分支,
基本DQN分支:包括一个隐层的多层感知器,通过多层感知器输出一个粗略的动作选择
Figure BDA0001951941770000061
所述多层感知器在对话交互过程中不断优化自身参数;
Figure BDA0001951941770000062
其中,MLP代表多层感知器;
关系增强分支:包括用于表示不同动作之间依赖关系的关系增强矩阵R∈RDXD,所述动作包括问候语、所有症状的询问以及所有疾病的诊断,所述关系增强矩阵使用疾病与症状共同出现的条件概率初始化,采用后馈传播的方式进行学习调整,对基本DQN分支输出的动作选择
Figure BDA0001951941770000063
进行加权求和,得到调整后的动作选择
Figure BDA0001951941770000071
其数学表达式为:
Figure BDA0001951941770000072
知识图谱分支:以疾病和症状之间的条件概率作为权重,所述知识图谱中包括分别表示M种疾病和N种症状的两类节点,疾病节点和症状节点之间的边有两个权重,一个是疾病到症状的条件概率P(dis|sym)=RM×N,另一个是症状到疾病的条件概率P(sym|dis)=RN×M,然后计算疾病概率P(dis)和症状概率P(sym),将疾病概率P(dis)和症状概率P(sym)拼接,得到知识图谱分支的动作选择
Figure BDA0001951941770000073
所述疾病概率P(dis)由症状先验概率Pprior(sym)乘以疾病到症状的条件概率P(dis|sym)获得,表达式为:
P(dis)=P(dis|sym)·Pprior(sym)
其中,症状先验概率Pprior(sym)∈RN,计算方式为:若用户存在提及到的症状则其值为1,若用户不存在提及的症状则其值为-1,能够降低后面与该症状相关联的疾病的概率,没有提及或不确定的症状则设置为它的先验概率,本实施例中先验概率由数据集统计得到;
所述症状概率P(sym)由疾病概率P(dis)乘以症状到疾病的条件概率P(sym|dis)获得,表达式为:
P(sym)=P(sym|dis)·P(dis);
对动作选择
Figure BDA0001951941770000074
和动作选择
Figure BDA0001951941770000075
采用sigmoid激活函数归一化,然后将归一化后的动作选择
Figure BDA0001951941770000076
和动作选择
Figure BDA0001951941770000077
与知识图谱分支的动作选择
Figure BDA0001951941770000078
相加得到最终的系统动作选择at
对话管理模块包括一个基于规则的会话状态跟踪器,提取完用户的意图以及填充好槽值后,通过会话状态跟踪器存储和更新症状的状态,所述会话状态跟踪器采用固定大小的症状向量来对症状状态进行表示,具体为:“1”表示有这种症状,“-1”表示没有这种症状,“-2”表示不确定是否有这种症状,“0”表示没有提到这种症状;在每一轮对话中,采用对话状态st保存机器人代理和用户的之前轮动作、已经知道的症状和当前轮的信息;
机器人代理有四种类型的动作,分别是“诊断疾病”、“询问症状”、“感谢”和“关闭对话”,总的动作空间大小为D=num_greeting+M+N;对于用户有五种类型的动作,分别是“请求疾病”、“确认症状”、“否认症状”、“不确定症状”和“关闭”;
本实施例的系统设置有奖励机制,对于正确的诊断的奖励为+44,错误的诊断的奖励为-22,并设置每进行一轮对话的奖励为-1;利用Q(st,at|θ)来表示在会话状态st下采取系统动作选择at所获得的奖励的衰减加权和,根据贝尔曼公式,Q值更新的数学表达式为:
Figure BDA0001951941770000081
其中,θ′是目标网络的参数,γ是衰减系数,rt是当前会话状态st下采取系统动作选择at的即时回报,
Figure BDA0001951941770000082
是下一会话状态st+1的最大回报,使用贪心策略来训练每个阶段,将每个时间步的经验et(st,at,rt,st+1)存储在经验池中,当当前网络的表现比之前的模型好时,更新经验池的存储内容;
用户模拟器:为了训练端到端的对话系统,建立基于规则的用户模拟器,用于与对话管理模块进行自然语言交互,输出用户动作选择至自然语言生成模块;具体的,对话管理模块根据当前状态作出回复,用户模拟器根据结果给对话管理模块进行奖励或惩罚,以此来训练对话管理模块,对话管理模块控制整个对话流程,最后得出诊断结果,用户模拟器模拟用户给出反馈,训练对话管理模块;当系统作出正确的诊断时,对话成功终止;当系统作出错误的诊断或对话轮数达到设定的阈值,则对话失败终止;
如图3所示,所述用户模拟器维持用户目标,所述用户目标包括“所患疾病”、“自我陈述”、“隐式症状”和“请求槽值”,“所患疾病”代表用户患上的疾病;“自我陈述”代表用户最初的自我陈述;“隐式症状”代表在用户与机器人代理之间的交流中涉及到的症状;“请求槽值”代表用户需要请求询问的疾病。当系统询问用户模拟器一个症状的时候,用户模拟器将会根据自己的用户目标进行回答,若存在这个症状则回答“有”;若没有发生这个症状则回答“没有”;对于没有提及到的症状则回答“不确定”。
自然语言生成模块:接收到对话管理模块输出的系统动作选择和用户模拟器输出的用户动作选择后,使用基于模板的方法生成用户能够明白的类似人类语言的句子,供用户查看。
基于上述系统,本实施例还提供一种应用于医疗问诊对话系统的强化学习方法,包括如下步骤:
S1:建立一个模拟病人,所述模拟病人具有一定数量的训练样本,每次训练随机选取一个训练样本,并且所述模拟病人具有特定的用户目标,由模拟病人给出其病情报告;
S2:初始化自然语言理解模块的双向长短期记忆网络和对话管理模块中的DQN以及关系增强矩阵中的参数,所述参数包括双向长短期记忆网络中每层连接的权重和偏置以及关系增强矩阵中的权值;
S3:建立一个机器人代理,所述机器人代理根据与模拟病人的对话历史向模拟病人作出自己的动作应答,所述应答基于自然语言理解模块、基于决策网络的对话管理模块和自然语言生成模块;
S4:模拟病人根据机器人代理的应答从用户目标中找到相应的内容作出回答,并根据机器人代理疾病诊断结果的正误给出奖励值;
S5:在模拟病人和机器人代理的对话过程中,采用前向和后向算法,模拟病人陈述症状,机器人代理采取动作询问疾病或作出诊断,模拟病人根据诊断结果返回奖励值,经过数轮对话直至诊断结束。
本实施例的方法能够有效地引入疾病和症状之间的医疗知识信息作为指导,同时还能通过与模拟病人的不断交互丰富自己的问诊历史经验,提高询问症状的合理性和诊断疾病的准确性,使得系统得出的诊断结果可信度更高。
值得一提的是,本实施例中融合知识推理和关系增强的决策网络能够用于任意强化学习任务中,比如应用于游戏领域以决策游戏角色的下一个动作、应用于自动驾驶领域以决策车辆的行车路线等。
以上所述,仅为本发明的较佳实施例,并不用以限制本发明,本发明的专利保护范围以权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (9)

1.一种医疗问诊对话系统,其特征在于:包括自然语言理解模块、对话管理模块、用户模拟器和自然语言生成模块,
自然语言理解模块:根据用户自我陈述的文本序列,提取用户的意图,并对文本序列中的每个词进行标注,从标注中填充槽值组成结构化的语义帧输入对话管理模块;
对话管理模块:通过机器人代理和用户进行交互,输入对话的状态,通过基于融合知识推理和关系增强的决策网络对接收到的语义帧进行动作决策,得到最终的系统动作选择at输出至用户模拟器和自然语言生成模块;
用户模拟器:为了训练端到端的对话系统,建立基于规则的用户模拟器,用于与对话管理模块进行自然语言交互,输出用户动作选择至自然语言生成模块;
自然语言生成模块:接收到对话管理模块输出的系统动作选择和用户模拟器输出的用户动作选择后,使用基于模板的方法生成类似人类语言的句子,供用户查看;
所述决策网络包括基本DQN分支、关系增强分支和知识图谱分支,
基本DQN分支:包括一个隐层的多层感知器,通过多层感知器输出一个粗略的动作选择
Figure FDA0002957580710000011
所述多层感知器在对话交互过程中不断优化自身参数;
Figure FDA0002957580710000012
其中,MLP代表多层感知器;
关系增强分支:包括用于表示不同动作之间依赖关系的关系增强矩阵R∈RDXD,所述动作包括问候语、所有症状的询问以及所有疾病的诊断,所述关系增强矩阵使用疾病与症状共同出现的条件概率初始化,采用后馈传播的方式进行学习调整,对基本DQN分支输出的动作选择
Figure FDA0002957580710000013
进行加权求和,得到调整后的动作选择
Figure FDA0002957580710000014
其数学表达式为:
Figure FDA0002957580710000015
知识图谱分支:以疾病和症状之间的条件概率作为权重,所述知识图谱中包括分别表示M种疾病和N种症状的两类节点,疾病节点和症状节点之间的边有两个权重,一个是疾病到症状的条件概率P(dis|sym)=RM×N,另一个是症状到疾病的条件概率P(sym|dis)=RN×M,然后计算疾病概率P(dis)和症状概率P(sym),将疾病概率P(dis)和症状概率P(sym)拼接,得到知识图谱分支的动作选择
Figure FDA0002957580710000016
2.根据权利要求1所述的一种医疗问诊对话系统,其特征在于:对动作选择
Figure FDA0002957580710000017
和动作选择
Figure FDA0002957580710000018
采用sigmoid激活函数归一化,然后将归一化后的动作选择
Figure FDA0002957580710000019
和动作选择
Figure FDA00029575807100000110
与知识图谱分支的动作选择
Figure FDA0002957580710000021
相加得到最终的系统动作选择at
3.根据权利要求1所述的一种医疗问诊对话系统,其特征在于:所述自然语言理解模块中采用双向长短期记忆网络,使用监督学习的方式训练双向长短期记忆网络模型,以BIO形式对文本序列中的每个词进行标注。
4.根据权利要求1所述的一种医疗问诊对话系统,其特征在于:所述对话管理模块包括一个基于规则的会话状态跟踪器,提取完用户的意图以及填充好槽值后,通过会话状态跟踪器存储和更新症状的状态,所述会话状态跟踪器采用固定大小的症状向量来对症状状态进行表示;在每一轮对话中,采用对话状态st保存机器人代理和用户的之前轮动作、已经知道的症状和当前轮的信息。
5.根据权利要求4所述的一种医疗问诊对话系统,其特征在于:对于机器人代理有四种类型的动作,分别是“诊断疾病”、“询问症状”、“感谢”和“关闭对话”,总的动作空间大小为D=num_greeting+M+N;对于用户有五种类型的动作,分别是“请求疾病”、“确认症状”、“否认症状”、“不确定症状”和“关闭”。
6.根据权利要求5所述的一种医疗问诊对话系统,其特征在于:所述系统设置有奖励机制,利用Q(st,at|θ)来表示在对话状态st下采取系统动作选择at所获得的奖励的衰减加权和,根据贝尔曼公式,Q值更新的数学表达式为:
Figure FDA0002957580710000022
其中,θ′是目标网络的参数,γ是衰减系数,rt是当前会话状态st下采取系统动作选择at的即时回报,
Figure FDA0002957580710000023
是下一会话状态st+1的最大回报,使用贪心策略来训练每个阶段,将每个时间步的经验et(st,at,rt,st+1)存储在经验池中,当当前网络的表现比之前的模型好时,更新经验池的存储内容。
7.根据权利要求1所述的一种医疗问诊对话系统,其特征在于:所述疾病概率P(dis)由症状先验概率Pprior(sym)乘以疾病到症状的条件概率P(dis|sym)获得,表达式为:
P(dis)=P(dis|sym)·Pprior(sym)
其中,症状先验概率Pprior(sym)∈RN,计算方式为:若用户存在提及到的症状则其值为1,若用户不存在提及的症状则其值为-1,没有提及或不确定的症状则设置为它的先验概率,所述先验概率由数据集统计得到;
所述症状概率P(sym)由疾病概率P(dis)乘以症状到疾病的条件概率P(sym|dis)获得,表达式为:
P(sym)=P(sym|dis)×P(dis)。
8.根据权利要求1所述的一种医疗问诊对话系统,其特征在于:所述用户模拟器维持用户目标,所述用户目标包括“所患疾病”、“自我陈述”、“隐式症状”和“请求槽值”,“所患疾病”代表用户患上的疾病;“自我陈述”代表用户最初的自我陈述;“隐式症状”代表在用户与机器人代理之间的交流中涉及到的症状;“请求槽值”代表用户需要请求询问的疾病。
9.一种利用权利要求1所述医疗问诊对话系统的强化学习方法,其特征在于,包括如下步骤:
S1:建立一个模拟病人,所述模拟病人具有一定数量的训练样本,每次训练随机选取一个训练样本,并且所述模拟病人具有特定的用户目标,由模拟病人给出其病情报告;
S2:初始化自然语言理解模块的双向长短期记忆网络和对话管理模块中的DQN以及关系增强矩阵中的参数,所述参数包括双向长短期记忆网络中每层连接的权重和偏置以及关系增强矩阵中的权值;
S3:建立一个机器人代理,所述机器人代理根据与模拟病人的对话历史向模拟病人作出自己的动作应答,所述应答基于自然语言理解模块、基于决策网络的对话管理模块和自然语言生成模块;
S4:模拟病人根据机器人代理的应答从用户目标中找到相应的内容作出回答,并根据机器人代理疾病诊断结果的正误给出奖励值;
S5:在模拟病人和机器人代理的对话过程中,采用前向和后向算法,模拟病人陈述症状,机器人代理采取动作询问疾病或作出诊断,模拟病人根据诊断结果返回奖励值,经过数轮对话直至诊断结束。
CN201910054441.2A 2019-01-21 2019-01-21 一种医疗问诊对话系统以及应用于该系统的强化学习方法 Active CN109817329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910054441.2A CN109817329B (zh) 2019-01-21 2019-01-21 一种医疗问诊对话系统以及应用于该系统的强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910054441.2A CN109817329B (zh) 2019-01-21 2019-01-21 一种医疗问诊对话系统以及应用于该系统的强化学习方法

Publications (2)

Publication Number Publication Date
CN109817329A CN109817329A (zh) 2019-05-28
CN109817329B true CN109817329B (zh) 2021-06-29

Family

ID=66604802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910054441.2A Active CN109817329B (zh) 2019-01-21 2019-01-21 一种医疗问诊对话系统以及应用于该系统的强化学习方法

Country Status (1)

Country Link
CN (1) CN109817329B (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176315B (zh) * 2019-06-05 2022-06-28 京东方科技集团股份有限公司 医疗问答方法及系统、电子设备、计算机可读介质
JP7147706B2 (ja) * 2019-07-22 2022-10-05 トヨタ自動車株式会社 乗物、情報処理システム、プログラム、および情報処理方法
CN110457403B (zh) * 2019-08-12 2022-04-22 南京星火技术有限公司 图网络决策系统、方法及知识图谱的构建方法
CN110427536B (zh) * 2019-08-12 2022-03-04 深圳忆海原识科技有限公司 一种类脑决策与运动控制系统
CN110610766A (zh) * 2019-09-06 2019-12-24 中润普达(十堰)大数据中心有限公司 基于症状特征权重推导疾病概率的装置和存储介质
CN110781685B (zh) * 2019-10-18 2022-08-19 四川长虹电器股份有限公司 基于用户反馈自动标注语义分析结果正误性的方法
CN110767282B (zh) * 2019-10-30 2022-07-29 思必驰科技股份有限公司 一种健康档案生成方法、装置以及计算机可读存储介质
CN110993093B (zh) * 2019-11-15 2023-02-24 北京邮电大学 基于深度学习的眼科预问诊方法与装置
CN111061846A (zh) * 2019-11-19 2020-04-24 国网辽宁省电力有限公司电力科学研究院 基于分层强化学习的电力新装增容对话客服系统及方法
CN110838368B (zh) * 2019-11-19 2022-11-15 广州西思数字科技有限公司 一种基于中医临床知识图谱的主动问诊机器人
CN112836059B (zh) * 2019-11-25 2024-07-12 北京搜狗科技发展有限公司 医疗图谱建立方法及装置、医疗图谱查询方法及装置
CN111143573B (zh) * 2019-12-04 2023-04-28 华东师范大学 基于用户反馈信息进行知识图谱目标节点预测的方法
CN111859099B (zh) * 2019-12-05 2021-08-31 马上消费金融股份有限公司 基于强化学习的推荐方法、装置、终端以及存储介质
CN111145903B (zh) * 2019-12-18 2024-08-06 东北大学 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
CN111292848B (zh) * 2019-12-31 2023-05-16 同方知网数字出版技术股份有限公司 一种基于贝叶斯估计的医疗知识图谱辅助推理方法
CN111326251B (zh) * 2020-02-13 2023-08-29 北京百度网讯科技有限公司 一种问诊问题输出方法、装置以及电子设备
CN111339745A (zh) * 2020-03-06 2020-06-26 京东方科技集团股份有限公司 一种随访报告生成方法、设备、电子设备和存储介质
CN111354469B (zh) * 2020-03-31 2023-07-25 浙江禾连网络科技有限公司 一种用户健康状况综合评测方法与系统
CN111611378A (zh) * 2020-05-15 2020-09-01 金日泽 行为训练对话控制方法、系统、存储介质、程序、终端
CN111785366B (zh) * 2020-06-29 2023-05-26 平安科技(深圳)有限公司 患者治疗方案的确定方法、装置及计算机设备
CN112086207A (zh) * 2020-07-23 2020-12-15 刘萍 一种远程诊断咨询系统
CN111914562B (zh) * 2020-08-21 2022-10-14 腾讯科技(深圳)有限公司 电子信息分析方法、装置、设备及可读存储介质
CN112017742B (zh) * 2020-09-08 2024-05-24 平安科技(深圳)有限公司 分诊数据处理方法、装置、计算机设备及存储介质
CN112233787A (zh) * 2020-09-17 2021-01-15 北京挺好农牧科技有限公司 一种基于聊天机器人的动物疾病诊断系统
CN112420211B (zh) * 2020-09-30 2022-08-16 医渡云(北京)技术有限公司 未知传染病的预警方法、装置、电子设备及计算机介质
CN112349409A (zh) * 2020-10-22 2021-02-09 魏忠钰 一种疾病类型预测方法、装置、设备及系统
CN112289467B (zh) * 2020-11-17 2022-08-02 中山大学 一种面向低资源场景可迁移的医疗问诊对话系统及方法
CN112765461A (zh) * 2021-01-12 2021-05-07 中国计量大学 一种基于多兴趣胶囊网络的会话推荐方法
CN112749287A (zh) * 2021-01-26 2021-05-04 北京搜狗科技发展有限公司 知识图谱的构建方法和使用方法、装置和介质
CN112820400B (zh) * 2021-01-27 2022-07-05 华侨大学 基于医疗知识图谱知识推理的疾病诊断装置、设备
CN113010692B (zh) * 2021-03-30 2023-09-22 国网江苏省电力有限公司营销服务中心 一种基于知识图谱的对话管理方法及对话系统
CN113539480A (zh) * 2021-07-20 2021-10-22 武汉情智感知科技有限公司 一种新型的精神健康干预交互系统
CN113889259A (zh) * 2021-09-06 2022-01-04 浙江工业大学 一种知识图谱辅助下的自动诊断对话系统
WO2023075683A2 (en) * 2021-10-27 2023-05-04 National University Of Singapore A clinical simulation system and method
CN114155965A (zh) * 2021-12-13 2022-03-08 首都医科大学附属北京安贞医院 一种基于人机交互的高血压慢病管理智能服务系统
CN114996412B (zh) * 2022-08-02 2022-11-15 医智生命科技(天津)有限公司 医疗问答方法、装置、电子设备及存储介质
CN115431288B (zh) * 2022-11-10 2023-01-31 深圳市神州云海智能科技有限公司 基于多元融合信息进行情感反馈及信息交互的导诊机器人
CN115640410B (zh) * 2022-12-06 2023-03-14 南京航空航天大学 基于强化学习路径推理的知识图谱多跳问答方法
CN117153431B (zh) * 2023-10-26 2024-01-05 武汉盛博汇信息技术有限公司 基于互联网的医疗服务系统及方法
CN118152544A (zh) * 2024-05-08 2024-06-07 支付宝(杭州)信息技术有限公司 一种基于智能体的医疗问答方法、系统和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164616A (zh) * 2013-02-02 2013-06-19 杭州卓健信息科技有限公司 一种智能导诊系统和方法
CN106295100A (zh) * 2015-05-22 2017-01-04 吴长汶 一种问诊系统
US20170103168A1 (en) * 2015-10-12 2017-04-13 National Taiwan University Knowledge-based personal intelligent health consulting system
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法
US20180060301A1 (en) * 2016-08-31 2018-03-01 Microsoft Technology Licensing, Llc End-to-end learning of dialogue agents for information access
CN108182262A (zh) * 2018-01-04 2018-06-19 华侨大学 基于深度学习和知识图谱的智能问答系统构建方法和系统
CN109192300A (zh) * 2018-08-17 2019-01-11 百度在线网络技术(北京)有限公司 智能问诊方法、系统、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11715000B2 (en) * 2017-06-30 2023-08-01 Microsoft Technology Licensing, Llc Inquiry-based deep learning
CN109119134A (zh) * 2018-08-09 2019-01-01 脉景(杭州)健康管理有限公司 医学病历数据处理方法、医学数据推荐系统、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164616A (zh) * 2013-02-02 2013-06-19 杭州卓健信息科技有限公司 一种智能导诊系统和方法
CN106295100A (zh) * 2015-05-22 2017-01-04 吴长汶 一种问诊系统
US20170103168A1 (en) * 2015-10-12 2017-04-13 National Taiwan University Knowledge-based personal intelligent health consulting system
US20180060301A1 (en) * 2016-08-31 2018-03-01 Microsoft Technology Licensing, Llc End-to-end learning of dialogue agents for information access
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法
CN108182262A (zh) * 2018-01-04 2018-06-19 华侨大学 基于深度学习和知识图谱的智能问答系统构建方法和系统
CN109192300A (zh) * 2018-08-17 2019-01-11 百度在线网络技术(北京)有限公司 智能问诊方法、系统、计算机设备和存储介质

Also Published As

Publication number Publication date
CN109817329A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
CN109817329B (zh) 一种医疗问诊对话系统以及应用于该系统的强化学习方法
US12010073B2 (en) Systems and processes for operating and training a text-based chatbot
CN112271001B (zh) 一种应用异构图神经网络的医疗咨询对话系统及方法
Griol et al. A statistical approach to spoken dialog systems design and evaluation
Shah et al. Interactive reinforcement learning for task-oriented dialogue management
CN112507696B (zh) 基于全局注意力意图识别的人机交互导诊方法与系统
US20220092441A1 (en) Training method and apparatus, dialogue processing method and system, and medium
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN112289467B (zh) 一种面向低资源场景可迁移的医疗问诊对话系统及方法
CN116757652B (zh) 一种基于大语言模型的在线招聘推荐系统及方法
CN114429143A (zh) 一种基于强化蒸馏的跨语言属性级情感分类方法
KS et al. Conversational Chatbot Builder–Smarter Virtual Assistance with Domain Specific AI
CN116994695A (zh) 报告生成模型的训练方法、装置、设备及存储介质
Allen et al. Conversational agents for complex collaborative tasks
CN114281955A (zh) 对话处理方法、装置、设备及存储介质
Hou et al. A corpus-free state2seq user simulator for task-oriented dialogue
Yang et al. MCRDR knowledge-based 3D dialogue simulation in clinical training and assessment
Muangnak et al. The neural network conversation model enables the commonly asked student query agents
CN117216223A (zh) 对话文本的生成方法和装置、存储介质及电子设备
CN112035567B (zh) 一种数据处理方法、装置及计算机可读存储介质
Raut A virtual chatbot for ITSM application
Habitamu Designing and Implementing Adaptive Bot Model to Consult Ethiopian Published Laws Using Ensemble Architecture with Rules Integrated
Song et al. Task-oriented dialogue system based on reinforcement learning
Ohashi et al. Enhancing Task-oriented Dialogue Systems with Generative Post-processing Networks
Carrara Reinforcement learning for Dialogue Systems optimization with user adaptation.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant