CN109192300A

CN109192300A - 智能问诊方法、系统、计算机设备和存储介质

Info

Publication number: CN109192300A
Application number: CN201810941864.1A
Authority: CN
Inventors: 夏源; 杨叶辉; 罗程亮; 范斌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2019-01-11

Abstract

本发明公开了一种智能问诊方法、系统、计算机设备和存储介质。其中，所述智能问诊方法包括：根据目标对象的主诉内容进行疾病先验概率预测，得到针对目标对象的疾病先验概率；基于疾病先验概率的排序，确定至少一个候选疾病；从预先建立的基于强化学习的多智能体模型中，确定与至少一个候选疾病对应关联的至少一个智能体策略，其中，每个智能体策略用于指示在当前症状状态的情况下输出下一次交互需要提出的问题；基于每个智能体策略，根据目标对象针对下一次交互需要提出的问题的交互选择进行交互式问诊。本发明实施例可以在保证问诊结果准确率的情况下，优化了相关疾病问诊逻辑的合理性与用户体验。

Description

智能问诊方法、系统、计算机设备和存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种智能问诊方法、系统、计算机设备和计算机可读存储介质。

背景技术

目前在医疗智能问诊领域主要有以下两类方法以实现智能化问诊：一类是基于传统的概率图模型(Probabilistic Graphical Model，英文简称为PGM)与信息增益(Information Gain)的方法，可以适当模拟问诊过程，并给出疾病诊断；另一类是近年来比较新的深度学习的模型，在根据已经观测到病人的症状的情况下，对当前可能的疾病进行诊断。常用的基于深度学习模型的方法有基于DNN(Deep Neural Networks，深度神经网络),CNN(Convolution Neural Network，卷积神经网络),LSTM(Long Short-Term Memory，长短期记忆网络)的网络以及它们的扩展。

然而，上述传统的基于概率图模型(PGM)与信息增益(Information Gain)的方法往往在模型推理(inference)部分计算复杂度比较高，同时，概率图模型的疾病-症状转移矩阵往往需要专业的医生标注，这种类似专家系统的模型，在疾病扩展方面面临极大的挑战。另外，上述基于深度学习模型的智能问诊方法，在已知所有观测到的症状的情况下，模型可以给出相对高的疾病预测准确率，但是通常情况下，我们无法观测到病人所有的症状，基于深度学习的模型由于它的不可解释性，很难给出合理的问诊过程。

因此，在智能问诊领域需要一种新的方法来进行突破。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种智能问诊方法。该方法可以在保证问诊结果准确率的情况下，优化了相关疾病问诊逻辑的合理性与用户体验。

本发明的第二个目的在于提出一种智能问诊系统。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达到上述目的，本发明第一方面实施例提出的智能问诊方法，包括：

根据目标对象的主诉内容进行疾病先验概率预测，得到针对所述目标对象的疾病先验概率；

基于所述疾病先验概率的排序，确定至少一个候选疾病；

从预先建立的基于强化学习的多智能体模型中，确定与至少一个候选疾病对应关联的至少一个智能体策略，其中，每个智能体策略用于指示在当前症状状态的情况下输出下一次交互需要提出的问题；

基于所述每个智能体策略，根据所述目标对象针对所述下一次交互需要提出的问题的交互选择进行交互式问诊。

本发明实施例的智能问诊方法，根据目标对象的主诉内容进行疾病先验概率预测，得到针对目标对象的疾病先验概率，之后，基于疾病先验概率的排序，确定至少一个候选疾病，并从预先建立的基于强化学习的多智能体模型中，确定与至少一个候选疾病对应关联的至少一个智能体策略，其中，每个智能体策略用于指示在当前症状状态的情况下输出下一次交互需要提出的问题，然后，基于每个智能体策略，根据目标对象针对下一次交互需要提出的问题的交互选择进行交互式问诊。即根据患者的主诉信息，同时根据用户与系统的交互问诊回答，最终根据生产的问诊序列和用户回答，给出初步的疾病诊断，从而在保证问诊结果准确率的情况下，优化了相关疾病问诊逻辑的合理性与用户体验。

另外，根据本发明上述实施例的智能问诊方法还可以具有如下附加技术特征：

可选地，所述根据目标对象的主诉内容进行疾病先验概率预测，得到针对所述目标对象的疾病先验概率，包括：

基于文本特征提取与疾病先验概率预测的组合模型，对所述目标对象的主诉内容进行文本特征提取，并根据提取到的文本特征进行疾病先验概率预测，得到针对所述目标对象的疾病先验概率。

可选地，所述文本特征提取与疾病先验概率预测的组合模型通过以下步骤预先得到：

基于医学实体库对待训练的患者主诉内容样本进行分词处理，得到与医疗相关的词语；

对所述与医疗相关的词语进行标记，得到所述词语所属的类别；

获取医疗文本数据样本作为训练数据，并利用医疗对话数据作为所述训练数据的标签；

根据所述与医疗相关的词语、所述词语所属的类别和进行过标签标注的所述训练数据，对基于双向长短时记忆单元和卷积神经网络的组合深层网络模型进行模型训练，得到所述文本特征提取与疾病先验概率预测的组合模型。

可选地，通过以下步骤预先建立所述基于强化学习的多智能体模型：

获取医生与病人的多个问诊信息流，并获取每个所述问诊信息流对应的疾病诊断标签；

根据所述多个问诊信息流和每个所述问诊信息流对应的疾病诊断标签建立奖励函数；

针对每一种疾病诊断标签相关的全部问诊信息流，构建对应的智能体；

基于所述奖励函数，对每种疾病对应的智能体进行强化学习，获取每个疾病智能体的最优策略；

将所述每个疾病智能体的最优策略作为所述每个智能体策略，完成所述基于强化学习的多智能体模型的建立。

可选地，所述基于所述每个智能体策略，根据所述目标对象针对所述下一次交互需要提出的问题的交互选择进行交互式问诊，包括：

S1，基于每个所述智能体策略向所述目标对象提供下一次交互需要提出的问题；

S2，根据所述目标对象针对所述下一次交互需要提出的问题的交互选择，更新所述每个智能体策略中的当前症状状态；

S3，通过所述每个智能体策略根据更新后的当前症状状态再次向所述目标对象提供新的下一次交互需要提出的问题；

S4，重复执行所述步骤S2和S3，直至所述少一个候选疾病中的目标疾病的行动概率大于或等于预设阈值时，输出针对所述目标对象的主诉内容的整个交互问诊序列，并将所述行动概率大于或等于所述预设阈值的目标疾病作为最终所预测的疾病进行输出。

为达到上述目的，本发明第二方面实施例提出的智能问诊系统，包括：

疾病先验预测模块，用于根据目标对象的主诉内容进行疾病先验概率预测，得到针对所述目标对象的疾病先验概率；

候选疾病确定模块，用于基于所述疾病先验概率的排序，确定至少一个候选疾病；

智能体策略确定模块，用于从预先建立的基于强化学习的多智能体模型中，确定与至少一个候选疾病对应关联的至少一个智能体策略，其中，每个智能体策略用于指示在当前症状状态的情况下输出下一次交互需要提出的问题；

交互问诊模块，用于基于所述每个智能体策略，根据所述目标对象针对所述下一次交互需要提出的问题的交互选择进行交互式问诊。

本发明实施例的智能问诊系统，可以根据目标对象的主诉内容进行疾病先验概率预测，得到针对目标对象的疾病先验概率，之后，基于疾病先验概率的排序，确定至少一个候选疾病，并从预先建立的基于强化学习的多智能体模型中，确定与至少一个候选疾病对应关联的至少一个智能体策略，其中，每个智能体策略用于指示在当前症状状态的情况下输出下一次交互需要提出的问题，然后，基于每个智能体策略，根据目标对象针对下一次交互需要提出的问题的交互选择进行交互式问诊。即根据患者的主诉信息，同时根据用户与系统的交互问诊回答，最终根据生产的问诊序列和用户回答，给出初步的疾病诊断，从而在保证问诊结果准确率的情况下，优化了相关疾病问诊逻辑的合理性与用户体验。

另外，根据本发明上述实施例的智能问诊系统还可以具有如下附加技术特征：

可选地，所述疾病先验预测模块具体用于：

可选地，所述智能问诊系统还包括：

组合模型建立模块，用于预先建立所述文本特征提取与疾病先验概率预测的组合模型；

其中，所述组合模型建立模块包括：

分词单元，用于基于医学实体库对待训练的患者主诉内容样本进行分词处理，得到与医疗相关的词语；

标记单元，用于对所述与医疗相关的词语进行标记，得到所述词语所属的类别；

训练数据生成单元，用于获取医疗文本数据样本作为训练数据，并利用医疗对话数据作为所述训练数据的标签；

模型训练单元，用于根据所述与医疗相关的词语、所述词语所属的类别和进行过标签标注的所述训练数据，对基于双向长短时记忆单元和卷积神经网络的组合深层网络模型进行模型训练，得到所述文本特征提取与疾病先验概率预测的组合模型。

可选地，所述智能问诊系统还包括：

多智能体模型建立模块，用于预先建立所述基于强化学习的多智能体模型；

其中，所述多智能体模型建立模块包括：

样本获取单元，用于获取医生与病人的多个问诊信息流，并获取每个所述问诊信息流对应的疾病诊断标签；

奖励函数建立单元，用于根据所述多个问诊信息流和每个所述问诊信息流对应的疾病诊断标签建立奖励函数；

智能体构建单元，用于针对每一种疾病诊断标签相关的全部问诊信息流，构建对应的智能体；

强化学习单元，用于基于所述奖励函数，对每种疾病对应的智能体进行强化学习，获取每个疾病智能体的最优策略，并将所述每个疾病智能体的最优策略作为所述每个智能体策略，完成所述基于强化学习的多智能体模型的建立。

可选地，所述交互问诊模块具体用于：

为达到上述目的，本发明第三方面实施例提出的计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现本发明第一方面实施例所述的智能问诊方法。

为达到上述目的，本发明第四方面实施例提出的非临时性计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明第二方面实施例所述的智能问诊方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的智能问诊方法的流程图；

图2是根据本发明实施例的建立所述文本特征提取与疾病先验概率预测的组合模型的流程图；

图3是根据本发明实施例的建立所述基于强化学习的多智能体模型的流程图；

图4是根据本发明实施例的基于强化学习的智能问诊方法实现流程图；

图5是根据本发明一个实施例的智能问诊系统的结构示意图；

图6是根据本发明另一个实施例的智能问诊系统的结构示意图；

图7是根据本发明又一个实施例智能问诊系统的结构示意图；

图8示出了适于用来实现本发明实施例的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在信息社会的时代，每一个传统领域都受到新兴技术的冲击，机器学习和人工智能的技术在各个领域都有里程碑的突破。在围棋领域，基于强化学习模型的AlphaGo(阿尔法，其是一款围棋人工智能程序)打败了人类围棋世界高手，围棋这个一度被认为不可能被颠覆的领域，在新兴技术的冲击下已经被攻破。智能问诊在原来认为是不可能做到的事情，如今随着大数据和人工智能时代的来临，越来越多的大型公司和研究机构都开始进军互联网医疗和智能问诊的领域。IBM Watson机器人算是最早进入智能问诊领域的公司。目前，各大公司都有自己在互联网医疗领域的产品，但是在智能问诊与诊断领域，尤其在如何模拟医生问诊的方面，以及智能问诊系统与患者的自然交互方面，目前还难以令人满意。

医疗智能问诊不同于的疾病预测，它不仅是根据已知病人的症状进行疾病预测，而且是根据病人的主诉进行分析，并模拟医生询问可能的症状，然后，根据病交互的回答，进行再次模拟问诊，直到最终给出正确的疾病。目前，已知典型的症状，让智能问诊系统预测相应的疾病，并不是一件困难的事情。但是，如何能让系统像医生一样，针对病人的主诉，一步步进行问诊，模拟这个问诊过程，进而最终得到正确的疾病诊断结果，这个在整个智能医疗领域都是十分困难的，但又是非常重要的。

理想化的智能问诊的方法，应该是既能保证问诊的逻辑是合理的，是与专业医生保持一致的，同时还应该避免过多的问诊轮数。此外，根据问诊流序列和病人的交互式问答，智能问诊系统能够给出准确的疾病诊断。但是，这些往往不容易同时具备。比如，目前的智能问诊系统，一方面，目前基于深度学习(CNN,LSTM)的方法，在已知所有观测到的症状的情况下，模型可以给出相对高的疾病预测准确率，但是通常情况下，我们无法观测到病人所有的症状，基于深度学习的模型由于它的不可解释性，很难给出合理的问诊过程。另一方面，基于概率图模型(PGM)和信息增益的方法可以根据疾病-症状的转移概率矩阵进行有效的问诊(并不完善)，但基于概率图模型的方法往往在模型推理(inference)部分计算复杂度比较高，同时，概率图模型的疾病-症状转移矩阵往往需要专业的医生标注，这种类似专家系统的模型，在疾病扩展方面面临极大的挑战。因此，在智能问诊领域需要一种新的方法来进行突破。

为此，本发明根据大量模拟的医疗问诊流对话数据，以及从医学文献、医学相关病例解析的问诊对话数据，提出了一种新的强化学习的医疗智能问诊的方法、系统、计算机设备和计算机可读存储介质。随着AlphaGo在围棋领域的突破，越来越多的领域使用基于强化学习(reinforcement learning)的模型和方法，尤其是考虑到人机交互的领域，强化学习有着其天然的优势。考虑针对医疗智能问诊的问题，问诊的逻辑应该尽可能模拟医生，同时需要考虑到患者与智能问诊系统的交互性，强化学习模型可以让系统学习到最优的问诊逻辑，并准确地给出诊断结果。与传统的方法不同，本发明将同时考虑问诊逻辑与疾病诊断的准确率，并将智能问诊转化一个强化模型的训练，对模型进行优化。本发明实施例提出的智能问诊方法可以应用到多个场景中，包括但不限于：1)医疗智能辅助问诊；2)医疗智能分诊与导诊；3)医疗智能问诊诊断与解决方案等。

下面参考附图描述本发明实施例的智能问诊方法、系统、计算机设备和计算机可读存储介质。

图1是根据本发明一个实施例的智能问诊方法的流程图。需要说明的是，本发明实施例的智能问诊方法可应用于本发明实施例的智能问诊系统，该智能问诊方法可被配置于计算机设备上。

如图1所示，该智能问诊方法可以包括：

S110，根据目标对象的主诉内容进行疾病先验概率预测，得到针对目标对象的疾病先验概率。

其中，所述目标对象可以理解是某个病人患者。可选地，在本发明的实施例中，本发明实施例的智能问诊方法可为用户提供针对主诉内容的输入接口，用户可通过该输入接口通过文本或语音输入的方式，输入所述目标对象的主诉内容，从而通过该输入接口即可得到所述目标对象的主诉内容。

在获得目标对象的主诉内容，即获取目标对象自述的自己的症状或(和)体征、性质，以及持续时间等内容之后，可对该目标对象的主诉内容进行分词处理以及特征提取，并根据提取到的文本特征进行疾病先验概率预测，得到针对所述目标对象的疾病先验概率。

作为一种示例，可通过预先建立的基于文本特征提取与疾病先验概率预测的组合模型，对所述目标对象的主诉内容进行文本特征提取，并根据提取到的文本特征进行疾病先验概率预测，得到针对所述目标对象的疾病先验概率。

可选地，通过所述组合模型中的文本特征提取模块对所述目标对象的主诉内容进行分词处理，与传统文本的分词不同，针对医疗领域的文本，本发明实施例可建立一个专门的医学实体数据库。基于医学实体库的句子切分，可以将所述目标对象的主诉内容切分成多个分词，并根据所述多个分词提取出对应的文本特征。然后，可通过所述组合模型中的疾病先验概率预测模块，根据提取到的文本特征进行疾病先验概率预测，得到针对所述目标对象的疾病先验概率，从而可以实现在一定范围内的疾病预测，将目标对象可能的疾病锁定在一定的范围内，为后续强化学习的智能体策略输出缩小范围。

也就是说，本发明实施例可通过利用两种深层神经网络的组合方式来对所述目标对象的主诉内容进行文本特征提取与疾病先验预测，可以实现在一定范围内的疾病预测，将目标对象可能的疾病锁定在一定的范围内，为后续强化学习的智能体策略输出缩小范围。需要说明的是，所述两种深层神经网络的组合方式可能有很多种，本发明给出一种具体的可能的组合方式，即使用双向长短时记忆单元和卷积神经网络的组合方式。下面将给出一种采用双向长短时记忆单元和卷积神经网络的组合方式而建立的所述文本特征提取与疾病先验概率预测的组合模型的可能实现方式。

作为一种可能实现方式的示例，如图2所示，可通过以下步骤预先建立所述文本特征提取与疾病先验概率预测的组合模型：

S210，基于医学实体库对待训练的患者主诉内容样本进行分词处理，得到与医疗相关的词语；

可以理解，与传统文本的分词不同，针对医疗领域的文本，本发明实施例可以建立一个专门的医学实体数据库。基于医学实体库的句子切分，可以对待训练的患者主诉内容样本进行分词处理，以得到相应的词语。

S220，对所述与医疗相关的词语进行标记，得到所述词语所属的类别；

可选地，基于医学实体库的句子切分，在将待训练的患者主诉内容样本切分成相应的词语的同时，还可将与医疗相关的词语标记上相应的类别，比如，“呕吐”被标记为“症状”，“肺炎”被标记为“疾病”等。

S230，获取医疗文本数据样本作为训练数据，并利用医疗对话数据作为所述训练数据的标签；

S240，根据所述与医疗相关的词语、所述词语所属的类别和进行过标签标注的所述训练数据，对基于双向长短时记忆单元和卷积神经网络的组合深层网络模型进行模型训练，得到所述文本特征提取与疾病先验概率预测的组合模型。

可选地，在得到所述与医疗相关的词语、所述词语所属的类别和进行过标签标注的所述训练数据之后，可利用词向量化的技术将所述与医疗相关的词语以及训练数据映射到向量的表达。然后，使用深度学习的框架，搭建基于Bi-LSTM(双向长短时记忆单元)和CNN(卷积神经网络)的组合深层网络模型。

由此可见，本发明实施例基于Bi-LSTM和CNN的组合深层网络模型，相比传统的神经网络(如DNN,RNN)的框架，一方面考虑到了句子中词与词之间的顺序关系，更加符合自然语言处理的基本假设(即语序影响语义的表达)，另一方面，基于长短记忆单元(LSTM)的方法有效的解决了传统循环神经网络(RNN)存在的梯度爆炸(gradient explosion)和梯度弥散(gradient vanishing)的问题，使得模型训练更加稳定。由于考虑到了词和句子的语义特征，基于以上训练方法得到所述文本特征提取与疾病先验概率预测的组合模型，可以在一定范围内的疾病预测，将患者可能的疾病锁定在一定的范围内，为后续强化学习的智能体策略输出缩小范围。

S120，基于疾病先验概率的排序，确定至少一个候选疾病。

可选地，在得到针对目标对象的疾病先验概率之后，可对得到的疾病先验概率进行大小排序，并基于疾病先验概率的排序，确定出至少一个候选疾病。例如，可基于疾病先验概率的排序，选择概率排列在前N的疾病作为所述至少一个候选疾病，其中，N为正整数；又如，基于疾病先验概率的排序，可将概率大于或等于一定阈值的疾病作为所述至少一个候选疾病。由此，可以在一定范围内给出了粗粒度疾病预测的候选集合。

S130，从预先建立的基于强化学习的多智能体模型中，确定与至少一个候选疾病对应关联的至少一个智能体策略，其中，每个智能体策略用于指示在当前症状状态的情况下输出下一次交互需要提出的问题。

可选地，在得到一定范围内的疾病预测的候选集合之后，还需要交互式的问诊逻辑来逐步确定疾病。在本发明的实施例中，可基于多智能体的强化学习方法来建立多智能体模型，该多智能体模型中具有多个智能体策略，每个智能体策略对应一种疾病的交互问诊逻辑。为此，在本步骤中，在得到所述至少一个候选疾病之后，可从预先建立的基于强化学习的多智能体模型中，确定出与所述至少一个候选疾病对应关联的至少一个智能体策略，以便后续基于该至少一个智能体策略实现针对所述目标对象的主诉内容进行交互式问诊。

需要说明的是，在本发明的实施例中，所述基于强化学习的多智能体模型可以是预先建立的。作为一种示例，如图3所示，可通过以下步骤预先建立所述基于强化学习的多智能体模型：

S310，获取医生与病人的多个问诊信息流，并获取每个所述问诊信息流对应的疾病诊断标签；

例如，可从已有的医疗问诊对话数据库包括但不仅限于医学书籍、医学文献、医学报告、病例案例分析，同时也可包括模拟生成的患者与医生的问诊数据。由于这些医学数据都是经过相关医学专家精心编撰的，有着规范的标注化的格式。所以，本发明实施例可从这些数据库提取医生与患者的问诊信息流，同时获得问诊信息流最终的疾病诊断标签。

S320，根据所述多个问诊信息流和每个所述问诊信息流对应的疾病诊断标签建立奖励函数；

可选地，基于多智能体(multi-agent)的强化学习的方法，通过强化学习，并根据所述多个问诊信息流、以及每个所述问诊信息流对应的疾病诊断标签设置所述奖励函数。

S330，针对每一种疾病诊断标签相关的全部问诊信息流，构建对应的智能体；

可选地，建立基于强化学习的模型，针对基于多智能体的强化学习模型，每一种疾病诊断标签相关全部问诊流信息构建一个agent智能体。

S340，基于所述奖励函数，对每种疾病对应的智能体进行强化学习，获取每个疾病智能体的最优策略；

可选地，基于所述奖励函数，对每种疾病对应的智能体进行强化学习，最终根据不断的最大化奖励函数值，使每个智能体的最优策略(即Q^*(a,S)函数)，其中，S表示已知症状集合(s₁,s₂,…s_n)，a表示在当前症状状态下的最优选择行动，a∈S_unknown，S_unknown代表当前还没有被询问的症状集合。

S350，将所述每个疾病智能体的最优策略作为所述每个智能体策略，完成所述基于强化学习的多智能体模型的建立。

由此，通过上述步骤S310-步骤S350实现了所述基于强化学习的多智能体模型的建立。本发明实施例基于多智能体的强化学习优化智能问诊逻辑，即根据疾病医生的问诊数据，针对每一种疾病，构建一个智能体进行强化学习，获取每个智能体的最优策略Q^*(a,S)函数，从而完成所述基于强化学习的多智能体模型的建立。

S140，基于每个智能体策略，根据目标对象针对下一次交互需要提出的问题的交互选择进行交互式问诊。

可选地，在确定出与至少一个候选疾病对应关联的至少一个智能体策略之后，可根据所述至少一个智能体策略进行输出，给出每个智能体策略中的下一个问诊的症状(即下一次交互需要提出的问题)，然后，根据目标对象的交互选择,更新当前状态，然后智能体根据更新之后的状态，再次输出下一轮问诊症状。如此迭代，直到最终疾病概率满足一定的阈值或达到某种中断机制退出智能问诊。作为一种示例，可通过以下方式完成交互式问诊：

也就是说，在得到至少一个候选疾病对应关联的至少一个智能体策略之后，可对智能体策略进行输出，给出每个智能体策略中的下一轮症状问诊，目标对象可对下一轮症状问诊进行选择，将选择的选项作为下一次交互需要提出的问题，以完成一次问诊交互，并将选择的下一次交互需要提出的问题作为更新后的当前状态，然后每个智能体策略根据新的症状状态再次向所述目标对象提供新的下一次交互需要提出的问题，如此迭代完成患者和“医生”(即智能问诊系统)的交互，最终当疾病的行动概率大于或等于预设阈值时，智能问诊结束，并给出这之间交互问诊序列以及最终所预测的疾病，完成整个疾病问诊和预测流程。

为了使得本领域技术人员更加清楚地了解本发明，下面将举例说明。

举例而言，如图4所示，可获取目标对象的主诉内容，之后，可基于医学实体库对该主诉内容进行分词处理，得到与医疗相关的词语，并利用词向量化的技术将这些与医疗相关的词语进行词向量化，得到对应的词向量，并通过基于文本特征提取与疾病先验概率预测的组合模型，对得到的词向量进行文本特征提取，并根据提取到的文本特征进行疾病先验概率预测，得到针对所述目标对象的疾病先验概率，从而在一定范围内给出粗粒度疾病预测的候选集合。之后，可从预先建立的基于强化学习的多智能体模型中，确定出候选集合中的候选疾病对应关联的智能体策略。由于本发明实施例的基于多智能体的强化学习模型会针对每一种疾病学习一个智能体agent的策略，而真实情况下疾病数量很多，候选智能体agent过多可能会导致无法给出最终的策略，输出最终选择行动a(a∈S_unknown)。

因此，本发明实施例可结合基于组合的深层神经网络的疾病先验预测和基于多智能体的强化学习优化智能问诊逻辑这两种方法，并给出最终的策略生成，具体实现过程可如下：首先，可先通过基于文本特征提取与疾病先验概率预测的组合模型对目标对象的主诉内容进行疾病先验概率预测，得到预测疾病的先验概率Pprior之后,可根据预先设置的参数，选择top k(如先验概率排列在前k)的疾病；然后，根据所选top k的疾病，关联到相应强化学习生成智能体agent的策略Q_d(a,S)，根据当前的状态集合S，每一个智能体agent根据Q_d函数选择当前状态下最优的行动a_d，以及相应的Q(a_d,S)值q_d,然后考虑对q_d归一化得到相应的行动概率p_d，例如使用softmax函数，如下：

其中，上述公式中j表示一种可能的行动(即可能询问的症状)，这里对每一种行动j的可能值的指数值求和，作为分母，以起到归一化的作用。

最后，根据top k疾病构成的p向量，按概率采样输出最终的行动a^*(a∈S_unknown)。目标对象根据系统所给出的下一个症状a^*,进行回答，完成一次问诊交互，并改变当前状态集合(S_t->S_t+1),然后每个agent根据新的状态S_t+1)，计算Q_d(a,S_t+1)，然后依次迭代完成患者和“医生”(即智能问诊系统)的交互，最终当疾病的概率达到指定的阈值τ，智能问诊结束，并给出这之间交互问诊序列以及最终所预测的疾病d，完成整个疾病问诊和预测流程。

实验证明，本发明实施例的基于强化学习的智能问诊方法，在训练过程中考虑到了如何模拟医生的问诊逻辑，考虑到了患者与问诊系统的交互，从而在保证准确率的情况下，优化了问诊体验，使得问诊更加符合医生逻辑。

与上述几种实施例提供的智能问诊方法相对应，本发明的一种实施例还提供一种智能问诊系统，由于本发明实施例提供的智能问诊系统与上述几种实施例提供的智能问诊方法相对应，因此在前述智能问诊方法的实施方式也适用于本实施例提供的智能问诊系统，在本实施例中不再详细描述。图5是根据本发明一个实施例的智能问诊系统的结构示意图。如图5所示，该智能问诊系统500可以包括：疾病先验预测模块510、候选疾病确定模块520、智能体策略确定模块530和交互问诊模块540。

具体地，疾病先验预测模块510用于根据目标对象的主诉内容进行疾病先验概率预测，得到针对所述目标对象的疾病先验概率。作为一种示例，疾病先验预测模块510基于文本特征提取与疾病先验概率预测的组合模型，对所述目标对象的主诉内容进行文本特征提取，并根据提取到的文本特征进行疾病先验概率预测，得到针对所述目标对象的疾病先验概率。

作为一种示例，如图6所示，该智能问诊系统500还可包括：组合模型建立模块550，用于预先建立所述文本特征提取与疾病先验概率预测的组合模型。其中，在本发明的实施例中，如图6所示，该组合模型建立模块550可包括：分词单元551、标记单元552、训练数据生成单元553和模型训练单元554。其中，分词单元551用于基于医学实体库对待训练的患者主诉内容样本进行分词处理，得到与医疗相关的词语；标记单元552用于对所述与医疗相关的词语进行标记，得到所述词语所属的类别；训练数据生成单元553用于获取医疗文本数据样本作为训练数据，并利用医疗对话数据作为所述训练数据的标签；模型训练单元554用于根据所述与医疗相关的词语、所述词语所属的类别和进行过标签标注的所述训练数据，对基于双向长短时记忆单元和卷积神经网络的组合深层网络模型进行模型训练，得到所述文本特征提取与疾病先验概率预测的组合模型。

候选疾病确定模块520用于基于所述疾病先验概率的排序，确定至少一个候选疾病。

智能体策略确定模块530用于从预先建立的基于强化学习的多智能体模型中，确定与至少一个候选疾病对应关联的至少一个智能体策略，其中，每个智能体策略用于指示在当前症状状态的情况下输出下一次交互需要提出的问题。作为一种示例，如图7所示，该智能问诊系统500还可包括：多智能体模型建立模块560，用于预先建立所述基于强化学习的多智能体模型。其中，在本发明的实施例中，如图7所示，该多智能体模型建立模块560可包括：样本获取单元561、奖励函数建立单元562、智能体构建单元563和强化学习单元564。其中，样本获取单元561用于获取医生与病人的多个问诊信息流，并获取每个所述问诊信息流对应的疾病诊断标签；奖励函数建立单元562用于根据所述多个问诊信息流和每个所述问诊信息流对应的疾病诊断标签建立奖励函数；智能体构建单元563用于针对每一种疾病诊断标签相关的全部问诊信息流，构建对应的智能体；强化学习单元564用于基于所述奖励函数，对每种疾病对应的智能体进行强化学习，获取每个疾病智能体的最优策略，并将所述每个疾病智能体的最优策略作为所述每个智能体策略，完成所述基于强化学习的多智能体模型的建立。

交互问诊模块540用于基于所述每个智能体策略，根据所述目标对象针对所述下一次交互需要提出的问题的交互选择进行交互式问诊。作为一种示例，交互问诊模块540可通过以下方式实现交互式问诊：

为了实现上述实施例，本发明还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现本发明上述任一个实施例所述的智能问诊方法。

为了实现上述实施例，本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明上述任一个实施例所述的智能问诊方法。

图8示出了适于用来实现本发明实施例的示例性计算机设备的框图。图8显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合终端设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的智能问诊方法。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种智能问诊方法，其特征在于，包括以下步骤；

基于所述疾病先验概率的排序，确定至少一个候选疾病；

2.根据权利要求1所述的智能问诊方法，其特征在于，所述根据目标对象的主诉内容进行疾病先验概率预测，得到针对所述目标对象的疾病先验概率，包括：

3.根据权利要求2所述的智能问诊方法，其特征在于，所述文本特征提取与疾病先验概率预测的组合模型通过以下步骤预先得到：

4.根据权利要求1所述的智能问诊方法，其特征在于，通过以下步骤预先建立所述基于强化学习的多智能体模型：

5.根据权利要求1所述的智能问诊方法，其特征在于，所述基于所述每个智能体策略，根据所述目标对象针对所述下一次交互需要提出的问题的交互选择进行交互式问诊，包括：

6.一种智能问诊系统，其特征在于，包括：

7.根据权利要求6所述的智能问诊系统，其特征在于，所述疾病先验预测模块具体用于：

8.根据权利要求7所述的智能问诊系统，其特征在于，还包括：

其中，所述组合模型建立模块包括：

9.根据权利要求6所述的智能问诊系统，其特征在于，还包括：

其中，所述多智能体模型建立模块包括：

10.根据权利要求6所述的智能问诊系统，其特征在于，所述交互问诊模块具体用于：

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1至5中任一项所述的智能问诊方法。

12.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至5中任一项所述的智能问诊方法。