CN112287068A

CN112287068A - 基于人工智能的问诊对话数据处理方法及装置

Info

Publication number: CN112287068A
Application number: CN202011179187.8A
Authority: CN
Inventors: 柳恭; 刘道云; 周籽聪
Original assignee: Kangjian Information Technology Shenzhen Co Ltd
Current assignee: Kangjian Information Technology Shenzhen Co Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-29
Anticipated expiration: 2040-10-29
Also published as: CN112287068B

Abstract

本申请涉及人工智能，提供一种基于人工智能的问诊对话数据处理方法及装置，方法包括：获取与目标用户标识对应的目标问诊对话数据；从目标问诊对话数据中提取病症描述信息；将目标问诊对话数据和病症描述信息共同输入处理模型，通过处理模型输出多个候选症状描述文本；从多个候选症状描述文本，选取与目标问诊对话数据在逻辑关系上相互匹配的候选症状描述文本，得到目标症状描述文本；生成与目标症状描述文本相匹配的问诊应答数据并输出。采用本方法能够降低问诊对话的成本。此外，本申请还涉及区块链技术，用户的目标问诊会话数据可存储于区块链中。

Description

基于人工智能的问诊对话数据处理方法及装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于人工智能的问诊对话数据处理方法及装置。

背景技术

随着计算机技术的发展，对话系统的应用越来越广泛。通过对话系统中的对话语句，可以识别出对话状态，后续能够为用户提供相应的服务。具体在医疗领域中对话系统的应用也越来越普遍。比如用户可以通过在线问诊应用或者网站基于对话系统进行问诊。

然而，目前医疗领域的问诊对话系统的部署实施需要耗费较大的人力成本，而且需要配备较为有经验的工作人员进行维护整理，导致问诊对话系统的成本居高不下。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低问诊对话系统成本的基于人工智能的问诊对话数据处理方法、装置、计算机设备和存储介质。

一种基于人工智能的问诊对话数据处理方法，所述方法包括：

获取与目标用户标识对应的目标问诊对话数据；

从所述目标问诊对话数据中提取病症描述信息；

将所述目标问诊对话数据和所述病症描述信息共同输入处理模型，通过所述处理模型输出多个候选症状描述文本；所述处理模型基于历史问诊对话数据通过强化学习训练得到，且所述强化学习训练中的奖励包括局部对话症状匹配奖励和全局对话症状匹配奖励；

从所述多个候选症状描述文本，选取与所述目标问诊对话数据在逻辑关系上相互匹配的候选症状描述文本，得到目标症状描述文本；

生成与所述目标症状描述文本相匹配的问诊应答数据并输出。

在一个实施例中，所述处理模型的训练步骤包括：

获取初始化的处理模型以及历史问诊对话数据所对应的对话样本序列；所述对话样本序列包括按照问诊对话顺序交替出现的主诉内容样本和应答内容样本；每个诉述主诉内容样本各自存在一个对应的应答内容样本；

按照所述问诊对话顺序，将所述对话样本序列中的每个主诉内容样本作为当前处理样本，将所述当前处理样本和从所述当前处理样本中提取的病症描述信息样本共同输入所述处理模型，通过所述处理模型输出所述当前处理样本对应的多个预测症状描述文本；

根据所述多个预测症状描述文本、所述当前处理样本对应的当前应答样本以及所述当前处理样本所在对话样本序列所包括的、且位于所述当前应答样本之后的应答内容样本，确定所述多个预测症状描述文本的局部对话症状匹配奖励和全局对话症状匹配奖励；

基于所述局部对话症状匹配奖励和所述全局对话症状匹配奖励，对所述处理模型进行强化学习训练，以更新所述处理模型的模型参数。

在一个实施例中，所述强化学习训练中的奖励还包括症状先验奖励；所述方法还包括：

根据所述多个预测症状描述文本、及所述当前处理样本所在对话样本序列相应的诊断症状描述文本，确定所述多个预测症状描述文本的症状先验奖励；

所述基于所述局部对话症状匹配奖励和全局对话症状匹配奖励，对所述处理模型进行强化学习训练，以更新所述处理模型的模型参数，包括：

基于所述局部对话症状匹配奖励、所述全局对话症状匹配奖励和所述症状先验奖励，对所述处理模型进行强化学习训练，以更新所述处理模型的模型参数。

在一个实施例中，所述强化学习训练中的奖励还包括逻辑性奖励；所述方法还包括：

根据所述多个预测症状描述文本、所述当前处理样本以及所述当前处理样本所在对话样本序列所包括的、且位于所述当前处理样本之前的主诉内容样本，确定所述多个预测症状描述文本的逻辑性奖励；

所述基于所述局部对话症状匹配奖励、所述全局对话症状匹配奖励和所述症状先验奖励，对所述处理模型进行强化学习训练，以更新所述处理模型的模型参数，包括：

基于所述局部对话症状匹配奖励、所述全局对话症状匹配奖励、所述症状先验奖励和所述逻辑性奖励，对所述处理模型进行强化学习训练，以更新所述处理模型的模型参数。

在一个实施例中，所述从所述目标问诊对话数据中提取病症描述信息，包括：

识别所述目标问诊对话数据，得到所述目标问诊对话数据相应的问诊意图；

当所述问诊意图为症状查询意图时，提取所述目标问诊对话数据中的病症描述信息。

在一个实施例中，将所述目标问诊对话数据和所述病症描述信息共同输入处理模型，通过所述处理模型输出多个候选症状描述文本，包括：

将所述目标问诊对话数据和所述病症描述信息共同输入处理模型，通过所述处理模型输出多个候选症状描述文本以及各所述候选症状描述文本对应的预测概率；

所述从所述多个候选症状描述文本，选取与所述目标问诊对话数据在逻辑关系上相互匹配的候选症状描述文本，得到目标症状描述文本，包括：

按照各所述候选症状描述文本对应的预测概率的降序，从所述多个候选症状描述文本中依次获取候选症状描述文本，直至获取的候选症状描述文本与所述目标问诊对话数据在逻辑关系上相互匹配时，将获取的候选症状描述文本作为目标症状描述文本，并停止获取候选症状描述文本。

在一个实施例中，所述目标问诊对话数据存储于区块链中；所述方法还包括：

在所述目标问诊对话数据所在的问诊会话结束后，获取所述目标问诊对话数据所在问诊会话所对应的对话样本序列，用作模型更新样本；

采用所述模型更新样本，基于强化学习训练方式更新所述处理模型。

一种基于人工智能的问诊对话数据处理装置，所述装置包括：

获取模块，用于获取与目标用户标识对应的目标问诊对话数据；

提取模块，用于从所述目标问诊对话数据中提取病症描述信息；

处理模块，用于将所述目标问诊对话数据和所述病症描述信息共同输入处理模型，通过所述处理模型输出多个候选症状描述文本；所述处理模型基于历史问诊对话数据通过强化学习训练得到，且所述强化学习训练中的奖励包括局部对话症状匹配奖励和全局对话症状匹配奖励；

选取模块，用于从所述多个候选症状描述文本，选取与所述目标问诊对话数据在逻辑关系上相互匹配的候选症状描述文本，得到目标症状描述文本；

生成模块，用于生成与所述目标症状描述文本相匹配的问诊应答数据并输出。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取与目标用户标识对应的目标问诊对话数据；

从所述目标问诊对话数据中提取病症描述信息；

一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取与目标用户标识对应的目标问诊对话数据；

从所述目标问诊对话数据中提取病症描述信息；

上述基于人工智能的问诊对话数据处理方法、装置、计算机设备和存储介质，提出的基于强化学习的处理模型，利用已有的历史问诊对话数据进行定向训练，在训练过程中为了奖励模型更像自然人一样对话，引入局部对话症状匹配奖励和全局对话症状匹配奖励，通过这两种奖励可以引导处理模型在强化学习中更关注于更贴近自然人对话的真实信息，使得训练出的处理模型预测的症状描述文本更准确，从而采用基于该症状描述文本生成的应答数据与用户交互，更接近真实的对话过程，避免了对专家的高度依赖，降低了成本同时也具有一定的泛化性能。

附图说明

图1为一个实施例中基于人工智能的问诊对话数据处理方法的应用场景图；

图2为一个实施例中基于人工智能的问诊对话数据处理方法的流程示意图；

图3为一个实施例中基于人工智能的问诊对话数据处理方法的框图；

图4为一个实施例中基于人工智能的问诊对话数据处理装置的结构框图；

图5为另一个实施例中基于人工智能的问诊对话数据处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图；

图7为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于人工智能的问诊对话数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端102和服务器104均可用于单独执行该基于人工智能的问诊对话数据处理方法，终端102和服务器104也可共同用于执行该基于人工智能的问诊对话数据处理方法，终端102还可通过终端102上运行的问诊应用程序执行该基于人工智能的问诊对话数据处理方法。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于人工智能的问诊对话数据处理方法，以该方法应用于计算机设备为例进行说明，该计算机设备可以是图1中的终端或者服务器，该基于人工智能的问诊对话数据处理方法包括以下步骤：

步骤202，获取与目标用户标识对应的目标问诊对话数据。

其中，目标用户标识用于唯一标识一个用户。目标用户标识比如应用账号或者医院就诊卡号等。问诊会话是至少两个用户之间进行问诊交互的过程。至少两个用户包括与患者角色对应的用户和与医生角色对应的用户。与医生角色对应的用户可以是医生本人也可以是人工智能机器人。目标问诊对话数据是当前处理的问诊会话的问诊交互过程中产生的数据。

具体地，终端上可运行有在线问诊应用程序或者在线问诊网站，在线问诊应用程序或者在线问诊网站可提供问诊入口。用户通过终端基于问诊入口输入问诊对话数据以进行线上问诊。

在一个实施例中，目标问诊对话数据可以是语音数据、文本数据或者图像数据等。目标问诊对话数据具体可以是用户主诉内容。

具体地，与目标用户标识对应的目标问诊对话数据是与患者角色对应的问诊对话数据。其中，与患者角色对应的问诊会话数据，比如用户基本信息、症状描述信息、症状照片、医学检查报告或者既往史信息等。可以理解，问诊用户可以是患者本人也可以不是患者本人，比如替小孩或者老人问诊的场景。

在一个实施例中，目标问诊会话数据可以是一次问诊过程中一轮或者多轮问答中与患者角色对应的对话数据。这样可以在用户每次提供问诊对话数据时，可结合在前的问诊对话数据进行处理，以更加准确地生成问诊应答数据。

步骤204，从目标问诊对话数据中提取病症描述信息。

其中，病症描述信息是对病症进行描述的相关信息。病症描述信息包括用户主诉症状信息、用药信息、医学检查报告或者既往史信息等。

具体地，计算机设备从目标问诊对话数据中提取病症描述信息，可以对目标问诊对话数据进行分词处理，与传统文本的分词不同，针对医疗领域的文本，本申请实施例可建立一个专门的医学实体数据库。基于医学实体库的句子切分，可以将目标问诊对话数据分成多个分词，并根据多个分词提取出病症描述信息。

在一个实施例中，病症描述信息具体可以是病症描述文本。

在一个实施例中，步骤204，包括：识别目标问诊对话数据，得到目标问诊对话数据相应的问诊意图；当问诊意图为症状查询意图时，提取目标问诊对话数据中的病症描述信息。

具体地，计算机设备在获取到与目标用户标识对应的目标问诊对话数据，也就是通过用户操作输入的问诊对话数据后，先根据该问诊对话数据进行意图识别，得到用户基于当前问诊对话的问诊意图。计算机设备再在识别出问诊意图为症状查询意图时，提取目标问诊对话数据中的病症描述信息。若计算机设备识别出问诊意图不是症状查询意图，则通过另外的分支进行另外的处理。

在本实施例中，在用户的问诊意图是症状查询意图时，再从目标问诊对话数据中提取病症描述信息，避免对全部的问诊对话数据均进行处理，浪费资源。

步骤206，将目标问诊对话数据和病症描述信息共同输入处理模型，通过处理模型输出多个候选症状描述文本；处理模型基于历史问诊对话数据通过强化学习训练得到，且强化学习训练中的奖励包括局部对话症状匹配奖励和全局对话症状匹配奖励。

其中，强化学习是一种基于奖励假设的机器学习类型，模型通过执行操作和查看结果来了解如何在环境中执行操作，从而通过与环境互动并获得执行操作的奖励来学习环境。处理模型的输入为用户主诉内容和从用户主诉内容中提取的病症描述信息，处理模型的输出为多个候选症状描述文本。

可以理解，强化学习存在以下概念：环境的状态S：一个对话序列作为虚拟环境状态S，用户第i次提交主诉内容(用户回答第i句话)的时刻表示当前状态S_i；个体的动作A，医生响应用户第i句话的时刻的回复内容表示采取动作A_i，奖励R：医生在状态S_i时回复内容A_i对应的奖励为R_i+1，该奖励会在i+1时刻延时获得。个体的策略(policy)π：个体采取动作的依据，即个体会依据策略π来选择动作。最常见的策略表达方式是一个条件概率分布π(a|s)，即在状态s时采取动作a的概率，π(a|s)＝P(A_i＝a|S_i＝s)。个体在策略π和状态s时，采取行动后的价值(value)，一般用v_π(s)表示。价值函数v_π(s)一般可以表示为下式(不同场景下会有对应的一些价值函数变种)：

v_π(s)＝E(R_i+1+γR_i+2+γR_i+3+…|S_i＝s)

其中，γ为奖励衰减因子，取值在[0，1]之间。如果γ为0，则表示价值只由当前延时奖励决定；如果γ是1，则所有的后续状态奖励和当前奖励一视同仁；大多数时候γ会取一个0到1之间的数字，即当前延时奖励的权重比后续奖励的权重大。

由于在问诊过程中，当前成功并不代表问诊对话成功，故计算机设备设置强化学习的奖励至少包括局部对话症状匹配奖励和全局对话症状匹配奖励。

可以理解，历史问诊对话数据是历史上的真实问诊对话数据。局部对话匹配是指模型训练过程中，处理模型一次预测的症状描述文本所描述的症状，是否与实际问诊对话中当次的真实应答数据所对应的症状相匹配。局部对话症状匹配奖励则是模型训练过程中，处理模型一次预测的症状描述文本所描述的症状，与实际问诊对话中当次的真实应答数据所对应的症状是否相匹配的奖励。全局对话匹配是指模型训练过程中，处理模型一次预测的症状描述文本所描述的症状，是否与实际问诊对话中当次之后的真实应答数据所对应的症状相匹配。全局对话症状匹配奖励则是模型训练过程中，处理模型一次预测的症状描述文本所描述的症状，与实际问诊对话中当次之后的真实应答数据所对应的症状是否相匹配的奖励。

具体地，计算机设备获取到与目标用户标识对应的目标问诊对话数据，并从该目标问诊对话数据中提取出病症描述信息后，可以将目标问诊对话数据和病症描述信息共同输入处理模型，通过处理模型进行处理，然后输出多个候选症状描述文本。这多个候选症状描述文本是处理模型根据目标问诊对话数据和病症描述信息，预测的用户可能存在的症状的描述信息。

在一个实施例中，将目标问诊对话数据和病症描述信息共同输入处理模型，通过处理模型输出多个候选症状描述文本，包括：将目标问诊对话数据和病症描述信息共同输入处理模型，通过处理模型输出多个候选症状描述文本以及各候选症状描述文本对应的预测概率。

可以理解，在输出为多个候选症状描述文本时，每个候选症状描述文本是用户可能存在的症状的描述信息的概率可能不同。那么处理模型还可以输出每个候选症状描述文本对应的预测概率，候选症状描述文本对应的预测概率越大，表示候选症状描述文本是的可能性越高。

步骤208，从多个候选症状描述文本，选取与目标问诊对话数据在逻辑关系上相互匹配的候选症状描述文本，得到目标症状描述文本。

其中，候选症状描述文本与目标问诊对话数据在逻辑关系上相互匹配，是指候选症状描述文本与目标问诊对话数据不存在逻辑关系上的矛盾。比如，若在问诊对话过程中，用户主诉内容已经表明患者为男性，此时如果输出生理期相关的候选症状描述文本，则该候选症状描述文本与目标问诊对话数据不符合逻辑。

在一个实施例中，步骤208，包括：按照各候选症状描述文本对应的预测概率的降序，从多个候选症状描述文本中依次获取候选症状描述文本，直至获取的候选症状描述文本与目标问诊对话数据在逻辑关系上相互匹配时，将获取的候选症状描述文本作为目标症状描述文本，并停止获取候选症状描述文本。

具体地，计算机设备在得到处理模型输出的多个候选症状描述文本，以及各候选症状描述文本对应的预测概率后，按照预测概率的降序对相应的候选症状描述文本进行排序。计算机设备再对排序后的候选症状描述文本，从首个候选症状描述文本起，按顺序获取候选症状描述文本来判断其与目标问诊对话数据在逻辑关系上是否相互匹配，若不匹配，则继续获取并判断下一个候选症状描述文本与目标问诊对话数据在逻辑关系上是否相互匹配；若匹配，则获取该候选症状描述文本作为目标症状描述文本，并停止获取候选症状描述文本。

在本实施例中，在真实对话场景中真实策略输出通过外部逻辑性补偿策略，能够在一定程度上避免在对话过程中输出与逻辑相悖的累赘问题。

步骤210，生成与目标症状描述文本相匹配的问诊应答数据并输出。

具体地，计算机设备在得到与目标问诊对话数据在逻辑关系上相互匹配的目标症状描述文本时，基于与该目标症状描述文本的话术模板生成问诊应答数据，再将该问诊应答数据在问诊会话中输出。

可以理解，在本申请中，用户在启动在线问诊应用程序后，输入问诊对话数据开启问诊对话后，处理模型会基于当前用户的问诊对话数据进行输出，在线问诊应用程序根据模型输出给出本轮问诊的问诊应答数据反馈至用户，以完成一轮问诊对话。用户会再基于该反馈输入新的问诊对话数据进继续问诊，处理模型则再根据新的问诊对话数据进行输出，在线问诊应用程序则再根据模型输出再次向用户提供新的问诊应答数据，如此迭代完成“患者”和“医生”的问诊交互，最终当某轮对话的目标候选症状描述文本的预测概率大于或等于预设阈值、或者达到某个中断条件时，问诊结束，并给出最后所预测的目标候选症状描述文本，完成整个问诊和预测流程。

上述基于人工智能的问诊对话数据处理方法，提出的基于强化学习的处理模型，利用已有的历史问诊对话数据进行定向训练，在训练过程中为了奖励模型更像自然人一样对话，引入局部对话症状匹配奖励和全局对话症状匹配奖励，通过这两种奖励可以引导处理模型在强化学习中更关注于更贴近自然人对话的真实信息，使得训练出的处理模型预测的症状描述文本更准确，从而采用基于该症状描述文本生成的应答数据与用户交互，更接近真实的对话过程，避免了对专家的高度依赖，降低了成本同时也具有一定的泛化性能。

在一个实施例中，目标问诊对话数据存储于区块链中。需要强调的是，为进一步保证上述目标问诊对话数据的私密和安全性，上述目标问诊对话数据还可以存储于一区块链的节点中。

举例说明，图3示出了一个实施例中使用处理模型的流程框图。参考图3可以看出，在用户输入问诊对话数据后，问诊应用程序对问诊对话数据进行意图识别，在识别出症状查询意图后，从问诊对话数据提取病症描述信息，然后根据问诊对话数据和病症描述信息再基于奖励设置采用训练器进行强化学习训练，得到应答策略(目标症状描述文本)，最后基于应答策略生成应答数据。

关于前述实施例中涉及的处理模型的训练步骤的具体内容，可以参考以下实施例中的具体描述。

在一个实施例中，处理模型的训练步骤包括：获取初始化的处理模型以及历史问诊对话数据所对应的对话样本序列；对话样本序列包括按照问诊对话顺序交替出现的主诉内容样本和应答内容样本；每个诉述主诉内容样本各自存在一个对应的应答内容样本；按照问诊对话顺序，将对话样本序列中的每个主诉内容样本作为当前处理样本，将当前处理样本和从当前处理样本中提取的病症描述信息样本共同输入处理模型，通过处理模型输出当前处理样本对应的多个预测症状描述文本；根据多个预测症状描述文本、当前处理样本对应的当前应答样本以及当前处理样本所在对话样本序列所包括的、且位于当前应答样本之后的应答内容样本，确定多个预测症状描述文本的局部对话症状匹配奖励和全局对话症状匹配奖励；基于局部对话症状匹配奖励和全局对话症状匹配奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

可以理解，一个对话样本序列包括多个对话轮次的对话语句，每个对话轮次的对话语句包括主诉语句和主诉语句对应的应答语句。由于在用户进行问诊的过程中，用户输入一句主诉语句，对话系统回复一句应答语句，则在确定对话轮次时，可以将用户输入的主诉语句及之后的应答语句作为一个对话轮次，则每个对话轮次均包括一个主诉语句和一个应答语句。其中，再将问诊对话数据所对应的对话样本序列用作模型训练样本时，主诉语句可用作主诉内容样本，应答语句可用作应答内容样本，两者交替出现。

具体地，计算机设备可收集历史问诊对话数据，将收集的历史问诊对话数据清洗为对话样本序列，按照对话样本序列的对话顺序将对话样本序列中的每个主诉内容样本作为当前处理样本，将当前处理样本和从当前处理样本中提取的病症描述信息样本共同输入处理模型，通过处理模型输出当前处理样本对应的多个预测症状描述文本；根据多个预测症状描述文本、当前处理样本对应的当前应答样本以及当前处理样本所在对话样本序列所包括的、且位于当前应答样本之后的应答内容样本，确定多个预测症状描述文本的局部对话症状匹配奖励和全局对话症状匹配奖励；基于局部对话症状匹配奖励和全局对话症状匹配奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

在一个具体的实施例中，局部对话症状匹配奖励具体通过以下公式计算得到：

R¹＝1/Match_pos(symptom_current，symptom′_list)

其中，R¹表示一个主诉内容样本的局部对话症状匹配奖励，symptom_current为当前环境下该主诉内容样本对应的应答内容样本所对应的真实症状描述文本。symptom′_list为当前基于该主诉内容样本预测的多个预测症状描述文本的列表。计算机设备会从该列表中选择概率最大的预测症状描述文本，来生成问诊应答数据进行输出。Match_pos(symptom_current，symptom′_list)表示symptom_current在symptom′_list中列表位置，即历史真实对话中的问诊应答数据所对应的症状描述文本在模型预测的列表中的位置，在本申请中，将其倒数作为局部对话症状匹配奖励。

举例说明，假设一个对话样本序列为：主诉内容样本1→应答内容样本1→主诉内容样本2→应答内容样本2→…→主诉内容样本i→应答内容样本i→…→主诉内容样本n→应答内容样本n。在模型训练时，将主诉内容样本i和从主诉内容样本i中提取的病症描述信息样本共同输入处理模型，通过处理模型输出主诉内容样本i对应的多个预测症状描述文本的列表(word1→word2→…→wordj→…→wordm)。此时，symptom_current为应答内容样本i所对应的症状描述文本word2，symptom′_list为模型输出的列表。word2在列表中的位置为第二，则此时的局部对话症状匹配奖励为1/2。

在一个具体的实施例中，全局对话症状匹配奖励具体通过以下公式计算得到：

R²＝isMatch(symptom_fulltalk，symptom′)

其中，symptom_fulltalk为一个对话样本序列中包括的应答内容样本所对应的症状描述文本列表，symptom′为基于一个主诉内容样本预测出来的预测症状描述文本列表中排序第一的预测症状描述文本。R²表示全局对话症状匹配奖励，即处理模型一次预测的症状描述文本所描述的症状，与实际问诊对话中当次之后的真实应答数据所对应的症状是否相匹配的奖励。如果匹配则为1，不匹配则为0。也就是symptom′是否在symptom_fulltalk中，如果是则为1，不是则为0。

举例说明，假设一个对话样本序列为：主诉内容样本1→应答内容样本1→主诉内容样本2→应答内容样本2→…→主诉内容样本i→应答内容样本i→…→主诉内容样本n→应答内容样本n。在模型训练时，将主诉内容样本i和从主诉内容样本i中提取的病症描述信息样本共同输入处理模型，通过处理模型输出主诉内容样本i对应的多个预测症状描述文本的列表(word1→word2→…→wordj→…→wordm)。若word1在应答内容样本1至应答内容样本n所对应的症状描述文本列表中，则此时的全局对话症状匹配奖励为1；若word1不在应答内容样本1至应答内容样本n所对应的症状描述文本列表中，则此时的全局对话症状匹配奖励为0。

在一个实施例中，计算机设备在模型训练过程中如果对话轮次超过N时，可以终止使用该对话样本序列继续进行训练。

上述实施例中，在训练过程中引入局部对话症状匹配奖励和全局对话症状匹配奖励，通过这两种奖励可以引导处理模型在强化学习中更关注于更贴近自然人对话的真实信息，使得训练出的处理模型预测的症状描述文本更准确，从而采用基于该症状描述文本生成的应答数据与用户交互，更接近真实的对话过程，还避免了对专家的高度依赖，同时也具有一定的泛化性能。

在一个实施例中，强化学习训练中的奖励还包括症状先验奖励。

在一个实施例中，该基于人工智能的问诊对话数据处理方法还包括：根据多个预测症状描述文本、及当前处理样本所在对话样本序列相应的诊断症状描述文本，确定多个预测症状描述文本的症状先验奖励。基于局部对话症状匹配奖励和全局对话症状匹配奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数，包括：基于局部对话症状匹配奖励、全局对话症状匹配奖励和症状先验奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

其中，症状先验奖励，是指问诊对话过程中处理模型的一次预测症状描述文本与问诊对话过程最终确定疾病的主要症状描述文本列表间是否相匹配的奖励。

在一个具体的实施例中，症状先验奖励具体通过以下公式计算得到：

R³＝isIn disease mainsymtom set(symptom^′)

其中，symptom^′为基于一个主诉内容样本预测出来的预测症状描述文本列表中排序第一的预测症状描述文本。R³表示症状先验奖励，即基于一个主诉内容样本预测出来的预测症状描述文本列表中排序第一的预测症状描述文本，是否在最终确定疾病的主要症状描述文本列表中。如果在则为1，不在为0。

举例说明，假设一个对话样本序列为：主诉内容样本1→应答内容样本1→主诉内容样本2→应答内容样本2→…→主诉内容样本i→应答内容样本i→…→主诉内容样本n→应答内容样本n。在模型训练时，将主诉内容样本i和从主诉内容样本i中提取的病症描述信息样本共同输入处理模型，通过处理模型输出主诉内容样本i对应的多个预测症状描述文本的列表(word1→word2→…→wordj→…→wordm)。若word1在最终确定疾病的主要症状描述文本列表中，则此时的症状先验奖励为1；若word1不在最终确定疾病的主要症状描述文本列表中，则此时的症状先验奖励为0。

具体地，计算机设备可按照对话样本序列的对话顺序将对话样本序列中的每个主诉内容样本作为当前处理样本，将当前处理样本和从当前处理样本中提取的病症描述信息样本共同输入处理模型，通过处理模型输出当前处理样本对应的多个预测症状描述文本；根据多个预测症状描述文本、当前处理样本对应的当前应答样本以及当前处理样本所在对话样本序列所包括的、且位于当前应答样本之后的应答内容样本，确定多个预测症状描述文本的局部对话症状匹配奖励和全局对话症状匹配奖励；根据多个预测症状描述文本、及当前处理样本所在对话样本序列相应的诊断症状描述文本，确定多个预测症状描述文本的症状先验奖励；基于局部对话症状匹配奖励、全局对话症状匹配奖励和症状先验奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

在本实施例中，在训练过程中进一步引入症状先验奖励，有效补充真实问诊中可能存在的多路径问题，增加模型得到奖励的机会，同时避免模型在生成有效策略但在真实问诊中未发生时受到不合理惩罚的可能，使得训练出的处理模型预测的症状描述文本更准确。

在一个实施例中，强化学习训练中的奖励还包括逻辑性奖励。

在一个实施例中，该基于人工智能的问诊对话数据处理方法还包括：根据多个预测症状描述文本、当前处理样本以及当前处理样本所在对话样本序列所包括的、且位于当前处理样本之前的主诉内容样本，确定多个预测症状描述文本的逻辑性奖励。基于局部对话症状匹配奖励、全局对话症状匹配奖励和症状先验奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数包括：基于局部对话症状匹配奖励、全局对话症状匹配奖励、症状先验奖励和逻辑性奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

其中，逻辑性奖励，是指问诊对话过程中处理模型的一次预测症状描述文本是否符合逻辑的奖励。

在一个具体的实施例中，逻辑性奖励具体通过以下公式计算得到：

R⁴＝isMatchLogic(symptom′_history,symptom′)

其中，symptom^′为基于一个主诉内容样本i预测出来的预测症状描述文本列表中排序第一的预测症状描述文本。symptom′_history为该主诉内容样本i之前的主诉内容样本。R⁴表示逻辑性奖励。符合逻辑则为1，否则为0。比如，若在问诊对话过程中，主诉内容样本已经表明患者为男性，此时如果输出孕期相关的候选症状描述文本，就是不符合逻辑，返回0；否则返回1。

举例说明，假设一个对话样本序列为：主诉内容样本1→应答内容样本1→主诉内容样本2→应答内容样本2→…→主诉内容样本i→应答内容样本i→…→主诉内容样本n→应答内容样本n。在模型训练时，将主诉内容样本i和从主诉内容样本i中提取的病症描述信息样本共同输入处理模型，通过处理模型输出主诉内容样本i对应的多个预测症状描述文本的列表(word1→word2→…→wordj→…→wordm)。若word1与主诉内容样本1至应答内容样本i在逻辑关系上匹配，则此时的逻辑性奖励为1；若word1与主诉内容样本1至应答内容样本i在逻辑关系上不匹配，则此时的逻辑性奖励为0。

具体地，计算机设备可按照对话样本序列的对话顺序将对话样本序列中的每个主诉内容样本作为当前处理样本，将当前处理样本和从当前处理样本中提取的病症描述信息样本共同输入处理模型，通过处理模型输出当前处理样本对应的多个预测症状描述文本；根据多个预测症状描述文本、当前处理样本对应的当前应答样本以及当前处理样本所在对话样本序列所包括的、且位于当前应答样本之后的应答内容样本，确定多个预测症状描述文本的局部对话症状匹配奖励和全局对话症状匹配奖励；根据多个预测症状描述文本、及当前处理样本所在对话样本序列相应的诊断症状描述文本，确定多个预测症状描述文本的症状先验奖励；根据多个预测症状描述文本、当前处理样本以及当前处理样本所在对话样本序列所包括的、且位于当前处理样本之前的主诉内容样本，确定多个预测症状描述文本的逻辑性奖励；基于局部对话症状匹配奖励、全局对话症状匹配奖励、症状先验奖励和逻辑性奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

在一个实施例中，计算机设备可基于局部对话症状匹配奖励、全局对话症状匹配奖励、症状先验奖励和逻辑性奖励得到汇总奖励，根据汇总奖励对处理模型进行强化学习训练，以更新处理模型的模型参数。

其中，汇总奖励为R＝α₁*R¹+α₂*R²+α₃*R³+α₄*R⁴。其中α₁、α₂、α₃、α₄为个性化权重参数，可以按照实际评价指标进行一定的调整。

在一个实施例中，目标问诊对话数据存储于区块链中；该基于人工智能的问诊对话数据处理方法还包括：在目标问诊对话数据所在的问诊会话结束后，获取目标问诊对话数据所在问诊会话所对应的对话样本序列，用作模型更新样本；采用模型更新样本，基于强化学习训练方式更新处理模型。

具体地，计算机设备可在产生新的问诊对话数据后，定时获取最新的问诊对话数据所在问诊会话所对应的对话样本序列，用作模型更新样本；采用模型更新样本，基于强化学习训练方式更新处理模型。这样既保证了处理模型具有较好的泛化性能，也可以自动学习感知最新的热点内容。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于人工智能的问诊对话数据处理装置，包括：获取模块401、提取模块402、处理模块403、选取模块404和生成模块405，其中：

获取模块401，用于获取与目标用户标识对应的目标问诊对话数据；

提取模块402，用于从目标问诊对话数据中提取病症描述信息；

处理模块403，用于将目标问诊对话数据和病症描述信息共同输入处理模型，通过处理模型输出多个候选症状描述文本；处理模型基于历史问诊对话数据通过强化学习训练得到，且强化学习训练中的奖励包括局部对话症状匹配奖励和全局对话症状匹配奖励；

选取模块404，用于从多个候选症状描述文本，选取与目标问诊对话数据在逻辑关系上相互匹配的候选症状描述文本，得到目标症状描述文本；

生成模块405，用于生成与目标症状描述文本相匹配的问诊应答数据并输出。

在一个实施例中，如图5所示，基于人工智能的问诊对话数据处理装置还包括：训练模块406，用于获取初始化的处理模型以及历史问诊对话数据所对应的对话样本序列；对话样本序列包括按照问诊对话顺序交替出现的主诉内容样本和应答内容样本；每个诉述主诉内容样本各自存在一个对应的应答内容样本；按照问诊对话顺序，将对话样本序列中的每个主诉内容样本作为当前处理样本，将当前处理样本和从当前处理样本中提取的病症描述信息样本共同输入处理模型，通过处理模型输出当前处理样本对应的多个预测症状描述文本；根据多个预测症状描述文本、当前处理样本对应的当前应答样本以及当前处理样本所在对话样本序列所包括的、且位于当前应答样本之后的应答内容样本，确定多个预测症状描述文本的局部对话症状匹配奖励和全局对话症状匹配奖励；基于局部对话症状匹配奖励和全局对话症状匹配奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

在一个实施例中，强化学习训练中的奖励还包括症状先验奖励。训练模块406还用于根据多个预测症状描述文本、及当前处理样本所在对话样本序列相应的诊断症状描述文本，确定多个预测症状描述文本的症状先验奖励；基于局部对话症状匹配奖励、全局对话症状匹配奖励和症状先验奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

在一个实施例中，强化学习训练中的奖励还包括逻辑性奖励。训练模块406还用于根据多个预测症状描述文本、当前处理样本以及当前处理样本所在对话样本序列所包括的、且位于当前处理样本之前的主诉内容样本，确定多个预测症状描述文本的逻辑性奖励；基于局部对话症状匹配奖励、全局对话症状匹配奖励、症状先验奖励和逻辑性奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

在一个实施例中，提取模块402还用于识别目标问诊对话数据，得到目标问诊对话数据相应的问诊意图；当问诊意图为症状查询意图时，提取目标问诊对话数据中的病症描述信息。

在一个实施例中，处理模块403还用于将目标问诊对话数据和病症描述信息共同输入处理模型，通过处理模型输出多个候选症状描述文本以及各候选症状描述文本对应的预测概率；选取模块404还用于按照各候选症状描述文本对应的预测概率的降序，从多个候选症状描述文本中依次获取候选症状描述文本，直至获取的候选症状描述文本与目标问诊对话数据在逻辑关系上相互匹配时，将获取的候选症状描述文本作为目标症状描述文本，并停止获取候选症状描述文本。

在一个实施例中，目标问诊对话数据存储于区块链中。训练模块406还用于在目标问诊对话数据所在的问诊会话结束后，获取目标问诊对话数据所在问诊会话所对应的对话样本序列，用作模型更新样本；采用模型更新样本，基于强化学习训练方式更新处理模型。

上述基于人工智能的问诊对话数据处理装置，提出的基于强化学习的处理模型，利用已有的历史问诊对话数据进行定向训练，在训练过程中为了奖励模型更像自然人一样对话，引入局部对话症状匹配奖励和全局对话症状匹配奖励，通过这两种奖励可以引导处理模型在强化学习中更关注于更贴近自然人对话的真实信息，使得训练出的处理模型预测的症状描述文本更准确，从而采用基于该症状描述文本生成的应答数据与用户交互，更接近真实的对话过程，避免了对专家的高度依赖，降低了成本同时也具有一定的泛化性能。

关于基于人工智能的问诊对话数据处理装置的具体限定可以参见上文中对于基于人工智能的问诊对话数据处理方法的限定，在此不再赘述。上述基于人工智能的问诊对话数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于人工智能的问诊对话数据处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的问诊对话数据处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的问诊对话数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6-7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取与目标用户标识对应的目标问诊对话数据；从目标问诊对话数据中提取病症描述信息；将目标问诊对话数据和病症描述信息共同输入处理模型，通过处理模型输出多个候选症状描述文本；处理模型基于历史问诊对话数据通过强化学习训练得到，且强化学习训练中的奖励包括局部对话症状匹配奖励和全局对话症状匹配奖励；从多个候选症状描述文本，选取与目标问诊对话数据在逻辑关系上相互匹配的候选症状描述文本，得到目标症状描述文本；生成与目标症状描述文本相匹配的问诊应答数据并输出。

在一个实施例中，处理器执行计算机程序时还实现处理模型的训练步骤，该训练步骤包括：获取初始化的处理模型以及历史问诊对话数据所对应的对话样本序列；对话样本序列包括按照问诊对话顺序交替出现的主诉内容样本和应答内容样本；每个诉述主诉内容样本各自存在一个对应的应答内容样本；按照问诊对话顺序，将对话样本序列中的每个主诉内容样本作为当前处理样本，将当前处理样本和从当前处理样本中提取的病症描述信息样本共同输入处理模型，通过处理模型输出当前处理样本对应的多个预测症状描述文本；根据多个预测症状描述文本、当前处理样本对应的当前应答样本以及当前处理样本所在对话样本序列所包括的、且位于当前应答样本之后的应答内容样本，确定多个预测症状描述文本的局部对话症状匹配奖励和全局对话症状匹配奖励；基于局部对话症状匹配奖励和全局对话症状匹配奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

在一个实施例中，强化学习训练中的奖励还包括症状先验奖励；处理器执行计算机程序时还实现以下步骤：根据多个预测症状描述文本、及当前处理样本所在对话样本序列相应的诊断症状描述文本，确定多个预测症状描述文本的症状先验奖励；基于局部对话症状匹配奖励和全局对话症状匹配奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数，包括：基于局部对话症状匹配奖励、全局对话症状匹配奖励和症状先验奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

在一个实施例中，强化学习训练中的奖励还包括逻辑性奖励；处理器执行计算机程序时还实现以下步骤：根据多个预测症状描述文本、当前处理样本以及当前处理样本所在对话样本序列所包括的、且位于当前处理样本之前的主诉内容样本，确定多个预测症状描述文本的逻辑性奖励；基于局部对话症状匹配奖励、全局对话症状匹配奖励和症状先验奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数，包括：基于局部对话症状匹配奖励、全局对话症状匹配奖励、症状先验奖励和逻辑性奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

在一个实施例中，从目标问诊对话数据中提取病症描述信息，包括：识别目标问诊对话数据，得到目标问诊对话数据相应的问诊意图；当问诊意图为症状查询意图时，提取目标问诊对话数据中的病症描述信息。

在一个实施例中，将目标问诊对话数据和病症描述信息共同输入处理模型，通过处理模型输出多个候选症状描述文本，包括：将目标问诊对话数据和病症描述信息共同输入处理模型，通过处理模型输出多个候选症状描述文本以及各候选症状描述文本对应的预测概率；从多个候选症状描述文本，选取与目标问诊对话数据在逻辑关系上相互匹配的候选症状描述文本，得到目标症状描述文本，包括：按照各候选症状描述文本对应的预测概率的降序，从多个候选症状描述文本中依次获取候选症状描述文本，直至获取的候选症状描述文本与目标问诊对话数据在逻辑关系上相互匹配时，将获取的候选症状描述文本作为目标症状描述文本，并停止获取候选症状描述文本。

在一个实施例中，目标问诊对话数据存储于区块链中；处理器执行计算机程序时还实现以下步骤：在目标问诊对话数据所在的问诊会话结束后，获取目标问诊对话数据所在问诊会话所对应的对话样本序列，用作模型更新样本；采用模型更新样本，基于强化学习训练方式更新处理模型。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取与目标用户标识对应的目标问诊对话数据；从目标问诊对话数据中提取病症描述信息；将目标问诊对话数据和病症描述信息共同输入处理模型，通过处理模型输出多个候选症状描述文本；处理模型基于历史问诊对话数据通过强化学习训练得到，且强化学习训练中的奖励包括局部对话症状匹配奖励和全局对话症状匹配奖励；从多个候选症状描述文本，选取与目标问诊对话数据在逻辑关系上相互匹配的候选症状描述文本，得到目标症状描述文本；生成与目标症状描述文本相匹配的问诊应答数据并输出。

在一个实施例中，计算机程序被处理器执行时还实现处理模型的训练步骤，该训练步骤包括：获取初始化的处理模型以及历史问诊对话数据所对应的对话样本序列；对话样本序列包括按照问诊对话顺序交替出现的主诉内容样本和应答内容样本；每个诉述主诉内容样本各自存在一个对应的应答内容样本；按照问诊对话顺序，将对话样本序列中的每个主诉内容样本作为当前处理样本，将当前处理样本和从当前处理样本中提取的病症描述信息样本共同输入处理模型，通过处理模型输出当前处理样本对应的多个预测症状描述文本；根据多个预测症状描述文本、当前处理样本对应的当前应答样本以及当前处理样本所在对话样本序列所包括的、且位于当前应答样本之后的应答内容样本，确定多个预测症状描述文本的局部对话症状匹配奖励和全局对话症状匹配奖励；基于局部对话症状匹配奖励和全局对话症状匹配奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

在一个实施例中，强化学习训练中的奖励还包括症状先验奖励；计算机程序被处理器执行时还实现以下步骤：根据多个预测症状描述文本、及当前处理样本所在对话样本序列相应的诊断症状描述文本，确定多个预测症状描述文本的症状先验奖励；基于局部对话症状匹配奖励和全局对话症状匹配奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数，包括：基于局部对话症状匹配奖励、全局对话症状匹配奖励和症状先验奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

在一个实施例中，强化学习训练中的奖励还包括逻辑性奖励；计算机程序被处理器执行时还实现以下步骤：根据多个预测症状描述文本、当前处理样本以及当前处理样本所在对话样本序列所包括的、且位于当前处理样本之前的主诉内容样本，确定多个预测症状描述文本的逻辑性奖励；基于局部对话症状匹配奖励、全局对话症状匹配奖励和症状先验奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数，包括：基于局部对话症状匹配奖励、全局对话症状匹配奖励、症状先验奖励和逻辑性奖励，对处理模型进行强化学习训练，以更新处理模型的模型参数。

在一个实施例中，目标问诊对话数据存储于区块链中；计算机程序被处理器执行时还实现以下步骤：在目标问诊对话数据所在的问诊会话结束后，获取目标问诊对话数据所在问诊会话所对应的对话样本序列，用作模型更新样本；采用模型更新样本，基于强化学习训练方式更新处理模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于人工智能的问诊对话数据处理方法，其特征在于，所述方法包括：

获取与目标用户标识对应的目标问诊对话数据；

从所述目标问诊对话数据中提取病症描述信息；

2.根据权利要求1所述的方法，其特征在于，所述处理模型的训练步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述强化学习训练中的奖励还包括症状先验奖励；所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述强化学习训练中的奖励还包括逻辑性奖励；所述方法还包括：

所述基于所述局部对话症状匹配奖励、所述全局对话症状匹配奖励和所述症状先验奖励，对所述处理模型进行强化学习训练，以更新所述处理模型的模型参数包括：

5.根据权利要求2所述的方法，其特征在于，所述目标问诊对话数据存储于区块链中；所述方法还包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述从所述目标问诊对话数据中提取病症描述信息，包括：

7.根据权利要求1-5中任一项所述的方法，其特征在于，将所述目标问诊对话数据和所述病症描述信息共同输入处理模型，通过所述处理模型输出多个候选症状描述文本，包括：

8.一种基于人工智能的问诊对话数据处理装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5或6或7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5或6或7中任一项所述的方法的步骤。