CN112397197A

CN112397197A - 基于人工智能的问诊数据处理方法及装置

Info

Publication number: CN112397197A
Application number: CN202011283030.XA
Authority: CN
Inventors: 傅欣雨
Original assignee: Kangjian Information Technology Shenzhen Co Ltd
Current assignee: Kangjian Information Technology Shenzhen Co Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-23

Abstract

本申请涉及人工智能，提供一种基于人工智能的问诊数据处理方法及装置，方法包括：获取与目标用户标识对应的目标问诊提问数据；在语料库中查询与目标问诊提问数据相似的多个参考问诊提问数据，并获取参考问诊提问数据对应的参考问诊应答数据作为候选问诊应答数据；基于目标问诊提问数据与各候选问诊应答数据创建问答数据对；将各问答数据对分别输入深度学习模型，得到各问答数据对相应的匹配置信度；从问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对，并输出选中的问答数据对中的候选问诊应答数据。采用本方法能够提高问诊效率。此外，本申请还涉及区块链技术，用户的目标问诊提问数据可存储于区块链中。

Description

基于人工智能的问诊数据处理方法及装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于人工智能的问诊数据处理方法及装置。

背景技术

随着计算机技术的发展，对话系统的应用越来越广泛。基于对话系统中用户的对话语句，为用户提供相应的服务。具体在医疗领域中对话系统的应用也越来越普遍，比如用户可以通过在线问诊应用或者在线问诊网站基于对话系统进行问诊。然而，目前医疗领域的问诊对话系统，用户输入问题或者疑惑后，需要医生人工回复，而且不同用户会存在类似的问题，医生需要进行大量重复性工作，导致问诊效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高问诊效率的基于人工智能的问诊数据处理方法、装置、计算机设备和存储介质。

一种基于人工智能的问诊数据处理方法，所述方法包括：

获取与目标用户标识对应的目标问诊提问数据；

在语料库中查询与所述目标问诊提问数据相似的多个参考问诊提问数据，并获取所述参考问诊提问数据对应的参考问诊应答数据作为候选问诊应答数据；

基于所述目标问诊提问数据与各所述候选问诊应答数据创建问答数据对；

将各所述问答数据对分别输入深度学习模型，得到各所述问答数据对相应的匹配置信度；所述深度学习模型根据正样本和负样本训练得到，所述正样本和所述负样本均包括问诊提问数据样本和问诊应答数据样本，在所述正样本中问诊应答数据样本为问诊提问数据样本的真实问诊应答数据，在所述负样本中问诊应答数据样本为问诊提问数据样本的伪问诊应答数据；

从所述问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对，并输出选中的所述问答数据对中的候选问诊应答数据。

在一个实施例中，所述深度学习模型根据样本组训练得到，每个所述样本组包括一个正样本和与所述正样本对应的至少一个负样本，每个所述样本组中的正样本和负样本包括相同的问诊提问数据样本。

在一个实施例中，所述正样本的生成步骤包括：

收集历史问诊对话数据；

对所述历史问诊对话数据进行清洗，得到多个结构化的历史问答数据对；每个所述历史问答数据对包括历史问诊提问数据和与所述历史问诊提问数据对应的历史问诊应答数据；

将所述历史问答数据对作为正样本；

所述正样本对应的至少一个负样本的生成步骤包括：

将其中一个正样本作为当前正样本；

将所述当前正样本中的问诊提问数据样本，与除所述当前正样本外的至少一个正样本中的问诊应答数据样本组成问答数据对，得到所述当前正样本对应的至少一个负样本。

在一个实施例中，所述深度学习模型的训练步骤包括：

获取初始化的深度学习模型；

根据历史问诊对话数据生成所述样本组；

将所述样本组中的正样本和至少一个负样本批量输入所述深度学习模型，得到所述正样本对应的第一输出，和所述负样本对应的第二输出；

根据所述第一输出和所述第二输出之间的差异，构建损失函数训练所述深度学习模型，以更新所述深度学习模型的模型参数。

在一个实施例中，所述目标问诊提问数据存储于区块链中；所述方法还包括：

在所述目标问诊提问数据所在的问诊会话结束后，清洗所述问诊会话的问诊对话数据，得到新增的正样本；

生成所述新增的正样本对应的至少一个负样本；

采用所述新增的正样本和所述新增的正样本对应的至少一个负样本，更新所述深度学习模型。

在一个实施例中，所述方法还包括：

收集历史问诊对话数据；

将所述历史问诊提问数据作为参考问诊提问数据，并将所述历史问诊提问数据对应的历史问诊应答数据作为所述参考问诊提问数据对应的参考问诊应答数据，建立语料库；所述语料库以所述参考问诊提问数据为索引。

在一个实施例中，所述从所述问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对，并输出选中的所述问答数据对中的候选问诊应答数据，包括：

从所述问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对；

将选中的所述问答数据对中的候选问诊应答数据在医生终端界面进行展示；

所述方法还包括：

将通过选择操作选中的候选问诊应答数据在问诊对话中输出。

一种基于人工智能的问诊数据处理装置，所述装置包括：

获取模块，用于获取与目标用户标识对应的目标问诊提问数据；

查询模块，用于在语料库中查询与所述目标问诊提问数据相似的多个参考问诊提问数据，并获取所述参考问诊提问数据对应的参考问诊应答数据作为候选问诊应答数据；

创建模块，用作基于所述目标问诊提问数据与各所述候选问诊应答数据创建问答数据对；

预测模块，用于将各所述问答数据对分别输入深度学习模型，得到各所述问答数据对相应的匹配置信度；所述深度学习模型根据正样本和负样本训练得到，所述正样本和所述负样本均包括问诊提问数据样本和问诊应答数据样本，在所述正样本中问诊应答数据样本为问诊提问数据样本的真实问诊应答数据，在所述负样本中问诊应答数据样本为问诊提问数据样本的伪问诊应答数据；

输出模块，用于从所述问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对，并输出选中的所述问答数据对中的候选问诊应答数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取与目标用户标识对应的目标问诊提问数据；

一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取与目标用户标识对应的目标问诊提问数据；

上述基于人工智能的问诊数据处理方法、装置、计算机设备和存储介质，提出的基于深度学习的在线问诊场景，在获取到用户当前的问诊提问后，在语料库中找到多个问诊应答与用户的问诊提问组合，再通过深度学习模型实时进行置信度预测，选择置信度高的问诊应答输出，提高了问诊效率，避免了重复的人力劳动。另外，深度学习模型是基于正负样本训练得到的，这样可以使深度学习模型的鲁棒性得到保障，而且在深度学习模型学习正样本中问答之间的关联时，同时也会学习负样本中问答之间的关联以区分正负样本，这样可以使得深度学习模型的准确性得到保障，进而可以提升问诊效率以及用户满意度。

附图说明

图1为一个实施例中基于人工智能的问诊数据处理方法的应用场景图；

图2为一个实施例中基于人工智能的问诊数据处理方法的流程示意图；

图3为一个实施例中基于人工智能的问诊数据处理方法的框图；

图4为一个实施例中基于人工智能的问诊数据处理装置的结构框图；

图5为另一个实施例中基于人工智能的问诊数据处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图；

图7为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于人工智能的问诊数据处理方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与服务器120通过网络进行通信。终端102包括患者终端111和医生终端112。医生终端112和服务器104均可用于单独执行该基于人工智能的问诊数据处理方法，医生终端112和服务器104也可共同用于执行该基于人工智能的问诊数据处理方法，医生终端112还可通过医生终端112上运行的问诊应用程序执行该基于人工智能的问诊数据处理方法。

其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于人工智能的问诊数据处理方法，以该方法应用于计算机设备为例进行说明，该计算机设备可以是图1中的医生终端或者服务器，该基于人工智能的问诊数据处理方法包括以下步骤：

步骤202，获取与目标用户标识对应的目标问诊提问数据。

其中，目标用户标识用于唯一标识一个用户。目标用户标识比如应用账号或者医院就诊卡号等。问诊会话是至少两个用户之间进行问诊交互的过程。至少两个用户包括与患者角色对应的用户和与医生角色对应的用户。与医生角色对应的用户可以是医生本人也可以是人工智能机器人。

目标问诊提问数据是当前处理的问诊会话的问诊交互过程中通过患者角色产生的问诊数据。目标问诊提问数据可以是语音数据、文本数据或者图像数据等。

具体地，终端上可运行有在线问诊应用程序或者在线问诊网站，在线问诊应用程序或者在线问诊网站可提供问诊入口。用户通过终端基于问诊入口输入问诊数据以进行线上问诊。

在一个实施例中，计算机设备可以将基于患者角色产生的数据统称为问诊提问数据。其中，一个问诊提问数据可以是用户一次或者连续多次输入的问诊数据，该连续多次输入的问诊数据中未插入医生角色输出的问诊数据。

步骤204，在语料库中查询与目标问诊提问数据相似的多个参考问诊提问数据，并获取参考问诊提问数据对应的参考问诊应答数据作为候选问诊应答数据。

其中，语料库中包括若干参考问诊提问数据和这些参考问诊提问数据各自对应的参考问诊应答数据。这些参考问诊提问数据和参考问诊应答数据是从历史的问诊数据中清洗出的。每个参考问诊提问数据对应的参考问诊应答数据是这个参考问诊提问数据的真实应答数据。

那么在真实的问诊场景中，在用户输入问诊提问数据后，计算机设备则可以在语料库中查询相似的多个参考问诊提问数据来为当前应答做参考。

可以理解，已经完成的历史问诊数据中包括两种角色之间的对话数据，而且这两种角色的数据是交替产生的。计算机设备可以将基于患者角色产生的数据统称为问诊提问数据，将基于医生角色产生的数据统称为问诊应答数据。

举例说明，下表示出了一个具体的实施例中的问诊对话数据：

表1、问诊对话数据

其中，问诊提问数据与问诊应答数据之间是一一对应的关系。比如问诊提问数据1与问诊应答数据1对应，问诊提问数据2则与问诊应答数据2对应。问诊提问数据与问诊应答数据可以组合得到一个问答数据对。

在一个实施例中，基于人工智能的问诊数据处理方法还包括创建语料库的步骤，该步骤具体包括：收集历史问诊对话数据；对历史问诊对话数据进行清洗，得到多个结构化的历史问答数据对；每个历史问答数据对包括历史问诊提问数据和与历史问诊提问数据对应的历史问诊应答数据；将历史问诊提问数据作为参考问诊提问数据，并将历史问诊提问数据对应的历史问诊应答数据作为参考问诊提问数据对应的参考问诊应答数据，建立语料库；语料库以参考问诊提问数据为索引。

具体地，计算机设备可收集历史问诊对话数据，对这些历史问诊对话数据进行结构化清洗，清洗出多个结构化的历史问答数据对。其中，每个历史问答数据对包括历史问诊提问数据和与该历史问诊提问数据对应的历史问诊应答数据。此时，计算机设备可再将历史问诊提问数据用作参考问诊提问数据，并将历史问诊提问数据对应的历史问诊应答数据用作该参考问诊提问数据对应的参考问诊应答数据，形成语料库。而且以参考问诊提问数据为索引，以便在语料库中检索。

其中，结构化清洗包括口语化数据的话术归一、去除停用词句、去除敏感词句以及高频医学实体抽取等。

在本实施例中，基于历史上真实产生的对话数据生成语料库，保障了语料库的规模和数据的真实性，既可为后续的模型训练提高数据基础，也可在实际中提供参考数据的检索查询。

步骤206，基于目标问诊提问数据与各候选问诊应答数据创建问答数据对。

具体地，计算机设备可将目标问诊提问数据与每个候选问诊应答数据分别创建一个问答数据对。此时，问答数据对除了问诊提问数据与问诊应答数据外，还可包括其他数据。在问答数据对仅包括问诊提问数据与问诊应答数据时，计算机设备可将目标问诊提问数据与各候选问诊应答数据分别组成一个问答数据对。

比如，计算机设备查询到5个候选问诊应答数据，则将目标问诊提问数据与这5个候选问诊应答数据分别创建问答数据对，得到5个问答数据对。

步骤208，将各问答数据对分别输入深度学习模型，得到各问答数据对相应的匹配置信度；深度学习模型根据正样本和负样本训练得到，正样本和负样本均包括问诊提问数据样本和问诊应答数据样本，在正样本中问诊应答数据样本为问诊提问数据样本的真实问诊应答数据，在负样本中问诊应答数据样本为问诊提问数据样本的伪问诊应答数据。

其中，深度学习模型是事先训练的、用于预测输入数据中问诊提问数据与问诊应答数据之间匹配程度的机器学习模型。机器学习模型可采用神经网络模型、支持向量机或者逻辑回归模型等。神经网络模型比如卷积神经网络、反向传播神经网络、反馈神经网络、径向基神经网络或者自组织神经网络等。

问答数据对相应的匹配置信度，是该问答数据对中问诊提问数据与问诊应答数据之间匹配程度的量化结果。问答数据对相应的匹配置信度与该问答数据对中问诊提问数据与问诊应答数据之间匹配程度正相关。问答数据对相应的匹配置信度越高，该问答数据对中问诊提问数据与问诊应答数据之间匹配程度越高；问答数据对相应的匹配置信度越低，该问答数据对中问诊提问数据与问诊应答数据之间匹配程度越低。

需要说明的是，在本申请实施例中，深度学习模型根据正样本和负样本训练得到，正样本和负样本均包括问诊提问数据样本和问诊应答数据样本。在正样本中，问诊应答数据样本为问诊提问数据样本的真实问诊应答数据；在负样本中，问诊应答数据样本为问诊提问数据样本的伪问诊应答数据。正样本也可称为正向问答数据对，正向问答数据对中的应答数据为提问数据的真实应答数据。

具体地，计算机设备可在得到问答数据对后，对问答数据对进行分词处理，得到词序列，再将词序列向量化为词向量序列。计算机设备可再以词序列向量作为深度学习模型的输入数据。进一步地，计算机设备可将各词序列向量分别输入深度学习模型，通过深度学习模型包括的隐层对词序列向量进行处理，得到各词序列向量相应的输出，也就是各问答数据对相应的匹配置信度。

其中，词向量技术具体如Elmo词向量技术、word2vec词向量技术等。在医学场景下，计算机设备可抽取高频医学实体，形成医疗词典，采用Elmo词向量技术来进行医疗词典的向量化表达，提高向量表达能力。

具体地，计算机设备可将各问答数据对分别输入深度学习模型，通过深度学习模型包括的隐层对问答数据对进行处理，得到问答数据对相应的匹配置信度。

举例说明，下表示出了一个具体的实施例中的正样本与负样本的具体内容：

表2、正/负样本

在本申请的实施例中，计算机设备在准备深度学习模型的输入数据时，创新性的问诊提问数据和问诊应答数据组合，得到正样本和负样本，在深度学习模型学习正样本中问答之间的关联时，同时也学习负样本中问答之间的关联，以区分正负样本，这样可以使得深度学习模型的准确性得到保障。

在一个实施例中，深度学习模型根据样本组训练得到，每个样本组包括一个正样本和与正样本对应的至少一个负样本，每个样本组中的正样本和负样本包括相同的问诊提问数据样本。

在本实施例中，计算机设备在得到正样本和负样本，包括相同的问诊提问数据样本作为样本组，再基于样本组训练深度学习模型，这样在深度学习模型学习正样本中问答之间的关联时，同时也学习该正样本下的负样本中问答之间的关联，以更好地区分正负样本，这样可以使得深度学习模型的准确性得到保障。

需要说明的是，正样本的生成过程、正样本对应的至少一个负样本的生成过程、以及深度学习模型的训练过程可参考后续实施例中的详细描述。

步骤210，从问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对，并输出选中的问答数据对中的候选问诊应答数据。

具体地，计算机设备在得到深度学习模型输出的各问答数据对对应的匹配置信度后，按照匹配置信度的降序对相应的问答数据对进行排序。计算机设备再对排序后的问答数据对，从首个问答数据对起，按顺序选择预设数量的问答数据对，再输出选中的问答数据对中的候选问诊应答数据。

其中，筛选出的候选问答数据对的数量可以自定义设置。

举例说明，对于表2的例子，通过模型验证，正样本的匹配置信度为0.8，负样本的匹配置信度为0.05。显而易见0.8比0.05大，所以0.8所在正样本的问诊应答数据就是模型预测的当前问诊提问数据的答案。

上述基于人工智能的问诊数据处理方法，提出的基于深度学习的在线问诊场景，在获取到用户当前的问诊提问后，在语料库中找到多个问诊应答与用户的问诊提问组合，再通过深度学习模型实时进行置信度预测，选择置信度高的问诊应答输出，提高了问诊效率，避免了重复的人力劳动。另外，深度学习模型是基于正负样本训练得到的，这样可以使深度学习模型的鲁棒性得到保障，而且在深度学习模型学习正样本中问答之间的关联时，同时也会学习负样本中问答之间的关联以区分正负样本，这样可以使得深度学习模型的准确性得到保障，进而可以提升问诊效率以及用户满意度。

在一个实施例中，目标问诊提问数据存储于区块链中。需要强调的是，为进一步保证上述目标问诊提问数据的私密和安全性，上述目标问诊提问数据还可以存储于一区块链的节点中。

在一个实施例中，从问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对，并输出选中的问答数据对中的候选问诊应答数据，包括：从问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对；将选中的问答数据对中的候选问诊应答数据在医生终端界面进行展示；基于人工智能的问诊数据处理方法还包括：将通过选择操作选中的候选问诊应答数据在问诊对话中输出。

具体地，计算机设备在得到深度学习模型输出的各问答数据对对应的匹配置信度后，按照匹配置信度的降序对相应的问答数据对进行排序。计算机设备再对排序后的问答数据对，从首个问答数据对起，按顺序选择预设数量的问答数据对，再将选中的问答数据对中的候选问诊应答数据在医生终端界面进行展示。

进一步地，计算机设备可再检测通过医生角色触发的选择操作，确定选择操作选中的候选问诊应答数据，将该候选问诊应答数据在问诊对话中输出。

可以理解，在本申请中，患者角色的用户在启动在线问诊应用程序后，输入问诊提问数据开启问诊会话后，深度学习模型会基于当前用户的问诊提问数据筛选候选问诊应答数据输出给医生角色的用户，医生角色的用户再从中选择一个候选问诊应答数据在问诊会话中反馈患者角色的用户，以完成一轮问诊会话。患者角色的用户会再基于该反馈输入新的问诊提问数据继续问诊，深度学习模型则再根据新的问诊提问数据筛选新的候选问诊应答数据输出给医生角色的用户，医生角色的用户再从中选择一个候选问诊应答数据在问诊会话中反馈患者角色的用户，如此迭代完成“患者”和“医生”的问诊交互，完成整个问诊流程。

在本实施例中，通过模型预选一些问诊应答数据给医生选择，提高了沟通效率和文字效率，尤其是再大量相似问诊的场景下，大大避免了重复的人力劳动。

可以理解，由于在线问诊的独特特性，同一个问诊对话中问答一般是层层递进，所以在持续对话中，问诊提问数据是累积起来并且进行话术的归一，在线问诊意图识别已经包含在模型训练数据的准备当中，这样还可以避免意图理解的耗时。

关于前述实施例中涉及的正样本的生成过程、正样本对应的至少一个负样本的生成过程、以及深度学习模型的训练过程的具体内容，可以参考以下实施例中的具体描述。

在一个实施例中，正样本的生成步骤包括：收集历史问诊对话数据；对历史问诊对话数据进行清洗，得到多个结构化的历史问答数据对；每个历史问答数据对包括历史问诊提问数据和与该历史问诊提问数据对应的历史问诊应答数据；将历史问答数据对作为正样本。该正样本对应的至少一个负样本的生成步骤包括：将该正样本作为当前正样本；将当前正样本中的问诊提问数据样本，与除当前正样本外的至少一个正样本中的问诊应答数据样本组成问答数据对，得到当前正样本对应的至少一个负样本。

具体地，计算机设备可收集历史问诊对话数据，然后对历史问诊对话数据进行清洗，得到多个结构化的历史问答数据对，形成语料库。其中，每个历史问答数据对包括历史问诊提问数据和与该历史问诊提问数据对应的历史问诊应答数据。由于每个历史问答数据对中的历史问诊应答数据，是该历史问答数据对中的历史问诊提问数据真实对应的问诊应答数据，那么计算机设备可将历史问答数据对作为正样本，正样本中的历史问诊提问数据即为问诊提问数据样本，正样本中的历史问诊应答数据即为问诊应答数据样本。

对于其中一个正样本，计算机设备还可将该正样本的问诊提问数据样本与其他正样本的问诊应答数据样本组成组装问答数据对。由于该组装问答数据对中问诊应答数据样本，并非该组装问答数据对中问诊提问数据样本真实对应的问诊应答数据，那么计算机设备可将组装问答数据对用作该正样本对应的负样本。其中，负样本中问诊应答数据样本为问诊提问数据样本的伪问诊应答数据。

在一个实施例中，计算机设备还可以在语料库中查询与正样本的问诊提问数据样本相似的其他问诊提问数据样本，将这些问诊提问数据样本对应的问诊应答数据样本与正样本的问诊提问数据样本组成问答数据对用作该正样本对应的负样本。其中，相似度的计算方法可以是余弦相似度或者编辑距离等。这样可以减小正负样本之间的差异，提高样本难度，提高模型训练的精度。

举例说明，假设语料库中存在1000个问答数据对样本。对于问答数据对样本101，其本身即可作为一个正样本。计算机设备再将问答数据对样本101中的问诊提问数据样本101，与语料库中剩余的问答数据对样本的问诊提问数据样本计算相似度，选择相似度最大的前100个问诊提问数据样本，将这些问诊提问数据样本的问诊应答数据样本分别与问诊提问数据样本101组合，得到这个正样本相应的100个负样本。

上述实施例中，基于真实数据生成正样本和负样本，提高了样本生成效率。

在一个实施例中，深度学习模型的训练步骤包括：获取初始化的深度学习模型；根据历史问诊对话数据生成样本组；将样本组中的正样本和至少一个负样本批量输入深度学习模型，得到正样本对应的第一输出，和负样本对应的第二输出；根据第一输出和第二输出之间的差异，构建损失函数训练深度学习模型，以更新深度学习模型的模型参数。

其中，一个正样本对应的负样本可以是一个，也可以是多个。可以理解，每一个问诊提问数据其实理论上只有一个正解，但是负解可以有很多。所以模型训练就是将每一组负样本的问答之间的关联学习到，同时对每一个负样本的问答对的关系也区分出来。通过深度模型的不断学习和演化，最终在测试集上，就可以得到每一个问答数据对作为正样本的匹配置信度。

在一个具体的实施例中，匹配置信度是0到1的值。

具体地，将正样本和正样本对应的负样本批量输入深度学习模型后，深度学习模型的每一层网络层都可以对输入进行批量正则(Batch Normalization)处理。在模型训练中采用批量正则来对入参进行正则化表达来提升模型推理的性能和降低过拟合情况的出现。模型的输出函数使用余弦相似度来对输入的问诊提问数据和问诊应答数据进行相同向量维度的语义相似度衡量。模型训练过程中的损失函数采用了自定义的正样本和对应负样本之间的差异性度量。正样本和负样本的差异性越大，说明模型的训练效果越好，相应地模型也可以在一定的程度停止训练来得到最优结果。

其中，批量正则化可以避免梯度消失和梯度爆炸，加快训练速度，提高模型泛化能力。批量正则化把越来越偏的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，这样可以让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。另外，因为批量标准化不是应用在整个数据集，而是小批量数据上，会产生一些噪声，可以提高模型泛化能力。

在一个实施例中，深度学习模型具体可以是循环神经网络模型，循环神经网络模型具体可以是长短记忆神经网络(LSTM)或者双向长短记忆神经网络(Bi-LSTM)等。长短记忆神经网络(LSTM)具有优于卷积神经网络(CNN)的学习能力，尤其是在自然语言对话领域，它能理解长句的整体涵义。而双向网络较传统的单向网络更能学习到句子中各个词之间的关联意义。

在一个实施例中，计算机设备在获得正样本以及正样本对应的负样本后，生成样本集，再将样本集划分为训练集，测试集，验证集，比例可为8:1:1。

上述实施例中，在模型训练时，将样本组中的正样本和至少一个负样本批量输入深度学习模型，可以加快训练速度，提高模型泛化能力。

在一个实施例中，目标问诊提问数据存储于区块链中；基于人工智能的问诊数据处理方法还包括：在目标问诊提问数据所在的问诊会话结束后，清洗问诊会话的问诊对话数据，得到新增的正样本；生成新增的正样本对应的至少一个负样本；采用新增的正样本和新增的正样本对应的至少一个负样本，更新深度学习模型。

具体地，计算机设备可在产生新的问诊对话数据后，定时清洗问诊会话的问诊对话数据，得到新增的正样本，然后生成新增的正样本对应的至少一个负样本，再采用新增的正样本和新增的正样本对应的至少一个负样本，更新深度学习模型。这样既保证了处理模型具有较好的泛化性能，也可以自动学习感知最新的热点内容。

在另外的实施例中，计算机设备还可以通过个性化的针对专家医生的历史问诊数据进行统计分析和深度学习模型训练，可以进一步提升多轮对话自动化系统的个性化服务能力，增强客户黏性和满意度。

举例说明，图3示出了一个实施例中基于人工智能的问诊数据处理中训练以及使用深度学习模型的流程框图。参考图3可以看出，收集历史对话后，通过清洗和对话聚合，可得到正问答对，然后基于正问答对补充负问答对，再基于正问答对和负问答对训练深度学习模型。在深度学习模型训练好后，在用户输入实时提问数据时，基于相似性搜索得到多个候选问答对，通过训练好的深度学习模型对各候选问答对预测匹配置信度，筛选出预设数量的、且匹配置信度最大的候选问答对，并输出选中的候选数据对中的应答数据，提供给医生选择。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于人工智能的问诊数据处理装置，包括：获取模块401、查询模块402、创建模块403、预测模块404和输出模块405，其中：

获取模块401，用于获取与目标用户标识对应的目标问诊提问数据；

查询模块402，用于在语料库中查询与目标问诊提问数据相似的多个参考问诊提问数据，并获取参考问诊提问数据对应的参考问诊应答数据作为候选问诊应答数据；

创建模块403，用作基于目标问诊提问数据与各候选问诊应答数据创建问答数据对；

预测模块404，用于将各问答数据对分别输入深度学习模型，得到各问答数据对相应的匹配置信度；深度学习模型根据正样本和负样本训练得到，正样本和负样本均包括问诊提问数据样本和问诊应答数据样本，在正样本中问诊应答数据样本为问诊提问数据样本的真实问诊应答数据，在负样本中问诊应答数据样本为问诊提问数据样本的伪问诊应答数据；

输出模块405，用于从问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对，并输出选中的问答数据对中的候选问诊应答数据。

在一个实施例中，如图5所示，基于人工智能的问诊数据处理装置还包括：

训练模块406，用于收集历史问诊对话数据；对历史问诊对话数据进行清洗，得到多个结构化的历史问答数据对；每个历史问答数据对包括历史问诊提问数据和与历史问诊提问数据对应的历史问诊应答数据；将历史问答数据对作为正样本；将其中一个正样本作为当前正样本；将当前正样本中的问诊提问数据样本，与除当前正样本外的至少一个正样本中的问诊应答数据样本组成问答数据对，得到当前正样本对应的至少一个负样本。

在一个实施例中，训练模块406还用于获取初始化的深度学习模型；根据历史问诊对话数据生成样本组；将样本组中的正样本和至少一个负样本批量输入深度学习模型，得到正样本对应的第一输出，和负样本对应的第二输出；根据第一输出和第二输出之间的差异，构建损失函数训练深度学习模型，以更新深度学习模型的模型参数。

在一个实施例中，目标问诊提问数据存储于区块链中；训练模块406还用于在目标问诊提问数据所在的问诊会话结束后，清洗问诊会话的问诊对话数据，得到新增的正样本；生成新增的正样本对应的至少一个负样本；采用新增的正样本和新增的正样本对应的至少一个负样本，更新深度学习模型。

在一个实施例中，训练模块406还用于收集历史问诊对话数据；对历史问诊对话数据进行清洗，得到多个结构化的历史问答数据对；每个历史问答数据对包括历史问诊提问数据和与历史问诊提问数据对应的历史问诊应答数据；将历史问诊提问数据作为参考问诊提问数据，并将历史问诊提问数据对应的历史问诊应答数据作为参考问诊提问数据对应的参考问诊应答数据，建立语料库；语料库以参考问诊提问数据为索引。

在一个实施例中，输出模块405还用于从问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对；将选中的问答数据对中的候选问诊应答数据在医生终端界面进行展示；将通过选择操作选中的候选问诊应答数据在问诊对话中输出。

上述基于人工智能的问诊数据处理装置，提出的基于深度学习的在线问诊场景，在获取到用户当前的问诊提问后，在语料库中找到多个问诊应答与用户的问诊提问组合，再通过深度学习模型实时进行置信度预测，选择置信度高的问诊应答输出，提高了问诊效率，避免了重复的人力劳动。另外，深度学习模型是基于正负样本训练得到的，这样可以使深度学习模型的鲁棒性得到保障，而且在深度学习模型学习正样本中问答之间的关联时，同时也会学习负样本中问答之间的关联以区分正负样本，这样可以使得深度学习模型的准确性得到保障，进而可以提升问诊效率以及用户满意度。

关于基于人工智能的问诊数据处理装置的具体限定可以参见上文中对于基于人工智能的问诊数据处理方法的限定，在此不再赘述。上述基于人工智能的问诊数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于人工智能的问诊数据处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的问诊数据处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的问诊数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6-7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取与目标用户标识对应的目标问诊提问数据；在语料库中查询与目标问诊提问数据相似的多个参考问诊提问数据，并获取参考问诊提问数据对应的参考问诊应答数据作为候选问诊应答数据；基于目标问诊提问数据与各候选问诊应答数据创建问答数据对；将各问答数据对分别输入深度学习模型，得到各问答数据对相应的匹配置信度；深度学习模型根据正样本和负样本训练得到，正样本和负样本均包括问诊提问数据样本和问诊应答数据样本，在正样本中问诊应答数据样本为问诊提问数据样本的真实问诊应答数据，在负样本中问诊应答数据样本为问诊提问数据样本的伪问诊应答数据；从问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对，并输出选中的问答数据对中的候选问诊应答数据。

在一个实施例中，正样本的生成步骤包括：收集历史问诊对话数据；对历史问诊对话数据进行清洗，得到多个结构化的历史问答数据对；每个历史问答数据对包括历史问诊提问数据和与历史问诊提问数据对应的历史问诊应答数据；将历史问答数据对作为正样本；正样本对应的至少一个负样本的生成步骤包括：将其中一个正样本作为当前正样本；将当前正样本中的问诊提问数据样本，与除当前正样本外的至少一个正样本中的问诊应答数据样本组成问答数据对，得到当前正样本对应的至少一个负样本。

在一个实施例中，目标问诊提问数据存储于区块链中；处理器执行计算机程序时还实现以下步骤：在目标问诊提问数据所在的问诊会话结束后，清洗问诊会话的问诊对话数据，得到新增的正样本；生成新增的正样本对应的至少一个负样本；采用新增的正样本和新增的正样本对应的至少一个负样本，更新深度学习模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：收集历史问诊对话数据；对历史问诊对话数据进行清洗，得到多个结构化的历史问答数据对；每个历史问答数据对包括历史问诊提问数据和与历史问诊提问数据对应的历史问诊应答数据；将历史问诊提问数据作为参考问诊提问数据，并将历史问诊提问数据对应的历史问诊应答数据作为参考问诊提问数据对应的参考问诊应答数据，建立语料库；语料库以参考问诊提问数据为索引。

在一个实施例中，从问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对，并输出选中的问答数据对中的候选问诊应答数据，包括：从问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对；将选中的问答数据对中的候选问诊应答数据在医生终端界面进行展示；处理器执行计算机程序时还实现以下步骤：将通过选择操作选中的候选问诊应答数据在问诊对话中输出。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取与目标用户标识对应的目标问诊提问数据；在语料库中查询与目标问诊提问数据相似的多个参考问诊提问数据，并获取参考问诊提问数据对应的参考问诊应答数据作为候选问诊应答数据；基于目标问诊提问数据与各候选问诊应答数据创建问答数据对；将各问答数据对分别输入深度学习模型，得到各问答数据对相应的匹配置信度；深度学习模型根据正样本和负样本训练得到，正样本和负样本均包括问诊提问数据样本和问诊应答数据样本，在正样本中问诊应答数据样本为问诊提问数据样本的真实问诊应答数据，在负样本中问诊应答数据样本为问诊提问数据样本的伪问诊应答数据；从问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对，并输出选中的问答数据对中的候选问诊应答数据。

在一个实施例中，目标问诊提问数据存储于区块链中；计算机程序被处理器执行时还实现以下步骤：在目标问诊提问数据所在的问诊会话结束后，清洗问诊会话的问诊对话数据，得到新增的正样本；生成新增的正样本对应的至少一个负样本；采用新增的正样本和新增的正样本对应的至少一个负样本，更新深度学习模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：收集历史问诊对话数据；对历史问诊对话数据进行清洗，得到多个结构化的历史问答数据对；每个历史问答数据对包括历史问诊提问数据和与历史问诊提问数据对应的历史问诊应答数据；将历史问诊提问数据作为参考问诊提问数据，并将历史问诊提问数据对应的历史问诊应答数据作为参考问诊提问数据对应的参考问诊应答数据，建立语料库；语料库以参考问诊提问数据为索引。

在一个实施例中，从问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对，并输出选中的问答数据对中的候选问诊应答数据，包括：从问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对；将选中的问答数据对中的候选问诊应答数据在医生终端界面进行展示；计算机程序被处理器执行时还实现以下步骤：将通过选择操作选中的候选问诊应答数据在问诊对话中输出。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于人工智能的问诊数据处理方法，其特征在于，所述方法包括：

获取与目标用户标识对应的目标问诊提问数据；

2.根据权利要求1所述的方法，其特征在于，所述深度学习模型根据样本组训练得到，每个所述样本组包括一个正样本和与所述正样本对应的至少一个负样本，每个所述样本组中的正样本和负样本包括相同的问诊提问数据样本。

3.根据权利要求2所述的方法，其特征在于，所述正样本的生成步骤包括：

收集历史问诊对话数据；

将所述历史问答数据对作为正样本；

所述正样本对应的至少一个负样本的生成步骤包括：

将其中一个正样本作为当前正样本；

4.根据权利要求2所述的方法，其特征在于，所述深度学习模型的训练步骤包括：

获取初始化的深度学习模型；

根据历史问诊对话数据生成所述样本组；

5.根据权利要求4所述的方法，其特征在于，所述目标问诊提问数据存储于区块链中；所述方法还包括：

生成所述新增的正样本对应的至少一个负样本；

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

收集历史问诊对话数据；

7.根据权利要求1-5中任一项所述的方法，其特征在于，所述从所述问答数据对中，选择预设数量的、且匹配置信度最大的问答数据对，并输出选中的所述问答数据对中的候选问诊应答数据，包括：

所述方法还包括：

8.一种基于人工智能的问诊数据处理装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。