CN112271001A

CN112271001A - 一种应用异构图神经网络的医疗咨询对话系统及方法

Info

Publication number: CN112271001A
Application number: CN202011289619.0A
Authority: CN
Inventors: 梁小丹; 唐鉴恒; 刘文阁; 许琳; 林倞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-01-26
Anticipated expiration: 2040-11-17
Also published as: CN112271001B

Abstract

本发明公开了一种应用异构图神经网络的医疗咨询对话系统及方法，该系统包括：对话历史编码模块，通过神经网络模型对对话历史进行分层编码，得到每个语句和整个对话历史的特征向量表示；医学实体预测模块，根据医疗知识图谱和对话历史，构建包含医学实体节点和语句信息节点的异构图，根据得到的编码向量初始化异构图中的语句信息节点，使用图注意力网络将当前信息传播至异构图上相关的实体节点，进而预测下一轮对话中医生可能会询问的症状或疾病实体；图引导对话生成模块，根据对话的当前状态和异构图推理结果，动态选择生成来自普通对话词表中的单词，或使用异构图相关节点的医学实体表达，从而生成更精准有效并包含专业术语的回复。

Description

一种应用异构图神经网络的医疗咨询对话系统及方法

技术领域

本发明涉及医疗信息技术领域，特别是涉及一种应用异构图神经网络的医疗咨询对话系统及方法。

背景技术

看病难一直是我国医疗体系最突出的问题。随着大数据和互联网的发展，人们开始通过搜索引擎，线上问诊等方式来完成疾病的初步诊断。然而，搜索引擎只能搜索到相似病例的问答结果，由于用户缺乏医学常识和判断能力，这些带有偏差的结果往往会带来错误的认知。另一方面，线上医疗问诊存在沟通效率低下，收费高，医生质量不齐等诸多问题，用户难以得到满意的诊断结果。因此，构建一个提供医疗咨询服务的对话系统，通过主动与用户交互收集患者的具体情况，并自动作出初步诊断和给予相关建议，是亟待解决的一个需求。

近年来，对话系统作为一种新型的下一代人机交互方式取得了显著的发展，对话助手逐渐走向商用，例如微软小冰，苹果Siri等。对话系统是自然语言处理的一个重要领域，其可以分为闲聊型对话系统和任务型对话系统。闲聊型对话系统主要与用户进行没有特定主体的聊天，而任务型对话系统的主要作用是计算机程序通过与用户之间的交互，帮助用户完成特定的任务，比如电影院订票、餐厅订票、在线购物等等。医疗问诊对话系统本质是一个任务型的对话系统。

医疗咨询对话系统的主要任务是：根据用户的病情陈述，系统通过与用户的对话获得诊断所需要的症状信息，然后自动地给出初步的诊断意见，并提供相关建议。这能够有效的简化问诊流程，减少医生与病人沟通，从病人处收集信息的时间成本。目前很少有构建完整的端到端医疗对话系统的研究，特别是自动生成类似医生的专业回答的相关研究几乎无人涉及。现有的系统缺乏与病人的动态交互，以及引导病人对自身的情况作出更多描述。一般在线下医生的就诊过程中，病人自己所陈述的症状往往只是一小部分，要做出诊断往往还需要医生的主动引导。医生首先会推测一种疾病，然后询问该病人是否体现了这种病的其他症状，从而帮助进行更加准确的诊断。在这种情况下，就需要医疗对话系统结合领域知识，推理出所有可能涉及到的潜在症状，并且根据推理结果生成类似医生的语句，来与病人交互获取的更多信息。当系统获得到足够多有价值的信息时，能够进一步做出尽可能准确的疾病诊断，给出恰当的医学建议。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种应用异构图神经网络的医疗咨询对话系统及方法，以实现一种具有良好拓展性、实用性强，具有主动引导功能且基于医学知识进行推理的医疗问诊技术。

为达上述目的，本发明提出一种应用异构图神经网络的医疗咨询对话系统，包括：

对话历史编码模块，通过神经网络模型对对话历史进行分层编码，得到每个语句和整个对话历史的特征向量表示；

医学实体预测模块，首先根据医疗知识图谱和对话历史信息，构建包含医学实体节点和语句信息节点的异构图。然后根据所述对话历史编码模块中得到的编码向量初始化异构图中的语句信息节点，使用图注意力网络将当前信息传播至异构图上相关的实体节点，进而预测下一轮对话中医生可能会询问的症状或疾病实体；

图引导对话生成模块，采用指针生成网络，根据对话的当前状态和异构图推理的结果，动态选择生成来自普通对话词表中的单词，或者使用异构图相关节点的医学实体表达，从而生成更精准有效并且包含专业术语的回复，提高智能问诊的效率和准确率。

优选地，所述对话历史编码模块通过神经网络模型对对话历史进行分层编码，得到每个语句和整个对话历史的特征向量表示。

优选地，所述对话历史编码模块包含两个双向循环神经网络，均由长短期记忆单元组成。下层网络分别对每个语句进行编码，得到单个语句的特征向量，上层循环神经网络进一步将所述语句层级的特征向量编码，得到对话层级的特征向量。

优选地，所述医学实体预测模块进一步包括：

异构图构建模块，用于构建能够同时融合医学知识和对话信息的异构图；

图注意力网络推理模块，通过在异构图上使用三层不同的图注意力网络来进行推理，同时结合当前对话内容和医学知识进行症状推理和疾病预测。

优选地，所述异构图构建模块通过构建包含医学实体节点和语句信息节点的异构图，来分别代表医学实体关联信息和对话历史信息两种不同的来源。其中医学知识主要包括相关联的疾病和症状实体，可以从网上公开的大型知识图谱得到，并根据数据集的实体共现关系进一步完善。

优选地，所述图注意力网络推理模块使用第一层图注意力网络更新语句节点，来丰富语句节点的信息表达。第二层图注意力网络把语句节点的信息表达传播到语句包含的对应实体节点，使得对话中提及的疾病、症状等已知实体具有蕴含对话历史的特征向量。最后第三层图注意力网络将信息从对话中涉及到的已知节点传播到相关联的未知实体节点。

优选地，经过三层图注意力网络推理后，最终更新得到的所有实体节点向量输入一个多层感知机网络，来预测该实体在下一轮对话中出现的概率，汇总得到所有可能出现的实体概率分布。图注意力网络使用多标签分类中的交叉熵损失函数进行学习。

优选地，所述图引导对话生成模块采用指针生成网络，通过计算复制权重进行加权求和，动态选择生成来自普通对话词表中的单词，或者使用预测得到的医学实体表达，分步依次生成回复中每个单词。

优选地，所述系统使用生成回复与真实回复的负对数似然作为损失函数进行学习。

为达到上述目的，本发明还提供一种应用异构图神经网络的医疗咨询对话方法，包括如下步骤：

步骤S1，通过神经网络模型对对话历史进行分层编码，得到每个语句和整个对话历史的特征向量表示；

步骤S2，根据医疗知识图谱和对话历史信息，构建包含医学实体节点和语句信息节点的异构图。然后根据步骤S1得到的编码向量，初始化异构图中的语句信息节点，使用图注意力网络将信息传播至相关的实体节点，进而预测下一轮对话中医生可能会询问到的症状或疾病实体；

步骤S3，根据步骤S2的推理结果以及对话的当前状态生成系统的回复。具体采用指针生成网络，通过计算复制权重，动态选择生成来自普通对话词表中的单词，或者使用步骤S2预测得到的医学实体表达，分步依次解码回复中每个单词。

与现有技术相比，具有如下优点：

1、相比于现有的医疗问诊对话系统基于模板的固定回复，本发明利用图神经网络推理得到的症状来引导生成语句，使得系统的回答能够询问病人之前未提及的症状，使得系统能掌握更加全面的病人信息，从而给出更加合理的医疗建议或者疾病诊断。

2、本发明的医学实体预测模块，通过引入异构图的方式将对话历史的语句节点和医疗知识图谱的实体节点相关联，并利用三层图注意力网络，将对话历史信息的特征编码传播到知识图谱中，使得相关的医学实体节点蕴含当前对话上下文信息，从而做到同时结合当前对话内容和相关医学知识进行症状推理和疾病预测。

3、本发明的图引导的对话生成模块，采用指针生成网络，根据对话的当前状态和异构图推理的结果，动态选择生成来自普通对话词表中的单词，或者使用异构图相关节点的医学实体表达，从而得到更精准有效并且包含专业术语的回复，提高智能问诊的效率和准确率。

附图说明

图1为本发明一种应用异构图神经网络的医疗咨询对话系统的系统架构图；

图2为本发明具体实施例中应用异构图神经网络的医疗咨询对话系统的结构示意图；

图3为本发明一种应用异构图神经网络的医疗咨询对话方法的步骤流程图；

图4为本发明使用异构图神经网络进行疾病推理的示例图；

图5为本发明具体实施例中应用异构图神经网络的医疗咨询对话系统的生成样例展示。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种应用异构图神经网络的医疗咨询对话系统的系统架构图，图2为本发明具体实施例中应用异构图神经网络的医疗咨询对话系统的结构示意图。如图1及图2所示，本发明一种应用异构图神经网络的医疗咨询对话系统，包括：

对话历史编码模块10，通过神经网络模型对对话历史进行分层编码，得到每个语句和整个对话历史的特征向量表示。对话历史编码模块10包含上下两层双向循环神经网络，均由长短期记忆单元组成。下层循环神经网络分别对每个语句进行编码。首先利用预训练Glove方法把语句内的每个单词转化为对应词向量，得到一个向量序列，按顺序输入到下层循环神经网络，取网络的最终状态输出为当前语句的特征向量。上层循环神经网络进一步将所述语句层级的特征向量编码，得到对话层级的特征向量，作为整个对话历史的表征。

医学实体预测模块11，用于将对话历史信息与相关医学知识结合，进行症状和疾病的推理预测。医学实体预测模块11首先根据医疗知识图谱和对话历史信息，构建包含医学实体节点和语句信息节点的异构图。然后根据所述对话历史编码模块10中得到的编码向量，初始化异构图中的语句信息节点，使用图注意力网络将信息传播至相关的实体节点，进而预测下一轮对话中医生可能会询问到的症状或疾病实体。

在本发明具体实施例中，具体地，医学实体预测模块11进一步包括：

异构图构建模块110，用于根据医疗知识图谱和对话历史信息构建能够同时融合医学知识和对话信息的异构图。一般的医疗知识图谱的节点仅包含由疾病和症状构成的医疗，然而这种构图方式无法结合当前的对话信息，从而无法针对特定的病人得到对应疾病和症状的特殊化向量。本发明通过构建包含医学实体节点和语句信息节点的异构图，来分别代表医学实体关联信息和对话历史信息两种不同的来源，从而同时结合当前对话内容和相关医学知识进行推理和预测。其中，医学知识主要包括相关联的疾病和症状实体，可以从网上公开的大型知识图谱得到，如CMeKG等，并根据数据集的实体共现关系进一步完善。语句信息节点则通过所述对话历史编码模块构建，每个节点分别由对话历史中相应的句子层级特征编码进行初始化。

图注意力网络推理模块111，通过在异构图构建模块110构建的异构图上使用三层不同的图注意力网络来进行推理，同时结合当前对话内容和医学知识进行症状推理和疾病预测。在所述对话历史编码模块10中，已经得到对话历史的每个语句的特征向量。该向量蕴含着对应语句的文本信息，尤其是病人描述的症状信息，并用于初始化语句信息节点。然而单个节点只包含某一句语句的信息，而在医疗咨询场景中，医生可能会在多轮对话中询问同一个症状的属性，比如时长，频率，诱因等。因此，为了丰富症状语句的上下文信息，本发明首先将描述同一种症状的语句节点之间两两连边，并使用第一层图注意力网络更新语句节点，来丰富语句节点的信息表达。接着，第二层图注意力网络把语句节点的信息表达传播到语句包含的对应实体节点，使得对话中提及的疾病、症状等已知实体具有蕴含对话历史的特征向量。然后，第三层图注意力网络将信息从对话中涉及到的已知节点传播到相关联的未知实体节点。未知实体节点在对话中没有提及，但与已知实体紧密关联，代表病人还未提及的潜在症状或可能的疾病。

经过三层图注意力网络推理后，最终更新得到的所有实体节点向量输入一个多层感知机网络，来预测该实体在下一轮对话中出现的概率，汇总得到所有可能出现的实体概率分布P_E。本发明用真实医生回答语句中包含的症状作为标签，对图神经网络预测的症状分布进行监督，同时训练三层图注意力网络，损失函数L_e使用的是多标签分类中常用的交叉熵损失函数，

图引导对话生成模块12，采用指针生成网络，根据对话的当前状态和异构图推理的预测结果，动态选择生成来自普通对话词表中的单词，或者使用异构图相关节点的医学实体表达，从而生成更精准有效并且包含专业术语的回复，提高智能问诊的效率和准确率。

优选地，图引导对话生成模块具体使用指针生成网络作为解码器，由长短期记忆单元(LSTM)和医学实体复制模块组成。解码器由所述对话历史编码模块中，整个对话历史的特征编码作为初始化，并分步依次生成回复中的每个单词。令x_t为解码器在t时刻的输入，s_t为解码器的当前状态，首先预测复制权重p_g＝σ(ω₁ ^T[x_t|s_t]+b₁)∈[0，1]，其中“|”为两个向量的拼接操作，σ为Sigmoid激活函数，ω₁与b₁为可训练的参数。

得到复制权重p_g后，解码器由h_D进行初始化，分步依次解码回复语句中的每个单词，回复语句中单词的概率分布由两部分组成：分别是普通词表分布P_V和医学实体分布P_E，普通词表概率分布为：

其中v、ω₂与b₂为可训练的参数，医学实体分布P_E由上述图注意力网络推理模块计算得出，最终两分布的加权求和得到最终预测的单词分布，即P_final＝(1-p_g)·P_V+p_g·P_E。在这其中，复制权重代表p_g代表了解码过程中，使用来自普通对话词表中的单词，或者使用推理预测得到医学实体表达的动态选择过程。

和传统生成模型的训练方式一致，本发明使用生成回复与真实医生回答之间计算负对数似然作为损失函数进行学习，具体计算方式为：

其中|T|为句子长度，θ为解码器的网络参数。最终的损失函数为生成回复损失与实体预测损失的加权求和：

图3为本发明一种应用异构图神经网络的医疗咨询对话方法的步骤流程图。如图3所示，本发明一种应用异构图神经网络的医疗咨询对话方法，包括如下步骤：

步骤S1，通过神经网络模型对对话历史进行分层编码，得到每个语句和整个对话历史的特征向量表示。

具体地，如图2所示，当前医疗对话历史{U₁，U₂，U₃，...U_M}由M句话组成。对于其中每一句话U_i，首先利用预训练Glove方法把U_i内的每个单词转化为对应词向量，得到一个向量序列，按顺序输入到下层循环神经网络，取网络的最终状态输出，作为当前语句的特征向量h_i，进而得到每个语句的特征编码{h₁，h₂，h₃，...h_M}。再将其输入上层循环神经网络进一步编码，得到对话层级的特征向量h_D，作为整个对话历史的表征。

步骤S2，根据医疗知识图谱和对话历史信息，构建包含医学实体节点和语句信息节点的异构图，然后根据步骤S1得到的编码向量，初始化异构图中的语句信息节点，使用图注意力网络将信息传播至相关的实体节点，进而预测下一轮对话中医生可能会询问到的症状或疾病实体；

具体地，步骤S2进一步包括：

步骤S200，构建能够同时融合医学知识和对话信息的异构图。如图2中间异构图推理模块所示，本发明通过构建包含医学实体节点(圆形)和语句信息节点(三角形)的异构图，来分别代表医学实体关联信息和对话历史信息两种不同的来源，从而同时结合当前对话内容和相关医学知识进行推理和预测。其中，医学知识主要包括相关联的疾病和症状实体，可以从网上公开的大型知识图谱得到，如CMeKG等，并根据数据集的实体共现关系进一步完善。语句信息节点则通过所述对话历史编码模块构建，节点u_i由对话历史中对应的句子层级特征编码h_i进行初始化。

步骤S201，通过在异构图上使用三层不同的图注意力网络来进行推理，同时结合当前对话内容和医学知识进行症状推理和疾病预测。如图2异构图推理模块所示，三层网络分别用不同样式的边表示。开始阶段，语句信息节点只包含对应单个语句U_i的信息h_i，而在医疗咨询场景中，医生可能会在多轮对话中询问同一个症状的属性，比如时长，频率，诱因等。因此，为了丰富症状语句的上下文信息，本发明首先将描述同一种症状的语句节点之间两两连边，并使用第一层图注意力网络更新语句节点，来丰富语句节点的信息表达。接着，第二层图注意力网络把语句节点的信息表达传播到语句包含的对应实体节点，如图中的“口干”、“腹痛”等，使得对话中提及的疾病、症状等已知实体具有蕴含对话历史的特征向量。然后，第三层图注意力网络将信息从对话中涉及到的已知节点传播到相关联的未知实体节点，如图中“呕吐”，“食管炎”等。未知实体节点在对话中没有提及，但与已知实体紧密关联，代表病人还未提及的潜在症状或可能疾病。经过三层图注意力网络推理后，最终更新得到的所有实体节点向量输入一个多层感知机网络，来预测该实体在下一轮对话中出现的概率，得到可能出现的实体概率分布P_E。

步骤S3，根据步骤S2的推理结果，以及对话的当前状态，来生成最后的回复。如图2右侧图引导对话生成模块所示，采用指针生成网络，通过计算复制权重p_g进行加权求和，动态选择生成来自普通对话词表中的单词P_V，或者使用步骤S2预测得到的医学实体表达P_E，分步依次生成回复中每个单词。

具体地，步骤S3进一步包括：

步骤S301，首先计算指针生成网络中的复制权重p_g。令x_t为解码器在t时刻的输入，s_t为解码器的当前状态，复制权重计算公式为p_g＝σ(ω₁ ^T[x_t|s_t]+b₁)∈[0，1]，其中“”为两个向量的拼接操作，σ为Sigmoid激活函数，ω₁与b₁为可训练的参数。复制权重p_g代表了解码过程中，使用来自普通对话词表中的单词，或者使用推理预测得到医学实体表达的动态选择过程。

步骤S302，得到复制权重p_g后，解码器由步骤S1得到的，分步依次解码回复中的每个单词。如图2右侧图引导对话生成模块所示，单词分布由两部分组成：分别是普通词表分布P_V和医学实体分布P_E。普通词表概率分布为：

其中v、ω₂与b₂为可训练的参数，医学实体分布P_E由上述步骤S201的图注意力网络推理计算得出。最终两分布的加权求和得到最终的预测分布，即P_final＝(1-p_g)·P_V+p_g·P_E。和传统生成模型的训练方式一致，本发明使用生成回复与真实医生回答之间计算负对数似然作为损失函数进行学习，具体计算方式为：

其中T为句子长度，θ为解码器的网络参数。最终的损失函数为生成损失与实体预测损失的加权求和：

图4为本发明使用异构图神经网络进行疾病推理的示例图。如图4所示，模型预测了正确的疾病“胃炎”，并且在异构图的第三层图注意力网络中，它与五个症状实体向量相关。在这些实体中，“胀气”(0.216)和“胃痛”(0.167)的权重要高于“反酸”(0.058)和“烧心”(0.058)说明了前两个症状对于疾病的诊断更为重要，体现了本发明异构图推理模型在医疗咨询场景下的可解释性，通过图注意力机制，可以计算出预测疾病与相关症状之间的关联程度。

图5为本发明具体实施例中应用异构图神经网络的医疗咨询对话系统的生成样例展示。此图上半部分为对话历史，左边是病人的语句以及真实医生的回答，右边是现有的经典对话模型以及本发明生成的回复，可以看到本发明不仅询问的症状和真实医生的回复完全一致，并且在语言的多样性，专业术语的使用层次上也达到了类似专业医生的水准，要明显好于其他模型。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种应用异构图神经网络的医疗咨询对话系统，包括：

医学实体预测模块，首先根据医疗知识图谱和对话历史信息，构建包含医学实体节点和语句信息节点的异构图，然后根据所述对话历史编码模块中得到的编码向量初始化异构图中的语句信息节点，使用图注意力网络将当前信息传播至异构图上相关的实体节点，进而预测下一轮对话中医生可能会询问的症状或疾病实体；

2.如权利要求1所述的一种应用异构图神经网络的医疗咨询对话系统，其特征在于：所述对话历史编码模块通过神经网络模型对对话历史进行分层编码，得到每个语句和整个对话历史的特征向量表示。

3.如权利要求2所述的一种应用异构图神经网络的医疗咨询对话系统，其特征在于：所述对话历史编码模块包含两个双向循环神经网络，均由长短期记忆单元组成，下层网络分别对每个语句进行编码，得到单个语句的特征向量，上层循环神经网络进一步将所述语句层级的特征向量编码，得到对话层级的特征向量。

4.如权利要求2所述的一种应用异构图神经网络的医疗咨询对话系统，其特征在于，所述医学实体预测模块进一步包括：

5.如权利要求4所述的一种应用异构图神经网络的医疗咨询对话系统，其特征在于：所述异构图构建模块通过构建包含医学实体节点和语句信息节点的异构图，来分别代表医学实体关联信息和对话历史信息两种不同的来源，其中医学实体关联信息包括相关联的疾病和症状实体，从网上公开的大型知识图谱得到，并根据数据集的实体共现关系进一步完善。

6.如权利要求4所述的一种应用异构图神经网络的医疗咨询对话系统，其特征在于：所述异构图推理模块使用第一层图注意力网络更新语句节点，来丰富语句节点的信息表达，第二层图注意力网络把语句节点的信息表达传播到语句包含的对应实体节点，使得对话中提及的疾病、症状等已知实体具有蕴含对话历史的特征向量，最后第三层图注意力网络将信息从对话中涉及到的已知节点传播到相关联的未知实体节点。

7.如权利要求6所述的一种应用异构图神经网络的医疗咨询对话系统，其特征在于：经过三层图注意力网络推理后，最终更新得到的所有实体节点向量输入一个多层感知机网络，来预测该实体在下一轮对话中出现的概率，汇总得到所有可能出现的实体概率分布。

8.如权利要求7所述的一种应用异构图神经网络的医疗咨询对话系统，其特征在于：所述图引导对话生成模块采用指针生成网络，通过计算复制权重进行加权求和，动态选择生成来自普通对话词表中的单词，或者使用预测得到的医学实体表达，分步依次生成回复中每个单词。

9.如权利要求8所述的一种应用异构图神经网络的医疗咨询对话系统，其特征在于：所述系统使用生成回复与真实回复的负对数似然作为损失函数进行学习。

10.一种应用异构图神经网络的医疗咨询对话方法，包括如下步骤：

步骤S3，根据步骤S2的推理结果以及对话的当前状态生成系统的回复，采用指针生成网络，通过计算复制权重，动态选择生成来自普通对话词表中的单词，或者使用步骤S2预测得到的医学实体表达，分步依次解码回复中每个单词。