CN112271001A - 一种应用异构图神经网络的医疗咨询对话系统及方法 - Google Patents
一种应用异构图神经网络的医疗咨询对话系统及方法 Download PDFInfo
- Publication number
- CN112271001A CN112271001A CN202011289619.0A CN202011289619A CN112271001A CN 112271001 A CN112271001 A CN 112271001A CN 202011289619 A CN202011289619 A CN 202011289619A CN 112271001 A CN112271001 A CN 112271001A
- Authority
- CN
- China
- Prior art keywords
- graph
- medical
- nodes
- dialogue
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 48
- 208000024891 symptom Diseases 0.000 claims abstract description 44
- 201000010099 disease Diseases 0.000 claims abstract description 35
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 35
- 230000014509 gene expression Effects 0.000 claims abstract description 20
- 238000003062 neural network model Methods 0.000 claims abstract description 9
- 238000009826 distribution Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 13
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 206010000087 Abdominal pain upper Diseases 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 208000007882 Gastritis Diseases 0.000 description 1
- 206010030216 Oesophagitis Diseases 0.000 description 1
- 206010067171 Regurgitation Diseases 0.000 description 1
- 206010047700 Vomiting Diseases 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 206010013781 dry mouth Diseases 0.000 description 1
- 230000008846 dynamic interplay Effects 0.000 description 1
- 201000006549 dyspepsia Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 208000006881 esophagitis Diseases 0.000 description 1
- 206010016766 flatulence Diseases 0.000 description 1
- 208000024798 heartburn Diseases 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种应用异构图神经网络的医疗咨询对话系统及方法,该系统包括:对话历史编码模块,通过神经网络模型对对话历史进行分层编码,得到每个语句和整个对话历史的特征向量表示;医学实体预测模块,根据医疗知识图谱和对话历史,构建包含医学实体节点和语句信息节点的异构图,根据得到的编码向量初始化异构图中的语句信息节点,使用图注意力网络将当前信息传播至异构图上相关的实体节点,进而预测下一轮对话中医生可能会询问的症状或疾病实体;图引导对话生成模块,根据对话的当前状态和异构图推理结果,动态选择生成来自普通对话词表中的单词,或使用异构图相关节点的医学实体表达,从而生成更精准有效并包含专业术语的回复。
Description
技术领域
本发明涉及医疗信息技术领域,特别是涉及一种应用异构图神经网络的医疗咨询对话系统及方法。
背景技术
看病难一直是我国医疗体系最突出的问题。随着大数据和互联网的发展,人们开始通过搜索引擎,线上问诊等方式来完成疾病的初步诊断。然而,搜索引擎只能搜索到相似病例的问答结果,由于用户缺乏医学常识和判断能力,这些带有偏差的结果往往会带来错误的认知。另一方面,线上医疗问诊存在沟通效率低下,收费高,医生质量不齐等诸多问题,用户难以得到满意的诊断结果。因此,构建一个提供医疗咨询服务的对话系统,通过主动与用户交互收集患者的具体情况,并自动作出初步诊断和给予相关建议,是亟待解决的一个需求。
近年来,对话系统作为一种新型的下一代人机交互方式取得了显著的发展,对话助手逐渐走向商用,例如微软小冰,苹果Siri等。对话系统是自然语言处理的一个重要领域,其可以分为闲聊型对话系统和任务型对话系统。闲聊型对话系统主要与用户进行没有特定主体的聊天,而任务型对话系统的主要作用是计算机程序通过与用户之间的交互,帮助用户完成特定的任务,比如电影院订票、餐厅订票、在线购物等等。医疗问诊对话系统本质是一个任务型的对话系统。
医疗咨询对话系统的主要任务是:根据用户的病情陈述,系统通过与用户的对话获得诊断所需要的症状信息,然后自动地给出初步的诊断意见,并提供相关建议。这能够有效的简化问诊流程,减少医生与病人沟通,从病人处收集信息的时间成本。目前很少有构建完整的端到端医疗对话系统的研究,特别是自动生成类似医生的专业回答的相关研究几乎无人涉及。现有的系统缺乏与病人的动态交互,以及引导病人对自身的情况作出更多描述。一般在线下医生的就诊过程中,病人自己所陈述的症状往往只是一小部分,要做出诊断往往还需要医生的主动引导。医生首先会推测一种疾病,然后询问该病人是否体现了这种病的其他症状,从而帮助进行更加准确的诊断。在这种情况下,就需要医疗对话系统结合领域知识,推理出所有可能涉及到的潜在症状,并且根据推理结果生成类似医生的语句,来与病人交互获取的更多信息。当系统获得到足够多有价值的信息时,能够进一步做出尽可能准确的疾病诊断,给出恰当的医学建议。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种应用异构图神经网络的医疗咨询对话系统及方法,以实现一种具有良好拓展性、实用性强,具有主动引导功能且基于医学知识进行推理的医疗问诊技术。
为达上述目的,本发明提出一种应用异构图神经网络的医疗咨询对话系统,包括:
对话历史编码模块,通过神经网络模型对对话历史进行分层编码,得到每个语句和整个对话历史的特征向量表示;
医学实体预测模块,首先根据医疗知识图谱和对话历史信息,构建包含医学实体节点和语句信息节点的异构图。然后根据所述对话历史编码模块中得到的编码向量初始化异构图中的语句信息节点,使用图注意力网络将当前信息传播至异构图上相关的实体节点,进而预测下一轮对话中医生可能会询问的症状或疾病实体;
图引导对话生成模块,采用指针生成网络,根据对话的当前状态和异构图推理的结果,动态选择生成来自普通对话词表中的单词,或者使用异构图相关节点的医学实体表达,从而生成更精准有效并且包含专业术语的回复,提高智能问诊的效率和准确率。
优选地,所述对话历史编码模块通过神经网络模型对对话历史进行分层编码,得到每个语句和整个对话历史的特征向量表示。
优选地,所述对话历史编码模块包含两个双向循环神经网络,均由长短期记忆单元组成。下层网络分别对每个语句进行编码,得到单个语句的特征向量,上层循环神经网络进一步将所述语句层级的特征向量编码,得到对话层级的特征向量。
优选地,所述医学实体预测模块进一步包括:
异构图构建模块,用于构建能够同时融合医学知识和对话信息的异构图;
图注意力网络推理模块,通过在异构图上使用三层不同的图注意力网络来进行推理,同时结合当前对话内容和医学知识进行症状推理和疾病预测。
优选地,所述异构图构建模块通过构建包含医学实体节点和语句信息节点的异构图,来分别代表医学实体关联信息和对话历史信息两种不同的来源。其中医学知识主要包括相关联的疾病和症状实体,可以从网上公开的大型知识图谱得到,并根据数据集的实体共现关系进一步完善。
优选地,所述图注意力网络推理模块使用第一层图注意力网络更新语句节点,来丰富语句节点的信息表达。第二层图注意力网络把语句节点的信息表达传播到语句包含的对应实体节点,使得对话中提及的疾病、症状等已知实体具有蕴含对话历史的特征向量。最后第三层图注意力网络将信息从对话中涉及到的已知节点传播到相关联的未知实体节点。
优选地,经过三层图注意力网络推理后,最终更新得到的所有实体节点向量输入一个多层感知机网络,来预测该实体在下一轮对话中出现的概率,汇总得到所有可能出现的实体概率分布。图注意力网络使用多标签分类中的交叉熵损失函数进行学习。
优选地,所述图引导对话生成模块采用指针生成网络,通过计算复制权重进行加权求和,动态选择生成来自普通对话词表中的单词,或者使用预测得到的医学实体表达,分步依次生成回复中每个单词。
优选地,所述系统使用生成回复与真实回复的负对数似然作为损失函数进行学习。
为达到上述目的,本发明还提供一种应用异构图神经网络的医疗咨询对话方法,包括如下步骤:
步骤S1,通过神经网络模型对对话历史进行分层编码,得到每个语句和整个对话历史的特征向量表示;
步骤S2,根据医疗知识图谱和对话历史信息,构建包含医学实体节点和语句信息节点的异构图。然后根据步骤S1得到的编码向量,初始化异构图中的语句信息节点,使用图注意力网络将信息传播至相关的实体节点,进而预测下一轮对话中医生可能会询问到的症状或疾病实体;
步骤S3,根据步骤S2的推理结果以及对话的当前状态生成系统的回复。具体采用指针生成网络,通过计算复制权重,动态选择生成来自普通对话词表中的单词,或者使用步骤S2预测得到的医学实体表达,分步依次解码回复中每个单词。
与现有技术相比,具有如下优点:
1、相比于现有的医疗问诊对话系统基于模板的固定回复,本发明利用图神经网络推理得到的症状来引导生成语句,使得系统的回答能够询问病人之前未提及的症状,使得系统能掌握更加全面的病人信息,从而给出更加合理的医疗建议或者疾病诊断。
2、本发明的医学实体预测模块,通过引入异构图的方式将对话历史的语句节点和医疗知识图谱的实体节点相关联,并利用三层图注意力网络,将对话历史信息的特征编码传播到知识图谱中,使得相关的医学实体节点蕴含当前对话上下文信息,从而做到同时结合当前对话内容和相关医学知识进行症状推理和疾病预测。
3、本发明的图引导的对话生成模块,采用指针生成网络,根据对话的当前状态和异构图推理的结果,动态选择生成来自普通对话词表中的单词,或者使用异构图相关节点的医学实体表达,从而得到更精准有效并且包含专业术语的回复,提高智能问诊的效率和准确率。
附图说明
图1为本发明一种应用异构图神经网络的医疗咨询对话系统的系统架构图;
图2为本发明具体实施例中应用异构图神经网络的医疗咨询对话系统的结构示意图;
图3为本发明一种应用异构图神经网络的医疗咨询对话方法的步骤流程图;
图4为本发明使用异构图神经网络进行疾病推理的示例图;
图5为本发明具体实施例中应用异构图神经网络的医疗咨询对话系统的生成样例展示。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种应用异构图神经网络的医疗咨询对话系统的系统架构图,图2为本发明具体实施例中应用异构图神经网络的医疗咨询对话系统的结构示意图。如图1及图2所示,本发明一种应用异构图神经网络的医疗咨询对话系统,包括:
对话历史编码模块10,通过神经网络模型对对话历史进行分层编码,得到每个语句和整个对话历史的特征向量表示。对话历史编码模块10包含上下两层双向循环神经网络,均由长短期记忆单元组成。下层循环神经网络分别对每个语句进行编码。首先利用预训练Glove方法把语句内的每个单词转化为对应词向量,得到一个向量序列,按顺序输入到下层循环神经网络,取网络的最终状态输出为当前语句的特征向量。上层循环神经网络进一步将所述语句层级的特征向量编码,得到对话层级的特征向量,作为整个对话历史的表征。
医学实体预测模块11,用于将对话历史信息与相关医学知识结合,进行症状和疾病的推理预测。医学实体预测模块11首先根据医疗知识图谱和对话历史信息,构建包含医学实体节点和语句信息节点的异构图。然后根据所述对话历史编码模块10中得到的编码向量,初始化异构图中的语句信息节点,使用图注意力网络将信息传播至相关的实体节点,进而预测下一轮对话中医生可能会询问到的症状或疾病实体。
在本发明具体实施例中,具体地,医学实体预测模块11进一步包括:
异构图构建模块110,用于根据医疗知识图谱和对话历史信息构建能够同时融合医学知识和对话信息的异构图。一般的医疗知识图谱的节点仅包含由疾病和症状构成的医疗,然而这种构图方式无法结合当前的对话信息,从而无法针对特定的病人得到对应疾病和症状的特殊化向量。本发明通过构建包含医学实体节点和语句信息节点的异构图,来分别代表医学实体关联信息和对话历史信息两种不同的来源,从而同时结合当前对话内容和相关医学知识进行推理和预测。其中,医学知识主要包括相关联的疾病和症状实体,可以从网上公开的大型知识图谱得到,如CMeKG等,并根据数据集的实体共现关系进一步完善。语句信息节点则通过所述对话历史编码模块构建,每个节点分别由对话历史中相应的句子层级特征编码进行初始化。
图注意力网络推理模块111,通过在异构图构建模块110构建的异构图上使用三层不同的图注意力网络来进行推理,同时结合当前对话内容和医学知识进行症状推理和疾病预测。在所述对话历史编码模块10中,已经得到对话历史的每个语句的特征向量。该向量蕴含着对应语句的文本信息,尤其是病人描述的症状信息,并用于初始化语句信息节点。然而单个节点只包含某一句语句的信息,而在医疗咨询场景中,医生可能会在多轮对话中询问同一个症状的属性,比如时长,频率,诱因等。因此,为了丰富症状语句的上下文信息,本发明首先将描述同一种症状的语句节点之间两两连边,并使用第一层图注意力网络更新语句节点,来丰富语句节点的信息表达。接着,第二层图注意力网络把语句节点的信息表达传播到语句包含的对应实体节点,使得对话中提及的疾病、症状等已知实体具有蕴含对话历史的特征向量。然后,第三层图注意力网络将信息从对话中涉及到的已知节点传播到相关联的未知实体节点。未知实体节点在对话中没有提及,但与已知实体紧密关联,代表病人还未提及的潜在症状或可能的疾病。
经过三层图注意力网络推理后,最终更新得到的所有实体节点向量输入一个多层感知机网络,来预测该实体在下一轮对话中出现的概率,汇总得到所有可能出现的实体概率分布PE。本发明用真实医生回答语句中包含的症状作为标签,对图神经网络预测的症状分布进行监督,同时训练三层图注意力网络,损失函数Le使用的是多标签分类中常用的交叉熵损失函数,
图引导对话生成模块12,采用指针生成网络,根据对话的当前状态和异构图推理的预测结果,动态选择生成来自普通对话词表中的单词,或者使用异构图相关节点的医学实体表达,从而生成更精准有效并且包含专业术语的回复,提高智能问诊的效率和准确率。
优选地,图引导对话生成模块具体使用指针生成网络作为解码器,由长短期记忆单元(LSTM)和医学实体复制模块组成。解码器由所述对话历史编码模块中,整个对话历史的特征编码作为初始化,并分步依次生成回复中的每个单词。令xt为解码器在t时刻的输入,st为解码器的当前状态,首先预测复制权重pg=σ(ω1 T[xt|st]+b1)∈[0,1],其中“|”为两个向量的拼接操作,σ为Sigmoid激活函数,ω1与b1为可训练的参数。
得到复制权重pg后,解码器由hD进行初始化,分步依次解码回复语句中的每个单词,回复语句中单词的概率分布由两部分组成:分别是普通词表分布PV和医学实体分布PE,普通词表概率分布为:其中v、ω2与b2为可训练的参数,医学实体分布PE由上述图注意力网络推理模块计算得出,最终两分布的加权求和得到最终预测的单词分布,即Pfinal=(1-pg)·PV+pg·PE。在这其中,复制权重代表pg代表了解码过程中,使用来自普通对话词表中的单词,或者使用推理预测得到医学实体表达的动态选择过程。
和传统生成模型的训练方式一致,本发明使用生成回复与真实医生回答之间计算负对数似然作为损失函数进行学习,具体计算方式为: 其中|T|为句子长度,θ为解码器的网络参数。最终的损失函数为生成回复损失与实体预测损失的加权求和:
图3为本发明一种应用异构图神经网络的医疗咨询对话方法的步骤流程图。如图3所示,本发明一种应用异构图神经网络的医疗咨询对话方法,包括如下步骤:
步骤S1,通过神经网络模型对对话历史进行分层编码,得到每个语句和整个对话历史的特征向量表示。
具体地,如图2所示,当前医疗对话历史{U1,U2,U3,...UM}由M句话组成。对于其中每一句话Ui,首先利用预训练Glove方法把Ui内的每个单词转化为对应词向量,得到一个向量序列,按顺序输入到下层循环神经网络,取网络的最终状态输出,作为当前语句的特征向量hi,进而得到每个语句的特征编码{h1,h2,h3,...hM}。再将其输入上层循环神经网络进一步编码,得到对话层级的特征向量hD,作为整个对话历史的表征。
步骤S2,根据医疗知识图谱和对话历史信息,构建包含医学实体节点和语句信息节点的异构图,然后根据步骤S1得到的编码向量,初始化异构图中的语句信息节点,使用图注意力网络将信息传播至相关的实体节点,进而预测下一轮对话中医生可能会询问到的症状或疾病实体;
具体地,步骤S2进一步包括:
步骤S200,构建能够同时融合医学知识和对话信息的异构图。如图2中间异构图推理模块所示,本发明通过构建包含医学实体节点(圆形)和语句信息节点(三角形)的异构图,来分别代表医学实体关联信息和对话历史信息两种不同的来源,从而同时结合当前对话内容和相关医学知识进行推理和预测。其中,医学知识主要包括相关联的疾病和症状实体,可以从网上公开的大型知识图谱得到,如CMeKG等,并根据数据集的实体共现关系进一步完善。语句信息节点则通过所述对话历史编码模块构建,节点ui由对话历史中对应的句子层级特征编码hi进行初始化。
步骤S201,通过在异构图上使用三层不同的图注意力网络来进行推理,同时结合当前对话内容和医学知识进行症状推理和疾病预测。如图2异构图推理模块所示,三层网络分别用不同样式的边表示。开始阶段,语句信息节点只包含对应单个语句Ui的信息hi,而在医疗咨询场景中,医生可能会在多轮对话中询问同一个症状的属性,比如时长,频率,诱因等。因此,为了丰富症状语句的上下文信息,本发明首先将描述同一种症状的语句节点之间两两连边,并使用第一层图注意力网络更新语句节点,来丰富语句节点的信息表达。接着,第二层图注意力网络把语句节点的信息表达传播到语句包含的对应实体节点,如图中的“口干”、“腹痛”等,使得对话中提及的疾病、症状等已知实体具有蕴含对话历史的特征向量。然后,第三层图注意力网络将信息从对话中涉及到的已知节点传播到相关联的未知实体节点,如图中“呕吐”,“食管炎”等。未知实体节点在对话中没有提及,但与已知实体紧密关联,代表病人还未提及的潜在症状或可能疾病。经过三层图注意力网络推理后,最终更新得到的所有实体节点向量输入一个多层感知机网络,来预测该实体在下一轮对话中出现的概率,得到可能出现的实体概率分布PE。
步骤S3,根据步骤S2的推理结果,以及对话的当前状态,来生成最后的回复。如图2右侧图引导对话生成模块所示,采用指针生成网络,通过计算复制权重pg进行加权求和,动态选择生成来自普通对话词表中的单词PV,或者使用步骤S2预测得到的医学实体表达PE,分步依次生成回复中每个单词。
具体地,步骤S3进一步包括:
步骤S301,首先计算指针生成网络中的复制权重pg。令xt为解码器在t时刻的输入,st为解码器的当前状态,复制权重计算公式为pg=σ(ω1 T[xt|st]+b1)∈[0,1],其中“”为两个向量的拼接操作,σ为Sigmoid激活函数,ω1与b1为可训练的参数。复制权重pg代表了解码过程中,使用来自普通对话词表中的单词,或者使用推理预测得到医学实体表达的动态选择过程。
步骤S302,得到复制权重pg后,解码器由步骤S1得到的,分步依次解码回复中的每个单词。如图2右侧图引导对话生成模块所示,单词分布由两部分组成:分别是普通词表分布PV和医学实体分布PE。普通词表概率分布为: 其中v、ω2与b2为可训练的参数,医学实体分布PE由上述步骤S201的图注意力网络推理计算得出。最终两分布的加权求和得到最终的预测分布,即Pfinal=(1-pg)·PV+pg·PE。和传统生成模型的训练方式一致,本发明使用生成回复与真实医生回答之间计算负对数似然作为损失函数进行学习,具体计算方式为:其中T为句子长度,θ为解码器的网络参数。最终的损失函数为生成损失与实体预测损失的加权求和:
图4为本发明使用异构图神经网络进行疾病推理的示例图。如图4所示,模型预测了正确的疾病“胃炎”,并且在异构图的第三层图注意力网络中,它与五个症状实体向量相关。在这些实体中,“胀气”(0.216)和“胃痛”(0.167)的权重要高于“反酸”(0.058)和“烧心”(0.058)说明了前两个症状对于疾病的诊断更为重要,体现了本发明异构图推理模型在医疗咨询场景下的可解释性,通过图注意力机制,可以计算出预测疾病与相关症状之间的关联程度。
图5为本发明具体实施例中应用异构图神经网络的医疗咨询对话系统的生成样例展示。此图上半部分为对话历史,左边是病人的语句以及真实医生的回答,右边是现有的经典对话模型以及本发明生成的回复,可以看到本发明不仅询问的症状和真实医生的回复完全一致,并且在语言的多样性,专业术语的使用层次上也达到了类似专业医生的水准,要明显好于其他模型。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种应用异构图神经网络的医疗咨询对话系统,包括:
对话历史编码模块,通过神经网络模型对对话历史进行分层编码,得到每个语句和整个对话历史的特征向量表示;
医学实体预测模块,首先根据医疗知识图谱和对话历史信息,构建包含医学实体节点和语句信息节点的异构图,然后根据所述对话历史编码模块中得到的编码向量初始化异构图中的语句信息节点,使用图注意力网络将当前信息传播至异构图上相关的实体节点,进而预测下一轮对话中医生可能会询问的症状或疾病实体;
图引导对话生成模块,采用指针生成网络,根据对话的当前状态和异构图推理的结果,动态选择生成来自普通对话词表中的单词,或者使用异构图相关节点的医学实体表达,从而生成更精准有效并且包含专业术语的回复,提高智能问诊的效率和准确率。
2.如权利要求1所述的一种应用异构图神经网络的医疗咨询对话系统,其特征在于:所述对话历史编码模块通过神经网络模型对对话历史进行分层编码,得到每个语句和整个对话历史的特征向量表示。
3.如权利要求2所述的一种应用异构图神经网络的医疗咨询对话系统,其特征在于:所述对话历史编码模块包含两个双向循环神经网络,均由长短期记忆单元组成,下层网络分别对每个语句进行编码,得到单个语句的特征向量,上层循环神经网络进一步将所述语句层级的特征向量编码,得到对话层级的特征向量。
4.如权利要求2所述的一种应用异构图神经网络的医疗咨询对话系统,其特征在于,所述医学实体预测模块进一步包括:
异构图构建模块,用于构建能够同时融合医学知识和对话信息的异构图;
图注意力网络推理模块,通过在异构图上使用三层不同的图注意力网络来进行推理,同时结合当前对话内容和医学知识进行症状推理和疾病预测。
5.如权利要求4所述的一种应用异构图神经网络的医疗咨询对话系统,其特征在于:所述异构图构建模块通过构建包含医学实体节点和语句信息节点的异构图,来分别代表医学实体关联信息和对话历史信息两种不同的来源,其中医学实体关联信息包括相关联的疾病和症状实体,从网上公开的大型知识图谱得到,并根据数据集的实体共现关系进一步完善。
6.如权利要求4所述的一种应用异构图神经网络的医疗咨询对话系统,其特征在于:所述异构图推理模块使用第一层图注意力网络更新语句节点,来丰富语句节点的信息表达,第二层图注意力网络把语句节点的信息表达传播到语句包含的对应实体节点,使得对话中提及的疾病、症状等已知实体具有蕴含对话历史的特征向量,最后第三层图注意力网络将信息从对话中涉及到的已知节点传播到相关联的未知实体节点。
7.如权利要求6所述的一种应用异构图神经网络的医疗咨询对话系统,其特征在于:经过三层图注意力网络推理后,最终更新得到的所有实体节点向量输入一个多层感知机网络,来预测该实体在下一轮对话中出现的概率,汇总得到所有可能出现的实体概率分布。
8.如权利要求7所述的一种应用异构图神经网络的医疗咨询对话系统,其特征在于:所述图引导对话生成模块采用指针生成网络,通过计算复制权重进行加权求和,动态选择生成来自普通对话词表中的单词,或者使用预测得到的医学实体表达,分步依次生成回复中每个单词。
9.如权利要求8所述的一种应用异构图神经网络的医疗咨询对话系统,其特征在于:所述系统使用生成回复与真实回复的负对数似然作为损失函数进行学习。
10.一种应用异构图神经网络的医疗咨询对话方法,包括如下步骤:
步骤S1,通过神经网络模型对对话历史进行分层编码,得到每个语句和整个对话历史的特征向量表示;
步骤S2,根据医疗知识图谱和对话历史信息,构建包含医学实体节点和语句信息节点的异构图,然后根据步骤S1得到的编码向量,初始化异构图中的语句信息节点,使用图注意力网络将信息传播至相关的实体节点,进而预测下一轮对话中医生可能会询问到的症状或疾病实体;
步骤S3,根据步骤S2的推理结果以及对话的当前状态生成系统的回复,采用指针生成网络,通过计算复制权重,动态选择生成来自普通对话词表中的单词,或者使用步骤S2预测得到的医学实体表达,分步依次解码回复中每个单词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011289619.0A CN112271001B (zh) | 2020-11-17 | 2020-11-17 | 一种应用异构图神经网络的医疗咨询对话系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011289619.0A CN112271001B (zh) | 2020-11-17 | 2020-11-17 | 一种应用异构图神经网络的医疗咨询对话系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112271001A true CN112271001A (zh) | 2021-01-26 |
CN112271001B CN112271001B (zh) | 2022-08-16 |
Family
ID=74340571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011289619.0A Active CN112271001B (zh) | 2020-11-17 | 2020-11-17 | 一种应用异构图神经网络的医疗咨询对话系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112271001B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113112326A (zh) * | 2021-04-02 | 2021-07-13 | 北京沃东天骏信息技术有限公司 | 一种用户识别方法、向用户展示数据的方法和相关装置 |
CN113158062A (zh) * | 2021-05-08 | 2021-07-23 | 清华大学深圳国际研究生院 | 一种基于异构图神经网络的用户意图识别方法及装置 |
CN113420551A (zh) * | 2021-07-13 | 2021-09-21 | 华中师范大学 | 一种建模实体相似性的生物医学实体关系抽取方法 |
CN113569572A (zh) * | 2021-02-09 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 文本实体生成方法、模型训练方法及装置 |
CN113656604A (zh) * | 2021-10-19 | 2021-11-16 | 之江实验室 | 基于异构图神经网络的医疗术语规范化系统及方法 |
CN113704424A (zh) * | 2021-08-27 | 2021-11-26 | 广东电力信息科技有限公司 | 一种基于指针网络的自然语言任务生成方法 |
CN114996294A (zh) * | 2022-05-26 | 2022-09-02 | 阿里巴巴(中国)有限公司 | 回复生成方法、电子设备及计算机存储介质 |
CN115908870A (zh) * | 2022-10-19 | 2023-04-04 | 海南港航控股有限公司 | 一种基于异构数据融合的图文匹配方法及系统 |
CN117235239A (zh) * | 2023-11-13 | 2023-12-15 | 智慧眼科技股份有限公司 | 一种主动式对话大模型构建装置、方法、设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190139648A1 (en) * | 2013-06-28 | 2019-05-09 | Healthtap, Inc. | Systems and methods for triaging a health-related inquiry on a computer-implemented virtual consultation application |
CN110046698A (zh) * | 2019-04-28 | 2019-07-23 | 北京邮电大学 | 异质图神经网络生成方法、装置、电子设备及存储介质 |
CN110298436A (zh) * | 2019-06-28 | 2019-10-01 | 乐山金蜜工业卫士服务股份有限公司 | 基于指针生成网络的数据到文本的生成模型 |
CN110413760A (zh) * | 2019-07-31 | 2019-11-05 | 北京百度网讯科技有限公司 | 人机对话方法、装置、存储介质及计算机程序产品 |
CN110472068A (zh) * | 2019-08-20 | 2019-11-19 | 星环信息科技(上海)有限公司 | 基于异构分布式知识图谱的大数据处理方法、设备及介质 |
US20190355270A1 (en) * | 2018-05-18 | 2019-11-21 | Salesforce.Com, Inc. | Multitask Learning As Question Answering |
US20190362246A1 (en) * | 2018-05-23 | 2019-11-28 | Salesforce.Com, Inc. | Multi-hop knowledge graph reasoning with reward shaping |
CN110609891A (zh) * | 2019-09-18 | 2019-12-24 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
US20200097814A1 (en) * | 2018-09-26 | 2020-03-26 | MedWhat.com Inc. | Method and system for enabling interactive dialogue session between user and virtual medical assistant |
CN111078836A (zh) * | 2019-12-10 | 2020-04-28 | 中国科学院自动化研究所 | 基于外部知识增强的机器阅读理解方法、系统、装置 |
CN111400481A (zh) * | 2020-05-15 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 针对多轮对话生成回复语句的方法和装置 |
CN111506719A (zh) * | 2020-04-20 | 2020-08-07 | 深圳追一科技有限公司 | 一种关联问句推荐方法、装置、设备及可读存储介质 |
JP2020140629A (ja) * | 2019-03-01 | 2020-09-03 | 日本電信電話株式会社 | 文生成装置、文生成方法、文生成学習装置、文生成学習方法及びプログラム |
-
2020
- 2020-11-17 CN CN202011289619.0A patent/CN112271001B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190139648A1 (en) * | 2013-06-28 | 2019-05-09 | Healthtap, Inc. | Systems and methods for triaging a health-related inquiry on a computer-implemented virtual consultation application |
US20190355270A1 (en) * | 2018-05-18 | 2019-11-21 | Salesforce.Com, Inc. | Multitask Learning As Question Answering |
US20190362246A1 (en) * | 2018-05-23 | 2019-11-28 | Salesforce.Com, Inc. | Multi-hop knowledge graph reasoning with reward shaping |
US20200097814A1 (en) * | 2018-09-26 | 2020-03-26 | MedWhat.com Inc. | Method and system for enabling interactive dialogue session between user and virtual medical assistant |
JP2020140629A (ja) * | 2019-03-01 | 2020-09-03 | 日本電信電話株式会社 | 文生成装置、文生成方法、文生成学習装置、文生成学習方法及びプログラム |
CN110046698A (zh) * | 2019-04-28 | 2019-07-23 | 北京邮电大学 | 异质图神经网络生成方法、装置、电子设备及存储介质 |
CN110298436A (zh) * | 2019-06-28 | 2019-10-01 | 乐山金蜜工业卫士服务股份有限公司 | 基于指针生成网络的数据到文本的生成模型 |
CN110413760A (zh) * | 2019-07-31 | 2019-11-05 | 北京百度网讯科技有限公司 | 人机对话方法、装置、存储介质及计算机程序产品 |
CN110472068A (zh) * | 2019-08-20 | 2019-11-19 | 星环信息科技(上海)有限公司 | 基于异构分布式知识图谱的大数据处理方法、设备及介质 |
CN110609891A (zh) * | 2019-09-18 | 2019-12-24 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
CN111078836A (zh) * | 2019-12-10 | 2020-04-28 | 中国科学院自动化研究所 | 基于外部知识增强的机器阅读理解方法、系统、装置 |
CN111506719A (zh) * | 2020-04-20 | 2020-08-07 | 深圳追一科技有限公司 | 一种关联问句推荐方法、装置、设备及可读存储介质 |
CN111400481A (zh) * | 2020-05-15 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 针对多轮对话生成回复语句的方法和装置 |
Non-Patent Citations (2)
Title |
---|
WENGE LIU等: "MedDG: A Large-scale Medical Consultation Dataset for Building Medical Dialogue System", 《ARXIV》 * |
谢宇翔: "基于深度学习的垂直领域实体关系分析方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569572A (zh) * | 2021-02-09 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 文本实体生成方法、模型训练方法及装置 |
CN113569572B (zh) * | 2021-02-09 | 2024-05-24 | 腾讯科技(深圳)有限公司 | 文本实体生成方法、模型训练方法及装置 |
CN113112326A (zh) * | 2021-04-02 | 2021-07-13 | 北京沃东天骏信息技术有限公司 | 一种用户识别方法、向用户展示数据的方法和相关装置 |
CN113158062A (zh) * | 2021-05-08 | 2021-07-23 | 清华大学深圳国际研究生院 | 一种基于异构图神经网络的用户意图识别方法及装置 |
CN113420551A (zh) * | 2021-07-13 | 2021-09-21 | 华中师范大学 | 一种建模实体相似性的生物医学实体关系抽取方法 |
CN113704424A (zh) * | 2021-08-27 | 2021-11-26 | 广东电力信息科技有限公司 | 一种基于指针网络的自然语言任务生成方法 |
CN113656604A (zh) * | 2021-10-19 | 2021-11-16 | 之江实验室 | 基于异构图神经网络的医疗术语规范化系统及方法 |
WO2023065858A1 (zh) * | 2021-10-19 | 2023-04-27 | 之江实验室 | 基于异构图神经网络的医疗术语规范化系统及方法 |
CN114996294A (zh) * | 2022-05-26 | 2022-09-02 | 阿里巴巴(中国)有限公司 | 回复生成方法、电子设备及计算机存储介质 |
CN115908870A (zh) * | 2022-10-19 | 2023-04-04 | 海南港航控股有限公司 | 一种基于异构数据融合的图文匹配方法及系统 |
CN117235239A (zh) * | 2023-11-13 | 2023-12-15 | 智慧眼科技股份有限公司 | 一种主动式对话大模型构建装置、方法、设备及存储介质 |
CN117235239B (zh) * | 2023-11-13 | 2024-02-20 | 智慧眼科技股份有限公司 | 一种主动式对话大模型构建装置、方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112271001B (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112271001B (zh) | 一种应用异构图神经网络的医疗咨询对话系统及方法 | |
CN109817329B (zh) | 一种医疗问诊对话系统以及应用于该系统的强化学习方法 | |
CN108491514B (zh) | 对话系统中提问的方法及装置、电子设备、计算机可读介质 | |
CN110297908A (zh) | 诊疗方案预测方法及装置 | |
CN111897941A (zh) | 对话生成方法、网络训练方法、装置、存储介质及设备 | |
CN112289467B (zh) | 一种面向低资源场景可迁移的医疗问诊对话系统及方法 | |
CN112214591B (zh) | 一种对话预测的方法及装置 | |
CN110059169B (zh) | 基于语料标注的智能机器人聊天上下文实现方法及系统 | |
CN110837548A (zh) | 答案匹配方法、装置、电子设备及存储介质 | |
CN111966800A (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
Fu et al. | Learning towards conversational AI: A survey | |
CN110457661A (zh) | 自然语言生成方法、装置、设备及存储介质 | |
Dsouza et al. | Chat with bots intelligently: A critical review & analysis | |
CN111522925A (zh) | 对话状态生成方法和装置 | |
CN114969278A (zh) | 一种基于知识增强图神经网络的文本问答模型 | |
CN111522924A (zh) | 一种带有主题感知的情感聊天式回复生成方法 | |
CN113761156A (zh) | 人机交互对话的数据处理方法、装置、介质及电子设备 | |
Diao et al. | Personalized learning path recommendation based on weak concept mining | |
KS et al. | Conversational Chatbot Builder–Smarter Virtual Assistance with Domain Specific AI | |
CN111046157B (zh) | 一种基于平衡分布的通用英文人机对话生成方法和系统 | |
He et al. | Hierarchical attention and knowledge matching networks with information enhancement for end-to-end task-oriented dialog systems | |
Lan et al. | Knowledge graph-based conversational recommender system in travel | |
CN117216223A (zh) | 对话文本的生成方法和装置、存储介质及电子设备 | |
CN115964475A (zh) | 一种用于医疗问诊的对话摘要生成方法 | |
CN116994695A (zh) | 报告生成模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |