CN112289467A - 一种面向低资源场景可迁移的医疗问诊对话系统及方法 - Google Patents
一种面向低资源场景可迁移的医疗问诊对话系统及方法 Download PDFInfo
- Publication number
- CN112289467A CN112289467A CN202011287854.4A CN202011287854A CN112289467A CN 112289467 A CN112289467 A CN 112289467A CN 202011287854 A CN202011287854 A CN 202011287854A CN 112289467 A CN112289467 A CN 112289467A
- Authority
- CN
- China
- Prior art keywords
- disease
- meta
- graph
- node
- symptom
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 201000010099 disease Diseases 0.000 claims abstract description 163
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 163
- 208000024891 symptom Diseases 0.000 claims abstract description 92
- 239000013598 vector Substances 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000010276 construction Methods 0.000 claims abstract description 12
- 238000004088 simulation Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 17
- 238000003745 diagnosis Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 238000009792 diffusion process Methods 0.000 claims description 12
- 230000005012 migration Effects 0.000 claims description 7
- 238000013508 migration Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 2
- 230000001617 migratory effect Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000010076 replication Effects 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 3
- 208000004232 Enteritis Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004092 self-diagnosis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种面向低资源场景可迁移的医疗问诊对话系统及方法,该系统包括:模拟病人构建模块,用于建立模拟病人,模拟病人具有若干对话样本,每次训练随机选取一个对话样本,并针对模拟病人给出其病情描述报告;智能医疗问诊系统构建模块,建立智能医疗问诊系统,根据病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量,通过演化外部医疗知识图,根据特征向量进行疾病‑症状之间的关系推理得到图节点特征向量,并在图节点信息指导下,利用复制网络生成医生对病人的回复;训练模块,对系统进行端到端训练,利用图演化元学习算法在已有疾病的对话数据上训练系统。
Description
技术领域
本发明涉及医疗信息技术领域,特别是涉及一种面向低资源场景可迁移的医疗问诊对话系统及方法。
背景技术
看病难一直是我国医疗体系系统最突出的问题。随着大数据和互联网的发展,人们开始通过搜索引擎来完成疾病的初步自我诊断,然而搜索引擎搜索到的是网上存在的相关案例的问答结果,这种诊断的结果可能由于与用户完全一致的症状表现而导致诊断结果有偏差甚至错误,现存的线下问诊网站医生的素质参差不齐,有一些医生可能会给出错误的诊断结果,所以构建一个具有知识推理能力的自动诊断对话系统是亟待解决的一个需求。
近年来对话系统作为一种新型的下一代人机交互方式取得了显著的发展,各种虚拟助理逐渐商用落地,对话系统是自然语言处理的一个重要领域,其可以分为闲聊型对话系统和任务型对话系统,任务型对话系统的主要作用是计算机通过与用户之间的交互帮助用户完成特定的任务,比如电影院订票、餐厅订票、在线购物等等,闲聊型对话系统可以与用户在开放域中聊天,医疗问诊对话系统本质是一个任务型的对话系统。
医疗问诊对话系统的主要任务是:根据用户的病情陈述,系统通过与用户的对话获得诊断所需要的症状信息,然后自动地给出最终的诊断意见。这能够有效的简化诊断流程并且减少从病人处收集信息的成本,此外医疗对话系统作出的诊断结果也可以协助医生更加高效地做出诊断。然而,现有的医疗问诊对话系统多依赖于大量的对话数据来训练,因而只能针对数据覆盖到的特定疾病进行诊断,系统可扩展性较差。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种面向低资源场景可迁移的医疗问诊对话系统及方法,以实现一种具有良好拓展性、实用性强且实现疾病与症状相互关系推理的医疗问诊系统。
为达上述目的,本发明提出一种面向低资源场景可迁移的医疗问诊对话系统,包括:
模拟病人构建模块,用于建立模拟病人,所述模拟病人具有若干对话样本,每次训练随机选取一个对话样本,并针对所述模拟病人给出其病情描述报告;
智能医疗问诊系统构建模块,用于建立一个智能医疗问诊系统,所述智能系统根据模拟病人的病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量;通过演化外部的医疗知识图,根据得到的特征向量进行疾病-症状之间的关系推理,得到图节点特征向量,并在演化得到的图节点信息的指导下,利用复制网络,智能生成医生对病人的回复;
训练模块,用于对所述智能医疗问诊系统构建模块获得的智能医疗问诊系统进行端到端训练,利用图演化元学习算法在已有疾病的对话数据上训练所述系统,当出现新疾病需要自动诊断时,将所述系统通过在新疾病的少量数据上进行迁移微调,得到拓展后的对话问诊系统。
优选地,所述智能医疗问诊系统构建模块进一步包括:
分层上下文编码器模块,用于根据模拟病人的病情描述,通过两个长短时记忆网络提取医生与病人对话对话历史的上下文信息,将其编码成单轮层级和多轮层级对话的特征向量;
元疾病推理模块,用于通过外部知识库构建疾病-症状知识图,并将分层上下文编码器模块获得的特征向量初始化构建的疾病-症状知识图的话语结点,通过两层图注意力网络,分别将话语节点蕴含的信息传递到疾病节点与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量;
基于医疗知识图的解码器,用于在所述元疾病推理模块获得的图节点特征向量的指导下,利用复制网络作为对话生成器,从普通词表或者图节点集合动态选择解码的结果,智能生成医生对病人的回复。
优选地,所述分层上下文编码器模块将模拟病人产生的对话样本输入到第一个双向长短期记忆网络,对每轮的话语编码,取最后一个时步的输出作为话语层级的特征向量;然后将所述话语层级的特征向量输入到另一个双向长短期记忆网络,对话语层级的特征向量序列进行编码得到对话层级的高层级特征向量。
优选地,所述分层上下文编码器模块使用监督学习的方式训练双向长短期记忆网络模型。
优选地,所述元疾病推理模块进一步包括:
知识图构建单元,用于通过外部知识库构建先验性的疾病-症状知识图,所述知识图包含话语节点,疾病节点,症状节点三类节点,将每个话语节点和该单轮话语包含的疾病、症状节点进行连边,并通过查询外部知识库,将相关疾病和对应症状连边;
信息传递及扩散传播单元,用于通过两层图注意力网络,分别将对话节点蕴含的信息传递到疾病与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量。
优选地,所说基于医疗知识图的解码器根据所述元疾病推理模块得到的最终的图节点特征向量,分步依次生成每个单词,生成每个单词的过程就是取所有候选词中生成概率最大的那个预测分布来自于两部分:分别是普通词表分布和图节点集合的分布,两分布的加权求和得到最终的预测分布。
优选地,所述训练模块通过在旧疾病上对所述智能医疗问诊系统进行元训练,使得所述智能医疗问诊系统学习到疾病间通用的对话与诊断技巧,进而可以通过新疾病少量的对话样本进行微调,具备快速迁移到新疾病上完成问诊的能力。
优选地,于训练模型中,对于每个旧的任务,元对话模型首先进行一步梯度更新:然后通过一阶与模型无关的元学习,得到元初始化模型θmeta;使用所述的元初始化模型θmeta,在需要诊断新疾病时,仅通过在少量对话数据上进行一步梯度更新θmeta,即快速迁移适应到新疾病上。
优选地,所述训练模块以在线的形式收集所有可观察到的对话样本,提取对话样本中的症状节点,如果两个症状节点出现在同一个样本中,则将两症状节点进行连边操作;然后根据得到的所述全局症状图,原疾病症状图动态更新方式为Ameta=A+A*,并将Ameta设置为元模型θmeta参数的一部分,来动态学习准确的相互关系表征。
为达到上述目的,本发明还提供一种面向低资源场景可迁移的医疗问诊对话方法,包括如下步骤:
步骤S1,建立一个模拟病人,所述模拟病人具有一定数量的对话样本,每次训练随机选取一个对话样本,针对所述模拟病人会给出其病情描述报告;
步骤S2,建立一个智能医疗问诊系统,所述智能医疗问诊系统根据模拟病人的病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量;通过演化外部的医疗知识图,根据得到的特征向量进行疾病-症状之间的关系推理,得到图节点特征向量,并在演化得到的图节点信息的指导下,利用复制网络,智能生成医生对病人的回复;
步骤S3,对步骤S2构建的智能医疗问诊系统进行端到端训练,利用图演化元学习算法在已有疾病的对话数据上训练所述系统,当出现新疾病需要自动诊断时,将所述系统通过在新疾病的少量数据上进行迁移微调,得到拓展后的对话问诊系统。
与现有技术相比,具有如下优点
1、相比于现有的医疗问诊对话系统多依赖于大量的对话数据来训练的缺陷,本发明采用一阶模型无关的元学习算法学习到不同疾病间通用的对话技巧和问诊逻辑,经过元训练得到的元对话模型可以仅利用少量的对话数据即可快速迁移到未知新疾病上,完成对新疾病的智能问诊,具备良好的可拓展性。
2、本发明的元疾病推理模块利用外部知识库,构建出疾病与症状的元知识图,同时根据线上收集的对话数据,构建出全局症状图并对元知识图进行演化,使其适应到不同疾病的对话场景下。同时该模块利用图注意力网络,对元知识图上疾病与症状节点之间的相互关系进行推理。这个过程与现实中医生对病人的问诊流程是一致的,医生通常有基于过去诊断经验的知识库,包含着不同疾病与症状之间的相互关系,这个知识库会随着新的诊断案例的总结学习进行演变和完善,同时医生在诊断新疾病时不需要大量的诊断案例的学习,只需要将对已见过疾病经验进行迁移,即可进行对新疾病的问诊。
3、本发明采用元知识图指导的复制网络作为对话生成器,通过动态选择生成词来自普通词表或者来自图实体节点,从而能够生成更精准有效的回复,提高智能问诊的效率。
附图说明
图1为本发明一种面向低资源场景可迁移的医疗问诊对话系统的系统架构图;
图2为本发明具体实施例中面向低资源场景可迁移的医疗问诊对话系统的结构示意图。;
图3为本发明一种面向低资源场景可迁移的医疗问诊对话方法的步骤流程图;
图4为本发明具体实施例中一种面向低资源场景可迁移的医疗问诊对话系统的生成效果与可视化图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种面向低资源场景可迁移的医疗问诊对话系统的系统架构图,图2为本发明具体实施例中面向低资源场景可迁移的医疗问诊对话系统的结构示意图。如图1及图2所示,本发明一种面向低资源场景可迁移的医疗问诊对话系统,包括:
模拟病人构建模块10,用于建立模拟病人,所述模拟病人具有一定数量的对话样本,每次训练随机选取一个对话样本,针对所述模拟病人会给出其病情描述报告。在本发明中,一个对话样本包含多轮对话,所述病情描述是病人对自我病情的陈述,即病人在多轮对话中描述自己的症状。
智能医疗问诊系统构建模块11,用于建立一个智能医疗问诊系统,所述智能系统根据模拟病人的病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量;通过演化外部的医疗知识图,根据得到的特征向量进行疾病-症状之间的关系推理,得到图节点特征向量,并在演化得到的图节点信息的指导下,利用复制网络,智能生成医生对病人的回复。
具体地,智能医疗问诊系统构建模块11进一步包括:
分层上下文编码器模块110,用于根据模拟病人的病情描述,通过两个长短时记忆网络提取医生与病人对话对话历史的上下文信息,将其编码成单轮层级和多轮层级对话的特征向量。
具体地,分层上下文编码器模块110将模拟病人产生的对话样本输入到第一个双向长短期记忆网络(LSTM),对每轮(一问一答为一轮)的话语编码,取最后一个时步的输出作为话语层级的特征向量;然后将所述话语层级的特征向量输入到另一个双向长短期记忆网络,对所述话语层级的特征向量序列进行编码得到对话层级的高层级特征向量。
优选地,所述分层上下文编码器模块110采用双向长短期记忆网络,使用监督学习的方式训练双向长短期记忆网络模型,词向量和隐藏状态的维度都设为300,以BIO形式对文本序列中的每个词进行标注。
元疾病推理模块111,用于通过外部知识库构建疾病-症状知识图,将分层上下文编码器模块110获得的特征向量初始化构建的疾病-症状知识图的话语结点,通过两层图注意力网络,分别将话语节点蕴含的信息传递到疾病节点与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量。
具体地,元疾病推理模块111进一步包括:
知识图构建单元,用于通过外部知识库构建先验性的疾病-症状知识图A,所述知识图包含三类节点:话语节点,疾病节点以及症状节点。为了将话语节点和疾病、症状节点联系起来,将每个话语节点和该单轮话语包含的疾病、症状节点进行连边,为了建立疾病与症状之间的联系,通过查询外部知识库,将相关疾病和对应症状连边。
信息传递及扩散传播单元,用于通过两层图注意力网络,分别将话语节点蕴含的信息传递到疾病与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的疾病与症状图节点特征向量,节点特征更新如下:hi=σ(∑j∈NαIJWhj),这使得元疾病图推理模块可以对疾病与症状的相互关系进行推理;
预测单元,用于将经信息传递及扩散传播单元得到的疾病与症状节点特征向量送入全连接神经网络,进行下一轮医生对病人的回复中可能出现症状的分类,根据分类结果,计算交叉熵损失函数,得到实体预测损失这里是对症状的分类任务,即下一轮回复里可能出现哪些症状,而基于医疗知识图的解码器112的任务则是回复生成,旨在生成自然语言形式的回复。
基于医疗知识图的解码器112,用于在元疾病推理模块111获得的图节点特征向量的指导下,利用复制网络,从普通词表或者图节点集合动态选择解码的结果,生成智能医生对病人的回复。
具体地说,基于医疗知识图的解码器112根据元疾病推理模块111得到的最终的图节点特征向量(例如有50个图节点,则就有50个维度相等(假设维度为512)的一维特征向量,向量的每个元素为实数,例如某节点向量有512个实数元素,即[0.32,-1.21,0.89….]),分步依次生成每个单词,生成每个词的过程就是取所有候选词中生成概率最大的那个,生成概率分布来自于两部分:分别是普通词表概率分布和图节点的概率分布,两分布的加权求和得到最终的生成分布,即Pfinal=(1-pg)·PV+pg·PE。假设最终生成的医生回复为:“你/应该/是/得了/肠炎。”生成每个词的过程就是取所有候选词中最后的生成概率Pfinal最大的那个,比如‘你’的生成概率最大,则先生成‘你’;后面则生成‘应该’等词。
具体地,解码器具体架构为双向长短期记忆网络(LSTM),令xt为解码器在t时刻的输入,st为解码器的状态,为图节点特征向量,则复制权重为 其中“|”为两个向量的拼接操作,σ为Sigmoid激活函数,ω1与b1为可训练的参数。普通词表分布根据LSTM的计算公式得到,普通词表概率分布为:其中为上下文向量,v、ω2与b2为可训练的参数;图节点复制概率分布是根据注意力权重得到,图节点的复制概率分布为:其中v′、ω3与b3为可训练的参数。
训练模块12,用于对智能医疗问诊系统构建模块11构建的智能医疗问诊系统进行端到端训练,利用图演化元学习算法在已有疾病的对话数据(即模拟病人构建模块10构建的模拟病人的对话样本)上训练所述系统,当出现新疾病需要自动诊断时,将所述系统通过在新疾病的少量数据上进行迁移微调,得到拓展后的对话问诊系统。
具体地,训练模块12通过在旧疾病上对所述医疗问诊系统进行元训练,使得所述系统学习到疾病间通用的对话与诊断技巧,进而可以通过新疾病少量的对话样本进行微调,具备快速迁移到新疾病上完成问诊的能力。
对于每个旧的任务,元对话模型(即模拟病人构建模块10、智能医疗问诊系统构建模块11、训练模块12形成的模型,通过元学习的方法进行训练,故称作元对话模型)首先进行一步梯度更新:然后通过一阶与模型无关的元学习,得到元初始化模型θmeta。使用所述的元初始化模型θmeta,可以在需要诊断新疾病时,仅通过在少量对话数据上进行一步梯度更新θmeta,即可快速迁移适应到新疾病上。
为了演化外部医疗知识图使其适应新疾病的问诊,训练模块14首先构造一个全局症状图A*,具体构造方式为:以在线的形式收集所有可观察到的对话样本,提取对话样本中的症状节点,如果两个症状节点出现在同一个样本中,则将两症状节点进行连边操作;然后根据得到的所述全局症状图,元疾病知识图A的动态更新方式为Ameta=A+A*,A代表通过外部知识库构建的元疾病知识图,A*代表通过对话样本提取构建的全局症状图,为了更精细地刻画疾病与症状的相互关系,将Ameta设置为元模型θmeta参数的一部分,来动态学习准确的相互关系表征。
图3为本发明一种面向低资源场景可迁移的医疗问诊对话方法的步骤流程图。如图3所示,本发明一种面向低资源场景可迁移的医疗问诊对话方法,包括如下步骤:
步骤S1,建立模拟病人,所述模拟病人具有一定数量的对话样本,每次训练随机选取一个对话样本,针对所述模拟病人会给出其病情描述报告。一个对话样本包含多轮对话,所述病情描述是病人对自我病情的陈述,即病人在多轮对话中描述自己的症状。
步骤S2,建立一个智能医疗问诊系统,所述智能医疗问诊系统根据模拟病人的病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量;通过演化外部的医疗知识图,根据得到的特征向量进行疾病-症状之间的关系推理,得到图节点特征向量,并在演化得到的图节点信息的指导下,利用复制网络,智能生成医生对病人的回复。
具体地,步骤S2进一步包括:
步骤S200,所述分层上下文编码器模块根据模拟病人的病情描述,通过两个长短时记忆网络提取医生与病人对话对话历史的上下文信息,将其编码成单轮层级和多轮层级对话的特征向量。
具体地,分层上下文编码器模块将模拟病人产生的对话样本输入到第一个双向长短期记忆网络,对每轮的话语编码,取最后一个时步的输出作为话语层级的特征向量;然后将所述话语层级的特征向量输入到另一个双向长短期记忆网络,对话语层级的特征向量序列进行编码得到对话层级的高层级特征向量。
优选地,所述分层上下文编码器模块采用双向长短期记忆网络,使用监督学习的方式训练双向长短期记忆网络模型,词向量和隐藏状态的维度都设为300,以BIO形式对文本序列中的每个词进行标注。
步骤S201,所述元疾病推理模块通过外部知识库构建疾病-症状知识图,并将步骤S200获得的特征向量初始化构建的疾病-症状知识图的话语结点,通过两层图注意力网络,分别将话语节点蕴含的信息传递到疾病节点与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量。
具体地,步骤S201进一步包括:
步骤S201a,通过外部知识库构建先验性的疾病-症状知识图,所述知识图包含三类结点:话语节点,疾病节点,症状节点。为了将话语节点和疾病、症状节点联系起来,将每个话语节点和该单轮话语包含的疾病、症状节点进行连边。为了建立疾病与症状之间的联系,通过查询外部知识库,将相关疾病和对应症状连边。
步骤S201b,通过两层图注意力网络,分别将对话节点蕴含的信息传递到疾病与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量,节点特征更新如下:hi=σ(∑j∈NαIJWhj),这使得元疾病图推理模块可以对疾病与症状的相互关系进行推理;
步骤S201c,将经信息传递及扩散传播单元得到的疾病与症状节点特征向量送入全连接层,预测下一轮医生将要询问病人的症状。
步骤S202,在步骤S201获得的图节点特征向量的指导下,利用复制网络,从普通词表或者图节点集合动态选择解码的结果,生成智能医生对病人的回复。
具体地说,根据步骤S201得到的最终的图节点特征向量(例如有50个图节点,则就有50个维度相等(假设维度为512)的一维特征向量,向量的每个元素为实数,例如某节点向量有512个实数元素,即[0.32,-1.21,0.89….]),分步依次生成每个单词,生成每个词的过程就是取所有候选词中生成概率最大的那个,生成概率分布来自于两部分:分别是普通词表概率分布和图节点的概率分布,两分布的加权求和得到最终的生成分布,即Pfinal=(1-pg)·PV+pg·PE。假设最终生成的医生回复为:“你/应该/是/得了/肠炎。”生成每个词的过程就是取所有候选词中最后的生成概率Pfinal最大的那个,比如‘你’的生成概率最大,则先生成‘你’;后面则生成‘应该’等词。
具体地,解码器具体架构为双向长短期记忆网络(LSTM),令xt为解码器在t时刻的输入,st为解码器的状态,为图节点特征向量,则复制权重为 其中“”为两个向量的拼接操作,σ为Sigmoid激活函数,ω1与b1为可训练的参数。普通词表分布根据LSTM的计算公式得到,普通词表概率分布为:其中为上下文向量,v、ω2与b2为可训练的参数;图节点复制概率分布是根据注意力权重得到,图节点的复制概率分布为:其中v′、ω3与b3为可训练的参数。
步骤S3,对步骤S2构建的智能医疗问诊系统进行端到端训练,利用图演化元学习算法在已有疾病的对话数据上训练所述系统,当出现新疾病需要自动诊断时,将所述系统通过在新疾病的少量数据上进行迁移微调,得到拓展后的对话问诊系统。
具体地,步骤S3进一步包括:
步骤S300,为了演化外部医疗知识图使其适应新疾病的问诊,首先构造一个全局症状图A*,具体构造方式为:以在线的形式收集所有可观察到的对话样本,提取对话样本中的症状节点,如果两个症状节点出现在同一个样本中,则将两节点进行连边操作,这里的连边操作与步骤S201a类似,只是步骤S201a中是根据外部知识图谱得到图谱A,而这里是根据对话数据提取得到;根据得到的所述全局症状图,原疾病症状图动态更新方式为Ameta=A+A*,其中A代表通过外部知识库构建的元疾病知识图谱,A*代表通过对话样本提取构建的全局症状图;为了更精细地刻画疾病与症状的相互关系,将Ameta设置为元模型θmeta参数的一部分,来动态学习准确的相互关系表征。
步骤S301,通过在旧疾病上对所述医疗问诊系统进行元训练,使得所述系统学习到疾病间通用的对话与诊断技巧,进而可以通过新疾病少量的对话样本进行微调,具备快速迁移到新疾病上完成问诊的能力。对于每个旧的任务,元对话模型首先进行一步梯度更新:然后通过一阶与模型无关的元学习,得到元初始化模型θmeta。使用所述的元初始化模型θmeta,可以在需要诊断新疾病时,仅通过在少量对话数据上进行一步梯度更新θmeta,即可快速迁移适应到新疾病上。
优选地,最终的损失函数为生成损失与实体预测损失的加权求和:
图4为本发明具体实施例中一种面向低资源场景可迁移的医疗问诊对话系统的生成效果与可视化图,可见,本发明基于对话历史,对外部知识图进行了丰富和演化,成功推理出了患者的疾病,同时生成了质量较高的回复。说明本发明可以很好地迁移到未见过的新疾病上,特别是当新疾病对话数据量较少时,具备良好的迁移性能
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种面向低资源场景可迁移的医疗问诊对话系统,包括:
模拟病人构建模块,用于建立模拟病人,所述模拟病人具有若干对话样本,每次训练随机选取一个对话样本,并针对所述模拟病人给出其病情描述报告;
智能医疗问诊系统构建模块,用于建立一个智能医疗问诊系统,所述智能医疗问诊系统根据模拟病人的病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量;通过演化外部的医疗知识图,根据得到的特征向量进行疾病-症状之间的关系推理,得到图节点特征向量,并在演化得到的图节点信息的指导下,利用复制网络,智能生成医生对病人的回复;
训练模块,用于对所述智能医疗问诊系统构建模块获得的智能医疗问诊系统进行端到端训练,利用图演化元学习算法在已有疾病的对话数据上训练所述系统,当出现新疾病需要自动诊断时,将所述系统通过在新疾病的少量数据上进行迁移微调,得到拓展后的对话问诊系统。
2.如权利要求1所述的一种面向低资源场景可迁移的医疗问诊对话系统,其特征在于,所述智能医疗问诊系统构建模块进一步包括:
分层上下文编码器模块,用于根据模拟病人的病情描述,通过两个长短时记忆网络提取医生与病人对话对话历史的上下文信息,将其编码成单轮层级和多轮层级对话的特征向量;
元疾病推理模块,用于通过外部知识库构建疾病-症状知识图,并将分层上下文编码器模块获得的特征向量初始化构建的疾病-症状知识图的话语结点,通过两层图注意力网络,分别将话语节点蕴含的信息传递到疾病节点与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量;
基于医疗知识图的解码器,用于在所述元疾病推理模块获得的图节点特征向量的指导下,利用复制网络作为对话生成器,从普通词表或者图节点集合动态选择解码的结果,智能生成医生对病人的回复。
3.如权利要求2所述的一种面向低资源场景可迁移的医疗问诊对话系统,其特征在于:所述分层上下文编码器模块将模拟病人产生的对话样本输入到第一个双向长短期记忆网络,对每轮的话语编码,取最后一个时步的输出作为话语层级的特征向量;然后将所述话语层级的特征向量输入到另一个双向长短期记忆网络,对话语层级的特征向量序列进行编码得到对话层级的高层级特征向量。
4.如权利要求3所述的一种面向低资源场景可迁移的医疗问诊对话系统,其特征在于:所述分层上下文编码器模块使用监督学习的方式训练双向长短期记忆网络模型。
5.如权利要求3所述的一种面向低资源场景可迁移的医疗问诊对话系统,其特征在于:所述元疾病推理模块进一步包括:
知识图构建单元,用于通过外部知识库构建先验性的疾病-症状知识图,所述知识图包含话语节点,疾病节点,症状节点三类节点,将每个话语节点和该单轮话语包含的疾病、症状节点进行连边,并通过查询外部知识库,将相关疾病和对应症状连边;
信息传递及扩散传播单元,用于通过两层图注意力网络,分别将对话节点蕴含的信息传递到疾病与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量。
6.如权利要求5所述的一种面向低资源场景可迁移的医疗问诊对话系统,其特征在于:所说基于医疗知识图的解码器根据所述元疾病推理模块得到的最终的图节点特征向量,分步依次生成每个单词,生成每个单词的过程就是取所有候选词中生成概率最大的那个,预测分布来自于两部分:分别是普通词表分布和图节点集合的分布,两分布的加权求和得到最终的预测分布。
7.如权利要求6所述的一种面向低资源场景可迁移的医疗问诊对话系统,其特征在于:所述训练模块通过在旧疾病上对所述智能医疗问诊系统进行元训练,使得所述智能医疗问诊系统学习到疾病间通用的对话与诊断技巧,进而可以通过新疾病少量的对话样本进行微调,具备快速迁移到新疾病上完成问诊的能力。
9.如权利要求8所述的一种面向低资源场景可迁移的医疗问诊对话系统,其特征在于:所述训练模块以在线的形式收集所有可观察到的对话样本,提取对话样本中的症状节点,如果两个症状节点出现在同一个样本中,则将两症状节点进行连边操作;然后根据得到的所述全局症状图,原疾病症状图动态更新方式为Ameta=A+A*,并将Ameta设置为元模型θmeta参数的一部分,来动态学习准确的相互关系表征。
10.一种面向低资源场景可迁移的医疗问诊对话方法,包括如下步骤:
步骤S1,建立一个模拟病人,所述模拟病人具有一定数量的对话样本,每次训练随机选取一个对话样本,并针对所述模拟病人给出其病情描述报告;
步骤S2,建立一个智能医疗问诊系统,所述智能医疗问诊系统根据模拟病人的病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量;通过演化外部的医疗知识图,根据得到的特征向量进行疾病-症状之间的关系推理,得到图节点特征向量,并在演化得到的图节点信息的指导下,利用复制网络,智能生成医生对病人的回复;
步骤S3,对步骤S2构建的智能医疗问诊系统进行端到端训练,利用图演化元学习算法在已有疾病的对话数据上训练所述系统,当出现新疾病需要自动诊断时,将所述系统通过在新疾病的少量数据上进行迁移微调,得到拓展后的对话问诊系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011287854.4A CN112289467B (zh) | 2020-11-17 | 2020-11-17 | 一种面向低资源场景可迁移的医疗问诊对话系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011287854.4A CN112289467B (zh) | 2020-11-17 | 2020-11-17 | 一种面向低资源场景可迁移的医疗问诊对话系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112289467A true CN112289467A (zh) | 2021-01-29 |
CN112289467B CN112289467B (zh) | 2022-08-02 |
Family
ID=74399057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011287854.4A Active CN112289467B (zh) | 2020-11-17 | 2020-11-17 | 一种面向低资源场景可迁移的医疗问诊对话系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112289467B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436752A (zh) * | 2021-05-26 | 2021-09-24 | 山东大学 | 一种半监督的多轮医疗对话回复生成方法及系统 |
CN113887247A (zh) * | 2021-10-22 | 2022-01-04 | 科大讯飞股份有限公司 | 对话路径构建方法、对话路径生成方法及相关设备 |
CN114005549A (zh) * | 2021-11-09 | 2022-02-01 | 哈尔滨理工大学 | 一种基于深度学习的增强型自动医疗诊断对话系统 |
CN116072298A (zh) * | 2023-04-06 | 2023-05-05 | 之江实验室 | 一种基于层级标记分布学习的疾病预测系统 |
CN116246749A (zh) * | 2023-05-11 | 2023-06-09 | 西南医科大学附属医院 | 集成电子病历的内分泌病人个性化健康管理系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817329A (zh) * | 2019-01-21 | 2019-05-28 | 暗物智能科技(广州)有限公司 | 一种医疗问诊对话系统以及应用于该系统的强化学习方法 |
CN111125445A (zh) * | 2019-12-17 | 2020-05-08 | 北京百度网讯科技有限公司 | 社区主题生成方法、装置、电子设备及存储介质 |
CN111553890A (zh) * | 2020-04-22 | 2020-08-18 | 上海全景云医学影像诊断有限公司 | 基于增量学习的x光正位胸片多任务检测方法 |
CN111696345A (zh) * | 2020-05-08 | 2020-09-22 | 东南大学 | 一种基于网络社区检测和gcn的耦合大规模数据流宽度学习快速预测智能算法 |
CN111863237A (zh) * | 2020-05-29 | 2020-10-30 | 东莞理工学院 | 一种基于深度学习的移动端疾病智能辅助诊断系统 |
-
2020
- 2020-11-17 CN CN202011287854.4A patent/CN112289467B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817329A (zh) * | 2019-01-21 | 2019-05-28 | 暗物智能科技(广州)有限公司 | 一种医疗问诊对话系统以及应用于该系统的强化学习方法 |
CN111125445A (zh) * | 2019-12-17 | 2020-05-08 | 北京百度网讯科技有限公司 | 社区主题生成方法、装置、电子设备及存储介质 |
CN111553890A (zh) * | 2020-04-22 | 2020-08-18 | 上海全景云医学影像诊断有限公司 | 基于增量学习的x光正位胸片多任务检测方法 |
CN111696345A (zh) * | 2020-05-08 | 2020-09-22 | 东南大学 | 一种基于网络社区检测和gcn的耦合大规模数据流宽度学习快速预测智能算法 |
CN111863237A (zh) * | 2020-05-29 | 2020-10-30 | 东莞理工学院 | 一种基于深度学习的移动端疾病智能辅助诊断系统 |
Non-Patent Citations (2)
Title |
---|
LIANG, XD等: "Interpretable Structure-Evolving LSTM", 《30TH IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2017)》 * |
曾航齐等: "基于Hadoop的医疗大数据智能辅助诊疗平台的构建", 《中国数字医学》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436752A (zh) * | 2021-05-26 | 2021-09-24 | 山东大学 | 一种半监督的多轮医疗对话回复生成方法及系统 |
CN113887247A (zh) * | 2021-10-22 | 2022-01-04 | 科大讯飞股份有限公司 | 对话路径构建方法、对话路径生成方法及相关设备 |
CN114005549A (zh) * | 2021-11-09 | 2022-02-01 | 哈尔滨理工大学 | 一种基于深度学习的增强型自动医疗诊断对话系统 |
CN116072298A (zh) * | 2023-04-06 | 2023-05-05 | 之江实验室 | 一种基于层级标记分布学习的疾病预测系统 |
CN116072298B (zh) * | 2023-04-06 | 2023-08-15 | 之江实验室 | 一种基于层级标记分布学习的疾病预测系统 |
CN116246749A (zh) * | 2023-05-11 | 2023-06-09 | 西南医科大学附属医院 | 集成电子病历的内分泌病人个性化健康管理系统 |
CN116246749B (zh) * | 2023-05-11 | 2023-07-21 | 西南医科大学附属医院 | 集成电子病历的内分泌病人个性化健康管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112289467B (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112289467B (zh) | 一种面向低资源场景可迁移的医疗问诊对话系统及方法 | |
CN109817329B (zh) | 一种医疗问诊对话系统以及应用于该系统的强化学习方法 | |
CN112271001B (zh) | 一种应用异构图神经网络的医疗咨询对话系统及方法 | |
CN110188331B (zh) | 模型训练方法、对话系统评价方法、装置、设备及存储介质 | |
CN111897941A (zh) | 对话生成方法、网络训练方法、装置、存储介质及设备 | |
CN112148863B (zh) | 一种融入常识知识的生成式对话摘要方法 | |
CN110851491A (zh) | 基于多重邻居节点的多重语义影响的网络链接预测方法 | |
CN111210002B (zh) | 一种基于生成对抗网络模型的多层学术网络社区发现方法、系统 | |
CN112115246A (zh) | 基于对话的内容推荐方法、装置、计算机设备及存储介质 | |
CN115495552A (zh) | 基于双通道语义增强的多轮对话回复生成方法及终端设备 | |
Liu et al. | Augmented LSTM framework to construct medical self-diagnosis android | |
CN117033568A (zh) | 一种医学数据指标解读方法、装置、存储介质及设备 | |
CN111046157B (zh) | 一种基于平衡分布的通用英文人机对话生成方法和系统 | |
Jhunjhunwala et al. | Multi-action dialog policy learning with interactive human teaching | |
CN115827968A (zh) | 一种基于知识图谱推荐的个性化知识追踪方法 | |
CN117635785B (zh) | 一种护工数字人生成方法及系统 | |
Lan et al. | Knowledge graph-based conversational recommender system in travel | |
CN118171231A (zh) | 一种融合多维特征的动态图神经认知诊断方法 | |
Muangnak et al. | The neural network conversation model enables the commonly asked student query agents | |
CN116612843B (zh) | 一种心理测评掩饰性行为识别方法及系统 | |
KR20220066554A (ko) | Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램 | |
CN116895386A (zh) | 基于医学实体知识预测和推理的医疗咨询对话系统及方法 | |
Zhang et al. | A question-centric multi-experts contrastive learning framework for improving the accuracy and interpretability of deep sequential knowledge tracing models | |
CN115862862A (zh) | 疾病预测方法、装置及计算机可读存储介质 | |
CN115964475A (zh) | 一种用于医疗问诊的对话摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |