CN110364251A - 一种基于机器阅读理解的智能交互导诊咨询系统 - Google Patents

一种基于机器阅读理解的智能交互导诊咨询系统 Download PDF

Info

Publication number
CN110364251A
CN110364251A CN201910517682.6A CN201910517682A CN110364251A CN 110364251 A CN110364251 A CN 110364251A CN 201910517682 A CN201910517682 A CN 201910517682A CN 110364251 A CN110364251 A CN 110364251A
Authority
CN
China
Prior art keywords
word
model
training
vector
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910517682.6A
Other languages
English (en)
Other versions
CN110364251B (zh
Inventor
王永利
刘森淼
张伟
罗靖杰
卜凡
彭姿容
郭相威
朱亚涛
朱根伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN201910517682.6A priority Critical patent/CN110364251B/zh
Publication of CN110364251A publication Critical patent/CN110364251A/zh
Application granted granted Critical
Publication of CN110364251B publication Critical patent/CN110364251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于机器阅读理解的智能交互导诊系统。该系统包括自然语言理解模块、阅读理解模块和对话管理模块,其中自然语言理解模块分析用户输入的自然语言语句,判断语句的意图,并且抽取语句中的关键信息;阅读理解模块根据自然语言理解模块抽取的相关信息,判断用户应该选择的科室;对话管理模块管理对话流程,生成系统回答语句,引导用户导诊。本发明能够为患者提供导诊服务,方便了患者选择科室,提高了医院效率,导诊准确率高,系统交互性强,方便用户使用。

Description

一种基于机器阅读理解的智能交互导诊咨询系统
技术领域
本发明涉及自然语言处理技术领域,特别是一种基于机器阅读理解的智能交互导诊咨询系统。
背景技术
由于医院的科室类别繁杂,患者在医院就医时,无法准确选择自己应该挂号的科室,有时因为各种原因不方便咨询医院的导诊人员,导致挂号效率较低,还会出现挂错科室的结果,用户体验较差。近年来,机器学习领域发展迅速,使用机器学习相关技术构建医疗导诊系统,能够设计出智能化程度高、操作简便的导诊咨询系统。
传统的咨询系统基于大量规则库,主要通过人工录入一些规则,当用户提问时,会从规则库快速找到匹配答案返回给用户,但是这种方法需要编写大量的规则,规则之间的关系不透明。当规则很多时(多于100条规则),系统速度会很慢。基于规则的大型系统可能就不适用于实时应用。此外,基于规则的咨询系统没有学习能力,不具备从经验中学习的能力。人类专家知道何时打破规则,而咨询系统并不能自动修改知识库,例如调整规则、添加规则,修改和维护系统的任务仍然由知识工程师来做。
发明内容
本发明的目的在于提供一种能够为患者提供导诊服务,方便了患者选择科室,提高医院效率,导诊准确率高,系统交互性强,方便用户使用的智能交互导诊咨询系统。
实现本发明目的的技术解决方案为:.一种基于机器阅读理解的智能交互导诊咨询系统,其特征在于,包括自然语言理解模块、阅读理解模块和对话管理模块;
所述自然语言理解模块,分析用户输入的自然语言语句,判断语句的意图,并且抽取语句中的关键信息;
所述阅读理解模块,根据自然语言理解模块抽取的关键信息,判断用户应该选择的科室;
所述对话管理模块,管理对话流程,生成系统回答语句,引导用户导诊。
进一步地,所述自然语言理解模块,具体包括:
语料获取和预处理;
数据集准备:根据医疗导诊数据集规模和内容设计长短期记忆神经网络,训练词表示模型,词表示模型将自然语言表示为计算机所能接受的形式;
模型训练:使用给定的医疗导诊数据集,包括医疗症状,对自然语言理解神经网络模型进行训练;
识别语句:使用训练后的模型识别用户输入语句的意图,并提取语句中的关键信息。
进一步地,所述阅读理解模块,具体包括:
数据集准备:根据医疗诊断数据集和内容,设计阅读理解神经网络;
模型训练:使用医疗诊断数据集,对阅读理解模型进行训练;
选择科室:使用训练后的模型,根据自然语言理解模块收集的信息,选择相应的科室。
进一步地,所述对话管理模块,具体包括:
定义意图和动作:基于当前对话状态和意图、实体选取下一步采取的行动;
定义解释器:包括执行自然语言理解模块和把消息转化为格式化信息;
数据准备:设计长短期记忆网络对话模型;
模型训练:得到对话模型;
根据对话模型进行对话管理。
进一步地,所述的语料获取和预处理,具体包括:
收集中文语料库,包括医疗相关语料和常用语料,训练词向量表示模型,得到词向量特征。
进一步地,所述数据集准备:根据数据集规模和内容设计长短期记忆神经网络,训练词表示模型,具体如下:
数据集由问诊相关语句与日常用语构成,标记语句的意图和语句中的实体,并标记语句中实体的起始位置;使用长短期神经网络作为模型,分类采用softmax归一化指数函数,训练词表示模型。
进一步地,所述数据集准备:根据数据集和内容,设计神经网络,具体如下:
预训练词向量和字向量,字向量用卷积神经网络训练。
进一步地,所述的选择科室:使用训练后的模型,根据收集的信息选择相应的科室,具体如下:
首先根据用户信息判断应该使用的医疗信息段落,然后使用训练的阅读理解模块的模型预测问题答案,并将答案传递给对话管理模块。
进一步地,所述的数据准备,设计长短期记忆网络对话模型,具体如下:
编写对话规则,由不同的故事路径构成,设计长短期记忆网络,训练对话管理模型,使用对话管理模块的模型进行对话管理。
进一步地,所述的模型训练:得到对话模型,具体如下:
采用监督学习的训练方式,用长短期记忆网络模型训练对话模型,具体为:
首先预训练词向量,单词w的表示由词向量和字向量拼接而成,然后经过两层高速公路网络得到d维度的向量,语境词集合X∈Rd*T和问题词集合Q∈Rd*J,Rd*T代表一个d*T的矩阵,Rd*J表示一个d*J的矩阵,T为语境中的单词数,J为问题中的单词数;使用长短期记忆网络即LSTM来模拟单词之间的时间交互,在两个方向上放置一个LSTM,并连接两个LSTM的输出,从上下文字向量X获得H∈R2d*T,并且从查询字向量Q获得U∈R2d*T
计算各自单词间的局部关系,相似度计算方式是:
其中一个可训练的重量矢量,Stj为第t个语境词context word和第j个查询词query word之间的相似度;α为标量函数,H:t为H的第t个列向量,U:j为U的第j个列向量,⊙为点乘,[;]表示向量在行上的拼接,h,u指H:t,U:j
然后计算双向注意力
计算context-to-query attention即C2Q上下文注意力:对于语境中的第t个单词,计算查询中的每个单词与该词的相关度,根据前面得到的相关性矩阵,使用归一化指数函数softmax()对列归一化,然后计算查询向量加权和得到语境词的新表示
at=softmax(St:)
其中at为j维向量,表示第t个上下文词对查询词的注意权重,St:表示S的第t个行向量,atj代表at的第j个元素;
计算query-to-context attention即Q2C上下文注意力:计算对于查询中的词,语境中的每个词与它的相关度;首先取相关性矩阵每列最大值,对进行softmax归一化指数
b=softmax(maxcol(S))
其中sofrmax()为归一化函数,maxcol()函数为在列上执行最大函数,H:t为H的第t个列向量;b为语境词的注意力权重;的向量表示相对于查询的上下文最重要单词的加权和;对进行T次计算得到即查询词的新表示,然后将 拼接成G:
将上下文嵌入和注意力向量合并到了G之中,G的每一列就是对上下文的每一个词的问题-察觉表达,β是一个可训练的函数,⊙为点乘;
然后为建模层,输入是G,再经过一次长短期记忆网络LSTM得到M,捕捉的是以查询为条件的上下文单词之间的关系,M的一列代表的是融入了查询后的语境中一个词的上下文表示;
预测开始位置p1和结束位置p2
其中 为可训练的权重向量,M为传递到输出层以预测答案的矩阵,M再经过一个长短期记忆网络LSTM得到M2∈R2d*T,R2d*T指2d*T的矩阵通过训练得到训练权重的值;
首先定义损失函数L(θ)
其中Θ是模型中所有可训练权重的集合 N为数据集中示例个数,是数据集第i个示例中正确的开始和结束的索引,采用梯度下降方法得到使损失函数值最小的权重Θ的值,带入模型用来得到结束位置的概率分布。
本发明与现有技术相比,其显著优点在于:(1)为患者提供导诊服务,方便了患者选择科室,减少了医院成本,提高了医院效率,导诊准确率高,系统交互性强;(2)基于机器学习,使用用户模拟器做强化学习,进行端到端的训练,将知识库编码在一个复杂的深度网络,然后再和编码后的问题结合解码生成答案,提高了系统的智能化程度,提高了导诊的准确率;(3)数据集采用医疗相关信息,训练的模型非常适用于医疗导诊方面的应用。
附图说明
图1是本发明基于机器阅读理解的智能交互导诊咨询系统中阅读理解模块模型图。
图2是本发明中对话管理模块的流程图。
具体实施方式
本发明基于机器阅读理解的智能交互导诊咨询系统,其特征在于,包括自然语言理解模块、阅读理解模块和对话管理模块;
所述自然语言理解模块,分析用户输入的自然语言语句,判断语句的意图,并且抽取语句中的关键信息;
所述阅读理解模块,根据自然语言理解模块抽取的关键信息,判断用户应该选择的科室;
所述对话管理模块,管理对话流程,生成系统回答语句,引导用户导诊。
进一步地,所述自然语言理解模块,具体包括:
语料获取和预处理;
数据集准备:根据医疗导诊数据集规模和内容设计长短期记忆神经网络,训练词表示模型,词表示模型将自然语言表示为计算机所能接受的形式;
模型训练:使用给定的医疗导诊数据集,包括医疗症状,对自然语言理解神经网络模型进行训练;
识别语句:使用训练后的模型识别用户输入语句的意图,并提取语句中的关键信息。
进一步地,所述阅读理解模块,具体包括:
数据集准备:根据医疗诊断数据集和内容,设计阅读理解神经网络;
模型训练:使用医疗诊断数据集,对阅读理解模型进行训练;
选择科室:使用训练后的模型,根据自然语言理解模块收集的信息,选择相应的科室。
进一步地,所述对话管理模块,具体包括:
定义意图和动作:基于当前对话状态和意图、实体选取下一步采取的行动;
定义解释器:包括执行自然语言理解模块和把消息转化为格式化信息;
数据准备:设计长短期记忆网络对话模型;
模型训练:得到对话模型;
根据对话模型进行对话管理。
进一步地,所述的语料获取和预处理,具体包括:
收集中文语料库,包括医疗相关语料和常用语料,训练词向量表示模型,得到词向量特征。
进一步地,所述数据集准备:根据数据集规模和内容设计长短期记忆神经网络,训练词表示模型,具体如下:
数据集由问诊相关语句与日常用语构成,标记语句的意图和语句中的实体,并标记语句中实体的起始位置;使用长短期神经网络作为模型,分类采用softmax归一化指数函数,训练词表示模型。
进一步地,所述数据集准备:根据数据集和内容,设计神经网络,具体如下:
预训练词向量和字向量,字向量用卷积神经网络训练。
进一步地,所述的选择科室:使用训练后的模型,根据收集的信息选择相应的科室,具体如下:
首先根据用户信息判断应该使用的医疗信息段落,然后使用训练的阅读理解模块的模型预测问题答案,并将答案传递给对话管理模块。
进一步地,所述的数据准备,设计长短期记忆网络对话模型,具体如下:
编写对话规则,由不同的故事路径构成,设计长短期记忆网络,训练对话管理模型,使用对话管理模块的模型进行对话管理。
进一步地,所述的模型训练:得到对话模型,具体如下:
采用监督学习的训练方式,用长短期记忆网络模型训练对话模型,具体为:
首先预训练词向量,单词w的表示由词向量和字向量拼接而成,然后经过两层高速公路网络得到d维度的向量,语境词集合X∈Rd*T和问题词集合Q∈Rd*J,Rd*T代表一个d*T的矩阵,Rd*J表示一个d*J的矩阵,T为语境中的单词数,J为问题中的单词数;使用长短期记忆网络即LSTM来模拟单词之间的时间交互,在两个方向上放置一个LSTM,并连接两个LSTM的输出,从上下文字向量X获得H∈R2d*T,并且从查询字向量Q获得U∈R2d*T
计算各自单词间的局部关系,相似度计算方式是:
其中一个可训练的重量矢量,Stj为第t个语境词context word和第j个查询词query word之间的相似度;α为标量函数,H:t为H的第t个列向量,U:j为U的第j个列向量,⊙为点乘,[;]表示向量在行上的拼接,h,u指H:t,U:j
然后计算双向注意力
计算context-to-query attention即C2Q上下文注意力:对于语境中的第t个单词,计算查询中的每个单词与该词的相关度,根据前面得到的相关性矩阵,使用归一化指数函数softmax()对列归一化,然后计算查询向量加权和得到语境词的新表示
at=softmax(St:)
其中at为j维向量,表示第t个上下文词对查询词的注意权重,St:表示S的第t个行向量,atj代表at的第j个元素;
计算query-to-context attention即Q2C上下文注意力:计算对于查询中的词,语境中的每个词与它的相关度;首先取相关性矩阵每列最大值,对进行softmax归一化指数
b=softmax(maxcol(S))
其中sofrmax()为归一化函数,maxcol()函数为在列上执行最大函数,H:t为H的第t个列向量;b为语境词的注意力权重;的向量表示相对于查询的上下文最重要单词的加权和;对进行T次计算得到即查询词的新表示,然后将 拼接成G:
将上下文嵌入和注意力向量合并到了G之中,G的每一列就是对上下文的每一个词的问题-察觉表达,β是一个可训练的函数,⊙为点乘;
然后为建模层,输入是G,再经过一次长短期记忆网络LSTM得到M,捕捉的是以查询为条件的上下文单词之间的关系,M的一列代表的是融入了查询后的语境中一个词的上下文表示;
预测开始位置p1和结束位置p2
其中 为可训练的权重向量,M为传递到输出层以预测答案的矩阵,M再经过一个长短期记忆网络LSTM得到M2∈R2d*T,R2d*T为2d*T的矩阵。通过训练得到训练权重的值;
首先定义损失函数L(θ)
其中Θ是模型中所有可训练权重的集合 N为数据集中示例个数,是数据集第i个示例中正确的开始和结束的索引,采用梯度下降方法得到使损失函数值最小的权重Θ的值,带入模型用来得到结束位置的概率分布。
下面结合具体实施例,并参照附图对本发明进一步详细说明。
实施例
本发明基于机器阅读理解的智能交互导诊咨询系统,包括自然语言理解模块、阅读理解模块和对话管理模块;
所述自然语言理解模块,分析用户输入的自然语言语句,判断语句的意图,并且抽取语句中的关键信息;
所述阅读理解模块,根据自然语言理解模块抽取的关键信息,判断用户应该选择的科室;
所述对话管理模块,管理对话流程,生成系统回答语句,引导用户导诊。
进一步地,所述自然语言理解模块,具体如下:
语料获取和预处理:收集常用中文语料和大量医疗相关语料,对语料进行分词,将每个词映射到向量空间,其中向量之间的距离代表词之间的相似度,得到词特征向量;
数据集准备:根据医疗导诊数据集规模和内容设计长短期记忆神经网络,训练词表示模型,词表示模型将自然语言表示为计算机所能接受的形式;
模型训练:使用给定的医疗导诊数据集,包括医疗症状,对自然语言理解神经网络模型进行训练;
识别语句:使用训练后的模型识别用户输入语句的意图,并提取语句中的关键信息。
进一步地,所述阅读理解模块,具体如下:
所述数据集准备,根据数据集设计神经网络,具体如下:
预训练词向量和字向量可训练,字向量用卷积神经网络训练;
所述模型训练:使用大量数据集,对模型进行训练,具体如下:
单词w的表示由词向量和字向量的拼接,然后经过两层highway network得到X∈Rd*T和Q∈Rd*J
对上一步的X和Q分别使用LSTM编码,捕捉X和Q各自单词间的局部关系,拼接双向长短期记忆网络的输出,得到H∈R2d*T和U∈R2d*J
对上一步的H和U,做context-to-query(语境-问题)以及query-to-context(问题-语境)两个方向的注意力:先计算相关性矩阵,再归一化计算注意力分数,最后与原始矩阵相乘得到修正的向量矩阵;
context-to-query和query-to-context共享相似度矩阵,S∈RT*J
相似度计算方式是:
Stj=α(H:t,U:j)∈R
其中Stj为第t个context word和第j个query word之间的相似度;α为scalarfunction,H:t为H的第t个列向量,U:j为U的第j个列向量,⊙为点乘,[;]表示向量在行上的拼接;
计算context-to-query attention(C2Q注意力):计算和每一个context word(语境词)最相关的query words(查词),根据前面得到的相关性矩阵,使用softmax(归一化指数函数)函数对列归一化,然后计算query向量加权和得到
at=softmax(St:)∈RJv
h=∑tbtH:t∈R2d
计算query-to-context attention(Q2C注意力):计算和每一个query word(查询词)最相关的context words(语境词),取相关性矩阵每列最大值,对其进行softmax归一化指数函数计算语境向量加权和,然后重复T次得到负担:
b=softmax(maxcol(S))∈RT
其中都是2dxT的矩阵;
将三个矩阵拼接起来得到G:
其中β为多层感知机;
然后为建模层,输入是G,再经过一次LSTM(长短期记忆网络)得到M∈r2D*T,捕捉的是以查询为条件的上下文单词之间的关系,M的每一个列向量都包含了对应单词关于整个语境词和查询词的上下文信息
预测开始位置p1和结束p2为:
p1和p2是答案开始位置和结束位置的概率分布,为可训练的权重向量,M为传递到输出层以预测答案的矩阵,M再经过一个LSTM(长短期记忆网络)得到M2∈R2d*T,用来得到结束位置的概率分布。
最后的目标函数:
Θ是模型中所有可训练权重的集合,N是数据集中的示例数,其中分别是第i个样本的真实状况的开始和结束位置。
进一步地,所述对话管理模块,具体如下:
定义意图和动作:模块基于当前对话状态和意图、实体选取下一步采取的行动;
定义解释器:包括执行自然语言理解模块和把消息转化为格式化信息;
数据准备:设计长短期记忆网络对话模型;
模型训练:得到对话模型;
根据对话模型进行对话管理。
所述数据准备:设计长短期记忆网络对话模型,具体如下:
编写两个文件domain.yml和story.md,domain.yml包括对话系统所适用的领域,其中包括意图集合、实体槽集合、机器人相应方式的集合;story.md包括训练数据集合,这里的训练数据是原始的对话在domain中的映射。
所述模型训练:得到对话模型,具体如下:
采用监督学习的训练方式,用长短期记忆网络模型训练对话模型。
所述对话管理模块,进行对话状态维护,控制导诊对话流程,引导用户完成导诊流程。作为接口与后端/任务模型进行交互,接收用户输入信息,根据对话模型判断系统的下一步操作,生成对话信息。如果用户输入的为症状等信息,系统利用自然语言理解模型判断用户的意图为问诊,并识别出相关实体,然后系统根据阅读理解模块从语料库中生成建议科室,对话管理系统根据相关信息生成回答返回给用户。
首先定义意图和动作,模块基于当前对话状态和意图、实体选取下一步采取的行动,定义解释器,包括执行自然语言理解模块和把消息转化为格式化信息,编写对话规则,设计长短期记忆网络,进行模型训练,得到对话模型,根据对话模型进行对话管理,对话模型采用监督学习的训练方式,使用f-score进行评估。
对于对话模型,首先准备两个数据文件,一个包括对话系统所适用的域,一个为数据的集合,此集合为原始对话在域中的映射。模型输入为历史对话记录,下一个决策动作作为标签,模型训练的三个参数为max_history_len(记录的最大历史长度),num_feature(每个记录的特征维度),num_actions(候选响应数)。X的维度为:(num_states,max_history,num_features),Y的维度为:num_states,对Y进行一个热编码,shuffle训练集,之后进行训练。
图1是阅读理解模块的模型图,首先是输入层,预训练词向量,字向量使用卷积神经网络训练,得到文本向量和问题向量,然后是嵌入编码层,使用长短期记忆网络对文本向量和问题向量进行编码,捕捉文本向量和问题向量单词间的局部关系,然后是文本-答案注意层,这一层采用双向计算注意分数的方式,并将三个矩阵拼接为一个矩阵,然后在经过建模层将矩阵编码为一个矩阵,最后为输出层,预测答案的起始位置和结束位置。
图2是对话管理模块的流程图,用户输入的语句首先经由解释器转成文本,意图和实体,然后传到跟踪器,跟踪器负责记录对话状态,接收解释器的结果,规则收到当前状态信息,规则自动选择下一步行动,所选择的行动被追踪器记录,系统向用户输出回复。
综上可知,本发明基于机器阅读理解的智能交互导诊咨询系统,包括自然语言理解模块、阅读理解模块、对话管理模块,所有模块基于机器学习相关技术完成,具有高度智能化、自动化等特点,适合用于医疗导诊服务。

Claims (10)

1.一种基于机器阅读理解的智能交互导诊咨询系统,其特征在于,包括自然语言理解模块、阅读理解模块和对话管理模块;
所述自然语言理解模块,分析用户输入的自然语言语句,判断语句的意图,并且抽取语句中的关键信息;
所述阅读理解模块,根据自然语言理解模块抽取的关键信息,判断用户应该选择的科室;
所述对话管理模块,管理对话流程,生成系统回答语句,引导用户导诊。
2.根据权利要求1所述的基于机器阅读理解的智能交互导诊咨询系统,其特征在于,所述自然语言理解模块,具体包括:
语料获取和预处理;
数据集准备:根据医疗导诊数据集规模和内容设计长短期记忆神经网络,训练词表示模型,词表示模型将自然语言表示为计算机所能接受的形式;
模型训练:使用给定的医疗导诊数据集,包括医疗症状,对自然语言理解神经网络模型进行训练;
识别语句:使用训练后的模型识别用户输入语句的意图,并提取语句中的关键信息。
3.根据权利要求1所述的基于机器阅读理解的智能交互导诊咨询系统,其特征在于,所述阅读理解模块,具体包括:
数据集准备:根据医疗诊断数据集和内容,设计阅读理解神经网络;
模型训练:使用医疗诊断数据集,对阅读理解模型进行训练;
选择科室:使用训练后的模型,根据自然语言理解模块收集的信息,选择相应的科室。
4.根据权利要求1所述的基于机器阅读理解的智能交互导诊咨询系统,其特征在于,所述对话管理模块,具体包括:
定义意图和动作:基于当前对话状态和意图、实体选取下一步采取的行动;
定义解释器:包括执行自然语言理解模块和把消息转化为格式化信息;
数据准备:设计长短期记忆网络对话模型;
模型训练:得到对话模型;
根据对话模型进行对话管理。
5.根据权利要求2所述的基于机器阅读理解的智能交互导诊咨询系统,其特征在于,所述的语料获取和预处理,具体包括:
收集中文语料库,包括医疗相关语料和常用语料,训练词向量表示模型,得到词向量特征。
6.根据权要求2的所述的基于机器阅读理解的智能交互导诊咨询系统,其特征在于,所述数据集准备:根据数据集规模和内容设计长短期记忆神经网络,训练词表示模型,具体如下:
数据集由问诊相关语句与日常用语构成,标记语句的意图和语句中的实体,并标记语句中实体的起始位置;使用长短期神经网络作为模型,分类采用softmax归一化指数函数,训练词表示模型。
7.根据权利要求3所述的基于机器阅读理解的智能交互导诊咨询系统,其特征在于,所述数据集准备:根据数据集和内容,设计神经网络,具体如下:
预训练词向量和字向量,字向量用卷积神经网络训练。
8.根据权利要求3所述的基于机器阅读理解的智能交互导诊咨询系统,其特征在于,所述的选择科室:使用训练后的模型,根据收集的信息选择相应的科室,具体如下:
首先根据用户信息判断应该使用的医疗信息段落,然后使用训练的阅读理解模块的模型预测问题答案,并将答案传递给对话管理模块。
9.根据权利要求4所述的基于机器阅读理解的智能交互导诊咨询系统,其特征在于,所述的数据准备,设计长短期记忆网络对话模型,具体如下:
编写对话规则,由不同的故事路径构成,设计长短期记忆网络,训练对话管理模型,使用对话管理模块的模型进行对话管理。
10.根据权利要求4所述的基于机器阅读理解的智能交互导诊咨询系统,其特征在于,所述的模型训练:得到对话模型,具体如下:
采用监督学习的训练方式,用长短期记忆网络模型训练对话模型,具体为:
首先预训练词向量,单词w的表示由词向量和字向量拼接而成,然后经过两层高速公路网络得到d维度的向量,语境词集合X∈Rd*T和问题词集合Q∈Rd*J,Rd*T代表一个d*T的矩阵,Rd*J表示一个d*J的矩阵,T为语境中的单词数,J为问题中的单词数;使用长短期记忆网络即LSTM来模拟单词之间的时间交互,在两个方向上放置一个LSTM,并连接两个LSTM的输出,从上下文字向量X获得H∈R2d*T,并且从查询字向量Q获得U∈R2d*T
计算各自单词间的局部关系,相似度计算方式是:
其中一个可训练的重量矢量,Stj为第t个语境词context word和第j个查询词queryword之间的相似度;α为标量函数,H:t为H的第t个列向量,U:j为U的第j个列向量,⊙为点乘,[;]表示向量在行上的拼接,h,u指H:t,U:j
然后计算双向注意力
计算context-to-query attention即C2Q上下文注意力:对于语境中的第t个单词,计算查询中的每个单词与该词的相关度,根据前面得到的相关性矩阵,使用归一化指数函数softmax()对列归一化,然后计算查询向量加权和得到语境词的新表示
at=softmax(St:)
其中at为j维向量,表示第t个上下文词对查询词的注意权重,St:表示S的第t个行向量,atj代表at的第j个元素;
计算query-to-context attention即Q2C上下文注意力:计算对于查询中的词,语境中的每个词与它的相关度;首先取相关性矩阵每列最大值,对进行softmax归一化指数
b=softmax(maxcol(S))
其中sofrmax()为归一化函数,maxcol()函数为在列上执行最大函数,H:t为H的第t个列向量;b为语境词的注意力权重;的向量表示相对于查询的上下文最重要单词的加权和;对进行T次计算得到即查询词的新表示,然后将拼接成G:
将上下文嵌入和注意力向量合并到了G之中,G的每一列就是对上下文的每一个词的问题-察觉表达,β是一个可训练的函数,⊙为点乘;
然后为建模层,输入是G,再经过一次长短期记忆网络LSTM得到M,捕捉的是以查询为条件的上下文单词之间的关系,M的一列代表的是融入了查询后的语境中一个词的上下文表示;
预测开始位置p1和结束位置p2
其中为可训练的权重向量,M为传递到输出层以预测答案的矩阵,M再经过一个长短期记忆网络LSTM得到M2∈R2d*T,R2d*T为2d*T的矩阵,通过训练得到训练权重的值;
首先定义损失函数L(θ)
其中Θ是模型中所有可训练权重的集合N为数据集中示例个数,是数据集第i个示例中正确的开始和结束的索引,采用梯度下降方法得到使损失函数值最小的权重Θ的值,带入模型用来得到结束位置的概率分布。
CN201910517682.6A 2019-06-14 2019-06-14 一种基于机器阅读理解的智能交互导诊咨询系统 Active CN110364251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910517682.6A CN110364251B (zh) 2019-06-14 2019-06-14 一种基于机器阅读理解的智能交互导诊咨询系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910517682.6A CN110364251B (zh) 2019-06-14 2019-06-14 一种基于机器阅读理解的智能交互导诊咨询系统

Publications (2)

Publication Number Publication Date
CN110364251A true CN110364251A (zh) 2019-10-22
CN110364251B CN110364251B (zh) 2022-08-16

Family

ID=68216239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910517682.6A Active CN110364251B (zh) 2019-06-14 2019-06-14 一种基于机器阅读理解的智能交互导诊咨询系统

Country Status (1)

Country Link
CN (1) CN110364251B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111063429A (zh) * 2019-10-25 2020-04-24 中国科学院自动化研究所 一种医疗咨询方法、装置、设备和计算机可读存储介质
CN111177381A (zh) * 2019-12-21 2020-05-19 深圳市傲立科技有限公司 基于语境向量反馈的槽填充和意图检测联合建模方法
CN111611370A (zh) * 2020-05-26 2020-09-01 全球能源互联网研究院有限公司 电费查询方法及电子设备
CN111709233A (zh) * 2020-05-27 2020-09-25 西安交通大学 基于多注意力卷积神经网络的智能导诊方法及系统
CN111985934A (zh) * 2020-07-30 2020-11-24 浙江百世技术有限公司 智能客服对话模型构建方法及应用
CN112017742A (zh) * 2020-09-08 2020-12-01 平安科技(深圳)有限公司 分诊数据处理方法、装置、计算机设备及存储介质
CN112149426A (zh) * 2020-09-27 2020-12-29 腾讯科技(深圳)有限公司 阅读任务处理方法及相关设备
CN112256854A (zh) * 2020-11-05 2021-01-22 云南电网有限责任公司 一种基于ai自然语言理解的智能ai会话方法及装置
CN112836026A (zh) * 2019-11-25 2021-05-25 北京搜狗科技发展有限公司 基于对话的问诊方法及装置
CN113254618A (zh) * 2021-06-15 2021-08-13 明品云(北京)数据科技有限公司 一种数据采集处理方法、系统、电子设备及介质
CN114238606A (zh) * 2021-12-17 2022-03-25 北京斗米优聘科技发展有限公司 一种智能语音客服机器人对话管理方法及装置
CN114490971A (zh) * 2021-12-30 2022-05-13 重庆特斯联智慧科技股份有限公司 基于人机对话交互的机器人控制方法及系统
WO2022229672A1 (en) * 2021-04-27 2022-11-03 Ip Ying Hoi Robert Networked messaging systems and methods of allowing multiple companies operating on a value chain to serve a customer simultaneously

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874782A (zh) * 2018-06-29 2018-11-23 北京寻领科技有限公司 一种层次注意力lstm和知识图谱的多轮对话管理方法
JP2019003319A (ja) * 2017-06-13 2019-01-10 株式会社野村総合研究所 対話型業務支援システムおよび対話型業務支援プログラム
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019003319A (ja) * 2017-06-13 2019-01-10 株式会社野村総合研究所 対話型業務支援システムおよび対話型業務支援プログラム
CN108874782A (zh) * 2018-06-29 2018-11-23 北京寻领科技有限公司 一种层次注意力lstm和知识图谱的多轮对话管理方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111063429A (zh) * 2019-10-25 2020-04-24 中国科学院自动化研究所 一种医疗咨询方法、装置、设备和计算机可读存储介质
CN112836026A (zh) * 2019-11-25 2021-05-25 北京搜狗科技发展有限公司 基于对话的问诊方法及装置
CN112836026B (zh) * 2019-11-25 2024-03-15 北京搜狗科技发展有限公司 基于对话的问诊方法及装置
CN111177381A (zh) * 2019-12-21 2020-05-19 深圳市傲立科技有限公司 基于语境向量反馈的槽填充和意图检测联合建模方法
CN111611370A (zh) * 2020-05-26 2020-09-01 全球能源互联网研究院有限公司 电费查询方法及电子设备
CN111611370B (zh) * 2020-05-26 2023-04-18 全球能源互联网研究院有限公司 电费查询方法及电子设备
CN111709233A (zh) * 2020-05-27 2020-09-25 西安交通大学 基于多注意力卷积神经网络的智能导诊方法及系统
CN111709233B (zh) * 2020-05-27 2023-04-18 西安交通大学 基于多注意力卷积神经网络的智能导诊方法及系统
CN111985934A (zh) * 2020-07-30 2020-11-24 浙江百世技术有限公司 智能客服对话模型构建方法及应用
CN112017742A (zh) * 2020-09-08 2020-12-01 平安科技(深圳)有限公司 分诊数据处理方法、装置、计算机设备及存储介质
CN112017742B (zh) * 2020-09-08 2024-05-24 平安科技(深圳)有限公司 分诊数据处理方法、装置、计算机设备及存储介质
CN112149426A (zh) * 2020-09-27 2020-12-29 腾讯科技(深圳)有限公司 阅读任务处理方法及相关设备
CN112149426B (zh) * 2020-09-27 2024-02-09 腾讯科技(深圳)有限公司 阅读任务处理方法及相关设备
CN112256854A (zh) * 2020-11-05 2021-01-22 云南电网有限责任公司 一种基于ai自然语言理解的智能ai会话方法及装置
WO2022229672A1 (en) * 2021-04-27 2022-11-03 Ip Ying Hoi Robert Networked messaging systems and methods of allowing multiple companies operating on a value chain to serve a customer simultaneously
CN113254618A (zh) * 2021-06-15 2021-08-13 明品云(北京)数据科技有限公司 一种数据采集处理方法、系统、电子设备及介质
CN114238606A (zh) * 2021-12-17 2022-03-25 北京斗米优聘科技发展有限公司 一种智能语音客服机器人对话管理方法及装置
CN114490971A (zh) * 2021-12-30 2022-05-13 重庆特斯联智慧科技股份有限公司 基于人机对话交互的机器人控制方法及系统
CN114490971B (zh) * 2021-12-30 2024-04-05 重庆特斯联智慧科技股份有限公司 基于人机对话交互的机器人控制方法及系统

Also Published As

Publication number Publication date
CN110364251B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN110364251A (zh) 一种基于机器阅读理解的智能交互导诊咨询系统
US20210034813A1 (en) Neural network model with evidence extraction
CN111652066B (zh) 基于多自注意力机制深度学习的医疗行为识别方法
Liu et al. Medical-vlbert: Medical visual language bert for covid-19 ct report generation with alternate learning
CN110459282A (zh) 序列标注模型训练方法、电子病历处理方法及相关装置
CN110491502A (zh) 显微镜视频流处理方法、系统、计算机设备和存储介质
CN112164476A (zh) 一种基于多任务和知识引导的医疗咨询对话生成方法
CN112487820A (zh) 一种中文医疗命名实体识别方法
CN111984772A (zh) 一种基于深度学习的医疗影像问答方法及系统
Wang et al. Structured triplet learning with pos-tag guided attention for visual question answering
CN116741411A (zh) 一种基于医疗大数据分析的智慧健康科普推荐方法、系统
Chandiok et al. CIT: Integrated cognitive computing and cognitive agent technologies based cognitive architecture for human-like functionality in artificial systems
CN112560948A (zh) 数据偏差下的眼底图分类方法及成像方法
CN116484042A (zh) 一种结合自相关与交互引导式注意力机制的视觉问答方法
CN115223021A (zh) 一种基于视觉问答的果树全生长期农事作业决策方法
CN117391092B (zh) 一种基于对比学习的电子病历多模态医疗语义对齐方法
CN112216379A (zh) 一种基于智能联合学习的疾病诊断系统
Naved et al. IoT-Enabled Convolutional Neural Networks: Techniques and Applications
CN116701996A (zh) 基于多元损失函数的多模态情感分析方法、系统、设备及介质
KR20200084816A (ko) 콜드 스타트를 해결하기 위한 신규 컨텐츠 분석 분석 방법, 장치 및 컴퓨터 프로그램
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
CN116994695A (zh) 报告生成模型的训练方法、装置、设备及存储介质
CN114840679A (zh) 一种基于乐理知识图谱推理的机器人智能导学方法及应用
CN115862837A (zh) 一种基于类型推理与语义约束的医学视觉问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant