CN109741824B - 一种基于机器学习的医疗问诊方法 - Google Patents
一种基于机器学习的医疗问诊方法 Download PDFInfo
- Publication number
- CN109741824B CN109741824B CN201811571115.0A CN201811571115A CN109741824B CN 109741824 B CN109741824 B CN 109741824B CN 201811571115 A CN201811571115 A CN 201811571115A CN 109741824 B CN109741824 B CN 109741824B
- Authority
- CN
- China
- Prior art keywords
- answer
- question
- vector
- medical
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000010801 machine learning Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000003993 interaction Effects 0.000 claims abstract description 9
- 238000005065 mining Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 4
- 230000015654 memory Effects 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims 1
- 230000006403 short-term memory Effects 0.000 claims 1
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000003745 diagnosis Methods 0.000 abstract description 2
- 201000010099 disease Diseases 0.000 abstract 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000036541 health Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于机器学习的医疗问诊方法对于在线医疗领域、未来智慧医院来说有较高的价值与广泛的意义。为了实现医疗信息化中的疾病与诊疗的智能问答系统,本发明提出一种基于机器学习的医疗问诊方法,能够通过数据挖掘与分析医疗数据中的特征,实现自动化的问诊。具体流程包括:准备医疗问诊数据集,数据向量化,问句语义特征表示与语义挖掘,多轮问答交互,模型训练与参数更新。
Description
技术领域
本发明属于计算机科学与医疗卫生的交叉领域,涉及一种针对医疗问答数据的特征提取与分析、自动问诊和问答对话方法。
背景技术
问答系统是一个快速发展的研究领域,融合了信息检索(InformationRetrieval,IR)、信息抽取(Information Extraction,IE)、自然语言处理(NaturalLanguage Processing,NLP)等多类研究。问答系统可以接受人们自然语言方式的提问,利用知识库检索找出与问题相关的匹配文档,从中抽取出简洁、准确的答案返回给用户。问答系统与信息检索的不同在于,信息检索返回给用户的知识一系列与问题相关的文档集合,而不是给出确定的答案。问答系统在信息检索、信息抽取的基础上更进了一步,问答系统可以直接返回准确的问题答案,而不必让用户从那么多经过排序的文档集合中去发掘有用信息,这在很大程度上克服了搜索引擎显现出的弊端,使用户有了更加自然的人机交互方式。通过研究问答系统衍生出的各类技术和方法也促进了相关领域的进步,例如文档检索、命名实体识别(Named Entity Recognition,NER)等。
问答系统是人工智能领域的一个研究应用方向,整合了自然语言处理、语言学、统计学、知识库等多种方法。在基于语言学方法的问答系统中,知识信息是按照一定的产生规则、逻辑框架或模板、本体语义网来进行组织,常用于问题答案对(Question Answer Pair)的分析和匹配。为了把用户的问题转化为一个可以用于检索数据库的标准查询表示,往往会用到语义分析、分词、词性标注等技术来实现。
合理利用健康医疗大数据,使得医疗资源能够充分发挥其优势,从而降低国家所面临的健康风险。构建医疗领域知识库,即将自然语言描述的医疗信息转化为特定形式表示的医疗领域知识,可以很好地对现有的医疗知识进行管理、共享、查询和推理,从而挖掘出领域中更多隐含的知识;其次,根据知识库中的现有知识,结合患者的问题描述对其进行智能化的科室分类和相似问题推荐,将会大幅缩短患者的等待时间,减轻在线分诊医生的工作量,增加整个平台问答的质量。
发明内容
一种基于机器学习的医疗问诊方法,具体包括如下步骤:准备医疗问诊数据集,数据向量化,问句语义特征表示与语义挖掘,多轮问答交互,模型训练与参数更新。
本发明的提出一种基于机器学习的医疗问诊方法,能够通过数据挖掘与分析医疗数据中的特征,实现自动化的问诊。
本发明所提出的一种基于机器学习的医疗问诊方法具体包括如下步骤:
步骤1,采集医疗问答数据集,电子化、格式化、收集的医疗问答数据,去除无效、无关的数据,作为系统输入;
步骤2,将医疗问答数据进行向量化,具体是将输入的问题进行分词,作为系统输入的基本单元;
步骤3,将步骤2向量化后的医疗问答数据采用问句语义特征表示,并挖掘语义;
步骤4,采用多轮问答交互机制,具体是采用多轮对话的方式来结合上下文实现问诊的记忆功能,获取已有的对话上下文,具体为将已有的对话文本首尾拼接到一起;
步骤5,针对步骤4得到的上下文和答案,进行模型训练与参数更新,通过训练使数据集中问题和答案拟合,计算问题和答案向量之间的误差,该误差设定为损失函数,更新系统参数,不断降低损失,使结果不断趋向准确。
在上述的一种基于机器学习的医疗问诊方法,步骤1的具体方法包括:去掉与医疗无关的数据,将数据形式组织为一问一答的形式。
在上述的一种基于机器学习的医疗问诊方法,所述步骤2具体包括:
步骤一,建立词语表,具体是遍历全部数据,得到全部的词语集合;
步骤二,建立词语表,将每个元素表示为向量;具体为在向量化步骤中,假设整个问答数据集的不重复的词语数为K,使用自然语言处理中的词嵌入方法将该K个元素各自映射至特定维度N的向量空间中,得到K×N的映射空间,此时词表元素表示为(K,N)维度的向量;例如可以通过词嵌入的方式将“医疗”表示为100维的向量[0.618 0.24911-0.422420.1217 0.34527-0.034457…]。
在上述的一种基于机器学习的医疗问诊方法,所述步骤3具体包括:采用神经网络提取数据中的内在特征和病理,具体方法是:设置向量化后的文本数据为输入,通过神经网络(如卷积神经网络)为的神经元自动计算向量空间中的特征表示,输出为神经元学习后的特征向量。
在上述的一种基于机器学习的医疗问诊方法,所述步骤4具体包括:
步骤一,将已有的m轮对话与当前问题表示成向量后拼接作为带有上下文的问句表示;
步骤二,用Ui,i∈[1,m]表示m个当前用户与系统已有的对话,则上下文表示为Uc=U1∪U2∪…∪Um,∪表示将句子首位拼接;
步骤三,用Q表示当前问题,则联合表示为UQ=Uc∪Q。
在上述的一种基于机器学习的医疗问诊方法,其特征在于,所述步骤5具体包括:使用向量相似度来表示问题和正确答案之间的对应程度,并作为模型的损失函数;具体方法可通过向量点乘、余弦距离以及欧式距离计算相似度;其中,欧氏距离、余弦距离分别满足
其中x表示预测的答案,y表示真实答案;
此外,基于上述相似度也可以采用Hinge loss结合负例答案进一步学习,即引入负例答案(不正确的答案)来拟合正确答案,远离错误答案,即满足
l(y,y′)=max(0,m-y+y′)
其中,y是正样本与正确答案的相似度,y’是负样本与正确答案的相似度,m是人为选定的边界值,通常设置为0.5。
因此,本发明具有如下优点:1.本发明采用机器学习与神经网络架构、向量化计算过程,相对于基于文本字符级的统计学习方法具有更加精细的语义特征,语义识别和问答对话更为准确可靠。2.本发明具有自我学习更新功能和人机交互功能,能够规范化、结构化诊疗过程,为新时代医疗带来全新解决方案。3.病人可通过与基于本发明研发的系统进行交互,提前自助提交检查及病历,缩短就医路径。了解就医流程和状态,便捷预约减少排队增加和医生沟通渠道,提升看病体验。此外,还能减少医生重复性的问询工作,提升工作效率。
具体实施方式
下面通过实施例,对本发明的技术方案作进一步具体的说明。
实施例:
首先介绍本发明的方法原理,具体包括如下步骤:
第一步,准备医疗问答数据集。电子化、格式化、收集的医疗问答数据,去除无效、无关的数据,作为系统输入。
第二步,向量空间的数据表示。由于中文文本处理的基本单元是词,因此,需要将输入的问题进行分词,作为系统输入的基本单元。使用词嵌入技术将输入问句映射到向量空间中。词嵌入是以一种低维实数向量的词语表示方式,将词语的各类特征都包含在里面,既有词性、词频等语法特征,又有词语之间的语义信息。具体做法是建立词语表,将每个元素表示为向量。为了便于计算特征值,在向量化步骤中,假设整个问答数据集的不重复的词语数为K,使用自然语言处理中的词嵌入方法将该K个元素各自映射至特定维度N的向量空间中,得到K×N的映射空间,此时词表元素表示为(K,N)维度的向量。例如可以通过词嵌入的方式将“医疗”表示为100维的向量[0.618 0.24911-0.42242 0.1217 0.34527-0.034457…]。
第三步,问句语义特征表示与语义挖掘。将问题都表示成向量之后,可以通过多种神经网络用于自动挖掘其中的语义特征和问答意图,例如卷积神经网络、递归神经网络等,本发明不限于某一种特定的网络。以常用的长短期记忆网络为例,
it=σ(Wixt+Uist-1+bi)
ft=σ(Wfxt+Ufst-1+bf)
ot=σ(Woxt+Uost-1+bo)
ht=ot*tanh(Ct)
其中xt是输入(即前面拼接的向量)的第t个向量,U是当前输入的权值矩阵,W是前一时刻的权值矩阵,b是偏置项,是基于当前输入和之前隐藏状态计算的状态值,U,W,b称为该神经网络的参数。it,ft,ot分别输入门、遗忘门和输出门,h代表网络输出。
第四步,多轮问答交互。传统的问答系统采用的是一问一答的模式,缺乏对历史问答的“回忆”与交互。本发明采用多轮对话的方式来结合上下文实现问诊的记忆功能。本发明不限于某种具体的多轮对话方法,例如将已有的m轮对话与当前问题表示成向量后拼接作为带有上下文的问句表示。用Ui,i∈[1,m]表示m个当前用户与系统已有的对话,则上下文表示为Uc=U1∪U2∪…∪Um,∪表示将句子首位拼接。用Q表示当前问题,则联合表示为UQ=Uc∪Q
第五步,模型训练与参数更新。机器学习模块通过训练使数据集中问题和答案拟合,计算问题和答案向量之间的误差(损失函数),更新系统参数,不断降低损失,使结果不断趋向准确。
在模型训练和参数更新步骤中,损失函数使用向量相似度来表示问题和正确答案之间的对应程度,并作为模型的损失函数。例如可通过向量点乘、余弦距离以及欧式距离计算相似度;其中,欧氏距离、余弦距离分别满足
其中x表示预测的答案,y表示真实答案。
此外,基于上述相似度也可以采用Hinge loss结合负例答案进一步学习,即引入负例答案(不正确的答案)来拟合正确答案,远离错误答案,即满足
l(y,y′)=max(0,m-y+y′)
其中,y是正样本与正确答案的相似度,y’是负样本与正确答案的相似度,m是人为选定的边界值,通常设置为0.5。
下面是采用本发明所涉及方法的具体案例。
将问答数据集进行分词,建立一个包含K个词的元素表,假设数据集共有9万个词,每个词语对应100维的向量,因此向量映射表大小为90000×100的矩阵,其中的向量采用随机初始化的方式,每个向量值的随机范围为[-0.5,0.5]。
问句语义特征表示与语义挖掘模块采用长短期记忆网络,其中的主要参数可设置为:神经元个数(特征维度)为128,学习率为0.001。训练方式采用Adam优化算法。模型训练与参数更新步骤中采用Hinge loss不断拟合预测和真实答案,得到最优模型。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (1)
1.一种基于机器学习的医疗问诊方法,其特征在于,包括:
第一步,准备医疗问答数据集,电子化、格式化、收集的医疗问答数据,去除无效、无关的数据,作为系统输入;
第二步,向量空间的数据表示,由于中文文本处理的基本单元是词,将输入的问题进行分词,作为系统输入的基本单元;使用词嵌入技术将输入问句映射到向量空间中;词嵌入是以一种低维实数向量的词语表示方式,将词语的各类特征都包含在里面,既有词性、词频语法特征,又有词语之间的语义信息;具体是建立词语表,将每个元素表示为向量;在向量化步骤中,假设整个问答数据集的不重复的词语数为K,使用自然语言处理中的词嵌入方法将该K个元素各自映射至特定维度N的向量空间中,得到K×N的映射空间,此时词表元素表示为(K,N)维度的向量;通过词嵌入的方式将“医疗”表示为100维的向量[0.618 0.24911 -0.42242 0.1217 0.34527 -0.034457 …];
第三步,问句语义特征表示与语义挖掘,将问题都表示成向量之后,通过多种神经网络用于自动挖掘其中的语义特征和问答意图,采用长短期记忆网络
其中,是输入的第t个向量, U是当前输入的权值矩阵,W是前一时刻的权值矩阵,b是偏置项,/>是基于当前输入和之前隐藏状态计算的状态值,U,W,b称为该神经网络的参数;,/>,/>分别输入门、遗忘门和输出门,h代表网络输出;
第四步,多轮问答交互,将已有的m轮对话与当前问题表示成向量后拼接作为带有上下文的问句表示;用 表示m个当前用户与系统已有的对话,则上下文表示为,/>表示将句子首位拼接;用Q表示当前问题,则联合表示为;
第五步,模型训练与参数更新,机器学习模块通过训练使数据集中问题和答案拟合,计算问题和答案向量之间的误差,更新系统参数,不断降低损失,使结果不断趋向准确;
在模型训练和参数更新步骤中,损失函数使用向量相似度来表示问题和正确答案之间的对应程度,并作为模型的损失函数;通过向量点乘、余弦距离以及欧式距离计算相似度;其中,欧氏距离、余弦距离分别满足
;
其中x表示预测的答案,y表示真实答案;
基于上述相似度采用Hinge loss结合负例答案进一步学习, 即引入负例答案来拟合正确答案,远离错误答案,即满足
l(y,y′)=max(0,m−y+y′)
其中,y是正样本与正确答案的相似度,y’是负样本与正确答案的相似度,m是人为选定的边界值,设置为0.5;
将问答数据集进行分词,建立一个包含K个词的元素表,假设数据集共有9万个词,每个词语对应100维的向量,因此向量映射表大小为90000 × 100的矩阵,其中的向量采用随机初始化的方式,每个向量值的随机范围为[-0.5, 0.5];
问句语义特征表示与语义挖掘模块采用长短期记忆网络,其中的主要参数可设置为:神经元个数为128,学习率为0.001;训练方式采用Adam优化算法;模型训练与参数更新步骤中采用Hinge loss不断拟合预测和真实答案,得到最优模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811571115.0A CN109741824B (zh) | 2018-12-21 | 2018-12-21 | 一种基于机器学习的医疗问诊方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811571115.0A CN109741824B (zh) | 2018-12-21 | 2018-12-21 | 一种基于机器学习的医疗问诊方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109741824A CN109741824A (zh) | 2019-05-10 |
CN109741824B true CN109741824B (zh) | 2023-08-04 |
Family
ID=66361048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811571115.0A Active CN109741824B (zh) | 2018-12-21 | 2018-12-21 | 一种基于机器学习的医疗问诊方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109741824B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136839B (zh) * | 2019-05-14 | 2021-10-08 | 北京百度网讯科技有限公司 | 一种症状信息处理方法、装置和电子设备 |
CN110176315B (zh) * | 2019-06-05 | 2022-06-28 | 京东方科技集团股份有限公司 | 医疗问答方法及系统、电子设备、计算机可读介质 |
CN110838359B (zh) * | 2019-10-16 | 2023-07-07 | 平安科技(深圳)有限公司 | 基于对话机器人的分诊方法、装置、存储介质及机器人 |
CN112133414A (zh) * | 2020-09-08 | 2020-12-25 | 深圳中兴网信科技有限公司 | 医疗服务系统 |
CN114049973A (zh) * | 2021-11-15 | 2022-02-15 | 阿里巴巴(中国)有限公司 | 对话质检方法、电子设备、计算机存储介质及程序产品 |
CN114091476A (zh) * | 2021-11-18 | 2022-02-25 | 北京淘友天下科技发展有限公司 | 对话识别方法、装置、电子设备及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
EP3229157A1 (en) * | 2016-04-07 | 2017-10-11 | Siemens Healthcare GmbH | Image analytics question answering |
CN107368547A (zh) * | 2017-06-28 | 2017-11-21 | 西安交通大学 | 一种基于深度学习的智能医疗自动问答方法 |
WO2018000282A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种聊天对话系统的扩充学习方法及聊天对话系统 |
WO2018149326A1 (zh) * | 2017-02-16 | 2018-08-23 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
-
2018
- 2018-12-21 CN CN201811571115.0A patent/CN109741824B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
EP3229157A1 (en) * | 2016-04-07 | 2017-10-11 | Siemens Healthcare GmbH | Image analytics question answering |
WO2018000282A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种聊天对话系统的扩充学习方法及聊天对话系统 |
WO2018149326A1 (zh) * | 2017-02-16 | 2018-08-23 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN107368547A (zh) * | 2017-06-28 | 2017-11-21 | 西安交通大学 | 一种基于深度学习的智能医疗自动问答方法 |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109741824A (zh) | 2019-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109741824B (zh) | 一种基于机器学习的医疗问诊方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN111444340A (zh) | 文本分类和推荐方法、装置、设备及存储介质 | |
CN113724882B (zh) | 基于问诊会话构建用户画像的方法、装置、设备和介质 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN113569023B (zh) | 一种基于知识图谱的中文医药问答系统及方法 | |
Wazalwar et al. | Interpretation of sign language into English using NLP techniques | |
CN112784532B (zh) | 用于短文本情感分类的多头注意力记忆系统 | |
CN111339269A (zh) | 模板自动生成的知识图谱问答训练及应用服务系统 | |
CN113204611A (zh) | 建立阅读理解模型的方法、阅读理解方法及对应装置 | |
CN110489554B (zh) | 基于位置感知互注意力网络模型的属性级情感分类方法 | |
CN113593661A (zh) | 临床术语标准化方法、装置、电子设备及存储介质 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN117909466A (zh) | 领域问答系统、构造方法、电子设备及存储介质 | |
CN117852523A (zh) | 一种学习鉴别性语义和多视角上下文的跨域小样本关系抽取方法和装置 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN116757195B (zh) | 一种基于提示学习的隐性情感识别方法 | |
CN115878847B (zh) | 基于自然语言的视频引导方法、系统、设备及存储介质 | |
CN115905187B (zh) | 一种面向云计算工程技术人员认证的智能化命题系统 | |
CN117009456A (zh) | 医疗查询文本的处理方法、装置、设备、介质和电子产品 | |
CN114943216A (zh) | 基于图注意力网络的案件微博属性级观点挖掘方法 | |
CN115130461A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 | |
CN114386412A (zh) | 一种基于不确定性感知的多模态命名实体识别方法 | |
CN117828060B (zh) | 一种基于语义识别的在线问答方法、系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |