CN111415740A - 问诊信息的处理方法、装置、存储介质及计算机设备 - Google Patents

问诊信息的处理方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN111415740A
CN111415740A CN202010089678.7A CN202010089678A CN111415740A CN 111415740 A CN111415740 A CN 111415740A CN 202010089678 A CN202010089678 A CN 202010089678A CN 111415740 A CN111415740 A CN 111415740A
Authority
CN
China
Prior art keywords
text data
answer
inquiry
question
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010089678.7A
Other languages
English (en)
Other versions
CN111415740B (zh
Inventor
柴东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202010089678.7A priority Critical patent/CN111415740B/zh
Publication of CN111415740A publication Critical patent/CN111415740A/zh
Application granted granted Critical
Publication of CN111415740B publication Critical patent/CN111415740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种问诊信息的处理方法、装置、存储介质及计算机设备,涉及人工智能技术领域,主要目的在于能够接收并识别患者答语信息,通过分词处理提取关键词,并匹配对应的问题信息,利用强化学习模型构建最优问诊路径并输出所述路径终点对应的问诊信息,从而根据答语匹配到更加准确的问题信息,提高问诊的准确率和问诊效率。所述方法包括:获取语音转录的答语文本数据;对答语文本数据进行分词处理;通过特征提取得到答语文本数据的数值向量;根据预设的答问匹配算法以及答语文本数据的特征向量,得到对应的问题文本数据;利用预设的机器学习算法、答语文本数据特征向量以及问题文本数据构建最优问诊路径,输出所述路径终点对应的问诊信息。

Description

问诊信息的处理方法、装置、存储介质及计算机设备
技术领域
本发明涉及人工智能技术领域,特别是涉及一种问诊信息的处理方法、装置、存储介质及计算机设备。
背景技术
在眩晕症诊治过程中,对眩晕患者的详细问诊是减少误诊误治的关键环节。由于患者经常不能准确表述患病的主要特征,此时就需要医生有耐心有技巧的引导和准确的鉴别才能得到准确的诊断。可是临床大部分眩晕患者误诊误治源自医生经验不足,问诊时间不够,这是短期内很难改变的临床问题。因此,人工智能技术在问诊环节得到越来越多的应用。
目前,人工智能问诊通常是预先设计好问题,记录对应答案至数据库并不断更新,问诊时返回库中答案相关项供患者选择,从而完成问诊过程。然而,这种问诊方法只是利用固定答案选项对患者进行问卷调查或者简单记录,限制了患者的表述;另外,若患者自身对文字的理解和书写有困难,对于病症专业术语理解有偏误时,容易丢失或误诊关键问诊信息,导致问诊的准确率和效率较低。
发明内容
有鉴于此,本发明提供一种问诊信息的处理方法、装置、存储介质及计算机设备,主要目的在于能够通过接收并识别患者答语信息,通过分词标注并处理提取患者答语中映射的关键词,并匹配对应的问题信息,利用强化学习模型构建最优问诊路径并输出所述路径终点对应的问诊信息,从而根据答语匹配更加准确的问题信息,提高问诊的准确率和问诊效率。
依据本发明一个方面,提供了一种问诊信息的处理方法,包括:
获取语音转录的答语文本数据;
对所述答语文本数据进行分词处理;
通过特征提取得到所述答语文本数据的特征向量;
根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;
利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,并输出所述路径终点对应的问诊信息。
可选地,所述对所述答语文本数据进行分词处理,包括:
利用jieba开源分词工具包以及自定义词典对所述答语文本数据进行分词处理;
和/或
利用预先训练的分词模型对所述答语文本数据进行分词处理。
可选地,所述通过特征提取得到所述答语文本数据的特征向量,包括:
利用doc2bow方法计算统计分布参数;
通过onehot编码技术将所述答语文本中的二值化数据转化为稀疏向量;
通过gensim库函数计算所述答语文本数据中各句的数值向量,将所述数值向量确定为所述答语文本数据的特征向量;
通过word2vec和glove编码技术对所述特征向量进行拼接组合,将所述答语长文本数据转化为优化后的特征向量。
可选地,所述根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据,包括:
利用AIML技术以及所述答语文本数据,得到对应的问题文本数据;
和/或
对所述答语文本数据的特征向量进行LDA聚类,划分所述答语文本数据对应的主题;
在测试答语触发时,利用分词之后得到的答语长文本以及预先训练的分词模型和意图词槽识别模型,得到对应分词后文本的意图与词槽的映射;
在预先建立的意图数据库中检索与所述主题对应的意图数据,并累加每个主题对应的意图数据项数;
利用测试答语得到的每个长句主题对应的意图数据项数进行排序,并与预先处理的意图数据库中的问题文本数据进行对比,以得到意图相似度最高的问题文本数据。
进一步地,所述利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,并输出所述路径终点对应的问诊信息,包括:
利用预先训练的强化学习模型对所述答语文本数据特征向量以及所述问题文本数据进行处理,得到最优问诊路径;
输出所述路径终点对应的问诊信息。
进一步地,所述方法还包括:
在本地建立所述意图数据与所述疾病信息的映射关系。
可选地,所述获取答语文本数据之前,所述方法还包括:
获取问诊文本数据,所述问诊文本数据包括问题文本数据以及答语文本数据;
建立问诊文本语料库,将所述问题文本数据保存至所述语料库中的问题列表中,将所述答语文本数据保存至所述语料库中的答语列表中。
依据本发明第二方面,提供了一种问诊信息的处理装置,包括:
第一获取单元,用于获取语音转录的答语文本数据;
分词单元,用于对所述答语文本数据进行分词处理;
提取单元,用于通过特征提取得到所述答语文本数据的特征向量;
匹配单元,用于根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;
输出单元,用于利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据特征向量索引构建最优问诊路径,并输出所述路径终点对应的问诊信息。
可选地,所述分词单元,包括:
第一分词模块,用于利用jieba开源分词工具包以及自定义词典对所述答语文本数据进行分词处理;
和/或
第二分词模块,用于利用预先训练的分词模型对所述答语文本数据进行分词处理。
可选地,所述提取单元,包括:
计算模块,用于利用doc2bow方法计算统计分布参数;
转化模块,用于通过onehot编码技术将所述答语文本中的二值化数据转化为稀疏向量;
确定模块,用于通过gensim库函数计算所述答语文本数据中各句的数值向量,将所述数值向量确定为所述答语文本数据的特征向量;
组合模块,用于通过word2vec和glove编码技术对所述特征向量进行拼接组合,将所述答语长文本数据转化为优化后的特征向量。
可选地,所述匹配单元,包括:
模拟模块,用于利用AIML技术以及所述答语文本数据,得到对应的问题文本数据;
和/或
聚类模块,用于对所述答语文本数据的特征向量进行LDA聚类,划分所述答语文本数据对应的主题;
映射模块,用于在测试答语触发时,利用分词之后得到的答语长文本以及预先训练的分词模型和意图词槽识别模型,得到对应分词后文本的意图与词槽的映射;
检索模块,用于在预先建立的意图数据库中检索与所述主题对应的意图数据,并累加每个主题对应的意图数据项数;
排序模块,用于利用测试答语得到的每个长句主题对应的意图数据项数进行排序,并与预先处理的意图数据库中的问题文本数据进行对比,以得到意图相似度最高的问题文本数据。
进一步地,所述输出单元,包括:
处理模块,用于利用预先训练的强化学习模型对所述答语文本数据特征向量以及所述问题文本数据进行处理,得到最优问诊路径;
输出模块,用于输出所述路径终点对应的问诊信息。
进一步地,所述方法还包括:
映射单元,用于在本地建立所述意图数据与所述疾病信息的映射关系。
可选地,所述方法还包括:
第二获取单元,用于获取问诊文本数据,所述问诊文本数据包括问题文本数据以及答语文本数据;
建立单元,用于建立问诊文本语料库,将所述问题文本数据保存至所述语料库中的问题列表中,将所述答语文本数据保存至所述语料库中的答语列表中。
依据本发明第三方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:获取语音转录的答语文本数据;对所述答语文本数据进行分词处理;通过特征提取得到所述答语文本数据的特征向量;根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,输出所述路径终点对应的问诊信息。
依据本发明第四方面,提供了一种计算机设备,包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下步骤:获取语音转录的答语文本数据;对所述答语文本数据进行分词处理;通过特征提取得到所述答语文本数据的特征向量;根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,输出所述路径终点对应的问诊信息。
本发明提供一种问诊信息的处理方法、装置、存储介质及计算机设备,与现有技术通过预先设计好问题,记录对应答案至数据库并不断更新,问诊时返回库中答案相关项供患者选择,从而完成问诊过程相比,本发明能够获取语音转录的答语文本数据;对所述答语文本数据进行分词处理;通过特征提取得到所述答语文本数据的特征向量;根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,输出所述路径终点对应的问诊信息。从而能够保证根据答语匹配更加准确的问题信息,提高问诊的准确率和问诊效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种问诊信息的处理方法流程图;
图2示出了本发明实施例提供的一种部分标签词典示意图;
图3示出了本发明实施例提供的一种领域分词方法流程图;
图4示出了本发明实施例提供的一种部分关键字、意图和键值对分类的示意图;
图5示出了本发明实施例提供的一种特征-疾病映射与模式匹配示意图;
图6示出了本发明实施例提供的一种强化学习框架图;
图7示出了本发明实施例提供的一种蒙特卡洛搜索树示意图;
图8示出了本发明实施例提供的一种决策树交互环境示意图;
图9示出了本发明实施例提供的一种EMR的病例报告示意图;
图10示出了本发明实施例提供的一种问诊信息的处理装置的结构示意图;
图11示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如背景技术所述,目前,人工智能问诊通常是预先设计好问题,记录对应答案至数据库并不断更新,问诊时返回库中答案相关项供患者选择,从而完成问诊过程。然而,这种问诊方法只是利用固定答案选项对患者进行问卷调查或者简单记录,限制了患者的表述;另外,若患者自身对文字的理解和书写有困难,对于病症专业术语理解有偏误时,容易丢失或误诊关键问诊信息,导致问诊的准确率和效率较低。
为了解决上述问题,本发明实施例提供了一种问诊信息的处理方法,如图1所示,所述方法包括:
101、获取语音转录的答语文本数据。
对于本发明实施例,可以通过现有的语音识别技术和说话人识别技术,获得携带说话人标签的问诊文本数据。如今,在PC端或者移动端有各大公司训练好的语音识别接口和说话人识别接口,利用语音端点检测来确定一句话的起止,并将一句话的音频分别进行语音识别和说话人识别,输出识别出的文本和说话人标签,该输出可以作为问诊文本。具体地,可以调用百度或者科大讯飞api语音接口情景,例如,“医生:你最近健康状况怎么样?”“患者:最近有失眠,头晕,耳鸣等。”该问诊记录文本的生成随着录音的结束而结束,以得到语音转录的答语文本数据。
102、对所述答语文本数据进行分词处理。
对于本发明实施例,利用所述获取的答语文本数据制作预数据集csv形式,将数据集中的问题和答语两类句式分开保存为两个容器(csv)内,对输入文本进行基础分词,获得问与答两组单独的多行词列表,所述问题列表与所述答语列表可以共用词典,用于训练“答问”匹配模型。所述对所述答语文本数据进行分词处理的具体过程可以包括:借助jieba开源分词工具包以及自定义词典进行分词,统计之后可整理为指定句列表和词典格式。
103、通过特征提取得到所述答语文本数据的特征向量。
对于本发明实施例,通过机器学习中的gensim库可以实现不同病种语料数据的文档或语句的数值向量。以便于后续可以通过预先训练的模型对所述答语文本数据进行处理,得到对应的问题文本数据。具体地,利用doc2bow方法计算统计分布参数;通过onehot编码技术将所述答语文本中的二值化数据转化为稀疏向量;通过gensim库函数计算所述答语文本数据中各句的数值向量,将所述数值向量确定为所述答语文本数据的特征向量;通过word2vec和glove编码技术对所述特征向量进行拼接组合,将所述答语长文本数据转化为优化后的特征向量。
104、根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据。
对于本发明实施例,在得到所述答语文本数据的特征向量之后,可以利用预设的答问匹配算法对所述答语文本数据的特征向量进行处理,所述答问匹配算法具体可以为初始化聚类后各句、各段的意图的特征数并改变数值后可根据不同幅度特征归纳主题;回归各主题下大权值特征项的排序,利用测试答语得到的每个主题对应的意图数据项数进行排序,并与预先处理的意图数据库下问题意图文本进行对比,得到相似度最高的问题文本数据。
另外,对于本发明实施例,还可以通过AIML技术进行答问匹配处理,基于整理得到的问诊逻辑规则和预诊断规则来实现问答匹配与软件集成。AIML是Alicebot开源软件,AIML即问答机器人的核心,通过指定标签规定问题和答案,这样有不同标签组合就可实现一些逻辑判断,通过正则匹配和文本匹配实现规则智能问答,因问答数据内容都定义在xml文件中,故不需要额外数据库。将AIML应用于设计的眩晕症问诊逻辑和规则上,则可模拟出医生问诊的过程。具体地,在AIML文件中:<pattern>标签的内容是患者的答案,<template>标签的内容是问诊问题,当用户输入和患者答案匹配时则可返回下一个问诊问题,这样就实现了根据患者不同的答案来返回不同的问诊问题。<set>标签里设置变量名和要存储的内容,这里存储的内容是从一个对话中提取的关键信息。<get>标签用于提取出<set>标签存储的内容,也就是提取出每个对话的关键信息,这些关键信息是生成病历报告的组成部分。在问诊问题和答案设计的过程中,会出现不同的问题有相同的答案的情况,这时就需要<that>标签,来指定是<pattern>标签内的答案哪个问题的答案,从而保证返回正确的问诊问题。
对于本发明实施例,可以参考推荐系统基础算法处理标签数据,届时引用物品和用户协同等算法,在语料意图的各门类下,新增向量维度,记录医生问诊习惯动作标签,送入机器学习,按照医生动作特点构造机器学习训练数据(添加意图和问法的喜好分数及选择动作情况的数值表示),就能在输入患者答语时通过文本检索技术返回疑似病意图下的医生偏好的提问索引。
105、利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,输出所述路径终点对应的问诊信息。
对于本发明实施例,答问数据集预处理时,为克服平铺式顺序表单问诊格式,可以采用“答问匹配”的形式。答语文本处理成各自意图标签下若干答语行列表,对应地,数据集中构建纵向细致的与答语意图相关的问题集。以获得的问诊文本做数据集,此处以答语为例介绍子集的构建:将数据集中的答语保存为句列表,形如[“头晕间断发作一年了”\n“以前有过类似头晕发作”\n…],再对其中的每个输入文本进行分词得到词列表,词列表形式可以如[“头晕”,“一年”,“间断”,“发作”],[“以前”,“有过”,“类似”,“头晕”,“发作”]。首先用词典方法从问答文本获取词袋(bag-of-words),以词袋方法举例:用数字对问题集文本所有词进行了编号,使用doc2bow编号作索引,用word2vec技术将语料库中各分词进行限维度向量化表示。句向量是多维词向量的加权平均,并且可以concate拼接方式在句向量末尾拼接n元数组,对应疑似病意图下的排序好的语料的向量表示。如[0.11256,0.234123,0.125566,…],在末尾concatenate拼接n元组生成高出n维度的列表向量形式,可以为后续的强化学习动作和偏好等机器学习提供预构建标签,如针对现病史后的别的特征的向量表示,又如医生某一疑似病的问法偏好顺序,问题1和问题2、3、5等相关是一个疑似病的问题集等。
Word2vec训练后保存的是每个词条每个维度下的属性,如可以限定维度在100、200、300维,如果在统计词条频次和该词条存在的文本数量两个数据基础上,计算IDF以及各个指标:TF-IDF、bm25、lm,同样可以在统计学层面用TF-IDF的权值表示词向量,与word2vec相比之下,未使用浅层神经网络,而且维度固定,计算时需对应相同维度。IDF可以表示逆文本频率指数,如果在答语列表集合下包含词条W的文本段落越少,IDF值越大,则说明该词条具有很好的类别区分能力,具体来说某一特定词条的IDF,可以由总文本数除以包含该词条的文本数目来计算,再将得到的商取对数得到IDF。为了防止包含该词条的文本数目为0,则对包含该词条的文本数做“+1”处理,IDF值乘以TF就是TF-IDF数值结果,所述TF具体可以表示查询答语中某W的出现词频。所述IDF的计算方法如下所示:
Figure BDA0002382920680000101
对比bm25或TF-IDF算法,或者单纯记录词频,通常TF-IDF计算结果还能用来作搜索相关性评分:将临床测试答语与语料库中答语对比,计算测试答语句中各自词条TF-IDF数值,确定LDA划分意图后特征词的相关权重,返回排序前K项,并以这些词加权平均做句向量输入,可以按照排序结果借助如下评测指标实现最相似的匹配返回,基于上述自己组件的检索框架或信息论中互信息等多种现有的文本检索技术,同时可用向量和矩阵下各自对比数据的余弦距离评测相似度。还可以使用的是LDA主题模型,TFIDF参数为基础,经过SVD奇异值分解降维,映射到固定维度计算向量的余弦相似度。
需要说明的是,本发明实施例与普通的问诊终端相比,通过答问的问诊形式结合语音识别技术,也通过文本处理和领域语料识别改善了识别技术不精准不能在问诊领域落地的弊端;其次,答问匹配对问诊使用了新文本匹配方式,在语音识别得到的模糊文本下做了概率评估的得分机制,可以通过患者答语中的关键词,匹配到相关答语,通过预定规则生成疑似病排序,纵向推荐出待提问的问句,改善了此类现象:诸如传统的问答机器人中预设问答库不智能问题,只能按照特定顺序做问答,没有问诊逻辑指导的单一式顺序提问等现象;再次,通过记录医生问诊流程和问诊思维;由答语指向疑似病再链接到问题,以预判出某一疑似病为基础,进行纵向提问,来寻找更多疑似病症支持项,该方式更遵循医生问诊思维且简单高效;另外,避免了问答机器的铺天盖地的无效询问,同时会减轻患者的担心程度,优化患者体验感,可移植性强,更还原出人工问诊的真实神韵。使问诊对象在时间、经济花费体验上享受充分的人文关怀。
进一步的,为了更好的说明上述问诊信息的处理方法的过程,作为对上述实施例的细化和扩展,本发明实施例提供了几种可选实施例,但不限于此,具体如下所示:
在本发明的一个可选实施例,所述步骤102具体可以包括:利用jieba开源分词工具包以及自定义词典对所述答语文本数据进行分词处理;和/或利用预先训练的分词模型对所述答语文本数据进行分词处理。
其中,所述分词处理可以通过jieba开源分词工具包以及自定义词典完成,将所述预数据集整理为句列表和词典格式,如图2所示,示出了一种通过jieba工具整理后的标签词典。另外,使用jieba开源分词工具来获得正确分词后的问答文本后,需要加自定义词典的方式优化形似字字典,以提高形似字纠错准确率,具体地,整理中文人工纠错的训练语料库数据,优化同义词字典,同义表述方言的形式改善分词和匹配的准确率。在实际应用中,为了提高领域分词正确率,保证诊断精度,可以训练分词模型。具体地,训练语料可以为基于眩晕症问诊过程中获得的问诊文本,进行人工标注然后用于分词模型的构建。采用双向长短时记忆网络条件随机场(Bi-LSTM-CRF)神经网络方法训练分词模型,在训练过程中首先将训练语料转换为向量化表示,然后输入到LSTM网络中自动学习特征信息,在此过程中加入遗弃层(dropout)控制模型训练,随机丢弃一些信息,从而达到缓解模型过拟合的问题,然后再将隐层输出传入到CRF层中,得到较为规范的分词结果,如图3所示,示出了一种领域分词流程图。
在本发明的另一个可选实施例,所述步骤103具体可以包括:利用doc2bow方法计算统计分布参数;通过onehot编码技术将所述答语文本中的二值化数据转化为稀疏向量;通过gensim库函数计算所述答语文本数据中各句的数值向量,将所述数值向量确定为所述答语文本数据的特征向量;通过word2vec和glove编码技术对所述特征向量进行拼接组合,将所述答语长文本数据转化为优化后的特征向量。
其中,所述对所述问诊文本数据进行特征提取可以为将所述问诊文本数据进行向量化转换,具体地,可以利用机器学习中gensim库实现不同问诊文本数据的文档或语句的向量表示。通过自然语言词袋模型(doc2bow)或词频逆文档频(TF-IDF)计算统计分布参数,接着以onehot、TfidfVectorizer、word2vec、Glove等编码技术转化为稀疏向量以至于稀疏矩阵;所述onehot与TF-IDF是计算特征权重的常用方法,词句的行向量可向下拼接变成矩阵作为数值表示,方便后期机器学习训练的数据分割;通过gensim库函数计算语料中各句的数值表示,进行LDA聚类,以对每个问诊文本数据划分主题。所述LDA聚类具体可以包括:对已获取的问诊文本数据进行反向工程,从中自动发现并划分主题,以及每个文档中每行或每句所属的主题,此时由编号代替主题名,以为原句缩减特征项并保有权重;为每个主题添加意图名以及词槽,初始化聚类后各句、各段的意图的特征数并改变数值后可根据不同幅度特征归纳主题所述意图可以是聚类之后有监督的人工标签,将划分好意图的语料数据导入外部数据库为后期意图和词槽库准备数据;回归各主题下大权值特征项的排序。另外,对于本发明实施例,也可以通过SVC文本分类算法自动划分所述答语文本数据对应的主题。
例如,假设一份病历文本有n个词表示{w1,w2,…,wn},每个词的词向量表示为wi∈Rd,i=1,2…,n,wi是d维词向量,则病历文本向量可以表示为:
h(W(k))=mean(w1(k),…,wn(k))⊕max(w1(k),…,wn(k))⊕min(w1(k),…,wn(k));
S=(W(1))⊕(W(2))。
式中的上标k表示不同的词向量(即word2vec下和glove下形成的,k=2)当然还可以扩展更大k值,如在机器学习训练分类时还要加入onehot编码行拼接),⊕表示向量拼接操作。将每个词的词向量对应维度进行三种操作:算术平均,取最大值和取最小值,将得到的新向量进行拼接得到向量,再这两个向量进行按列拼接得到病历文本向量S。
其他特征列的文本表示:其他特征列如偏头痛史、晕车史、家族史、睡眠史等,因其特征属性值属于离散有限类型,不涉及词之间语义语序问题,所以采用one-hot编码。例如,睡眠史的属性值可以包括:佳、不佳、早醒、熬夜、多梦,睡眠不足,则睡眠史的特征表示如列表所示。
特征词 One-hot编码
00001
不佳 00010
早醒 00100
熬夜 01000
多梦 10000
最后,将现病史列的文本表示和其他特征列的One-hot编码表示进行拼接,即可得到代表眩晕症病历文本完整的特征表示。
这样,在数据集中采用多种向量方法并用合适的降维手段,找出与输入答语内容最相关的数据库答语,经过相似数值排序能链接出预构建的对应答语意图,后期便可借助意图链接对应问题集数据库,这样便完成了答语到答语的检索,答语到意图的映射,和意图到问题集的映射过程,如图5所示。
需要说明的是,在问题列表和答语列表2种列表中,因为存在词频等统计信息的不同,根据自动化处理数据,需再介入人工修订标签内容。在答语列表中查询意图的关键字词出现词频相比对应意图下问题列表的词频更高,故答语列表采取更多自动化数据处理,问题列表内容更少,更需要手动预处理,打意图标签,分类等。
在本发明的又一个可选实施例,所述步骤104具体可以包括:利用AIML技术以及所述答语文本数据,得到对应的问题文本数据;和/或对所述答语文本数据的特征向量进行LDA聚类,划分所述答语文本数据对应的主题;在测试答语触发时,利用分词之后得到的答语长文本以及预先训练的分词模型和意图词槽识别模型,得到对应分词后文本的意图与词槽的映射;在预先建立的意图数据库中检索与所述主题对应的意图数据,并累加每个主题对应的意图数据项数;利用测试答语得到的每个主题对应的意图数据项数进行排序,并与预先处理的意图数据库中的问题文本数据进行对比,得到相似度最高的问题文本数据。
其中,所述对所述答语文本数据的特征向量进行LDA聚类的过程具体可以包括:对已获取的问诊文本数据进行反向工程,从中自动发现并划分主题,以及每个文档中每行或每句所属的主题,此时由编号代替主题名,以便于为原句缩减特征项并保有权重。为主题添加意图名以及词槽,初始化聚类后各句、各段的意图的特征数并改变数值后可根据不同幅度特征归纳主题;回归各主题下大权值特征项的排序。
另外,对于本发明实施例,还提供了与上述答问匹配方法并行的替换方法。构建机器学习中更深层诊断-决策树的多分支条件下区域划分的方法,在特征项数值表征后划分区域,根据基尼系数作为评测标准,最小化基尼系数之后不断剪枝。基尼系数的特质是:
1)类别个数越少,基尼系数越低;
2)类别个数相同时,类别集中度越高,基尼系数越低。
当类别越少,类别集中度越高的时候,基尼系数越低;当类别越多,类别集中度越低的时候,基尼系数越高。进一步地,项目方案下的流程应用于眩晕症的问诊系统:
对(具备比较全面知识覆盖且临床经验较丰富的眩晕专科)医生提供的问诊音频数据与电子病历进行统计分析。
眩晕症问诊中,眩晕症(表现为眩晕症状的)典型病症有:耳石症、梅尼埃病、前庭神经炎、前庭性偏头痛、复发性眩晕、突聋伴眩晕。基于某合作临床医生最常用的纵向问诊文法可以包括:“是**吗?”、“**多久了?”、“一共有几次**发作?”、“以前有过类似头晕发作吗?”、“有***类似头晕的发作?”、“第一次类似头晕发作是什么时候?”、“是****的晕吗?”、“发病时走的稳吗?”、“起床、卧床、翻身时眩晕明显吗?”、“每次头晕能持续多久?”、“头晕发作时有没有************?”、“头晕发作之前有感冒发烧或熬夜、劳累上火吗?”、“卧床或静坐时头晕吗?”、“站立行走时头晕明显吗?”、“这次头晕发作以后有没有觉得视力下降或视物模糊的感觉?”、“这次头晕发作以后什么都不知道(意识丧失)了吗?”、“这次发病后有没有出现视物成双(复视)、手足发麻、偏身活动不灵、言语不清、吞咽困难、饮水呛咳、共济失调(手脚不听使唤)?”、“您平时睡眠怎样?”、“是入睡困难,还是早醒,还是多梦?”、“您心情怎样?”、“压力大吗?”、“以前有什么其他的慢性病吗?”、“有没有高血压?”、“糖尿病?”、“心脏病?”、“以前有***吗?”、“你父母有***吗?”、“你父母有**吗?”等一系列问题,上述只打乱列举了部分问题。利用所述“答问匹配”新形式,若应用在眩晕病症综合问诊,除了应用之前介绍实现意图匹配后推荐,还需通过注意力机制原理,所述注意力机制原理可以为一个查询(query)到一系列键(key)-值(value)对的映射,归根到底是一种短文本检索匹配长文本的技术,为每一个key赋予有效的差异化的初始权重,记录回答内容,匹配出在意图块中是否被问及,解决已经问到的问题及其中内容的指代问题,能正确识别出指代并记录状态。同时,attention机制为快速预判疑似病提供可能。
在计算Attention时主要分为三步,第一步是将query和每个key进行相似度计算得到权重,常用的函数操纵有点积,拼接,反转,奇异值分解等;然后第二步一般是使用一个softmax函数对这些权重进行归一化,最后将权重和相应键值value进行加权求和得到最后预判规则下的推导结果,通过提及到的“长期耳鸣”,“天旋地转式眩晕”,“有家族史”等敏感答语内容,基于少许病症表现就可使模型初步推算患者的疑似所属病症,得出的attention的分值。基于上文介绍过的深度强化学习技术,以经验指导的更少问题,更短路径获取判病意图特征,反复迭代、试错并决策提问。
最终该疑似病作为先验知识来指导机器纵向深入提问,通过顺序提问前几个问诊问题,便得出若干个疑似病的排序。针对某一患者,排列出他在眩晕方面相关度高的TopK种病之后,根据答语特征按照医生习惯,借助物品协同推荐算法详细询问该病严重程度、持续时间等问题,如若关键词检索未匹配到数据集中答语,可借助以往医患问答数据集,进行无差别不决策的横向询问病症表象,询问是否有疑似病的其他病症,并在新疑似病症状方向上纵向统计症状信息,如果持续关注学术动向并研究,可以构建出跳转逻辑问诊的通配模型,外考虑近期出台的几种新型决策树方法结合强化学习模型做分类精度改进。
把使用强化学习问诊模板得到的问诊文本进行语义分析识别意图,归类到具体词槽,可生成病历报告,并通过诊断模型给出近似医生逻辑的疾病诊断。将上述操作反复迭代,更新模型,最终有望训练出超过训练时医生逻辑的问诊方式。
所述建立的意图数据库的过程具体可以包括分词、纠错,匹配之后,用标注好意图词槽的问诊文本训练意图词槽模型,即意图识别词槽填充模型,其能自动对问诊文本进行意图识别和词槽填充。本发明采用的基于循环神经网络的注意力(Attention-Based RNN)模型来识别意图和词槽填充。意图识别通常使用分类的方法将句子分为相应的意图种类;词槽填充则可以看做是序列标注问题,即对于给定的句子中的关键字词打上相应的标签。例如,医生:“你以前有头痛病吗?”这句话的意图是病史,词槽是头痛。患者:“没有。”患者的回答中,意图是无头痛,词槽是没有,如图4所示,示出了一种部分关键字、意图和键值对的分类图。
将所有出现问答中意图与词槽进行统计,问题意图和词槽,答案意图和词槽,分别统计在四张表中,且有对应的ID,下图表展示内容样例。
创建关键字词信息匹配表,在表的各自前两列存储的问题和答案的意图和词槽的ID,表3最后一列存储的是要输出的关键信息,用于生成病历报告。意图词槽模型将问答文本识别出每句话的意图和词槽,根据数据库中的意图和词槽的ID查询关键信息,生成病历报告。数据库中的问答意图词槽统计表和关键信息匹配表举例如下所示。
Figure BDA0002382920680000171
表3关键信息匹配表
Figure BDA0002382920680000172
在本发明的再一个可选实施例,所述步骤105具体可以包括:利用预先训练的强化学习模型对所述答语文本数据特征向量以及所述问题文本数据进行处理,得到最优问诊路径;输出所述路径终点对应的问诊信息。
其中,所述强化学习模型即模拟试错的学习过程,或根据某种行为最终导致的结果来调整行为策略的方法,通常称之为强化学习。对于本发明实施例,可以通过蒙特卡洛树搜索为基础算法构建残差卷积神经网络——使用策略网络(policy network)和价值网络(value network)来进行的对话状态,评估和提问某一问题的先验概率的估计。最终用强化学习完成自我回答与提问来训练网络。
如图5所示,强化学习通常用所示框图实现,即agent会根据环境给与的reward调整action的一个反馈系统,最终实现利益最大化,难点在于agent的行为通常改变环境,而环境影响行为策略。首要任务就是对环境和行为建模,以及指定动作后的奖惩项。借助数据库预构建推荐系统的答问数据映射完成用户协同算法下问法集合推荐。深度强化学习DQN网络结构包含包括前端两层卷积或循环网络,以及两层学习Q-learning函数的全连接前向网络。针对诊室问诊环境仿真建模,整个网络可以学到从文本到问诊动作的映射。基于深度强化学习模型,语义理解与问诊动作选择集成到了一个端到端的模型中。借鉴游戏中人工智能玩家玩游戏的构想中使用情景,即智能体对固定尺寸的游戏图像素点的学习,由玩家动作引发的状态变化建模完成自主学习的训练。而本项目是问诊是自然语言建模,并非图像领域,故需要提出问诊上的仿真环境、动作,并设计最终学习目标和为达成目标的决策指导策略和动作固定奖惩数值。
发明构想是在新构建的问诊环境下将每x帧答问对作为一个单位进行输入,训练强化学习模型,得到在并行意图的搜索树环境下对应出相符的意图状态,并通过试错,遇见未来应按照什么序列跳转到什么意图状态。经历千万次迭代试错,如何最优跳转意图状态快速推导出疑似病并获取体征,推进问题的输出来指导机器人医生,这问题就能落地实现,也即是强化学习所预见的疑似病下最优路径问诊。通过每次输入智能体的患者答语,匹配到当前意图状态,根据待选动作,跳转遇见未来几步累计奖赏大的意图以及动作选择,最终可以在问诊环境中得到具体的奖惩回报,驱使意图状态下患者体征问题都提问,收集满判病数据。这个数值回报便能指导整个模型机器学习的损失衰减调优。目前主攻研究是在gym、tkinter等通用环境框架下,创新性构建人工眩晕问诊环境,同时为深度强化智能医生的决策建模。该模型使用某种疾病数据构造的强化学习“环境”,在智能体在与环境交互中,不断改变当前医生所需获得的意图状态并试错,获得奖惩数值奖励,最终返回获取目标奖励最大化的问诊意图路径。构建自然语言下的人工问诊环境,需借助预构建的经验池,项目组编撰了下图文本形式眩晕判病决策树,虽然决策树是机器学习分类模型,但是大胆将其改造成近似蒙特卡洛搜索树形式便可应用在自然语言领域,可以假想交互环境即不同节点的获取情况,最终通过智能体试错,改变环境获得奖罚反馈,达到最终策略目标实现最优化路径提问。其中,决策动作建模,每一次动作模拟选择问诊问题集中单一问题,可以想象问诊过程近似序列下下棋的棋路状态与动作,通过试错,智能体计算出每走一步,计预见下两步若干步的状态和所获奖惩分值,最终智能体会学到高分值结束问诊并返回相关疑似病的判断。
如图6、图7所示,示出了一种参考环境路径。在虚拟诊室问诊环境中,当前状态节点是串行分布的,状态候选动作繁多并行分布,维度小巧可观时可以借助强化学习Q-learning值表完成动作状态的决策,维度剧增时会用神经网络拟合Q值表完成决策。更加具有挑战性的是,该技术通过几近相同的网络训练得到的参数,可能适用于多种科室的文本医疗决策操作,拟合动作状态的神经网络层数不同,取得超过专家的效果。
对于本发明实施例,所述输出所述路径终点对应的问诊信息还可以包括对话和病案生成,具体地,可以通过疾病诊断模型,由于疾病的种类不止两种,所属机器学习多分类任务,可以对病历报告做出疾病鉴别诊断。例如,假设有4种疾病分别是a,b,c,d四种,将训练4个二分类模型,每个分类模型能回归分出一种病。预先强调,本发明实施例中病案形式与EMR电子excel形式可以自动化技术下相互生成、转化,如图7所示。对于疾病a,挑选出m份病历报告的现病史和其余指标,作为正例;再从b,c,d其他三种疾病的病历报告中分层抽样,共提出m份病历报告。其中的分层抽样指的是,从b,c,d三种疾病中分别抽取m/3份病历报告,shuffle打乱混合成m份报告作为负例;定义如下,将这2m份病历报告,正例的标签定为1,负例的标签为0,作为训练数据,训练出能识别出疾病a的模型。其他三种病同样类似上述操作。模型的输入文本处理,再次强调文字不能直接输入给模型,需将文本转为自然语言中向量的形式,现病史特征向量外扩充多数组拼接成最终向量表示,即多维度特征值输入。
利用上述方法即可随机由机器学习常用逻辑回归,贝叶斯分类、随机森林、SVM等分类model训练出4个二分类模型,分别可以分类出4种疾病。模型训练好以后,分别用这4个模型对输入的病历文本向量进行预测,得到每种疾病的预测概率,取概率值最大的那个预测值即为诊断出的疾病。为了做研究,决定各自采用上述分类模型后的一种模型堆叠stacking技术完成分类模型调优,效果就如同在每次分类时借助不同模型对训练数据的不同偏好来取长补短,最终结果在各自的疾病分类准确度上都有提升。
对于本发明实施例,所述方法还可以包括:在本地建立所述意图数据与所述疾病信息的映射关系。具体地,在项目组意图数据库基础上,构建意图与疾病标签和对应问题的映射,完善意图问题数据库和医生偏好推荐系统数据库。分析几款开源医疗问答机构数据,并行构术语同义词集,不同表述集合作为人机交互扩充数据库。未来可构建多种知识库基础上可借助动态图形数据库快速检索医学实体间关系,并为判病知识可视化。
在本发明的再一个可选实施例,所述步骤101具体可以包括:获取问诊文本数据,所述问诊文本数据包括问题文本数据以及答语文本数据;建立问诊文本语料库,将所述问题文本数据保存至所述语料库中的问题列表中,将所述答语文本数据保存至所述语料库中的答语列表中。
其中,所述获取问诊文本的过程具体可以包括通过获得的一种常见病语料库做语言模型参考,如眩晕症语料库,根据kaldi开源框架平台完成本领域语言模型和声学模型训练,利用迁移学习技术的中文bert模型,完成中文语言、声学模型在本领域模型上的扩充。根据个人声纹构建声学模型,重新搭建本领域下的语音识别接口,完善语义理解的定向语料库储备。最终使用该接口外置打包使用,可以完成语音合成提问和语音识别、理解。
对应地,于上述方案并行的方案还可以包括人工统计收集医生的问诊规则,按照医生的问诊逻辑由患者的答案寻找后续待提问的问题,设计某些带有方向性的细化问诊问题,这些问题和医生平时的问法相同且能保证引导患者正确回答问题。调用项目组自制交互界面引导患者回答,并键入文本完毕后,记录在对应的问题下面,得到每一句问答的问诊文本并保存至语料库。需要说明的是,上述两种方案均可作为强化学习冷启动和推荐算法冷启动的解决方案,同时可以为构建经验池打基础。
进一步地,作为图1的具体实现,本发明实施例提供了一种问诊信息的处理装置,如图10所示,所述装置包括:第一获取单元21、分词单元22、提取单元23、匹配单元24和输出单元25。
所述第一获取单元21,可以用于获取语音转录的答语文本数据;
所述分词单元22,可以用于对所述答语文本数据进行分词处理;
所述提取单元23,可以用于通过特征提取得到所述答语文本数据的特征向量;
所述匹配单元24,可以用于根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;
所述输出单元25,可以用于利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据特征向量索引构建最优问诊路径,输出所述路径终点对应的问诊信息。
所述分词单元22,包括:
第一分词模块221,可以用于利用jieba开源分词工具包以及自定义词典对所述答语文本数据进行分词处理;
和/或
第二分词模块222,可以用于利用预先训练的分词模型对所述答语文本数据进行分词处理。
所述提取单元23,包括:
计算模块231,可以用于利用doc2bow方法计算统计分布参数;
转化模块232,可以用于通过onehot编码技术将所述答语文本中的二值化数据转化为稀疏向量;
确定模块233,可以用于通过gensim库函数计算所述答语文本数据中各句的数值向量,将所述数值向量确定为所述答语文本数据的特征向量;
组合模块234,可以用于通过word2vec和glove编码技术对所述特征向量进行拼接组合,将所述答语长文本数据转化为优化后的特征向量。
可选地,所述匹配单元24,包括:
模拟模块241,可以用于利用AIML技术以及所述答语文本数据,得到对应的问题文本数据;
和/或
聚类模块242,可以用于对所述答语文本数据的特征向量进行LDA聚类,划分所述答语文本数据对应的主题;
映射模块243,用于在测试答语触发时,利用分词之后得到的答语长文本以及预先训练的分词模型和意图词槽识别模型,得到对应分词后文本的意图与词槽的映射;
检索模块244,可以用于在预先建立的意图数据库中检索与所述主题对应的意图数据,并累加每个主题对应的意图数据项数;
排序模块245,可以用于利用测试答语得到的每个主题对应的意图数据项数进行排序,并与预先处理的意图数据库下问题文本数据进行对比,以得到相似度最高的问题文本数据。
进一步地,所述输出单元25,包括:
处理模块251,可以用于利用预先训练的强化学习模型对所述答语文本数据特征向量以及所述问题文本数据进行处理,得到最优问诊路径;
输出模块252,可以用于输出所述路径终点对应的问诊信息。
进一步地,所述方法还包括:
映射单元26,可以用于在本地建立所述意图数据与所述疾病信息的映射关系。
可选地,所述方法还包括:
第二获取单元27,可以用于获取问诊文本数据,所述问诊文本数据包括问题文本数据以及答语文本数据;
建立单元28,可以用于建立问诊文本语料库,将所述问题文本数据保存至所述语料库中的问题列表中,将所述答语文本数据保存至所述语料库中的答语列表中。
需要说明的是,本发明实施例提供的一种问诊信息的处理装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:获取语音转录的答语文本数据;对所述答语文本数据进行分词处理;通过特征提取得到所述答语文本数据的特征向量;根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,输出所述路径终点对应的问诊信息。
基于上述如图1所示方法和如图10所示装置的实施例,本发明实施例还提供了一种计算机设备,如图11所示,处理器(processor)31、通信接口(CommunicationsInterface)32、存储器(memory)33、以及通信总线34。其中:处理器31、通信接口32、以及存储器33通过通信总线34完成相互间的通信。通信接口34,用于与其它设备比如用户端或其它服务器等的网元通信。处理器31,用于执行程序,具体可以执行上述问诊信息的处理方法实施例中的相关步骤。具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。处理器31可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。存储器33,用于存放程序。存储器33可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。程序具体可以用于使得处理器31执行以下操作:获取语音转录的答语文本数据;对所述答语文本数据进行分词处理;通过特征提取得到所述答语文本数据的特征向量;根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,输出所述路径终点对应的问诊信息。
通过本发明的技术方案,能够获取语音转录的答语文本数据;对所述答语文本数据进行分词处理;通过特征提取得到所述答语文本数据的特征向量;根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,输出所述路径终点对应的问诊信息。从而能够保证根据答语匹配更加准确的问题信息,提高问诊的准确率和问诊效率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种问诊信息的处理方法,其特征在于,包括:
获取语音转录的答语文本数据;
对所述答语文本数据进行分词处理;
通过特征提取得到所述答语文本数据的特征向量;
根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;
利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,并输出所述路径终点对应的问诊信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述答语文本数据进行分词处理,包括:
利用jieba开源分词工具包以及自定义词典对所述答语文本数据进行分词处理;
和/或
利用预先训练的分词模型对所述答语文本数据进行分词处理。
3.根据权利要求1所述的方法,其特征在于,所述通过特征提取得到所述答语文本数据的特征向量,包括:
利用doc2bow方法计算统计分布参数;
通过onehot编码技术将所述答语文本中的二值化数据转化为稀疏向量;
通过gensim库函数计算所述答语文本数据中各句的数值向量,将所述数值向量确定为所述答语文本数据的特征向量;
通过word2vec和glove编码技术对所述特征向量进行拼接组合,将所述答语长文本数据转化为优化后的特征向量。
4.根据权利要求1所述的方法,其特征在于,所述根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据,包括:
利用AIML技术以及所述答语文本数据,得到对应的问题文本数据;
和/或
对所述答语文本数据的特征向量进行LDA聚类,划分所述答语文本数据对应的主题;
在测试答语触发时,利用分词之后得到的答语长文本以及预先训练的分词模型和意图词槽识别模型,得到对应分词后文本的意图与词槽的映射;
在预先建立的意图数据库中检索与所述主题对应的意图数据,并累加每个主题对应的意图数据项数;
利用测试答语得到的每个长句主题对应的意图数据项数进行排序,并与预先处理的意图数据库中的问题文本数据进行对比,以得到意图相似度最高的问题文本数据。
5.根据权利要求4所述的方法,其特征在于,所述利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,并输出所述路径终点对应的问诊信息,包括:
利用预先训练的强化学习模型对所述答语文本数据特征向量以及所述问题文本数据进行处理,得到最优问诊路径;
输出所述路径终点对应的问诊信息。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在本地建立所述意图数据与所述疾病信息的映射关系。
7.根据权利要求1所述的方法,其特征在于,所述获取答语文本数据之前,所述方法还包括:
获取问诊文本数据,所述问诊文本数据包括问题文本数据以及答语文本数据;
建立问诊文本语料库,将所述问题文本数据保存至所述语料库中的问题列表中,将所述答语文本数据保存至所述语料库中的答语列表中。
8.一种问诊信息的处理方法装置,其特征在于,包括:
第一获取单元,用于获取语音转录的答语文本数据;
分词单元,用于对所述答语文本数据进行分词处理;
提取单元,用于通过特征提取得到所述答语文本数据的特征向量;
匹配单元,用于根据预设的答问匹配算法以及所述答语文本数据的特征向量,得到对应的问题文本数据;
输出单元,用于利用预设的机器学习算法、所述答语文本数据特征向量以及所述问题文本数据构建最优问诊路径,并输出所述路径终点对应的问诊信息。
9.一种存储介质,其上存储有计算机程序,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行如权利要求1-7中任一项所述的问诊信息的处理方法对应的操作。
10.一种计算机设备,包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的问诊信息的处理对应的操作。
CN202010089678.7A 2020-02-12 2020-02-12 问诊信息的处理方法、装置、存储介质及计算机设备 Active CN111415740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010089678.7A CN111415740B (zh) 2020-02-12 2020-02-12 问诊信息的处理方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010089678.7A CN111415740B (zh) 2020-02-12 2020-02-12 问诊信息的处理方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN111415740A true CN111415740A (zh) 2020-07-14
CN111415740B CN111415740B (zh) 2024-04-19

Family

ID=71492771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010089678.7A Active CN111415740B (zh) 2020-02-12 2020-02-12 问诊信息的处理方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN111415740B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111863243A (zh) * 2020-07-22 2020-10-30 乌镇互联网医院(桐乡)有限公司 一种药房预问诊方法、装置、存储介质及电子设备
CN111898338A (zh) * 2020-07-15 2020-11-06 北京字节跳动网络技术有限公司 文本生成方法、装置和电子设备
CN111985246A (zh) * 2020-08-27 2020-11-24 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN112016295A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 症状数据处理方法、装置、计算机设备及存储介质
CN112017773A (zh) * 2020-08-31 2020-12-01 吾征智能技术(北京)有限公司 一种基于噩梦的疾病认知模型构建方法及疾病认知系统
CN112017742A (zh) * 2020-09-08 2020-12-01 平安科技(深圳)有限公司 分诊数据处理方法、装置、计算机设备及存储介质
CN112035610A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域问答对的生成方法、装置、计算机设备和介质
CN112069783A (zh) * 2020-09-10 2020-12-11 卫宁健康科技集团股份有限公司 一种病历输入法及其输入系统
CN112100335A (zh) * 2020-09-25 2020-12-18 北京百度网讯科技有限公司 问题生成方法、模型训练方法、装置、设备和存储介质
CN112185564A (zh) * 2020-10-20 2021-01-05 福州数据技术研究院有限公司 一种基于结构化电子病历的眼科疾病预测方法和存储设备
CN112231537A (zh) * 2020-11-09 2021-01-15 张印祺 基于深度学习和网络爬虫的智能阅读系统
CN112269880A (zh) * 2020-11-04 2021-01-26 吾征智能技术(北京)有限公司 一种基于线性函数的口甜文本分类匹配系统
CN112395883A (zh) * 2021-01-19 2021-02-23 阿里健康科技(杭州)有限公司 一种问诊处理方法、问诊数据处理方法和装置
CN112765492A (zh) * 2020-12-31 2021-05-07 浙江省方大标准信息有限公司 一种检验检测机构排序方法
CN112820364A (zh) * 2021-02-22 2021-05-18 中国人民解放军联勤保障部队第九八〇医院 一种基于数据库架构的口腔门诊电子病历系统
CN113380360A (zh) * 2021-06-07 2021-09-10 厦门大学 一种基于多模态病历图的相似病历检索方法及系统
CN113436754A (zh) * 2021-07-06 2021-09-24 吴国军 一种智能终端问诊的医疗软件及其方法
CN113505207A (zh) * 2021-07-02 2021-10-15 中科苏州智能计算技术研究院 一种金融舆情研报的机器阅读理解方法及系统
WO2022048174A1 (zh) * 2020-09-03 2022-03-10 平安科技(深圳)有限公司 文本匹配方法、装置、计算机设备及存储介质
CN114861639A (zh) * 2022-05-26 2022-08-05 北京百度网讯科技有限公司 提问信息生成方法、装置、电子设备及存储介质
CN116303947A (zh) * 2023-02-24 2023-06-23 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备
WO2023165122A1 (zh) * 2022-03-04 2023-09-07 康键信息技术(深圳)有限公司 问诊模板的匹配方法、装置、设备及存储介质
CN116825304A (zh) * 2023-06-25 2023-09-29 湖南大学 基于深度互联的在线医疗方法与系统
CN117133448A (zh) * 2023-10-23 2023-11-28 长春中医药大学 一种基于大数据的妇科疾病咨询系统
CN113436754B (zh) * 2021-07-06 2024-06-07 江苏叶雨智能科技有限公司 一种智能终端问诊的医疗软件及其方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192300A (zh) * 2018-08-17 2019-01-11 百度在线网络技术(北京)有限公司 智能问诊方法、系统、计算机设备和存储介质
CN110597971A (zh) * 2019-08-22 2019-12-20 卓尔智联(武汉)研究院有限公司 基于神经网络的自动问答装置、方法及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192300A (zh) * 2018-08-17 2019-01-11 百度在线网络技术(北京)有限公司 智能问诊方法、系统、计算机设备和存储介质
CN110597971A (zh) * 2019-08-22 2019-12-20 卓尔智联(武汉)研究院有限公司 基于神经网络的自动问答装置、方法及可读存储介质

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898338A (zh) * 2020-07-15 2020-11-06 北京字节跳动网络技术有限公司 文本生成方法、装置和电子设备
CN111898338B (zh) * 2020-07-15 2024-04-30 北京字节跳动网络技术有限公司 文本生成方法、装置和电子设备
CN111863243A (zh) * 2020-07-22 2020-10-30 乌镇互联网医院(桐乡)有限公司 一种药房预问诊方法、装置、存储介质及电子设备
CN111985246A (zh) * 2020-08-27 2020-11-24 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN111985246B (zh) * 2020-08-27 2023-08-15 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN112035610A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域问答对的生成方法、装置、计算机设备和介质
CN112017773B (zh) * 2020-08-31 2024-03-26 吾征智能技术(北京)有限公司 一种基于噩梦的疾病认知模型构建方法及疾病认知系统
CN112017773A (zh) * 2020-08-31 2020-12-01 吾征智能技术(北京)有限公司 一种基于噩梦的疾病认知模型构建方法及疾病认知系统
WO2022048174A1 (zh) * 2020-09-03 2022-03-10 平安科技(深圳)有限公司 文本匹配方法、装置、计算机设备及存储介质
CN112016295B (zh) * 2020-09-04 2024-02-23 平安科技(深圳)有限公司 症状数据处理方法、装置、计算机设备及存储介质
CN112016295A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 症状数据处理方法、装置、计算机设备及存储介质
CN112017742A (zh) * 2020-09-08 2020-12-01 平安科技(深圳)有限公司 分诊数据处理方法、装置、计算机设备及存储介质
CN112017742B (zh) * 2020-09-08 2024-05-24 平安科技(深圳)有限公司 分诊数据处理方法、装置、计算机设备及存储介质
CN112069783A (zh) * 2020-09-10 2020-12-11 卫宁健康科技集团股份有限公司 一种病历输入法及其输入系统
CN112100335A (zh) * 2020-09-25 2020-12-18 北京百度网讯科技有限公司 问题生成方法、模型训练方法、装置、设备和存储介质
CN112100335B (zh) * 2020-09-25 2024-05-03 北京百度网讯科技有限公司 问题生成方法、模型训练方法、装置、设备和存储介质
CN112185564A (zh) * 2020-10-20 2021-01-05 福州数据技术研究院有限公司 一种基于结构化电子病历的眼科疾病预测方法和存储设备
CN112185564B (zh) * 2020-10-20 2022-09-06 福州数据技术研究院有限公司 一种基于结构化电子病历的眼科疾病预测方法和存储设备
CN112269880A (zh) * 2020-11-04 2021-01-26 吾征智能技术(北京)有限公司 一种基于线性函数的口甜文本分类匹配系统
CN112269880B (zh) * 2020-11-04 2024-02-09 吾征智能技术(北京)有限公司 一种基于线性函数的口甜文本分类匹配系统
CN112231537A (zh) * 2020-11-09 2021-01-15 张印祺 基于深度学习和网络爬虫的智能阅读系统
CN112765492B (zh) * 2020-12-31 2021-08-10 浙江省方大标准信息有限公司 一种检验检测机构排序方法
CN112765492A (zh) * 2020-12-31 2021-05-07 浙江省方大标准信息有限公司 一种检验检测机构排序方法
CN112395883A (zh) * 2021-01-19 2021-02-23 阿里健康科技(杭州)有限公司 一种问诊处理方法、问诊数据处理方法和装置
CN112820364A (zh) * 2021-02-22 2021-05-18 中国人民解放军联勤保障部队第九八〇医院 一种基于数据库架构的口腔门诊电子病历系统
CN113380360A (zh) * 2021-06-07 2021-09-10 厦门大学 一种基于多模态病历图的相似病历检索方法及系统
CN113505207A (zh) * 2021-07-02 2021-10-15 中科苏州智能计算技术研究院 一种金融舆情研报的机器阅读理解方法及系统
CN113505207B (zh) * 2021-07-02 2024-02-20 中科苏州智能计算技术研究院 一种金融舆情研报的机器阅读理解方法及系统
CN113436754A (zh) * 2021-07-06 2021-09-24 吴国军 一种智能终端问诊的医疗软件及其方法
CN113436754B (zh) * 2021-07-06 2024-06-07 江苏叶雨智能科技有限公司 一种智能终端问诊的医疗软件及其方法
WO2023165122A1 (zh) * 2022-03-04 2023-09-07 康键信息技术(深圳)有限公司 问诊模板的匹配方法、装置、设备及存储介质
CN114861639B (zh) * 2022-05-26 2023-03-10 北京百度网讯科技有限公司 提问信息生成方法、装置、电子设备及存储介质
CN114861639A (zh) * 2022-05-26 2022-08-05 北京百度网讯科技有限公司 提问信息生成方法、装置、电子设备及存储介质
CN116303947B (zh) * 2023-02-24 2024-01-19 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备
CN116303947A (zh) * 2023-02-24 2023-06-23 首都师范大学 一种问答文本的情绪识别方法、装置及电子设备
CN116825304A (zh) * 2023-06-25 2023-09-29 湖南大学 基于深度互联的在线医疗方法与系统
CN116825304B (zh) * 2023-06-25 2024-02-23 湖南大学 基于深度互联的在线医疗方法与系统
CN117133448A (zh) * 2023-10-23 2023-11-28 长春中医药大学 一种基于大数据的妇科疾病咨询系统
CN117133448B (zh) * 2023-10-23 2024-01-23 长春中医药大学 一种基于大数据的妇科疾病咨询系统

Also Published As

Publication number Publication date
CN111415740B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN111415740B (zh) 问诊信息的处理方法、装置、存储介质及计算机设备
CN110674410B (zh) 用户画像构建、内容推荐方法、装置及设备
US20200097814A1 (en) Method and system for enabling interactive dialogue session between user and virtual medical assistant
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
KR20190019962A (ko) 컴퓨터 학습 및 이해를 위한 아키텍처 및 프로세스들
CN110516245A (zh) 细粒度情感分析方法、装置、计算机设备及存储介质
CN110675944A (zh) 分诊方法及装置、计算机设备及介质
CN112667799B (zh) 一种基于语言模型和实体匹配的医疗问答系统构建方法
Mirkovic et al. Where does gender come from? Evidence from a complex inflectional system
US20200211709A1 (en) Method and system to provide medical advice to a user in real time based on medical triage conversation
Hao et al. Bertnet: Harvesting knowledge graphs from pretrained language models
CN112989033B (zh) 基于情绪类别描述的微博情绪分类方法
Dsouza et al. Chat with bots intelligently: A critical review & analysis
Szymański et al. Information retrieval with semantic memory model
CN117556802B (zh) 一种基于大语言模型的用户画像方法、装置、设备及介质
CN112948710A (zh) 基于图神经网络的朋辈教育推荐方法、系统和存储介质
CN113157932B (zh) 基于知识图谱表示学习的隐喻计算和装置
CN114496231A (zh) 基于知识图谱的体质识别方法、装置、设备和存储介质
CN113468311A (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
YIN A compression-based BiLSTM for treating teenagers’ depression chatbot
JP7044245B2 (ja) 対話システム補強装置及びコンピュータプログラム
Tan et al. The applications of machine learning in computational thinking assessments: a scoping review
Popa et al. Towards syntax-aware token embeddings
CN113222772B (zh) 本土人格词典构建方法、系统、存储介质以及电子设备
KR102599368B1 (ko) 빅데이터 기반 맞춤형 콘텐츠 제공 시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant