CN112669961A - 一种基于大数据推理的智能分诊方法 - Google Patents

一种基于大数据推理的智能分诊方法 Download PDF

Info

Publication number
CN112669961A
CN112669961A CN202110019169.1A CN202110019169A CN112669961A CN 112669961 A CN112669961 A CN 112669961A CN 202110019169 A CN202110019169 A CN 202110019169A CN 112669961 A CN112669961 A CN 112669961A
Authority
CN
China
Prior art keywords
sentences
big data
key
triage
text representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110019169.1A
Other languages
English (en)
Inventor
崔桂鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Zhongshen Network Technology Co ltd
Original Assignee
Chongqing Zhongshen Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Zhongshen Network Technology Co ltd filed Critical Chongqing Zhongshen Network Technology Co ltd
Priority to CN202110019169.1A priority Critical patent/CN112669961A/zh
Publication of CN112669961A publication Critical patent/CN112669961A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明属于人工智能技术领域,具体来说是涉及一种基于大数据推理的智能分诊方法。本发明主要包括:获取用户输入的描述语句,经过预处理后进行文本表示;根据文本表示,基于大数据推理的方法获得分诊信息;基于大数据推理的基础是将病历数据通过预处理转化为文本表示构建数据库,使得检索过程简单有效。本发明的有益效果是,使分诊过程实现了智能化,同时提高了智能分诊的准确性。

Description

一种基于大数据推理的智能分诊方法
技术领域
本发明属于人工智能技术领域,具体来说是涉及一种基于大数据推理的智能分诊方法。
背景技术
随着人民生活条件的不断改善,对于健康的需求也越来越旺盛。近年来,各大医院的门急诊量急剧增长,特别是处于行业领先地位的医院。而对应还面临的问题包括:患者缺乏医疗健康知识,不清楚就诊什么科室,进一步加剧了医疗分诊的压力。还导致医生的工作负荷大,没有足够的时间回答患者的所有问题,在某种程度上造成医患关系紧张,同时也带来医疗质量难以保证的问题。在患者方,部分患者为能快速就诊,往往采取首选急诊的方式,又进一步降低了医院的救治效率。
为了解决此类问题,目前已有人工分诊台以及为用户提供自主分诊服务的应用程序,主要是针对诊前咨询,给诊疗做出指导。而目前的分诊程序冗余度较高,智能化程度较低,导致用户体验差,并不能有效的实现智能化分诊的目的。
发明内容
本发明的目的,是针对上述问题,提出一种基于大数据推理的智能分诊方法,仅需获取用户日常化的描述语句,在后台进行一系列转化处理,即可为用户提供分诊服务,并且基于大数据推理的方法,有效提高分诊的准确度。
本发明的技术方案是:一种基于大数据推理的智能分诊方法,其特征在于,包括:
获取用户输入的描述语句,经过预处理后进行文本表示;
根据文本表示,基于大数据推理的方法获得分诊信息。
进一步的,所述预处理的具体方法包括:
1)删除否定短语;
2)通过语法分析,将语句分为三类:第一类语句为名词+形容词/名词+动词,定义为N-A/N-V式,第二类语句为数量式短语,第三类语句为其他类型短语;
3)进行中文分词和噪音消除:对第一类语句,使用键值对分词法,即将名词作为键值,形容词/动词作为对应键值的属性;对第二类语句,采用数值判断的方式转为键值对表示,具体为根据数据库中的标准,将具体数据转化为文本作为键值的属性,包括偏高、偏低、正常,同样名词作为键值;对第三类语句,使用MeCab进行中文分词,得到平行单词;
4)特征选择:对于键值对,直接提取键值加入到关键特征集;对于平行单词,采用信息增益算法选择出重要单词,将重要单词加入关键特征集;
5)对关键特征集进行赋值,即根据键值对应的所有属性值从0开始编号,不同属性通过不同的阿拉伯数字进行区分,获得文本表示。
进一步的,所述基于大数据推理的方法获得分诊信息的具体方法为:
1)获取病历数据,将病历数据按照关键词和诊断结果进行存储,具体为:使用每一篇病历的诊断结果即疾病名替换文章名,将病历中的数据进行预处理转化为文本表示,使用mysql数据库进行疾病名+文本表示的格式进行存储;
2)设定一个病症对应一个关键特征,判断获得的文本表示中病症是否小于3个,若是,则认为当前获得的描述语句不足以分诊,生成问诊语句并进行显示,以获得包含更多病症的描述语句;否则,进入步骤3);
3)判断病症是否小于5个,若是,则根据文本表示内容在数据库中进行匹配,选择匹配度最高的三个病历,并生成问诊语句并进行显示,以获得包含更多病症的描述语句;否则,根据文本表示内容在数据库中进行匹配,选择匹配度最高的三个病历,并根据病历对应的诊断结果,按照设定的规则进行分诊。
进一步的,使用mysql进行存储时,若多个病历具有相同的诊断结果,则将病历进行合并。
本发明的有益效果是,使分诊过程实现了智能化,同时提高了智能分诊的准确性。
附图说明
图1为预处理模型示意图;
图2为键值对分词法示意图;
图3为键值对分词示例;
图4为数量式短语示例;
图5为数量式短语转键值对示例;
图6为关键特征集示意图;
图7为文本向量表示方法示意图。
具体实施方式
下面结合附图详细描述本发明的技术方案:
本发明的方法可以概括为:将病历库中数据按照关键词和诊断结果进行存储,根据用户输入的症状通过关键词进行文档相似度匹配,根据匹配度最高的病历对应的疾病进行分诊指导。
本发明基于大数据推导的分诊,首先是基于对输入语句的处理,将其转化为便于处理检索的文本表示,通常如果根据用户的描述自己进行关键词检索,可能会检索出非常多的结果,比如关键词为“头痛”,那么检索得到的对应的病历可能几十甚至几百种,那么这种检索就毫无意义,没有任何分诊指导价值。
如图1所示,为本发明中对病历描述的预处理模型,对用户输入的描述语句也是相同的处理方式。具体包括:
(1)删除否定短语。比如:头颅无畸形,淋巴结不肿大,无意义。
(2)语法分析,一共分为三类(可以使用Stanford CoreNLP语法分词工具)
①N-A/N-V式;名词+形容词,名词+动词。比如:神情痛苦,面部抽搐。
②数量式短语;比如:体温380C
③其他类型短语。
(3)中文分词和噪音消除
①N-A/N-V式,使用键值对分词法,如图2所示。形式如下
比如:脊柱两侧肌肉紧张有压痛,分词结果如图3所示。
②数量式短语,从数值判断到键值对。
数量短语基本都是测量值,所以依然可以使用键值对来进行表示。同时,根据项目名匹配数据库中标准,将数据替换成偏高,偏低等。如图4所示,其中WBC表示白细胞,HGB表示血红蛋白,RBC表示红细胞,PLT表示血小板,这个数据可以表示成如图5所示。
③其他句型,可以使用MeCab进行中文分词,得到平行单词。
(4)特征选择:
①于键值对:直接提取键值加入到关键特征集;
②于平行单词,使用信息增益算法,选择重要单词加入关键特征集。
如图6所示,在病历中,可能存在多个病历对应相同诊断结果的情况,每个病历经过预处理后获得一个关键特征集,一个诊断结果就可能对应多个关键特征集,将不同关键特征集按文本+阿拉伯数字的方式进行标号,获得一个总的关键特征集,将关键特征集里所有内容加上标签,图6中其中的W1,W2,…,W9就是标签。
将键值对应的所有属性值从0开始编号:比如:体温有偏低,正常,偏高,分别表示为1,2,3,数字0表示文本不存在该特征。对文本进行赋值后如图7所示,那么文本向量表示为:D1=(1,1,1,1,2,0,0,0,0),D2=(0,0,2,2,3,1,1,0,0),D3(1,0,1,0,1,0,0,1,1)。
在操作中,使用每一篇病历的诊断结果即疾病名替换文章名,使用mysql数据库进行疾病名,特征集的值,诊断结果的存储。如果多篇文章诊断结果为同一疾病,则进行合并:病历中有相同症状,则症状权重减1,使用负数记录权重(正数用来记录症状情况);有不同症状,则进行症状补充。
即文本实际表示为:D1=((1,-1),(1,-1),(1,-1),(1,-1),(2,-1),0,0,0,0)。
基于上述的文本向量表示方式,本发明还提出了一种文本分类的方法,为等值维度计算法,可以计算与输入病症匹配度的病历:
Figure BDA0002887825070000041
其中,
Figure BDA0002887825070000042
n表示相关特征集纬度,D表示文档,Pk表示第1篇文档中特征k对应得属性值,比如:
D1=(1,1,1,1、2,0,0,0,0),
D2=(0,0,2,2,3,1,1,0,0),
D3=(1,0,1,0,1,0,0,1,1),
那么S(D1,D2)=0,S(D1,D3)=2。即1,3相似。
得到病症后,使用相似度计算,判断病症,结果不一定是唯一的,可以按相似度排序。
本发明还提出一种概率计算方法:
统计相同病症对应的不同疾病,比如数据库中发现“腹痛”导致了两例胃病,两例癌症,一例胆结石则认为患有腹痛后,40%的概率诊断为胃病,40%的概率诊断为癌症,20%的概率诊断为胆结石。具体做法是:
统计数据库中每一列里相同的数字,根据出现病历库中出现次数即权重值进行概率计算,如:
D1=((1,-1),(1,-1),(1,-1),(1,-1),(2,-1),0,0,0,0)
D2=((1,-3),(2,-1),(1,-1),(1,-1),(2,-1),0,0,0,0)
则认为症状1导致D1的概率为1/(1+3)=25%,导致D2的概率为3/(1+3)=75%,并添加进数据库中,使用小数保存,即文本实际表示为:
D1=((1,-1,0.25),(1,-1,1.00),(1,-1,0.5),(1,-1,0.33),(2,-1,0.1),0,0,0,0)。
总之,根据用户输入的描述语句经过大数据推理获得对应的疾病后,即可进行对应的分诊指导,实现智能化分诊。

Claims (4)

1.一种基于大数据推理的智能分诊方法,其特征在于,包括:
获取用户输入的描述语句,经过预处理后进行文本表示;
根据文本表示,基于大数据推理的方法获得分诊信息。
2.根据权利要求1所述的一种基于大数据推理的智能分诊方法,其特征在于,所述预处理的具体方法包括:
1)删除否定短语;
2)通过语法分析,将语句分为三类:第一类语句为名词+形容词/名词+动词,定义为N-A/N-V式,第二类语句为数量式短语,第三类语句为其他类型短语;
3)进行中文分词和噪音消除:对第一类语句,使用键值对分词法,即将名词作为键值,形容词/动词作为对应键值的属性;对第二类语句,采用数值判断的方式转为键值对表示,具体为根据数据库中的标准,将具体数据转化为文本作为键值的属性,包括偏高、偏低、正常,同样名词作为键值;对第三类语句,使用MeCab进行中文分词,得到平行单词;
4)特征选择:对于键值对,直接提取键值加入到关键特征集;对于平行单词,采用信息增益算法选择出重要单词,将重要单词加入关键特征集;
5)对关键特征集进行赋值,即根据键值对应的所有属性值从0开始编号,不同属性通过不同的阿拉伯数字进行区分,获得文本表示。
3.根据权利要求2所述的一种基于大数据推理的智能分诊方法,其特征在于,所述基于大数据推理的方法获得分诊信息的具体方法为:
1)获取病历数据,将病历数据按照关键词和诊断结果进行存储,具体为:使用每一篇病历的诊断结果即疾病名替换文章名,将病历中的数据进行预处理转化为文本表示,使用mysql数据库进行疾病名+文本表示的格式进行存储;
2)设定一个病症对应一个关键特征,判断获得的文本表示中病症是否小于3个,若是,则认为当前获得的描述语句不足以分诊,生成问诊语句并进行显示,以获得包含更多病症的描述语句;否则,进入步骤3);
3)判断病症是否小于5个,若是,则根据文本表示内容在数据库中进行匹配,选择匹配度最高的三个病历,并生成问诊语句并进行显示,以获得包含更多病症的描述语句;否则,根据文本表示内容在数据库中进行匹配,选择匹配度最高的三个病历,并根据病历对应的诊断结果,按照设定的规则进行分诊。
4.根据权利要求2所述的一种基于大数据推理的智能分诊方法,其特征在于,使用mysql进行存储时,若多个病历具有相同的诊断结果,则将病历进行合并。
CN202110019169.1A 2021-01-07 2021-01-07 一种基于大数据推理的智能分诊方法 Pending CN112669961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110019169.1A CN112669961A (zh) 2021-01-07 2021-01-07 一种基于大数据推理的智能分诊方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110019169.1A CN112669961A (zh) 2021-01-07 2021-01-07 一种基于大数据推理的智能分诊方法

Publications (1)

Publication Number Publication Date
CN112669961A true CN112669961A (zh) 2021-04-16

Family

ID=75413417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110019169.1A Pending CN112669961A (zh) 2021-01-07 2021-01-07 一种基于大数据推理的智能分诊方法

Country Status (1)

Country Link
CN (1) CN112669961A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112768052A (zh) * 2021-01-07 2021-05-07 重庆中肾网络科技有限公司 一种基于知识图谱推理的智能分诊方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102886A (zh) * 2018-08-20 2018-12-28 重庆柚瓣家科技有限公司 多推理模式融合的老年病推理诊断系统
CN109119160A (zh) * 2018-08-20 2019-01-01 重庆柚瓣家科技有限公司 多重推理方式的专家分诊系统及其方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102886A (zh) * 2018-08-20 2018-12-28 重庆柚瓣家科技有限公司 多推理模式融合的老年病推理诊断系统
CN109119160A (zh) * 2018-08-20 2019-01-01 重庆柚瓣家科技有限公司 多重推理方式的专家分诊系统及其方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112768052A (zh) * 2021-01-07 2021-05-07 重庆中肾网络科技有限公司 一种基于知识图谱推理的智能分诊方法

Similar Documents

Publication Publication Date Title
CN109299239B (zh) 一种基于es的电子病历检索方法
CN113871003B (zh) 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
CN112786194A (zh) 基于人工智能的医学影像导诊导检系统、方法及设备
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
Li et al. Intelligent diagnosis with Chinese electronic medical records based on convolutional neural networks
Friedman et al. Natural language and text processing in biomedicine
CN112241457A (zh) 一种融合扩展特征的事理知识图谱事件检测方法
CN109119160B (zh) 多重推理方式的专家分诊系统及其方法
CN109003677B (zh) 病历数据结构化分析处理方法
Cao et al. Multi-information source hin for medical concept embedding
CN113764112A (zh) 一种在线医疗问答方法
Zhang et al. Learning conceptual-contextual embeddings for medical text
Liu et al. Extracting patient demographics and personal medical information from online health forums
Zhou et al. Converting semi-structured clinical medical records into information and knowledge
CN112669961A (zh) 一种基于大数据推理的智能分诊方法
Batool et al. Automatic extraction and mapping of discharge summary’s concepts into SNOMED CT
Ghoulam et al. Using local grammar for entity extraction from clinical reports
Do Amaral et al. Structuring medical information into a language-independent database
Saba et al. Question-Answering Based Summarization of Electronic Health Records using Retrieval Augmented Generation
Baghal et al. Agile natural language processing model for pathology knowledge extraction and integration with clinical enterprise data warehouse
Li et al. A medical specialty outpatient clinics recommendation system based on text mining
Jarman Combining Natural Language Processing and Statistical Text Mining: A Study of Specialized Versus Common Languages
Divita et al. Extracting Body Function from Clinical Text.
Han et al. Chinese medical event detection based on event frequency distribution ratio and document consistency

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination