CN112669961A - 一种基于大数据推理的智能分诊方法 - Google Patents
一种基于大数据推理的智能分诊方法 Download PDFInfo
- Publication number
- CN112669961A CN112669961A CN202110019169.1A CN202110019169A CN112669961A CN 112669961 A CN112669961 A CN 112669961A CN 202110019169 A CN202110019169 A CN 202110019169A CN 112669961 A CN112669961 A CN 112669961A
- Authority
- CN
- China
- Prior art keywords
- sentences
- big data
- key
- triage
- text representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000003745 diagnosis Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 201000010099 disease Diseases 0.000 claims description 18
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 18
- 208000024891 symptom Diseases 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 2
- 230000036760 body temperature Effects 0.000 description 2
- 210000003743 erythrocyte Anatomy 0.000 description 2
- 208000001130 gallstones Diseases 0.000 description 2
- 210000000265 leukocyte Anatomy 0.000 description 2
- 208000018556 stomach disease Diseases 0.000 description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 206010010904 Convulsion Diseases 0.000 description 1
- 206010049119 Emotional distress Diseases 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000003090 exacerbative effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明属于人工智能技术领域,具体来说是涉及一种基于大数据推理的智能分诊方法。本发明主要包括:获取用户输入的描述语句,经过预处理后进行文本表示;根据文本表示,基于大数据推理的方法获得分诊信息;基于大数据推理的基础是将病历数据通过预处理转化为文本表示构建数据库,使得检索过程简单有效。本发明的有益效果是,使分诊过程实现了智能化,同时提高了智能分诊的准确性。
Description
技术领域
本发明属于人工智能技术领域,具体来说是涉及一种基于大数据推理的智能分诊方法。
背景技术
随着人民生活条件的不断改善,对于健康的需求也越来越旺盛。近年来,各大医院的门急诊量急剧增长,特别是处于行业领先地位的医院。而对应还面临的问题包括:患者缺乏医疗健康知识,不清楚就诊什么科室,进一步加剧了医疗分诊的压力。还导致医生的工作负荷大,没有足够的时间回答患者的所有问题,在某种程度上造成医患关系紧张,同时也带来医疗质量难以保证的问题。在患者方,部分患者为能快速就诊,往往采取首选急诊的方式,又进一步降低了医院的救治效率。
为了解决此类问题,目前已有人工分诊台以及为用户提供自主分诊服务的应用程序,主要是针对诊前咨询,给诊疗做出指导。而目前的分诊程序冗余度较高,智能化程度较低,导致用户体验差,并不能有效的实现智能化分诊的目的。
发明内容
本发明的目的,是针对上述问题,提出一种基于大数据推理的智能分诊方法,仅需获取用户日常化的描述语句,在后台进行一系列转化处理,即可为用户提供分诊服务,并且基于大数据推理的方法,有效提高分诊的准确度。
本发明的技术方案是:一种基于大数据推理的智能分诊方法,其特征在于,包括:
获取用户输入的描述语句,经过预处理后进行文本表示;
根据文本表示,基于大数据推理的方法获得分诊信息。
进一步的,所述预处理的具体方法包括:
1)删除否定短语;
2)通过语法分析,将语句分为三类:第一类语句为名词+形容词/名词+动词,定义为N-A/N-V式,第二类语句为数量式短语,第三类语句为其他类型短语;
3)进行中文分词和噪音消除:对第一类语句,使用键值对分词法,即将名词作为键值,形容词/动词作为对应键值的属性;对第二类语句,采用数值判断的方式转为键值对表示,具体为根据数据库中的标准,将具体数据转化为文本作为键值的属性,包括偏高、偏低、正常,同样名词作为键值;对第三类语句,使用MeCab进行中文分词,得到平行单词;
4)特征选择:对于键值对,直接提取键值加入到关键特征集;对于平行单词,采用信息增益算法选择出重要单词,将重要单词加入关键特征集;
5)对关键特征集进行赋值,即根据键值对应的所有属性值从0开始编号,不同属性通过不同的阿拉伯数字进行区分,获得文本表示。
进一步的,所述基于大数据推理的方法获得分诊信息的具体方法为:
1)获取病历数据,将病历数据按照关键词和诊断结果进行存储,具体为:使用每一篇病历的诊断结果即疾病名替换文章名,将病历中的数据进行预处理转化为文本表示,使用mysql数据库进行疾病名+文本表示的格式进行存储;
2)设定一个病症对应一个关键特征,判断获得的文本表示中病症是否小于3个,若是,则认为当前获得的描述语句不足以分诊,生成问诊语句并进行显示,以获得包含更多病症的描述语句;否则,进入步骤3);
3)判断病症是否小于5个,若是,则根据文本表示内容在数据库中进行匹配,选择匹配度最高的三个病历,并生成问诊语句并进行显示,以获得包含更多病症的描述语句;否则,根据文本表示内容在数据库中进行匹配,选择匹配度最高的三个病历,并根据病历对应的诊断结果,按照设定的规则进行分诊。
进一步的,使用mysql进行存储时,若多个病历具有相同的诊断结果,则将病历进行合并。
本发明的有益效果是,使分诊过程实现了智能化,同时提高了智能分诊的准确性。
附图说明
图1为预处理模型示意图;
图2为键值对分词法示意图;
图3为键值对分词示例;
图4为数量式短语示例;
图5为数量式短语转键值对示例;
图6为关键特征集示意图;
图7为文本向量表示方法示意图。
具体实施方式
下面结合附图详细描述本发明的技术方案:
本发明的方法可以概括为:将病历库中数据按照关键词和诊断结果进行存储,根据用户输入的症状通过关键词进行文档相似度匹配,根据匹配度最高的病历对应的疾病进行分诊指导。
本发明基于大数据推导的分诊,首先是基于对输入语句的处理,将其转化为便于处理检索的文本表示,通常如果根据用户的描述自己进行关键词检索,可能会检索出非常多的结果,比如关键词为“头痛”,那么检索得到的对应的病历可能几十甚至几百种,那么这种检索就毫无意义,没有任何分诊指导价值。
如图1所示,为本发明中对病历描述的预处理模型,对用户输入的描述语句也是相同的处理方式。具体包括:
(1)删除否定短语。比如:头颅无畸形,淋巴结不肿大,无意义。
(2)语法分析,一共分为三类(可以使用Stanford CoreNLP语法分词工具)
①N-A/N-V式;名词+形容词,名词+动词。比如:神情痛苦,面部抽搐。
②数量式短语;比如:体温380C
③其他类型短语。
(3)中文分词和噪音消除
①N-A/N-V式,使用键值对分词法,如图2所示。形式如下
比如:脊柱两侧肌肉紧张有压痛,分词结果如图3所示。
②数量式短语,从数值判断到键值对。
数量短语基本都是测量值,所以依然可以使用键值对来进行表示。同时,根据项目名匹配数据库中标准,将数据替换成偏高,偏低等。如图4所示,其中WBC表示白细胞,HGB表示血红蛋白,RBC表示红细胞,PLT表示血小板,这个数据可以表示成如图5所示。
③其他句型,可以使用MeCab进行中文分词,得到平行单词。
(4)特征选择:
①于键值对:直接提取键值加入到关键特征集;
②于平行单词,使用信息增益算法,选择重要单词加入关键特征集。
如图6所示,在病历中,可能存在多个病历对应相同诊断结果的情况,每个病历经过预处理后获得一个关键特征集,一个诊断结果就可能对应多个关键特征集,将不同关键特征集按文本+阿拉伯数字的方式进行标号,获得一个总的关键特征集,将关键特征集里所有内容加上标签,图6中其中的W1,W2,…,W9就是标签。
将键值对应的所有属性值从0开始编号:比如:体温有偏低,正常,偏高,分别表示为1,2,3,数字0表示文本不存在该特征。对文本进行赋值后如图7所示,那么文本向量表示为:D1=(1,1,1,1,2,0,0,0,0),D2=(0,0,2,2,3,1,1,0,0),D3(1,0,1,0,1,0,0,1,1)。
在操作中,使用每一篇病历的诊断结果即疾病名替换文章名,使用mysql数据库进行疾病名,特征集的值,诊断结果的存储。如果多篇文章诊断结果为同一疾病,则进行合并:病历中有相同症状,则症状权重减1,使用负数记录权重(正数用来记录症状情况);有不同症状,则进行症状补充。
即文本实际表示为:D1=((1,-1),(1,-1),(1,-1),(1,-1),(2,-1),0,0,0,0)。
基于上述的文本向量表示方式,本发明还提出了一种文本分类的方法,为等值维度计算法,可以计算与输入病症匹配度的病历:
D1=(1,1,1,1、2,0,0,0,0),
D2=(0,0,2,2,3,1,1,0,0),
D3=(1,0,1,0,1,0,0,1,1),
那么S(D1,D2)=0,S(D1,D3)=2。即1,3相似。
得到病症后,使用相似度计算,判断病症,结果不一定是唯一的,可以按相似度排序。
本发明还提出一种概率计算方法:
统计相同病症对应的不同疾病,比如数据库中发现“腹痛”导致了两例胃病,两例癌症,一例胆结石则认为患有腹痛后,40%的概率诊断为胃病,40%的概率诊断为癌症,20%的概率诊断为胆结石。具体做法是:
统计数据库中每一列里相同的数字,根据出现病历库中出现次数即权重值进行概率计算,如:
D1=((1,-1),(1,-1),(1,-1),(1,-1),(2,-1),0,0,0,0)
D2=((1,-3),(2,-1),(1,-1),(1,-1),(2,-1),0,0,0,0)
则认为症状1导致D1的概率为1/(1+3)=25%,导致D2的概率为3/(1+3)=75%,并添加进数据库中,使用小数保存,即文本实际表示为:
D1=((1,-1,0.25),(1,-1,1.00),(1,-1,0.5),(1,-1,0.33),(2,-1,0.1),0,0,0,0)。
总之,根据用户输入的描述语句经过大数据推理获得对应的疾病后,即可进行对应的分诊指导,实现智能化分诊。
Claims (4)
1.一种基于大数据推理的智能分诊方法,其特征在于,包括:
获取用户输入的描述语句,经过预处理后进行文本表示;
根据文本表示,基于大数据推理的方法获得分诊信息。
2.根据权利要求1所述的一种基于大数据推理的智能分诊方法,其特征在于,所述预处理的具体方法包括:
1)删除否定短语;
2)通过语法分析,将语句分为三类:第一类语句为名词+形容词/名词+动词,定义为N-A/N-V式,第二类语句为数量式短语,第三类语句为其他类型短语;
3)进行中文分词和噪音消除:对第一类语句,使用键值对分词法,即将名词作为键值,形容词/动词作为对应键值的属性;对第二类语句,采用数值判断的方式转为键值对表示,具体为根据数据库中的标准,将具体数据转化为文本作为键值的属性,包括偏高、偏低、正常,同样名词作为键值;对第三类语句,使用MeCab进行中文分词,得到平行单词;
4)特征选择:对于键值对,直接提取键值加入到关键特征集;对于平行单词,采用信息增益算法选择出重要单词,将重要单词加入关键特征集;
5)对关键特征集进行赋值,即根据键值对应的所有属性值从0开始编号,不同属性通过不同的阿拉伯数字进行区分,获得文本表示。
3.根据权利要求2所述的一种基于大数据推理的智能分诊方法,其特征在于,所述基于大数据推理的方法获得分诊信息的具体方法为:
1)获取病历数据,将病历数据按照关键词和诊断结果进行存储,具体为:使用每一篇病历的诊断结果即疾病名替换文章名,将病历中的数据进行预处理转化为文本表示,使用mysql数据库进行疾病名+文本表示的格式进行存储;
2)设定一个病症对应一个关键特征,判断获得的文本表示中病症是否小于3个,若是,则认为当前获得的描述语句不足以分诊,生成问诊语句并进行显示,以获得包含更多病症的描述语句;否则,进入步骤3);
3)判断病症是否小于5个,若是,则根据文本表示内容在数据库中进行匹配,选择匹配度最高的三个病历,并生成问诊语句并进行显示,以获得包含更多病症的描述语句;否则,根据文本表示内容在数据库中进行匹配,选择匹配度最高的三个病历,并根据病历对应的诊断结果,按照设定的规则进行分诊。
4.根据权利要求2所述的一种基于大数据推理的智能分诊方法,其特征在于,使用mysql进行存储时,若多个病历具有相同的诊断结果,则将病历进行合并。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110019169.1A CN112669961A (zh) | 2021-01-07 | 2021-01-07 | 一种基于大数据推理的智能分诊方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110019169.1A CN112669961A (zh) | 2021-01-07 | 2021-01-07 | 一种基于大数据推理的智能分诊方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112669961A true CN112669961A (zh) | 2021-04-16 |
Family
ID=75413417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110019169.1A Pending CN112669961A (zh) | 2021-01-07 | 2021-01-07 | 一种基于大数据推理的智能分诊方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112669961A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112768052A (zh) * | 2021-01-07 | 2021-05-07 | 重庆中肾网络科技有限公司 | 一种基于知识图谱推理的智能分诊方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102886A (zh) * | 2018-08-20 | 2018-12-28 | 重庆柚瓣家科技有限公司 | 多推理模式融合的老年病推理诊断系统 |
CN109119160A (zh) * | 2018-08-20 | 2019-01-01 | 重庆柚瓣家科技有限公司 | 多重推理方式的专家分诊系统及其方法 |
-
2021
- 2021-01-07 CN CN202110019169.1A patent/CN112669961A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102886A (zh) * | 2018-08-20 | 2018-12-28 | 重庆柚瓣家科技有限公司 | 多推理模式融合的老年病推理诊断系统 |
CN109119160A (zh) * | 2018-08-20 | 2019-01-01 | 重庆柚瓣家科技有限公司 | 多重推理方式的专家分诊系统及其方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112768052A (zh) * | 2021-01-07 | 2021-05-07 | 重庆中肾网络科技有限公司 | 一种基于知识图谱推理的智能分诊方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299239B (zh) | 一种基于es的电子病历检索方法 | |
CN113871003B (zh) | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 | |
CN111274806B (zh) | 分词和词性识别方法、装置及电子病历的分析方法、装置 | |
CN112786194A (zh) | 基于人工智能的医学影像导诊导检系统、方法及设备 | |
CN110705293A (zh) | 基于预训练语言模型的电子病历文本命名实体识别方法 | |
Li et al. | Intelligent diagnosis with Chinese electronic medical records based on convolutional neural networks | |
Friedman et al. | Natural language and text processing in biomedicine | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
CN109119160B (zh) | 多重推理方式的专家分诊系统及其方法 | |
CN109003677B (zh) | 病历数据结构化分析处理方法 | |
Cao et al. | Multi-information source hin for medical concept embedding | |
CN113764112A (zh) | 一种在线医疗问答方法 | |
Zhang et al. | Learning conceptual-contextual embeddings for medical text | |
Liu et al. | Extracting patient demographics and personal medical information from online health forums | |
Zhou et al. | Converting semi-structured clinical medical records into information and knowledge | |
CN112669961A (zh) | 一种基于大数据推理的智能分诊方法 | |
Batool et al. | Automatic extraction and mapping of discharge summary’s concepts into SNOMED CT | |
Ghoulam et al. | Using local grammar for entity extraction from clinical reports | |
Do Amaral et al. | Structuring medical information into a language-independent database | |
Saba et al. | Question-Answering Based Summarization of Electronic Health Records using Retrieval Augmented Generation | |
Baghal et al. | Agile natural language processing model for pathology knowledge extraction and integration with clinical enterprise data warehouse | |
Li et al. | A medical specialty outpatient clinics recommendation system based on text mining | |
Jarman | Combining Natural Language Processing and Statistical Text Mining: A Study of Specialized Versus Common Languages | |
Divita et al. | Extracting Body Function from Clinical Text. | |
Han et al. | Chinese medical event detection based on event frequency distribution ratio and document consistency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |