CN112669961A

CN112669961A - 一种基于大数据推理的智能分诊方法

Info

Publication number: CN112669961A
Application number: CN202110019169.1A
Authority: CN
Inventors: 崔桂鹏
Original assignee: Chongqing Zhongshen Network Technology Co ltd
Current assignee: Chongqing Zhongshen Network Technology Co ltd
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-04-16

Abstract

本发明属于人工智能技术领域，具体来说是涉及一种基于大数据推理的智能分诊方法。本发明主要包括：获取用户输入的描述语句，经过预处理后进行文本表示；根据文本表示，基于大数据推理的方法获得分诊信息；基于大数据推理的基础是将病历数据通过预处理转化为文本表示构建数据库，使得检索过程简单有效。本发明的有益效果是，使分诊过程实现了智能化，同时提高了智能分诊的准确性。

Description

一种基于大数据推理的智能分诊方法

技术领域

本发明属于人工智能技术领域，具体来说是涉及一种基于大数据推理的智能分诊方法。

背景技术

随着人民生活条件的不断改善，对于健康的需求也越来越旺盛。近年来，各大医院的门急诊量急剧增长，特别是处于行业领先地位的医院。而对应还面临的问题包括：患者缺乏医疗健康知识，不清楚就诊什么科室，进一步加剧了医疗分诊的压力。还导致医生的工作负荷大，没有足够的时间回答患者的所有问题，在某种程度上造成医患关系紧张，同时也带来医疗质量难以保证的问题。在患者方，部分患者为能快速就诊，往往采取首选急诊的方式，又进一步降低了医院的救治效率。

为了解决此类问题，目前已有人工分诊台以及为用户提供自主分诊服务的应用程序，主要是针对诊前咨询，给诊疗做出指导。而目前的分诊程序冗余度较高，智能化程度较低，导致用户体验差，并不能有效的实现智能化分诊的目的。

发明内容

本发明的目的，是针对上述问题，提出一种基于大数据推理的智能分诊方法，仅需获取用户日常化的描述语句，在后台进行一系列转化处理，即可为用户提供分诊服务，并且基于大数据推理的方法，有效提高分诊的准确度。

本发明的技术方案是：一种基于大数据推理的智能分诊方法，其特征在于，包括：

获取用户输入的描述语句，经过预处理后进行文本表示；

根据文本表示，基于大数据推理的方法获得分诊信息。

进一步的，所述预处理的具体方法包括：

1)删除否定短语；

2)通过语法分析，将语句分为三类：第一类语句为名词+形容词/名词+动词，定义为N-A/N-V式，第二类语句为数量式短语，第三类语句为其他类型短语；

3)进行中文分词和噪音消除：对第一类语句，使用键值对分词法，即将名词作为键值，形容词/动词作为对应键值的属性；对第二类语句，采用数值判断的方式转为键值对表示，具体为根据数据库中的标准，将具体数据转化为文本作为键值的属性，包括偏高、偏低、正常，同样名词作为键值；对第三类语句，使用MeCab进行中文分词，得到平行单词；

4)特征选择：对于键值对，直接提取键值加入到关键特征集；对于平行单词，采用信息增益算法选择出重要单词，将重要单词加入关键特征集；

5)对关键特征集进行赋值，即根据键值对应的所有属性值从0开始编号，不同属性通过不同的阿拉伯数字进行区分，获得文本表示。

进一步的，所述基于大数据推理的方法获得分诊信息的具体方法为：

1)获取病历数据，将病历数据按照关键词和诊断结果进行存储，具体为：使用每一篇病历的诊断结果即疾病名替换文章名，将病历中的数据进行预处理转化为文本表示，使用mysql数据库进行疾病名+文本表示的格式进行存储；

2)设定一个病症对应一个关键特征，判断获得的文本表示中病症是否小于3个，若是，则认为当前获得的描述语句不足以分诊，生成问诊语句并进行显示，以获得包含更多病症的描述语句；否则，进入步骤3)；

3)判断病症是否小于5个，若是，则根据文本表示内容在数据库中进行匹配，选择匹配度最高的三个病历，并生成问诊语句并进行显示，以获得包含更多病症的描述语句；否则，根据文本表示内容在数据库中进行匹配，选择匹配度最高的三个病历，并根据病历对应的诊断结果，按照设定的规则进行分诊。

进一步的，使用mysql进行存储时，若多个病历具有相同的诊断结果，则将病历进行合并。

本发明的有益效果是，使分诊过程实现了智能化，同时提高了智能分诊的准确性。

附图说明

图1为预处理模型示意图；

图2为键值对分词法示意图；

图3为键值对分词示例；

图4为数量式短语示例；

图5为数量式短语转键值对示例；

图6为关键特征集示意图；

图7为文本向量表示方法示意图。

具体实施方式

下面结合附图详细描述本发明的技术方案：

本发明的方法可以概括为：将病历库中数据按照关键词和诊断结果进行存储，根据用户输入的症状通过关键词进行文档相似度匹配，根据匹配度最高的病历对应的疾病进行分诊指导。

本发明基于大数据推导的分诊，首先是基于对输入语句的处理，将其转化为便于处理检索的文本表示，通常如果根据用户的描述自己进行关键词检索，可能会检索出非常多的结果，比如关键词为“头痛”，那么检索得到的对应的病历可能几十甚至几百种，那么这种检索就毫无意义，没有任何分诊指导价值。

如图1所示，为本发明中对病历描述的预处理模型，对用户输入的描述语句也是相同的处理方式。具体包括：

(1)删除否定短语。比如：头颅无畸形，淋巴结不肿大，无意义。

(2)语法分析，一共分为三类(可以使用Stanford CoreNLP语法分词工具)

①N-A/N-V式；名词+形容词，名词+动词。比如：神情痛苦，面部抽搐。

②数量式短语；比如：体温380C

③其他类型短语。

(3)中文分词和噪音消除

①N-A/N-V式，使用键值对分词法，如图2所示。形式如下

比如：脊柱两侧肌肉紧张有压痛，分词结果如图3所示。

②数量式短语，从数值判断到键值对。

数量短语基本都是测量值，所以依然可以使用键值对来进行表示。同时，根据项目名匹配数据库中标准，将数据替换成偏高，偏低等。如图4所示，其中WBC表示白细胞，HGB表示血红蛋白，RBC表示红细胞，PLT表示血小板，这个数据可以表示成如图5所示。

③其他句型，可以使用MeCab进行中文分词，得到平行单词。

(4)特征选择：

①于键值对：直接提取键值加入到关键特征集；

②于平行单词，使用信息增益算法，选择重要单词加入关键特征集。

如图6所示，在病历中，可能存在多个病历对应相同诊断结果的情况，每个病历经过预处理后获得一个关键特征集，一个诊断结果就可能对应多个关键特征集，将不同关键特征集按文本+阿拉伯数字的方式进行标号，获得一个总的关键特征集，将关键特征集里所有内容加上标签，图6中其中的W1，W2，…，W9就是标签。

将键值对应的所有属性值从0开始编号：比如：体温有偏低，正常，偏高，分别表示为1,2,3，数字0表示文本不存在该特征。对文本进行赋值后如图7所示，那么文本向量表示为：D₁＝(1,1,1,1,2,0,0,0,0)，D₂＝(0,0,2,2,3,1,1,0,0)，D₃(1，0，1，0，1，0，0，1，1)。

在操作中，使用每一篇病历的诊断结果即疾病名替换文章名，使用mysql数据库进行疾病名，特征集的值，诊断结果的存储。如果多篇文章诊断结果为同一疾病，则进行合并：病历中有相同症状，则症状权重减1，使用负数记录权重(正数用来记录症状情况)；有不同症状，则进行症状补充。

即文本实际表示为：D₁＝((1,-1),(1,-1),(1,-1),(1,-1),(2,-1),0,0,0,0)。

基于上述的文本向量表示方式，本发明还提出了一种文本分类的方法，为等值维度计算法，可以计算与输入病症匹配度的病历：

其中，

n表示相关特征集纬度，D表示文档，P_k表示第1篇文档中特征k对应得属性值，比如：

D₁＝(1，1，1，1、2，0，0，0，0)，

D₂＝(0，0，2，2，3，1，1，0，0)，

D₃＝(1，0，1，0，1，0，0，1，1)，

那么S(D1,D2)＝0，S(D1,D3)＝2。即1,3相似。

得到病症后，使用相似度计算，判断病症，结果不一定是唯一的，可以按相似度排序。

本发明还提出一种概率计算方法：

统计相同病症对应的不同疾病，比如数据库中发现“腹痛”导致了两例胃病，两例癌症，一例胆结石则认为患有腹痛后，40％的概率诊断为胃病，40％的概率诊断为癌症，20％的概率诊断为胆结石。具体做法是：

统计数据库中每一列里相同的数字，根据出现病历库中出现次数即权重值进行概率计算，如：

D₁＝((1,-1),(1,-1),(1,-1),(1,-1),(2,-1),0,0,0,0)

D₂＝((1,-3),(2,-1),(1,-1),(1,-1),(2,-1),0,0,0,0)

则认为症状1导致D₁的概率为1/(1+3)＝25％,导致D₂的概率为3/(1+3)＝75％,并添加进数据库中，使用小数保存，即文本实际表示为：

D₁＝((1,-1,0.25),(1,-1,1.00),(1,-1,0.5),(1,-1,0.33),(2,-1,0.1),0,0,0,0)。

总之，根据用户输入的描述语句经过大数据推理获得对应的疾病后，即可进行对应的分诊指导，实现智能化分诊。

Claims

1.一种基于大数据推理的智能分诊方法，其特征在于，包括：

获取用户输入的描述语句，经过预处理后进行文本表示；

根据文本表示，基于大数据推理的方法获得分诊信息。

2.根据权利要求1所述的一种基于大数据推理的智能分诊方法，其特征在于，所述预处理的具体方法包括：

1)删除否定短语；

3.根据权利要求2所述的一种基于大数据推理的智能分诊方法，其特征在于，所述基于大数据推理的方法获得分诊信息的具体方法为：

4.根据权利要求2所述的一种基于大数据推理的智能分诊方法，其特征在于，使用mysql进行存储时，若多个病历具有相同的诊断结果，则将病历进行合并。