CN111177356A

CN111177356A - 一种酸碱指标医疗大数据分析方法及系统

Info

Publication number: CN111177356A
Application number: CN201911404671.3A
Authority: CN
Inventors: 黄峰; 许红龙; 张占英; 黄劲涛; 郑浩洋
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-19
Anticipated expiration: 2039-12-31
Also published as: CN111177356B

Abstract

本发明公开了一种酸碱指标医疗大数据分析方法及系统，利用医疗大数据比对搜索功能，输入智能运算的诊断结果及病例关键词，搜索相同标准诊断三级医院专家诊疗的病历，通过大数据比对进一步核实诊断无误，从病历库数据中搜索相同标准诊断的相似病历，含先前储存的标准化诊断相似病历并进行比对，进行辅助诊断防止误判；使得分类的数据结果一致性提高，以辅助诊断后对于酸碱平衡的微调，提高了现有技术的分析效率，通过词法分析和决策树算法，使得系统能够进行增量扩展，并提高了病历数据的容错性，分类后的病历数据，可以辅助医生进行更加准确的诊断和决策。

Description

一种酸碱指标医疗大数据分析方法及系统

技术领域

本公开涉及大数据处理技术、数据挖掘技术、医疗技术、人工智能技术领域，具体涉及一种酸碱指标医疗大数据分析方法及系统，用于进行辅助诊断。

背景技术

目前市面上各种类型的血气分析仪，只能够检测人体血液水电解质及酸碱平衡状况等指标(目前检测这些指标技术非常成熟、检测指标也非常准确)，检测这些指标是诊断人体酸碱平衡紊乱类型的决定性依据，但是，运用这些指标判断人体酸碱平衡紊乱类型的诊断，还需要医生丰富的相关知识及熟练的运算技能和耗费一定的时间，才能做出诊断。由于受医生的临床知识及指标复杂多变的影响，特别对混合性酸碱紊乱类型的判断(诊断)，医生往往感到比较棘手。而伴有酸碱平衡紊乱混合类型的大多是急危重病人，快速做出准确类型判断，是临床纠正混合型酸碱平衡紊乱的治疗依据，快速做出准确类型判断(诊断)意义非常重大。为了帮助医生对酸碱紊乱类型做出快速判断，Siggard-Andersen(1974)、Keys(1976)和Klah1(972)等发明的图表法在临床上均得到广泛应用,但其误差较大,且对于混合型二重、三重酸碱平衡紊乱类型的判断准确不高。现今根据同步的动脉血气分析和电解质的结果,利用酸碱失衡预计代偿公式、潜在HCO-3及AG等酸碱平衡紊乱的量化公式来判断酸碱紊乱的类型是比较准确的，目前通过量化公式计算酸碱平衡紊乱诊断方法有四步法、七步法、六步法及酸碱平衡紊乱的分阶段诊断方法等，这些方法虽都能对各种类型的酸碱失衡作出判断，但是可能结果各不一致，容易给医生造成混乱。

发明内容

本公开提供一种酸碱指标医疗大数据分析方法及系统，利用医疗大数据比对搜索功能，输入智能运算的诊断结果及病例关键词，搜索相同标准诊断三级医院专家诊疗的病历，通过大数据比对进一步核实诊断无误，医疗大数据搜索引擎人工智能系统，输入智能运算的诊断及病例相关关键词，从病历库，海量医疗大数据中搜索相同标准诊断的相似病历，含先前储存的标准化诊断相似病历并进行比对，进行辅助诊断防止误判。

本公开的目的是针对上述问题，提供一种酸碱指标医疗大数据分析方法及系统，具体包括以下步骤：

步骤1，通过基于先验知识的决策树分类算法建立酸碱诊断医疗大数据的决策树，将决策树作为诊断辅助决策树，通过诊断辅助决策树进行粗分类得到病历和病历对应的酸碱疾病症状；

步骤2，提取酸碱疾病症状的关键词，将关键词构建的词库作为标准症状关键词库；

步骤3，构建标准症状关键词库对应的同义词库；

步骤4，在病历中提取症状的关键词；

步骤5，建立各个关键词的倒排索引并与病历的名称建立对应关系；

步骤6，通过哈希算法将每个关键词转换成哈希值；

步骤7，使用BitMap算法将每份病历分别映射到一个bit数组；

步骤8，将每份病历的bit数组视为二进制数，对每个粗分类内的病历基于该二进制数的大小进行升序排序；

步骤9，对诊断辅助决策树得到的每个粗分类里面的病历，通过K-Modes算法进行细分类；

进一步地，在步骤1中，酸碱诊断医疗大数据至少包括病历的数据以及每个病历中对应记录的检测到的pH、PaCO₂、HCO₃ ^-、AG等酸碱平衡(血气分析)指标等物理量。

进一步地，在步骤1中，通过基于先验知识的决策树分类算法建立酸碱诊断医疗大数据的决策树，即直接按照“六步法”建立人体酸碱平衡紊乱诊断辅助决策树(下方简称诊断辅助决策树)，对酸碱诊断医疗大数据进行分类(粗分类，因为类别数量少，每类的数据量大)。

进一步地，在步骤1中，酸碱疾病症状为酸碱平衡紊乱的症状的文本数据。

进一步地，在步骤2中，提取酸碱疾病症状的关键词的方法为：通过TF-IDF算法、Topic-model算法、RAKE算法对包括有进行关键词提取。

进一步地，在步骤4中，使用基于词库的分词方法的方法为：借助标准症状关键词库、同义词库，使用基于词库的分词方法，即通过逆向最大匹配法对包括有酸碱平衡紊乱的症状的文本进行关键词提取；设置分词的最大长度，即关键词最大可能的字数为10个，从病历中提取除酸碱指标之外的与词库匹配的症状关键词，舍弃其它汉字或词语。

进一步地，在步骤5中，建立各个关键词的倒排索引的方法为：将“症状关键词1，症状关键词2，症状关键词3……”与“病历名称”的对应关系。

进一步地，在步骤6中，通过哈希算法将每个关键词转换成哈希值的方法为以下步骤：

步骤6.1：检查关键词的汉字编码是否GBK编码，取关键词中1个汉字进行检查，先看其是否使用2个字节存储，然后检查这2个字节存储信息的ASCII码值，看其第1个字节是否在大于等于129且小于等于254，第2个字节是否在大于等于64且小于等于254，如果这三个问题都“是”，则该汉字编码为GBK编码；

步骤6.2：如果检查发现不是GBK编码，则转换为GBK编码；

步骤6.3：对于GBK编码，设第i个症状关键词由n个汉字组成，则可存储在二维unsigned char数组GBKword，则该关键词的第j个汉字(0≤j<n)的哈希值为GBKindex[j]＝((unsigned char)GBKword[j][0]-129)*190+((unsigned char)GBKword[j][1]-64)-(unsigned char)GBKword[j][1]/128，

第i个症状关键词的哈希值为

其中，(unsigned char)为强制转换为无符号字节型并使用补码存储；

进一步地，在步骤7中，使用BitMap算法将每份病历分别映射到一个bit数组的方法为以下步骤：

步骤7.1：为每份病历建立一个bit数组，该数组的长度不小于所有病历所有症状关键词哈希值的最大值，设症状关键词最大可能字数为symNum，GBK编码汉字哈希值的最大可能值hashVal，则设置bit数组长度bitLen为两者之乘积，即

bitLen＝symNum*hashVal；

其中，symNum为正整数，默认设置为10，可人工进行调整。

步骤7.2：将bit数组每位都初始化为0；

步骤7.3：对于每份病历的bit数组，将病历各个症状关键词哈希值对应的位置设置为1。

进一步地，在步骤9中，对诊断辅助决策树得到的每个粗分类里面的病历，通过K-Modes算法进行细分类的方法为以下步骤：

步骤9.1：按照人体酸碱平衡紊乱疾病的专家常识，设定k值11；

步骤9.2：随机选择该粗分类里面的k份病历，作为初始聚类质心；

步骤9.3：将该粗分类里面的其余每份病历与k个聚类质心计算距离，聚类质心即病历，并归类到距离最小的质心，即在计算两个bit数组之间作异或运算，结果即为距离值，如果出现多个并列距离最小的质心，则以其中的第一份病历为准；

步骤9.4：更新聚类质心，即对于每个类别，按照bit数组每一位出现最多的值为质心bit数组该位的值，从而得到新的k个聚类质心，即将bit数组每位看成一个属性，将属性值设置为该类别里最常出现的值；

步骤9.5：重复步骤9.3与9.4，直到聚类质心不再变化。

本公开的方法实际应用步骤为：医生根据病人症状撰写病历，执行步骤1，得出粗分类，再执行步骤4，得出症状关键词，执行步骤6与步骤7，得到bit数组，计算出该二进制数的值，通过步骤8的有序病历序列，直接查看其二进制数值对应的病历是否存在，如果存在则调取该病历及诊断信息作为参考。无论是否存在，都与步骤9建立的聚类质心计算距离(距离计算方法同步骤9.3)，从而得到其所属细分类类别，进而在该细分类类别里与每份病历计算距离，输出距离最小的m份病历，作为诊断辅助参考。

本发明还提供了一种酸碱指标医疗大数据分析系统，所述系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下系统的单元中：

决策树分类单元，用于通过基于先验知识的决策树分类算法建立酸碱诊断医疗大数据的决策树，将决策树作为诊断辅助决策树，通过诊断辅助决策树进行粗分类得到病历和病历对应的酸碱疾病症状；

关键词库构建单元，用于提取酸碱疾病症状的关键词，将关键词构建的词库作为标准症状关键词库；

同义词库构建单元，用于构建标准症状关键词库对应的同义词库；

病历关键词提取单元，用于在病历中提取症状的关键词；

索引映射排序单元，用于建立各个关键词的倒排索引并与病历的名称建立对应关系；

关键词哈希化单元，用于通过哈希算法将每个关键词转换成哈希值；

病历映射单元，用于使用BitMap算法将每份病历分别映射到一个bit数组；

病历二进制排序单元，用于将每份病历的bit数组视为二进制数，对每个粗分类内的病历基于该二进制数的大小进行升序排序；

病历细分类单元，用于对诊断辅助决策树得到的每个粗分类里面的病历，通过K-Modes算法进行细分类。

本公开的有益效果为：本发明公开了一种酸碱指标医疗大数据分析方法，提高对混合型二重、三重酸碱平衡紊乱类型的判断准确不高，误差较大的问题；减少现有技术的算法流程，使得输出结果一致性提高，以辅助诊断后对于酸碱平衡的微调，提高了现有技术的分析效率，通过词法分析和决策树算法，使得系统能够进行增量扩展，并提高了病历数据的容错性，分类后的病历数据，可以辅助医生进行更加准确的诊断和决策。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1为本公开的一种酸碱指标医疗大数据分析方法的流程图；

图2为本公开实施方式的一种酸碱指标医疗大数据分析系统。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示为根据本公开的一种酸碱指标医疗大数据分析方法的流程图，下面结合图1来阐述根据本公开的实施方式的方法。

本公开提出一种酸碱指标医疗大数据分析方法，具体包括以下步骤：

步骤1，使用基于先验知识的决策树分类算法，即直接按照“六步法”建立人体酸碱平衡紊乱诊断辅助决策树(下方简称诊断辅助决策树)，对酸碱诊断医疗大数据进行分类(粗分类，因为类别数量少，每类的数据量大)；

步骤2，提取酸碱疾病症状关键词，构建标准症状关键词库；

步骤3，构建标准症状关键词库对应的症状同义词库，例如标准症状关键词“发热”与俗语“发烧”是同义词；

步骤4，提取症状关键词(如呕吐可引起代谢性碱中毒，而腹泻太多可引起代谢性酸中毒，通气障碍可引起呼吸性酸中毒，而通气过度则引起呼吸性碱中毒；)，即在每个粗分类的类别内的已有病历(包括但不限于本地病历和从外部数据库调取的病历)，借助标准症状关键词库、症状同义词库，使用基于词库的分词技术(逆向最大匹配)，设置分词的最大长度(即症状关键词最大可能的字数为10个，从病历中提取除酸碱指标之外的与词库匹配的症状关键词，舍弃其它汉字或词语；

步骤5，建立倒排索引，即“症状关键词1，症状关键词2，症状关键词3……”与“病历名称”的对应关系；

步骤6，对每个“症状关键词”，使用指定的哈希算法，转换成数字(哈希值)；

步骤6包含多个具体步骤，如下以C/C++编程语言为例：

步骤6.1：检查“症状关键词”的汉字编码，例如检查是否GBK编码，仅需取其中1个汉字来检查，先看其是否使用2个字节存储，然后检查这2个字节存储信息的ASCII码值，看其第1个字节是否在大于等于129且小于等于254，第2个字节是否在大于等于64且小于等于254，如果这三个问题都“是”，则该汉字编码为GBK编码。参考代码：

步骤6.2：如果检查发现不是GBK编码，则转换为GBK编码；

第i个症状关键词的哈希值为

步骤7，使用BitMap算法，将每份病历分别映射到一个bit数组，具体步骤如下：

步骤7.1：为每份病历建立一个bit数组，该数组的长度不小于所有病历所有症状关键词哈希值的最大值，实际上考虑后续扩展，设症状关键词最大可能字数为symNum，GBK编码汉字哈希值的最大可能值hashVal，则可设置bit数组长度bitLen为两者之乘积，即

bitLen＝symNum*hashVal；

其中，symNum为正整数，默认设置为10，可人工进行调整。

步骤7.2：将上述建立的bit数组每位都初始化为0；

步骤7.3：对于每份病历的bit数组，将该病历各个症状关键词哈希值对应的位置设置为1，例如某病历包括“症状关键词1，症状关键词2，症状关键词3……”，按照步骤5分别计算得哈希值为hv1、hv2、hv3……，则将该病历的bit数组下标为hv1、hv2、hv3……的元素设置为1；

步骤8，将每份病历的bit数组视为二进制数(因而有数值的大小)，对每个粗分类内的病历基于该二进制数的大小进行升序排序，排序算法可选择快速排序算法(为知名已有算法)等；

步骤9，对于步骤1用“六步法”得到的每个粗分类里面的病历，使用K-Modes算法(为当前数据挖掘领域知名已有算法)进行细分类，具体如下：

人体酸碱平衡紊乱疾病的专家常识为：

单纯性：1代酸、2代碱、3呼酸、4呼碱；

二重性：(一)酸碱一致型5.呼酸合并代酸6.呼碱合并代碱(二)酸碱混合型7.呼酸合并代碱8.呼碱合并代酸9.代酸合并代碱；

三重性酸碱失衡10呼酸+代酸+代碱11呼碱+代酸+代碱。

步骤9.3：将该粗分类里面的其余每份病历与k个聚类质心(病历)计算距离，并归类到距离最小的质心(病历A与病历B的距离计算方法：A的bit数组与B的bit数组作异或运算，结果即为距离值)，如果出现多个并列距离最小的质心，则以其中的第一份病历为准；

步骤9.4：更新聚类质心，即对于每个(细分类)类别，按照bit数组每一位出现最多的值为质心bit数组该位的值，从而得到新的k个聚类质心(按照K-modes算法，则是将bit数组每位看成一个属性，将属性值设置为该类别里最常出现的值)；

步骤9.5：重复步骤9.3与9.4，直到聚类质心不再变化；

步骤10，实际应用步骤——医生根据病人症状撰写病历，执行步骤1，得出粗分类，再执行步骤4，得出症状关键词，执行步骤6与步骤7，得到bit数组，计算出该二进制数的值，通过步骤8的有序病历序列，直接查看其二进制数值对应的病历是否存在，如果存在则调取该病历及诊断信息作为参考。无论是否存在，都与步骤9建立的聚类质心计算距离(距离计算方法同步骤9.3)，从而得到其所属细分类类别，进而在该细分类类别里与每份病历计算距离，输出距离最小的m份病历，作为诊断参考。

“六步法”的参考文献：王毅鹏,王忠平,周宁,et al.六步法思维血气分析软件的研发与应用[J].蚌埠医学院学报(11):103-105。

本公开的实施例提供的一种酸碱指标医疗大数据分析系统，如图2所示为本公开的一种酸碱指标医疗大数据分析系统结构图，该实施例的一种酸碱指标医疗大数据分析系统包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种酸碱指标医疗大数据分析系统实施例中的步骤。

所述系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下系统的单元中：

病历关键词提取单元，用于在病历中提取症状的关键词；

所述一种酸碱指标医疗大数据分析系统可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种酸碱指标医疗大数据分析系统可运行的系统可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种酸碱指标医疗大数据分析系统的示例，并不构成对一种酸碱指标医疗大数据分析系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种酸碱指标医疗大数据分析系统还可以包括输入输出设备、网络接入设备、总线等。所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种酸碱指标医疗大数据分析系统运行系统的控制中心，利用各种接口和线路连接整个一种酸碱指标医疗大数据分析系统可运行系统的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种酸碱指标医疗大数据分析系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

1.一种酸碱指标医疗大数据分析方法，其特征在于，所述方法包括以下步骤：

步骤3，构建标准症状关键词库对应的同义词库；

步骤4，在病历中提取症状的关键词；

步骤6，通过哈希算法将每个关键词转换成哈希值；

步骤7，使用BitMap算法将每份病历分别映射到一个bit数组；

步骤9，对诊断辅助决策树得到的每个粗分类里面的病历，通过K-Modes算法进行细分类。

2.根据权利要求1所述的一种酸碱指标医疗大数据分析方法，其特征在于，在步骤1中，酸碱诊断医疗大数据至少包括病历的数据以及每个病历中对应记录的检测到的pH、PaCO₂、HCO₃ ^-、AG的物理量。

3.根据权利要求1所述的一种酸碱指标医疗大数据分析方法，其特征在于，在步骤2中，提取酸碱疾病症状的关键词的方法为：通过TF-IDF算法、Topic-model算法、RAKE算法对包括有进行关键词提取。

4.根据权利要求1所述的一种酸碱指标医疗大数据分析方法，其特征在于，在步骤4中，使用基于词库的分词方法的方法为：借助标准症状关键词库、同义词库，使用基于词库的分词方法，即通过逆向最大匹配法对包括有酸碱平衡紊乱的症状的文本进行关键词提取；设置分词的最大长度，即关键词最大可能的字数为10个，从病历中提取除酸碱指标之外的与词库匹配的症状关键词，舍弃其它汉字或词语。

5.根据权利要求1所述的一种酸碱指标医疗大数据分析方法，其特征在于，在步骤6中，通过哈希算法将每个关键词转换成哈希值的方法为以下步骤：

步骤6.1：检查关键词的汉字编码是否GBK编码；

步骤6.2：如果检查发现不是GBK编码，则转换为GBK编码；

步骤6.3：对于GBK编码，设第i个症状关键词由n个汉字组成，则可存储在二维unsignedchar数组GBKword，则该关键词的第j个汉字(0≤j<n)的哈希值为

GBKindex[j]＝((unsigned char)GBKword[j][0]-129)*190+((unsigned char)GBKword[j][1]-64)-(unsigned char)GBKword[j][1]/128，

第i个症状关键词的哈希值为

6.根据权利要求1所述的一种酸碱指标医疗大数据分析方法，其特征在于，在步骤7中，使用BitMap算法将每份病历分别映射到一个bit数组的方法为以下步骤：

bitLen＝symNum*hashVal；

其中，symNum为正整数，默认设置为10；

步骤7.2：将bit数组每位都初始化为0；

7.根据权利要求1所述的一种酸碱指标医疗大数据分析方法，其特征在于，在步骤9中，对诊断辅助决策树得到的每个粗分类里面的病历，通过K-Modes算法进行细分类的方法为以下步骤：

步骤9.3：将该粗分类里面的其余每份病历与k个聚类质心计算距离，聚类质心即病历，即在计算两个bit数组之间作异或运算，结果即为距离值，并归类到距离最小的质心，如果出现多个并列距离最小的质心，则以其中的第一份病历为准；

步骤9.5：重复步骤9.3与9.4，直到聚类质心不再变化。

8.根据权利要求1所述的一种酸碱指标医疗大数据分析方法，其特征在于，方法实际应用步骤为：医生根据病人症状撰写病历，执行步骤1，得出粗分类，再执行步骤4，得出症状关键词，执行步骤6与步骤7，得到bit数组，计算出该二进制数的值，通过步骤8的有序病历序列，直接查看其二进制数值对应的病历是否存在，如果存在则调取该病历及诊断信息作为参考；无论是否存在，都与步骤9建立的聚类质心计算距离，从而得到其所属细分类类别，进而在该细分类类别里与每份病历计算距离，输出距离最小的m份病历，作为诊断辅助参考。

9.一种酸碱指标医疗大数据分析系统，其特征在于，所述系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下系统的单元中：

病历关键词提取单元，用于在病历中提取症状的关键词；