CN112687364B

CN112687364B - 一种基于Hbase的医疗数据管理方法及其系统

Info

Publication number: CN112687364B
Application number: CN202011551935.0A
Authority: CN
Inventors: 黄晓琴; 谢建斌; 陈名扬; 张恒瑞
Original assignee: Ningbo Kingt Software Co ltd
Current assignee: Ningbo Kingt Software Co ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2023-08-01
Anticipated expiration: 2040-12-24
Also published as: CN112687364A

Abstract

本发明公开了一种基于Hbase的医疗数据管理方法及其系统，根据结构化数据和非结构化数据结合Rowkey建立二级索引作为检索手段，以及对检索文本进行分词处理，使得医生在检索病历时只需要输入非结构化的描述性语句或自然语言短语，即可完成对Hbase数据库中非结构化数据以及结构化数据的检索调用，响应速度快，使用方便,而在传统的医疗病历检索中，医生需要记住病历号等结构化数据，由结构化数据找到对应的电子病历，非常不便。

Description

一种基于Hbase的医疗数据管理方法及其系统

技术领域

本发明涉及医疗数据技术领域，尤其是涉及一基于Hbase的医疗数据管理方法及其系统。

背景技术

电子病历作为医院的宝贵财富，蕴含了大量的专业知识，医院里的新入职医生可以通过历史电子病历学到大量的专业内容。然而电子病历大多以半结构化、非结构化文本的形式存储。医院电子病历系统只能限定一些结构化的搜索条件(比如病人的检查ID号、性别、检查时间等)到结构化的数据库中进行查询，不能实现病历内容的全文检索。

另外，如何从电子病历中获取有用信息，形成知识，进而更好地为医院信息化建设服务，成为需要解决的问题。而借助于自然语言处理技术在大数据平台之上的应用，能够让机器“读懂”海量电子病历中的非结构化数据。因此，如何结合自然语言处理技术，让医师和科研人员更容易获取病历文本库与目前症状最相关的诊疗项和处方等内容，辅助他们进行高效率、高质量的临床诊断和科研工作，成为一个急需要解决的问题。

在现有技术中，专利号为CN 104794567的一种基于Hbase的传染病数据管理方法公开了一种将结构化数据和非结构化数据存储在Hbase中的方法，然而Hbase只有在使用Rowkey进行调用时才具有较高的响应速度，在实际医疗场景中，医生不可能直接使用Rowkey对Hbase中存储的非结构化数据进行调用，因此无法快速的从Hbase中调取需要的非结构化数据内容。

而公布号为CN 110502607的一种电子病历系统、查询电子病历的方法及服务器虽然公开了一种使用搜索引擎获取Rowkey，进而调用Hbase中数据的方法，然而该专利的应用场景是以结构化数据形式存在的患者就诊信息(比如病人的检查ID号、性别、检查时间等)作为检索条件，获取Rowkey后从Hbase中调取业务数据，这并没有解决帮助医生输入描述诊断性的非结构化数据检索文本(如对当前病人症状的描述，医生的诊断思路等等)，在电子病历库中检索与当前患者症状相似病症以提供历史经验这一实际问题。

发明内容

本发明所要解决的技术问题是提供一种基于Hbase的医疗数据管理方法，该方法响应速度快，能够通过输入非结构化数据形式的检索文本，从Hbase中快速调取与当前病历相近的结构化数据和非结构化数据，以提供历史诊断经验。

本发明方法所采用的技术方案是，一种基于Hbase的医疗数据管理方法，包括：

S1、将结构化数据和非结构化数据存入Hbase数据库中，生成对应的一级索引Rowkey；

S2、根据结构化数据和非结构化数据以及一级索引Rowkey在Solr中构建二级索引；

S3、输入非结构化数据形式的检索文本，使用医学词典对检索文本进行分词处理，提取关键词；

S4、使用关键词与步骤S2中得到的二级索引进行匹配；

S5、使用二级索引调取一级索引Rowkey，并进一步由一级索引Rowkey调取Hbase数据库中对应的数据。

本发明方法的有益效果是：根据结构化数据和非结构化数据结合Rowkey建立二级索引作为检索手段，以及对检索文本进行分词处理，使得医生在检索病历时只需要输入非结构化的描述性语句或自然语言短语，即可完成对Hbase数据库中非结构化数据以及结构化数据的检索调用，响应速度快，使用方便,而在传统的医疗病历检索中，医生需要记住病历号等结构化数据，由结构化数据找到对应的电子病历，非常不便。

作为优先，所述步骤S1中的将结构化数据和非结构化数据存入Hbase数据库中的具体步骤包括：

A1、从病历库中，关联抽取历史数据，经过数据处理后写入中间库临时表中；

A2、抽取临时表中的数据进行Hbase表的适应性格式转化，将转化后的结构化数据和非结构化数据导入到Hbase表中，通过一级索引Rowkey对结构化数据和非结构化数据进行关联匹配。

采用上述方法，将海量的结构化数据和非结构化数据都导入到Hbase数据库中，使得能够快速从Hbase数据库中调取目标对象的结构化数据和非结构化数据。

作为优先，所述A1中的数据处理包括下列步骤：

A11、根据非结构化数据在医疗中的作用进行文档分类，得到文档分类类型数据；

A12、对结构化数据以及A11中得到分类后的非结构化数据进行数据预处理。

采用上述方法，有利于在后续步骤中构建二级索引，使得在检索时能够迅速得到对应的非结构化数据。

作为优先，所述步骤S2的二级索引构建包括下列步骤：

B1、扫描Hbase表中的数据，对每一行数据进行Hbase表字段到二级索引字段的映射处理；

B2、以非结构化数据的文档分类类型数据作为二级索引文档的主题，并结合其对应的结构化数据、非结构化数据以及对应的一级索引Rowkey构建二级索引文档；

B3、批量构建索引文档，建立二级索引。

采用上述方法，通过先建立索引文档，然后统一批量建立索引，处理速度快，建立基于数据和Rowkey的索引文档，使得检索时能够通过索引文档内的数据匹配到对应的Rowkey。

作为优先，所述步骤B2的二级索引文档构建包括：使用医疗字典对非结构化数据进行分词处理。采用该方法，方便检索时进行医学术语关键词匹配和关联。

作为优先，所述步骤S1还包括：定时向Hbase中写入增量数据。

采用上述方法，方便对Hbase中的数据进行更新。

作为优先，所述步骤S4的写入增量数据包括下列步骤：

D1、定时从病历库中抽取前N天的病历数据，并关联得到各业务域信息，然后导入临时增量表中；

D2、抽取临时增量表中的数据写入到Hbase数据库中，并保存一级索引Rowkey；

D3、根据D2中保存的Rowkey和对应的结构化数据和非结构化数据建立二级索引。

采用上述方法，定时抽取前N天的数据进行更新，能保证Hbase中数据的实时有效性。

作为优先，所述二级索引建立在Solr中。将索引建立在Solr中，响应速度快，能够根据输入的检索文本迅速得到对应的一级Rowkey。

最为优先，所述S5中从Hbase数据库中调取得到的数据为结构化数据或/和非结构化数据。

采用上述方法使得不论是结构化数据还是非结构化数据，都能被用户得到。

本发明的系统采用的技术方案是，一种基于Hbase的医疗数据管理系统，包括数据预处理模块，与数据预处理模块连接的Hbase数据存储处理模块，以及与Hbase数据存储处理模块连接的二级索引模块。

本发明系统的有益效果是：通过二级索引模块，使得医生能够通过非结构化数据从Hbase中快速调取得到对应的数据，方便快捷。

附图说明

图1为本发明实施例的方法流程示意图；

图2为本发明的系统结构示意图；

图3为本发明实施例的系统结构示意图。

具体实施方式

以下参照附图并结合具体实施方式来进一步描述发明，以令本领域技术人员参照说明书文字能够据以实施，本发明保护范围并不受限于该具体实施方式。

Hbase是一个构建在HDFS之上，用于海量数据存储分布式列存储系统。表的每行都是按照Rowkey的字典序排序存储；表的数据是按照Rowkey区间进行分割存储成多个region。所以Hbase主要适用下面这两种常见场景：

1.适用于基于Rowkey的单行数据快速随机读写。

2.适合基于Rowkey前缀的范围扫描。

但是Hbase本身对于除了Rowkey以外的条件进行检索性能会骤减，所以需要结合专业的搜索引擎框架solr配合达到最好检索的效果。

SolrCloud是Solr提供的分布式搜索方案，当需要大规模，容错，索引量很大，搜索请求并发很高时可以使用SolrCloud。它是基于Solr和Zookeeper的分布式搜索方案，它的主要思想是使用Zookeeper作为集群的配置信息中心。

Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark是在Scala语言中实现的，它将Scala用作其应用程序框架。与Hadoop不同，Spark和Scala能够紧密集成，其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。

ETL(Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程)，对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移。

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，无需安装，数据抽取高效稳定。

Kettle中有两种脚本文件，transformation(.ktr)和job(.kjb)，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

实施例：

本实施例以图2和图3为示意进行说明。

1、全量数据同步

病人基本信息数据，医生诊断数据，化验数据，检查数据，病理数据，病历文书数据，医嘱数据，病案首页数据共8个业务域的信息。通过kettle从嘉和电子病历数据库中关联抽取历史数据，包括字段的拼接，关联转换，值映射，js处理非结构化的blob大文本字段。最后写入到ODS层的中间库临时表中。

通过Spark Sql连接ODS层的Oracle数据库表，抽取整张表的数据进行Hbase表的字段映射和非结构化文本的编码格式转换。结构化与非结构化数据同时导入到Hbase表中。(处理oracle中的blob字段时需要注意不同数据库的字符集编码问题gbk还是utf-8)

通过Spark扫描Hbase大表中的数据，对每一行数据进行Hbase表关键字段与非结构文本字段到Solr索引字段的映射处理。以每一份文档分类类型数据如(病历文书，检查病理，化验报告单，医嘱明细单，病案首页表)为一份solr索引文档的主题部分，再加上结构化的相关信息(病人基本信息，医生诊断，对应业务域下的结构化字段信息等结构化数据中的部分关键字段)，整合为一份solr索引文档。批量提交到SolrCloud中建立索引。

在将病历数据扫描到Hbase表中的时候，还存在一个病历数据库中表拉宽的操作。

2、增量数据同步

在kettle中配置动态sql语句，每天在嘉和电子病历数据库的pat_master表中抽取前7天的一小批病人主数据(医院病历数据7天归档)。再关联到各个其他业务域表中获取前7天新增病人的各业务域信息(基本信息，诊断信息，病历文书，检查，病理，化验，医嘱，病案首页)进行ETL，导入到ODS层的临时增量表中。(该表每天被覆写)

Spark抽取各个ODS层的临时增量表数据到Hbase中，并且在写入Hbase表中时，保存这一批新增数据写入Hbase时的Rowkey。传递给Solr增量索引构建的java代码中。

获取到每一次新增到Hbase中的增量Rowkey，通过这一批Rowkey可以快速从Hbase大表中查询出这一批新增的数据。再处理成solr索引文档数据增量写入到SolrCloud中。

通过Linux上的crontab设置每晚10点定时触发调度shell脚本，首先执行的是kettle的ETL流程，获取前七天的增量数据写入ODS层临时表中，再提交Spark任务到Hadoop的yarn集群上抽取ODS表中数据写入Hbase，最后根据增量数据的Rowkey建立Solr索引。

在创建好索引的基础上，SolrCloud检索索引相对就比较简单了：

1、用户的一个查询，可以发送到含有该Collection的任意Solr的Server，Solr内部处理的逻辑会转到一个Replica。

2、此Replica会基于查询索引的方式，启动分布式查询，基于索引的Shard的个数，把查询转为多个子查询，并把每个子查询定位到对应Shard的任意一个Replica。

3、每个子查询返回查询结果。

4、最初的Replica合并子查询，并把最终结果返回给用户。

本发明首先通过kettle这类的ETL工具抽取业务表数据，进行ETL处理，拼接非结构化数据(检查，化验等报告单，病案首页单)，清洗到ODS层的中间表中。通过Spark处理数据库中的表写入到Hadoop平台的Hbase库中存储。再处理成solr的索引文档写入到SolrCloud中。

客户端首先访问solr层，多个过滤筛选条件在solr中进行快速查询。返回solr中存储的数据信息，如果用户再次想要查看结果中的详细数据，则根据solr返回的Hbase的Rowkey快速从Hbase中获取所有改行数据。

Hbase根据Rowkey可以从海量数据中快速返回数据。

批量读取Hbase上的病历文本内容，依照医学专业词典将非结构化数据进行分词处理在solr中以倒排索引形式存储，并关联上Hbase的Rowkey以及对应的部分关键的结构化字段。所使用的医学专业词典共297434个医学专业词汇，275713个日常用语词汇，这些字典来自疾病、手术、药品、检验、检查、诊疗项目、器械、未归类字典等。索引文档基于分片多副本机制存放在SolrCloud集群上,达到负载均衡和容灾备份的目的。

查询时用户根据输入的关键词以及选择的过滤条件(简单的条件)，也可以输入特殊语法，比如：AND、OR、NOT等。通过整理的医学术语词典，对用户检索时所输入的自然语言短语进行分词处理，提取其中的医学关键词，将其与医学病历文本在solr中建立的倒排索引文档进行快速匹配，得到对应的Rowkey后，调取Hbase中的数据，查询出符合自己的查询结果，其中结构化数据正常展示，非结构化文本则按照用户输入的关键词来进行高亮显示(标红)片段。点击片段后则对整个文档内容进行展示，其中病理报告、病案首页以ROWKEY到Hbase查询返回数据进行展示。检索结果页面会显示查询的耗时，查询总数，并进行分页显示。用户可以通过在高级搜索页面，选择自己感兴趣的过滤条件，对搜索结果进行过滤，筛选出自己关心的结果。比如条件有：入院时间、住址、主治医生、出院方式等。

Hbase表概览

Rowkey组成：

Rowkey：00005b6a|28326966|1|41952986-X

其中以”|”为分隔符号，将Rowkey分为4个部分

MD5散列前缀|PAT_ID|REG_ID|ORG_CODE

所有Hbase表的Rowkey规则都是一样的，所以通过其中一个业务域查询到了数据在Hbase中的Rowkey后，可以到各个相关业务域Hbase表中查询到来自各个业务域(Hbase表)的所有信息。

MD5散列前缀生成规则：

Hbase根据Rowkey进行字典排序，加上分区前缀后使得对Hbase的读写不会造成单Regionserver热点问题，加上Hbase建表时的预分区后使得数据可以相对的均匀分布在各个Regionserver上。

MD5散列前缀＝MD5(PAT_ID+REG_ID+ORG_CODE)生成Hash字符串后再取前8位字符。列限定符对于一对多关系的规则(column qualifier)：

在向Hbase写入数据时，需要指定最基本的Hbase表名，Rowkey，列簇名，列限定符名和单元格值。其中Hbase表名和列族名是在建表时就指定好了的，列限定符和单元格值是在写入Hbase数据时指定，因此利用此Hbase特性充分利用它的列式存储结构根据设定好的列限定符规则进行一对多的关系整合。

列限定符：MRHP_DIAG_TYPE|2|2

其中列限定符的后缀|2|2对应于|SEQ|MRHP_DIAG_TYPE字段的值SEQ和MRHP_DIAG_TYPE是诊断信息表中的主键，在写入Hbase数据时通过这样的后缀动态生成相对应的列名称使得在一个Rowkey下列式地存储病人的多个诊断信息。

列限定符：EMR_TEXT|41952986-X-28326966-2-1-0-18

其中列限定符的后缀|41952986-X-28326966-2-1-0-18对应于|CHD_ID字段的值，CHD_ID是文书信息表中的主键，在写入Hbase数据时通过这样的后缀动态生成相对应的列名称使得在一个Rowkey下列式地存储病人的多个文书信息。

SolrCloud设计

Claims

1.一种基于Hbase的医疗数据管理方法，其特征在于，包括：

S1、将结构化数据和非结构化数据存入Hbase数据库中，生成对应的一级索引Rowkey；将结构化数据和非结构化数据存入Hbase数据库中的具体步骤包括：

A1、从电子病历库中，关联抽取历史数据，经过数据处理后写入ODS层的中间库临时表中；数据处理的具体过程为：A11、根据非结构化数据在医疗中的作用进行文档分类，得到文档分类类型数据；A12、对结构化数据以及分类后的非结构化数据进行数据预处理；

A2、通过SparkSql连接ODS层的中间库临时表，抽取临时表中的数据进行Hbase表的适应性格式转化，将转化后的结构化数据和非结构化数据导入到Hbase表中，通过一级索引Rowkey对结构化数据和非结构化数据进行关联匹配；

S2、根据结构化数据和非结构化数据以及一级索引Rowkey在Solr中构建二级索引；构建二级索引的具体步骤包括：

B2、以非结构化数据的文档分类类型数据作为二级索引文档的主题，使用医疗字典对非结构化数据进行分词处理并在Solr中以倒排索引形式存储，并结合其对应的结构化数据、非结构化数据以及对应的一级索引Rowkey构建二级索引文档；

B3、批量提交到SolrCloud中构建索引文档，建立二级索引；

S4、使用关键词与步骤S2中得到的二级索引进行匹配；

2.根据权利要求1所述的一种基于Hbase的医疗数据管理方法，其特征在于，所述步骤S1还包括：定时向Hbase中写入增量数据。

3.根据权利要求2所述的一种基于Hbase的医疗数据管理方法，其特征在于，所述步骤S1的写入增量数据包括下列步骤：

4.根据权利要求1所述的一种基于Hbase的医疗数据管理方法，其特征在于，所述S5中从Hbase数据库中调取得到的数据为结构化数据或/和非结构化数据。

5.一种用于实现权利要求1至权利要求4任意一项所述的方法的医疗数据管理系统，其特征在于，包括数据预处理模块，与数据预处理模块连接的Hbase数据存储处理模块，以及与Hbase数据存储处理模块连接的二级索引模块。