CN104794567B - 一种基于HBase的传染病数据管理方法 - Google Patents

一种基于HBase的传染病数据管理方法 Download PDF

Info

Publication number
CN104794567B
CN104794567B CN201510166304.XA CN201510166304A CN104794567B CN 104794567 B CN104794567 B CN 104794567B CN 201510166304 A CN201510166304 A CN 201510166304A CN 104794567 B CN104794567 B CN 104794567B
Authority
CN
China
Prior art keywords
data
unstructured
storage
infectious disease
infectious diseases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510166304.XA
Other languages
English (en)
Other versions
CN104794567A (zh
Inventor
顾君忠
相晓敏
李舒媛
张学军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201510166304.XA priority Critical patent/CN104794567B/zh
Publication of CN104794567A publication Critical patent/CN104794567A/zh
Application granted granted Critical
Publication of CN104794567B publication Critical patent/CN104794567B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于HBase的传染病数据管理方法,该方法包括传染病数据的存储和查询获取,所述传染病数据的存储包括非结构化数据的存储和从已有的结构化数据库获取的数据的存储,所述的查询获取包括结构化数据的获取和非结构化数据的获取。对于传染病数据量大的特点,非结构数据库采用键值数据模型,能够处理数据存储量大,能够支持高并发读写;对于传染病数据实时更新的特点,非结构化数据库采用列式数据存储,存储性能和查询效率得到提高;对于图片文本数据,非结构化数据库采用文档数据模型和图形数据模型,扩展性得到增强。本发明适用于存储与查询传染病数据。

Description

一种基于HBase的传染病数据管理方法
技术领域
本发明涉及数据存储与查询技术领域,具体地说是一种基于HBase的传染病数据管理方法。
背景技术
随着当今互联网的迅速发展,各行各业的运行与互联网的关系越加紧密,许许多多的数据信息通过互联网流通,使得目前互联网上的数据达到了一个难以预测的数量级。这些信息的管理维护需要花费大量人力与技术等宝贵资源。而这些充斥在互联网上的数据中,绝大部分是有着各自不同格式的文档、图片以及视频等非结构化数据。
随着医疗信息化的发展以及数字医疗设备的广泛使用,传染病数据呈海量增长趋势,相比传统数据来说,传染病数据具有采集来源多样化、实时更新、数据量大以及数据结构多样化的特点。在这种情况下,结构化型数据库面临许多难以解决的问题。
首先,大量半结构化、非结构化数据的存在,使得数据库设计者难以事先确定合理、有效的数据关系模型,这就与结构化数据库优先设计模式的原则产生了冲突。而且结构化数据库的横向扩展能力通常比较差,数据模式的变更、数据库的升级产生相当高的代价,这对大型系统来说几乎是不可能的。
其次,传染病数据处理对并发读写能力要求极高,需要很高的实时性。简单的查询操作可能就涉及到对海量数据的读写,结构化数据库使用基于SQL的接口,难以实现单条语句的分布式处理。而在面对超大规模数据集 ,对于如Join、Union等多表联合的操作的效率非常低下,很难满足高并发处理和大数据量下的实时性要求。
最后,海量的传染病数据使得分布式的存储方案势在必行,而多数结构化数据库都不支持大规模的分布式存储,一般都会采用数据分表分库的方式来实现。这样在数据量到达一定阶段后又将面临扩展性的问题,而且存储需求的变更可能又会需要一种新的数据切分方式,对于应用系统而言不透明,将会使系统变得非常复杂。虽然可以通过开发透明的中间件来使开发者避免复杂的编程,但却避免不了系统整个架构的复杂性。而问题产生的根源来自结构化数据模型自身的缺陷,只有采用全新的数据模型,才能从根本上解决这些问题。
发明内容
本发明的目的是针对现有技术的不足而提供的一种基于HBase的传染病数据管理方法,该方法将传染病数据分为结构化和非结构化数据进行存取,存储使用HBase数据库,存储容量大,存储扩展性好,查询效率高,并能满足用户和医生对数据查询、获取、存储等各种要求。
实现本发明目的的具体技术方案是:
一种基于HBase的传染病数据管理方法,特点是:该方法包括传染病数据的存储及查询获取;所述传染病数据的存储包括传染病非结构化数据的存储和从已有的结构化数据库获取的传染病结构化数据的存储;所述传染病数据的查询获取包括传染病结构化数据的查询获取和传染病非结构化数据的查询获取;其中:
a、所述从已有的结构化数据库获取的传染病结构化数据的存储,包括以下步骤:
⑴、在HBase非结构化数据库中,建立HBase传染病非结构化存储表;
⑵、从已有的结构化数据库中,选取所有的传染病结构化数据;
⑶、采用Thrift接口,调用该接口的Tput函数读取所有的传染病结构化数据,将所有的传染病结构化数据存储到HBase传染病非结构化存储表中;
b、所述传染病非结构化数据的存储,包括以下步骤:
⑴、建立传染病非结构化数据的存储文本;
⑵、将传染病非结构化数据保存到存储文本中;
⑶、采用Thrift接口,调用该接口的Tput函数读取存储文本,将传染病非结构化数据以<key, value>形式存储在HBase 传染病非结构化存储表中;
c、所述传染病结构化数据的查询获取,包括以下步骤:
⑴、采用Thrift接口,向HBase传染病非结构化存储表发送查询传染病结构化数据的查询条件;
⑵、Thrift接口调用Tget函数,查询HBase传染病非结构化存储表中与查询条件相符的传染病结构化数据,并获取数据;
⑶、建立存储文本,将步骤⑵获取数据存储到文本中;
d、所述传染病非结构化数据的查询获取,包括以下步骤:
⑴、采用Thrift接口,向HBase传染病非结构化存储表发送传染病非结构化数据的查询条件;
⑵、调用Tget函数,查询HBase传染病非结构化存储表中与查询条件相符的传染病非结构化数据,并获取该数据;
⑶、建立存储文本,把获取的传染病非结构化数据存储到文本中;其中:
所述传染病结构化数据为地区、年龄、性别、职业、病种、诊断医院和诊断科室的用户信息以及传染病的发病人数、死亡率、死亡人数和死亡率的疾病信息;
所述传染病非结构化数据为B超视频流、CT视频流、医学影像图片、数字病历及医生开的医院诊断报告。
所述HBase传染病非结构化存储表,对于数字病历数据,采用文档数据模型,文档数据模型是基于<key,value>模型。
所述HBase传染病非结构化存储表,对于医学影像图片数据,采用图片数据模型,具体方法是:
用单独的列簇存储图片内容,用其他列簇存储图片的类型、大小、创建时间、修改时间;在存储每个列簇时,会以<Key,Value>的方式存储每行单元格中的数据,形成若干数据块,然后把数据块保存到HFile中,最后把HFile保存到后台的HDFS。
所述HBase传染病非结构化存储表,采用列式存储数据,在列导向的存储机制下对于空值存储是不占用任何空间的,大大节省了读写数据的空间。
所述<key, value> 模型的每条记录都是由主键和值两部分组成,并且不限制数据的类型。
所述的Thrift接口安装在Hadoop的任意结点上面,通过Java语言启动Thrift接口。
所述的传染病非结构化数据的查询条件为两种,一种是按指定主键获取唯一一条数据,一种是按指定列簇或者列获取一批数据。
与现有技术相比,本发明的有益结果:
本发明针对结构化数据库对半结构化、非结构化数据难以事先确定合理、有效的数据关系模型,难以实现单条语句的分布式处理、Join、Union等多表联合的操作的效率非常低下,很难满足高并发处理和大数据量下实时性的问题,通过HBase存储结构,Thrift接口的实时存储与查询,即可解决上述的对半结构化、非结构化数据确定数据关系模型、实现单条语句的分布式处理、Join、Union等多表联合的操作以及大规模的分布式存储问题。本发明从根本上提高了存储性能和查询效率,数据存储量得到提高,具有支持高并发读写等优势,同时对非结构化记忆半结构化数据进行存储。
附图说明
图1为本发明的流程图;
图2为本发明从已有的结构化数据库获取的传染病结构化数据的存储的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
本发明的实现依赖于HBase为基础的数据管理平台,它包括传染病数据的存储及查询获取;所述传染病数据的存储包括传染病非结构化数据的存储和从已有的结构化数据库获取的传染病结构化数据的存储;所述传染病数据的查询获取包括传染病结构化数据的查询获取和传染病非结构化数据的查询获取。
所述的非结构化数据主要是以文本图片为主的传染病数据,包括B超视频流、CT视频流、医学影像图片、数字病历、医生开的医院诊断报告,以及医学影像图片。所述的结构化数据主要是能够用二维逻辑结构存储的传染病数据,包括地区、年龄、性别、职业、病种、诊断医院,诊断科室这些基本的用户信息,以及传染病的发病人数、死亡率、死亡人数和死亡率相关的疾病信息。
参阅图2,为本实施例从已有的结构化数据库获取的传染病结构化数据的存储具体描述流程图。
实施例1
将用户root存储在结构化数据库中的传染病结构化数据,存储到HBase传染病非结构化存储表中,此例描述从已有的结构化数据库获取的传染病结构化数据的存储过程,其具体步骤如下:
(1)在HBase非结构化数据库中,建立HBase传染病非结构化存储表,命名为Disease_Data;
(2)从已有的结构化数据库中,选取所有的传染病结构化数据;
(3)采用Thrift接口,调用该接口的Tput函数读取所有的传染病结构化数据;
(4)将所有的传染病结构化数据存储到HBase传染病非结构化存储表Disease_Data中,该表的信息具体如下所示:
实施例2
将用户root的医学影像图片存储到HBase 传染病非结构化存储表中,此例描述传染病非结构化数据的存储过程,其具体步骤如下:
(1)建立传染病非结构化数据的存储文本,命名为video_image;
(2)将传染病非结构化数据保存到存储文本video_image中;
(3)调用Thrift接口的Tput函数读取存储文本video_image, 将传染病非结构化数据以<key, value>形式存储在HBase 传染病非结构化存储表中;
该表的具体信息如下所示:
实施例3
查看time时间的病例信息,此例描述传染病结构化数据的查询获取过程,其具体步骤如下:
(1)采用Thrift接口,向HBase传染病非结构化存储表发送查询传染病结构化数据的查询条件,即t1时间的所有病例数据;
(2)Thrift接口调用Tget函数,查询HBase传染病非结构化存储表中t1时间的所有数据;
(3)建立存储文本,把(2)获取的数据存储到文本中,文本以 时间_名称 命名,为time_disease_info。
实施例4:
查看time时间的医学影像图片信息,此例描述传染病非结构化数据的查询获取过程,其具体步骤如下:
(1)采用Thrift接口,向HBase传染病非结构化存储表发送传染病非结构化数据的查询条件,即upload_time是2015年1月1日的所有影像图片信息;
(2)调用Tget函数,查询HBase传染病非结构化存储表中upload_time=‘20150101’的所有数据;
(3)建立存储文本,把(2)获取的数据存储到文本中,文本以 时间_名称 命名,为time_disease_picture,供用户进行获取。

Claims (8)

1.一种基于HBase的传染病数据管理方法,其特征在于该方法包括传染病数据的存储及查询获取;所述传染病数据的存储包括传染病非结构化数据的存储和从已有的结构化数据库获取的传染病结构化数据的存储;所述传染病数据的查询获取包括传染病结构化数据的查询获取和传染病非结构化数据的查询获取;其中:
a、所述从已有的结构化数据库获取的传染病结构化数据的存储,包括以下步骤:
⑴、在HBase非结构化数据库中,建立HBase传染病非结构化存储表;
⑵、从已有的结构化数据库中,选取所有的传染病结构化数据;
⑶、采用Thrift接口,调用该接口的Tput函数读取所有的传染病结构化数据,将所有的传染病结构化数据存储到HBase传染病非结构化存储表中;
b、所述传染病非结构化数据的存储,包括以下步骤:
⑴、建立传染病非结构化数据的存储文本;
⑵、将传染病非结构化数据保存到已建立的传染病非结构化数据存储文本中;
⑶、采用Thrift接口,调用该接口的Tput函数读取存储文本,将传染病非结构化数据以key, value形式存储在HBase 传染病非结构化存储表中;
c、所述传染病结构化数据的查询获取,包括以下步骤:
⑴、采用Thrift接口,向HBase传染病非结构化存储表发送查询传染病结构化数据的查询条件;
⑵、Thrift接口调用Tget函数,查询HBase传染病非结构化存储表中与查询条件相符的传染病结构化数据并获取数据;
⑶、建立存储文本,将步骤c中⑵获取数据存储到文本中;
d、所述传染病非结构化数据的查询获取,包括以下步骤:
⑴、采用Thrift接口,向HBase传染病非结构化存储表发送传染病非结构化数据的查询条件;
⑵、调用Tget函数,查询HBase传染病非结构化存储表中与查询条件相符的传染病非结构化数据,并获取该数据;
⑶、建立存储文本,把步骤d中⑵获取的数据存储到文本中;其中:
所述传染病结构化数据为地区、年龄、性别、职业、病种、诊断医院和诊断科室的用户信息以及传染病的发病人数、死亡率、死亡人数和死亡率的疾病信息;
所述传染病非结构化数据为B超视频流、CT视频流、医学影像图片、数字病历及医生开的医院诊断报告。
2.根据权利要求1所述的方法,其特征在于所述HBase传染病非结构化存储表,对于数字病历数据,采用文档数据模型,文档数据模型是基于key,value模型。
3.根据权利要求1所述的方法,其特征在于所述HBase传染病非结构化存储表,对于医学影像图片数据,采用图片数据模型,具体是:
用单独的列簇存储图片内容,用其他列簇存储图片的类型、大小、创建时间、修改时间;在存储每个列簇时,会以Key,Value的方式存储每行单元格中的数据,形成若干数据块,然后把数据块保存到HFile中,最后把HFile保存到后台的HDFS。
4.根据权利要求1所述的方法,其特征在于所述HBase传染病非结构化存储表,采用列式存储数据。
5.根据权利要求2所述的方法,其特征在于所述key, value 模型的每条记录都是由主键和值两部分组成,并且不限制数据的类型。
6.根据权利要求1所述的方法,其特征在于所述的Thrift接口安装在Hadoop的任意结点上面,通过Java语言启动Thrift接口。
7.根据权利要求1所述的方法,其特征在于所述的传染病非结构化数据的查询条件为两种,一种是按指定主键获取唯一一条数据,一种是按指定列簇或者列获取一批数据。
8.根据权利要求1所述的方法,其特征在于所述的传染病结构化数据的查询条件为两种,一种是按指定主键获取唯一一条数据,一种是按指定列簇或者列获取一批数据。
CN201510166304.XA 2015-04-10 2015-04-10 一种基于HBase的传染病数据管理方法 Expired - Fee Related CN104794567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510166304.XA CN104794567B (zh) 2015-04-10 2015-04-10 一种基于HBase的传染病数据管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510166304.XA CN104794567B (zh) 2015-04-10 2015-04-10 一种基于HBase的传染病数据管理方法

Publications (2)

Publication Number Publication Date
CN104794567A CN104794567A (zh) 2015-07-22
CN104794567B true CN104794567B (zh) 2018-02-23

Family

ID=53559353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510166304.XA Expired - Fee Related CN104794567B (zh) 2015-04-10 2015-04-10 一种基于HBase的传染病数据管理方法

Country Status (1)

Country Link
CN (1) CN104794567B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426442B (zh) * 2015-11-06 2020-01-14 广东湛数大数据有限公司 一种基于分布式数据库消息数据管理方法及系统
CN108509182A (zh) * 2018-02-27 2018-09-07 北京航空航天大学 将非结构化大数据进行结构化处理并融合的软件技术
CN109445704A (zh) * 2018-10-29 2019-03-08 南京录信软件技术有限公司 一种综合使用多种设备存储海量数据的方法
CN117787924A (zh) * 2024-02-28 2024-03-29 中国航空工业集团公司西安飞机设计研究所 一种飞机设计数据发放数据包发放方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236867A (zh) * 2011-08-15 2011-11-09 悠易互通(北京)广告有限公司 基于云计算的受众行为分析广告定向系统
CN103678650A (zh) * 2013-12-23 2014-03-26 蓝盾信息安全技术股份有限公司 一种基于thrift服务的HBase安全插件
CN104036006A (zh) * 2014-06-20 2014-09-10 浪潮(北京)电子信息产业有限公司 一种实现Windows下连接控制Hbase的方法及装置
CN104156429A (zh) * 2014-08-08 2014-11-19 平安养老保险股份有限公司 医疗服务提供方服务协议管理系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236867A (zh) * 2011-08-15 2011-11-09 悠易互通(北京)广告有限公司 基于云计算的受众行为分析广告定向系统
CN103678650A (zh) * 2013-12-23 2014-03-26 蓝盾信息安全技术股份有限公司 一种基于thrift服务的HBase安全插件
CN104036006A (zh) * 2014-06-20 2014-09-10 浪潮(北京)电子信息产业有限公司 一种实现Windows下连接控制Hbase的方法及装置
CN104156429A (zh) * 2014-08-08 2014-11-19 平安养老保险股份有限公司 医疗服务提供方服务协议管理系统及方法

Also Published As

Publication number Publication date
CN104794567A (zh) 2015-07-22

Similar Documents

Publication Publication Date Title
Diogo et al. Consistency models of NoSQL databases
Kleppmann Designing data-intensive applications: The big ideas behind reliable, scalable, and maintainable systems
US8156149B2 (en) Composite nested streams
Holzschuher et al. Performance of graph query languages: comparison of cypher, gremlin and native access in neo4j
US20170068748A1 (en) Hybrid data storage system and method and program for storing hybrid data
US8341164B1 (en) Apparatus and methods for organizing data items having time of life intervals
EP3654202A1 (en) Low-latency predictive database analysis
CN102426582B (zh) 数据操作管理装置和数据操作管理方法
CN104794567B (zh) 一种基于HBase的传染病数据管理方法
CN105069151A (zh) HBase二级索引构建装置和方法
US11507555B2 (en) Multi-layered key-value storage
US8037088B2 (en) Change management
EP4191484A1 (en) Automatic machine learning data modelling in a low-latency data access and analysis system
JP2009169902A (ja) データベース管理方法、データベース管理装置、データベース管理プログラム、及び、データベースシステム
US11841846B1 (en) Generating object morphisms during object search
CN114860727A (zh) 拉链表更新方法及装置
Haelen et al. Delta Lake: Up and Running
CN109753533A (zh) 一种多源关系型数据库客户端开发方法及装置
US11386111B1 (en) Systems, devices, and methods for data analytics
Thottuvaikkatumana Cassandra Design Patterns
Ha et al. Ink: In-kernel key-value storage with persistent memory
Singh NoSQL: A new horizon in big data
US8886688B2 (en) Type neutral container
Atzori GDup: an Integrated, Scalable Big Graph Deduplication System
US11372872B2 (en) Dynamic chronometry data orientation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180223