CN103049556A - 一种海量医疗数据的快速统计查询方法 - Google Patents

一种海量医疗数据的快速统计查询方法 Download PDF

Info

Publication number
CN103049556A
CN103049556A CN2012105872106A CN201210587210A CN103049556A CN 103049556 A CN103049556 A CN 103049556A CN 2012105872106 A CN2012105872106 A CN 2012105872106A CN 201210587210 A CN201210587210 A CN 201210587210A CN 103049556 A CN103049556 A CN 103049556A
Authority
CN
China
Prior art keywords
statistics
medical data
tree
statistical
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105872106A
Other languages
English (en)
Other versions
CN103049556B (zh
Inventor
张帆
彭智
须成忠
闫茜
甘波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201210587210.6A priority Critical patent/CN103049556B/zh
Publication of CN103049556A publication Critical patent/CN103049556A/zh
Application granted granted Critical
Publication of CN103049556B publication Critical patent/CN103049556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种海量医疗数据的快速统计查询方法。首先从不同的数据源收集、过滤和处理医疗数据,保存处理后的医疗数据到分布式文件系统hdfs或者hbase中;针对某个或某些基于统计的医疗数据,利用所述分布式文件系统hdfs或者hbase来创建并初始化统计树;针对新增的医疗数据进行一个或多个增量计算,并用增量计算的结果去更新所述统计树;服务端基于所创建的一个或者多个统计树来响应用户的统计查询请求,将所述统计查询请求解析成基于一个或者多个统计树的子查询,并合并成多个子查询的结果返回给所述用户。该方法可以迅速定位统计数据的位置,避免大数据量的访问,从而减轻了系统负载,提高了查询效率和访问的并发性。

Description

一种海量医疗数据的快速统计查询方法
技术领域
本发明涉及医疗数据技术领域,尤其涉及一种海量医疗数据的快速统计查询方法。
背景技术
目前,随着我国经济持续稳定的发展和现代科技的日新月异,人们越来越多的关注自身健康,在满足日常工作和生活的需求之外,人们也迫切希望通过网络或者手机上网就能随时查看流行病的季节信息、了解每种疾病下的用药情况以及针对自身疾病获得一些个性化的推荐服务等。对于公共卫生机构,它们希望各个社区居民的医疗数据能够自动汇总,并自动对这些数据进行统计分析,统计的结果用来进行流行病的趋势分析和爆发预警,从而为制定防治干预计划提供有力的参考依据。
与此同时,随着国家新医改政策的颁布和实施,与健康直接相关的医疗行业开始迅猛发展,医疗数据越来越趋于高度集中化。大规模区域医疗信息系统和大型医疗数据中心将逐步建立,数据总量可达PB级以上的存储需求,日更新量GB级甚至TB级。在海量医疗数据的访问上,存在大规模数据统计计算的服务,而且需要尽可能快的查询响应时间,通常还需要能够做到高并发,例如各种统计查询。同时健康云系统的基于统计的业务也相当复杂,且需求变化大,需要系统有很多的扩展性。而且医疗数据规模很大,且医疗数据之间具有强关联性,不同类型的用户对同一数据具有不同的观察视角,从而对医疗数据的存储模型有很高的要求以应付灵活多变的数据请求,大规模数据上还存在大量已知的或者未知的数据分析需求,查询的总类多,需要支持各种定制性查询。
新的需求和国家政策必然推动大规模区域医疗信息系统和大型医疗数据中心的建立,这使得海量医疗数据上的快速统计查询成为一个研究的难点问题。目前现有技术中实现医疗数据快速统计主要有两种算法:一种是使用传统的数据库实施即时统计,但使用该方法来进行统计查询的效率很低;另一种方法是将基于MapReduce对hdfs上的数据进行并行统计分析,然后将分析的结果保存到hbase服务器中,最后在hbase服务器上实现统计查询,相较于传统关系数据库的处理方法,这种算法的时间复杂度明显优越,但仍没有效解决数据量增大所带来的计算量扩大问题,依然无法保证算法在统计过程中的稳定性。
由此可见,由于全民医疗信息服务系统每天产生的数据量大,用户对统计查询的实时处理要求高,因此简单地采用传统数据库、商业并行数据库或者NOSQL数据库对海量医疗数据进行在线统计分析然后返回结果的方式已不能满足实际情况和需求。
发明内容
本发明的目的是提供一种海量医疗数据的快速统计查询方法,该方法可以迅速定位统计数据的位置,避免大数据量的访问,从而减轻了系统负载,提高了查询效率和访问的并发性。
本发明的目的是通过以下技术方案实现的,一种海量医疗数据的快速统计查询方法,所述方法包括:
从不同的数据源收集、过滤和处理医疗数据,保存处理后的医疗数据到分布式文件系统hdfs或者hbase中;
针对某个或某些基于统计的医疗数据,利用所述分布式文件系统hdfs或者hbase来创建并初始化统计树;
针对新增的医疗数据进行一个或多个增量计算,并用增量计算的结果去更新所述统计树;
服务端基于所创建的一个或者多个统计树来响应用户的统计查询请求,将所述统计查询请求解析成基于一个或者多个统计树的子查询,并合并成多个子查询的结果返回给所述用户。
所述从不同的数据源收集、过滤和处理医疗数据,保存处理后的医疗数据到分布式文件系统hdfs或者hbase中,具体包括:
利用各种消息中间件从不同的数据源收集医疗数据,并基于MapReduce程序对所收集的医疗数据进行过滤处理,将过滤处理后的数据导入到分布式文件系统hdfs或者hbase中。
所述利用所述分布式文件系统hdfs或者hbase来创建并初始化统计树,具体包括:
利用传统数据库或分布式文件系统hdfs或者hbase来创建统计树,该统计树采用B-树的存储方式,且在所创建的统计树结构中,同层兄弟节点的统计值采用从左至右进行累加的计算方式;
借助sqoop工具初始化所创建的统计树,将收集并处理后的医疗数据导入到所创建的统计树中。
所述针对新增的医疗数据进行一个或多个增量计算,并用增量计算的结果去更新所述统计树,具体包括:
脚本程序依次调用执行一个或多个MapReduce程序对当日新增的医疗数据进行统计分析;
将所述统计分析结果集中的每条记录追加为所述统计树最新的一个叶子节点,同时累加更新该叶子节点上游的所有父亲节点的统计结果,实现统计树更新。
所述将统计查询请求解析成基于一个或者多个统计树的子查询,并合并成多个子查询的结果返回给所述用户,具体包括:
所述服务端接收用户提交的统计查询请求,并将其解析为一个或者多个统计树的子查询;
执行各个子查询,将每个子查询翻译成从所述统计树的存储结构中获取多个统计值,并对其通过简单的加减运算得到各个子查询对应的统计结果;
对所述各个子查询的统计结果进行合并,然后将合并后的结果返回给所述用户。
由上述本发明提供的技术方案可以看出,首先从不同的数据源收集、过滤和处理医疗数据,保存处理后的医疗数据到分布式文件系统hdfs或者hbase中;针对某个或某些基于统计的医疗数据,利用所述分布式文件系统hdfs或者hbase来创建并初始化统计树;针对新增的医疗数据进行一个或多个增量计算,并用增量计算的结果去更新所述统计树;服务端基于所创建的一个或者多个统计树来响应用户的统计查询请求,将所述统计查询请求解析成基于一个或者多个统计树的子查询,并合并成多个子查询的结果返回给所述用户。该方法可以迅速定位统计数据的位置,避免大数据量的访问,从而减轻了系统负载,提高了查询效率和访问的并发性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的海量医疗数据的快速统计查询方法流程示意图;
图2为本发明实施例所举实例存储模型的结构示意图;
图3为本发明实施例所举实例中统计树的存储结构示意图;
图4为本发明实施例所举实例中用户查询的流程示意图;
图5为本发明实施例所举实例中查询所耗时间的图表示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例所述方法基于增量计算和统计树支持快速统计算法,一方面利用增量计算只对当天的数据进行统计计算,然后用新的计算结果去更新统计树,从而避免了大量的重复计算;另一方面用户的查询都集中在对统计树的查询上,避免了大量即时的计算。下面将结合附图对本发明实施例作进一步地详细描述,如图1所示为本发明实施例提供的海量医疗数据的快速统计查询方法流程示意图,所述方法包括:
步骤11:从不同的数据源收集、过滤和处理医疗数据,保存处理后的医疗数据到分布式文件系统hdfs或者hbase中。
在该步骤中,首先按利用各种消息中间件从不同的数据源收集医疗数据,具体实现中,由于收集上来的医疗数据可能有坏数据、不合理的数据或者是重复的数据等,因此在服务端还需要有过滤组件来处理这些异常情况,因为MapReduce(映射规约)支持多数据源输入,因此过滤组件可以基于MapReduce来实现,进一步的基于MapReduce程序对所收集的医疗数据进行过滤处理,将过滤处理后的数据导入到分布式文件系统hdfs或者hbase中。
在具体实现中,医疗数据的生成和采集通常来自于各大医院,但是随着物联网的发展,个人医疗数据还可以来自于体检中心、私人诊所、急救中心和家庭等任何适合的地方。
上述医疗数据从不同的地方源源不断地向数据中心集中,为了缓解网络和IO的压力,可以采用ActiveMQ、RabbitMQ、KafKa、Redis等作为消息中间件来收集数据;而数据来源的多样化必然导致收集数据的格式和类型不完全相同,进一步的基于多输入源的MapReduce程序可以对输入的记录进行过滤预处理(移除无意义的词,一个词的不同形式转换为相同形式,删除重复的数据等处理);然后将处理后的数据保存在分布式文件系统hdfs或者hbase中,利于后续基于MapReduce的分布式统计计算,通过并行处理保证高效的性能。
步骤12:针对某个或某些基于统计的医疗数据,利用所述分布式文件系统hdfs或者hbase来创建并初始化统计树。
在该步骤中,首先利用传统数据库或分布式文件系统hdfs或者hbase来创建统计树,该统计树采用B-树的存储方式,且在所创建的统计树结构中,同层兄弟节点的统计值采用从左至右进行累加的计算方式,这样在查询某个区间的统计值之和时,只需要将若干节点的统计值进行简单加减就可以得到统计结果,从而避免了区间内所有统计值相加造成的CPU负载过大问题;然后进一步借助sqoop(Hadoop和关系型数据库之间相互转移数据的工具)等工具来初始化所创建的统计树,即将处理后的医疗数据导入到所创建的统计树中。
下面以具体的实例对上述创建过程进行描述:
实际应用中,流行病分析、公共卫生事件预测、临床决策支持、慢性病管理、个性化的健康照护计划、日常卫生保健管理等基于统计信息的服务导致了大规模区域医疗信息系统和大型医疗数据中心的建立,因为这些信息服务必须建立在数据集中化的基础之上。基于上述原因,健康云系统必须要支持多样的高并发的海量医疗数据上的快速统计查询。
针对健康云上基于统计的服务集,本实施例构建了以多个统计树为叶子节点的按品类划分的目录树存储模型,配合后面介绍的增量计算模型以达到快速查询的目的。如图2所示为本发明实施例所举实例存储模型的结构示意图,图2中:每一个基于统计信息的查询服务对应一颗统计树,根据该服务的特征和类型选择把该统计树以叶子节点的形式挂载到目录树存储模型的某条路径下。这样,每个基于统计信息的查询服务就转换为在某个统计树上的快速查询了。
另外,如图3所示为本发明实施例所举实例中统计树的存储结构示意图,图3中:统计树以B-树的方式存储统计数据,且相邻兄弟节点之间通过累加的方式组织统计值。
举例来说,假设用户要查询深圳市某医院某科室从某个起始时间到某个终止时间的门诊人数,住院人数、门诊总费用和住院总费用情况,针对这种需求,建立按年,月和日三层时间划分的统计树。首先选取所有统计数据中最早年份的前一年作为统计初始年,采用分层累加的方式存储统计数据。例如2012年的节点值等于初始统计年至2012年的统计值之和,2012年8月的节点值等于2012年1月至2012年8月统计值之和,而2012年8月20日的节点值等于2012年8月1日至2012年8月20日的统计值之和。
设第n年的节点值为SYn,第n年的统计值为Yn,第n月的节点值为SMn,第n月的统计值为Mn,第n日的节点值为SDn,第n日的统计值为Dn,则有
Yn=SYn-SYn-1,Mn=SMn-SMn-1,Dn=SDn-SDn-1
若设第m年至第n年间的统计值之和为
Figure BDA00002676827300051
同一年第m月至第n月间的统计值之和为
Figure BDA00002676827300052
且同一月第m日至第m日间的统计值之和为
Figure BDA00002676827300053
则有
A m n = SY n - 1 - SY m , B m n = SM n - 1 - SM m , C m n = SD n - SD m - 1 .
最后将每一层的统计结果进行叠加来实现给定初始和终止时间的快速查询。
对于上述统计树中出现某年,某月或某日缺省统计值的情况,那么该年,月或日在统计树中不创建对应的节点;对于不存在时间节点采取向前搜索最近的时间节点值作为该点的值。因此采用这种累加的方式在查询某个宽时间段的统计值之和时,只需要将若干节点的统计值进行简单加减就可以得到统计结果,从而避免了区间内所有统计值相加造成的CPU负载过大的问题。
步骤13:针对新增的医疗数据进行一个或多个增量计算,并用增量计算的结果去更新所述统计树。
在该步骤中,具体可以利用linux平台下的crontab模块,在每日的午夜闲时周期性地启动执行增量计算的脚本程序;该脚本程序依次调用执行一个或者多个MapReduce程序对当日新增的医疗数据进行统计分析;再将统计分析结果集中的每条记录追加为统计树的最新的一个叶子节点,同时累加更新该叶子节点上游的所有父亲节点的统计结果,实现统计树更新。上述微调由事务来保证其完整性,通过反复调用这种微调更新相应的统计树变化到最新状态。
具体实现中,由于上述增量计算是一个周期性的工作,因此需要准备一个脚本,将这个脚本的路径写入Iinux平台的crontab文件中,设定每晚午夜系统闲时在固定时间执行该脚本。在每次执行脚本过程中,调用多个MapReduce程序对各自的当天医疗数据进行过滤和统计分析;接着用统计分析的结果去更新相应的统计树。
举例来说,还是以查询深圳市某医院某科室从某个起始时间到某个终止时间的门诊人数,住院人数,门诊总费用和住院总费用情况为例。假设原来的统计树包含2012年10月10日之前的统计信息,现在统计出了2012年10月11日当天的信息,对于统计输出的每条记录,追加和更新原统计树的过程如下。输出每条记录需要在一个统计树的末尾追求一个日节点,这个节点的节点值为2012年10月10日的节点值加上2012年10月11日的统计值,然后将2012年10月11日的统计值分别累加到2012年10月和2012年这两个父亲节点上。
上述所有统计记录都以上面这种方式来更新对应的统计树,直到相应的统计树都被更新为止。
步骤14:服务端基于所创建的一个或者多个统计树来响应用户的统计查询请求,将所述统计查询请求解析成基于一个或者多个统计树的子查询,并合并成多个子查询的结果返回给所述用户。
在该步骤中,首先服务端接收用户提交的统计查询请求,并将其解析为一个或者多个统计树的子查询;然后执行各个子查询,将每个子查询翻译成从所述统计树的存储结构中获取多个统计值,并对其通过简单的加减运算得到该子查询对应的统计结果;再对各个子查询的统计结果进行合并,然后将合并后的结果返回给所述用户。
具体实现中,在健康云系统中,由于数据高度集中化,允许用户进行有差异的查询请求,系统需要提供可定制查询的能力,因此某个用户的查询请求,可能会涉及多个统计子查询,也可能会包含实时子查询。服务端首先需要将用户的请求解析为一个或者多个基于统计的子查询,甚至涉及其他实时的子查询,每个基于统计的子查询对应于在统计树上的若干操作。
举例来说,还是以用户查询深圳市某医院某科室从某个起始时间到某个终止时间的门诊人数,住院人数,门诊总费用和住院总费用情况为例。假设门诊和住院分属于不同类型的统计树,那么要得到某医院某科室在某个时间段内的统计记录,就需要分别查询对应的两个统计树,将两个统计记录合并成最后的统计记录返回给用户。如图4所示为本发明实施例所举实例中用户查询的流程示意图,结合本实施例所举例子以及图4:
假如某个子查询为深圳市南山医院妇产科从2008年5月20号到2011年3月10号的门诊数和门诊总费用。首先在目录树存储结构中定位到深圳市南山医院妇产科,妇产科下面存放着一个统计树结构,那么要得到该子查询的统计记录,在统计树的年这一层,将2010年的节点值d减去2008年的节点值b得到数值u;在统计树的月这一层,将父亲节点2008年的节点值b减去2008年5月的节点值h得到数值v,得到2011年2月的节点值k,重命名为w;接着,在统计树的日这一层,将父亲节点2008年5月的节点值h减去2008年5月19号的节点值p得到数值x,得到2011年3月10号的节点值s,重命名为y;最后将u,v,w,x,y五个值相加就得到了子查询的统计记录。
如果统计树的节点不是按照时间顺序完全连续的,那么在计算过程中,找到前一个相邻的节点替代计算节点,当所有的子查询都返回之后,合并子查询的统计记录成用户所期望的统计结果,返回最终的统计记录给用户,定制查询结束,如图4所示。
通过上述方法的实施,就可以迅速定位统计数据的位置,避免大数据量的访问,从而减轻了系统负载,提高了查询效率和访问的并发性。
为了验证数据量的持续增大,查询范围的任意增大,一次统计的算法时间复杂度为常数级,下面以完成一项业务需求为例,即在任意时间段内得到某项目的总统计值,对查询的范围字段(时间,项目)建立索引,并按照时间(年月日)建立统计树数据结构。如此一来,每次进行统计查询时,分别根据索引在“年”这一层搜索起始年的节点值b和终止年前一年的节点值d,在“月”这一层搜索起始月的节点值h和终止月前一月的节点值k,在“日”这一层搜索起始日前一日的节点值p和终止日的节点值s,在最坏的情况下,计算给定时间段某医院某科室的总统计值时,只需另外搜索起始年年末12月的节点值i和起始月月末的节点值q,最后得出总统计值Y为
Y=(d-b)+(i-h)+k+(q-p)+s.
因此,整个算法的时间复杂度为常数级,效率明显优于在传统数据库和hbase的实现统计查询。为了进一步验证此算法为常数级,选取了100组测试数据做测试,将每次算法执行所耗时间记录下来,并绘制成图表如图5所示,根据图5:
由于第一次统计时,编译器在第一次连接数据库时便生成查询计划,并将此计划放在缓存中,故耗时较大,在图中显示为1200毫秒左右。从第二次开始以后每次算法执行的耗时都趋于稳定,成线性状,可以验证此统计树算法的时间复杂度为常数级。
另外,若考虑该业务需求带来的空间复杂度,先设该业务项目的总数为M,该业务时间记录总数为T,则针对某一项目,按年月日分层的统计树结构所带来的空间复杂度为
Figure BDA00002676827300081
即o(T3),故整个统计树算法的空间复杂度为o(M·T3)。
由此可见,本发明实施例所述方法充分利用了原有的统计结果,将海量数据的统计计算转换成每日新增数据的增量计算,通过在每日的闲时更新统计树,实现用户的定制查询仅是作用在一些以B-树为存储结构的统计树上,可以迅速定位统计数据的位置,避免了大数据量的访问,从而减轻了系统负载,提高了查询的效率和访问的并发性。
以具体的实验数据进行分析如下:
数据来源于深圳市46家医院2006年至2010年的医疗数据,为了模拟每日的新增数据,将2010年的最后2个月的数据作为增量数据来处理,数据的内容涉及用户的基础信息,医疗机构的基础信息,病人的就诊记录,病人的检验检测记录,病人的就诊和住院费用等等,源数据被处理后以hdfs或者hbase存储,全部数据的总大小为2.1T。
在本实验中,采用了6台普通服务器搭建了一个hadoop集群的运行环境,每台服务器16个核,16G的内存,8T的磁盘空间。实验证明,在充分发挥hadoop集群的分布式存储和分布式计算能力的情况下,模拟1000人同时在线的不同类型的统计查询,平均的响应时间在2s以内。与传统的方法相比,本发明的方法将海量医疗数据的实时统计查询转换为基于统计树的在线查询,可以在更短的时间内支持更加高并发的统计查询请求。因为是采用增量计算来进行统计,所以解决了全量计算时系统负载过高的问题。另外,由于数据是冗余存储的,且hadoop自带了容错机制,因此在系统的高可用性,高稳定性上有着更加明显的优势。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种海量医疗数据的快速统计查询方法,其特征在于,所述方法包括:
从不同的数据源收集、过滤和处理医疗数据,保存处理后的医疗数据到分布式文件系统hdfs或者hbase中;
针对某个或某些基于统计的医疗数据,利用所述分布式文件系统hdfs或者hbase来创建并初始化统计树;
针对新增的医疗数据进行一个或多个增量计算,并用增量计算的结果去更新所述统计树;
服务端基于所创建的一个或者多个统计树来响应用户的统计查询请求,将所述统计查询请求解析成基于一个或者多个统计树的子查询,并合并成多个子查询的结果返回给所述用户。
2.根据权利要求1所述海量医疗数据的快速统计查询方法,其特征在于,所述从不同的数据源收集、过滤和处理医疗数据,保存处理后的医疗数据到分布式文件系统hdfs或者hbase中,具体包括:
利用各种消息中间件从不同的数据源收集医疗数据,并基于MapReduce程序对所收集的医疗数据进行过滤处理,将过滤处理后的数据导入到分布式文件系统hdfs或者hbase中。
3.根据权利要求1所述海量医疗数据的快速统计查询方法,其特征在于,所述利用所述分布式文件系统hdfs或者hbase来创建并初始化统计树,具体包括:
利用传统数据库或分布式文件系统hdfs或者hbase来创建统计树,该统计树采用B-树的存储方式,且在所创建的统计树结构中,同层兄弟节点的统计值采用从左至右进行累加的计算方式;
借助sqoop工具初始化所创建的统计树,将收集并处理后的医疗数据导入到所创建的统计树中。
4.根据权利要求1所述海量医疗数据的快速统计查询方法,其特征在于,所述针对新增的医疗数据进行一个或多个增量计算,并用增量计算的结果去更新所述统计树,具体包括:
脚本程序依次调用执行一个或多个MapReduce程序对当日新增的医疗数据进行统计分析;
将所述统计分析结果集中的每条记录追加为所述统计树最新的一个叶子节点,同时累加更新该叶子节点上游的所有父亲节点的统计结果,实现统计树更新。
5.根据权利要求1所述海量医疗数据的快速统计查询方法,其特征在于,所述将统计查询请求解析成基于一个或者多个统计树的子查询,并合并成多个子查询的结果返回给所述用户,具体包括:
所述服务端接收用户提交的统计查询请求,并将其解析为一个或者多个统计树的子查询;
执行各个子查询,将每个子查询翻译成从所述统计树的存储结构中获取多个统计值,并对其通过简单的加减运算得到各个子查询对应的统计结果;
对所述各个子查询的统计结果进行合并,然后将合并后的结果返回给所述用户。
CN201210587210.6A 2012-12-28 2012-12-28 一种海量医疗数据的快速统计查询方法 Active CN103049556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210587210.6A CN103049556B (zh) 2012-12-28 2012-12-28 一种海量医疗数据的快速统计查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210587210.6A CN103049556B (zh) 2012-12-28 2012-12-28 一种海量医疗数据的快速统计查询方法

Publications (2)

Publication Number Publication Date
CN103049556A true CN103049556A (zh) 2013-04-17
CN103049556B CN103049556B (zh) 2016-11-09

Family

ID=48062197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210587210.6A Active CN103049556B (zh) 2012-12-28 2012-12-28 一种海量医疗数据的快速统计查询方法

Country Status (1)

Country Link
CN (1) CN103049556B (zh)

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312791A (zh) * 2013-05-24 2013-09-18 上海和伍新材料科技有限公司 物联网异构数据存储方法及系统
CN103338261A (zh) * 2013-07-04 2013-10-02 北京泰乐德信息技术有限公司 一种轨道交通监测数据的存储和处理方法及系统
CN103544258A (zh) * 2013-10-16 2014-01-29 国家计算机网络与信息安全管理中心 一种大数据多区间查询条件下的基数估计方法及装置
CN103617211A (zh) * 2013-11-20 2014-03-05 浪潮电子信息产业股份有限公司 一种HBase加载数据的导入方法
CN104199942A (zh) * 2014-09-09 2014-12-10 中国科学技术大学 一种Hadoop平台时序数据增量计算方法及系统
CN104252458A (zh) * 2013-06-25 2014-12-31 博雅网络游戏开发(深圳)有限公司 数据分析方法和装置
CN104317877A (zh) * 2014-10-21 2015-01-28 上海交通大学 一种基于分布式计算的网络用户行为数据实时处理方法
CN104363150A (zh) * 2014-10-20 2015-02-18 谢飞 一种类文件系统的物联网设备访问系统及其方法
CN104391910A (zh) * 2014-11-17 2015-03-04 西安交通大学 一种基于HBase的税收统计报表存储与计算的方法
CN104516955A (zh) * 2014-12-16 2015-04-15 北京中交兴路车联网科技有限公司 一种海量车机轨迹数据的存储方法
CN104537003A (zh) * 2014-12-16 2015-04-22 北京中交兴路车联网科技有限公司 一种Hbase数据库的通用高性能数据写入方法
CN104699985A (zh) * 2015-03-26 2015-06-10 西安电子科技大学 一种医疗大数据采集分析系统及方法
CN104754036A (zh) * 2015-03-06 2015-07-01 合一信息技术(北京)有限公司 一种基于kafka的消息处理系统及处理方法
CN104778182A (zh) * 2014-01-14 2015-07-15 博雅网络游戏开发(深圳)有限公司 基于HBase的数据导入方法和系统
CN104933119A (zh) * 2015-06-05 2015-09-23 福建富士通信息软件有限公司 一种大数据管理方法
CN105243277A (zh) * 2015-10-10 2016-01-13 平凡 一种计算机辅助医疗数据处理系统及方法
CN105512470A (zh) * 2015-12-01 2016-04-20 苏州登顶医疗科技有限公司 一种基于Hadoop平台的灌肠仪数据处理系统
CN105608076A (zh) * 2014-10-09 2016-05-25 华院数据技术(上海)有限公司 一种用于检测医疗报销中异常性诊断项目的系统和方法
CN105893543A (zh) * 2016-03-31 2016-08-24 微梦创科网络科技(中国)有限公司 数据缓冲服务方法及系统
CN103544258B (zh) * 2013-10-16 2016-11-30 国家计算机网络与信息安全管理中心 一种大数据多区间查询条件下的基数估计方法及装置
CN106294349A (zh) * 2015-05-13 2017-01-04 中国核工业第五建设有限公司 基于结构化和定制化的工程管理查询系统
CN103678716B (zh) * 2013-12-31 2017-01-04 中国科学院深圳先进技术研究院 一种基于格式数据集的分布式数据存储与计算方法
WO2017005192A1 (en) * 2015-07-07 2017-01-12 Huawei Technologies Co., Ltd. Mechanisms for merging index structures in molap while preserving query consistency
CN106469175A (zh) * 2015-08-20 2017-03-01 互联网域名系统北京市工程研究中心有限公司 数据处理方法及装置
CN106775435A (zh) * 2015-11-24 2017-05-31 腾讯科技(深圳)有限公司 一种存储系统中的数据处理方法、装置和系统
WO2017113865A1 (zh) * 2015-12-31 2017-07-06 华为技术有限公司 一种大数据增量计算方法和装置
CN107408114A (zh) * 2014-12-22 2017-11-28 亚马逊技术有限公司 基于事务访问模式识别联结关系
CN107657991A (zh) * 2017-11-13 2018-02-02 医渡云(北京)技术有限公司 患者数据筛选方法及装置、存储介质、电子设备
CN107679172A (zh) * 2017-09-29 2018-02-09 北京奇艺世纪科技有限公司 一种数据的查询统计方法及装置
CN108053863A (zh) * 2017-12-22 2018-05-18 中国人民解放军第三军医大学第附属医院 适合大小文件的海量医疗数据存储系统及数据存储方法
CN108153771A (zh) * 2016-12-05 2018-06-12 天脉聚源(北京)科技有限公司 一种提高大数据队列处理效率的方法和系统
CN108172299A (zh) * 2017-12-25 2018-06-15 华中科技大学同济医学院附属协和医院 一种医疗数据远端计算系统及方法
CN108563781A (zh) * 2018-04-25 2018-09-21 广州绿源信息科技有限公司 基于Hadoop的物联网大数据处理方法及系统
CN108806773A (zh) * 2018-05-21 2018-11-13 上海熙业信息科技有限公司 医学影像云存储平台设计方法
CN109063093A (zh) * 2018-07-27 2018-12-21 重庆工商职业学院 一种物联网数据预处理方法及系统
CN109299931A (zh) * 2018-09-13 2019-02-01 百富计算机技术(深圳)有限公司 一种数据统计方法、系统及终端设备
CN109840259A (zh) * 2018-12-29 2019-06-04 北京三快在线科技有限公司 数据查询方法、装置、电子设备及可读存储介质
CN110008272A (zh) * 2019-04-10 2019-07-12 张绿儿 面向传感器数据的NoSQL数据库评测系统及其构建方法
CN110377601A (zh) * 2019-06-27 2019-10-25 河南省交通规划设计研究院股份有限公司 一种基于B树数据结构的MapReduce计算过程优化方法
US10831759B2 (en) 2014-12-22 2020-11-10 Amazon Technologies, Inc. Efficient determination of join paths via cardinality estimation
CN112740195A (zh) * 2018-08-06 2021-04-30 甲骨文国际公司 数据库系统中维护统计的技术
CN112835930A (zh) * 2021-03-03 2021-05-25 上海渠杰信息科技有限公司 一种数据库的查询方法及设备
CN113343134A (zh) * 2021-06-22 2021-09-03 中国标准化研究院 一种行政区划代码动态维护管理方法及系统
CN113380356A (zh) * 2021-05-10 2021-09-10 广州零端科技有限公司 分支链式溯源的医疗检查数据记录方法、查询方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190107714A (ko) * 2017-02-15 2019-09-20 고에키 자이단 호징 고베 이료 산교 도시 스이신 기코 의료정보 관리 시스템, 임상정보 취득 서버, 의료정보 관리방법 및 프로그램이 기록된 비일시적인 기록 매체

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006088106A1 (ja) * 2005-02-18 2006-08-24 Sompo Japan Insurance Inc. データ検索システム、方法及びプログラム
CN102508913A (zh) * 2011-11-17 2012-06-20 张真 一种带有数据立方存储索引结构的云计算系统
CN102521405A (zh) * 2011-12-26 2012-06-27 中国科学院计算技术研究所 支持高速加载的海量结构化数据存储、查询方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006088106A1 (ja) * 2005-02-18 2006-08-24 Sompo Japan Insurance Inc. データ検索システム、方法及びプログラム
CN102508913A (zh) * 2011-11-17 2012-06-20 张真 一种带有数据立方存储索引结构的云计算系统
CN102521405A (zh) * 2011-12-26 2012-06-27 中国科学院计算技术研究所 支持高速加载的海量结构化数据存储、查询方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
侯建等: "基于云计算的海量数据存储模型", 《通信技术》 *
吴广君等: "海量结构化数据存储检索系统", 《计算机研究与发展》 *
赵春等: "基于部分支持度树的关联规则增量式更新算法", 《清华大学学报(自然科学版》 *

Cited By (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312791A (zh) * 2013-05-24 2013-09-18 上海和伍新材料科技有限公司 物联网异构数据存储方法及系统
CN103312791B (zh) * 2013-05-24 2016-02-24 上海和伍信息技术有限公司 物联网异构数据存储方法及系统
CN104252458B (zh) * 2013-06-25 2018-11-13 博雅网络游戏开发(深圳)有限公司 数据分析方法和装置
CN104252458A (zh) * 2013-06-25 2014-12-31 博雅网络游戏开发(深圳)有限公司 数据分析方法和装置
CN103338261A (zh) * 2013-07-04 2013-10-02 北京泰乐德信息技术有限公司 一种轨道交通监测数据的存储和处理方法及系统
CN103338261B (zh) * 2013-07-04 2016-06-29 北京泰乐德信息技术有限公司 一种轨道交通监测数据的存储和处理方法及系统
CN103544258B (zh) * 2013-10-16 2016-11-30 国家计算机网络与信息安全管理中心 一种大数据多区间查询条件下的基数估计方法及装置
CN103544258A (zh) * 2013-10-16 2014-01-29 国家计算机网络与信息安全管理中心 一种大数据多区间查询条件下的基数估计方法及装置
CN103617211A (zh) * 2013-11-20 2014-03-05 浪潮电子信息产业股份有限公司 一种HBase加载数据的导入方法
CN103678716B (zh) * 2013-12-31 2017-01-04 中国科学院深圳先进技术研究院 一种基于格式数据集的分布式数据存储与计算方法
CN104778182A (zh) * 2014-01-14 2015-07-15 博雅网络游戏开发(深圳)有限公司 基于HBase的数据导入方法和系统
CN104199942A (zh) * 2014-09-09 2014-12-10 中国科学技术大学 一种Hadoop平台时序数据增量计算方法及系统
CN104199942B (zh) * 2014-09-09 2017-11-07 中国科学技术大学 一种Hadoop平台时序数据增量计算方法及系统
CN105608076A (zh) * 2014-10-09 2016-05-25 华院数据技术(上海)有限公司 一种用于检测医疗报销中异常性诊断项目的系统和方法
CN104363150A (zh) * 2014-10-20 2015-02-18 谢飞 一种类文件系统的物联网设备访问系统及其方法
CN104363150B (zh) * 2014-10-20 2018-08-10 谢飞 一种类文件系统的物联网设备访问系统及其方法
CN104317877A (zh) * 2014-10-21 2015-01-28 上海交通大学 一种基于分布式计算的网络用户行为数据实时处理方法
CN104391910A (zh) * 2014-11-17 2015-03-04 西安交通大学 一种基于HBase的税收统计报表存储与计算的方法
CN104537003A (zh) * 2014-12-16 2015-04-22 北京中交兴路车联网科技有限公司 一种Hbase数据库的通用高性能数据写入方法
CN104516955A (zh) * 2014-12-16 2015-04-15 北京中交兴路车联网科技有限公司 一种海量车机轨迹数据的存储方法
CN104537003B (zh) * 2014-12-16 2018-01-09 北京中交兴路车联网科技有限公司 一种Hbase数据库的通用高性能数据写入方法
CN107408114A (zh) * 2014-12-22 2017-11-28 亚马逊技术有限公司 基于事务访问模式识别联结关系
US10685042B2 (en) 2014-12-22 2020-06-16 Amazon Technologies, Inc. Identifying join relationships based on transactional access patterns
US10831759B2 (en) 2014-12-22 2020-11-10 Amazon Technologies, Inc. Efficient determination of join paths via cardinality estimation
CN107408114B (zh) * 2014-12-22 2021-06-22 亚马逊技术有限公司 基于事务访问模式识别联结关系
CN104754036A (zh) * 2015-03-06 2015-07-01 合一信息技术(北京)有限公司 一种基于kafka的消息处理系统及处理方法
CN104699985A (zh) * 2015-03-26 2015-06-10 西安电子科技大学 一种医疗大数据采集分析系统及方法
CN106294349A (zh) * 2015-05-13 2017-01-04 中国核工业第五建设有限公司 基于结构化和定制化的工程管理查询系统
CN104933119A (zh) * 2015-06-05 2015-09-23 福建富士通信息软件有限公司 一种大数据管理方法
US10037355B2 (en) 2015-07-07 2018-07-31 Futurewei Technologies, Inc. Mechanisms for merging index structures in MOLAP while preserving query consistency
WO2017005192A1 (en) * 2015-07-07 2017-01-12 Huawei Technologies Co., Ltd. Mechanisms for merging index structures in molap while preserving query consistency
CN106469175A (zh) * 2015-08-20 2017-03-01 互联网域名系统北京市工程研究中心有限公司 数据处理方法及装置
CN105243277A (zh) * 2015-10-10 2016-01-13 平凡 一种计算机辅助医疗数据处理系统及方法
CN106775435A (zh) * 2015-11-24 2017-05-31 腾讯科技(深圳)有限公司 一种存储系统中的数据处理方法、装置和系统
CN106775435B (zh) * 2015-11-24 2019-07-19 腾讯科技(深圳)有限公司 一种存储系统中的数据处理方法、装置和系统
CN105512470A (zh) * 2015-12-01 2016-04-20 苏州登顶医疗科技有限公司 一种基于Hadoop平台的灌肠仪数据处理系统
CN106933882B (zh) * 2015-12-31 2020-09-29 华为技术有限公司 一种大数据增量计算方法和装置
WO2017113865A1 (zh) * 2015-12-31 2017-07-06 华为技术有限公司 一种大数据增量计算方法和装置
CN106933882A (zh) * 2015-12-31 2017-07-07 华为技术有限公司 一种大数据增量计算方法和装置
CN105893543A (zh) * 2016-03-31 2016-08-24 微梦创科网络科技(中国)有限公司 数据缓冲服务方法及系统
CN105893543B (zh) * 2016-03-31 2019-09-24 微梦创科网络科技(中国)有限公司 数据缓冲服务方法及系统
CN108153771A (zh) * 2016-12-05 2018-06-12 天脉聚源(北京)科技有限公司 一种提高大数据队列处理效率的方法和系统
CN107679172A (zh) * 2017-09-29 2018-02-09 北京奇艺世纪科技有限公司 一种数据的查询统计方法及装置
CN107657991A (zh) * 2017-11-13 2018-02-02 医渡云(北京)技术有限公司 患者数据筛选方法及装置、存储介质、电子设备
CN108053863A (zh) * 2017-12-22 2018-05-18 中国人民解放军第三军医大学第附属医院 适合大小文件的海量医疗数据存储系统及数据存储方法
CN108053863B (zh) * 2017-12-22 2020-09-11 中国人民解放军第三军医大学第一附属医院 适合大小文件的海量医疗数据存储系统及数据存储方法
CN108172299A (zh) * 2017-12-25 2018-06-15 华中科技大学同济医学院附属协和医院 一种医疗数据远端计算系统及方法
CN108172299B (zh) * 2017-12-25 2021-04-27 华中科技大学同济医学院附属协和医院 一种医疗数据远端计算系统及方法
CN108563781A (zh) * 2018-04-25 2018-09-21 广州绿源信息科技有限公司 基于Hadoop的物联网大数据处理方法及系统
CN108806773A (zh) * 2018-05-21 2018-11-13 上海熙业信息科技有限公司 医学影像云存储平台设计方法
CN109063093A (zh) * 2018-07-27 2018-12-21 重庆工商职业学院 一种物联网数据预处理方法及系统
CN112740195A (zh) * 2018-08-06 2021-04-30 甲骨文国际公司 数据库系统中维护统计的技术
CN109299931A (zh) * 2018-09-13 2019-02-01 百富计算机技术(深圳)有限公司 一种数据统计方法、系统及终端设备
CN109840259A (zh) * 2018-12-29 2019-06-04 北京三快在线科技有限公司 数据查询方法、装置、电子设备及可读存储介质
CN109840259B (zh) * 2018-12-29 2021-07-06 北京三快在线科技有限公司 数据查询方法、装置、电子设备及可读存储介质
CN110008272B (zh) * 2019-04-10 2020-01-31 张绿儿 面向传感器数据的NoSQL数据库评测系统及其构建方法
CN110008272A (zh) * 2019-04-10 2019-07-12 张绿儿 面向传感器数据的NoSQL数据库评测系统及其构建方法
CN110377601A (zh) * 2019-06-27 2019-10-25 河南省交通规划设计研究院股份有限公司 一种基于B树数据结构的MapReduce计算过程优化方法
CN110377601B (zh) * 2019-06-27 2022-04-12 河南省交通规划设计研究院股份有限公司 一种基于B树数据结构的MapReduce计算过程优化方法
CN112835930A (zh) * 2021-03-03 2021-05-25 上海渠杰信息科技有限公司 一种数据库的查询方法及设备
CN113380356A (zh) * 2021-05-10 2021-09-10 广州零端科技有限公司 分支链式溯源的医疗检查数据记录方法、查询方法及装置
CN113380356B (zh) * 2021-05-10 2024-04-16 广州零端科技有限公司 分支链式溯源的医疗检查数据记录方法、查询方法及装置
CN113343134A (zh) * 2021-06-22 2021-09-03 中国标准化研究院 一种行政区划代码动态维护管理方法及系统

Also Published As

Publication number Publication date
CN103049556B (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN103049556B (zh) 一种海量医疗数据的快速统计查询方法
US11816126B2 (en) Large scale unstructured database systems
CN113707297B (zh) 医疗数据的处理方法、装置、设备及存储介质
Shute et al. F1: A distributed SQL database that scales
JP2022534215A (ja) ハイブリッド・インデックス作成方法、システム、プログラム
CN107679192A (zh) 多集群协同数据处理方法、系统、存储介质及设备
CN107766402A (zh) 一种楼盘字典云房源大数据平台
CN111881223B (zh) 数据管理方法、设备、系统及存储介质
CN106716409A (zh) 基于查询需求从行存储数据库自适应地构建和更新列存储数据库的方法和系统
CN108073710B (zh) 基于动态网络图挖掘的Github开源代码库推荐系统
CN103246749A (zh) 面向分布式计算的矩阵数据库系统及其查询方法
CN103631870A (zh) 一种用于大规模分布式数据处理的系统及其方法
Meehan et al. Integrating real-time and batch processing in a polystore
CN110196885A (zh) 一种云化分布式实时数据库系统
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN103646051A (zh) 一种基于列存储的大数据并行处理系统及方法
Liu et al. ETLMR: a highly scalable dimensional ETL framework based on mapreduce
Fotache et al. NoSQL and SQL Databases for Mobile Applications. Case Study: MongoDB versus PostgreSQL.
US20160070754A1 (en) System and method for microblogs data management
CN103678425B (zh) 多系统的集成分析
CN101620600A (zh) 一种海量数据的处理方法
CN113468166B (zh) 元数据处理方法、装置、存储介质及服务器
Martin et al. Multi-temperate logical data warehouse design for large-scale healthcare data
Li et al. Apache shardingsphere: A holistic and pluggable platform for data sharding
Ma et al. Multiple wide tables with vertical scalability in multitenant sensor cloud systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant