CN104111996A - 基于hadoop平台的医保门诊大数据抽取系统及方法 - Google Patents

基于hadoop平台的医保门诊大数据抽取系统及方法 Download PDF

Info

Publication number
CN104111996A
CN104111996A CN201410320881.5A CN201410320881A CN104111996A CN 104111996 A CN104111996 A CN 104111996A CN 201410320881 A CN201410320881 A CN 201410320881A CN 104111996 A CN104111996 A CN 104111996A
Authority
CN
China
Prior art keywords
data
module
analysis
medical insurance
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410320881.5A
Other languages
English (en)
Inventor
孔兰菊
宋婷婷
闫中敏
李庆忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DAREWAY SOFTWARE Co Ltd
Original Assignee
DAREWAY SOFTWARE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DAREWAY SOFTWARE Co Ltd filed Critical DAREWAY SOFTWARE Co Ltd
Priority to CN201410320881.5A priority Critical patent/CN104111996A/zh
Publication of CN104111996A publication Critical patent/CN104111996A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于hadoop平台的医保门诊大数据抽取系统及方法,包括数据采集模块、数据存储模块、数据清洗模块、数据分析处理模块、Hbase分布式数据库以及数据展示模块;数据采集模块与数据存储模块连接,数据存储模块连接经过数据清洗模块与数据查询分析模块连接,所述数据查询分析模块与Hbase分布式数据库和数据展示模块分别连接,本发明有益效果:Hadoop集群可由成百上千的廉价服务器组成,构建在大规模廉价机器上的分布式文件系统集群,使得数据抽取、分析的成本得到很大程度的降低,并且可以对门诊大数据进行并行处理。同时,HDFS的副本存放策略很好的保证了数据的可靠性和安全性。

Description

基于hadoop平台的医保门诊大数据抽取系统及方法
技术领域
本发明涉及一种基于hadoop平台的医疗保险门诊大数据抽取系统及方法。
背景技术
随着医疗信息化的发展以及医疗保险制度在全国范围内的广泛开展,关于医疗保险的数据呈海量增长,而且这些数据往往需要很长的保存期,如参保人员的基本信息可能要保存70至80年,甚至更长,而随着人口的增加,对数据存储空间的需求会越来越大,传统的关系数据库恐怕难以满足存储需求。而且,对这些海量数据进行分析处理,从而获取所蕴含的的有用信息也是十分必要的。而传统的对大规模数据处理大多数使用分布式的高性能计算、网格计算等技术,需要耗费昂贵的计算资源,而且如何把大规模的数据进行有效分割和计算任务的合理分配都需要繁琐的编程才能实现,Hadoop分布式技术的发展正好可以解决以上问题。
Hadoop是Apache开源组织的一个分布式计算框架,可以在大量廉价的硬件设备组成的集群上运行应用程序,构建一个高可靠性和良好扩展性的并行分布式系统。HDFS、MapReduce编程模型和Hbase分布式数据库是其三大核心技术。其中,HBase–Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
由于hadoop分布式技术的强大优势,它也受到了学术界的广泛关注。国内的众多高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、性能优化、系统高可用性和安全性等方面都展开了相关研究,并且发表了多项专利。
在专利【2011104189589】中,基于Hadoop的分布式日志分析系统通过分布式文件系统将格式化的日志数据进行分块,并且利用Map-Reduce程序对日志的内容进行并行解析处理。但由于医保门诊数据比较复杂,一条记录可能有多个属性,所以仅仅通过简单的Map-Reduce处理并不能满足医保门诊大数据处理的需求。
在专利【CN2013103361473】中,基于Hadoop平台的电信运营商海量数据处理方法首先使用Sqoop工具将原始数据抽取到Hadoop本地服务器的HDFS中,然后将源数据转换后装载到Hive的目标表中,最后根据需求编写Hive查询语句或者MapReduce程序对目标表中的数据进行查询分析。但Sqoop工具仅限于Hadoop和关系型数据库中的数据相互转移,不能够对数据进行分析以及过滤,不能够将有价值的医疗数据筛选出来。
发明内容
本发明的目的就是为了解决上述问题,提出了一种基于hadoop平台的医保门诊大数据抽取系统及方法,存储数据时使用hadoop集群,存储容量大,存储扩展性好,安全性高;并且可以对存储的医保门诊数据进行分析,将有价值的数据存储到Hbase分布式数据库中,供用户查询获取或通过工具展现给用户。
为了实现上述目的,本发明采用如下技术方案:
一种基于hadoop平台的医保门诊大数据抽取系统,包括数据采集模块、数据存储模块、数据清洗模块、数据分析处理模块、Hbase分布式数据库以及数据展示模块;
所述数据采集模块用于从业务数据库中抽取数据,并存储到数据存储模块;
所述数据存储模块用于将数据采集模块抽取到的数据以数据块的形式分布式存储到hadoop集群中的各个数据节点中;
所述数据清洗模块用于根据设定的清洗规则,将数据存储模块中错误的或者不一致的“脏数据”过滤掉,并将合格的数据传送至数据查询分析模块;
所述数据查询分析模块使用Hive进行数据仓库建模,并提供用于客户端进行数据查询的SQL解析引擎;经数据查询分析模块分析后的有价值的医保门诊数据存储到Hbase分布式数据库中,供客户端查询;
所述Hbase分布式数据库用于存储数据查询分析模块中的提取出的用于数据展示的医保门诊数据;
所述的数据展示模块用于将所需数据以图形化的形式在客户端进行展示;
所述数据采集模块与数据存储模块连接,数据存储模块连接经过数据清洗模块与数据查询分析模块连接,所述数据查询分析模块与Hbase分布式数据库和数据展示模块分别连接。
所述数据采集模块使用Cloudera提供的flume日志采集工具进行数据采集。
所述数据分析模块使用Hive进行数据库建模,并与Hbase整合,充当SQL解析引擎,应用程序端能够根据具体业务需求,编写Hive查询语句或者MapReduce程序对数据进行查询分析。
所述数据存储模块为分布式文件系统HDFS。
一种基于hadoop平台的医保门诊大数据抽取方法,包括以下步骤:
1)使用Flume工具采集数据,在hadoop集群中选择至少两个节点分别作为用于从业务数据源上传数据的Agent和用于将Agent传来的数据进行简单处理后存储到数据存储模块的collector;
2)分别配置Agent和Collector的数据源和数据输出;
3)配置成功后,系统自动从Agent传输数据到对应的collector,collector将收集到的数据汇总后以数据块的形式存储到HDFS分布式文件系统中。
4)对存储在HDFS中的数据进行数据清洗,将错误的、缺失的或者重复的数据过滤出来;
5)根据业务需求和数据模型,在Hive数据仓库中进行建模,创建与抽取到的数据对应的事实表和维度表,并将HDFS中的数据文件导入到Hive数据仓库中对应的事实表和维度表里;
6)对数据仓库中的数据进行OLAP分析,并将分析结果中用于展示的数据写入Hbase分布式数据库中;
7)应用程序端或报表系统通过Hbase分布式数据库查询数据并展现。
所述步骤2)中,Flume Agent的数据源为待抽取的医保数据文件,数据输出为对应collector节点的机器名和数据传输的端口号;collector的数据源为用于接收数据的端口号,数据输出为集群中用于存储数据的HDFS目录。
所述步骤5)中,事实表即是数据仓库中用于保存业务数据的表,表的每个字段要与被抽取的业务数据源的字段相对应;维度表是数据仓库中用于描述事实数据表中的数据的表。
所述步骤6)中,根据具体业务需求,在客户端编写HiveQL查询语句或者MapReduce程序对数据仓库中的数据进行OLAP分析,并将分析结果中用于展示的数据以Key-Value的形式写入Hbase分布式数据库中。
所述步骤6)中,对门诊医疗数据进行OLAP分析主要是通过HiveQL查询语句或者编写MapReduce并行程序,对Hive数据仓库中的事实表和维度表做关联进行多维分析,从而统计出各个维度的相关信息,展现给用户。
本发明的有益效果是:
由于Hadoop将海量的数据文件分发到集群中每个数据节点上,而每个节点只需计算处理少部分数据,并且每个节点在进行数据计算分析时是并行处理的,这大大的提高了处理数据的速率。
Hadoop集群可由成百上千的服务器组成,构建在大规模廉价机器上的分布式文件系统集群,数据存储管理的成本得到很大程度的降低。而且,HDFS的副本存放策略很好的保证了数据的可靠性和安全性。
本系统使用的数据采集工具flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。它支持在系统中定制各类数据发送方,用于收集数据;同时提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
另外,在存储和查询分析数据时,将Hbase和Hive整合,既可以充分利用Hbase分布式存储数据的好处,又可以让Hive充当SQL解析引擎,将SQL语句转译成M/RJOB在Hadoop执行,充分利用hadoop集群的并行资源,提高效率。
最后,基于Hadoop的分布式集群架构还可以用于处理其他海量数据上去,使本系统具有良好的扩展性。
附图说明
图1为本发明的基于Hadoop平台的医保门诊大数据抽取系统的整体架构图;
图2为本发明的基于Hadoop平台的医保门诊大数据抽取系统的流程图;
图3为本发明的实施例中搭建的Hadoop集群部署图。
具体实施方式:
下面结合附图与实施例对本发明做进一步说明:
其中,OLAP(On-Line Analysis Processing)为联机分析处理;
HiveQL是一种类似SQL的语言,它与大部分的SQL语法兼容;
MapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。
一种基于Hadoop的医保门诊大数据抽取系统,如图1所示,由数据采集模块,数据存储模块,数据分析处理模块以及数据展示模块四部分组成。
所述的数据抽取模块,主要负责从业务数据源抽取医保相关数据到HDFS中,它使用Cloudera提供的flume日志采集工具,其中,Flume agent用于从数据源上传数据,Flumecollector用于将多个agent上传的数据汇总存储在HDFS分布式文件系统中。
所述的数据存储模块,主要负责存储数据,抽取的数据以数据块的形式分布式存储到集群中各个数据节点中,由名称节点统一管理;另外,经分析处理后,有价值的数据将被存储在Hbase分布式数据库中,供用户查询。
所述的数据清洗模块,主要负责将抽取到的数据根据一定的清洗规则,将错误的或者不一致的“脏数据”过滤掉,便于写入数据仓库。
所述的数据分析处理模块,主要负责数据仓库建模以及查询分析数据以提取有价值的数据,本系统使用Hive进行数据仓库建模,并与Hbase整合,充当SQL解析器,应用程序端可根据具体业务需求,编写Hive查询语句或MapReduce程序对数据进行查询分析。
所述的数据展示模块,主要负责与用户进行交互,利用BIRT等开源报表系统,将存储在Hbase中的数据以图形化的形式展现给用户。
基于hadoop的医保大数据抽取系统的方法,如图2所示,它包括以下步骤:
步骤101,为集群中各个节点分配在数据采集过程中所承担的角色,将集群中至少一个节点配置为Flume Agent,至少一个节点为Flume collector。
步骤102,配置Agent的数据源source为待抽取的医保门诊数据文件,sink为对应collector节点机器名和数据传输的端口号。配置Flume collector的source为接收数据的端口号,sink为数据存储的HDFS目录。
步骤103,配置成功后,系统自动从Agent传输数据到对应的collector。collector将收集到的数据汇总后以数据块的形式存储到HDFS分布式文件系统中。
步骤104,数据写入数据仓库之前,编写MapReduce程序对存储在HDFS中的数据进行数据清洗,将错误的、缺失的或者不一致的数据过滤出来。
步骤105,根据业务需求和数据模型,在Hive数据仓库中进行建模,创建和HDFS中数据对应的事实表和维度表,如医保人员基本信息表(PersonFact Table)、人员性别维度表、教育程度维度表等。
步骤106,使用Load命令将HDFS中的数据文件导入到Hive对应的事实表里。
步骤107,根据具体业务需求,编写Hive查询语句或者MapReduce程序对事实表中的数据进行查询分析,提取有用的信息。在执行Hive查询语句时,Hive自动调用了Hadoop的Map/Reduce来进行并行计算,充分体现了集群的优势。
步骤108,将步骤106查询分析结果中有价值的数据以key-value的形式存储到Hbase分布式数据库中。
步骤109,使用开源的报表系统如BIRT通过Hbase查询数据并以图形化的界面展现给用户。
在实施过程中,至少需要4台服务器来搭建hadoop集群,如图3所示。其中一台作为中心服务器(Master),有名称空间节点NameNode和分配任务的功能;一台作为SecondaryMaster,其上部署SecondaryNameNode,用于NameNode的备份和故障恢复;其他几台机器为从属服务器(Slaves),有数据节点和执行任务的功能。另外,在Master上还需要部署flume-master,hive-master,hbase-master,zookeeper-server等服务,用于管理协调相关工具的使用过程。在其他节点上部署flume-node,hbase-regionServer和zookeeper-server,分别用于数据采集,对Client端插入,删除,查询数据等提供服务,以及对系统中各种服务进行协调与配置等。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种基于hadoop平台的医保门诊大数据抽取系统,其特征是,包括数据采集模块、数据存储模块、数据清洗模块、数据分析处理模块、Hbase分布式数据库以及数据展示模块;
所述数据采集模块用于从业务数据库中抽取数据,并存储到数据存储模块;
所述数据存储模块用于将数据采集模块抽取到的数据以数据块的形式分布式存储到hadoop集群中的各个数据节点中;
所述数据清洗模块用于根据设定的清洗规则,将数据存储模块中错误的或者不一致的“脏数据”过滤掉,并将合格的数据传送至数据查询分析模块;
所述数据查询分析模块使用Hive进行数据仓库建模,并提供用于客户端进行数据查询的SQL解析引擎;经数据查询分析模块分析后的有价值的医保门诊数据存储到Hbase分布式数据库中,供客户端查询;
所述Hbase分布式数据库用于存储数据查询分析模块中的提取出的用于数据展示的医保门诊数据;
所述的数据展示模块用于将所需数据以图形化的形式在客户端进行展示;
所述数据采集模块与数据存储模块连接,数据存储模块连接经过数据清洗模块与数据查询分析模块连接,所述数据查询分析模块与Hbase分布式数据库和数据展示模块分别连接。
2.如权利要求1所述的一种基于hadoop平台的医保门诊大数据抽取系统,其特征是,所述数据采集模块使用Cloudera提供的flume日志采集工具进行数据采集。
3.如权利要求1所述的一种基于hadoop平台的医保门诊大数据抽取系统,其特征是,所述数据分析模块使用Hive进行数据库建模,并与Hbase整合,充当SQL解析引擎,应用程序端能够根据具体业务需求,编写Hive查询语句或者MapReduce程序对数据进行查询分析。
4.如权利要求1所述的基于hadoop平台的医保门诊大数据抽取系统,其特征是,所述数据存储模块为分布式文件系统HDFS。
5.一种如权利要求1所述的基于hadoop平台的医保门诊大数据抽取方法,其特征是,包括以下步骤:
1)使用Flume工具采集数据,在hadoop集群中选择至少两个节点分别作为用于从业务数据源上传数据的Agent和用于将Agent传来的数据进行简单处理后存储到数据存储模块的collector;
2)分别配置Agent和Collector的数据源和数据输出;
3)配置成功后,系统自动从Agent传输数据到对应的collector,collector将收集到的数据汇总后以数据块的形式存储到HDFS分布式文件系统中。
4)对存储在HDFS中的数据进行数据清洗,将错误的、缺失的或者重复的数据过滤出来;
5)根据业务需求和数据模型,在Hive数据仓库中进行建模,创建与抽取到的数据对应的事实表和维度表,并将HDFS中的数据文件导入到Hive数据仓库中对应的事实表和维度表里;
6)对数据仓库中的数据进行OLAP分析,并将分析结果中用于展示的数据写入Hbase分布式数据库中;
7)应用程序端或报表系统通过Hbase分布式数据库查询数据并展现。
6.如权利要求5所述的一种基于hadoop平台的医保门诊大数据抽取方法,其特征是,所述步骤2)中,Flume Agent的数据源为待抽取的医保数据文件,数据输出为对应collector节点的机器名和数据传输的端口号;collector的数据源为用于接收数据的端口号,数据输出为集群中用于存储数据的HDFS目录。
7.如权利要求5所述的一种基于hadoop平台的医保门诊大数据抽取方法,其特征是,所述步骤5)中,事实表即是数据仓库中用于保存业务数据的表,表的每个字段要与被抽取的业务数据源的字段相对应;维度表是数据仓库中用于描述事实数据表中的数据的表。
8.如权利要求5所述的一种基于hadoop平台的医保门诊大数据抽取方法,其特征是,所述步骤6)中,根据具体业务需求,在客户端编写HiveQL查询语句或者MapReduce程序对数据仓库中的数据进行OLAP分析,并将分析结果中用于展示的数据以Key-Value的形式写入Hbase分布式数据库中。
9.如权利要求5所述的一种基于hadoop平台的医保门诊大数据抽取方法,其特征是,所述步骤6)中,对门诊医疗数据进行OLAP分析主要是通过HiveQL查询语句或者编写MapReduce并行程序,对Hive数据仓库中的事实表和维度表做关联进行多维分析,从而统计出各个维度的相关信息,展现给用户。
CN201410320881.5A 2014-07-07 2014-07-07 基于hadoop平台的医保门诊大数据抽取系统及方法 Pending CN104111996A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410320881.5A CN104111996A (zh) 2014-07-07 2014-07-07 基于hadoop平台的医保门诊大数据抽取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410320881.5A CN104111996A (zh) 2014-07-07 2014-07-07 基于hadoop平台的医保门诊大数据抽取系统及方法

Publications (1)

Publication Number Publication Date
CN104111996A true CN104111996A (zh) 2014-10-22

Family

ID=51708787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410320881.5A Pending CN104111996A (zh) 2014-07-07 2014-07-07 基于hadoop平台的医保门诊大数据抽取系统及方法

Country Status (1)

Country Link
CN (1) CN104111996A (zh)

Cited By (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408167A (zh) * 2014-12-09 2015-03-11 浪潮电子信息产业股份有限公司 一种基于django扩展Hue中sqoop功能的方法
CN104657476A (zh) * 2015-02-16 2015-05-27 百度在线网络技术(北京)有限公司 联机分析处理的方法及系统
CN104699985A (zh) * 2015-03-26 2015-06-10 西安电子科技大学 一种医疗大数据采集分析系统及方法
CN105005549A (zh) * 2015-07-31 2015-10-28 山东蚁巡网络科技有限公司 一种自定义链式日志解析装置及方法
CN105117587A (zh) * 2015-08-04 2015-12-02 杭州健港信息科技有限公司 医保领域中基于医疗大数据的智能分析方法
CN105243285A (zh) * 2015-11-10 2016-01-13 广州西麦科技股份有限公司 一种大数据健康预测系统
CN105243277A (zh) * 2015-10-10 2016-01-13 平凡 一种计算机辅助医疗数据处理系统及方法
CN105512470A (zh) * 2015-12-01 2016-04-20 苏州登顶医疗科技有限公司 一种基于Hadoop平台的灌肠仪数据处理系统
CN105512167A (zh) * 2015-10-30 2016-04-20 广东广信通信服务有限公司 一种基于混合数据库的多业务用户数据管理系统及其方法
CN105511968A (zh) * 2015-12-31 2016-04-20 北京奇艺世纪科技有限公司 一种资源调度管理系统
CN105516355A (zh) * 2016-01-13 2016-04-20 国家电网公司 基于喷泉码的智能电能表误差大数据安全存储装置及方法
CN105634845A (zh) * 2014-10-30 2016-06-01 任子行网络技术股份有限公司 一种用于对海量dns日志进行多维统计分析的方法及系统
CN105677842A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 基于Hadoop大数据处理技术的日志分析系统
CN105956017A (zh) * 2016-04-21 2016-09-21 成都数联铭品科技有限公司 一种海量关联数据处理系统
WO2016165378A1 (zh) * 2015-04-16 2016-10-20 国网新源张家口风光储示范电站有限公司 一种储能电站海量数据清洗方法及系统
CN106156522A (zh) * 2016-07-28 2016-11-23 安徽易联众信息技术有限公司 社保就诊信息管理方法
CN106227896A (zh) * 2016-08-28 2016-12-14 杭州合众数据技术有限公司 一种大数据可视化分析方法
CN106250556A (zh) * 2016-08-17 2016-12-21 贵州数据宝网络科技有限公司 用于大数据分析的数据挖掘方法
CN106293949A (zh) * 2016-08-19 2017-01-04 浪潮电子信息产业股份有限公司 一种计算环境下基于基线分析的资源调度策略
CN106331085A (zh) * 2016-08-22 2017-01-11 成都天地网络科技有限公司 基于运营的大数据处理系统
CN106354769A (zh) * 2016-08-22 2017-01-25 成都天地网络科技有限公司 大数据清洗处理系统
CN106570153A (zh) * 2016-10-28 2017-04-19 上海斐讯数据通信技术有限公司 一种海量url的数据提取方法及系统
CN106708647A (zh) * 2016-12-30 2017-05-24 浙江工商大学 大数据环境下的分布式跨维度异常数据检测方法
CN106845064A (zh) * 2016-11-25 2017-06-13 张金柱 大数据及用于医疗健康大数据的传输、提取方法及系统
CN106897362A (zh) * 2017-01-11 2017-06-27 中国建设银行股份有限公司 用于数据存储、查询的方法及系统
CN106933622A (zh) * 2017-02-21 2017-07-07 清华大学 云环境中模型驱动的Hadoop部署方法
CN106934023A (zh) * 2017-03-13 2017-07-07 山东浪潮云服务信息科技有限公司 一种数据管理方法及装置
CN107016501A (zh) * 2017-03-28 2017-08-04 浙江力太科技有限公司 一种高效的工业大数据多维分析方法
CN107169070A (zh) * 2017-05-08 2017-09-15 山大地纬软件股份有限公司 一种基于大数据的社保指标仓库的构建系统及其方法
CN107330045A (zh) * 2017-06-28 2017-11-07 携程旅游网络技术(上海)有限公司 机票预订平台的大数据可视化分析方法及系统
CN107657046A (zh) * 2017-09-30 2018-02-02 广东美的制冷设备有限公司 空调器bi报表系统、空调器bi报表的生成方法和存储介质
CN107679097A (zh) * 2017-09-08 2018-02-09 广州汉邮通信有限公司 一种分布式数据处理方法、系统和存储介质
CN108090209A (zh) * 2017-12-29 2018-05-29 河南电力医院 基于大数据并行处理的健康决策系统
CN108108423A (zh) * 2017-12-15 2018-06-01 吉旗(成都)科技有限公司 一种流式处理物联网数据的方法
CN108121778A (zh) * 2017-12-14 2018-06-05 浙江航天恒嘉数据科技有限公司 一种异构数据交换与清洗系统及方法
CN108153747A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种并行数据清洗系统
CN108170826A (zh) * 2018-01-08 2018-06-15 北京国信宏数科技有限责任公司 一种基于互联网大数据的宏观经济分析方法及系统
CN108256013A (zh) * 2018-01-05 2018-07-06 佛山市顺德区碧桂园物业发展有限公司 基于大数据挖掘技术的投资测算方法
CN108563666A (zh) * 2018-01-05 2018-09-21 成都兴政电子政务运营服务有限公司 一种基于大数据技术的数据可视化处理系统及方法
CN108596770A (zh) * 2017-12-29 2018-09-28 山大地纬软件股份有限公司 基于离群值分析的医疗保险欺诈检测装置及方法
CN108664657A (zh) * 2018-05-20 2018-10-16 湖北九州云仓科技发展有限公司 一种大数据任务调度方法、电子设备、存储介质及平台
CN108763562A (zh) * 2018-06-04 2018-11-06 广东京信软件科技有限公司 一种基于大数据技术提升数据交换效率的构建方法
CN109002440A (zh) * 2017-06-06 2018-12-14 北京京东尚科信息技术有限公司 用于大数据多维分析的方法、装置及系统
CN109241107A (zh) * 2018-08-03 2019-01-18 北京邮电大学 基于Hadoop的大数据治理装置
CN109271432A (zh) * 2018-08-21 2019-01-25 中国平安人寿保险股份有限公司 报表数据的处理方法、装置、计算机设备和存储介质
CN109408567A (zh) * 2018-09-11 2019-03-01 广东布田电子商务有限公司 一种大数据处理平台网络架构
CN109509557A (zh) * 2018-11-16 2019-03-22 郑州大学第附属医院 一种基于大数据平台的中文电子病历信息抽取预处理方法
CN109726174A (zh) * 2018-12-28 2019-05-07 江苏满运软件科技有限公司 数据归档方法、系统、设备以及存储介质
CN109739921A (zh) * 2019-01-07 2019-05-10 北京云基数技术有限公司 一种大数据采集系统和方法
CN109766368A (zh) * 2018-11-14 2019-05-17 国云科技股份有限公司 一种基于Hive的数据查询多类型视图产出系统及方法
CN109933484A (zh) * 2017-12-15 2019-06-25 北京京东尚科信息技术有限公司 大数据集群准实时container资源分配监控分析方法
CN110019044A (zh) * 2017-12-15 2019-07-16 北京京东尚科信息技术有限公司 大数据集群准实时Yarn任务监控分析方法
CN110032587A (zh) * 2019-04-17 2019-07-19 上海圣剑网络科技股份有限公司 数据汇总方法、装置、计算机设备和存储介质
CN110334088A (zh) * 2019-07-11 2019-10-15 江苏曲速教育科技有限公司 教育数据管理系统
CN110457402A (zh) * 2019-07-15 2019-11-15 北京市天元网络技术股份有限公司 一种基于hadoop框架模型的数据重构方法以及装置
CN110737648A (zh) * 2019-09-17 2020-01-31 平安科技(深圳)有限公司 性能特征降维方法及装置、电子设备及存储介质
CN111026814A (zh) * 2019-11-12 2020-04-17 上海麦克风文化传媒有限公司 一种低成本数据存储方法
CN111126852A (zh) * 2019-12-25 2020-05-08 江苏三六五网络股份有限公司 一种基于大数据建模的bi应用系统
CN111209270A (zh) * 2019-12-24 2020-05-29 曙光信息产业(北京)有限公司 一种基于MapReduce技术的集群监控原始数据抽样计算和存储方法
CN111768850A (zh) * 2020-06-05 2020-10-13 上海森亿医疗科技有限公司 医院数据分析方法、医院数据分析平台、设备和介质
CN111935215A (zh) * 2020-06-29 2020-11-13 广东科徕尼智能科技有限公司 物联网数据管理方法、终端、系统以及存储装置
CN112131209A (zh) * 2020-09-04 2020-12-25 苏州浪潮智能科技有限公司 一种基于Hive的Flume数据校验统计方法和装置
CN112380221A (zh) * 2020-11-20 2021-02-19 上海新炬网络信息技术股份有限公司 一种hadoop采集系统的运行方法
CN112685385A (zh) * 2020-12-31 2021-04-20 广西中科曙光云计算有限公司 一种用于智慧城市建设的大数据平台
CN112685364A (zh) * 2020-12-24 2021-04-20 北京浪潮数据技术有限公司 Flume元数据信息分析提取方法及相关组件
CN112786215A (zh) * 2021-01-25 2021-05-11 山东众阳健康科技集团有限公司 基于大数据聚类生成dip综合病种目录的方法及系统
CN112835895A (zh) * 2021-01-27 2021-05-25 世纪龙信息网络有限责任公司 一种数据存储系统及其存储方法
CN113297276A (zh) * 2021-06-17 2021-08-24 长春市吉佳通达信息技术有限责任公司 一种基于生产线结构的数据处理方法和系统
WO2022133981A1 (zh) * 2020-12-25 2022-06-30 京东方科技集团股份有限公司 数据处理方法、平台、计算机可读存储介质及电子设备
CN116759099A (zh) * 2023-08-21 2023-09-15 潍坊医学院 一种医保基金审核系统数据处理方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130174048A1 (en) * 2011-12-29 2013-07-04 Yu Xu Techniques for guided access to an external distributed file system from a database management system
CN103309867A (zh) * 2012-03-09 2013-09-18 句容智恒安全设备有限公司 基于Hadoop平台的Web数据挖掘系统
CN103345698A (zh) * 2013-07-09 2013-10-09 焦点科技股份有限公司 电子商务环境下基于云计算处理模式的个性化推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130174048A1 (en) * 2011-12-29 2013-07-04 Yu Xu Techniques for guided access to an external distributed file system from a database management system
CN103309867A (zh) * 2012-03-09 2013-09-18 句容智恒安全设备有限公司 基于Hadoop平台的Web数据挖掘系统
CN103345698A (zh) * 2013-07-09 2013-10-09 焦点科技股份有限公司 电子商务环境下基于云计算处理模式的个性化推荐方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘智慧 等: "大数据技术研究综述", 《浙江大学学报(工学版)》 *
北京寰信通科技有限公司: "《SYBASE IQ红宝书》", 31 January 2008 *
高汉松 等: "基于云计算的医疗大数据挖掘平台", 《医学信息学杂志》 *
鲍亮 等: "《实战大数据》", 31 March 2014 *

Cited By (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105634845B (zh) * 2014-10-30 2019-01-22 任子行网络技术股份有限公司 一种用于对海量dns日志进行多维统计分析的方法及系统
CN105634845A (zh) * 2014-10-30 2016-06-01 任子行网络技术股份有限公司 一种用于对海量dns日志进行多维统计分析的方法及系统
CN104408167A (zh) * 2014-12-09 2015-03-11 浪潮电子信息产业股份有限公司 一种基于django扩展Hue中sqoop功能的方法
CN104657476A (zh) * 2015-02-16 2015-05-27 百度在线网络技术(北京)有限公司 联机分析处理的方法及系统
CN104699985A (zh) * 2015-03-26 2015-06-10 西安电子科技大学 一种医疗大数据采集分析系统及方法
WO2016165378A1 (zh) * 2015-04-16 2016-10-20 国网新源张家口风光储示范电站有限公司 一种储能电站海量数据清洗方法及系统
CN105005549A (zh) * 2015-07-31 2015-10-28 山东蚁巡网络科技有限公司 一种自定义链式日志解析装置及方法
CN105117587A (zh) * 2015-08-04 2015-12-02 杭州健港信息科技有限公司 医保领域中基于医疗大数据的智能分析方法
CN105243277A (zh) * 2015-10-10 2016-01-13 平凡 一种计算机辅助医疗数据处理系统及方法
CN105512167B (zh) * 2015-10-30 2018-01-23 广东广信通信服务有限公司 一种基于混合数据库的多业务用户数据管理系统及其方法
CN105512167A (zh) * 2015-10-30 2016-04-20 广东广信通信服务有限公司 一种基于混合数据库的多业务用户数据管理系统及其方法
CN105243285A (zh) * 2015-11-10 2016-01-13 广州西麦科技股份有限公司 一种大数据健康预测系统
CN105512470A (zh) * 2015-12-01 2016-04-20 苏州登顶医疗科技有限公司 一种基于Hadoop平台的灌肠仪数据处理系统
CN105511968A (zh) * 2015-12-31 2016-04-20 北京奇艺世纪科技有限公司 一种资源调度管理系统
CN105677842A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 基于Hadoop大数据处理技术的日志分析系统
CN105516355B (zh) * 2016-01-13 2018-07-17 国家电网公司 基于喷泉码的智能电能表误差大数据安全存储装置及方法
CN105516355A (zh) * 2016-01-13 2016-04-20 国家电网公司 基于喷泉码的智能电能表误差大数据安全存储装置及方法
CN105956017A (zh) * 2016-04-21 2016-09-21 成都数联铭品科技有限公司 一种海量关联数据处理系统
CN106156522B (zh) * 2016-07-28 2018-12-11 安徽易联众信息技术有限公司 社保就诊信息管理方法
CN106156522A (zh) * 2016-07-28 2016-11-23 安徽易联众信息技术有限公司 社保就诊信息管理方法
CN106250556B (zh) * 2016-08-17 2019-06-18 贵州数据宝网络科技有限公司 用于大数据分析的数据挖掘方法
CN106250556A (zh) * 2016-08-17 2016-12-21 贵州数据宝网络科技有限公司 用于大数据分析的数据挖掘方法
CN106293949A (zh) * 2016-08-19 2017-01-04 浪潮电子信息产业股份有限公司 一种计算环境下基于基线分析的资源调度策略
CN106354769A (zh) * 2016-08-22 2017-01-25 成都天地网络科技有限公司 大数据清洗处理系统
CN106331085A (zh) * 2016-08-22 2017-01-11 成都天地网络科技有限公司 基于运营的大数据处理系统
CN106227896A (zh) * 2016-08-28 2016-12-14 杭州合众数据技术有限公司 一种大数据可视化分析方法
CN106570153A (zh) * 2016-10-28 2017-04-19 上海斐讯数据通信技术有限公司 一种海量url的数据提取方法及系统
CN106845064A (zh) * 2016-11-25 2017-06-13 张金柱 大数据及用于医疗健康大数据的传输、提取方法及系统
CN108153747A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种并行数据清洗系统
CN106708647A (zh) * 2016-12-30 2017-05-24 浙江工商大学 大数据环境下的分布式跨维度异常数据检测方法
CN106708647B (zh) * 2016-12-30 2019-11-29 浙江工商大学 大数据环境下的分布式跨维度异常数据检测方法
CN106897362A (zh) * 2017-01-11 2017-06-27 中国建设银行股份有限公司 用于数据存储、查询的方法及系统
CN106933622A (zh) * 2017-02-21 2017-07-07 清华大学 云环境中模型驱动的Hadoop部署方法
CN106934023A (zh) * 2017-03-13 2017-07-07 山东浪潮云服务信息科技有限公司 一种数据管理方法及装置
CN107016501A (zh) * 2017-03-28 2017-08-04 浙江力太科技有限公司 一种高效的工业大数据多维分析方法
CN107169070A (zh) * 2017-05-08 2017-09-15 山大地纬软件股份有限公司 一种基于大数据的社保指标仓库的构建系统及其方法
CN109002440A (zh) * 2017-06-06 2018-12-14 北京京东尚科信息技术有限公司 用于大数据多维分析的方法、装置及系统
CN107330045A (zh) * 2017-06-28 2017-11-07 携程旅游网络技术(上海)有限公司 机票预订平台的大数据可视化分析方法及系统
CN107679097B (zh) * 2017-09-08 2021-06-18 广州汉邮通信有限公司 一种分布式数据处理方法、系统和存储介质
CN107679097A (zh) * 2017-09-08 2018-02-09 广州汉邮通信有限公司 一种分布式数据处理方法、系统和存储介质
CN107657046A (zh) * 2017-09-30 2018-02-02 广东美的制冷设备有限公司 空调器bi报表系统、空调器bi报表的生成方法和存储介质
CN108121778A (zh) * 2017-12-14 2018-06-05 浙江航天恒嘉数据科技有限公司 一种异构数据交换与清洗系统及方法
CN110019044A (zh) * 2017-12-15 2019-07-16 北京京东尚科信息技术有限公司 大数据集群准实时Yarn任务监控分析方法
CN108108423A (zh) * 2017-12-15 2018-06-01 吉旗(成都)科技有限公司 一种流式处理物联网数据的方法
CN109933484A (zh) * 2017-12-15 2019-06-25 北京京东尚科信息技术有限公司 大数据集群准实时container资源分配监控分析方法
CN108596770A (zh) * 2017-12-29 2018-09-28 山大地纬软件股份有限公司 基于离群值分析的医疗保险欺诈检测装置及方法
CN108090209A (zh) * 2017-12-29 2018-05-29 河南电力医院 基于大数据并行处理的健康决策系统
CN108596770B (zh) * 2017-12-29 2022-04-01 山大地纬软件股份有限公司 基于离群值分析的医疗保险欺诈检测装置及方法
CN108563666A (zh) * 2018-01-05 2018-09-21 成都兴政电子政务运营服务有限公司 一种基于大数据技术的数据可视化处理系统及方法
CN108256013A (zh) * 2018-01-05 2018-07-06 佛山市顺德区碧桂园物业发展有限公司 基于大数据挖掘技术的投资测算方法
CN108170826A (zh) * 2018-01-08 2018-06-15 北京国信宏数科技有限责任公司 一种基于互联网大数据的宏观经济分析方法及系统
CN108664657A (zh) * 2018-05-20 2018-10-16 湖北九州云仓科技发展有限公司 一种大数据任务调度方法、电子设备、存储介质及平台
CN108763562A (zh) * 2018-06-04 2018-11-06 广东京信软件科技有限公司 一种基于大数据技术提升数据交换效率的构建方法
CN109241107A (zh) * 2018-08-03 2019-01-18 北京邮电大学 基于Hadoop的大数据治理装置
CN109271432A (zh) * 2018-08-21 2019-01-25 中国平安人寿保险股份有限公司 报表数据的处理方法、装置、计算机设备和存储介质
CN109408567A (zh) * 2018-09-11 2019-03-01 广东布田电子商务有限公司 一种大数据处理平台网络架构
CN109766368A (zh) * 2018-11-14 2019-05-17 国云科技股份有限公司 一种基于Hive的数据查询多类型视图产出系统及方法
CN109509557A (zh) * 2018-11-16 2019-03-22 郑州大学第附属医院 一种基于大数据平台的中文电子病历信息抽取预处理方法
CN109509557B (zh) * 2018-11-16 2021-07-27 郑州大学第一附属医院 一种基于大数据平台的中文电子病历信息抽取预处理方法
CN109726174A (zh) * 2018-12-28 2019-05-07 江苏满运软件科技有限公司 数据归档方法、系统、设备以及存储介质
CN109739921A (zh) * 2019-01-07 2019-05-10 北京云基数技术有限公司 一种大数据采集系统和方法
CN110032587A (zh) * 2019-04-17 2019-07-19 上海圣剑网络科技股份有限公司 数据汇总方法、装置、计算机设备和存储介质
CN110334088A (zh) * 2019-07-11 2019-10-15 江苏曲速教育科技有限公司 教育数据管理系统
CN110457402A (zh) * 2019-07-15 2019-11-15 北京市天元网络技术股份有限公司 一种基于hadoop框架模型的数据重构方法以及装置
CN110737648A (zh) * 2019-09-17 2020-01-31 平安科技(深圳)有限公司 性能特征降维方法及装置、电子设备及存储介质
CN110737648B (zh) * 2019-09-17 2024-05-07 平安科技(深圳)有限公司 性能特征降维方法及装置、电子设备及存储介质
CN111026814A (zh) * 2019-11-12 2020-04-17 上海麦克风文化传媒有限公司 一种低成本数据存储方法
CN111026814B (zh) * 2019-11-12 2024-04-12 上海麦克风文化传媒有限公司 一种低成本数据存储方法
CN111209270A (zh) * 2019-12-24 2020-05-29 曙光信息产业(北京)有限公司 一种基于MapReduce技术的集群监控原始数据抽样计算和存储方法
CN111126852A (zh) * 2019-12-25 2020-05-08 江苏三六五网络股份有限公司 一种基于大数据建模的bi应用系统
CN111768850B (zh) * 2020-06-05 2021-08-27 上海森亿医疗科技有限公司 医院数据分析方法、医院数据分析平台、设备和介质
CN111768850A (zh) * 2020-06-05 2020-10-13 上海森亿医疗科技有限公司 医院数据分析方法、医院数据分析平台、设备和介质
CN111935215A (zh) * 2020-06-29 2020-11-13 广东科徕尼智能科技有限公司 物联网数据管理方法、终端、系统以及存储装置
CN112131209A (zh) * 2020-09-04 2020-12-25 苏州浪潮智能科技有限公司 一种基于Hive的Flume数据校验统计方法和装置
CN112380221A (zh) * 2020-11-20 2021-02-19 上海新炬网络信息技术股份有限公司 一种hadoop采集系统的运行方法
CN112685364A (zh) * 2020-12-24 2021-04-20 北京浪潮数据技术有限公司 Flume元数据信息分析提取方法及相关组件
WO2022133981A1 (zh) * 2020-12-25 2022-06-30 京东方科技集团股份有限公司 数据处理方法、平台、计算机可读存储介质及电子设备
US11983193B2 (en) 2020-12-25 2024-05-14 Boe Technology Group Co., Ltd. Data processing method, platform, computer-readable storage medium and electronic device
CN112685385A (zh) * 2020-12-31 2021-04-20 广西中科曙光云计算有限公司 一种用于智慧城市建设的大数据平台
CN112786215A (zh) * 2021-01-25 2021-05-11 山东众阳健康科技集团有限公司 基于大数据聚类生成dip综合病种目录的方法及系统
CN112835895A (zh) * 2021-01-27 2021-05-25 世纪龙信息网络有限责任公司 一种数据存储系统及其存储方法
CN113297276A (zh) * 2021-06-17 2021-08-24 长春市吉佳通达信息技术有限责任公司 一种基于生产线结构的数据处理方法和系统
CN116759099A (zh) * 2023-08-21 2023-09-15 潍坊医学院 一种医保基金审核系统数据处理方法、装置及设备

Similar Documents

Publication Publication Date Title
CN104111996A (zh) 基于hadoop平台的医保门诊大数据抽取系统及方法
Jensen et al. Time series management systems: A survey
JP6617117B2 (ja) 半構造データのためのスケーラブルな分析プラットフォーム
Schram et al. MySQL to NoSQL: data modeling challenges in supporting scalability
Padhy Big data processing with Hadoop-MapReduce in cloud systems
CN106611046A (zh) 基于大数据技术的空间数据存储处理中间件框架
CN105138661A (zh) 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法
CN107945086A (zh) 一种应用于智慧城市的大数据资源管理系统
CN106708993A (zh) 基于大数据技术的空间数据存储处理中间件框架实现方法
CN111400326A (zh) 一种智慧城市数据管理系统及其方法
DE202015009875U1 (de) Transparente Entdeckung eines semistrukturierten Datenschemas
CN105512201A (zh) 数据收集和加工方法及装置
CN107247799A (zh) 兼容多种大数据存储的数据处理方法、系统及其建模方法
CN106682213A (zh) 基于Hadoop平台的物联网任务订制方法及系统
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN111221791A (zh) 一种多源异构数据导入数据湖的方法
Mohammed et al. A review of big data environment and its related technologies
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN104363222A (zh) 一种基于Hadoop的网络安全事件分析方法
CN103177094A (zh) 一种物联网数据清洗方法
CN103646051A (zh) 一种基于列存储的大数据并行处理系统及方法
CN106055678A (zh) 一种基于hadoop的全景大数据分布式存储方法
CN111026808A (zh) 一种基于国产环境下的异构数据库同步系统及同步方法
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
Qiao et al. Gobblin: Unifying data ingestion for Hadoop

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141022

RJ01 Rejection of invention patent application after publication