CN106126553B - 一种基于科技资源大数据的存储方法 - Google Patents

一种基于科技资源大数据的存储方法 Download PDF

Info

Publication number
CN106126553B
CN106126553B CN201610429012.5A CN201610429012A CN106126553B CN 106126553 B CN106126553 B CN 106126553B CN 201610429012 A CN201610429012 A CN 201610429012A CN 106126553 B CN106126553 B CN 106126553B
Authority
CN
China
Prior art keywords
data
storage address
piece
user information
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610429012.5A
Other languages
English (en)
Other versions
CN106126553A (zh
Inventor
吴明强
李庆
徐冲
尹政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Science And Technology Large Market Co Ltd
Original Assignee
Xi'an Science And Technology Large Market Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Science And Technology Large Market Co Ltd filed Critical Xi'an Science And Technology Large Market Co Ltd
Priority to CN201610429012.5A priority Critical patent/CN106126553B/zh
Publication of CN106126553A publication Critical patent/CN106126553A/zh
Application granted granted Critical
Publication of CN106126553B publication Critical patent/CN106126553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于科技资源大数据的存储方法,在不增加表结构的情况下,能够存储大量异构数据,并简便快速实现多备份,且能够提高数据查询效率。该存储方法是在系统的存储空间建立Hbase表和mysql表,用mysql表作为Hbase表的索引,并按照用户信息、数据类型将Hbase表划分成不同的存储区域,再依次存储所接收数据包中的每一条数据;其中,分别根据第一条数据和最后一条数据的用户信息、数据类型和随机码生成起始存储地址和终止存储地址,并放入mysql表中;所述起始存储地址和终止存储地址组成该数据包的索引信息。本发明在不增加表结构的情况下,能够存储大量异构数据。

Description

一种基于科技资源大数据的存储方法
技术领域
本发明涉及信息化技术领域,具体涉及一种复杂大数据的存储方法。
背景技术
在当今信息技术时代,每年的信息量成几何增长,各个行业和运营主体出于信息整合的需要,建立了诸多数据库。但这些数据库往往局限于本行业、甚至特定小群体专用,缺乏社会层面各相关部门、供需方之间的交流和沟通,更没有形成社会共享服务体系;国家各类科技计划项目所产生的科学数据,也没能得到有效的管理和利用。这样就导致了各种科技资源及其数据库标准化、规范化、体系化程度低,更新维护不便,相当一部分数据库根本没有标准可循。
针对科技资源的共享,需要建立一种大区域的信息化服务系统,来促进企业及整个社会的科技创新能力。中国专利文献CN104835082A即提出了一种科技资源的信息共享服务系统,该系统的终端设备用于采集科技资源信息,采集后的数据储存在数据库中进行汇集、分类,数据库将信息通过互联网上传至政策法规服务平台、项目申报指导平台、科技成果展示平台、科技人才数据平台等,从而将不同类型、不同主题、不同功能的科技资源汇集,通过互联网提供政策法规查询、企业成果展示、项目申报规范指导等服务。
不过,上述专利文献提出的系统架构在实际操作过程中存在一些技术障碍和问题,这其中最主要的问题就是科技资源数据来源不同,结构不一致,不同应用平台间不可共享数据,数据同步困难,应用平台间数据交换标准不统一等,在采集完成后,需要进行有效、合理的存储,才能便于后期的数据处理,乃至平台服务。
目前,复杂数据的存储方式多为行式存储,若有1000种数据,则需要1000张表,按行存储。该存储方式难以满足大数据存储,需要较高的硬件配置,且维护、使用不便,备份需要的技术手段也很繁复。
发明内容
本发明提出一种基于科技资源大数据的存储方法,在不增加表结构的情况下,能够存储大量异构数据,并简便快速实现多备份,且能够提高数据查询效率。
本发明的技术方案如下:
一种基于科技资源大数据的存储方法,包括以下步骤:
1)在系统的存储空间建立Hbase表和mysql表,用mysql表作为Hbase表的索引,并按照用户信息(例如:A企业的a部门系统)、数据类型将Hbase表划分成不同的存储区域;
2)依次存储所接收数据包中的每一条数据
2.1)从第一条数据中提取用户信息和数据类型,同时获取系统提供的随机码,根据用户信息、数据类型和随机码生成起始存储地址,并将这些信息存储在Hbase表中对应位置,同时将所述起始存储地址放入mysql表中;
2.2)依次从此后的每一条数据中提取用户信息和数据类型,同时获取系统提供的随机码;在Hbase表中已存的第一条数据后依次连续存储各条数据;其中,根据最后一条数据的用户信息、数据类型和随机码生成终止存储地址,同时将所述终止存储地址放入mysql表中;
所述起始存储地址和终止存储地址组成该数据包的索引信息。
在以上方案的基础上,本发明还结合实际进一步作了优化:
在步骤2)中获取随机码的同时,还获取系统提供的当前时间戳;Hbase表中具有对应于时间戳的存储位置;相应的,根据用户信息、数据类型、时间戳和随机码生成所述起始存储地址和终止存储地址。
所述起始存储地址和终止存储地址的格式是:字符串“用户信息+数据类型+时间戳+随机码”。
本发明具有以下技术效果:
1、在不增加表结构的情况下,能够存储大量异构数据。
2、在Hbase列式存储方式下,容易实现多备份。
3、用mysql作为Hbase的配置信息,索引,能够快速数据定位。
4、数据可追溯。
附图说明
图1为本发明中Hbase表和mysql表的联系示意图。
具体实施方式
该基于科技资源大数据的存储方法作为数据服务提供方案的前端,需要在合理的硬件支持下完成大量异构数据的存储,提高系统的数据兼容性和更新能力,以便于在后建立标准企业表,提供数据信息服务,作为行政决策参考。
该基于科技资源大数据的存储方法,包括以下步骤:
1)在系统的存储空间建立Hbase表和mysql表,用mysql表作为Hbase表的索引,并按照用户信息(例如:A企业的a部门系统)、数据类型将Hbase表划分成不同的存储区域;
2)依次存储所接收数据包中的每一条数据
设该数据包共有n条数据:
2.1)从第1条数据中提取用户信息和数据类型,同时获取系统提供的当前时间戳和随机码,根据用户信息、数据类型、时间戳和随机码生成起始存储地址,并将这些信息存储在Hbase表中对应位置,同时将所述起始存储地址放入mysql表中;
2.2)从第2条数据中提取用户信息和数据类型,同时获取系统提供的当前时间戳和随机码,将这些信息存储在Hbase表中第1条数据的下一个存储位置;
……
从第n-1条数据中提取用户信息和数据类型,同时获取系统提供的当前时间戳和随机码,将这些信息存储在Hbase表中第n-2条数据的下一个存储位置;
2.3)从第n条数据中提取用户信息和数据类型,同时获取系统提供的当前时间戳和随机码,将这些信息存储在Hbase表中第n-1条数据的下一个存储位置;并根据用户信息、数据类型、时间戳和随机码生成终止存储地址,将所述终止存储地址放入mysql表中。
起始存储地址和终止存储地址组成该数据包的索引信息。起始存储地址和终止存储地址的格式可完全采用这些信息本身,即存储地址的字符串为用户信息+数据类型+时间戳+随机码。

Claims (2)

1.一种基于科技资源大数据的存储方法,其特征在于,包括以下步骤:
1)在系统的存储空间建立Hbase表和mysql表,用mysql表作为Hbase表的索引,并按照用户信息、数据类型将Hbase表划分成不同的存储区域;
2)依次存储所接收数据包中的每一条数据
2.1)从第一条数据中提取用户信息和数据类型,同时获取系统提供的随机码和当前时间戳,根据用户信息、数据类型、当前时间戳和随机码生成起始存储地址,并将这些信息存储在Hbase表中对应位置,同时将所述起始存储地址放入mysql表中;
2.2)依次从此后的每一条数据中提取用户信息和数据类型,同时获取系统提供的随机码和当前时间戳;在Hbase表中已存的第一条数据后依次连续存储各条数据;其中,根据最后一条数据的用户信息、数据类型、当前时间戳和随机码生成终止存储地址,同时将所述终止存储地址放入mysql表中;
所述起始存储地址和终止存储地址组成该数据包的索引信息。
2.根据权利要求1所述的基于科技资源大数据的存储方法,其特征在于:所述起始存储地址和终止存储地址的格式是:用户信息+数据类型+时间戳+随机码。
CN201610429012.5A 2016-06-16 2016-06-16 一种基于科技资源大数据的存储方法 Active CN106126553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610429012.5A CN106126553B (zh) 2016-06-16 2016-06-16 一种基于科技资源大数据的存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610429012.5A CN106126553B (zh) 2016-06-16 2016-06-16 一种基于科技资源大数据的存储方法

Publications (2)

Publication Number Publication Date
CN106126553A CN106126553A (zh) 2016-11-16
CN106126553B true CN106126553B (zh) 2020-02-14

Family

ID=57469666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610429012.5A Active CN106126553B (zh) 2016-06-16 2016-06-16 一种基于科技资源大数据的存储方法

Country Status (1)

Country Link
CN (1) CN106126553B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111430008A (zh) * 2020-02-25 2020-07-17 广州七乐康药业连锁有限公司 基于云平台下的医疗数据处理方法及医疗数据处理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294710A (zh) * 2012-02-28 2013-09-11 北京新媒传信科技有限公司 一种数据存取方法和装置
CN104317966A (zh) * 2014-11-18 2015-01-28 国家电网公司 一种用于电力大数据快速组合查询的动态索引方法
CN104408041A (zh) * 2014-10-13 2015-03-11 深圳市德传技术有限公司 一种gps数据的保存方法
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN105279281A (zh) * 2015-11-17 2016-01-27 天泽信息产业股份有限公司 一种物联网数据存取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9355109B2 (en) * 2010-06-11 2016-05-31 The Research Foundation For The State University Of New York Multi-tier caching
US8819060B2 (en) * 2010-11-19 2014-08-26 Salesforce.Com, Inc. Virtual objects in an on-demand database environment
US20150317345A1 (en) * 2012-11-27 2015-11-05 Nokia Solutions And Networks Oy Multiple fields parallel query method and corresponding storage organization
CN103793493B (zh) * 2014-01-21 2017-12-29 深圳市元征科技股份有限公司 一种处理车载终端海量数据的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294710A (zh) * 2012-02-28 2013-09-11 北京新媒传信科技有限公司 一种数据存取方法和装置
CN104408041A (zh) * 2014-10-13 2015-03-11 深圳市德传技术有限公司 一种gps数据的保存方法
CN104317966A (zh) * 2014-11-18 2015-01-28 国家电网公司 一种用于电力大数据快速组合查询的动态索引方法
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN105279281A (zh) * 2015-11-17 2016-01-27 天泽信息产业股份有限公司 一种物联网数据存取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Hadoop的在线购物原型系统的设计与实现;孙志佳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120615(第6期);第2章2.3.4节,第3章第3.4节,图3.5 *

Also Published As

Publication number Publication date
CN106126553A (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
CN111176976A (zh) 测试数据的生成方法和装置、存储介质及电子装置
CN102880709B (zh) 数据仓库管理系统和数据仓库管理方法
CN109299157B (zh) 一种分布式大单表的数据导出方法及装置
US11226982B2 (en) Synchronization of offline instances
US8620946B2 (en) Storage and searching of temporal entity information
CN106407360B (zh) 一种数据的处理方法及装置
CN109308296A (zh) 一种业务数据表的生成方法、装置和计算机可读存储介质
US11625412B2 (en) Storing data items and identifying stored data items
CN108319608A (zh) 访问日志存储查询的方法、装置及系统
CN110781184A (zh) 数据表的构建方法、装置、设备及存储介质
CN104216962A (zh) 一种基于HBase的海量网管数据索引设计方法
CN103646051A (zh) 一种基于列存储的大数据并行处理系统及方法
CN106547646B (zh) 一种数据备份及恢复方法、数据备份及恢复装置
CN104834650A (zh) 一种有效查询任务生成方法及系统
CN106055678A (zh) 一种基于hadoop的全景大数据分布式存储方法
CN102654878B (zh) 嵌入式系统中分布式数据库的数据操作方法及板卡
CN102222112A (zh) 资源管理装置和资源管理方法
KR101332270B1 (ko) 유전 정보 관리 장치 및 방법
CN105426417B (zh) 一种快速查找智能手机中地理位置信息的方法
CN106126553B (zh) 一种基于科技资源大数据的存储方法
CN107341198B (zh) 一种基于主题实例的电力海量数据存储和查询方法
CN104714983B (zh) 分布式索引的生成方法及装置
CN105095224A (zh) 一种在移动通信网络中进行olap分析的方法、装置和系统
KR101743731B1 (ko) 분산된 데이터를 통합하여 생성한 온톨로지를 기반으로 쿼리를 처리하는 방법 및 장치
CN111814020A (zh) 一种数据的获取方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant