CN103810277B - 一种面向快速服务的大数据聚合方法 - Google Patents

一种面向快速服务的大数据聚合方法 Download PDF

Info

Publication number
CN103810277B
CN103810277B CN201410051159.6A CN201410051159A CN103810277B CN 103810277 B CN103810277 B CN 103810277B CN 201410051159 A CN201410051159 A CN 201410051159A CN 103810277 B CN103810277 B CN 103810277B
Authority
CN
China
Prior art keywords
service
data
big data
subdata
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410051159.6A
Other languages
English (en)
Other versions
CN103810277A (zh
Inventor
苗再良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Communication Information System Co Ltd
Original Assignee
Inspur Tianyuan Communication Information System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Tianyuan Communication Information System Co Ltd filed Critical Inspur Tianyuan Communication Information System Co Ltd
Priority to CN201410051159.6A priority Critical patent/CN103810277B/zh
Publication of CN103810277A publication Critical patent/CN103810277A/zh
Application granted granted Critical
Publication of CN103810277B publication Critical patent/CN103810277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向快速服务的大数据聚合方法采用包括服务描述子和子数据序列的二维结构化模板,并提出了与该模板匹配的面向服务的大数据快速聚合与传送的方法。本发明可广泛适用于大数据系统中大数据聚合服务、数据切片存储、并行快速传送等方面。采用本发明能够显著地提高服务数据的聚合与传送效率,从而实现面向客户的大数据聚合快速服务。还可将整合好的子数据序列作为面向服务主题的特种结构化数据块,存储到大数据管理系统中,实现大数据存储的结构化,从而提高大数据的管理与访问效率。

Description

一种面向快速服务的大数据聚合方法
技术领域
本发明涉及一种云计算大数据服务技术领域, 具体地说是一种面向快速服务的大数据聚合方法。
背景技术
大数据”已成为业界备受关注的热点,其主要特征是:PB级数据规模、含有半结构化和非结构化数据、 数据处理速度足够快。 大数据保留着海量的原生态的信息细节,是一个蕴含着巨大的市场机会信息金矿,其财富价值随着技术的进步日益显现。然而大数据需要使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果。
大数据技术包括采集、存储管理、索引查找、聚合服务、挖掘增值等方面,目前正处于大力研究和应用发展阶段,大部分技术还不很成熟,特别是在存储管理、聚合服务、挖掘增值方面,迫切需要深入研发一系列新的专门技术和产品,以满足实际应用需求。
为解决当前大数据聚合服务技术问题,本发明提出了一种比较实用的面向快速服务的大数据聚合方法。
发明内容
本发明的目的是提供一种面向快速服务的大数据聚合方法。
本发明的目的是按以下方式实现的,包括一、面向服务的大数据聚合二维结构化模板设计方法;二、基于二维结构化模板的大数据存储与快速传送方法,其中:
一、面向服务的大数据聚合二维结构化模板设计方法,模板包含二部分:总体服务描述子和子数据序列,其中:
(1)服务描述子,包括以下内容:
a)服务编号,是针对某个数据聚合服务需求而指派的流水代号,作为整个服务周期中的统一标识;
b)服务类型,一个表示服务类型的数据字段,由实际使用者定义,按服务对象类别分为1-N级客户;按业务类型分实时、准实时、非实时多种响应级别,服务类型字段描述包含多种分类信息的复合类型;
c)服务目标地址,服务目标对象的网络地址;
d)服务源地址,提供数据聚合服务的IT系统的网络地址;
e)扩展段长度,指此单元后面跟随的扩展字段的总数;
f)扩展段,为增强模板的功能,专门设置了扩展字段,扩展段的多少根据需要设置,每个扩展段的内容根据实际需要灵活约定,包括用第一个扩展段表示该聚合服务的安全加密方式、用最后一个扩展段表示总体描述模块的结束标志;
(2)子数据序列,包括:
a)子数据结构编号,编号组成为“服务描述子中的服务编号+结构化扩展码”, 表示服务数据中某一数据子列或子模块的编号,此处的数据子列,是指大数据中为存储管理和传输方便而将一个数据模块整体分解成具有结构化特性的、相关联的一系列子数据模块,即一个多媒体服务数据模块可分解成语音数据子列、视频数据子列、文本数据子列;
子数据结构编号,携带着子数据在数据块整体中的结构位置、与其他子数据的组装关系;
b)子数据地址,指子数据序列的存储地址,通常是一个网络地址;
c)子数据段,用来装载子数据序列,因子服务数据的大小是变化的,所以此段的长度是可变的;
d)子扩展段长度,指此单元后面跟随的子数据模块中子扩展字段的总数;
e)子扩展段,为增强模板中子数据模块的功能,专门设置了子数据扩展字段,子扩展段的多少可根据需要设置,每个子扩展段的内容可根据实际需要灵活约定;
二、基于二维结构化模板的大数据存储与快速传送,采用下面的方法实现大数据的结构化存储与快速传送;
1)面向服务的大数据结构化存储
在大数据系统中,数据存储管理功能子系统通常对大数据进行分类、分拆处理,将大数据制作成各种类型、较小粒度的数据片或数据段,并建立索引系统;
根据服务需求搜索发现所需要的一系列相关的数据片,并将这些数据片整合成不同的子数据序列,存储在二维结构化模板中;
整合好的子数据序列,作为面向服务主题的特种“结构化数据块”,存储到大数据管理系统中,以便此后遇到类似服务需求时能够直接快速地调用;
2)面向服务的聚合数据快速传送
基于建好大数据聚合二维结构化模板, 采用并行方式向客户快速传送主描述模块、各类子数据模块, 在一次聚合服务中,服务描述子只传送一次,但每个子数据序列因为受到数据包大小的限制或服务数据的变化而需要分为多次传送;
在客户端,根据主描述模块对服务数据结构和属性的说明,将接收到的各个子数据模块组装起来,实现最终需要的聚合数据。
本发明的目的有益效果是:
本发明可广泛适用于大数据系统中大数据聚合服务、数据切片存储、并行快速传送等方面。 由于采用了二维结构化模板,可以快速向模板中并行加载子数据,并能够基于所构建的模板进行大规模并行快速传输,因此能够高倍地提高服务数据的聚合与传送效率,从而实现面向客户的大数据聚合快速服务。
此外,可采用本发明技术,将整合好的子数据序列作为面向服务主题的特种“结构化数据块”,存储到大数据管理系统中,等此后遇到类似服务需求时能够直接快速地调用。
附图说明
图1 是服务描述子构建示意图;
图2是子数据序列构建示意图。
具体实施方式
大数据聚合作为大数据管理与服务的一个重要环节,是在大数据存储管理的基础上实现的,而大数据管理主要是将大数据进行分类存储、建立索引,以便查找使用。
大数据聚合服务的实现,一般先要根据用户的需求在大数据库或存储系统中找到相关的各种数据(如SQL数据、文本、图片、音视频等),再将这些数据按照用户可识别的格式进行汇聚合成,然后通过网络把聚合好的数据发送给应用客户。
本发明设计了一种用于大数据快速聚合的二维结构化模板,并提出了与该模板匹配的面向服务的大数据快速聚合与传送的方法。
表1.
详细方案和工作原理如下所述,
一、大数据聚合二维结构化模板,包含二部分:总体服务描述子和子数据序列。
(1)服务描述子
如表1.所示的.中模板的第一行构成, 其中每个单元字段的长度(在一个具体系统中)是固定的。各单元详细说明如下:
1)服务编号
是针对某个数据聚合服务需求而指派的流水代号,作为整个服务周期中的统一标识;
2)服务类型
一个表示服务类型的数据字段,可由实际使用者定义。譬如按服务对象类别可分为1-N级客户;按业务类型可分实时、准实时、非实时等多种响应级别,等等。服务类型字段可描述包含多种分类信息的复合类型;
3)服务目标地址
服务目标对象的网络地址;
4)服务源地址
提供数据聚合服务的IT系统的网络地址;
5)扩展段长度
指此单元后面跟随的扩展字段的总数;
6)扩展段
为增强模板的功能,专门设置了扩展字段,扩展段的多少可根据需要设置。每个扩展段的内容可根据实际需要灵活约定,例如可用第一个扩展段表示该聚合服务的安全加密方式、用最后一个扩展段表示总体描述模块的结束标志;
(2)子数据序列
由表1.中模板的第二行及后面各行组成。其中子数据段的长度是可变的,其他字段长度是固定的。各单元详细说明如下:
1)子数据结构编号
编号组成为“服务描述子中的服务编号+结构化扩展码”, 表示服务数据中某一数据子列(或子模块)的编号。此处的数据子列,是指大数据中为存储管理和传输方便而将一个数据模块(整体)分解成具有结构化特性的、相关联的一系列子数据模块。如一个多媒体服务数据模块可分解成语音数据子列、视频数据子列、文本数据子列等;
子数据结构编号,携带着子数据在数据块整体中的结构位置、与其他子数据的组装关系;
2)子数据地址
指子数据序列的存储地址,通常是一个网络地址;
3)子数据段
用来装载子数据序列。因子服务数据的大小是变化的,所以此段的长度是可变的;
4)子扩展段长度
指此单元后面跟随的子数据模块中子扩展字段的总数;
5)子扩展段
为增强模板中子数据模块的功能,专门设置了子数据扩展字段,子扩展段的多少可根据需要设置。每个子扩展段的内容可根据实际需要灵活约定。
二、基于二维结构化模板的大数据存储与快速传送
基于上述第1.条中的二维结构化模板,可采用下面的方法实现大数据的结构化存储与快速传送。
(1)面向服务的大数据结构化存储
在大数据系统中,数据存储管理功能子系统通常对大数据进行分类、分拆处理,将大数据制作成各种类型、较小粒度的数据片或数据段,并建立索引系统。
本发明就是在此基础上,根据服务需求搜索发现所需要的一系列相关的数据片,并将这些数据片整合成不同的子数据序列,装在到上述第1条构造的模板中。
这些整合好的子数据序列,可以作为面向服务主题的特种“结构化数据块”,存储到大数据管理系统中,以便此后遇到类似服务需求时能够直接快速地调用。
(2)面向服务的聚合数据快速传送
基于建好大数据聚合二维结构化模板, 可采用并行方式向客户快速传送主描述模块、各类子数据模块 。 在一次聚合服务中,服务描述子一般只传送一次,但每个子数据序列因为受到数据包大小的限制或服务数据的变化而需要分为多次传送。
在客户端,根据主描述模块对服务数据结构和属性的说明,将接收到的各个子数据模块组装起来,实现最终需要的聚合数据。
实施例
本发明的实现方式有二大类:一类是在大数据管理系统,直接采用本发明的构建大数据存储和聚合服务功能;二是开发独立的基于本发明的大数据聚合服务软件系统,然后配置到大数据系统中使用。 无论采用哪种方式,其实现的基本过程都是类似的,下面给出一个简单的参考实现案例:
(1)构建服务描述子一个服务描述子下,一般有多个子数据序列,共同承载服务数据;
(2)服务的聚合数据的快速传送
构建好数据聚合模板后,即可向服务目标对象并行快速地传送聚合服务数据。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.面向应用的大数据快速聚合与服务传递方法,其特征在于包括1)面向服务的大数据聚合二维结构化模板设计方法;2)基于二维结构化模板的大数据存储与快速传送方法,其中:
一、面向服务的大数据聚合二维结构化模板设计方法,模板包含二部分:总体服务描述子和子数据序列,其中:
(1)服务描述子,包括以下内容:
a)服务编号,是针对某个数据聚合服务需求而指派的流水代号,作为整个服务周期中的统一标识;
b)服务类型,一个表示服务类型的数据字段,由实际使用者定义,按服务对象类别分为1-N级客户;按业务类型分实时、准实时、非实时多种响应级别,服务类型字段描述包含多种分类信息的复合类型;
c)服务目标地址,服务目标对象的网络地址;
d)服务源地址,提供数据聚合服务的IT系统的网络地址;
e)扩展段长度,指此单元后面跟随的扩展字段的总数;
f)扩展段,为增强模板的功能,专门设置了扩展字段,扩展段的多少根据需要设置,每个扩展段的内容根据实际需要灵活约定,包括用第一个扩展段表示该聚合服务的安全加密方式、用最后一个扩展段表示总体描述模块的结束标志;
(2)子数据序列
a)子数据结构编号,编号组成为“服务描述子中的服务编号+结构化扩展码”,表示服务数据中某一数据子列或子模块的编号,此处的数据子列,是指大数据中为存储管理和传输方便而将一个数据模块整体分解成具有结构化特性的、相关联的一系列子数据模块,即一个多媒体服务数据模块可分解成语音数据子列、视频数据子列、文本数据子列;
子数据结构编号,携带着子数据在数据块整体中的结构位置、与其他子数据的组装关系;
b)子数据地址,指子数据序列的存储地址;
c)子数据段,用来装载子数据序列,因子服务数据的大小是变化的,所以此段的长度是可变的;
d)子扩展段长度,指此单元后面跟随的子数据模块中子扩展字段的总数;
e)子扩展段,为增强模板中子数据模块的功能,专门设置了子数据扩展字段,子扩展段的多少可根据需要设置,每个子扩展段的内容可根据实际需要灵活约定;
二、基于二维结构化模板的大数据存储与快速传送,采用下面的方法实现大数据的结构化存储与快速传送;
1)面向服务的大数据结构化存储
在大数据系统中,数据存储管理功能子系统通常对大数据进行分类、分拆处理,将大数据制作成各种类型、较小粒度的数据片或数据段,并建立索引系统;
根据服务需求搜索发现所需要的一系列相关的数据片,并将这些数据片整合成不同的子数据序列,存储在二维结构化模板中;
整合好的子数据序列,作为面向服务主题的特种“结构化数据块”,存储到大数据管理系统中,以便此后遇到类似服务需求时能够直接快速地调用;
2)面向服务的聚合数据快速传送
基于建好大数据聚合二维结构化模板,采用并行方式向客户快速传送主描述模块、各类子数据模块,在一次聚合服务中,服务描述子只传送一次,但每个子数据序列因为受到数据包大小的限制或服务数据的变化而需要分为多次传送;
在客户端,根据主描述模块对服务数据结构和属性的说明,将接收到的各个子数据模块组装起来,实现最终需要的聚合数据。
CN201410051159.6A 2014-02-14 2014-02-14 一种面向快速服务的大数据聚合方法 Active CN103810277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410051159.6A CN103810277B (zh) 2014-02-14 2014-02-14 一种面向快速服务的大数据聚合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410051159.6A CN103810277B (zh) 2014-02-14 2014-02-14 一种面向快速服务的大数据聚合方法

Publications (2)

Publication Number Publication Date
CN103810277A CN103810277A (zh) 2014-05-21
CN103810277B true CN103810277B (zh) 2018-01-26

Family

ID=50707047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410051159.6A Active CN103810277B (zh) 2014-02-14 2014-02-14 一种面向快速服务的大数据聚合方法

Country Status (1)

Country Link
CN (1) CN103810277B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263026A (zh) * 2019-06-27 2019-09-20 北京中油瑞飞信息技术有限责任公司 一种数据处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011090519A1 (en) * 2010-01-20 2011-07-28 Alibaba Group Holding Limited Accessing large collection object tables in a database
CN103473276A (zh) * 2013-08-26 2013-12-25 广东电网公司电力调度控制中心 超大型数据存储方法、分布式数据库系统及其检索方法
CN103577499A (zh) * 2012-08-10 2014-02-12 广州博纳信息技术有限公司 一体化智能空间综合信息平台

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955828B (zh) * 2011-08-31 2016-06-15 国际商业机器公司 用于数据库大对象重整的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011090519A1 (en) * 2010-01-20 2011-07-28 Alibaba Group Holding Limited Accessing large collection object tables in a database
CN103577499A (zh) * 2012-08-10 2014-02-12 广州博纳信息技术有限公司 一体化智能空间综合信息平台
CN103473276A (zh) * 2013-08-26 2013-12-25 广东电网公司电力调度控制中心 超大型数据存储方法、分布式数据库系统及其检索方法

Also Published As

Publication number Publication date
CN103810277A (zh) 2014-05-21

Similar Documents

Publication Publication Date Title
US9805079B2 (en) Executing constant time relational queries against structured and semi-structured data
CN103678408B (zh) 一种查询数据的方法及装置
CN107515878A (zh) 一种数据索引的管理方法及装置
CN108268529B (zh) 一种基于业务抽象和多引擎调度的数据汇总方法和系统
CN105793822B (zh) 动态混洗重新配置
WO2012030411A1 (en) Method for classification of objects in a graph data stream
WO2014117295A1 (en) Performing an index operation in a mapreduce environment
CN106407201A (zh) 一种数据处理方法及装置
CN106484734A (zh) 一种数据查询缓存方法及系统
CN106897280A (zh) 数据查询方法及装置
Khan et al. Data model for big data in cloud environment
CN105069101A (zh) 分布式索引构建及检索方法
CN100476824C (zh) 存储元素的方法与系统及查找元素的方法与系统
CN108304460B (zh) 一种改进数据库的定位方法及系统
CN106909624B (zh) 一种海量数据实时排序优化方法
CN103810277B (zh) 一种面向快速服务的大数据聚合方法
Kaur et al. Image processing on multinode hadoop cluster
US11106739B2 (en) Document structures for searching within and across messages
CN107391541A (zh) 一种实时数据合并方法和装置
CN104714983A (zh) 分布式索引的生成方法及装置
CN108121807B (zh) Hadoop环境下多维索引结构OBF-Index的实现方法
CN108694205B (zh) 匹配目标字段的方法、装置
CN113535781B (zh) 一种时序库的数据查询方法、装置、设备及存储介质
CN103324640A (zh) 一种确定搜索结果文档的方法、装置和设备
CN111459981B (zh) 查询任务的处理方法、装置、服务器及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 250100 Ji'nan high tech Zone, Shandong, No. 1036 wave road

Applicant after: Tianyuan Communication Information System Co., Ltd.

Address before: 250101 Shandong Province, Ji'nan City hi tech Development Zone, Nga Road No. 1036

Applicant before: Langchao Communication Information System Co., Ltd.

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 250100 S06 tower, 1036, Chao Lu Road, hi tech Zone, Ji'nan, Shandong.

Patentee after: INSPUR COMMUNICATION AND INFORMATION SYSTEM Co.,Ltd.

Address before: No. 1036, Shandong high tech Zone wave road, Ji'nan, Shandong

Patentee before: INSPUR TIANYUAN COMMUNICATION INFORMATION SYSTEM Co.,Ltd.