CN106254313A - 一种通用的大数据采集字节流解析系统及其实现方法 - Google Patents

一种通用的大数据采集字节流解析系统及其实现方法 Download PDF

Info

Publication number
CN106254313A
CN106254313A CN201610565549.4A CN201610565549A CN106254313A CN 106254313 A CN106254313 A CN 106254313A CN 201610565549 A CN201610565549 A CN 201610565549A CN 106254313 A CN106254313 A CN 106254313A
Authority
CN
China
Prior art keywords
data
row
byte stream
bivariate table
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610565549.4A
Other languages
English (en)
Other versions
CN106254313B (zh
Inventor
吴建州
季统凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panming Technology Guangdong Co Ltd
Original Assignee
G Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Cloud Technology Co Ltd filed Critical G Cloud Technology Co Ltd
Priority to CN201610565549.4A priority Critical patent/CN106254313B/zh
Publication of CN106254313A publication Critical patent/CN106254313A/zh
Application granted granted Critical
Publication of CN106254313B publication Critical patent/CN106254313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/18Multiprotocol handlers, e.g. single devices capable of handling multiple protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/123Applying verification of the received information received data contents, e.g. message integrity

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及计算机应用技术领域,特别是一种通用的大数据采集字节流解析系统及其实现方法。本发明由字节流预处理器和二维表解析器构成。字节流预处理器根据约定自动校验数据并根据压缩和加密方式自动选择相应的解压和解密方法对数据进行预处理;二维表解析器按照字节流格式定义二维表,用行和行组存储数据信息,用列标明每个字段的名称、数据类型和长度,读入数据字节流后,根据每一列定义的比特长度将字节流分割成多个字段,再根据数据类型将分割好的字节流解析成相应的信息;通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息。本发明避免重复定义和编写解析过程;可以适用于大数据采集中对结构复杂多样的数据进行统一的解析。

Description

一种通用的大数据采集字节流解析系统及其实现方法
技术领域
本发明涉及计算机应用技术领域,特别是一种通用的大数据采集字节流解析系统及其实现方法。
背景技术
解析数据是数据采集中至关重要的一个环节,在大数据时代,数据分布广泛、结构复杂多样,给解析带来很大的困难,每次采集都需要按照不同的数据结构编写解析代码,这种重复工作对采集者来说是一种很大的浪费。
发明内容
本发明解决的技术问题之一在于提供一种通用的大数据采集字节流解析系统,使字节流解析过程更加标准化、更加可控。
本发明解决的技术问题之二在于提供一种通用的大数据采集字节流解析系统的实现方法,通过字节流预处理器和二维表解析器对不同结构的数据进行统一的解析,避免重复定义解析过程,能够大大提高数据采集的工作效率。
本发明解决上述技术问题之一的技术方案是:
所述的系统由字节流预处理器和二维表解析器两部份构成;
所述的字节流预处理器是根据约定自动校验数据并根据压缩和加密方式自动选择相应的解压和解密方法对数据进行预处理;
所述的二维表解析器按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据;用列标明每个字段的名称、数据类型和长度;
二维表解析器读入数据字节流,根据每一列定义的长度将字节流分割成多个字段,再根据数据类型将分割好的字节流解析成相应的信息;通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息。
所述的字节流预处理器包括数据安全校验、数据解压中心和数据解密中心三部分;由数据安全校验实现自动校验数据;数据解压中心、数据解密中心,根据数据需求进行解压或解密。
所述的二维表解析器包括二维表封装器、二维表数据段分割和二维表数据段解析三部分;
所述的实现按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据;用列标明每个字段的名称、数据类型和长度;
所述的二维表数据段分割实现根据每一列定义的长度将字节流分割成多个字段;
所述的二维表数据段解析对分割好的字节流解析成相应的信息。
所述的数据类型可以是二进制、十进制、十六进制或者字符,长度单位是比特。
本发明解决上述技术问题之二的技术方案是:
所述的方法按照以下流程步骤处理:
第一步,接收到字节流后,根据约定自动校验数据安全性和完整性,检查在传输过程中数据是否被篡改;
第二步,根据约定的标记位自动选择解压和解密方法进行预处理,生成完整的明文字节流;
第三步,根据字节流包含数据段、每个数据段的长度以及数据类型定义二维表,生成二维表解析器;
第四步,将字节流读入二维表解析器,根据定义的列及长度分割成数据段,判断字段是否是集合数据;
(一)非集合字段:创建数据段行,将数据段存储到行中,并用列定义的字段名称标明数据段含义;
(二)集合字段:创建行组,用列定义的字段名称标明行组数据段含义,根据集合的大小创建数据段行,每个行存储集合的一个元素;
第五步,根据列定义的数据类型将数据段解析转换成相应的数据信息,生成结构化数据信息;
第六步,获取结构化信息,通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息,完成字节流的解析。
本发明使字节流解析过程更加标准化、更加可控。而且,通过字节流预处理器和二维表解析器对不同结构的数据进行统一的解析;不用重复定义和编写解析流程代码,并且对使用者是透明的,使用者只需根据数据的结构定义好二维表,不用关心其实现方式。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明的架构示意图。
具体实施方式
如图1所示,本发明的字节流解析组件由字节流预处理器和二维表解析器两部份构成。字节流预处理器根据约定自动校验数据并根据压缩和加密方式自动选择相应的解压和解密方法对数据进行预处理;二维表解析器按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据,用列标明字节流的数据结构;二维表解析器将字节流分割成多个字段,再根据数据类型将分割好的字节流解析成相应的信息,通过二维表读取解析后的结构化信息。
所述的字节流预处理器根据约定自动校验数据安全性和完整性,检查在传输过程中数据是否被篡改,然后根据约定的标记位自动选择解压和解密方法进行预处理,生成完整的明文字节流。
所述的二维表解析器按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据,用列标明每个字段的名称、数据类型和长度,数据类型可以是二进制、十进制、十六进制或者字符,长度单位是比特;二维表解析器读入数据字节流,根据每一列定义的比特长度将字节流分割成多个字段,再根据数据类型将分割好的字节流解析成相应的信息;通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息。
所述的字节流解析组件,不用重复定义和编写解析流程代码,并且对使用者是透明的,使用者只需根据数据的结构定义好二维表,不用关心其实现方式。
如图1所示,大数据采集字节流解析组件及方法的详细实施流程为:
第一步,接收到字节流后,根据约定自动校验数据安全性和完整性,检查在传输过程中数据是否被篡改。
第二步,根据约定的标记位自动选择解压和解密方法进行预处理,生成完整的明文字节流;
第三步,根据字节流包含数据段、每个数据段的长度以及数据类型定义二维表,生成二维表解析器;
第四步,将字节流读入二维表解析器,根据定义的列及长度分割成数据段,判断字段是否是集合数据。
(一)非集合字段:创建数据段行,将数据段存储到行中,并用列定义的字段名称标明数据段含义。
(二)集合字段:创建行组,用列定义的字段名称标明行组数据段含义,根据集合的大小创建数据段行,每个行存储集合的一个元素。
第五步,根据列定义的数据类型将数据段解析转换成相应的数据信息,生成结构化数据信息;
第六步,获取结构化信息,通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息,完成字节流的解析。

Claims (6)

1.一种通用的大数据采集字节流解析系统,其特征在于:所述的系统由字节流预处理器和二维表解析器两部份构成;
所述的字节流预处理器是根据约定自动校验数据并根据压缩和加密方式自动选择相应的解压和解密方法对数据进行预处理;
所述的二维表解析器按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据;用列标明每个字段的名称、数据类型和长度;
二维表解析器读入数据字节流,根据每一列定义的长度将字节流分割成多个字段,再根据数据类型将分割好的字节流解析成相应的信息;通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息。
2.根据权利要求1所述的大数据采集字节流解析系统,其特征在于:所述的字节流预处理器包括数据安全校验、数据解压中心和数据解密中心三部分;由数据安全校验实现自动校验数据;数据解压中心、数据解密中心,根据数据需求进行解压或解密。
3.根据权利要求1所述的大数据采集字节流解析系统,其特征在于:所述的二维表解析器包括二维表封装器、二维表数据段分割和二维表数据段解析三部分;
所述的实现按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据;用列标明每个字段的名称、数据类型和长度;
所述的二维表数据段分割实现根据每一列定义的长度将字节流分割成多个字段;
所述的二维表数据段解析对分割好的字节流解析成相应的信息。
4.根据权利要求2所述的大数据采集字节流解析系统,其特征在于:所述的二维表解析器包括二维表封装器、二维表数据段分割和二维表数据段解析三部分;
所述的实现按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据;用列标明每个字段的名称、数据类型和长度;
所述的二维表数据段分割实现根据每一列定义的长度将字节流分割成多个字段;
所述的二维表数据段解析对分割好的字节流解析成相应的信息。
5.根据权利要求1、2、3或4所述的大数据采集字节流解析系统,其特征在于:所述的数据类型可以是二进制、十进制、十六进制或者字符,长度单位是比特。
6.一种权利要求1至5任一项所述大数据采集字节流解析系统的实现方法,其特征在于:所述的方法按照以下流程步骤处理:
第一步,接收到字节流后,根据约定自动校验数据安全性和完整性,检查在传输过程中数据是否被篡改;
第二步,根据约定的标记位自动选择解压和解密方法进行预处理,生成完整的明文字节流;
第三步,根据字节流包含数据段、每个数据段的长度以及数据类型定义二维表,生成二维表解析器;
第四步,将字节流读入二维表解析器,根据定义的列及长度分割成数据段,判断字段是否是集合数据;
(一)非集合字段:创建数据段行,将数据段存储到行中,并用列定义的字段名称标明数据段含义;
(二)集合字段:创建行组,用列定义的字段名称标明行组数据段含义,根据集合的大小创建数据段行,每个行存储集合的一个元素;
第五步,根据列定义的数据类型将数据段解析转换成相应的数据信息,生成结构化数据信息;
第六步,获取结构化信息,通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息,完成字节流的解析。
CN201610565549.4A 2016-07-15 2016-07-15 一种通用的大数据采集字节流解析系统及其实现方法 Active CN106254313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610565549.4A CN106254313B (zh) 2016-07-15 2016-07-15 一种通用的大数据采集字节流解析系统及其实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610565549.4A CN106254313B (zh) 2016-07-15 2016-07-15 一种通用的大数据采集字节流解析系统及其实现方法

Publications (2)

Publication Number Publication Date
CN106254313A true CN106254313A (zh) 2016-12-21
CN106254313B CN106254313B (zh) 2019-06-21

Family

ID=57613713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610565549.4A Active CN106254313B (zh) 2016-07-15 2016-07-15 一种通用的大数据采集字节流解析系统及其实现方法

Country Status (1)

Country Link
CN (1) CN106254313B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256045A (zh) * 2018-01-12 2018-07-06 福建星瑞格软件有限公司 实时流数据的结构化解析、流计算的方法及计算机设备
CN108460006A (zh) * 2018-02-06 2018-08-28 福建星瑞格软件有限公司 一种文件数据表结构的自动生成的方法及计算机设备
CN110851400A (zh) * 2018-07-25 2020-02-28 北京国双科技有限公司 文本数据的处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1426551A (zh) * 2000-04-14 2003-06-25 皮克塞(研究)有限公司 用于操作和查看数字文档的用户界面系统和方法
CN1783881A (zh) * 2004-12-03 2006-06-07 微软公司 绑定结构化数据协议至提供字节流协议的机制
CN102566521A (zh) * 2010-12-23 2012-07-11 北京北方微电子基地设备工艺研究中心有限责任公司 工厂自动化系统、自动化消息处理方法和装置
CN102981882A (zh) * 2011-09-05 2013-03-20 北京旋极信息技术股份有限公司 解析方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1426551A (zh) * 2000-04-14 2003-06-25 皮克塞(研究)有限公司 用于操作和查看数字文档的用户界面系统和方法
CN1783881A (zh) * 2004-12-03 2006-06-07 微软公司 绑定结构化数据协议至提供字节流协议的机制
CN102566521A (zh) * 2010-12-23 2012-07-11 北京北方微电子基地设备工艺研究中心有限责任公司 工厂自动化系统、自动化消息处理方法和装置
CN102981882A (zh) * 2011-09-05 2013-03-20 北京旋极信息技术股份有限公司 解析方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256045A (zh) * 2018-01-12 2018-07-06 福建星瑞格软件有限公司 实时流数据的结构化解析、流计算的方法及计算机设备
CN108460006A (zh) * 2018-02-06 2018-08-28 福建星瑞格软件有限公司 一种文件数据表结构的自动生成的方法及计算机设备
CN110851400A (zh) * 2018-07-25 2020-02-28 北京国双科技有限公司 文本数据的处理方法及装置

Also Published As

Publication number Publication date
CN106254313B (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN106575166B (zh) 手写输入字符的处理、数据拆分和合并及编解码处理方法
US11580761B2 (en) Ink file searching method, apparatus, and program
US7663511B2 (en) Dynamic character encoding
US20110040982A1 (en) File encryption method
CN105450232A (zh) 编码、解码方法以及编码装置和解码装置
CN104376356A (zh) 一种带有加密功能的二维码生成方法
US11178212B2 (en) Compressing and transmitting structured information
JP5831298B2 (ja) プログラム、情報処理装置およびインデックス生成方法
CN106254313A (zh) 一种通用的大数据采集字节流解析系统及其实现方法
CN106970820A (zh) 代码存储方法及代码存储装置
CN103543980B (zh) 数字数据处理的方法及装置
CN101963954A (zh) 一种文字显示的方法及装置
CN104811209B (zh) 一种抗最长匹配检测的压缩文件数据嵌入方法及装置
CN110011783A (zh) 一种汉字的加密、解密方法
CN104751024A (zh) 一种对核心源代码进行加密的方法及装置
CN111242259B (zh) 一种智能防伪码的编码和解码方法及系统
CN103036641A (zh) 数据交换方法、系统及反序列化方法
US20140049554A1 (en) Method of manipulating character string in embeded system
CN106777061B (zh) 基于网页文本和图像的信息隐藏系统、方法及提取方法
CN103745252B (zh) 编码列、二维码编码方法以及二维码解码方法
CN103646121A (zh) 一种标识码及使用方法和装置
CN103218349A (zh) Pmw格式文件中plc指令存储规律的解读及转换方法
CN104393988B (zh) 一种可逆的数据加密方法及装置
CN108090034B (zh) 基于集群的单证代码统一编码生成方法和系统
JP4821287B2 (ja) 構造化文書の符号化方法、符号化装置、符号化プログラム、復号装置及び符号化された構造化文書のデータ構造

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 523808 19th Floor, Cloud Computing Center, Chinese Academy of Sciences, No. 1 Kehui Road, Songshan Lake Hi-tech Industrial Development Zone, Dongguan City, Guangdong Province

Applicant after: G-Cloud Technology Co., Ltd.

Address before: 523808 No. 14 Building, Songke Garden, Songshan Lake Science and Technology Industrial Park, Dongguan City, Guangdong Province

Applicant before: G-Cloud Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200212

Address after: Room 1901, building 1, No.1 Kehui Road, Songshanhu Park, Dongguan City, Guangdong Province

Patentee after: Panming Technology (Guangdong) Co., Ltd

Address before: 523808 19th Floor, Cloud Computing Center, Chinese Academy of Sciences, No. 1 Kehui Road, Songshan Lake Hi-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee before: G-CLOUD TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right