CN111930568A - 一种基于Avro的结构化数据序列化传输方法及装置 - Google Patents

一种基于Avro的结构化数据序列化传输方法及装置 Download PDF

Info

Publication number
CN111930568A
CN111930568A CN202010780270.4A CN202010780270A CN111930568A CN 111930568 A CN111930568 A CN 111930568A CN 202010780270 A CN202010780270 A CN 202010780270A CN 111930568 A CN111930568 A CN 111930568A
Authority
CN
China
Prior art keywords
data
avro
type
serialized
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010780270.4A
Other languages
English (en)
Inventor
李剑
陈勇铨
杜晋瑞
杨彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yingfang Software Co ltd
Original Assignee
Shanghai Yingfang Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yingfang Software Co ltd filed Critical Shanghai Yingfang Software Co ltd
Priority to CN202010780270.4A priority Critical patent/CN111930568A/zh
Publication of CN111930568A publication Critical patent/CN111930568A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Avro的结构化数据序列化传输方法及装置,所述方法包括:步骤S1,利用数据导出模块从源端数据库获取所要导出数据表的表结构和表数据,根据该表结构动态构建Avro的Schema并创建Avro编码器,利用所述Avro编码器序列化所述表数据,得到序列化结果数据块;步骤S2,所述数据导出模块通过网络将所述序列化结果数据块传递到数据装载模块;步骤S3,所述数据装载模块利用Avro解码器反序列化所接收的序列化数据快,得到原始的数据表数据,并将其装载至备端数据库。

Description

一种基于Avro的结构化数据序列化传输方法及装置
技术领域
本发明涉及计算机容灾备份技术领域,特别是涉及一种基于Avro的结构化数据序列化传输方法及装置。
背景技术
序列化是将数据对象状态转换为可存储或传输的格式的过程,与序列化相反的是饭序列化,它将流转换为数据对象,这两个过程结合起来,可以轻松地存储和传输数据。
目前,数据导出程序将从源端数据库导出的数据按照一定格式序列化,再将序列化结果传递到数据装载程序,装载程序将收到的数据块反序列化,得到原始数据并装载到备端数据库,是数据库备份的主要流程。数据序列化和反序列化是否高效,序列化后的数据体积是否足够小,直接影响着数据库备份的性能。
传统的数据序列化方法主要有JSON和XML,其中XML因为序列化效率不高,并且有冗长的描述性字段在追求高性能的场合已经被弃用,JSON采用键值对的方式保存数据,跟XML比较在数据的冗余度、以及序列化的速度上都有了长足的进步,是现在主流的数据序列化方法。
但是,JSON在处理数据表的数据时有着很多缺点:一、JSON采用键值对的方式保存数据,这样在数据表的数据有很多行的时候,会保存很多重复的数据列名;二、JSON不能直接保存二进制数据,如果需要在JSON中保存二进制数据,通常需要将其先Base64编码以后再转成16进制可打印字符,这就需要额外的序列化时间,也使序列化结果数据的体积变得更大;三、JSON的序列化和反序列化性能也不够出色。
目前,另外一种流行的序列和反序列化方法是Google的protobuf。它是一种二进制的消息流,具有跨平台、解析速度快、序列化数据体积小、扩展性高等特点。但是,protobuf的二进制消息流不具有自描述特性,这导致它序列化的数据不能被装载程序很方便的反序列化,使用protobuf序列化、反序列化数据需要提前为数据库的每一张表定制一个proto结构描述文件并部署到源备两端,由于数据库备份的时候通常会备份很多数据表,而每个数据表的结构一般不能提前预知,这导致提前部署proto文件很麻烦,使用protobuf就受到很大限制。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于Avro的结构化数据序列化传输方法及装置,以实现序列化速度快、序列化结果体积小、序列化结果自描述的目的。
为达上述目的,本发明提出一种基于Avro的结构化数据序列化传输方法,包括:
步骤S1,利用数据导出模块从源端数据库获取所要导出数据表的表结构和表数据,根据该表结构动态构建Avro的Schema并创建Avro编码器,利用所述Avro编码器序列化所述表数据,得到序列化结果数据块;
步骤S2,所述数据导出模块通过网络将所述序列化结果数据块传递到数据装载模块;
步骤S3,所述数据装载模块利用Avro解码器反序列化所接收的序列化数据快,得到原始的数据表数据,并将其装载至备端数据库。
优选地,步骤S1进一步包括:
步骤S100,从源端数据库获取所要导出的数据表的表结构;
步骤S101,根据获得的数据表的表结构动态构建一个Avro的Schema;
步骤S102,根据动态构建的Schema创建Avro编码器;
步骤S103,所述数据导出模块从源端数据库读取表数据,利用所述Avro编码器将所述数据表数据处理成序列化结果数据块。
优选地,于步骤S2中,于创建Avro编码器同时,在字节缓冲区中创建一个带Schema的Avro数据头。
优选地,于步骤S103中,所述数据导出模块从源端数据库读取表数据,按行插入Avro编码器,所述Avro编码器以流的方式将序列化的数据写入字节缓冲区,当该数据表的所有行都读取完成或者读取超过了一定行数,关闭所述Avro编码器,得到内嵌所述Schema的序列化结果数据块。
优选地,于步骤S103中,Avro序列化后的数据按行存放。
优选地,于步骤S103中,所述Avro编码器对不同Avro类型写入数据块的处理如下:
对于BOOLEAN、INT、LONG、FLOAT、DOUBLE的Avro类型,在所述序列化结果数据块中将直接存放,占用固定的数据类型长度;
对于STRING、BYTES的变长的Avro类型,在所述序列化结果数据块中先存放字节流或者二进制流的长度,再放置原始的字节流或者二进制流;
对于Avro的逻辑类型,将它们转换成BYTES类型处置,以节约存储空间;
对于允许NULL值的UNION类型,先存放一个UNION的INDEX值,再按照实际的类型存储。
优选地,于步骤S1中,获取的表结构包括但不限于表名和列名以及每一列的具体数据类型以及是否允许出现NULL值等信息。
优选地,于步骤S101中,以所述数据表的表名作为所述Schema的名称,所述数据表的每一列对应所述Schema内的一个Field,列名为Field的名称,并在数据列的类型和Schema Field的类型之间建立映射关系。
优选地,所述数据导出模块与所述数据装载模块通过JDBC接口从源端数据库读取、向备端数据库装载数据。
为达到上述目的,本发明还提供一种基于Avro的结构化数据序列化传输装置,包括:
数据导出模块,用于从源端数据库获取所要导出数据表的表结构和表数据,根据该表结构动态构建Avro的模式Schema并创建Avro编码器,利用所述Avro编码器序列化所述表数据,得到序列化结果数据块,并将得到的序列化结果数据块通过网络传递至数据装载模块;
数据装载模块,用于利用Avro解码器反序列化所接收的序列化数据快,得到原始的数据表的数据,并将其装载至备端数据库。
与现有技术相比,本发明具有如下有益效果:
1、本发明中,每一个数据块只在数据头的Schema信息里保存了数据列的名称信息,这在数据表有很多行数据的情况下,不需要像JSON一样保存很多份冗余的数据列名称信息。
2、本发明中,二进制数据是直接保存的,省去了转换的时间开销,也使序列化的结果体积更小。
3、本发明中,每张数据表序列化的Schema都是根据表结构动态生成的,具有使用简单的优点。
附图说明
图1为本发明一种基于Avro的结构化数据序列化传输方法的步骤流程图;
图2为本发明具体实施例中动态生成的Schema示例图;
图3为本发明具体实施例中序列化得到的数据块格式示意图;
图4为本发明一种基于Avro的结构化数据序列化传输装置的系统架构图;
图5为本发明实施例中基于Avro的结构化数据序列化传输装置的示意图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于Avro的结构化数据序列化传输方法的步骤流程图。如图1所示,本发明一种基于Avro的结构化数据序列化传输方法,包括:
步骤S1,利用数据导出模块从源端数据库获取所要导出数据表的表结构和表数据,根据该表结构动态构建Avro的模式(Schema)并创建Avro编码器,利用所述Avro编码器序列化所述表数据,得到序列化结果数据块。
Avro是Hadoop的一个数据序列化系统,设计用于支持大批量数据交换的应用。Avro依赖模式(Schema)来实现数据结构定义。可以把模式理解为Java的类,它定义每个实例的结构,可以包含哪些属性,Avro支持两种序列化编码方式:二进制编码和JSON编码。由于Avro技术为现有技术,在此不予赘述。
具体地,步骤S1进一步包括:
步骤S100,利用数据导出模块从源端数据库获取所要导出的数据表的表结构,包括表名和列名以及每一列的具体数据类型以及是否允许出现NULL值等信息。
具体地说,在导出某张数据表的时候,先利用数据导出模块通过JDBC接口从源端数据库获取该数据表的结构,包括表名和列名以及每一列的具体数据类型以及是否允许出现NULL值等信息。
步骤S101,所述数据导出模块根据获得的数据表的表结构动态构建一个Avro的模式(Schema)。在本发明具体实施例中,以数据表的表名作为Schema的名称,表的每一列对应Schema内的一个Field,列名为Field的名称,动态创建Schema需要在数据列的类型和Schema Field的类型之间建立映射关系,具体映射关系如下:
数据列类型为CHAR、VARCHAR、NCHAR、NVARCHAR、CLOB、LONGVARCHAR、NCLOB、LONGNVARCHAR等字符串兼容的类型时,映射为Avro的STRING类型;
数据列类型为BLOB、BINARY、VARBINARY、LONGVARBINARY等二进制类型时,映射为Avro的BYTES类型;
数据列类型为BIT、BOOLEAN等类型时,映射为Avro的BOOLAEN类型;
数据列类型为TINYINT、SMALLINT、INTEGER等类型时,映射为Avro的INT类型;
数据列类型为BIGINT时,映射为Avro的LONG类型;
数据列类型为REAL、FLOAT等类型时,映射为Avro的FLOAT类型;
数据列类型为DOUBLE时,映射为Avro的DOUBLE类型;
数据列类型为带精度的NUMERIC、DECIMAL类型时,映射为Avro逻辑类型的DECIMAL类型;
数据列类型为DATE时,映射为Avro逻辑类型中的DATE类型;
数据列类型为TIMESTAMP时,映射为Avro逻辑类型中的TIMESTAMP-MICROS类型;
数据列类型为其它类型时,映射为Avro逻辑类型中的STRING类型。数据导出模块在导出这些类型的列的时候先将列数据转换成字符串格式。
另外,如果数据列允许NULL值,需要将Avro的类型设置为原始类型和NULL的UNION。
图2为本发明实施例中动态生成的Schema示例图,在图2中,其映射关系如下:
列INT_COL映射到INT类型,不允许出现NULL值。
列BIGINT_COL映射到LONG类型,不允许出现NULL值。
列DOUBLE_COL映射到DOUBLE类型,允许出现NULL值。
列BOOLAEN_COL映射到BOOLEAN类型,不允许出现NULL值。
列CHAR_COL映射到STRING类型,不允许出现NULL值。
列VARCHAR_COL映射到STRING类型,允许出现NULL值。
列CLOB_COL映射到STRING类型,允许出现NULL值。
列DATE_COL映射到逻辑类型中的DATE类型,允许出现NULL值。
列TIMESTAMP_COL映射到逻辑类型中的TIMESTAMP-MICROS类型,允许出现NULL值。
列DECIMAL_COL映射到逻辑类型中的DECIMAL类型,精度为11,Scale为4,允许出现NULL值。
列BLOB_COL映射到BYTES类型,允许出现NULL值。
步骤S102,所述数据导出模块根据动态构建的Schema创建Avro编码器。于步骤S102中,在字节缓冲区中创建一个带Schema的Avro数据头。
步骤S103,所述数据导出模块从源端数据库读取表数据,按行插入Avro编码器,所述Avro编码器以流的方式将序列化的数据写入字节缓冲区。最终的序列化结果将包含该Schema,这样,Avro序列化的消息流就与XML或JSON消息流一样具有了自描述的特点,可以被数据装载模块解析使用。当该数据表的所有行都读取完成或者读取超过了一定行数,关闭所述Avro编码器,则可以得到一个内嵌了Schema的数据块。
在本发明具体实施例中,Avro序列化后的数据按行存放,最终数据块的格式如图3所示,在本发明具体实施例中,所述Avro编码器对不同Avro类型写入数据块的处理如下:
对于简单的Avro类型如BOOLEAN、INT、LONG、FLOAT、DOUBLE,在序列化结果数据块中将直接存放,占用固定的数据类型长度,例如BOOLEAN一个字节,INT四个字节,LONG八个字节等;
对于变长的Avro类型如STRING、BYTES,在序列化结果数据块中先存放字节流或者二进制流的长度,再放置原始的字节流或者二进制流,如写入数据块的时候先写4字节长度,再写后续的字符或者二进制数据;
对于Avro的逻辑类型,将它们转换成BYTES类型处置,以节约存储空间;
对于允许NULL值的UNION类型,先存放一个UNION的INDEX值,再按照实际的类型存储。比如某列的数据为NULL,只需要存放INDEX值0。如果该列有数据,比如为整数100,会先存放INDEX值1,再存放实际的数据100。
步骤S2,数据导出模块通过网络将序列化结果数据块传递到数据装载模块。
步骤S3,数据装载模块利用Avro解码器反序列化所接收的序列化数据快,得到原始的数据表的数据,并将其装载至备端数据库。
具体地,步骤S3进一步包括:
步骤S300,数据装载模块利用Avro解码器反序列化接收到的序列化结果数据块,得到原始的数据表数据。因为该序列化结果数据块内嵌了Schema,所以数据装载模块不需要额外的信息就可以完成反序列化,得到原始的数据表的数据,即获得的每个数据块都包含头部和数据部两部分,头部内嵌了Schema,Avro解码器则从头部读取到Schema,再根据此Schema反序列化数据部得到原始的数据表数据。
步骤S301,数据装载模块通过JDBC接口将得到的原始的数据表数据装载到备端数据库。
在本发明中,每一个数据块只在数据头的Schema信息里保存了数据列的名称信息,这在数据表有很多行数据的情况下,不需要像JSON一样保存很多份冗余的数据列名称信息;本发明中,二进制数据是直接保存的,省去了转换的时间开销,也使序列化的结果体积更小;另外,本发明的每个数据表序列化的Schema都是根据表结构动态生成的,具有使用简单的优点。
图4为本发明一种基于Avro的结构化数据序列化传输装置的结构示意图。如图4所示,本发明一种基于Avro的结构化数据序列化传输装置,包括:
数据导出模块40,用于从源端数据库获取所要导出数据表的表结构和表数据,根据该表结构动态构建Avro的模式(Schema)并创建Avro编码器,利用所述Avro编码器序列化所述表数据,得到序列化结果数据块,并将得到的序列化结果数据块通过网络传递至数据装载模块41。
具体地,数据导出模块40进一步包括:
表结构导出单元401,用于从源端数据库获取所要导出的数据表的表结构,包括表名和列名以及每一列的具体数据类型以及是否允许出现NULL值等信息。
具体地说,在导出某张数据表的时候,表结构导出单元401先通过JDBC接口从源端数据库获取该数据表的结构,包括表名和列名以及每一列的具体数据类型以及是否允许出现NULL值等信息。
模式创建单元402,用于根据获得的数据表的表结构动态构建一个Avro的模式(Schema)。在本发明具体实施例中,以数据表的表名作为Schema的名称,表的每一列对应Schema内的一个Field,列名为Field的名称,动态创建Schema需要在数据列的类型和Schema Field的类型之间建立映射关系,具体映射关系如下:
数据列类型为CHAR、VARCHAR、NCHAR、NVARCHAR、CLOB、LONGVARCHAR、NCLOB、LONGNVARCHAR等字符串兼容的类型时,映射为Avro的STRING类型;
数据列类型为BLOB、BINARY、VARBINARY、LONGVARBINARY等二进制类型时,映射为Avro的BYTES类型;
数据列类型为BIT、BOOLEAN等类型时,映射为Avro的BOOLAEN类型;
数据列类型为TINYINT、SMALLINT、INTEGER等类型时,映射为Avro的INT类型;
数据列类型为BIGINT时,映射为Avro的LONG类型;
数据列类型为REAL、FLOAT等类型时,映射为Avro的FLOAT类型;
数据列类型为DOUBLE时,映射为Avro的DOUBLE类型;
数据列类型为带精度的NUMERIC、DECIMAL类型时,映射为Avro逻辑类型的DECIMAL类型;
数据列类型为DATE时,映射为Avro逻辑类型中的DATE类型;
数据列类型为TIMESTAMP时,映射为Avro逻辑类型中的TIMESTAMP-MICROS类型;
数据列类型为其它类型时,映射为Avro逻辑类型中的STRING类型。数据导出模块在导出这些类型的列的时候先将列数据转换成字符串格式。
另外,如果数据列允许NULL值,需要将Avro的类型设置为原始类型和NULL的UNION。
Avro编码器创建单元403,用于根据动态构建的Schema创建Avro编码器。Avro编码器创建单元403还会在字节缓冲区中创建一个带Schema的Avro数据头。
序列化单元404,用于从源端数据库读取表数据,按行插入Avro编码器,所述Avro编码器以流的方式将序列化的数据写入字节缓冲区。序列化单元404最终的序列化结果将包含该Schema,这样,Avro序列化的消息流就与XML或JSON消息流一样具有了自描述的特点,可以被数据装载模块解析使用。当该数据表的所有行都读取完成或者读取超过了一定行数,关闭所述Avro编码器,则序列化单元404可以得到一个内嵌了Schema的数据块,并通过网络将序列化结果数据块传递到数据装载模块41。
数据装载模块41,用于利用Avro解码器反序列化所接收的序列化数据快,得到原始的数据表的数据,并将其装载至备端数据库。
具体地,数据装载模块41进一步包括:
反序列化单元410,用于利用Avro解码器反序列化接收到的序列化结果数据块,得到原始的数据表数据。因为该序列化结果数据块内嵌了Schema,所以数据装载模块不需要额外的信息就可以完成反序列化,得到原始的数据表的数据。
装载单元411,用于通过JDBC接口将得到的原始的数据表数据装载到备端数据库。
实施例
图5为本发明实施例中基于Avro的结构化数据序列化传输装置的示意图。如图5所示,本发明基于Avro的结构化数据序列化传输过程如下:
步骤1,数据导出模块通过JDBC接口从源数据库获取数据表的结构,包括表名和列名以及每一列的具体数据类型以及是否允许出现NULL值等信息。
步骤2,数据导出模块根据表结构动态的构建一个Schema。以表名作为Schema的名称,表的每一列对应Schema内的一个Field,列名为Field的名称。在列的类型和SchemaField的类型之间建立映射关系。
步骤3,数据导出模块根据此动态Schema创建Avro编码器。这个步骤将在字节缓冲区中创建一个带Schema的Avro数据头。
步骤4,数据导出模块通过JDBC接口从源数据库读取表数据,按行插入Avro编码器。Avro编码器以流的方式将序列化过的数据写入字节缓冲区。当此数据表的所有行都读取完成或者读取超过了一定行数,关闭编码器,就可以得到一个内嵌了Schema的数据块。
步骤5,数据导出模块通过网络将数据块传递到数据装载程序。
步骤6,数据装载模块用Avro解码器反序列化收到的数据块。因为数据块内嵌了Schema,所以数据装载模块不需要额外的信息就可以完成反序列化,得到原始的数据表的数据。
步骤7,数据装载模块通过JDBC接口将数据装载到备端数据库。
步骤8,如果源数据表的数据还没有完全导出,返回步骤3。
步骤9,如果源数据库还有数据表需要导出,返回步骤1。
根据本发明实施例,序列化的结果通常只有JSON序列化结果的一半大小,序列化时间和反序列化时间也只有JSON的一半左右。
综上所述,本发明一种基于Avro的结构化数据序列化传输装置通过利用数据导出模块从源端数据库获取所要导出数据表的表结构和表数据,根据该表结构动态构建Avro的Schema并创建Avro编码器,利用所述Avro编码器序列化所述表数据,得到序列化结果数据块传递到数据装载模块,由所述数据装载模块利用Avro解码器反序列化所接收的序列化数据快,得到原始的数据表数据,并将其装载至备端数据库,本发明具有序列化速度快、序列化结果体积小、序列化结果自描述、使用简单等优点。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种基于Avro的结构化数据序列化传输方法,包括:
步骤S1,利用数据导出模块从源端数据库获取所要导出数据表的表结构和表数据,根据所述表结构动态构建Avro的Schema并创建Avro编码器,利用所述Avro编码器序列化所述表数据,得到序列化结果数据块;
步骤S2,所述数据导出模块通过网络将所述序列化结果数据块传递到数据装载模块;
步骤S3,所述数据装载模块利用Avro解码器反序列化所接收的序列化数据快,得到原始的数据表数据,并将其装载至备端数据库。
2.如权利要求1所述的一种基于Avro的结构化数据序列化传输方法,其特征在于,步骤S1进一步包括:
步骤S100,从源端数据库获取所要导出的数据表的表结构;
步骤S101,根据获得的数据表的表结构动态构建一个Avro的Schema;
步骤S102,根据动态构建的Schema创建Avro编码器;
步骤S103,所述数据导出模块从源端数据库读取表数据,利用所述Avro编码器将所述数据表数据处理成序列化结果数据块。
3.如权利要求2所述的一种基于Avro的结构化数据序列化传输方法,其特征在于:于步骤S2中,于创建Avro编码器同时,在字节缓冲区中创建一个带Schema的Avro数据头。
4.如权利要求3所述的一种基于Avro的结构化数据序列化传输方法,其特征在于:于步骤S103中,所述数据导出模块从源端数据库读取表数据,按行插入Avro编码器,所述Avro编码器以流的方式将序列化的数据写入字节缓冲区,当该数据表的所有行都读取完成或者读取超过了一定行数,关闭所述Avro编码器,得到内嵌所述Schema的序列化结果数据块。
5.如权利要求4所述的一种基于Avro的结构化数据序列化传输方法,其特征在于:于步骤S103中,Avro序列化后的数据按行存放。
6.如权利要求5所述的一种基于Avro的结构化数据序列化传输方法,其特征在于,于步骤S103中,所述Avro编码器对不同Avro类型写入数据块的处理如下:
对于BOOLEAN、INT、LONG、FLOAT、DOUBLE的简单Avro类型,在所述序列化结果数据块中将直接存放,占用固定的数据类型长度;
对于STRING、BYTES的变长的Avro类型,在所述序列化结果数据块中先存放字节流或者二进制流的长度,再放置原始的字节流或二进制流;
对于Avro的逻辑类型,将其转换成BYTES类型处置,以节约存储空间;
对于允许NULL值的UNION类型,先存放一个UNION的INDEX值,再按照实际的类型存储。
7.如权利要求4所述的一种基于Avro的结构化数据序列化传输方法,其特征在于:于步骤S1中,获取的表结构包括但不限于表名和列名以及每一列的具体数据类型以及是否允许出现NULL值的信息。
8.如权利要求7所述的一种基于Avro的结构化数据序列化传输方法,其特征在于:于步骤S101中,以所述数据表的表名作为所述Schema的名称,所述数据表的每一列对应所述Schema内的一个Field,列名为Field的名称,并在数据列的类型和Schema Field的类型之间建立映射关系。
9.如权利要求5所述的一种基于Avro的结构化数据序列化传输方法,其特征在于:所述数据导出模块与所述数据装载模块通过JDBC接口从源端数据库读取、向备端数据库装载数据。
10.一种基于Avro的结构化数据序列化传输装置,包括:
数据导出模块,用于从源端数据库获取所要导出数据表的表结构和表数据,根据该表结构动态构建Avro的模式Schema并创建Avro编码器,利用所述Avro编码器序列化所述表数据,得到序列化结果数据块,并将得到的序列化结果数据块通过网络传递至数据装载模块;
数据装载模块,用于利用Avro解码器反序列化所接收的序列化数据快,得到原始的数据表的数据,并将其装载至备端数据库。
CN202010780270.4A 2020-08-05 2020-08-05 一种基于Avro的结构化数据序列化传输方法及装置 Pending CN111930568A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010780270.4A CN111930568A (zh) 2020-08-05 2020-08-05 一种基于Avro的结构化数据序列化传输方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010780270.4A CN111930568A (zh) 2020-08-05 2020-08-05 一种基于Avro的结构化数据序列化传输方法及装置

Publications (1)

Publication Number Publication Date
CN111930568A true CN111930568A (zh) 2020-11-13

Family

ID=73307560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010780270.4A Pending CN111930568A (zh) 2020-08-05 2020-08-05 一种基于Avro的结构化数据序列化传输方法及装置

Country Status (1)

Country Link
CN (1) CN111930568A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190528A (zh) * 2021-04-21 2021-07-30 中国海洋大学 一种并行分布式大数据架构构建方法及系统
CN113746842A (zh) * 2021-09-03 2021-12-03 唯品会(广州)软件有限公司 基于Protobuf协议动态解析的消息发送方法
WO2022216289A1 (en) * 2021-04-08 2022-10-13 Syncadd Systems, Inc. Efficiently accessing, storing and transmitting data elements
CN115563638A (zh) * 2022-11-15 2023-01-03 阿里云计算有限公司 数据处理方法、系统、设备及存储介质
CN117880335A (zh) * 2023-12-08 2024-04-12 中国经济信息社有限公司 数据传输方法、装置、计算设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258242A1 (en) * 2010-04-16 2011-10-20 Salesforce.Com, Inc. Methods and systems for appending data to large data volumes in a multi-tenant store
CN107229670A (zh) * 2017-04-10 2017-10-03 中国科学院信息工程研究所 基于Avro的通用数据序列化及反序列化方法
CN108228912A (zh) * 2018-02-12 2018-06-29 浙江中控技术股份有限公司 一种业务数据的处理方法及相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258242A1 (en) * 2010-04-16 2011-10-20 Salesforce.Com, Inc. Methods and systems for appending data to large data volumes in a multi-tenant store
CN107229670A (zh) * 2017-04-10 2017-10-03 中国科学院信息工程研究所 基于Avro的通用数据序列化及反序列化方法
CN108228912A (zh) * 2018-02-12 2018-06-29 浙江中控技术股份有限公司 一种业务数据的处理方法及相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘潇涵: "面向多数据源的数据迁移系统的设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022216289A1 (en) * 2021-04-08 2022-10-13 Syncadd Systems, Inc. Efficiently accessing, storing and transmitting data elements
CN113190528A (zh) * 2021-04-21 2021-07-30 中国海洋大学 一种并行分布式大数据架构构建方法及系统
CN113190528B (zh) * 2021-04-21 2022-12-06 中国海洋大学 一种并行分布式大数据架构构建方法及系统
CN113746842A (zh) * 2021-09-03 2021-12-03 唯品会(广州)软件有限公司 基于Protobuf协议动态解析的消息发送方法
CN115563638A (zh) * 2022-11-15 2023-01-03 阿里云计算有限公司 数据处理方法、系统、设备及存储介质
CN117880335A (zh) * 2023-12-08 2024-04-12 中国经济信息社有限公司 数据传输方法、装置、计算设备及介质

Similar Documents

Publication Publication Date Title
CN111930568A (zh) 一种基于Avro的结构化数据序列化传输方法及装置
CA2034906C (en) Method and apparatus for describing data to be exchanged between processes
US8583704B2 (en) Systems and methods for efficient data transfer
AU2007254441B2 (en) Efficient piece-wise updates of binary encoded XML data
US5416917A (en) Heterogenous database communication system in which communicating systems identify themselves and convert any requests/responses into their own data format
US7051042B2 (en) Techniques for transferring a serialized image of XML data
US7571173B2 (en) Cross-platform transportable database
US6356946B1 (en) System and method for serializing Java objects in a tubular data stream
KR100836350B1 (ko) Xml 도큐먼트들의 효율적인 관리를 위한 방법 및 장치
US11803336B2 (en) Efficiently accessing, storing and transmitting data elements
US20070005622A1 (en) Method and apparatus for lazy construction of XML documents
US20080021914A1 (en) Database adapter for relational datasets
US20050253739A1 (en) Cross platform transportable tablespaces
CN102804168A (zh) 在数据库系统中减少存储需求的数据压缩
WO2002054291A2 (en) Compact tree representation of markup languages
CN106570018A (zh) 序列化与反序列化的方法、装置、系统以及电子设备
WO2022057357A1 (zh) 数据查询方法及装置、数据库系统
CN116628066B (zh) 数据传输方法、装置、计算机设备和存储介质
Wang et al. A space efficient XML DOM parser
CN114372097B (zh) 一种数据集列序列化的高效连接比对实现方法及装置
WO2021013047A1 (zh) 一种文件管理方法及装置
Peng et al. An engineering data access system for a finite element program
CN111309719B (zh) 一种对应HBase数据库的数据规范方法及系统
US20020165879A1 (en) TD/TDX universal data presentation system and method
CN104572763A (zh) 一种分布式计算系统中对象传递的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201113

WD01 Invention patent application deemed withdrawn after publication