CN116048846A - 数据传输方法、装置、设备和存储介质 - Google Patents

数据传输方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN116048846A
CN116048846A CN202310142783.6A CN202310142783A CN116048846A CN 116048846 A CN116048846 A CN 116048846A CN 202310142783 A CN202310142783 A CN 202310142783A CN 116048846 A CN116048846 A CN 116048846A
Authority
CN
China
Prior art keywords
message queue
data
data transmission
database table
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310142783.6A
Other languages
English (en)
Inventor
杨诗平
陈雅峰
孙扬
柳彬娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202310142783.6A priority Critical patent/CN116048846A/zh
Publication of CN116048846A publication Critical patent/CN116048846A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据传输方法,可以应用于数据处理技术领域或金融科技领域。该数据传输方法包括:响应于数据传输指令,通过预设程序获取数据传输指令中携带的数据库表;基于数据库表,从数据仓库中提取元数据;对元数据进行流量分析,得到流量分析结果;监测消息队列链路的运行数据,并在运行数据超过预设条件的情况下,根据流量分析结果自动创建至少一个空闲的消息队列链路,其中,消息队列链路用于进行数据传输;基于至少一个空闲的消息队列链路,执行数据传输指令。本公开还提供了一种数据传输装置、设备和存储介质。

Description

数据传输方法、装置、设备和存储介质
技术领域
本公开涉及数据处理技术领域或金融科技领域,更具体地涉及一种数据处理方法、装置、设备、存储介质和程序产品。
背景技术
主机系统的DB2(Relational Database Management System,关系型数据库系统)迁移到平台系统,一般是先获取DB2数据,再发送到主机系统的消息队列,由主机的消息队列和平台的消息队列之间建立数据通道并完成数据传输。在实现本公开发明构思的过程中,发明人发现相关技术中一般存在如下问题:在传输的数据量较大的情况下,会存在传输瓶颈,无法做到数据的横向扩展传输,进而降低了数据传输的效率和灵活性。
发明内容
鉴于上述问题,本公开提供了提高数据传输的效率和智能化程度的数据传输方法、装置、设备、存储介质和程序产品。
本公开的一个方面提供了一种数据传输方法,包括:响应于数据传输指令,通过预设程序获取所述数据传输指令中携带的数据库表;基于所述数据库表,从所述数据仓库中提取元数据;对所述元数据进行流量分析,得到所述流量分析结果;监测消息队列链路的运行数据,并在所述运行数据超过预设条件的情况下,根据所述流量分析结果自动创建至少一个空闲的消息队列链路,其中,所述消息队列链路用于进行数据传输;基于所述至少一个空闲的消息队列链路,执行所述数据传输指令。
根据本公开的实施例,所述元数据包括所述数据库表的标识;所述方法还包括:将所述至少一个空闲的消息队列链路登记到消息队列路由表中;通过所述数据库表的标识,从所述消息队列路由表中返回至少一个所述空闲的消息队列链路。
根据本公开的实施例,上述方法还包括:在返回m个空闲的消息队列链路的情况下,利用哈希算法从所述m个空闲的消息队列链路中确定n个目标消息队列链路,其中,m>1,1≤n≤m。
根据本公开的实施例,所述利用哈希算法从所述m个空闲的消息队列链路中确定n个目标消息队列链路包括:提取所述数据库表中的主键字段;通过将所述主键字段的字段值和m值进行哈希运算,得到的哈希值作为n。
根据本公开的实施例,上述方法还包括:对在执行所述数据传输指令的过程中产生的运行参数进行监测,得到监测结果;在所述监测结果表征执行异常的情况下,生成告警信息并执行重试操作;在所述重试操作的执行次数超过预设阀值的情况下,停止执行,并通知相关运维人员。
根据本公开的实施例,所述元数据包括所述数据库表所占用的字节长度;所述对所述元数据进行流量分析,得到所述流量分析结果包括:响应于对所述数据库表的操作,记录所述字节长度的变化;通过分析周期时间内的所述字节长度的变化,得到所述数据库表的流动速率;基于所述数据库表的流动速率,确定所述流量分析结果。
根据本公开的实施例,所述运行数据包括所述消息队列链路的运行内存、所述消息队列链路的传输延时、所述消息队列链路的运行状态参数。
本公开的另一方面还提供了一种数据传输装置,包括:获取模块,用于响应于数据传输指令,通过预设程序获取所述数据传输指令中携带的数据库表;提取模块,用于基于所述数据库表,从所述数据仓库中提取元数据;分析模块,用于对所述元数据进行流量分析,得到所述流量分析结果;第一监测模块,用于监测消息队列链路的运行数据,并在所述运行数据超过预设条件的情况下,根据所述流量分析结果自动创建至少一个空闲的消息队列链路,其中,所述消息队列链路用于进行数据传输;执行模块,用于基于所述至少一个空闲的消息队列链路,执行所述数据传输指令。
本公开的另一方面还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行上述的数据传输方法。
本公开的另一方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述的数据传输方法。
本公开的另一方面还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的数据传输方法。
根据本公开实施例提供的数据传输方法、装置、设备、存储介质和程序产品,通过响应于数据传输指令,通过预设程序获取数据库表;并根据数据库表从数据仓库中提取元数据;对元数据进行流量分析,得到流量分析结果;监测消息队列链路的运行数据,并在运行数据超过预设条件的情况下,根据流量分析结果自动创建至少一个空闲的消息队列链路;并利用空闲的消息队列链路执行数据传输指令。由于在数据传输过程中,结合了对数据库表进行流量分析得到的流量分析结果,并根据流量分析结果自动创建多个消息队列链路,至少部分地克服了相关技术中存在的传输瓶颈,以及无法实现数据的横向扩展传输的问题,进而达到了提高数据传输的效率和灵活性的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的数据传输方法、装置、设备、存储介质和程序产品的应用场景图;
图2示意性示出了根据本公开实施例的数据传输方法的流程图;
图3示意性示出了相关技术的数据传输系统的架构图;
图4示意性示出了根据本公开实施例的数据传输系统的架构图;
图5示意性示出了应用图4的数据传输系统执行的数据传输方法的流程图;
图6示意性示出了根据本公开实施例的数据传输装置的结构框图;以及
图7示意性示出了根据本公开实施例的适于实现数据传输方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开提供了一种数据传输方法、装置、设备、存储介质和程序产品,用于提高数据传输的效率和灵活性,以及提高用户的体验感。具体地,该方法包括响应于数据传输指令,通过预设程序获取数据传输指令中携带的数据库表;基于数据库表,从数据仓库中提取元数据;对元数据进行流量分析,得到流量分析结果;监测消息队列链路的运行数据,并在运行数据超过预设条件的情况下,根据流量分析结果自动创建至少一个空闲的消息队列链路,其中,消息队列链路用于进行数据传输;基于至少一个空闲的消息队列链路,执行数据传输指令。
需要说明的是,本公开实施例确定的数据传输方法和装置可用于数据处理技术领域或金融科技领域,也可用于除数据处理技术领域或金融科技领域之外的任意领域,本公开实施例对确定的数据传输方法和装置的应用领域不做限定。
在本公开的技术方案中,所涉及的数据(如包括但不限于用户个人信息)的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
图1示意性示出了根据本公开实施例的数据传输方法、装置、设备、存储介质和程序产品的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103、网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送数据传输指令等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如金融类应用、购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所发送的数据传输指令提供处理并执行的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的数据传输指令等数据进行分析等处理,并将处理结果(例如根据数据传输指令获取或生成的传输链路、网页、信息、或数据等)反馈给终端设备。例如,服务器105可以响应于数据传输指令,通过预设程序获取数据传输指令中携带的数据库表;基于数据库表,从数据仓库中提取元数据;对元数据进行流量分析,得到流量分析结果;监测消息队列链路的运行数据,并在运行数据超过预设条件的情况下,根据流量分析结果自动创建至少一个空闲的消息队列链路,其中,消息队列链路用于进行数据传输;基于至少一个空闲的消息队列链路,执行数据传输指令。
需要说明的是,本公开实施例所提供的数据传输方法一般可以由服务器105执行。相应地,本公开实施例所提供的数据传输装置一般可以设置于服务器105中。本公开实施例所提供的数据传输方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据传输装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图5对本公开实施例的数据传输方法进行详细描述。
图2示意性示出了根据本公开实施例的数据传输方法的流程图。
如图2所示,该实施例的数据传输方法包括操作S201~操作S205。
在操作S201,响应于数据传输指令,通过预设程序获取数据传输指令中携带的数据库表。
在操作S202,基于数据库表,从数据仓库中提取元数据。
在操作S203,对元数据进行流量分析,得到流量分析结果。
在操作S204,监测消息队列链路的运行数据,并在运行数据超过预设条件的情况下,根据流量分析结果自动创建至少一个空闲的消息队列链路,其中,消息队列链路用于进行数据传输。
在操作S205,基于至少一个空闲的消息队列链路,执行数据传输指令。
根据本公开的实施例,数据传输指令可以是通过响应一些操作而生成的,例如在响应到有交易处理的操作时生成的传输交易数据的指令,或者是在数据库表中进行插入数据、删除数据、修改数据等操作时生成的传输所修改的数据的指令。
根据本公开的实施例,预设程序可以包括Qrep Capture出口程序。Qrep Capture出口程序不同于Qrep Capture。Qrep Capture出口程序是一种系统化的技术,可以把QrepCapture的记录发送到其他系统。而Qrep Capture是IBM大型主机上的DB2数据复制产品,用于主机到主机、主机到平台的DB2数据复制,通过读取DB2日志把数据表的记录发送到目标系统。
根据本公开的实施例,数据库表可以是指DB2表。DB2表是指在创建DB2数据库(DB2数据库可以理解为一种大型关系型数据平台,可以支持用户或应用程序在同一条结构化查询语言中查询不同数据库甚至不同数据库管理系统中的数据)时创建的一些系统表,这些系统表记录了所有数据库对象(表、视图等)的相关信息,例如记录数据库对象的名称(包括表、视图的别名等)、程序、程序名称、程序实例名称等、依赖对象、依赖对象的名称、依赖对象的类型等。在本公开的实施例中,DB2表中可以包括多条数据记录,每一条数据记录可以是通过响应交易业务得到的。例如在响应到交易业务时,根据交易业务进行的插入多张表格、插入多行/列数据、删除多张表格、删除多行/列数据等。
根据本公开的实施例,数据仓库中可以存储元数据,元数据可以理解为中介数据,主要是描述数据属性的信息,并用来支持指示存储位置、历史数据、资源查找、文件记录等功能。在本公开的实施例中,元数据可以包括数据库表的标识、数据库表所占用的字节长度。其中,数据库表的标识可以理解为数据库表的名称。数据库表所占用的字节长度可以是根据数据库表中每一条数据记录所占用的字节得到的。
根据本公开的实施例,流量分析可以理解为对元数据进行实时流量的计算,并完成对每个DB2表的流动速率、已处理数据记录的总字节长度的分析。得到的流量分析结果可以作为后续确定是否需要创建消息队列链路的依据。
根据本公开的实施例,消息队列链路的运行数据可以包括消息队列链路的运行内存、消息队列链路的传输延时、消息队列链路的运行状态参数。
根据本公开的实施例,预设条件可以是根据运行内存、延时阈值、运行状态构建的。预设条件可以根据实际需求进行适应性设置。运行数据超过预设条件的情况可以理解为以下情况的至少一种:运行内存超过预设的内存值、传输延时超过预设的延时阈值、运行状态参数达到了预设的超负荷状态的参数等。
根据本公开的实施例,在运行数据超过预设条件的情况下,可以自动创建多条空闲的消息队列链路,并利用空闲的消息队列链路执行数据传输指令。
根据本公开实施例提供的数据传输方法、装置、设备、存储介质和程序产品,通过响应于数据传输指令,通过预设程序获取数据库表;并根据数据库表从数据仓库中提取元数据;对元数据进行流量分析,得到流量分析结果;监测消息队列链路的运行数据,并在运行数据超过预设条件的情况下,根据流量分析结果自动创建至少一个空闲的消息队列链路;并利用空闲的消息队列链路执行数据传输指令。由于在数据传输过程中,结合了对数据库表进行流量分析得到的流量分析结果,并根据流量分析结果自动创建多个消息队列链路,至少部分地克服了相关技术中存在的传输瓶颈,以及无法实现数据的横向扩展传输的问题,进而达到了提高数据传输的效率和灵活性的技术效果。
根据本公开的实施例,操作S203还可以包括如下操作:响应于对所述数据库表的操作,记录所述字节长度的变化;通过分析周期时间内的所述字节长度的变化,得到所述数据库表的流动速率;基于所述数据库表的流动速率,确定所述流量分析结果。
根据本公开的实施例,在一个数据库表中,每处理一条数据记录,则数据库表的字节长度会发生变化,根据一定时间内的字节长度的变化,可以确定数据库表的流动速率。具体地,流动速率可以是指每分钟传输了多少字节长度的数据记录;或者是每分钟复制了多少个字节长度的数据记录;或者是每分钟复制了多少行的数据记录。通过流量分析得到的流动速率可以作为流量分析结果。
根据本公开实施例提供的数据传输方法,还可以做到对数据流量的监测与控制,提高数据传输的灵活性。
根据本公开的实施例,元数据可以包括数据库表的标识,上述方法还可以包括如下操作:将至少一个空闲的消息队列链路登记到消息队列路由表中;通过数据库表的标识,从消息队列路由表中返回至少一个空闲的消息队列链路。
根据本公开的实施例,消息队列路由表中可以中可以记载有多个消息队列链路及其链路的名称。该路由表中除新创建的空闲链路外,其他的消息队列链路可以是提前先配置的,以便在识别到数据传输指令时,可以根据数据传输指令中的属性参数找到对应的消息队列链路进行传输,以提高数据传输的效率。
根据本公开的实施例,在创建空闲的消息队列链路时,可以为该空闲的链路配置可以识别该链路的链路标识,并将该链路标识和链路地址一同登记到路由表中,可以理解的是,该链路标识可以与数据库表的标识相关联。在后续操作中,可以在消息队列路由表中找到与数据库标识相关联的链路标识,并返回与该链路标识相对应的链路地址。
根据本公开的实施例,在返回的空闲消息队列链路为1个时,可以将该1个空闲的消息队列链路作为目标消息队列链路,并利用该目标消息队列链路进行数据传输。在返回的空闲消息队列链路的个数为m(m>1)时,可以利用哈希算法从m个空闲的消息队列链路中确定n个目标消息队列链路,其中,m>1,1≤n≤m。
根据本公开的实施例,利用哈希算法从m个空闲的消息队列链路中确定n个目标消息队列链路的过程可以包括如下操作:提取数据库表中的主键字段;通过将主键字段的字段值和m值进行哈希运算,得到的哈希值作为n。
根据本公开的实施例,主键字段可以是表中一个或多个字段,主键字段的字段值可以用于标识表中的某一条数据记录,例如某一行数据或某一个实体。一个表的主键可以由多个关键字共同组成。
根据本公开的实施例,若消息队列路由表返回的是m个消息队列链路(可以理解的是,该m个消息队列链路可以包括仍有运行资源的消息队列链路,也可以包括创建的空闲的消息队列链路),则需要根据数据记录中的主键字段的字段值和m值进行哈希运算得到一个哈希值n,n的取值范围可以是1≤n≤m,那么消息队列路由表返回的m个消息队列链路中的第n个地址就是该数据记录需要发送的目标消息队列链路。
根据本公开的实施例,通过哈希算法从m个空闲的消息队列链路中确定n个目标消息队列链路,可以对数据量较大的数据库表进行分流处理,可以为每一条数据记录确定一个目标消息队列链路,因此,可以实现一个数据库表可以通过多条消息队列链路进行传输,解决了相关技术中由于一个数据库表只能从一个消息队列链路进行传输而导致的数据传输效率低的问题,进而实现对数据量较大的数据库表进行均衡分流,保障每个消息队列链路的稳定性,提升整体数据的同步失效。
根据本公开的实施例,通过动态监测消息队列链路得运行数据和数据库表的流量信息,在出现消息队列链路内存紧张或数据延迟超过阀值的情况下,可以自动从单个消息队列链路横向扩展到多个消息队列链路,解决了数据量较大的数据库表通过单个消息队列链路进行传输时存在的传输能力不足,传输效率低、数据同步性低的问题。另外,对数据量较大的数据库表进行传输的过程是动态、实时、变化的,无需人工干预,有效提升数据传输的吞吐效率。
根据本公开的实施例,在执行数据传输指令的过程中,可以对执行数据传输指令的过程中产生的运行参数进行监测,得到监测结果;在监测结果表征执行异常的情况下,生成告警信息并执行重试操作;在重试操作的执行次数超过预设阀值的情况下,停止执行,并通知相关运维人员。
根据本公开的实施例,运行参数可以是用于表征数据传输指令执行情况的参数,例如传输速率、传输时长、传输字节等。若监测结果表征数据传输指令执行异常,例如网络故障、超时、丢包,则会及时告警并重试执行直到恢复正常,若重试次数超过预设阀值后可以主动停止运行,并通知相关运维人员进行排查分析。预设阀值可以根据实际需要进行适应性调整。
根据本公开的实施例,通过自动监测数据传输指令的执行情况,并在异常时先告警和重试执行,并在重试超过一定次数后再停止运行,可以提高数据传输过程的自动化程度和智能化程度,降低运维人员的负担,降低人力消耗,提高数据传输的效率。
图3示意性示出了相关技术的数据传输系统的架构图。
如图3所示,相关技术的数据传输系统300可以包括DB2数据库301、Qrep Capture模块302、主机系统的MQ(Message Queue,消息队列)链路303、平台系统的MQ链路304、应用305、目标数据库306。消息队列可以理解为IBM大型主机和平台的消息中间件产品,可以存储不同种类的消息数据,具备上下游的数据解耦、消峰填谷能力。应用305可以立即为平台侧从平台系统的MQ链路304读取数据并写到目标数据库306的程序。
继续参照图3,数据传输一般是指在主机和平台之间进行数据传输。IBM主机系统的DB2数据迁移到Suse平台系统,一般是通过主机IBM的Qrep Capture模块302从DB2数据库301中获取DB2数据,然后发送到主机系统的MQ链路303,由主机系统的MQ链路303和平台系统的MQ链路304建立数据通道,最终由应用305获取平台系统的MQ链路304的数据,并写到目标数据库306。
但该技术方案一般存在技术限制,Qrep Capture只能连接一个主机MQ,并且QrepCapture获取到的所有DB2表数据只能直接转发到主机MQ。当批量程序更新DB2数据库的某一张数据量较大的表格文件时,并且表格文件中更新的数据量在亿级以上时,由于QrepCapture发送速度大于主机MQ的发送速度,因此经常导致主机MQ出现内存空间已满、平台接收数据延迟等问题,无法满足主机的批量数据实时下传到平台的业务要求,影响到业务的实时体验。
而且相关技术在传输数据的过程中还存在以下问题:Qrep Capture的吞吐性能优于主机MQ的传输性能,主机MQ在大数据量更新时存在吞吐瓶颈;Qrep Capture只能发送1个主机MQ,无法做到横向扩展传输;Qrep Capture只能直接转发数据,无法做到数据流量的控制;主机MQ已为高时效数据同步到平台的最优方案,但主机MQ的内存容量、发送速度仍不能满足亿级更新量的批量数据传输要求,进而会影响到业务的实时体验,降低了用户的体验感,也降低了数据传输的效率和灵活性。
图4示意性示出了根据本公开实施例的数据传输系统的架构图。
如图4所示,该实施例的数据传输系统400可以包括DB2数据库401、出口程序402、记录捕获模块403、MQ分发模块404、流量分析模块405、智能监测模块406、MQ监测模块407、主机系统的MQ链路408、平台系统的MQ链路409、应用410、目标数据库411。可以理解的是,图4中的省略号可以用于表示多个主机系统的MQ链路408,或者表示平台系统的MQ链路409。
记录捕获模块403,主要用于获取Qrep Capture出口程序402发送的DB2表的数据记录、提取表的元数据和数据转发功能。对于每一条DB2表的数据记录,该模块会提取本数据记录对应的表名、数据记录的字节长度等元数据,异步发送给405流量分析模块;然后DB2表的数据记录转发给404MQ分发模块处理。
MQ分发模块404,主要用于把DB2表的数据记录发送到指定的主机MQ地址,实现MQ多链路分发功能。对于每一条DB2表的数据记录,先根据数据记录对应的表名查询MQ路由表,若MQ路由表查询返回的是可直接发送的MQ地址,则该数据记录直接发送到该MQ地址;若MQ路由表返回的是m个MQ地址,则该数据记录会根据数据记录中的主键字段和m值进行哈希运算得到一个哈希值n,n的取值范围是1≤n≤m,那么MQ路由表返回的m个MQ地址中的第n个地址就是该数据记录需要发送的目标MQ地址,MQ分发模块404完成该目标MQ地址的记录分发;若多链路分发过程中发生发送异常,会及时告警并重试发送直到恢复正常,若重试次数超过阀值后就主动停止运行,需要运维人员进行排查分析。
流量统计模块405,主要用于对表的数据记录的元数据进行实时流量计算,完成每个表的流动速率、已发送数据记录的总字节长度的计算和存储,为406智能监测模块提供数据分析依据。
智能监测模块406,主要用于调用和查看405流量统计模块的实时流量统计信息,用于动态检测每张表的流动速率和总字节长度的流量。智能监测模块406还用于调用MQ监测模块407获取各个MQ的运行状态、MQ内存容量、MQ数据延迟等信息,若MQ内存容量、数据延迟超过预警阀值,则结合数据库表的流量统计信息,为该数据库表重新选取另外一个空闲的MQ节点,然后把数据库表的数据记录分流到该新的闲置的MQ节点,通过动态扩展MQ新链路、并将数据库表的数据记录进行分流,可以实现数据量较大的数据库表的多链路分发。智能监测模块406还用于把与数据库表对应的新的空闲MQ地址登记到MQ路由表。
MQ监测模块407,主要用于监测和获取各个MQ的运行状态、MQ内存容量、MQ数据延迟等信息。还用于MQ连接的初始化和关闭等操作,以节省MQ节点的运行资源。
根据本公开实施例提供的数据传输系统,既能保持原来的MQ传输方式,还增加了智能流量感知、自动创建多链路、智能数据路由均衡算法,解决了原来方案的不足,保证传输的数据量较大时,数据能够实时下传到平台。
根据本公开的实施例,通过提供一种基于主机MQ实现大量数据的传输方法,通过设置一个多链路的数据传输系统400,当遇到数据量较大的数据库表进行数据更新时MQ内存空间不足、传输延迟增高等问题时,通过智能分析和自动新建多条并行MQ传输链路,并且通过哈希路由算法把数据库表的流量均衡分散到不同的MQ链路,从而解决了原来单个MQ存储不足、传输延迟大的问题。
根据本公开的实施例,Qrep Capture提供了出口程序,用于把数据库表中的数据记录发送到其他外部系统。通过实现一个MQ多链路智能分发系统,捕获Qrep Capture出口程序提供的数据记录,实时统计每个表的流量信息,当遇到由于主机运行批量程序而导致的数据库表产生大量数据更新、并且Qrep Capture发送速度大于主机MQ的发送速度时,该数据传输系统能实时检测MQ的内存和数据延迟情况,当MQ内存或数据延迟超过阀值时,能动态新建MQ节点,把数据库表的流量平均发送到多条不同的MQ链路,从而避免单条MQ链路发生的内存空间已满、平台接收数据延迟等问题。
图5示意性示出了应用图4的数据传输系统执行的数据传输方法的流程图。
如图5所示,该实施例的数据传输方法包括操作S501~S505。
在操作S501,捕获Qrep Capture出口程序提供的记录,提取表的元数据发送给流量分析模块,数据记录发送给MQ分发模块。
在操作S502,流量统计模块对表的元数据进行实时流量计算,完成每个表的流动速率、已发送数据记录的总字节长度的计算和存储。
在操作S503,MQ监测模块实时监测MQ运行状态、内存容量、数据延迟等信息。
在操作S504,智能监测模块同时监测表的实时流量情况和MQ运行情况,当MQ出现内存、数据延迟超过阀值,智能监测模块根据流量情况判断和选取数据库表,向MQ监测模块申请新的空闲MQ节点,并且把新的空闲MQ节点登记到数据库表的MQ路由表中。
在操作S505,MQ分发模块通过查询MQ路由表,获取记录将要发送的MQ地址。若MQ路由表查询返回单个目标的MQ地址,则把记录发送到该MQ地址;若MQ路由表查询返回多个MQ地址,则通过哈希算法计算出记录对应的目标MQ地址,最后把记录发送到该MQ地址。
根据本公开的实施例,操作S401~擦作S405与操作S201~操作S205之间,相关的内容可以相互参考,在此不再赘述。
根据本公开实施例提供的数据传输方法,可以通过动态监测MQ节点和表的流量信息,当出现MQ内存紧张或数据延迟超过阀值时,能自动实现从单MQ节点横向扩展为多MQ节点,解决了数据量较大的数据库表通过单MQ传输上的能力不足。数据量较大的数据库表的多链路发送是动态、实时、变化的,无需人工干预,有效提升数据传输的吞吐效率。根据动态调整的MQ节点数量,通过哈希算法能均衡分流数据量较大的数据库表的数据,保证每个MQ节点性能稳定,提升整体数据的同步时效。
需要说明的是,本公开实施例中的流程图所示的操作除非明确说明不同操作之间存在执行的先后顺序,或者不同操作在技术实现上存在执行的先后顺序,否则,多个操作之间的执行顺序可以不分先后,多个操作也可以同时执行。
基于上述数据传输方法,本公开还提供了一种数据传输装置。以下将结合图6对该装置进行详细描述。
图6示意性示出了根据本公开实施例的数据传输装置的结构框图。
如图6所示,该实施例的数据传输装置600包括获取模块610、提取模块620、分析模块630、第一监测模块640和执行模块650。
获取模块610,用于响应于数据传输指令,通过预设程序获取数据传输指令中携带的数据库表;
提取模块620,用于基于数据库表,从数据仓库中提取元数据;
分析模块630,用于对元数据进行流量分析,得到流量分析结果;
第一监测模块640,用于监测消息队列链路的运行数据,并在运行数据超过预设条件的情况下,根据流量分析结果自动创建至少一个空闲的消息队列链路,其中,消息队列链路用于进行数据传输;
执行模块650,用于基于至少一个空闲的消息队列链路,执行数据传输指令。
根据本公开实施例提供的数据传输方法、装置、设备、存储介质和程序产品,通过响应于数据传输指令,通过预设程序获取数据库表;并根据数据库表从数据仓库中提取元数据;对元数据进行流量分析,得到流量分析结果;监测消息队列链路的运行数据,并在运行数据超过预设条件的情况下,根据流量分析结果自动创建至少一个空闲的消息队列链路;并利用空闲的消息队列链路执行数据传输指令。由于在数据传输过程中,结合了对数据库表进行流量分析得到的流量分析结果,并根据流量分析结果自动创建多个消息队列链路,至少部分地克服了相关技术中存在的传输瓶颈,以及无法实现数据的横向扩展传输的问题,进而达到了提高数据传输的效率和灵活性的技术效果。
根据本公开的实施例,数据传输装置还可以包括登记模块、返回模块。
登记模块,用于将至少一个空闲的消息队列链路登记到消息队列路由表中。
返回模块,用于通过数据库表的标识,从消息队列路由表中返回至少一个空闲的消息队列链路。
根据本公开的实施例,数据传输装置还可以包括确定模块。
确定模块,用于在返回m个空闲的消息队列链路的情况下,利用哈希算法从m个空闲的消息队列链路中确定n个目标消息队列链路,其中,m>1,1≤n≤m。
根据本公开的实施例,确定模块还可以包括提取单元、运算单元。
提取单元,用于提取数据库表中的主键字段。
运算单元,用于通过将主键字段的字段值和m值进行哈希运算,得到的哈希值作为n。
根据本公开的实施例,数据传输装置还可以包括第二监测模块、生成模块、通知模块。
第二监测模块,用于对在执行数据传输指令的过程中产生的运行参数进行监测,得到监测结果。
生成模块,用于在监测结果表征执行异常的情况下,生成告警信息并执行重试操作。
通知模块,用于在重试操作的执行次数超过预设阀值的情况下,停止执行,并通知相关运维人员。
根据本公开的实施例,分析模块还可以包括记录单元、分析单元、确定单元。
记录单元,用于响应于对数据库表的操作,记录字节长度的变化。
分析单元,用于通过分析周期时间内的字节长度的变化,得到数据库表的流动速率。
确定单元,用于基于数据库表的流动速率,确定流量分析结果。
根据本公开的实施例,获取模块610、提取模块620、分析模块630、第一监测模块640和执行模块650中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,获取模块610、提取模块620、分析模块630、第一监测模块640和执行模块650中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块610、提取模块620、分析模块630、第一监测模块640和执行模块650中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中数据传输装置部分与本公开的实施例中数据传输方法部分是相对应的,数据传输装置部分的描述具体参考数据传输方法部分,在此不再赘述。
图7示意性示出了根据本公开实施例的适于实现数据传输方法的电子设备的方框图。
如图7所示,根据本公开实施例的电子设备700包括处理器701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 703中,存储有电子设备700操作所需的各种程序和数据。处理器701、ROM702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备700还可以包括输入/输出(I/O)接口705,输入/输出(I/O)接口705也连接至总线704。电子设备700还可以包括连接至I/O接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的数据传输方法。
在该计算机程序被处理器701执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、执行,并通过通信部分709被下载和安装,和/或从可拆卸介质711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (11)

1.一种数据传输方法,包括:
响应于数据传输指令,通过预设程序获取所述数据传输指令中携带的数据库表;
基于所述数据库表,从所述数据仓库中提取元数据;
对所述元数据进行流量分析,得到所述流量分析结果;
监测消息队列链路的运行数据,并在所述运行数据超过预设条件的情况下,根据所述流量分析结果自动创建至少一个空闲的消息队列链路,其中,所述消息队列链路用于进行数据传输;
基于所述至少一个空闲的消息队列链路,执行所述数据传输指令。
2.根据权利要求1所述的方法,其中,所述元数据包括所述数据库表的标识;
所述方法还包括:将所述至少一个空闲的消息队列链路登记到消息队列路由表中;
通过所述数据库表的标识,从所述消息队列路由表中返回至少一个所述空闲的消息队列链路。
3.根据权利要求2所述的方法,还包括:
在返回m个空闲的消息队列链路的情况下,利用哈希算法从所述m个空闲的消息队列链路中确定n个目标消息队列链路,其中,m>1,1≤n≤m。
4.根据权利要求3所述的方法,其中,所述利用哈希算法从所述m个空闲的消息队列链路中确定n个目标消息队列链路包括:
提取所述数据库表中的主键字段;
通过将所述主键字段的字段值和m值进行哈希运算,得到的哈希值作为n。
5.根据权利要求1所述的方法,还包括:
对在执行所述数据传输指令的过程中产生的运行参数进行监测,得到监测结果;
在所述监测结果表征执行异常的情况下,生成告警信息并执行重试操作;
在所述重试操作的执行次数超过预设阀值的情况下,停止执行,并通知相关运维人员。
6.根据权利要求1所述的方法,其中,所述元数据包括所述数据库表所占用的字节长度;
所述对所述元数据进行流量分析,得到所述流量分析结果包括:
响应于对所述数据库表的操作,记录所述字节长度的变化;
通过分析周期时间内的所述字节长度的变化,得到所述数据库表的流动速率;
基于所述数据库表的流动速率,确定所述流量分析结果。
7.根据权利要求1所述的方法,其中,所述运行数据包括所述消息队列链路的运行内存、所述消息队列链路的传输延时、所述消息队列链路的运行状态参数。
8.一种数据传输装置,包括:
获取模块,用于响应于数据传输指令,通过预设程序获取所述数据传输指令中携带的数据库表;
提取模块,用于基于所述数据库表,从所述数据仓库中提取元数据;
分析模块,用于对所述元数据进行流量分析,得到所述流量分析结果;
第一监测模块,用于监测消息队列链路的运行数据,并在所述运行数据超过预设条件的情况下,根据所述流量分析结果自动创建至少一个空闲的消息队列链路,其中,所述消息队列链路用于进行数据传输;
执行模块,用于基于所述至少一个空闲的消息队列链路,执行所述数据传输指令。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~7中任一项所述的方法。
CN202310142783.6A 2023-02-07 2023-02-07 数据传输方法、装置、设备和存储介质 Pending CN116048846A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310142783.6A CN116048846A (zh) 2023-02-07 2023-02-07 数据传输方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310142783.6A CN116048846A (zh) 2023-02-07 2023-02-07 数据传输方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN116048846A true CN116048846A (zh) 2023-05-02

Family

ID=86116518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310142783.6A Pending CN116048846A (zh) 2023-02-07 2023-02-07 数据传输方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116048846A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117412083A (zh) * 2023-11-07 2024-01-16 南月(广州)机器人科技有限公司 一种用于竞技产品教学的物联网视频传输方法
CN117412083B (zh) * 2023-11-07 2024-05-14 南月(广州)机器人科技有限公司 一种用于竞技产品教学的物联网视频传输方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117412083A (zh) * 2023-11-07 2024-01-16 南月(广州)机器人科技有限公司 一种用于竞技产品教学的物联网视频传输方法
CN117412083B (zh) * 2023-11-07 2024-05-14 南月(广州)机器人科技有限公司 一种用于竞技产品教学的物联网视频传输方法

Similar Documents

Publication Publication Date Title
US11500875B2 (en) Multi-partitioning for combination operations
US11768811B1 (en) Managing user data in a multitenant deployment
US10348809B2 (en) Naming of distributed business transactions
US11281706B2 (en) Multi-layer partition allocation for query execution
US11775501B2 (en) Trace and span sampling and analysis for instrumented software
US20190095493A1 (en) Multi-partition operation in combination operations
US8935709B2 (en) Monitoring information assets and information asset topologies
CN109947668B (zh) 存储数据的方法和装置
CN111124819B (zh) 全链路监控的方法和装置
US11449371B1 (en) Indexing data at a data intake and query system based on a node capacity threshold
US11681707B1 (en) Analytics query response transmission
US11645179B2 (en) Method and apparatus of monitoring interface performance of distributed application, device and storage medium
US9456026B2 (en) File change notifications in a scale-out NAS system
CN113760677A (zh) 异常链路分析方法、装置、设备及存储介质
US8732323B2 (en) Recording medium storing transaction model generation support program, transaction model generation support computer, and transaction model generation support method
US20110246541A1 (en) Data management apparatus and method
CN114461792A (zh) 告警事件关联方法、装置、电子设备、介质及程序产品
CN109189652A (zh) 一种封闭网络终端行为数据的采集方法及系统
CN116048846A (zh) 数据传输方法、装置、设备和存储介质
CN114448976B (zh) 网络报文的组装方法、装置、设备、介质和程序产品
CN113794719B (zh) 一种基于Elasticsearch技术网络异常流量分析方法、装置和电子设备
CN115033457B (zh) 一种可监控预警的多源数据实时采集方法及系统
CN109710673B (zh) 作品处理方法、装置、设备和介质
CN117194161A (zh) 数据库异常处理方法及装置、电子设备和存储介质
US11704285B1 (en) Metrics and log integration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination