CN112667686A - 一种实时流数据拼接方法及装置 - Google Patents

一种实时流数据拼接方法及装置 Download PDF

Info

Publication number
CN112667686A
CN112667686A CN202011623881.4A CN202011623881A CN112667686A CN 112667686 A CN112667686 A CN 112667686A CN 202011623881 A CN202011623881 A CN 202011623881A CN 112667686 A CN112667686 A CN 112667686A
Authority
CN
China
Prior art keywords
real
data
spliced
time
streaming data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011623881.4A
Other languages
English (en)
Inventor
钟新斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202011623881.4A priority Critical patent/CN112667686A/zh
Publication of CN112667686A publication Critical patent/CN112667686A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请公开了一种实时流数据拼接方法及装置,该方法包括:获取至少一路待拼接实时流数据;待拼接实时流数据包括主键字段和数据字段。将各路待拼接实时流数据中主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中;拼接缓存队列的个数为至少一个。将各个拼接缓存队列中有相同主键字段的待拼接实时流数据确定为目标待拼接实时流数据。将目标待拼接实时流数据的数据字段拼接在一起,获得预处理拼接数据。判断预处理拼接数据是否满足预设条件。若满足预设条件,确定预处理拼接数据为拼接完整数据。通过本申请实施例提供的实时流数据拼接方法,不用依赖于外部存储设备,利用拼接运行时的内存空间即可完成实时流数据的拼接,可靠性高。

Description

一种实时流数据拼接方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种实时流数据拼接方法及装置。
背景技术
随着大数据相关技术的发展,越来越多的场景需要采用实时流数据处理方式来保证数据处理的时效性。在实时流数据处理过程中,需要将分散的实时数据流拼接完整以供下游应用使用。
目前,现有的实时流数据拼接方法需依靠外部存储暂存存储设备来完成,该方法不适用于实时流数据拼接的普适场景。
发明内容
为了解决上述技术问题,本申请提供了一种实时流数据拼接方法及装置,用于解决现有的实时流数据拼接方法需要依靠外部存储暂存存储设备来完成的技术问题。
为了实现上述目的,本申请实施例提供的技术方案如下:
本申请实施例提供一种实时流数据拼接方法,该方法包括:
获取至少一路待拼接实时流数据;所述待拼接实时流数据包括主键字段和数据字段;
将各路所述待拼接实时流数据中所述主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中;所述拼接缓存队列的个数为至少一个;
将各个所述拼接缓存队列中有相同所述主键字段的待拼接实时流数据确定为目标待拼接实时流数据;
将所述目标待拼接实时流数据的所述数据字段拼接在一起,获得预处理拼接数据;
判断所述预处理拼接数据是否满足预设条件;
若满足预设条件,确定所述预处理拼接数据为拼接完整数据。
可选的,在所述判断所述预处理拼接数据是否满足预设条件之后,所述方法还包括:
若不满足预设条件,将所述预处理拼接数据确定为预重试实时流数据;
将所述预重试实时流数据写入到所述拼接缓存队列的当前时间片中进行缓存;任一个所述拼接缓存队列包含预设数量个缓存空间,所述预设数量个缓存空间对应预设数量个时间片;所述预设数量个时间片中包括当前时间片和待清理时间片。
可选的,所述方法还包括:
在所述将各路所述待拼接实时流数据中所述主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中之后,将各个所述拼接缓存队列中有相同所述主键字段的待拼接实时流数据确定为目标待拼接实时流数据之前,判断各个所述拼接缓存队列中缓存的所述预重试实时流数据是否达到清理条件;所述清理条件包括所述预重试实时流数据达到预设缓存路数或达到预设时间阈值;
若达到清理条件,将待清理时间片对应的所述预重试实时流数据确定为重试实时流数据;
将所述重试实时流数据进行标记操作,获得标记的重试实时流数据;
将所述标记的重试实时流数据重新确定为待拼接实时流数据以进行再次重试拼接;
记录所述标记的重试实时流数据的重试拼接次数;
当所述重试拼接次数超过次数阈值时,对所述标记的重试实时流数据执行写出操作。
可选的,在所述若达到清理条件,将待清理时间片对应的所述预重试实时流数据确定为重试实时流数据之后,将所述重试实时流数据进行标记操作,获得标记的重试实时流数据之前,所述方法还包括:
更新所述预设数量个缓存空间对应的预设数量个时间片的实时流数据;所述预设数量个缓存空间为各个所述拼接缓存队列的预设数量个缓存空间。
可选的,所述方法还包括:
对所述拼接完整数据执行写出操作。
本申请实施例还提供了一种实时流数据拼接装置,该装置包括:
第一获取单元,用于获取至少一路待拼接实时流数据;所述待拼接实时流数据包括主键字段和数据字段;
发送单元,用于将各路所述待拼接实时流数据中所述主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中;所述拼接缓存队列的个数为至少一个;
第一确定单元,用于将各个所述拼接缓存队列中有相同所述主键字段的待拼接实时流数据确定为目标待拼接实时流数据;
第二获取单元,用于将所述目标待拼接实时流数据的所述数据字段拼接在一起,获得预处理拼接数据;
第一判断单元,用于判断所述预处理拼接数据是否满足预设条件;
第二确定单元,用于当所述第一判断单元的判断结果为所述预处理拼接数据满足预设条件时,确定所述预处理拼接数据为拼接完整数据。
可选的,所述装置还包括:
第三确定单元,用于在所述判断所述预处理拼接数据是否满足预设条件之后,当所述第一判断单元的判断结果为所述预处理拼接数据不满足预设条件时,将所述预处理拼接数据确定为预重试实时流数据;
缓存单元,用于将所述预重试实时流数据写入到所述拼接缓存队列的当前时间片中进行缓存;任一个所述拼接缓存队列包含预设数量个缓存空间,所述预设数量个缓存空间对应预设数量个时间片;所述预设数量个时间片中包括当前时间片和待清理时间片。
可选的,所述装置还包括:
第二判断单元,用于在所述将各路所述待拼接实时流数据中所述主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中之后,将各个所述拼接缓存队列中有相同所述主键字段的待拼接实时流数据确定为目标待拼接实时流数据之前,判断各个所述拼接缓存队列中缓存的所述预重试实时流数据是否达到清理条件;所述清理条件包括所述预重试实时流数据达到预设缓存路数或达到预设时间阈值;
第四确定单元,用于若达到清理条件,将待清理时间片对应的所述预重试实时流数据确定为重试实时流数据;
第三获取单元,用于将所述重试实时流数据进行标记操作,获得标记的重试实时流数据;
第五确定单元,用于将所述标记的重试实时流数据重新确定为待拼接实时流数据以进行再次重试拼接;
记录单元,用于记录所述标记的重试实时流数据的重试拼接次数;
第一写出单元,用于当所述重试拼接次数超过次数阈值时,对所述标记的重试实时流数据执行写出操作。
可选的,所述装置还包括:
更新单元,用于在所述若达到清理条件,将待清理时间片对应的所述预重试实时流数据确定为重试实时流数据之后,将所述重试实时流数据进行标记操作,获得标记的重试实时流数据之前,更新所述预设数量个缓存空间对应的预设数量个时间片的实时流数据;所述预设数量个缓存空间为各个所述拼接缓存队列的预设数量个缓存空间。
可选的,所述装置还包括:
第二写出单元,用于对所述拼接完整数据执行写出操作。
通过上述技术方案可知,本申请具有以下有益效果:
本申请实施例提供了一种实时流数据拼接方法及装置,该方法包括:获取至少一路待拼接实时流数据;待拼接实时流数据包括主键字段和数据字段。将各路待拼接实时流数据中主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中;拼接缓存队列的个数为至少一个。将各个拼接缓存队列中有相同主键字段的待拼接实时流数据确定为目标待拼接实时流数据。将目标待拼接实时流数据的数据字段拼接在一起,获得预处理拼接数据。判断预处理拼接数据是否满足预设条件。若满足预设条件,确定预处理拼接数据为拼接完整数据。通过本申请实施例提供的实时流数据拼接方法,不用依赖于外部存储设备,利用拼接运行时的内存空间即可完成实时流数据的拼接,可靠性高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种实时流数据拼接方法的流程图;
图2为本申请实施例提供的拼接缓存队列的结构图;
图3为本申请实施例提供的一种实时流数据重试拼接过程的流程图;
图4为本申请实施例提供的一种实时流数据拼接方法的示例性应用场景的示意图;
图5为本申请实施例提供的一种实时流数据拼接装置的示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
随着大数据相关技术的发展,企业对数据的时效性要求越来越高,越来越多的场景采用实时流处理方式来提高数据处理时效。由于系统建设的原因,在实际的实时流数据处理中,往往一条数据流中并不包含完整的信息,字段信息分散在多个数据流中,后续应用在对这些实时流数据处理之前,需要对这些分散的数据流进行关联拼接。例如,在金融性交易流水中,实时交易流水数据会将交易本方、交易对手字段信息记录写出到不同的数据流中,下游反欺诈等应用在对交易流水处理之前,需要对该条完整的交易流水字段信息进行拼接补齐。
由于分散在多路的实时流数据因发送时间、网络和传输时延等不同,在需要拼接处理环节接收到的各路流数据不能做到精确同步,因此需要一定的容忍时间等待所有带拼接数据到齐才能实现关联补齐。现有技术的方法是引入外部存储暂存,等数据到齐后进行关联,但是该方法需要依托KV存储引擎,不易迁移扩展到实时流数据拼接的普适场景。另外,还存在以下不足:现有方法无法设置关联拼接的重试次数,当某路数据流迟迟不到导致大规模重试的时候,会迟滞后续正常数据的拼接过程。现有方法无控制缓存数据规模策略,当大规模流数据无法拼接的情形下容易导致缓存溢出。现有方法中的缓存数据流到期清除,不能将此类数据写出到下游供后续应用。现有方法灵活性不足,不能配置拼接条件。
鉴于此,本申请实施例提供了一种实时流数据拼接方法及装置,该方法包括:获取至少一路待拼接实时流数据;待拼接实时流数据包括主键字段和数据字段。将各路待拼接实时流数据中主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中;拼接缓存队列的个数为至少一个。将各个拼接缓存队列中有相同主键字段的待拼接实时流数据确定为目标待拼接实时流数据。将目标待拼接实时流数据的数据字段拼接在一起,获得预处理拼接数据。判断预处理拼接数据是否满足预设条件。若满足预设条件,确定预处理拼接数据为拼接完整数据。
参见图1,图1为本申请实施例提供的一种实时流数据拼接方法的流程图。如图1所示,该方法可以包括S101-S106:
S101:获取至少一路待拼接实时流数据;待拼接实时流数据包括主键字段和数据字段。
获取至少一路待拼接实时流数据。其中,待拼接实时流数据包括主键字段和数据字段。
需要说明的是,接入的各路待拼接实时流数据包含各种字段,针对接入的各路待拼接实时流数据,设置每路待拼接实时流数据的主键字段(即键值对中的Key),该主键字段为关联字段,例如,各个实施流数据中的该关联字段表征身份证号的末尾数字一样。设置每路待拼接实时流数据中的数据字段(即键值对中的Value),该数据字段为需要拼接的字段。设置完成后,待拼接实时流数据包括主键字段和数据字段。
需要说明的是,实时流数据为实时流处理所需的数据,其中,实时流处理为相对批量处理而言,是一种针对流数据的处理加工方式,数据不落地,即来即处理。
S102:将各路待拼接实时流数据中主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中;拼接缓存队列的个数为至少一个。
获取至少一路待拼接实时流数据后,将各路待拼接实时流数据中主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中;拼接缓存队列的个数为至少一个。可以理解的是,相同主键字段的待拼接实时流数据一定位于相同的拼接缓存队列中。
具体实施时,将各路待拼接实时流数据中主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中的当前时间片中。参见图2,图2为本申请实施例提供的拼接缓存队列的结构图。其中,slice1为当前时间片。
S103:将各个拼接缓存队列中有相同主键字段的待拼接实时流数据确定为目标待拼接实时流数据。
将各个拼接缓存队列中有相同主键字段的待拼接实时流数据确定为目标待拼接实时流数据。该目标待拼接实时流数据可以进行拼接。
S104:将目标待拼接实时流数据的数据字段拼接在一起,获得预处理拼接数据。
将有相同主键字段的目标待拼接实时流数据的数据字段拼接在一起,即将目标待拼接实时流数据的Value信息拼接在一起,获得预处理拼接数据。
S105:判断预处理拼接数据是否满足预设条件。
判断预处理拼接数据是否满足预设条件。需要说明的是,该预设条件可以根据实际情况进行确定,这里不对此进行限定。例如,预设条件为预处理拼接数据的长度符合预设阈值。
S106:若满足预设条件,确定预处理拼接数据为拼接完整数据。
当预处理拼接数据满足预设条件时,确定预处理拼接数据为拼接完整数据,即当预处理拼接数据满足预设条件时,认为预处理拼接数据为拼接完整的数据,
需要说明的是,当确定预处理拼接数据为拼接完整数据时,及时对拼接完整数据执行写出操作。
具体实施时,在判断预处理拼接数据是否满足预设条件之后,还存在预处理拼接数据不满足预设条件的情况,即预处理拼接数据没有拼接完整。
具体的,若不满足预设条件,将预处理拼接数据确定为预重试实时流数据;
将预重试实时流数据写入到拼接缓存队列的当前时间片中进行缓存;任一个拼接缓存队列包含预设数量个缓存空间,预设数量个缓存空间对应预设数量个时间片;预设数量个时间片中包括当前时间片和待清理时间片。
可以理解的是,参见图2,图2中的拼接缓存队列采用程序运行时的内存空间,无需依赖额外的外部存储引擎,拼接缓存队列包含预设数量个缓存空间,如图2所示,将拼接缓存队列分成N个缓存空间,N个缓存空间对应N个slice,slice指一个时间片,每个slice保存T/N的时间间隔,总共缓存过去T时间的数据。预设数量个时间片中包括当前时间片和待清理时间片。作为一种示例,当前时间片为图2中的slice1,待清理时间片为图2中的sliceN。待清理时间片表征当T/N的定时时间到时,便会清理掉该时间片的数据。
另外,在S102之后,S103之前,还需判断各个拼接缓存队列中缓存的预重试实时流数据是否达到清理条件,达到清理条件的实时流数据便会进行写出并进行重试拼接操作。具体地,参见图3,图3为本申请实施例提供的一种实时流数据重试拼接过程的流程图,该过程包括如下步骤S301-S306:
S301:在将各路待拼接实时流数据中主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中之后,将各个拼接缓存队列中有相同主键字段的待拼接实时流数据确定为目标待拼接实时流数据之前,判断各个拼接缓存队列中缓存的预重试实时流数据是否达到清理条件;清理条件包括预重试实时流数据达到预设缓存路数或达到预设时间阈值。
在S102之后,S103之前判断各个拼接缓存队列中缓存的预重试实时流数据是否达到清理条件。其中,清理条件为数据溢出清理条件或超时清理条件,数据溢出清理条件为预重试实时流数据达到预设缓存路数,超时清理条件为达到预设时间阈值。
其中,一方面,预重试实时流数据达到预设缓存路数具体为当前拼接缓存队列里中的主键字段的个数达到缓存临界值。预设缓存路数根据实际情况进行设置,这里不对此进行限定。
另一方面,监测拼接缓存队列中的定时信号,每当达到预设时间阈值,便会进行清理。作为一种示例,预设时间阈值为图2中的定时时间T/N。
S302:若达到清理条件,将待清理时间片对应的预重试实时流数据确定为重试实时流数据。
当达到清理条件,即预重试实时流数据达到预设缓存路数或达到预设时间阈值时,将待清理时间片对应的预重试实时流数据确定为重试实时流数据,并进行取出操作。
可以理解的是,当拼接缓存队列中的预重试实时流数据达到预设缓存路数会清理拼接缓存队列中待清理时间片对应的预重试实时流数据,例如图2中sliceN对应的预重试实时流数据,避免内存溢出。
监测拼接缓存队列中的定时信号,当达到预设时间阈值,例如T/N的定时信号到达时,也会清理拼接缓存队列中待清理时间片对应的预重试实时流数据,例如图2中的sliceN对应的预重试实时流数据。
S303:将重试实时流数据进行标记操作,获得标记的重试实时流数据。
将重试实时流数据从待清理时间片取出后,将重试实时流数据进行标记操作,获得标记的重试实时流数据。
S304:将标记的重试实时流数据重新确定为待拼接实时流数据以进行再次重试拼接。
将标记的重试实时流数据重新确定为待拼接实时流数据以进行再次重试拼接。可以理解的是,标记的重试实时流数据重新确定为待拼接实时流数据后,重新将该数据发送至对应的拼接缓存队列中进行拼接操作。
S305:记录标记的重试实时流数据的重试拼接次数。
标记的重试实时流数据重新确定为待拼接实时流数据后,拼接次数加一,记录标记的重试实时流数据的重试拼接次数。
S306:当重试拼接次数超过次数阈值时,对标记的重试实时流数据执行写出操作。
确定重试拼接次数的次数阈值,当当重试拼接次数超过次数阈值时,对标记的重试实时流数据执行写出操作。需要说明的是,次数阈值根据实际情况进行选取,这里不对该次数阈值进行限定。可以理解的是,缓存数据流到期清除后,可进行拼接重试操作,当重试拼接次数超过次数阈值时,将此类数据写出下游供后续应用。通过设置重新拼接次数,可以避免重试次数太多造成的内存溢出。
需要说明的是,在S302之后,S303之前,更新预设数量个缓存空间对应的预设数量个时间片的实时流数据;预设数量个缓存空间为各个拼接缓存队列的预设数量个缓存空间。如图2所示,当达到清理条件之后,将待清理时间片对应的预重试实时流数据确定为重试实时流数据,并将重试实时流数据进行取出操作。之后,对拼接缓存队列中缓存空间的数据进行更新,具体地,将slice1、slice2、slice3…sliceN-1对应的数据缓存到slice2、slice3、slice4…sliceN中。
通过本申请实施例提供的一种实时流数据拼接方法,获取至少一路待拼接实时流数据;待拼接实时流数据包括主键字段和数据字段。将各路待拼接实时流数据中主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中;拼接缓存队列的个数为至少一个。将各个拼接缓存队列中有相同主键字段的待拼接实时流数据确定为目标待拼接实时流数据。将目标待拼接实时流数据的数据字段拼接在一起,获得预处理拼接数据。判断预处理拼接数据是否满足预设条件。若满足预设条件,确定预处理拼接数据为拼接完整数据。通过本申请实施例提供的实时流数据拼接方法,不用依赖于外部存储设备,利用拼接运行时的内存空间即可完成实时流数据的拼接,可靠性高。另外,通过设置重新拼接次数,避免了重试次数太多造成的内存溢出。还实现了对未拼接数据缓存在数量和时间上的监控,避免了大量数据无法拼接导致的内存溢出。通过将未拼接完整的数据进行重试并在达到次数后进行写出,供下游继续使用。
图4为本申请实施例提供的一种实时流数据拼接方法的示例性应用场景的示意图。如图4所示,对各路待拼接实时流数据即源数据流进行分发配置,即设置每路数据的关联字段组成的Key,以及各路数据中需要拼接的字段组成的Value。
在各路待拼接实时流数据分发配置完成后,进行实时流数据的散列分发,保证相同Key的实时流数据能发送到下游相同的拼接缓存队列。多个拼接缓存队列为程序运行时中内存开辟的环状队列结构,相同Key的数据将落在相同的拼接缓存队列中,拼接完整的数据将及时写出和清理。
未拼接完整的流数据进行缓存,对拼接缓存队列中缓存的未拼接完整的流数据进行超时监测,当超过预设时间阈值或缓存Key的个数大于缓存临界值时,及时进行未拼接完整的流数据的清理。清理即将该未拼接完整的流数据确定为重试实时流数据并进行重试拼接操作。重试拼接操作即将重试实时流数据确定为待拼接实时流数据,重新发送到拼接缓存队列中进行拼接。对重试实时流数据进行标记,并设置重试拼接次数。设置重试拼接次数是为了避免某些流数据迟迟无法拼接导致无限期重试。对最后超过重试拼接次数的数据进行写出。
通过本申请实施例提供的一种实时流数据拼接方法,获取至少一路待拼接实时流数据;待拼接实时流数据包括主键字段和数据字段。将各路待拼接实时流数据中主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中;拼接缓存队列的个数为至少一个。将各个拼接缓存队列中有相同主键字段的待拼接实时流数据确定为目标待拼接实时流数据。将目标待拼接实时流数据的数据字段拼接在一起,获得预处理拼接数据。判断预处理拼接数据是否满足预设条件。若满足预设条件,确定预处理拼接数据为拼接完整数据。通过本申请实施例提供的实时流数据拼接方法,不用依赖于外部存储设备,利用拼接运行时的内存空间即可完成实时流数据的拼接,可靠性高。
参见图5,图5为本申请实施例提供的一种实时流数据拼接装置的示意图。该装置可以包括:
第一获取单元501,用于获取至少一路待拼接实时流数据;所述待拼接实时流数据包括主键字段和数据字段;
发送单元502,用于将各路所述待拼接实时流数据中所述主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中;所述拼接缓存队列的个数为至少一个;
第一确定单元503,用于将各个所述拼接缓存队列中有相同所述主键字段的待拼接实时流数据确定为目标待拼接实时流数据;
第二获取单元504,用于将所述目标待拼接实时流数据的所述数据字段拼接在一起,获得预处理拼接数据;
第一判断单元505,用于判断所述预处理拼接数据是否满足预设条件;
第二确定单元506,用于当所述第一判断单元的判断结果为所述预处理拼接数据满足预设条件时,确定所述预处理拼接数据为拼接完整数据。
可选的,在本申请实施例的一些实施方式中,所述装置还包括:
第三确定单元,用于在所述判断所述预处理拼接数据是否满足预设条件之后,当所述第一判断单元的判断结果为所述预处理拼接数据不满足预设条件时,将所述预处理拼接数据确定为预重试实时流数据;
缓存单元,用于将所述预重试实时流数据写入到所述拼接缓存队列的当前时间片中进行缓存;任一个所述拼接缓存队列包含预设数量个缓存空间,所述预设数量个缓存空间对应预设数量个时间片;所述预设数量个时间片中包括当前时间片和待清理时间片。
可选的,在本申请实施例的一些实施方式中,所述装置还包括:
第二判断单元,用于在所述将各路所述待拼接实时流数据中所述主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中之后,将各个所述拼接缓存队列中有相同所述主键字段的待拼接实时流数据确定为目标待拼接实时流数据之前,判断各个所述拼接缓存队列中缓存的所述预重试实时流数据是否达到清理条件;所述清理条件包括所述预重试实时流数据达到预设缓存路数或达到预设时间阈值;
第四确定单元,用于若达到清理条件,将待清理时间片对应的所述预重试实时流数据确定为重试实时流数据;
第三获取单元,用于将所述重试实时流数据进行标记操作,获得标记的重试实时流数据;
第五确定单元,用于将所述标记的重试实时流数据重新确定为待拼接实时流数据以进行再次重试拼接;
记录单元,用于记录所述标记的重试实时流数据的重试拼接次数;
第一写出单元,用于当所述重试拼接次数超过次数阈值时,对所述标记的重试实时流数据执行写出操作。
可选的,在本申请实施例的一些实施方式中,所述装置还包括:
更新单元,用于在所述若达到清理条件,将待清理时间片对应的所述预重试实时流数据确定为重试实时流数据之后,将所述重试实时流数据进行标记操作,获得标记的重试实时流数据之前,更新所述预设数量个缓存空间对应的预设数量个时间片的实时流数据;所述预设数量个缓存空间为各个所述拼接缓存队列的预设数量个缓存空间。
可选的,在本申请实施例的一些实施方式中,所述装置还包括:
第二写出单元,用于对所述拼接完整数据执行写出操作。
通过本申请实施例提供的一种实时流数据拼接装置,获取至少一路待拼接实时流数据;待拼接实时流数据包括主键字段和数据字段。将各路待拼接实时流数据中主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中;拼接缓存队列的个数为至少一个。将各个拼接缓存队列中有相同主键字段的待拼接实时流数据确定为目标待拼接实时流数据。将目标待拼接实时流数据的数据字段拼接在一起,获得预处理拼接数据。判断预处理拼接数据是否满足预设条件。若满足预设条件,确定预处理拼接数据为拼接完整数据。通过本申请实施例提供的实时流数据拼接装置,不用依赖于外部存储设备,利用拼接运行时的内存空间即可完成实时流数据的拼接,可靠性高。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的系统相对应,所以描述的比较简单,相关之处参见系统部分说明即可。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种实时流数据拼接方法,其特征在于,所述方法包括:
获取至少一路待拼接实时流数据;所述待拼接实时流数据包括主键字段和数据字段;
将各路所述待拼接实时流数据中所述主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中;所述拼接缓存队列的个数为至少一个;
将各个所述拼接缓存队列中有相同所述主键字段的待拼接实时流数据确定为目标待拼接实时流数据;
将所述目标待拼接实时流数据的所述数据字段拼接在一起,获得预处理拼接数据;
判断所述预处理拼接数据是否满足预设条件;
若满足预设条件,确定所述预处理拼接数据为拼接完整数据。
2.根据权利要求1所述的方法,其特征在于,在所述判断所述预处理拼接数据是否满足预设条件之后,所述方法还包括:
若不满足预设条件,将所述预处理拼接数据确定为预重试实时流数据;
将所述预重试实时流数据写入到所述拼接缓存队列的当前时间片中进行缓存;任一个所述拼接缓存队列包含预设数量个缓存空间,所述预设数量个缓存空间对应预设数量个时间片;所述预设数量个时间片中包括当前时间片和待清理时间片。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述将各路所述待拼接实时流数据中所述主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中之后,将各个所述拼接缓存队列中有相同所述主键字段的待拼接实时流数据确定为目标待拼接实时流数据之前,判断各个所述拼接缓存队列中缓存的所述预重试实时流数据是否达到清理条件;所述清理条件包括所述预重试实时流数据达到预设缓存路数或达到预设时间阈值;
若达到清理条件,将待清理时间片对应的所述预重试实时流数据确定为重试实时流数据;
将所述重试实时流数据进行标记操作,获得标记的重试实时流数据;
将所述标记的重试实时流数据重新确定为待拼接实时流数据以进行再次重试拼接;
记录所述标记的重试实时流数据的重试拼接次数;
当所述重试拼接次数超过次数阈值时,对所述标记的重试实时流数据执行写出操作。
4.根据权利要求3所述的方法,其特征在于,在所述若达到清理条件,将待清理时间片对应的所述预重试实时流数据确定为重试实时流数据之后,将所述重试实时流数据进行标记操作,获得标记的重试实时流数据之前,所述方法还包括:
更新所述预设数量个缓存空间对应的预设数量个时间片的实时流数据;所述预设数量个缓存空间为各个所述拼接缓存队列的预设数量个缓存空间。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述拼接完整数据执行写出操作。
6.一种实时流数据拼接装置,其特征在于,所述装置包括:
第一获取单元,用于获取至少一路待拼接实时流数据;所述待拼接实时流数据包括主键字段和数据字段;
发送单元,用于将各路所述待拼接实时流数据中所述主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中;所述拼接缓存队列的个数为至少一个;
第一确定单元,用于将各个所述拼接缓存队列中有相同所述主键字段的待拼接实时流数据确定为目标待拼接实时流数据;
第二获取单元,用于将所述目标待拼接实时流数据的所述数据字段拼接在一起,获得预处理拼接数据;
第一判断单元,用于判断所述预处理拼接数据是否满足预设条件;
第二确定单元,用于当所述第一判断单元的判断结果为所述预处理拼接数据满足预设条件时,确定所述预处理拼接数据为拼接完整数据。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三确定单元,用于在所述判断所述预处理拼接数据是否满足预设条件之后,当所述第一判断单元的判断结果为所述预处理拼接数据不满足预设条件时,将所述预处理拼接数据确定为预重试实时流数据;
缓存单元,用于将所述预重试实时流数据写入到所述拼接缓存队列的当前时间片中进行缓存;任一个所述拼接缓存队列包含预设数量个缓存空间,所述预设数量个缓存空间对应预设数量个时间片;所述预设数量个时间片中包括当前时间片和待清理时间片。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二判断单元,用于在所述将各路所述待拼接实时流数据中所述主键字段相同的待拼接实时流数据发送到相同的拼接缓存队列中之后,将各个所述拼接缓存队列中有相同所述主键字段的待拼接实时流数据确定为目标待拼接实时流数据之前,判断各个所述拼接缓存队列中缓存的所述预重试实时流数据是否达到清理条件;所述清理条件包括所述预重试实时流数据达到预设缓存路数或达到预设时间阈值;
第四确定单元,用于若达到清理条件,将待清理时间片对应的所述预重试实时流数据确定为重试实时流数据;
第三获取单元,用于将所述重试实时流数据进行标记操作,获得标记的重试实时流数据;
第五确定单元,用于将所述标记的重试实时流数据重新确定为待拼接实时流数据以进行再次重试拼接;
记录单元,用于记录所述标记的重试实时流数据的重试拼接次数;
第一写出单元,用于当所述重试拼接次数超过次数阈值时,对所述标记的重试实时流数据执行写出操作。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
更新单元,用于在所述若达到清理条件,将待清理时间片对应的所述预重试实时流数据确定为重试实时流数据之后,将所述重试实时流数据进行标记操作,获得标记的重试实时流数据之前,更新所述预设数量个缓存空间对应的预设数量个时间片的实时流数据;所述预设数量个缓存空间为各个所述拼接缓存队列的预设数量个缓存空间。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二写出单元,用于对所述拼接完整数据执行写出操作。
CN202011623881.4A 2020-12-30 2020-12-30 一种实时流数据拼接方法及装置 Pending CN112667686A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011623881.4A CN112667686A (zh) 2020-12-30 2020-12-30 一种实时流数据拼接方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011623881.4A CN112667686A (zh) 2020-12-30 2020-12-30 一种实时流数据拼接方法及装置

Publications (1)

Publication Number Publication Date
CN112667686A true CN112667686A (zh) 2021-04-16

Family

ID=75412226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011623881.4A Pending CN112667686A (zh) 2020-12-30 2020-12-30 一种实时流数据拼接方法及装置

Country Status (1)

Country Link
CN (1) CN112667686A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791439A (zh) * 2016-04-29 2016-07-20 中国农业银行股份有限公司 一种数据处理方法、数据接收设备及数据处理系统
CN106445968A (zh) * 2015-08-11 2017-02-22 阿里巴巴集团控股有限公司 一种数据合并方法及装置
CN109726237A (zh) * 2018-12-13 2019-05-07 浙江邦盛科技有限公司 一种针对多路实时流数据的关联补全方法
CN109992469A (zh) * 2017-12-29 2019-07-09 北京奇虎科技有限公司 一种合并日志的方法及装置
CN110297810A (zh) * 2019-07-05 2019-10-01 联想(北京)有限公司 一种流数据处理方法、装置及电子设备
CN110457336A (zh) * 2019-08-15 2019-11-15 中国银行股份有限公司 交易数据处理方法及装置
CN110727700A (zh) * 2019-10-22 2020-01-24 中信银行股份有限公司 多源流式数据整合成事务型流数据的方法及系统
CN110895534A (zh) * 2018-08-24 2020-03-20 北京京东尚科信息技术有限公司 一种数据拼接方法、装置、介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445968A (zh) * 2015-08-11 2017-02-22 阿里巴巴集团控股有限公司 一种数据合并方法及装置
CN105791439A (zh) * 2016-04-29 2016-07-20 中国农业银行股份有限公司 一种数据处理方法、数据接收设备及数据处理系统
CN109992469A (zh) * 2017-12-29 2019-07-09 北京奇虎科技有限公司 一种合并日志的方法及装置
CN110895534A (zh) * 2018-08-24 2020-03-20 北京京东尚科信息技术有限公司 一种数据拼接方法、装置、介质及电子设备
CN109726237A (zh) * 2018-12-13 2019-05-07 浙江邦盛科技有限公司 一种针对多路实时流数据的关联补全方法
CN110297810A (zh) * 2019-07-05 2019-10-01 联想(北京)有限公司 一种流数据处理方法、装置及电子设备
CN110457336A (zh) * 2019-08-15 2019-11-15 中国银行股份有限公司 交易数据处理方法及装置
CN110727700A (zh) * 2019-10-22 2020-01-24 中信银行股份有限公司 多源流式数据整合成事务型流数据的方法及系统

Similar Documents

Publication Publication Date Title
CN109150598B (zh) 一种基于块片的bft共识算法带宽使用率改进方法
CN107315825B (zh) 一种索引更新系统、方法及装置
EP1388792A1 (en) Synchronization message processing method
CN110913026B (zh) 报文传输方法、装置、电子设备和介质
CN110851290A (zh) 一种数据同步方法、装置、电子设备及存储介质
CN111881116A (zh) 数据迁移方法、数据迁移系统、计算机系统和存储介质
WO2021147793A1 (zh) 数据处理方法、装置、系统、电子设备及计算机存储介质
CN104079623B (zh) 多级云存储同步控制方法及系统
CN110502498A (zh) 一种分布式文件系统文件预读方法和系统
CN107908737B (zh) 文件拆分控制方法和装置
CN106599323B (zh) 在分布式文件系统中实现分布式管道的方法和装置
CN112667686A (zh) 一种实时流数据拼接方法及装置
CN107357526B (zh) 用于处理网络数据的方法和装置、服务器和存储介质
CN106294477A (zh) 一种数据处理方法和装置
US11811894B2 (en) Reduction of data transmissions based on end-user context
CN116521639A (zh) 一种日志数据的处理方法、电子设备和计算机可读介质
CN107229424B (zh) 一种分布式存储系统数据写入方法及分布式存储系统
CA2788100C (en) Crawling of generated server-side content
RU2698766C1 (ru) Способ и устройство для передачи, отправки и получения информации
CN112491963B (zh) 数据传输方法、装置、设备及可读存储介质
CN108287793A (zh) 响应消息的缓冲方法及服务器
CN108984123A (zh) 一种重复数据删除方法和装置
CN106527989A (zh) 一种用于存储系统的scsi指令控制方法和系统
CN114064681A (zh) 配置参数更新方法、装置及设备
CN110896391B (zh) 一种报文处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination