CN106911589B - 一种数据处理方法和设备 - Google Patents

一种数据处理方法和设备 Download PDF

Info

Publication number
CN106911589B
CN106911589B CN201510971758.4A CN201510971758A CN106911589B CN 106911589 B CN106911589 B CN 106911589B CN 201510971758 A CN201510971758 A CN 201510971758A CN 106911589 B CN106911589 B CN 106911589B
Authority
CN
China
Prior art keywords
data
time
processed
time window
time point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510971758.4A
Other languages
English (en)
Other versions
CN106911589A (zh
Inventor
李灼灵
熊奇
韩森
李巨雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tmall Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510971758.4A priority Critical patent/CN106911589B/zh
Priority to EP16877604.5A priority patent/EP3396909A4/en
Priority to PCT/CN2016/109413 priority patent/WO2017107793A1/zh
Priority to JP2018532610A priority patent/JP2019501458A/ja
Publication of CN106911589A publication Critical patent/CN106911589A/zh
Priority to US16/015,100 priority patent/US11055272B2/en
Application granted granted Critical
Publication of CN106911589B publication Critical patent/CN106911589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/32Flow control; Congestion control by discarding or delaying data units, e.g. packets or frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2308Concurrency control
    • G06F16/2315Optimistic concurrency control
    • G06F16/2322Optimistic concurrency control using timestamps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/835Timestamp

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种数据处理方法。当在当前系统时间窗口接收到待处理数据时,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口;若所述数据时间在当前系统时间窗口范围之内,将系统接收时间在所述同步时间点之前的待处理数据进行缓存,以及将所述系统接收时间在所述同步时间点之后的待处理数据即时进行处理;若所述数据时间在前一系统时间窗口的范围之内,将所述系统接收时间在所述关闭时间点之前的待处理数据即时进行处理,以及将所述系统接收时间在所述关闭时间点之后的待处理数据丢弃。从而在保证数据统计完整的前提下及时进行处理,提高了数据处理结果的准确性和实时性。

Description

一种数据处理方法和设备
技术领域
本发明涉及通信技术领域,特别涉及一种数据处理方法,本申请同时还涉及一种数据处理设备。
背景技术
作为一种新的数据处理方式,流式计算能够对动态产生的数据进行实时计算并及时反馈结果。目前,流式计算已广泛应用于金融银行业应用、互联网应用和物联网应用等领域中,主要用于对一定时间间隔内的数据进行统计,即对于预定时间窗口内的数据进行统计。
在现有技术中,流式计算所存在时间窗口分为“系统时间窗口”以及“数据时间窗口”这两种,其各自的特点以及缺点如下:
(1)系统时间窗口
系统时间窗口基于系统时间对数据产生端的数据进行统计,首先根据预设的时间间隔将数据的统计时间划分为多个系统时间窗口,然后输出系统时间窗口统计结果。若仅按照系统时间窗口对数据进行处理的话,数据从产生端到统计端是有一定延迟性,在系统时间窗口内处理的数据往往不等于实际过程中产生端在预设时间间隔内所产生的数据,这使得流式计算的结果会受到影响。
(2)数据时间窗口
数据时间窗口基于数据时间对数据产生端的数据进行统计。在实际统计过程中,受到数据产生端的设备的时钟不完全同步以及数据采集传输过程的快慢程度的影响,统计端接收到数据的数据时间未必是按照数据时间的先后顺序严格递增的。因此基于数据时间窗口的统计结果中就会出现数据乱序的问题。在实际统计过程中很容易出现当前数据时间窗口的边缘会有部分数据跨越到另一数据时间窗口中的情况,使得流式计算的结果受到影响。
一旦出现在数据乱序的情况下,只有通过保证当前数据时间窗口的所有数据都到达统计端,才能够保证流式计算的准确程度。因此现有的实际统计过程只有在统计端接收到数据的数据时间超过数据时间窗口并达到预设值时或者统计端接收到下一数据时间窗口的数据达到预设数量时,才关闭当前数据时间窗口。
在实现本申请的过程中,发明人发现现有技术至少存在如下问题:
(1)流式计算的数据通常是不稳定的,当某个统计项数据量较少时,下个数据时间窗口数据一直没有到达统计端,当前数据时间窗口的统计结果没有及时输出,导致数据统计延误,使得流式计算的结果受到影响。
(2)流式计算的同级计算单元一般都是并发多个的,当需要同级计算单元的统计结果按顺序输出时,由于不同计算单元的处理进度的不同,则会出现不同计算单元的数据的数据时间不同步的情况,使得流式计算的结果受到影响。
由此可见,现有技术在针对流式计算中进行实时统计数据时,无法在保证数据统计完整的前提下及时输出统计数据,同时不能对统计数据的进行全局同步,从而影响了数据处理结果的准确性。
发明内容
本发明提供了一种数据处理方法,通过预先为数据统计系统的每一段系统时间窗口设置关闭时间点以及同步时间点的方式,解决了保证统计数据完整和实时进行统计数据处理二者无法兼顾的问题。
该方法应用于数据统计系统中,其中所述数据统计系统的每一段系统时间窗口均预先设置有关闭时间点以及同步时间点,所述关闭时间点在所述同步时间点之前,并位于所述系统时间窗口的起始时间点之后,所述方法包括:
当在当前系统时间窗口接收到待处理数据时,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口;
若所述数据时间在当前系统时间窗口范围之内,将系统接收时间在所述同步时间点之前的待处理数据进行缓存,以及将所述系统接收时间在所述同步时间点之后的待处理数据即时进行处理;
若所述数据时间在前一系统时间窗口的范围之内,将所述系统接收时间在所述关闭时间点之前的待处理数据即时进行处理,以及将所述系统接收时间在所述关闭时间点之后的待处理数据丢弃。
优选地,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口,具体为:
根据所述待处理数据在数据时间窗口的时间戳,获取所述待处理数据的数据时间;
判断所述数据时间是否在当前的系统时间窗口的起始时间点之后;
若是,确认所述待处理数据在当前系统时间窗口范围之内;
若否,确认所述待处理数据在之前系统时间窗口范围之内。
优选地,所述方法还包括:
当所述数据统计系统的系统时间到达所述关闭时间点时,将数据时间在所述前一系统时间窗口范围之内的待处理数据的处理结果进行输出,并关闭与所述前一系统时间窗口对应的数据时间窗口。
优选地,所述方法还包括:
当所述数据统计系统的系统时间到达所述同步时间点时,处理在所述同步时间点之前所缓存的且数据时间在当前系统时间窗口范围之内的待处理数据,并输出处理结果。
优选地,所述关闭时间点根据所述系统时间与所述数据时间之间的时间差值设置;
所述同步时间点根据关闭时间窗口的耗时以及所述数据统计系统中各设备之间的时钟差值设置。
相应地,本申请还提出了一种数据处理设备,该设备应用于数据统计系统中,其中所述数据统计系统的每一段系统时间窗口均预先设置有关闭时间点以及同步时间点,所述关闭时间点在所述同步时间点之前,并位于所述系统时间窗口的起始时间点之后,所述设备包括:
确定模块,当在当前系统时间窗口接收到待处理数据时,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口;
第一处理模块,在所述数据时间在当前系统时间窗口范围之内,将系统接收时间在所述同步时间点之前的待处理数据进行缓存,以及将所述系统接收时间在所述同步时间点之后的待处理数据即时进行处理;
第二处理模块,在所述数据时间在前一系统时间窗口的范围之内,将所述系统接收时间在所述关闭时间点之前的待处理数据即时进行处理,以及将所述系统接收时间在所述关闭时间点之后的待处理数据丢弃。
优选地,所述确定模块具体用于:
根据所述待处理数据在数据时间窗口的时间戳,获取所述待处理数据的数据时间;
判断所述数据时间是否在当前的系统时间窗口的起始时间点之后;
若是,确认所述待处理数据在当前系统时间窗口范围之内;
若否,确认所述待处理数据在之前系统时间窗口范围之内。
优选地,所述设备还包括:
第一输出模块,在所述数据统计系统的系统时间到达所述关闭时间点时,将数据时间在所述前一系统时间窗口范围之内的待处理数据的处理结果进行输出,并关闭与所述前一系统时间窗口对应的数据时间窗口。
优选地,所述设备还包括:
第二输出模块,在所述数据统计系统的系统时间到达所述同步时间点时,处理在所述同步时间点之前所缓存的且数据时间在当前系统时间窗口范围之内的待处理数据,并输出处理结果。
优选地,所述关闭时间点根据所述系统时间与所述数据时间之间的时间差值设置;
所述同步时间点根据关闭时间窗口的耗时以及所述数据统计系统中各设备之间的时钟差值设置。
由此可见,通过应用本申请的技术方案,在针对需要实时并完整输出计算结果的流式计算过程中,通过预先为数据统计系统的每一段系统时间窗口设置关闭时间点以及同步时间点的方式,对统计数据的进行全局同步,可以在保证数据统计完整的前提下对其及时进行处理,从而提高了数据处理结果的准确性和实时性。
附图说明
图1为本申请提出的一种数据处理方法的流程示意图;
图2为本申请的具体实施例所提出的一种数据处理方法的流程示意图;
图3为本申请提出的一种数据处理设备的结构示意图。
具体实施方式
有鉴于现有技术中的问题,本申请提供了一种数据处理方法,通过在各个系统时间窗口预设关闭时间点以及同步时间点,并以关闭时间点和同步时间点为节点对待处理数据进行分段处理与输出,有效提高了数据处理结果的准确性和实时性。
其中,关闭时间点为所述前一系统时间窗口对应的数据时间窗口的关闭时刻,其同时也作为当前系统时间窗口对应的数据时间窗口的开始同步时刻。同步时间点为当前系统时间窗口对应的数据时间窗口的结束同步时刻。故以关闭时间点和同步时间点作为节点,将系统时间窗口划分为不同的处理与输出阶段,可以在保证数据处理的完整性的同时兼顾处理结果输出的实时性。
本申请的优选实施例中,所述关闭时间点根据所述系统时间与所述数据时间之间的时间差值设置,所述同步时间点根据关闭时间窗口的耗时以及所述数据统计系统中各设备之间的时钟差值设置。
举例来说,数据统计系统需要处理0~1min系统时间窗口内由对应设备生成的所有数据,假设其对应数据时间窗口的时间戳为10∶04的所有数据。在实际统计过程中,如果时间戳为10∶04的数据最晚可能在1~2min系统时间窗口的1min10s时到达,则将1min11s处设为关闭时间点,保证0~1min系统时间窗口所对应的所有待处理数据全部到达数据统计系统。如果0~1min系统时间窗口的耗时与数据统计系统中各设备之间时钟差值之和为2s,则将1min13s处设为同步时间点,接收到的1~2min系统时间窗口所对应的待处理数据在此时间段内全局同步。
如图1所示,为本申请提出的数据处理方法的流程示意图,该方法应用于数据统计系统中,其中所述数据统计系统的每一段系统时间窗口均预先设置有关闭时间点以及同步时间点,其中,同一系统时间窗口的所述关闭时间点是位于所述同步时间点之前以及起始时间点之后,该方法包括以下步骤:
S101,当在当前系统时间窗口接收到待处理数据时,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口。
在实际应用场景中,由于会受到数据产生端的设备的时钟差值以及数据传输过程快慢的影响,所述数据统计系统所接收到不同待处理数据的数据时间未必是严格按照数据时间的先后顺序递增的,因此就会容易出现属于前一系统时间窗口的待处理数据跨越到当前系统时间窗口的情况。也就是说,当前系统时间窗口所接收到待处理数据中,可能会存在部分对应于前一系统时间窗口的待处理数据。这样不仅会影响到前一系统时间窗口数据的完整性,同时还会对当前系统时间窗口的数据处理造成干扰。
举例来说,数据统计系统需要处理0~1min系统时间窗口内由对应设备生成的所有数据,假设其对应数据时间窗口的时间戳为10∶04的所有数据。在实际统计过程中,时间戳为10∶04的数据种可能会存在部分在1~2min系统时间窗口才到达。这样不仅会影响到0~1min系统时间窗口数据处理的完整性,同时还会对1~2min系统时间窗口的数据处理造成干扰。
因此,为了防止由于待处理数据的乱序对计算结果造成影响,在本申请的优选实施例中,当在当前系统时间窗口接收到待处理数据时,需要根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口,具体确定过程如下:
a)根据所述待处理数据在数据时间窗口的时间戳,获取所述待处理数据的数据时间;
b)判断所述数据时间是否在当前的系统时间窗口的起始时间点之后;
c)若是,确认所述待处理数据在当前系统时间窗口范围之内;
d)若否,确认所述待处理数据在之前系统时间窗口范围之内。
需要说明的是,以上待处理数据的时间戳仅为本申请优选实施例提出的示例,在此基础上还可以通过选择其他形式来表示待处理数据的数据时间,以使本申请适用于更多的应用领域,这些改进都属于本发明的保护范围。
S102,若所述数据时间在当前系统时间窗口范围之内,将系统接收时间在所述同步时间点之前的待处理数据进行缓存,以及将所述系统接收时间在所述同步时间点之后的待处理数据即时进行处理。
具体的,接收到的如果是当前系统时间窗口所对应的待处理数据,以同步时间点为分界点对待处理数据进行分别处理。
在同步时间点之前,数据统计系统不仅需要处理并输出数据时间在前一系统时间窗口范围之内的待处理数据,还需要对数据时间在当前系统时间窗口范围之内的待处理数据进行全局同步,考虑到统计与计算效率以及防止统计与计算过程的混乱,故只将在系统接收时间在所述同步时间点之前的待处理数据进行缓存。
在同步时间点之后,由于前一系统时间窗口对应的数据时间窗口已关闭,且当前系统时间窗口范围之内的待处理数据也已完成全局同步,故将所述系统接收时间在所述同步时间点之后的待处理数据即时进行处理。
S103,若所述数据时间在前一系统时间窗口的范围之内,将所述系统接收时间在所述关闭时间点之前的待处理数据即时进行处理,以及将所述系统接收时间在所述关闭时间点之后的待处理数据丢弃。
具体的,接收到的如果是前一系统时间窗口所对应的待处理数据,以关闭时间点为分界点对待处理数据进行分别处理。
在关闭时间点之前,由于会受到数据产生端的设备的时钟差值以及数据传输过程快慢的影响,可能会存在部分对应于前一系统时间窗口的待处理数据在当前系统时间窗口才到达数据统计系统,这些数据对保证前一系统时间窗口数据处理的完整性与准确性起着重要的作用。故将所述系统接收时间在所述关闭时间点之前的待处理数据即时进行处理。
在关闭时间点之后,由于前一系统时间窗口对应的数据时间窗口已关闭,此刻到达数据统计系统的待处理数据则会影响到数据时间在当前系统时间窗口范围之内的待处理数据的全局同步,甚至还会造成数据时间在当前系统时间窗口范围之内的待处理数据统计与计算过程的混乱。故将所述系统接收时间在所述关闭时间点之后的待处理数据丢弃。
本申请的优选实施例中,分别以关闭时间点和同步时间点作为处理结果的输出节点。
具体的,当所述数据统计系统的系统时间到达所述关闭时间点时,将数据时间在所述前一系统时间窗口范围之内的待处理数据的处理结果进行输出,并关闭与所述前一系统时间窗口对应的数据时间窗口。
本申请的优选实施例中,当所述数据统计系统的系统时间到达所述同步时间点时,处理在所述同步时间点之前所缓存的且数据时间在当前系统时间窗口范围之内的待处理数据,并输出处理结果。
由此可见,通过应用本申请的技术方案,通过预先为数据统计系统的每一段系统时间窗口设置关闭时间点以及同步时间点的方式,分别以关闭时间点和同步时间点为节点,并以关闭时间点和同步时间点为节点对待处理数据进行分段处理与输出,同时还增加了待处理数据的全局同步过程,可以在保证数据统计完整的前提下对其及时进行处理,从而提高了数据处理结果的准确性和实时性。
为了进一步阐述本发明的技术思想,现结合图2所示的具体的应用场景,对本申请的技术方案进行说明。
在对流式计算的数据进行统计时,由于数据的系统时间和数据时间之间存在差异,故很容易出现当前数据时间窗口的边缘会有部分数据跨越到另一数据时间窗口中的情况,从而使得流式计算的结果受到影响。由于数据的系统时间和数据时间之间的差异往往不是很大,故当前数据时间窗口的边缘的部分数据一般仅跨越到相邻的数据时间窗口(即下一数据时间窗口)中,即使出现极少量当前数据时间窗口对应的数据跨越到非相邻的数据时间窗口时(即下一数据时间窗口之后的数据时间窗口),则到对应的数据时间窗口数据处理节点时,将该跨越的数据丢弃即可。在流式计算中,出现上述情况的可能性极低,再者即使出现上述情况,选择将极少量的数据丢弃,也不会影响到对当前数据时间窗口数据的统计处理结果。
故此具体的应用场景中,在针对需要实时并完整输出计算结果的流式计算过程中,提出了一种数据处理方法,以数据时间窗口作为数据统计的时间依据,系统时间窗口作为数据时间窗口关闭和全局同步的依据。
该方法通过在每一段系统时间窗口均预先设置关闭时间点以及同步时间点。其中关闭时间点根据系统时间与所述数据时间之间的时间差值设置,同步时间点根据关闭时间窗口的耗时以及数据统计系统中各设备之间的时钟差值设置。
具体的,本应用场景以0-1为上一系统时间窗口,1-2为当前系统时间窗口。其中,上一系统时间窗口预先设置关闭时间点ct0和同步时间点st0,当前系统时间窗口预先设置关闭时间点ct1和同步时间点st1。
该方法具体包括如下步骤:
步骤11~ct1,数据统计系统接收待处理数据,根据所述待处理数据的数据时间进行判断,若所述数据时间在当前系统时间窗口1-2的范围之内,将待处理数据进行缓存;若所述数据时间在前一系统时间窗口0-1的范围之内,将待处理数据进行即时处理并输出。
具体地,此时间段内接收的待处理数据,既有对应前一系统时间窗口0-1的,也有对应当前系统时间窗口1-2的。若待处理数据对应前一系统时间窗口0-1,则对数据进行即时处理并输出;若待处理数据对应当前系统时间窗口1-2,则仅对数据进行缓存而不处理。
步骤2ct1时刻,输出数据时间在所述前一系统时间窗口0-1的范围之内的所有待处理数据的处理结果,并关闭与所述前一系统时间窗口0-1对应的数据时间窗口。
具体地,到达ct1时刻时,则不再缓存对应于前一系统时间窗口0-1的待处理数据。
步骤3ct1~st1,接收待处理数据,根据所述待处理数据的数据时间进行判断,若所述数据时间在当前系统时间窗口1-2的范围之内,将待处理数据进行缓存,并对缓存的将待处理数据进行全局同步;若所述数据时间在前一系统时间窗口0-1的范围之内,丢弃待处理数据。
具体地,此时间段内接收的待处理数据,既有对应前一系统时间窗口0-1的,也有对应当前系统时间窗口1-2的。若待处理数据对应前一系统时间窗口0-1,则丢弃待处理数据;若待处理数据对应当前系统时间窗口1-2,则对待处理数据进行缓存以进行全局同步而不处理。
步骤4st1~2,接收待处理数据并处理,同时还对1~ct1缓存的,实时输出上述处理结果。
具体地,此时间段内接收的待处理数据有对应当前系统时间窗口1-2的。将所接收的待处理数据连同之前在1~st1时间段内缓存的数据时间在当前系统时间窗口1-2的范围之内的待处理数据进行处理,并实时输出上述处理结果。上述具体应用场景的技术方案中,在针对需要实时并完整输出计算结果的流式计算过程中,通过预先为数据统计系统的每一段系统时间窗口设置关闭时间点以及同步时间点的方式,对统计数据的进行全局同步,可以在保证数据统计完整的前提下对其及时进行处理,从而提高了数据处理结果的准确性和实时性。
在此需要说明的是,以上具体的应用场景的内容仅为本申请优选实施例提出的示例,在此基础上还可以包括更多的应用领域,从而使得本技术方案具有更广泛的应用,这些改进都属于本发明的保护范围。
为达到以上技术目的,本申请还提出了一种数据处理设备,如图3所示,该设备应用于数据统计系统中,其中所述数据统计系统的每一段系统时间窗口均预先设置有关闭时间点以及同步时间点,其中,同一系统时间窗口的所述关闭时间点位于所述同步时间点之前以及起始时间点之后。该设备包括:
确定模块,当在当前系统时间窗口接收到待处理数据时,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口;
第一处理模块,在所述数据时间在当前系统时间窗口范围之内,将系统接收时间在所述同步时间点之前的待处理数据进行缓存,以及将所述系统接收时间在所述同步时间点之后的待处理数据即时进行处理;
第二处理模块,在所述数据时间在前一系统时间窗口的范围之内,将所述系统接收时间在所述关闭时间点之前的待处理数据即时进行处理,以及将所述系统接收时间在所述关闭时间点之后的待处理数据丢弃。
在具体的应用场景中,所述确定模块具体用于:
根据所述待处理数据在数据时间窗口的时间戳,获取所述待处理数据的数据时间;
判断所述数据时间是否在当前的系统时间窗口的起始时间点之后;
若是,确认所述待处理数据在当前系统时间窗口范围之内;
若否,确认所述待处理数据在之前系统时间窗口范围之内。
在具体的应用场景中,所述设备还包括:
第一输出模块,在所述数据统计系统的系统时间到达所述关闭时间点时,将数据时间在所述前一系统时间窗口范围之内的待处理数据的处理结果进行输出,并关闭与所述前一系统时间窗口对应的数据时间窗口。
在具体的应用场景中,所述设备还包括:
第二输出模块,在所述数据统计系统的系统时间到达所述同步时间点时,处理在所述同步时间点之前所缓存的且数据时间在当前系统时间窗口范围之内的待处理数据,并输出处理结果。
在具体的应用场景中,所述关闭时间点根据所述系统时间与所述数据时间之间的时间差值设置;
所述同步时间点根据关闭时间窗口的耗时以及所述数据统计系统中各设备之间的时钟差值设置。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (10)

1.一种数据处理方法,应用于数据统计系统中,其特征在于,预先为所述数据统计系统的每一段系统时间窗口设置关闭时间点以及同步时间点,同一系统时间窗口的所述关闭时间点在所述同步时间点之前,并位于所述系统时间窗口的起始时间点之后,所述方法包括:
当在当前系统时间窗口接收到待处理数据时,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口;
若所述数据时间在当前系统时间窗口范围之内,将系统接收时间在所述同步时间点之前的待处理数据进行缓存,以及将所述系统接收时间在所述同步时间点之后的待处理数据即时进行处理;
若所述数据时间在前一系统时间窗口的范围之内,将所述系统接收时间在所述关闭时间点之前的待处理数据即时进行处理,以及将所述系统接收时间在所述关闭时间点之后的待处理数据丢弃。
2.如权利要求1所述的方法,其特征在于,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口,具体为:
根据所述待处理数据在数据时间窗口的时间戳,获取所述待处理数据的数据时间;
判断所述数据时间是否在当前的系统时间窗口的起始时间点之后;
若是,确认所述待处理数据在当前系统时间窗口范围之内;
若否,确认所述待处理数据在之前系统时间窗口范围之内。
3.如权利要求1所述的方法,其特征在于,还包括:
当所述数据统计系统的系统时间到达所述关闭时间点时,将数据时间在所述前一系统时间窗口范围之内的待处理数据的处理结果进行输出,并关闭与所述前一系统时间窗口对应的数据时间窗口。
4.如权利要求1所述的方法,其特征在于,还包括:
当所述数据统计系统的系统时间到达所述同步时间点时,处理在所述同步时间点之前所缓存的且数据时间在当前系统时间窗口范围之内的待处理数据,并输出处理结果。
5.如权利要求1-4任一项所述的方法,其特征在于,
所述关闭时间点根据所述系统时间与所述数据时间之间的时间差值设置;
所述同步时间点根据关闭时间窗口的耗时以及所述数据统计系统中各设备之间的时钟差值设置。
6.一种数据处理设备,应用于数据统计系统中,其特征在于,预先为所述数据统计系统的每一段系统时间窗口设置关闭时间点以及同步时间点,同一系统时间窗口的所述关闭时间点在所述同步时间点之前,并位于所述系统时间窗口的起始时间点之后,所述设备包括:
确定模块,当在当前系统时间窗口接收到待处理数据时,根据所述待处理数据的数据时间确定与所述待处理数据对应的系统时间窗口;
第一处理模块,在所述数据时间在当前系统时间窗口范围之内,将系统接收时间在所述同步时间点之前的待处理数据进行缓存,以及将所述系统接收时间在所述同步时间点之后的待处理数据即时进行处理;
第二处理模块,在所述数据时间在前一系统时间窗口的范围之内,将所述系统接收时间在所述关闭时间点之前的待处理数据即时进行处理,以及将所述系统接收时间在所述关闭时间点之后的待处理数据丢弃。
7.如权利要求6所述的设备,其特征在于,所述确定模块具体用于:
根据所述待处理数据在数据时间窗口的时间戳,获取所述待处理数据的数据时间;
判断所述数据时间是否在当前的系统时间窗口的起始时间点之后;
若是,确认所述待处理数据在当前系统时间窗口范围之内;
若否,确认所述待处理数据在之前系统时间窗口范围之内。
8.如权利要求6所述的设备,其特征在于,还包括:
第一输出模块,在所述数据统计系统的系统时间到达所述关闭时间点时,将数据时间在所述前一系统时间窗口范围之内的待处理数据的处理结果进行输出,并关闭与所述前一系统时间窗口对应的数据时间窗口。
9.如权利要求6所述的设备,其特征在于,还包括:
第二输出模块,在所述数据统计系统的系统时间到达所述同步时间点时,处理在所述同步时间点之前所缓存的且数据时间在当前系统时间窗口范围之内的待处理数据,并输出处理结果。
10.如权利要求6-9任一项所述的设备,其特征在于,
所述关闭时间点根据所述系统时间与所述数据时间之间的时间差值设置;
所述同步时间点根据关闭时间窗口的耗时以及所述数据统计系统中各设备之间的时钟差值设置。
CN201510971758.4A 2015-12-22 2015-12-22 一种数据处理方法和设备 Active CN106911589B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201510971758.4A CN106911589B (zh) 2015-12-22 2015-12-22 一种数据处理方法和设备
EP16877604.5A EP3396909A4 (en) 2015-12-22 2016-12-12 METHOD AND DEVICE FOR DATA PROCESSING
PCT/CN2016/109413 WO2017107793A1 (zh) 2015-12-22 2016-12-12 一种数据处理方法和设备
JP2018532610A JP2019501458A (ja) 2015-12-22 2016-12-12 データ処理方法及び装置
US16/015,100 US11055272B2 (en) 2015-12-22 2018-06-21 Data processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510971758.4A CN106911589B (zh) 2015-12-22 2015-12-22 一种数据处理方法和设备

Publications (2)

Publication Number Publication Date
CN106911589A CN106911589A (zh) 2017-06-30
CN106911589B true CN106911589B (zh) 2020-04-24

Family

ID=59089006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510971758.4A Active CN106911589B (zh) 2015-12-22 2015-12-22 一种数据处理方法和设备

Country Status (5)

Country Link
US (1) US11055272B2 (zh)
EP (1) EP3396909A4 (zh)
JP (1) JP2019501458A (zh)
CN (1) CN106911589B (zh)
WO (1) WO2017107793A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019386B (zh) * 2017-09-05 2021-01-15 中国移动通信有限公司研究院 一种流数据处理方法及设备
CN107704373B (zh) * 2017-10-31 2021-08-27 北京奇艺世纪科技有限公司 一种数据处理方法及装置
US11237548B2 (en) * 2018-12-27 2022-02-01 Mitsubishi Electric Corporation Data delivery control apparatus, method, and program
CN110209685B (zh) * 2019-06-12 2020-04-21 北京九章云极科技有限公司 一种数据实时处理方法及系统
CN110336881B (zh) * 2019-07-10 2020-11-20 北京三快在线科技有限公司 执行业务处理请求的方法和装置
CN111142942B (zh) * 2019-12-26 2023-08-04 远景智能国际私人投资有限公司 窗口数据的处理方法、装置、服务器及存储介质
CN111723114B (zh) * 2020-06-24 2023-07-25 中国工商银行股份有限公司 流式统计方法、装置和电子设备
CN112231340B (zh) * 2020-12-09 2021-03-23 金锐同创(北京)科技股份有限公司 数据展示方法、装置及电子设备
CN113204387B (zh) * 2021-05-21 2024-06-11 珠海金山数字网络科技有限公司 实时计算中数据超时的处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350031A (zh) * 2008-08-21 2009-01-21 深圳市同洲电子股份有限公司 一种数据存储方法、数据查询方法及系统
CN102752669A (zh) * 2011-04-19 2012-10-24 中国电信股份有限公司 多通道实时流媒体文件的传送处理方法与系统、接收装置
CN103297529A (zh) * 2013-06-06 2013-09-11 浙江大学 基于时间戳的树型结构数据同步方法
CN103853766A (zh) * 2012-12-03 2014-06-11 中国科学院计算技术研究所 一种面向流式数据的在线处理方法及系统
CN104202122A (zh) * 2014-09-03 2014-12-10 国家电网公司 一种数据处理方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5058209B2 (ja) * 2009-05-22 2012-10-24 株式会社日立製作所 ストリームデータ処理において逆再生を行うデータ処理システム
US8478743B2 (en) * 2010-12-23 2013-07-02 Microsoft Corporation Asynchronous transfer of state information between continuous query plans
JP5634607B2 (ja) * 2011-07-20 2014-12-03 株式会社日立製作所 ストリームデータ処理サーバ及びストリームデータ処理プログラムを記録した記録媒体
CN103544117B (zh) * 2012-07-13 2017-03-01 阿里巴巴集团控股有限公司 一种数据读取方法及装置
WO2014204489A2 (en) * 2013-06-21 2014-12-24 Hitachi, Ltd. Stream data processing method with time adjustment
US9336245B2 (en) * 2013-12-24 2016-05-10 Sap Se Systems and methods providing master data management statistics
CN104317958B (zh) * 2014-11-12 2018-01-16 北京国双科技有限公司 一种实时数据处理方法及系统
CN105070054B (zh) * 2015-07-23 2017-05-10 银江股份有限公司 一种基于流式计算与时间窗动态优化的多源交通状态判别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350031A (zh) * 2008-08-21 2009-01-21 深圳市同洲电子股份有限公司 一种数据存储方法、数据查询方法及系统
CN102752669A (zh) * 2011-04-19 2012-10-24 中国电信股份有限公司 多通道实时流媒体文件的传送处理方法与系统、接收装置
CN103853766A (zh) * 2012-12-03 2014-06-11 中国科学院计算技术研究所 一种面向流式数据的在线处理方法及系统
CN103297529A (zh) * 2013-06-06 2013-09-11 浙江大学 基于时间戳的树型结构数据同步方法
CN104202122A (zh) * 2014-09-03 2014-12-10 国家电网公司 一种数据处理方法和装置

Also Published As

Publication number Publication date
US11055272B2 (en) 2021-07-06
CN106911589A (zh) 2017-06-30
US20180300365A1 (en) 2018-10-18
JP2019501458A (ja) 2019-01-17
WO2017107793A1 (zh) 2017-06-29
EP3396909A4 (en) 2019-05-22
EP3396909A1 (en) 2018-10-31

Similar Documents

Publication Publication Date Title
CN106911589B (zh) 一种数据处理方法和设备
US10887211B2 (en) Indirect packet classification timestamping system and method
CN107801080A (zh) 一种音视频同步方法、装置及设备
US7475272B2 (en) Method for calculating clock offset and skew
US20110035511A1 (en) Remote Hardware Timestamp-Based Clock Synchronization
EP2882120B1 (en) A method and apparatus for mitigation of packet delay variation
Li et al. The Trajectory approach for AFDX FIFO networks revisited and corrected
US20150207877A1 (en) Time synchronization client, a system and a non-transitory computer readable medium
CN104092697A (zh) 一种基于时间的防重放方法及装置
CN110932814B (zh) 软件定义的网络授时安全防护方法、装置及系统
US20210176140A1 (en) Precise statistics computation for communication networks
EP3598247B1 (en) Network time correction method and apparatus
US20160087738A1 (en) Time synchronization slave apparatus capable of adjusting time synchronization period, and method of determining time synchronization period
CN113098646A (zh) 一种时间同步方法、装置、电子设备及存储介质
JP2007282093A (ja) クロック信号発生装置及び方法
US10686897B2 (en) Method and system for transmission and low-latency real-time output and/or processing of an audio data stream
US10862944B1 (en) Real-time video streaming with latency control
US10326677B2 (en) Communication device, available band calculation system, available band calculation method, and program
US9882705B2 (en) Communication apparatus, communication method, and computer readable medium using propagation delay for time synchronization
JP2007306497A (ja) パケット伝送におけるクロック同期方法及び回路
WO2020172881A1 (zh) 区块生成方法、装置、计算机设备和存储介质
CN112583509A (zh) 获取数据流的时间戳的方法及装置、存储介质和电子装置
US8825590B2 (en) System and method for temporal correlation of observables based on timing associated with observations
EP2991277B1 (en) Packet delay variation in a packet switched network
US20170337316A1 (en) Data processing system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211122

Address after: Room 507, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: ZHEJIANG TMALL TECHNOLOGY Co.,Ltd.

Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK

Patentee before: ALIBABA GROUP HOLDING Ltd.

TR01 Transfer of patent right