CN110019367B - 一种统计数据特征的方法和装置 - Google Patents
一种统计数据特征的方法和装置 Download PDFInfo
- Publication number
- CN110019367B CN110019367B CN201711459614.6A CN201711459614A CN110019367B CN 110019367 B CN110019367 B CN 110019367B CN 201711459614 A CN201711459614 A CN 201711459614A CN 110019367 B CN110019367 B CN 110019367B
- Authority
- CN
- China
- Prior art keywords
- data
- time
- statistical
- time window
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24562—Pointer or reference processing operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种统计数据特征的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据预设时间段定义第一指针变量和第二指针变量,并根据所述第一指针变量和第二指针变量创建时间窗口;其中,所述第一指针变量指向的是开始时间,所述第二指针变量指向的是结束时间;根据统计特征对所述时间窗口内的时间的数据进行分析,以及根据分析的结果对所述数据进行标记;对所述数据标记的结果进行统计计算。该实施方式实现了在海量数据环境下节约计算成本,提升统计计算性能,避免了数据的重复计算。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种统计数据特征的方法和装置。
背景技术
电商网站随着业务规模扩大,商品品类及数量的增长,进而相关数据的数据量越来越大。现如今,越来越多的企业在对海量数据进行分析统计,进而根基统计的结果对相应的进度或者服务进行评估。例如,计算一段时间内的有货天数就是衡量电商企业用服务水平的一个重要指标。该指标需要以天为周期动态计算选定的一段时间内有多少天有货。现有技术中,借助于hive大数据平台,利用SQL方式查询出历史连续一段时间内有货的日期,进而计算出该时间段内总共的有货来天数。其中,hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。
针对上述分析统计,一般都需要每天都要根据统计特征对一段时间内的数据进行统计分析,例如每天统计当前日期之前的30天内有货的天数。在现有技术中,是每天都要计算该时间段内所有的数据,如果每天都对当前日期前30天内的数据进行统计计算则会存在很多的重复计算,不仅会造成成立浪费,并在海量数据的情况下,会严重影响程序执行效率,不能在短时间内得到想要的结果,缺乏很好的用户体验。
发明内容
有鉴于此,本发明实施例提供一种统计数据特征的方法和装置,能够解决海量数据环境下,避免重复计算数据,从而节约计算成本,提升统计计算性能。
为实现上述目的,根据本发明实施例的一个方面,提供了一种统计数据特征的方法。
本发明实施例的统计数据特征的方法包括:根据预设时间段定义第一指针变量和第二指针变量,并根据所述第一指针变量和第二指针变量创建时间窗口;其中,所述第一指针变量指向的是开始时间,所述第二指针变量指向的是结束时间;根据统计特征对所述时间窗口内的时间的数据进行分析,以及根据分析的结果对所述数据进行标记;对所述数据标记的结果进行统计计算。
可选地,所述根据统计特征对所述时间窗口内的时间的数据进行分析,以及根据分析的结果对所述数据进行标记的步骤包括:将具有所述统计特征的数据标记为第一标记,将不具有所述统计特征的数据标记为第二标记;所述对所述数据标记的结果进行统计计算的步骤包括:根据所述第一标记和所述第二标记进行统计计算。
可选地,根据所述第一指针变量和第二指针变量创建时间窗口之后,以及根据统计特征对所述时间窗口内的时间的数据进行分析之前,还包括:根据统计需求定义所述时间窗口的单位时间。
可选地,根据统计需求移动所述时间窗口,并统计移动后的时间窗口相较于移动前的时间窗口的变化时间;根据统计特征对所述变化时间的数据进行标记,以获取移动后的标记结果;根据所述移动前的时间窗口内包含的时间的数据的统计结果以及所述移动后的标记结果,获得所述移动后的时间窗口内包含的时间的数据的统计结果。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种统计数据特征的装置。
本发明实施例的统计数据特征的装置包括:创建模块,用于根据预设时间段定义第一指针变量和第二指针变量,并根据所述第一指针变量和第二指针变量创建时间窗口;其中,所述第一指针变量指向的是开始时间,所述第二指针变量指向的是结束时间;标记模块,用于根据统计特征对所述时间窗口内的时间的数据进行分析,以及根据分析的结果对所述数据进行标记;计算模块,用于对所述数据标记的结果进行统计计算。
可选地,所述标记模块,还用于,将具有所述统计特征的数据标记为第一标记,将不具有所述统计特征的数据标记为第二标记;所述计算模块还用于,根据所述第一标记和所述第二标记进行统计计算。
可选地,所述创建模块还用于,根据统计需求定义所述时间窗口的单位时间。
可选地,还包括移动模块,用于根据统计需求移动所述时间窗口,并统计移动后的时间窗口相较于移动前的时间窗口的变化时间;所述标记模块还用于,根据统计特征对所述变化时间的数据进行标记,以获取移动后的标记结果;所述计算模块还用于,根据所述移动前的时间窗口内包含的时间的数据的统计结果以及所述移动后的标记结果,获得所述移动后的时间窗口内包含的时间的数据的统计结果。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种统计数据特征的电子设备。
本发明实施例的统计数据特征的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项的统计数据特征的方法。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述任一项的统计数据特征的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为在对数据进行统计的过程中对每个数据进行了标记,所以可根据该标记结果计算统计结果。并且,在时间推移后有数据与当前统计的数据有重叠,则不用对该重叠的数据进行判断,进而避免了很多重复计算,能够快速得到统计结果,提升了统计的效率。尤其是在海量数据环境下,避免了数据的重复计算,能够节约大量的计算成本,提升统计计算性能。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的统计数据特征的方法的主要流程的示意图;
图2是根据本发明实施例的统计有货天数的方法的示意图;
图3是根据本发明实施例的统计数据特征的装置的主要模块的示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的统计数据特征的方法的主要流程的示意图;如图1所示,本发明实施例的统计数据特征的方法主要包括:
步骤S101:根据预设时间段定义第一指针变量和第二指针变量,并根据第一指针变量和第二指针变量创建时间窗口。其中,第一指针变量指向的是开始时间,第二指针变量指向的是结束时间。通过scala函数获取时间窗口内包含的时间的数据。例如预设时间段为当前日期前的30天,且当前日期为12月1日,则需统计12月1日前的30天内的数据的数据特征,则定义的第一指针变量指向11月1日,第二指针变量指向11月30日,该时间窗口为11月1日到11月30日,并且该时间窗口包含11月1日和11月30日这两天。而且,还可根据统计需求定义时间窗口的时间单位,该时间单位是指分析的每个数据所对应的时间。例如,时间单位为天,则对时间窗口内每天的数据进行统计分析;时间单位为周,则对时间窗口内每一周的数据进行统计分析。上述创建11月1日到11月30日的时间窗口之后,定义时间窗口的时间单位为天的话,则获取11月1日到11月30日这30天中每天的数据;如果时间窗口的时间单位定义为周的话,则获取11月1日到11月30日这30天中每周的数据。
步骤S102:根据统计特征对时间窗口内的时间的数据进行分析,以及根据分析的结果对数据进行标记。在分析标记的过程中,可判断该时间窗口内的时间的数据是否存在未标记数据;如果存在,则根据统计特征对所述未标记数据进行标记。获取到数据之后,对预设时间段内的数据进行分析,并将具有统计特征的数据标记为第一标记,将不具有统计特征的数据标记为第二标记。或者,对数据的优良差进行统计分析,将为优的数据标记为第一标记,将为良的数据标记为第二标记,将为差的数据标记为第三标记。该分析统计特征对数据进行分析和标记的过程不局限于上述两个实施例,可根据具体的统计特征对数据进行标记。其中,统计特征可根据统计需求进行设定,例如在一段时间段内数据是否有货或者出货量在多少以上等。而且第一标记可设置为1,第二标记可设置为0,在统计计算时,可直接对标记的1进行累加。例如,获取到11月1日到11月30日这30天中每天的数据之后,分析该30天的数据,并判断是否有货,将有货的数据或者该有货的数据的日期标记为1,将没有货的数据或者没有货的数据的日期标记为0。或者,获取到11月1日到11月30日这30天中每天的数据之后,分析该30天的数据,将出货数量在1000件以上的数据或这该数据的日期标记为1,将出货数量未达到1000件以上的数据或该数据的日期标记为0。
步骤S103:对数据标记的结果进行统计计算。经过上述步骤之后,可直接根基标记的结果对该数据进行计算统计,而且在任何时候对该时间段内的数据进行该统计特征进行统计时,都可依据该标记的结果进行统计,避免了数据的重复计算。具体的,根据所述第一标记和所述第二标记进行统计计算,例如,没有货的数据的都被标记为0,则将1累加起来则为该时间段内有货的天数。
因为在对数据进行统计的过程中对每个数据进行了标记,所以可根据该标记结果计算统计结果。并且,在时间推移后有数据与当前统计的数据有重叠,则不用对该重叠的数据进行判断,进而避免了很多重复计算,能够快速得到统计结果,提升了统计的效率。尤其是在海量数据环境下,避免了数据的重复计算,能够节约大量的计算成本,提升统计计算性能。
如果随着时间的推移,需要每各一段时间就相较于当前时间统计预设时间段的数据。例如,每天都要统计当前日期前的30天内的有货的天数。此时,可直接移动创建的时间窗口,且该时间窗口的尺寸不改变,即移动前和移动后的时间窗口内包含的时间段都为预设的时间段。例如,统计当前日期前的30天内有货的天数,则创建一个包含30天的时间窗口,在12月1日,时间窗口内包含的时间为11月1日到11月30日;在12月2日时,移动后的时间窗口包含的时间为11月2日到12月1日;在12月3日时,继续移动时间窗口,此时移动后的时间窗口内包含的日期为11月3日到12月2日。
随着日期往后推移,获取变化时间的数据,并根据统计特征对该变化时间的数据进行标记。其中,变化时间是指相较于移动前的时间窗口,原本不包含在该移动前的时间窗口内,移动后包含在了移动后的时间窗口内,以及原本包含在移动前的时间窗口内,但移动后不包含在了移动后的时间窗口内。例如,12月1日前的30天内有货的天数为25天,在12月2日,移动时间窗口,变化时间为11月1日和12月1日。如果11月1日是有货并标记为0,12月1日有货并标记为1,则移动后的窗口内包含的时间11月2日到12月1日中有货的天数为26天。通过本发明实施例的技术方案,只需在起始统计的时候对时间段内的每天的数据进行判断,往后的每天计算都可以通过简单的移动窗口即可实现海量数据条件下的数据特征的统计,解决了现有技术中每天都需要对考察时间段内所有的数据进行判定以及计算统计问题。针对海量数据的统计,大大提升了统计效率。
图2是根据本发明实施例的统计有货天数的方法的示意图,如图2所示,本发明实施例的统计有货天数的方法包括:
步骤S201:根据统计的时间段定义指针变量,并根据指针变量创建时间窗口。定义两个变量header和tail,当开始时,header和tail分别赋值需要统计的时间段的开始时间和结束时间。以及,将该时间窗口的时间单位定义为天。
步骤S202:获取该时间窗口内包含的日期的数据。建立scala函数,该函数接收上一步骤定义的两个变量值以读取header和tail之间所有的日期的HDFS(Hadoop分布式文件系统)上的文件。其中,Scala是一种语言,用Java、C、C#等语言也可以实现该算法。
步骤S203:分析数据以确定有货的日期和没有货的日期,并且将有货的日期标记为1,将没有货的日期标记为0。当header!=tail时(开始时间与结束时间不同),利用spark程序统计header对应的日期数据是否有货,如果有货则利用一个累加器将有货的标记1累加起来,当遇到返回为无货时(标记为0),将累加器的值写入一个List结构。以及,将header的日期往加1,判断该日期是否有货,如果有货则通过累加器继续加1,并将该累加后的值写入List结构;如果没有货则标记为0并返回无货,依次递归直至header=tail,实现对该时间窗口内所有日期进行判断是否有货并进行累加。
步骤S204:根据标记的结果计算出该时间窗口中有货的天数。将上一个步骤产生的List中的最大值,即为考察日期范围内的有货的天数。例如,header为11月1日,tail为11月30日,统计到的有货的天数为25天,将结果存入如下数据库中的Schema(概要)中,并利用spark sql存入hive表:
header | availableDays | tail |
11月1日 | 25 | 11月30日 |
其中,availableDays对应的是List中的最大值即为考察日期范围内的有货的天数。
步骤S205:根据统计需求移动时间窗口,统计移动后的时间窗口相较于移动前的时间窗口的变化日期。在12月2日对其前30天的数据进行统计的话,则移动后的时间窗口相较于移动前的时间窗口的变化日期为11月1日和12月1日。
步骤S206:获取变化日期的数据,并标记该变化日期的数据是否有货。假如11月1日和12月1日分别是有货和无货,则11月1日标记为1,12月1日标记为0。
步骤S207:根据原时间窗口的统计结果以及变化日期的统计结果得到移动后时间窗口内包含的日期中有货的天数。随着日期往后推移,上一步骤中,header和tail变量的值也随着往后推移,即时间窗口移动,在12月2日,header和tail分别变为11月2日和12月1日。此时,availableDays的值则不需要重复上述步骤进行统计计算,可以通过编写scala函数,取HDFS上对应的header前一天以及tail两个日期分区下的文件,判断是否有货,如果有记为1,没有记为0,其中,header前一天标记为header-1。假如移动前的时间窗口内的数据的统计结果为N,则根据分支结构利用下表判断逻辑得到函数返回的有货天数,将N存入描述的表格中的availableDays即为有货天数。
hader-1 | tail | 有货天数 |
0 | 0 | N |
0 | 1 | N+1 |
1 | 0 | N-1 |
1 | 1 | N |
现有技术在每天统计一段时间段(例如当前日期前的30天)内有货的天数时,需要在每天统计过程中对该时间段内的数据进行计算。但是每天计算的数据中存在很多重复的数据,所以现有技术存在重复计算导致的效率低、成本高等问题。根据本发明实施例的技术方案,在统计的过程中,根据其是否有货对数据进行标记,所以在下一次做统计时,可直接根据该标记进行计算,不用再对重复的数据进行判断计算,进而避免了很多重复计算,能够快速得到统计结果,提升了统计的效率。
图3是根据本发明实施例的统计数据特征的装置的主要模块的示意图,本发明实施例的统计数据特征的装置300主要包括:创建模块301、标记模块302和计算模块303。
创建模块301用于,根据预设时间段定义第一指针变量和第二指针变量,并根据所述第一指针变量和第二指针变量创建时间窗口;其中,第一指针变量指向的是开始时间,第二指针变量指向的是结束时间。创建模块还用于,根据统计需求定义时间窗口的单位时间。
标记模块302用于,根据统计特征对时间窗口内的时间的数据进行分析,以及根据分析的结果对数据进行标记。标记模块,还用于,将具有统计特征的数据标记为第一标记,将不具有统计特征的数据标记为第二标记。
计算模块303用于,对数据标记的结果进行统计计算。计算模块还用于,根据第一标记和第二标记进行统计计算。
本发明实施例的统计数据特征的装置还包括移动模块,用于根据统计需求移动时间窗口,并统计移动后的时间窗口相较于移动前的时间窗口的变化时间。标记模块还用于,根据统计特征对变化时间的数据进行标记,以获取移动后的标记结果;计算模块还用于,根据移动前的时间窗口内包含的时间的数据的统计结果以及移动后的标记结果,获得移动后的时间窗口内包含的时间的数据的统计结果。
因为在对数据进行统计的过程中对每个数据进行了标记,所以可根据该标记结果计算统计结果。并且,在时间推移后有数据与当前统计的数据有重叠,则不用对该重叠的数据进行判断,进而避免了很多重复计算,能够快速得到统计结果,提升了统计的效率。尤其是在海量数据环境下,避免了数据的重复计算,能够节约大量的计算成本,提升统计计算性能。
如果随着时间的推移,需要每各一段时间就相较于当前时间统计预设时间段的数据。例如,每天都要统计当前日期前的30天内的有货的天数。此时,可直接移动创建的时间窗口,且该时间窗口的尺寸不改变,即移动前和移动后的时间窗口内包含的时间段都为预设的时间段。例如,统计当前日期前的30天内有货的天数,则创建一个包含30天的时间窗口,在12月1日,时间窗口内包含的时间为11月1日到11月30日;在12月2日时,移动后的时间窗口包含的时间为11月2日到12月1日;在12月3日时,继续移动时间窗口,此时移动后的时间窗口内包含的日期为11月3日到12月2日。
随着日期往后推移,获取变化时间的数据,并根据统计特征对该变化时间的数据进行标记。其中,变化时间是指相较于移动前的时间窗口,原本不包含在该移动前的时间窗口内,移动后包含在了移动后的时间窗口内,以及原本包含在移动前的时间窗口内,但移动后不包含在了移动后的时间窗口内。例如,12月1日前的30天内有货的天数为25天,在12月2日,移动时间窗口,变化时间为11月1日和12月1日。如果11月1日是有货并标记为0,12月1日有货并标记为1,则移动后的窗口内包含的时间11月2日到12月1日中有货的天数为26天。通过本发明实施例的技术方案,只需在起始统计的时候对时间段内的每天的数据进行判断,往后的每天计算都可以通过简单的移动窗口即可实现海量数据条件下的数据特征的统计,解决了现有技术中每天都需要对考察时间段内所有的数据进行判定以及计算统计问题。针对海量数据的统计,大大提升了统计效率。
图4示出了可以应用本发明实施例的统计数据特征的方法或统计数据特征的装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的统计数据特征的方法一般由服务器405执行,相应地,统计数据特征的装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括创建模块、标记模块和计算模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,计算模块还可以被描述为“对数据标记的结果进行统计计算的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:根据预设时间段定义第一指针变量和第二指针变量,并根据第一指针变量和第二指针变量创建时间窗口;其中,第一指针变量指向的是开始时间,第二指针变量指向的是结束时间;根据统计特征对时间窗口内的时间的数据进行分析,以及根据分析的结果对数据进行标记;对数据标记的结果进行统计计算。
根据本发明实施例的技术方案,因为在对数据进行统计的过程中对每个数据进行了标记,所以可根据该标记结果计算统计结果。并且,在时间推移后有数据与当前统计的数据有重叠,则不用对该重叠的数据进行判断,进而避免了很多重复计算,能够快速得到统计结果,提升了统计的效率。尤其是在海量数据环境下,避免了数据的重复计算,能够节约大量的计算成本,提升统计计算性能。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (8)
1.一种统计数据特征的方法,其特征在于,包括:
根据预设时间段定义第一指针变量和第二指针变量,并根据所述第一指针变量和第二指针变量创建时间窗口;其中,所述第一指针变量指向的是开始时间,所述第二指针变量指向的是结束时间;
根据统计需求定义所述时间窗口的单位时间;根据统计特征对所述时间窗口内的时间的数据进行分析,以及根据分析的结果对所述数据进行标记,将具有所述统计特征的数据标记通过累加器累加,并写入List结构;
读取所述List中的最大值,得到移动前的时间窗口内包含的时间的数据的统计结果,然后根据统计需求移动所述时间窗口,根据判断逻辑得到移动后时间窗口内的数据的统计结果,所述判断逻辑为:当所述第一指针变量指向的开始时间的前一单位时间的数据标记结果以及所述第二指针变量指向的结束时间的数据标记结果均为0或均为1,则所述移动后时间窗口内的数据的统计结果等于所述移动前的时间窗口内包含的时间的数据的统计结果;当所述第一指针变量指向的开始时间的前一单位时间的数据标记结果为1,且所述第二指针变量指向的结束时间的数据标记结果为0,则所述移动后时间窗口内的数据的统计结果等于所述移动前的时间窗口内包含的时间的数据的统计结果减1;当所述第一指针变量指向的开始时间的前一单位时间的数据标记结果为0,且所述第二指针变量指向的结束时间的数据标记结果为1,则所述移动后时间窗口内的数据的统计结果等于所述移动前的时间窗口内包含的时间的数据的统计结果加1。
2.根据权利要求1所述的方法,其特征在于,
所述根据统计特征对所述时间窗口内的时间的数据进行分析,以及根据分析的结果对所述数据进行标记的步骤包括:将具有所述统计特征的数据标记为第一标记,将不具有所述统计特征的数据标记为第二标记;
所述将具有所述统计特征的数据标记通过累加器累加的步骤包括:将所述第一标记通过累加器进行累加。
3.根据权利要求1所述的方法,其特征在于,根据判断逻辑得到移动后时间窗口内的数据的统计结果之前,包括:
统计移动后的时间窗口相较于移动前的时间窗口的变化时间;
根据统计特征对所述变化时间的数据进行标记。
4.一种统计数据特征的装置,其特征在于,包括:
创建模块,用于根据预设时间段定义第一指针变量和第二指针变量,并根据所述第一指针变量和第二指针变量创建时间窗口;其中,所述第一指针变量指向的是开始时间,所述第二指针变量指向的是结束时间;根据统计需求定义所述时间窗口的单位时间;
标记模块,用于根据统计特征对所述时间窗口内的时间的数据进行分析,以及根据分析的结果对所述数据进行标记,将具有所述统计特征的数据标记通过累加器累加,并写入List结构;
计算模块,用于对所述数据标记的结果进行统计计算,其中,读取所述List中的最大值,得到移动前的时间窗口内包含的时间的数据的统计结果;
移动模块,用于根据统计需求移动所述时间窗口;
所述计算模块还用于:根据判断逻辑得到移动后时间窗口内的数据的统计结果,所述判断逻辑为:当所述第一指针变量指向的开始时间的前一单位时间的数据标记结果以及所述第二指针变量指向的结束时间的数据标记结果均为0或均为1,则所述移动后时间窗口内的数据的统计结果等于所述移动前的时间窗口内包含的时间的数据的统计结果;当所述第一指针变量指向的开始时间的前一单位时间的数据标记结果为1,且所述第二指针变量指向的结束时间的数据标记结果为0,则所述移动后时间窗口内的数据的统计结果等于所述移动前的时间窗口内包含的时间的数据的统计结果减1;当所述第一指针变量指向的开始时间的前一单位时间的数据标记结果为0,且所述第二指针变量指向的结束时间的数据标记结果为1,则所述移动后时间窗口内的数据的统计结果等于所述移动前的时间窗口内包含的时间的数据的统计结果加1。
5.根据权利要求4所述的装置,其特征在于,
所述标记模块还用于,将具有所述统计特征的数据标记为第一标记,将不具有所述统计特征的数据标记为第二标记;
所述计算模块还用于,根据所述第一标记和所述第二标记进行统计计算,其中,将所述第一标记通过累加器进行累加。
6.根据权利要求4所述的装置,其特征在于,所述移动模块还用于统计移动后的时间窗口相较于移动前的时间窗口的变化时间;
所述标记模块还用于,根据统计特征对所述变化时间的数据进行标记。
7.一种统计数据特征的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-3中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711459614.6A CN110019367B (zh) | 2017-12-28 | 2017-12-28 | 一种统计数据特征的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711459614.6A CN110019367B (zh) | 2017-12-28 | 2017-12-28 | 一种统计数据特征的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019367A CN110019367A (zh) | 2019-07-16 |
CN110019367B true CN110019367B (zh) | 2022-04-12 |
Family
ID=67187097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711459614.6A Active CN110019367B (zh) | 2017-12-28 | 2017-12-28 | 一种统计数据特征的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019367B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112734147A (zh) * | 2019-10-28 | 2021-04-30 | 北京京东乾石科技有限公司 | 设备评估管理的方法和装置 |
CN112860417A (zh) * | 2019-11-27 | 2021-05-28 | 马上消费金融股份有限公司 | 一种数据处理方法、装置、设备、系统和存储介质 |
CN111291061B (zh) * | 2020-01-16 | 2023-06-13 | 北京旷视科技有限公司 | 数据统计方法、装置和电子系统 |
CN111723114B (zh) * | 2020-06-24 | 2023-07-25 | 中国工商银行股份有限公司 | 流式统计方法、装置和电子设备 |
CN112380479A (zh) * | 2020-11-24 | 2021-02-19 | 上海悦易网络信息技术有限公司 | 一种用于数据统计的方法与设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1791202A (zh) * | 2004-12-15 | 2006-06-21 | 联想(北京)有限公司 | 一种录制节目的方法 |
CN101916269A (zh) * | 2010-08-05 | 2010-12-15 | 华东电网有限公司 | 电网svg图形文件、所述图形文件的生成方法及生成系统 |
CN101963990A (zh) * | 2010-10-09 | 2011-02-02 | 吴刚 | 一种个人关系及事件数字化建模与搜索方法 |
CN102098175A (zh) * | 2011-01-26 | 2011-06-15 | 浪潮通信信息系统有限公司 | 一种移动互联网告警关联规则获取方法 |
CN102340416A (zh) * | 2011-07-08 | 2012-02-01 | 东软集团股份有限公司 | 基于时间切片进行事件统计的方法及装置 |
CN103324718A (zh) * | 2013-06-25 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 基于海量搜索日志挖掘话题脉络的方法和系统 |
CN104199942A (zh) * | 2014-09-09 | 2014-12-10 | 中国科学技术大学 | 一种Hadoop平台时序数据增量计算方法及系统 |
CN104331493A (zh) * | 2014-11-17 | 2015-02-04 | 百度在线网络技术(北京)有限公司 | 通过计算机实现的用于生成趋势解释数据的方法及装置 |
CN106161543A (zh) * | 2015-04-13 | 2016-11-23 | 腾讯科技(深圳)有限公司 | Cgi负载监控方法和装置 |
CN106415695A (zh) * | 2014-03-06 | 2017-02-15 | 呼吸运动公司 | 用于显示生理数据集中的趋势和变化性的方法和设备 |
CN106960250A (zh) * | 2017-03-03 | 2017-07-18 | 陕西师范大学 | 一种动态预测旅游景点客流的方法 |
CN107270956A (zh) * | 2017-06-05 | 2017-10-20 | 浙江聚励云机械科技有限公司 | 一种基于振动传感器的移动机械设备工作时间计算方法 |
CN107316108A (zh) * | 2017-06-19 | 2017-11-03 | 华南理工大学 | 一种市民出行公交线路选乘滑动窗口多特征预测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPS017302A0 (en) * | 2002-01-25 | 2002-02-14 | Tritronics (Australia) Pty Ltd | Performance monitoring system and method |
US20080177994A1 (en) * | 2003-01-12 | 2008-07-24 | Yaron Mayer | System and method for improving the efficiency, comfort, and/or reliability in Operating Systems, such as for example Windows |
CN101867489A (zh) * | 2010-06-11 | 2010-10-20 | 北京邮电大学 | 实现实时显示的社会网络可视化方法及系统 |
JP6515708B2 (ja) * | 2015-07-06 | 2019-05-22 | 富士通株式会社 | 情報処理装置、並列計算機システム、ジョブスケジュール設定プログラムおよびジョブスケジュール設定方法 |
CN105847851A (zh) * | 2016-04-19 | 2016-08-10 | 北京金山安全软件有限公司 | 全景视频直播方法、装置和系统以及视频源控制设备 |
CN112418898A (zh) * | 2019-08-21 | 2021-02-26 | 北京京东乾石科技有限公司 | 基于多时间窗口融合的物品需求数据分析方法和装置 |
-
2017
- 2017-12-28 CN CN201711459614.6A patent/CN110019367B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1791202A (zh) * | 2004-12-15 | 2006-06-21 | 联想(北京)有限公司 | 一种录制节目的方法 |
CN101916269A (zh) * | 2010-08-05 | 2010-12-15 | 华东电网有限公司 | 电网svg图形文件、所述图形文件的生成方法及生成系统 |
CN101963990A (zh) * | 2010-10-09 | 2011-02-02 | 吴刚 | 一种个人关系及事件数字化建模与搜索方法 |
CN102098175A (zh) * | 2011-01-26 | 2011-06-15 | 浪潮通信信息系统有限公司 | 一种移动互联网告警关联规则获取方法 |
CN102340416A (zh) * | 2011-07-08 | 2012-02-01 | 东软集团股份有限公司 | 基于时间切片进行事件统计的方法及装置 |
CN103324718A (zh) * | 2013-06-25 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 基于海量搜索日志挖掘话题脉络的方法和系统 |
CN106415695A (zh) * | 2014-03-06 | 2017-02-15 | 呼吸运动公司 | 用于显示生理数据集中的趋势和变化性的方法和设备 |
CN104199942A (zh) * | 2014-09-09 | 2014-12-10 | 中国科学技术大学 | 一种Hadoop平台时序数据增量计算方法及系统 |
CN104331493A (zh) * | 2014-11-17 | 2015-02-04 | 百度在线网络技术(北京)有限公司 | 通过计算机实现的用于生成趋势解释数据的方法及装置 |
CN106161543A (zh) * | 2015-04-13 | 2016-11-23 | 腾讯科技(深圳)有限公司 | Cgi负载监控方法和装置 |
CN106960250A (zh) * | 2017-03-03 | 2017-07-18 | 陕西师范大学 | 一种动态预测旅游景点客流的方法 |
CN107270956A (zh) * | 2017-06-05 | 2017-10-20 | 浙江聚励云机械科技有限公司 | 一种基于振动传感器的移动机械设备工作时间计算方法 |
CN107316108A (zh) * | 2017-06-19 | 2017-11-03 | 华南理工大学 | 一种市民出行公交线路选乘滑动窗口多特征预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110019367A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019367B (zh) | 一种统计数据特征的方法和装置 | |
CN112017060B (zh) | 为目标用户进行资源分配的方法、装置及电子设备 | |
CN107908662B (zh) | 搜索系统的实现方法和实现装置 | |
CN111950857A (zh) | 基于业务指标的指标体系管理方法、装置以及电子设备 | |
CN110648089A (zh) | 一种确定物品送达时效的方法和装置 | |
WO2012019001A2 (en) | Returning estimated value of search keywords of entire account | |
CN110866040A (zh) | 用户画像生成方法、装置和系统 | |
CN110705271B (zh) | 一种提供自然语言处理服务的系统及方法 | |
CN112860706A (zh) | 一种业务的处理方法、装置、设备及存储介质 | |
CN109902847B (zh) | 预测分库订单量的方法和装置 | |
CN108985805B (zh) | 一种选择性执行推送任务的方法和装置 | |
CN110895591A (zh) | 一种定位自提点的方法和装置 | |
CN110737691B (zh) | 用于处理访问行为数据的方法和装置 | |
CN113220705A (zh) | 慢查询识别的方法和装置 | |
CN110837907A (zh) | 一种预测波次订单量的方法和装置 | |
CN114817297A (zh) | 一种处理数据的方法和装置 | |
CN113762994B (zh) | 用户运营管理的方法和装置 | |
CN111125514B (zh) | 用户行为分析的方法、装置、电子设备和存储介质 | |
CN107886350B (zh) | 分析数据的方法和装置 | |
CN113434754A (zh) | 确定推荐api服务的方法、装置、电子设备和存储介质 | |
CN109871856B (zh) | 一种优化训练样本的方法和装置 | |
CN113761415A (zh) | 一种页面展示方法和装置 | |
CN113326680A (zh) | 生成表格的方法和装置 | |
CN111127077A (zh) | 一种基于流计算的推荐方法和装置 | |
CN111723274A (zh) | 用于处理信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |