CN113901108A - 数据集同比计算方法、装置及计算机程序产品 - Google Patents
数据集同比计算方法、装置及计算机程序产品 Download PDFInfo
- Publication number
- CN113901108A CN113901108A CN202111183048.7A CN202111183048A CN113901108A CN 113901108 A CN113901108 A CN 113901108A CN 202111183048 A CN202111183048 A CN 202111183048A CN 113901108 A CN113901108 A CN 113901108A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- time data
- time
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 40
- 238000004590 computer program Methods 0.000 title claims description 25
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000001360 synchronised effect Effects 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000001609 comparable effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出了一种数据集同比计算方法,包括:从数据源中获取待分析的第一数据集;在第一数据集中新增对应每一第一当期数据的第一同期数据得到第一同比数据集,每一第一同期数据的值初始化为零;根据第一同比数据集构建一一对应的第二时间数据、第二当期数据以及第二同期数据得到第二同比数据集;将第一同比数据集和第二同比数据集进行数据联合,并合并相等的第一时间数据与第二时间数据的对应数据得到第三同比数据集;根据第三同比数据集进行同比计算。该方法通过将直接对复杂的数据库查询操作转换成对简单数据库查询结果进行操作,用数据联合的方式实现了避免采用数据表的关联计算,节省大量计算资源,提升计算效率。
Description
技术领域
本申请涉及大数据分析领域,特别是涉及一种数据集同比计算方法、装置及计算机程序产品。
背景技术
在大数据分析领域,涉及需要对各个维度的大量流水数据进行分析,统计各个维度的同比数据以为后续的决策提供数据支撑。如在企业经营过程中,对产生的交易记录进行分析,统计企业每月发生的交易月及其同比数据,可以为企业资源的优化利用提供决策支持。同比数据就是不同年份同一时期的数据做比较,例如,今年某个月与去年对应该月份的数据进行比较,或者今年某个月与前年对应该月份的数据进行比较。根据同比可以得到一种同比增长率,不同年份同一时期的数据的差值比上在先年份同一时期的数据得到的百分比数据。
传统的基于SQL的同比数据统计方法,一般都是先查询并计算当期数据和同期数据,再通过数据表的左关联,左表为当期数据,右表为同期数据,使当期数据和同期数据相互对应,最后按同比计算公式计算结果。按照上述方法,在这类时间维度相关的海量数据中,直接在数据库中进行查询、计算、数据表关联的造作,不仅需要消耗大量的计算资源,统计同比数据统计效率低下,对特殊情况的统计结果也会存在部分统计数据缺失的问题,例如当期数据或同期数据中任意一种数据丢失。
发明内容
本申请实施例提供了一种数据集同比计算方法,该方法通过将直接对复杂的数据库查询操作转换成对简单数据库查询结果进行操作,用数据联合的方式实现了避免采用数据表的关联计算,节省大量计算资源,提升计算效率。
第一方面,本申请实施例提供了一种数据集同比计算方法,该方法包括以下步骤:
从数据源中获取待分析的第一数据集,其中所述第一数据集包括多个第一时间数据和第一当期数据,且每一所述第一时间数据和每一所述第一当期数据一一对应;
在所述第一数据集中新增对应每一所述第一当期数据的第一同期数据得到第一同比数据集,每一所述第一同期数据的值初始化为零;
根据所述第一同比数据集构建一一对应的第二时间数据、第二当期数据以及第二同期数据得到第二同比数据集,其中所述第二时间数据基于所述第一时间数据以及所述第一时间数据的年份得到,且所述第二当期数据的值初始化为零,所述第二同期数据与所述第一当期数据相同;
将所述第一同比数据集和所述第二同比数据集进行数据联合,并合并相等的所述第一时间数据与所述第二时间数据的对应数据得到第三同比数据集;
根据所述第三同比数据集进行同比计算。
在一些申请实施例中,所述第三同比数据集包括一一对应的第三时间数据、第三当期数据以及第三同期数据。具体的,所述第三当期数据为相等的所述第一时间数据与所述第二时间数据对应的所述第一当期数据与所述第二当期数据的和,所述第三同期数据为相等的所述第一时间数据与所述第二时间数据对应的所述第一同期数据与所述第二同期数据的和。以及,所有所述第三时间数据组成的集合等于所有所述第一时间数据组成的集合和所有所述第二时间数据组成的集合的并集。
在一些申请实施例中,所述第二时间数据为所述第一时间数据的年份增加得到,增加幅度取决于所述第一数据集中年份最小的所述第一时间数据与年份最大的所述第一时间数据的差值。
在一些申请实施例中,在“根据所述第三同比数据集进行同比计算”前,还包括步骤:过滤包含大于当前自然时间的所述第一时间数据的对应数据,以及所述第二时间数据的对应数据。
第二方面,本申请实施例提供了一种数据集同比计算装置,用于实现第一方面中所述的数据集同比计算方法,该装置包括以下模块:
获取单元,用于获取第一数据集,其中所述第一数据集包括多个一一对应的第一时间数据和第一当期数据;
第一执行单元,用于在所述第一数据集中新增对应每一所述第一当期数据的第一同期数据得到第一同比数据集,每一所述第一同期数据的值初始化为零;
第二执行单元,用于根据所述第一同比数据集构建一一对应的第二时间数据、第二当期数据以及第二同期数据得到第二同比数据集,其中所有所述第二时间数据为所述第一时间数据的年份变化得到,且所述第二当期数据的值也初始化为零,所述第二同期数据与所述第一当期数据相同;
第三执行单元,用于将所述第一同比数据集和所述第二同比数据集进行数据联合,并合并相等的所述第一时间数据与所述第二时间数据的对应数据得到第三同比数据集;
同比计算单元,用于根据所述第三同比数据集进行同比计算。
第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以如上任意申请实施例所述的数据集同比计算方法。
第四方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括:程序或指令,当所述程序或指令在计算机上运行时,使得所述计算机执行如上任意申请实施例所述的数据集同比计算方法。
第五方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据如上任意申请实施例所述的数据集同比计算方法。
本申请实施例的主要贡献和创新点如下:本申请实施例提供了一种数据集同比计算方法、装置及计算机程序产品,相比现有技术,该方法将复杂的数据库查询操作用根据简单的数据库查询结果进行操作替代,也就是用数据联合的方式替代了数据表的关联计算,减轻了在处理海量数据时,关联计算带来的计算压力,提升计算效率。特别的是,本申请实施例还能针对特殊情况自动补全缺失数据的同比增长率,保证同比数据的连续能,为用户提供更加良好的感知度。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的数据集同比计算方法的流程图;
图2是根据本申请实施例的第一同比数据集示意图;
图3是根据本申请实施例的第二同比数据集示意图;
图4是根据本申请实施例的第三同比数据集示意图;
图5是根据本申请实施例的数据集同比计算装置的结构框图;
图6是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
实施例一
本实施例提供了一种数据集同比计算方法,以某企业统计相比2020年,2021年每月交易额的同比增长率为例,参考图1,该方法包括步骤S1-S5:
步骤S1:从数据源中获取待分析的第一数据集,其中所述第一数据集包括多个第一时间数据和第一当期数据,且每一所述第一时间数据和每一所述第一当期数据一一对应。
在该步骤中,根据统计需求,从数据源中获取相应的基础数据作为第一数据集。其中,数据源通常为数据库,从任意类型的数据库中来获取需要分析的海量数据,包括各种关系型数据库MySQL等、分布式数据库PostgreSQL等、数据仓库Hive等不同类型的数据库。
第一数据集中包括需要的月份对应的交易额,把月份作为第一时间数据,把该月份的交易额作为第一当期数据,也就是说,第一数据集中的第一时间数据和第一当期数据是一一对应的关系,且通过数据库的SQL语句查询或统计得到。本实施例的整个过程中只需要从数据库中获取原始数据,或者根据原始数据简单统计的基础数据,就可以根据得到的数据,也就是第一数据集,进行处理以方便计算同比数据。而在通常都方法中,是直接使用SQL查询语句在数据库中进行查询、统计以及数据处理的操作,这种方法对要处理海量数据的时候,计算压力大,且计算效率低下。
通常,企业的流水数据都是存储在数据库中,根据不同用户的存储习惯和业务需求,数据库中存储的原始数据可能不是直接按照每月的交易额存储的,如果从数据库中不能直接获得基础数据,需要先使用数据库中的原始数据按照月份统计出相应的交易额,以形成可供分析的基础数据作为第一数据集。由于本实施例中要统计的是相比2020年,该企业2021年每月交易额的同比增长率,因此至少需要2020年每月的交易额以及2021年每月的交易额。另外,还可以根据统计需求制定一些其他的筛选条件,例如,该企业要统计的是在华东地区浙江省每月的交易额,但数据库中存储的浙江省每个市每月的交易额,那么同样的需要先使用数据库中的原始数据统计出浙江省每个月的交易额,以形成可供分析的基础数据作为第一数据集。
并且,以月份作为时间维度并不是唯一的选择,这里是为了符合统计需求——交易额每月的同比增长率。也就是说,能够代表一个时期都可以作为时间维度,例如还有季度、季节、暑假、寒假等等,根据不同的统计需求选择合适的时间维度。
也就是说,第一数据集中包括至少两个目标维度的数据,对应统计维度的交易额作为第一当期数据,对应每一交易额的月份作为第一时间数据对应时间维度。
步骤S2:在所述第一数据集中新增对应每一所述第一当期数据的第一同期数据得到第一同比数据集,每一所述第一同期数据的值初始化为零。
在该步骤中,对第一数据集中对应每个第一当期数据新增第一同期数据,并将第一同期数据的值赋值初始化为零。也就是说第一同比数据集中同时一一对应的第一时间数据、第一当期数据以及第一同期数据,但目前第一同期数据中的值赋值为零。
具体的可以参考图2,如图2所示,2020年至2021年每个月的当期交易额中都有具体数据,但同期交易额中都为零,也就是说,每个月的第一当期数据有具体数据,对应每个第一当期数据的第一同期数据数值为零。
步骤S3:根据所述第一同比数据集构建一一对应的第二时间数据、第二当期数据以及第二同期数据得到第二同比数据集,其中所述第二时间数据基于所述第一时间数据以及所述第一时间数据的年份得到,且所述第二当期数据的值初始化为零,所述第二同期数据与所述第一当期数据相同。
根据步骤S2中得到的第一同比数据集构建第二同比数据集,第二同比数据集中包括一一对应的第二时间数据、第二当期数据以及第二同期数据。其中,第二时间数据是根据第一同比数据集中的第一时间数据以及第一时间数据的年份根据统计需求进行变化得到的,第二同期数据是由第一同比数据集中的第一当期数据赋值得到的,并且第二当期数据是与第一同比数据集中的第一同期数据一样,用零进行赋值。
因此,具体的第二同比数据集可以参考图3,如图3所示,2021年至2022年每个月的当期交易额中数值为零,对应的同期交易额实际上是第一同比数据集中的第一当期数据,并且第二同比数据集中的第二时间数据实际上是根据第一时间数据增长一年得到的。例如,第一同比数据集中第一时间数据为2020年1月,对应的第二同比数据集中第二时间数据就为2021年1月;第一同比数据集中,2020年1月的当期交易额为10700000,同期交易额为0,相应的,第二同比数据集中,2021年1月的当期交易额为0,同期交易额为10700000。
但在一些实施例中,由于统计需求并不一定是与上一年相比计算同比,有可能是和前年或者几年前的同一时期的数据进行比较,那么第二时间数据是由第一时间数据增加得到的,具体的增加幅度取决于两个年份之间的差值,也就是第一同比数据集中最小的年份和最大的年份之间的差值。
步骤S4:将所述第一同比数据集和所述第二同比数据集进行数据联合,并合并相等的所述第一时间数据与所述第二时间数据的对应数据得到第三同比数据集。
在该步骤中,先将第一同比数据集与第二同比数据集进行数据联合,相当于将两个数据集合联合为一个数据集,然后再合并数据集中时间相同的对应数据,也就是说,当第一时间数据和第二时间数据相同时,需要合并对应的额第一当期数据和第二当期数据,以及对应的第一同期数据和第二同期数据,相当于分组求和,使第一时间数据和第二时间数据相同的对应数据变为同一条数据,得到第三同比数据集。
具体的,第三同比数据集中包括一一对应的第三时间数据、第三当期数据以及第三同期数据。其中,第三当期数据为相等的第一时间数据和第二时间数据,对应的第一当期数据与第一当期数据的和;第三同期数据为相等的第一时间数据和第二时间数据,对应的第一同期数据与第二同期数据的和;并且所有所述第三时间数据组成的集合等于所有所述第一时间数据组成的集合和所有所述第二时间数据组成的集合的并集。也就是说,所有的第三时间数据中没有两个完全相同的时间。第三同比数据集可以参考图4,图4为将图2中的第一同比数据集与图3中的第二同比数据集进行数据联合后,合并了相同第一时间数据和第二时间数据的对应数据的第三同比数据集的部分示意图。如图4所示,原本图1中缺少了2021年2月的当期交易额和2021年4月的当期交易额,但由于图2中相同年份相同月的当期交易额为0,因此在合并之后第三同比数据集中补上了缺少的两个月的当期交易额的数据。也就是说,本实施例针对缺失数据但存在同期数据的情况,可以补全缺失的数据。
也正是因为步骤S3的构建的第二同比数据集,其中补全了步骤S2中第一同比数据集里缺少的2021年2月和4月的当期交易额,以至于在接下来的同比计算过程中,也可以获得2021年2月和4月的同比数据。
步骤S5:根据所述第三同比数据集进行同比计算。
最后,根据第三同比数据集计算需要统计的同比增长率。具体的,在一些实施例中,第三同比数据集中包括一一对应的第三当期数据和第三同期数据。按照同比增长率计算公式,用第三当期数据与第三同期数据的差值比上第三同期数据得到一个百分比。
如果当期数据存在,但同期数据缺失,这是的同比增长率可以设置成100%,也可以根据需要设置为其他值,因为同期数据缺失,通常这种情况只考虑增长值,考虑同比增长率没有意义。
一般是获取与实际当期数据相对应的实际同期数据,当考虑的是当期数据缺失,同期数据存在的情况,为了能够保证同期数据尽可能获取到,在一些实施例中,获取第一数据集中包括实际当期数据,以及对应实际当期数据时间跨度的实际同期数据。例如,实际当期数据包括2021年1月、3月、5月至12月的数据,但该实际当期数据的时间跨度为12个月,那么2020年的实际同期数据应包括1月至12月的数据。在一些实施例中,在“根据所述第三同比数据集进行同比计算”前,还包括步骤:过滤包含大于当前自然时间的所述第一时间数据的对应数据,以及所述第二时间数据的对应数据。
实施例二
基于相同的构思,本实施例还提供了一种数据集同比计算装置,用于实现实施例一中所描述的数据集同比计算方法,具体参考图5,图5是根据本申请实施例的数据集同比计算装置的结构框图,如图5所示,该装置包括:
获取单元,用于从数据源中获取待分析的第一数据集,其中所述第一数据集包括多个第一时间数据和第一当期数据,且每一所述第一时间数据和每一所述第一当期数据一一对应;
第一执行单元,用于在所述第一数据集中新增对应每一所述第一当期数据的第一同期数据得到第一同比数据集,每一所述第一同期数据的值初始化为零;
第二执行单元,用于根据所述第一同比数据集构建一一对应的第二时间数据、第二当期数据以及第二同期数据得到第二同比数据集,其中所述第二时间数据基于所述第一时间数据以及所述第一时间数据的年份得到,且所述第二当期数据的值初始化为零,所述第二同期数据与所述第一当期数据相同;
第三执行单元,用于将所述第一同比数据集和所述第二同比数据集进行数据联合,并合并相等的所述第一时间数据与所述第二时间数据的对应数据得到第三同比数据集;
同比计算单元,用于根据所述第三同比数据集进行同比计算。
实施例三
本实施例还提供了一种电子装置,参考图6,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述实施例一中的任意一种数据集同比计算方法方法的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(Random Access Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory,简称为EPROM)、电可擦除PROM(Electrically ErasableProgrammable Read-Only Memory,简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-AccessMemory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(Fast Page Mode DynamicRandom Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种数据集同比计算方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是当前数据表例如疫情流调文档、特征数据、模板表等,输出的信息可以是特征指纹、指纹模板、文本分类推荐信息、文件模板配置映射表、文件模板配置信息表等。
可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:
从数据源中获取待分析的第一数据集,其中所述第一数据集包括多个第一时间数据和第一当期数据,且每一所述第一时间数据和每一所述第一当期数据一一对应;
在所述第一数据集中新增对应每一所述第一当期数据的第一同期数据得到第一同比数据集,每一所述第一同期数据的值初始化为零;
根据所述第一同比数据集构建一一对应的第二时间数据、第二当期数据以及第二同期数据得到第二同比数据集,其中所述第二时间数据基于所述第一时间数据以及所述第一时间数据的年份得到,且所述第二当期数据的值初始化为零,所述第二同期数据与所述第一当期数据相同;
将所述第一同比数据集和所述第二同比数据集进行数据联合,并合并相等的所述第一时间数据与所述第二时间数据的对应数据得到第三同比数据集;
根据所述第三同比数据集进行同比计算。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例一中的任意一种数据集同比计算方法的方法,本申请实施例可一种计算机程序产品来实现。该计算机程序产品包括:程序或指令,当所述程序或指令在计算机上运行时,使得所述计算机执行实现上述实施例一中的任意一种数据集同比计算方法。
并且,结合上述实施例一中的任意一种数据集同比计算方法的方法,本申请实施例可提供一种可读存储介质来实现。该可读存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例一中的任意一种数据集同比计算方法。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.数据集同比计算方法,其特征在于,包括以下步骤:
从数据源中获取待分析的第一数据集,其中所述第一数据集包括多个第一时间数据和第一当期数据,且每一所述第一时间数据和每一所述第一当期数据一一对应;
在所述第一数据集中新增对应每一所述第一当期数据的第一同期数据得到第一同比数据集,每一所述第一同期数据的值初始化为零;
根据所述第一同比数据集构建一一对应的第二时间数据、第二当期数据以及第二同期数据得到第二同比数据集,其中所述第二时间数据基于所述第一时间数据以及所述第一时间数据的年份得到,且所述第二当期数据的值初始化为零,所述第二同期数据与所述第一当期数据相同;
将所述第一同比数据集和所述第二同比数据集进行数据联合,并合并相等的所述第一时间数据与所述第二时间数据的对应数据得到第三同比数据集;
根据所述第三同比数据集进行同比计算。
2.根据权利要求1所述的数据集同比计算方法,其特征在于,所述第三同比数据集包括一一对应的第三时间数据、第三当期数据以及第三同期数据。
3.根据权利要求2所述的数据集同比计算方法,其特征在于,其中,所述第三当期数据为相等的所述第一时间数据与所述第二时间数据对应的所述第一当期数据与所述第二当期数据的和,所述第三同期数据为相等的所述第一时间数据与所述第二时间数据对应的所述第一同期数据与所述第二同期数据的和。
4.根据权利要求2所述的数据集同比计算方法,其特征在于,所有所述第三时间数据组成的集合等于所有所述第一时间数据组成的集合和所有所述第二时间数据组成的集合的并集。
5.根据权利要求1所述的数据集同比计算方法,其特征在于,所述第二时间数据为所述第一时间数据的年份增加得到,增加幅度取决于所述第一数据集中年份最小的所述第一时间数据与年份最大的所述第一时间数据的差值。
6.根据权利要求1所述的数据集同比计算方法,其特征在于,在“根据所述第三同比数据集进行同比计算”前,还包括步骤:过滤包含大于当前自然时间的所述第一时间数据的对应数据,以及所述第二时间数据的对应数据。
7.一种数据集同比计算装置,其特征在于,包括以下模块:
获取单元,用于从数据源中获取待分析的第一数据集,其中所述第一数据集包括多个第一时间数据和第一当期数据,且每一所述第一时间数据和每一所述第一当期数据一一对应;
第一执行单元,用于在所述第一数据集中新增对应每一所述第一当期数据的第一同期数据得到第一同比数据集,每一所述第一同期数据的值初始化为零;
第二执行单元,用于根据所述第一同比数据集构建一一对应的第二时间数据、第二当期数据以及第二同期数据得到第二同比数据集,其中所述第二时间数据基于所述第一时间数据以及所述第一时间数据的年份得到,且所述第二当期数据的值初始化为零,所述第二同期数据与所述第一当期数据相同;
第三执行单元,用于将所述第一同比数据集和所述第二同比数据集进行数据联合,并合并相等的所述第一时间数据与所述第二时间数据的对应数据得到第三同比数据集;
同比计算单元,用于根据所述第三同比数据集进行同比计算。
8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6任一所述的数据集同比计算方法。
9.一种计算机程序产品,其特征在于,包括软件代码部分,当所述计算机程序产品在计算机上被运行时,所述代码软件部分用于执行根据权利要求1至6任一项所述的数据集同比计算方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1至6任一项所述的数据集同比计算方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111183048.7A CN113901108A (zh) | 2021-10-11 | 2021-10-11 | 数据集同比计算方法、装置及计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111183048.7A CN113901108A (zh) | 2021-10-11 | 2021-10-11 | 数据集同比计算方法、装置及计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113901108A true CN113901108A (zh) | 2022-01-07 |
Family
ID=79191280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111183048.7A Pending CN113901108A (zh) | 2021-10-11 | 2021-10-11 | 数据集同比计算方法、装置及计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901108A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991964A (zh) * | 2015-07-23 | 2015-10-21 | 苏州国云数据科技有限公司 | 基于时间维度的同比环比计算方法 |
CN108073643A (zh) * | 2016-11-17 | 2018-05-25 | 百度在线网络技术(北京)有限公司 | 任务处理方法和装置 |
CN110503567A (zh) * | 2019-08-15 | 2019-11-26 | 中国平安财产保险股份有限公司 | 数据校验方法、设备、存储介质及装置 |
CN112015790A (zh) * | 2019-05-30 | 2020-12-01 | 北京沃东天骏信息技术有限公司 | 一种数据处理的方法和装置 |
-
2021
- 2021-10-11 CN CN202111183048.7A patent/CN113901108A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991964A (zh) * | 2015-07-23 | 2015-10-21 | 苏州国云数据科技有限公司 | 基于时间维度的同比环比计算方法 |
CN108073643A (zh) * | 2016-11-17 | 2018-05-25 | 百度在线网络技术(北京)有限公司 | 任务处理方法和装置 |
CN112015790A (zh) * | 2019-05-30 | 2020-12-01 | 北京沃东天骏信息技术有限公司 | 一种数据处理的方法和装置 |
CN110503567A (zh) * | 2019-08-15 | 2019-11-26 | 中国平安财产保险股份有限公司 | 数据校验方法、设备、存储介质及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20200015048A (ko) | 메타-학습에 기반하여 기계학습의 모델을 선정하는 방법 및 장치 | |
CN105099729B (zh) | 一种识别用户身份标识的方法和装置 | |
US11093461B2 (en) | Method for computing distinct values in analytical databases | |
CN110275889B (zh) | 一种适用于机器学习的特征处理方法及装置 | |
CN110569271B (zh) | 用于抽取特征的数据处理方法和系统 | |
WO2017092444A1 (zh) | 基于Hadoop的日志数据挖掘方法及系统 | |
CN110795427A (zh) | 数据分离存储方法、装置、计算机设备和存储介质 | |
CN114218263B (zh) | 物化视图的自动创建方法及基于物化视图的快速查询方法 | |
CN105022807A (zh) | 信息推荐方法及装置 | |
CN113535766B (zh) | 作业流配置方法、装置、电子装置及存储介质 | |
CN116028489A (zh) | 自动化数据探查方法及其应用 | |
CN114153898A (zh) | 梳理数据库表间关系的方法、装置及应用 | |
CN113901108A (zh) | 数据集同比计算方法、装置及计算机程序产品 | |
CN114595291B (zh) | 基于数据库注释的归集任务调整方法、装置 | |
CN116010670A (zh) | 一种基于数据血缘关系的数据目录推荐方法、装置及应用 | |
CN115730866A (zh) | 对合同项目的交付情况进行评价的方法、装置及应用 | |
CN112328641B (zh) | 多维度数据聚合方法、装置及计算机设备 | |
CN115622890A (zh) | 数据配置方法、装置、计算机设备和存储介质 | |
CN115564156A (zh) | 基于机器学习的事务聚集发生预警方法及其应用 | |
CN111666286B (zh) | 分库分表检测方法、装置、计算机设备和存储介质 | |
CN114153925A (zh) | 数据表关联分析方法和装置 | |
CN115455082A (zh) | 查询多个数据多级相关性方法及其应用 | |
CN111368146A (zh) | 一种路径信息的查询方法及装置、存储介质和处理器 | |
CN114064738B (zh) | 电子元器件替料查找方法、装置及应用 | |
CN117931248B (zh) | 一种提高巨石应用部署效率的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |