CN113065028B - 时间序列数据的特征衍生方法、装置及电子设备 - Google Patents
时间序列数据的特征衍生方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113065028B CN113065028B CN202110304666.6A CN202110304666A CN113065028B CN 113065028 B CN113065028 B CN 113065028B CN 202110304666 A CN202110304666 A CN 202110304666A CN 113065028 B CN113065028 B CN 113065028B
- Authority
- CN
- China
- Prior art keywords
- target
- sequence data
- time
- viewpoint
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000009795 derivation Methods 0.000 title abstract description 13
- 230000002776 aggregation Effects 0.000 claims abstract description 96
- 238000004220 aggregation Methods 0.000 claims abstract description 96
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 42
- 230000006399 behavior Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000001212 derivatisation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种时间序列数据的特征衍生方法、装置及电子设备,涉及数据特征衍生技术领域,包括:获取待处理的原始时间序列数据和所述原始时间序列数据中的至少一个观察点序列数据;根据接收到的规则参数生成目标聚合规则;利用所述目标聚合规则对所述原始时间序列数据和各个所述观察点序列数据进行特征分析处理,得到所述原始时间序列数据的衍生特征。本发明可以显著降低衍生特征的开发成本,还可以有效提高衍生特征的开发效率。
Description
技术领域
本发明涉及数据特征衍生技术领域,尤其是涉及一种时间序列数据的特征衍生方法、装置及电子设备。
背景技术
大数据技术的快速发展使电商平台、银行等企业积累了大量的时间序列数据,这些时间序列数据具有很多隐藏价值,在电商用户购买推荐、银行交易反欺诈中发挥重要作用。目前,时间序列数据主要用于机器学习中,在实际应用中,由于时间序列数据的原始特征较少,因此需要人工进行特征转换、聚合等,以此来生成具有建模价值的衍生特征,然而这一过程需要投入大量的专业人力,不仅提高了衍生特征的开发成本,还导致衍生特征的开发效率较低。
发明内容
有鉴于此,本发明的目的在于提供一种时间序列数据的特征衍生方法、装置及电子设备,可以显著降低衍生特征的开发成本,还可以有效提高衍生特征的开发效率。
第一方面,本发明实施例提供了一种时间序列数据的特征衍生方法,包括:获取待处理的原始时间序列数据和所述原始时间序列数据中的至少一个观察点序列数据;根据接收到的规则参数生成目标聚合规则;利用所述目标聚合规则对所述原始时间序列数据和各个所述观察点序列数据进行特征分析处理,得到所述原始时间序列数据的衍生特征。
在一种实施方式中,所述规则参数包括待聚合基础特征、时间窗口长度、观察点偏移量、聚合函数中的一种或多种;所述根据接收到的规则参数生成目标聚合规则的步骤,包括:从所述原始时间序列数据所包含的特征类型中确定待聚合特征类型;通过第一预设界面展示获取目标时间窗口长度、目标观察点偏移量和目标聚合函数;基于所述待聚合基础特征,所述目标时间窗口长度、所述目标观察点偏移量和所述目标聚合函数生成所述目标聚合规则。
在一种实施方式中,所述通过第一预设界面展示获取目标时间窗口长度、目标观察点偏移量和目标聚合函数的步骤,包括:通过第一预设界面以列表形式展示候选时间窗口长度,以提示用户从所述候选时间窗口长度中选择目标时间窗口长度;以及,通过第一预设界面以列表形式展示候选观察点偏移量,以提示用户从所述候选观察点偏移量中选择目标观察点偏移量;以及,通过第一预设界面以列表形式展示候选聚合函数,以提示用户从所述候选聚合函数中选择目标聚合函数。
在一种实施方式中,所述利用所述目标聚合规则对所述原始时间序列数据和各个所述观察点序列数据进行特征分析处理,得到所述原始时间序列数据的衍生特征的步骤,包括:对于每个所述观察点序列数据,根据该观察点序列数据、所述目标时间窗口长度和所述目标观察点偏移量,从所述原始时间序列数据中确定目标时间序列数据;利用所述目标聚合函数对所述目标时间序列数据中所述待聚合特征类型对应的特征进行特征分析处理,得到所述原始时间序列数据的衍生特征。
在一种实施方式中,所述根据该观察点序列数据、所述目标时间窗口长度和所述目标观察点偏移量,从所述原始时间序列数据中确定目标时间序列数据的步骤,包括:根据该观察点序列数据和所述目标观察点偏移量,从所述原始时间序列数据中确定目标时间点;以所述目标时间点作为起点或终点,按照所述目标时间窗口长度从所述原始时间序列数据中确定目标时间序列数据。
在一种实施方式中,所述原始时间序列数据包括第一主键字段、行为字段和第一时间戳字段;所述观察点序列数据包括第二主键字段和第二时间戳字段。
在一种实施方式中,通过第二预设界面展示所述衍生特征。
第二方面,本发明实施例提供了一种时间序列数据的特征衍生装置,包括:获取模块,用于获取待处理的原始时间序列数据和所述原始时间序列数据中的至少一个观察点序列数据;目标聚合规则生成模块,用于根据接收到的规则参数生成目标聚合规则;特征分析模块,用于利用所述目标聚合规则对所述原始时间序列数据和各个所述观察点序列数据进行特征分析处理,得到所述原始时间序列数据的衍生特征。
第三方面,本发明实施例还提供一种电子设备,包括存储器以及处理器;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面和第二方面任一项所述的方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述第一方面和第二方面任一项所述的方法。
本发明实施例提供的一种时间序列数据的特征衍生方法及装置,首先获取原始时间序列数据和观察点序列数据,其中,观察点序列在原始时间序列数据上选取,然后,利用规则参数生成目标聚合规则,最后利用生成的目标聚合规则在原始时间序列数据和观察点序列数据进行特征分析,得到衍生特征。上述方法能够通过规则参数的设置,配置目标聚合规则,进而通过该目标聚合规则生成所需的衍生特征,本发明实施例可以根据规则参数快速、批量生成时间序列数据的衍生特征,不仅可以显著降低衍生特征的开发成本,还可以有效提高衍生特征的开发效率。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种时间序列数据的特征衍生方法的流程示意图;
图2为本发明实施例提供的一种时间序列数据的图像输入界面示意图;
图3为本发明实施例提供的一种时间窗口特征聚合计算示意图;
图4为本发明实施例提供的一种时间序列数据的特征衍生方法应用示意图;
图5为本发明实施例提供的一种时间序列数据的特征衍生装置的结构示意图;
图6本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,特征衍生工作主要是通过工作人员手工完成,先对时间序列数进行观察和分析,然后根据自身掌握的知识和经验编写相应代码,以此生成特定的衍生特征,这种利用手工完成的特征衍生工作,需要投入大量的专业人力物力,衍生特征的开发成本较高且工作将较大。基于此,本发明实施例提供了一种时间序列数据的特征衍生方法、装置及电子设备,可以显著降低衍生特征的开发成本,还可以有效提高衍生特征的开发效率。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种时间序列数据的特征衍生方法进行详细介绍,具体参见图1所示的一种时间序列数据的特征衍生方法的流程示意图,该方法主要包括以下步骤:
步骤S102,获取待处理的原始时间序列数据和原始时间序列数据中的至少一个观察点序列数据。在实际应用中,从企业从后台获取原始时间序列数据,比如,银行、电商平台等。这些原始时间序列数据包含丰富的信息和富含建模价值的衍生特征,再根据业务需要或实际需求从这些原始时间序列数据中选取观察点序列数据,观察点序列数据可以是一个,也可以是多个。
步骤S104,根据接收到的规则参数生成目标聚合规则。在实际应用中,通过用户图形界面将规则参数输入,然后利用规则参数生成目标聚合规则。其中,规则参数包括待聚合基础特征、时间窗口长度、观察点偏移量、聚合函数中的一种或多种。
步骤S106,利用目标聚合规则对原始时间序列数据和各个观察点序列数据进行特征分析处理,得到原始时间序列数据的衍生特征。在一种实施方式中,生成目标聚合规则以后,利用该目标聚合规则对原始时间序列和选取的观察点序列数据进行处理,最终得到原始时间序列数据对应的衍生特征。在实际应用中,可以计算T时刻过去或者未来的某一时间段内某个行为值的聚合量,即最大、最小、平均、计算等。比如,对于T时刻过去3天的流量的最大值,对于T时刻过去3小时CPU负载的平均值。也可以对较为复杂的进行计算,比如,对于T时刻过去5天当前时刻流量平均值,则需要计算两次,先计算出所有天内当前时刻的流量,再计算过去5天当前时刻的流量值。
本发明实施例提供的一种时间序列数据的特征衍生方法,能够通过规则参数的设置,配置目标聚合规则,进而通过该目标聚合规则生成所需的衍生特征,本发明实施例可以根据规则参数快速、批量生成时间序列数据的衍生特征,不仅可以显著降低衍生特征的开发成本,还可以有效提高衍生特征的开发效率。
在一种实施方式中,规则参数包括待聚合基础特征、时间窗口长度、观察点便宜量、聚合函数中的一种或多种,基于上述步骤S104,本发明还提供了一种根据接收到的规则参数生成目标聚合规则的实施方式,包括;从原始时间序列数据所包含的特征类型中确定待聚合特征类型;通过第一预设界面展示获取目标时间窗口长度、目标观察点偏移量和目标聚合函数;基于待聚合基础特征,目标时间窗口长度、目标观察点偏移量和目标聚合函数生成目标聚合规则。在实际应用中,利用图像输入界面输入规则参数,具体参见图2所示的一种图像输入界面示意图。分别通过特征窗口、时间窗口、观察点便宜窗口和聚合函数窗口输入预先设置的规则参数,最终生成目标聚合规则。其中,特征是从原始时间序列中选取的并确定为待聚合特征,可以根据实际业务需要和要求进行选取。另外,依据各种规则参数生成目标聚合规则的同时,还能生成新的衍生特征名称和衍生逻辑的说明文档,供使用者参阅。
为了清晰的展示目标聚合特征的生成过程,本发明还提供一种时间窗口特征聚合计算过程,具体参图3所示的一种时间窗口特征聚合计算示意图。首先获取原始时间序列数据D1,原始时间序列数据D1包含时间戳、主键和行为特征数据,其中,原始时间序列的时间戳字段用于记录某个主键在某个时间产生的某个行为。同时,获取观察点时间序列数据D2,包含观察点时间戳和主键,其中,观察点时间序列数据的时间戳字段指定特征衍生的基准。然后,选取某个观察点时间tv0,选取目标聚合规则中的一条或多条进行特征衍生。例如,待聚合基础特征为X、时间窗口长度为w、偏移量s和聚合函数func为count函数,计算得到聚合时窗起点和终点分别为t1和t2。应用count函数,统计聚合时窗内特征X的个数,得到计算结果为3。
基于此,本发明还提供一种通过第一预设界面展示获取目标时间窗口长度、目标观察点偏移量和目标聚合函数的实施方式,包括:通过第一预设界面以列表形式展示候选时间窗口长度,以提示用户从候选时间窗口长度中选择目标时间窗口长度;以及,通过第一预设界面以列表形式展示候选观察点偏移量,以提示用户从候选观察点偏移量中选择目标观察点偏移量;以及,通过第一预设界面以列表形式展示候选聚合函数,以提示用户从候选聚合函数中选择目标聚合函数。在实际应用中,第一预设界面向用户展示候选时间窗口长度、候选观察点偏移量、候选聚合函数,用户通过界面展示和提示,再结合实际需求分别选取目标时间窗口长度、目标观察点偏移量和目标聚合函数。
为了便于理解,本发明还提供了一种利用目标聚合规则对原始时间序列数据和各个观察点序列数据进行特征分析处理,得到原始时间序列数据的衍生特征的实施方式,包括:对于每个观察点序列数据,根据该观察点序列数据、目标时间窗口长度和目标观察点偏移量,从原始时间序列数据中确定目标时间序列数据;利用目标聚合函数对目标时间序列数据中待聚合特征类型对应的特征进行特征分析处理,得到原始时间序列数据的衍生特征。在实际应用中,需要从原始时间序列数据中选取部分作为目标时间序列数据,选取的依据是观察点序列数据、目标时间窗口长度和观察点偏移量,再利用目标聚合规则对目标时间序列数据进行分析处理。
本发明还提供一种根据该观察点序列数据、目标时间窗口长度和目标观察点偏移量,从原始时间序列数据中确定目标时间序列数据的实施方式,包括:根据该观察点序列数据和目标观察点偏移量,从原始时间序列数据中确定目标时间点;以目标时间点作为起点或终点,按照目标时间窗口长度从原始时间序列数据中确定目标时间序列数据。比如,在实际应用中,根据业务需要或实际需求,确定观察点时刻为tv0,时间窗口的起始点分别为t1和t2,根据观察点时刻和时间窗口起点确定偏移量为s,s=tv0-t1,时间窗口长度w=t1-t2,即时间窗口长度w=t1-t2中为目标时间序列数据。
在一种实施方式中,原始时间序列数据包括第一主键字段、行为字段和第一时间戳字段;观察点序列数据包括第二主键字段和第二时间戳字段。其中,第一时间戳字段主要用于记录第一主键字段原始时间序列在某个时间产生的某种行为;第二时间戳字段主要用于指定特征基准,比如,根据T时刻可以得到T-1时刻和T+1时刻等相对应的时刻。
在一种实施方式中,通过第二预设界面展示衍生特征。在实际应用中,将衍生特征向用户展示,以便获取分析结果。
为了便于理解,本发明提供一种时间序列数据的特征衍生方法应用示例,具体参见如图4所示的一种时间序列数据的特征衍生方法应用示意图。步骤S402,开始。步骤S404,导入原始时间序列数据和观察点时间序列数据。步骤S406,批量生成时间窗口聚合规则。步骤S408,应用聚合规则得到一组衍生特征。具体衍生示例如下:其中,原始序列数据、观测点序列数据、配置参数、输出结果、最终输出结果分别如表1、表2、表3、表4、表5所示。
表1原始时间序列数据
网站 | 时间戳 | 流量 |
a | 10000 | 1 |
a | 9999 | 2 |
a | 9998 | 3 |
a | 9997 | 4 |
a | 9996 | 5 |
a | 9995 | 6 |
a | 9994 | 7 |
a | 9993 | 8 |
a | 9992 | 9 |
a | 9991 | 10 |
a | 9990 | 11 |
b | 10000 | 10 |
b | 9999 | 11 |
b | 9998 | 12 |
b | 9997 | 13 |
b | 9996 | 14 |
b | 9995 | 15 |
b | 9994 | 16 |
b | 9993 | 17 |
b | 9992 | 18 |
b | 9991 | 19 |
b | 9990 | 20 |
表2观察点序列数据
网站 | 观测点 |
a | 9999 |
b | 9997 |
需要注意的是,观测点的行数等于最终输出结果的行数。
表3配置参数
表3所示的两条规则表示的是,最终会输出两个衍生特征。特征1用于输出观测点之前(偏移量为0)2个单位时间内网站流量的平均值。特征2用于输出观测点前一个时间单位(偏移量为1)之前的3个单位时间单位内网站流量的平均值。
表4输出结果
根据表4可以看出,由于配置参数是2行,所示最终的输出结果需要在观测点序列数据上新增两列。
表5最终输出结果
综上所述,本发明提供的时间序列数据的特征衍生方法,首先获取原始时间序列数据,并在原始时间序列数据中选取一个或多个观察点序列数据,然后利用预先配置好的规则参数生成目标聚合规则,最后利用生成的目标聚合规则对原始序列数据序列和观察点序列数据进行分析,得到衍生特征。本发明实施例通过上述方法可以降低人工开发的工作量和节省计算时间,提高特征衍生的效率。
基于前述实施例所提供的时间序列数据的特征衍生方法,本发明实施提供了一种时间序列数据的特征衍生方法的装置,参见图5所示的一种时间序列数据的特征衍生装置的结构示意图,装置至少包括以下部分:
获取模块502,用于获取待处理的原始时间序列数据和所述原始时间序列数据中的至少一个观察点序列数据。
目标聚合规则生成模块504,用于根据接收到的规则参数生成目标聚合规则。
特征分析模块506,用于利用目标聚合规则对原始时间序列数据和各个观察点序列数据进行特征分析处理,得到原始时间序列数据的衍生特征。
本发明实施例提供的时间序列数据的特征衍生装置,能够通过规则参数的设置,配置目标聚合规则,进而通过该目标聚合规则生成所需的衍生特征,本发明实施例可以根据规则参数快速、批量生成时间序列数据的衍生特征,不仅可以显著降低衍生特征的开发成本,还可以有效提高衍生特征的开发效率。
在一种实施方式中,规则参数包括待聚合基础特征、时间窗口长度、观察点偏移量、聚合函数中的一种或多种,目标聚合规则生成模块504还用于:从原始时间序列数据所包含的特征类型中确定待聚合特征类型;通过第一预设界面展示获取目标时间窗口长度、目标观察点偏移量和目标聚合函数;基于待聚合基础特征,目标时间窗口长度、目标观察点偏移量和目标聚合函数生成目标聚合规则。
在一种实施方式中,目标聚合规则生成模块504还用于,通过第一预设界面以列表形式展示候选时间窗口长度,以提示用户从候选时间窗口长度中选择目标时间窗口长度;以及,通过第一预设界面以列表形式展示候选观察点偏移量,以提示用户从候选观察点偏移量中选择目标观察点偏移量;以及,通过第一预设界面以列表形式展示候选聚合函数,以提示用户从候选聚合函数中选择目标聚合函数。
在一种实施方式中,特征分析模块506还用于:对于每个观察点序列数据,根据该观察点序列数据、目标时间窗口长度和目标观察点偏移量,从原始时间序列数据中确定目标时间序列数据;利用目标聚合函数对目标时间序列数据中待聚合特征类型对应的特征进行特征分析处理,得到原始时间序列数据的衍生特征。
在一种实施方式中,特征分析模块506还用于:根据该观察点序列数据和目标观察点偏移量,从原始时间序列数据中确定目标时间点;以目标时间点作为起点或终点,按照目标时间窗口长度从原始时间序列数据中确定目标时间序列数据。
在一种实施方式中,原始时间序列数据包括第一主键字段、行为字段和第一时间戳字段;观察点序列数据包括第二主键字段和第二时间戳字段。
在一种实施方式中,通过第二预设界面展示衍生特征。
本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。
图6本发明实施例提供的一种电子设备的结构示意图,该电子设备100包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (9)
1.一种时间序列数据的特征衍生方法,其特征在于,包括:
获取待处理的原始时间序列数据和所述原始时间序列数据中的至少一个观察点序列数据;
根据接收到的规则参数生成目标聚合规则;
利用所述目标聚合规则对所述原始时间序列数据和各个所述观察点序列数据进行特征分析处理,得到所述原始时间序列数据的衍生特征;
所述规则参数包括待聚合基础特征、时间窗口长度、观察点偏移量、聚合函数中的一种或多种;
所述根据接收到的规则参数生成目标聚合规则的步骤,包括:
从所述原始时间序列数据所包含的特征类型中确定待聚合特征类型;
通过第一预设界面展示获取目标时间窗口长度、目标观察点偏移量和目标聚合函数;
基于所述待聚合基础特征,所述目标时间窗口长度、所述目标观察点偏移量和所述目标聚合函数生成所述目标聚合规则。
2.根据权利要求1所述的方法,其特征在于,所述通过第一预设界面展示获取目标时间窗口长度、目标观察点偏移量和目标聚合函数的步骤,包括:
通过第一预设界面以列表形式展示候选时间窗口长度,以提示用户从所述候选时间窗口长度中选择目标时间窗口长度;
以及,通过第一预设界面以列表形式展示候选观察点偏移量,以提示用户从所述候选观察点偏移量中选择目标观察点偏移量;
以及,通过第一预设界面以列表形式展示候选聚合函数,以提示用户从所述候选聚合函数中选择目标聚合函数。
3.根据权利要求1所述的方法,其特征在于,所述利用所述目标聚合规则对所述原始时间序列数据和各个所述观察点序列数据进行特征分析处理,得到所述原始时间序列数据的衍生特征的步骤,包括:
对于每个所述观察点序列数据,根据该观察点序列数据、所述目标时间窗口长度和所述目标观察点偏移量,从所述原始时间序列数据中确定目标时间序列数据;
利用所述目标聚合函数对所述目标时间序列数据中所述待聚合特征类型对应的特征进行特征分析处理,得到所述原始时间序列数据的衍生特征。
4.根据权利要求3所述的方法,其特征在于,所述根据该观察点序列数据、所述目标时间窗口长度和所述目标观察点偏移量,从所述原始时间序列数据中确定目标时间序列数据的步骤,包括:
根据该观察点序列数据和所述目标观察点偏移量,从所述原始时间序列数据中确定目标时间点;
以所述目标时间点作为起点或终点,按照所述目标时间窗口长度从所述原始时间序列数据中确定目标时间序列数据。
5.根据权利要求1所述的方法,其特征在于,所述原始时间序列数据包括第一主键字段、行为字段和第一时间戳字段;所述观察点序列数据包括第二主键字段和第二时间戳字段。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过第二预设界面展示所述衍生特征。
7.一种时间序列数据的特征衍生装置,其特征在于,包括:
获取模块,用于获取待处理的原始时间序列数据和所述原始时间序列数据中的至少一个观察点序列数据;
目标聚合规则生成模块,用于根据接收到的规则参数生成目标聚合规则;
特征分析模块,用于利用所述目标聚合规则对所述原始时间序列数据和各个所述观察点序列数据进行特征分析处理,得到所述原始时间序列数据的衍生特征;
所述规则参数包括待聚合基础特征、时间窗口长度、观察点偏移量、聚合函数中的一种或多种;
所述目标聚合规则生成模块还用于:
从所述原始时间序列数据所包含的特征类型中确定待聚合特征类型;
通过第一预设界面展示获取目标时间窗口长度、目标观察点偏移量和目标聚合函数;
基于所述待聚合基础特征,所述目标时间窗口长度、所述目标观察点偏移量和所述目标聚合函数生成所述目标聚合规则。
8.一种电子设备,其特征在于,包括存储器以及处理器;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110304666.6A CN113065028B (zh) | 2021-03-22 | 2021-03-22 | 时间序列数据的特征衍生方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110304666.6A CN113065028B (zh) | 2021-03-22 | 2021-03-22 | 时间序列数据的特征衍生方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113065028A CN113065028A (zh) | 2021-07-02 |
CN113065028B true CN113065028B (zh) | 2024-07-05 |
Family
ID=76563447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110304666.6A Active CN113065028B (zh) | 2021-03-22 | 2021-03-22 | 时间序列数据的特征衍生方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065028B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154866A (zh) * | 2021-12-02 | 2022-03-08 | 北京顶象技术有限公司 | 一种上市企业财务风险预警方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977151A (zh) * | 2019-03-28 | 2019-07-05 | 北京九章云极科技有限公司 | 一种数据分析方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353602A (zh) * | 2020-02-28 | 2020-06-30 | 深圳前海微众银行股份有限公司 | 特征衍生方法、装置、设备及计算机可读存储介质 |
CN112085218A (zh) * | 2020-09-11 | 2020-12-15 | 北京百度网讯科技有限公司 | 特征衍生方法、装置、电子设备以及计算机可读介质 |
-
2021
- 2021-03-22 CN CN202110304666.6A patent/CN113065028B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977151A (zh) * | 2019-03-28 | 2019-07-05 | 北京九章云极科技有限公司 | 一种数据分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113065028A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2416289A1 (en) | System for measuring variables from data captured from internet applications | |
CN108829718B (zh) | 一种数据处理的方法和装置 | |
CN112231533A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112783762B (zh) | 软件质量的评估方法、装置及服务器 | |
CN113065028B (zh) | 时间序列数据的特征衍生方法、装置及电子设备 | |
CN111967802A (zh) | 一种企业金融风险定量分析和预警方法、装置及设备 | |
Gebresilassie et al. | Impact of Foreign Aid on Economic Growth in Ethiopia | |
CN113793057A (zh) | 一种基于回归分析模型的建筑招投标数据生成方法 | |
CN113515703A (zh) | 信息推荐方法、装置、电子设备及可读存储介质 | |
CN111415200B (zh) | 数据处理方法及装置 | |
Thi Quy et al. | Time-varying causality relationships between trade openness, technological innovation, industrialization, financial development, and carbon emissions in Thailand | |
CN111325572A (zh) | 一种数据处理方法及装置 | |
CN116777256A (zh) | 一种企业合规管理量化评价系统与方法 | |
CN111241382A (zh) | 数据处理方法及装置、存储介质、电子设备 | |
CN110889644B (zh) | 信用数据处理方法、装置、存储介质和计算机设备 | |
JP2011227720A (ja) | 推薦システム、推薦方法、及び推薦プログラム | |
CN109857991B (zh) | 数据存储方法、装置及电子设备 | |
CN109360032B (zh) | 客户评估方法、装置、设备以及存储介质 | |
CN111768282A (zh) | 数据分析方法、装置、设备及存储介质 | |
WO2016075836A1 (ja) | データ検証プログラム、データ検証方法及びデータ検証装置 | |
CN111984636B (zh) | 数据建模方法和装置、设备及存储介质 | |
CN113032445B (zh) | 一种数据转化排序方法、装置和电子设备 | |
CN115718844A (zh) | 一种基于多维协同的智能筛选设计方法及装置 | |
CN111221878B (zh) | 一种知识空间中知识点相关值确定方法、装置、计算机设备及存储介质 | |
CN118363811A (zh) | 系统运行状态监测方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |