CN110334124A - 压缩算法选择方法、装置以及设备 - Google Patents

压缩算法选择方法、装置以及设备 Download PDF

Info

Publication number
CN110334124A
CN110334124A CN201810622648.0A CN201810622648A CN110334124A CN 110334124 A CN110334124 A CN 110334124A CN 201810622648 A CN201810622648 A CN 201810622648A CN 110334124 A CN110334124 A CN 110334124A
Authority
CN
China
Prior art keywords
compression algorithm
time series
series data
data
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810622648.0A
Other languages
English (en)
Other versions
CN110334124B (zh
Inventor
巫晓杰
钱波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810622648.0A priority Critical patent/CN110334124B/zh
Publication of CN110334124A publication Critical patent/CN110334124A/zh
Application granted granted Critical
Publication of CN110334124B publication Critical patent/CN110334124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请实施例公开了一种压缩算法选择方法、装置以及相关设备,其中,该方法包括:先获取属于同一模式的至少一个时间序列数据,然后利用压缩算法库中的压缩算法对所获取的各个时间序列数据进行压缩处理,根据压缩处理结果,从压缩算法库中选择各个时间序列数据对应的压缩误差最小的压缩算法,进而根据各个时间序列数据对应的压缩误差最小的压缩算法,确定适配于该模式的最优压缩算法。本申请实施例提供的压缩算法选择方法基于真实的压缩处理结果,确定适配于各时间序列数据所属模式的最优压缩算法,由此能够保证所确定的最优压缩算法具有较好的压缩效果;且该压缩算法选择方法无需经历人工调试过程,减少了人工成本,提高了处理效率。

Description

压缩算法选择方法、装置以及设备
技术领域
本申请涉及时间序列处理技术领域,尤其涉及一种压缩算法选择方法、装置、设备以及计算机存储介质。
背景技术
时间序列数据是按照时间排序的一个随机变量,它通常是在相等间隔的时间段内,依照给定采样率,对某种潜在过程进行观测得到的数据。目前,时间序列数据正以不可预测的速率产生于现实生活中的几乎每一个应用领域。
在各个领域中挖掘时间序列数据用以解决实际问题,已成为数据挖掘领域的研究热点之一,在对时间序列数据进行挖掘的过程中,由于时间序列数据具有数据量大、数据维度高以及数据不断更新等特点,直接在时间序列数据上进行挖掘工作是非常耗时的,因此,为了高效地挖掘时间序列数据,就需采用压缩算法先对时间序列数据进行压缩。
目前在对时间序列数据进行压缩之前,通常是由人工基于个人经验针对特定模式下的时间序列数据选择适配的最优压缩算法,但由于在互联网大数据的环境下会产生各种各样的时间序列数据,若采用现有的人工选择方式对时间序列数据进行处理,不仅人工成本高效率低,而且由于人工经验层次不齐导致选择结果也并不可靠。
发明内容
本申请实施例提供了一种压缩算法选择方法、装置以及相关设备,能够保证所确定的最优压缩算法具有较高的可靠度,且在确定最优压缩算法的过程中,大大减少了人工成本,提高了处理效率。
有鉴于此,本申请一方面提供了一种压缩算法选择方法,所述方法包括:
获取属于同一模式的至少一个时间序列数据;
针对所述至少一个时间序列数据中的各个时间序列数据,从压缩算法库中选择各个时间序列数据各自对应的压缩误差最小的压缩算法;
根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定适配所述至少一个时间序列数据所属模式的最优压缩算法。
本申请一方面提供了一种压缩算法选择装置,所述装置包括:
获取模块,用于获取属于同一模式的至少一个时间序列数据;
选择模块,用于针对所述至少一个时间序列数据中的各个时间序列数据,从压缩算法库中选择各个时间序列数据各自对应的压缩误差最小的压缩算法;
确定模块,用于根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定适配所述至少一个时间序列数据所属模式的最优压缩算法。
本申请一方面提供一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令,执行如上述压缩算法选择方法的步骤。
本申请一方面提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述压缩算法选择方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供的压缩算法选择方法,先获取属于同一模式的至少一个时间序列数据,然后利用压缩算法库中的压缩算法对所获取的各个时间序列数据进行压缩处理,根据压缩处理结果从压缩算法库中选择各个时间序列数据各自对应的压缩误差最小的压缩算法,进而根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定所获取的时间序列数据所属模式的最优压缩算法。相比现有技术中基于人工经验针对特定模式选择适配的最优压缩算法,本申请实施例提供的压缩算法选择方法,能够针对任何一种模式的时间序列数据,自动地从压缩算法库中适配特定模式的时间序列数据的最优压缩算法,以真实的压缩处理结果和压缩误差大小为判断标准确定最优误差,由此能够保证所确定的最优压缩算法具有较好的压缩效果,可靠度较高;此外,面对互联网大数据环境中存在的多种多样的时间序列数据,本申请实施例提供的压缩算法选择方法能够自动快速准确地针对各种模式的时间序列数据,确定出对应的最优压缩算法,无需经历人工调试过程,减少了人工成本,提高了处理效率。
附图说明
图1为本申请实施例中一种压缩算法选择方法的应用场景示意图;
图2为本申请实施例中一种压缩算法选择方法的流程示意图;
图3为本申请实施例中一种压缩误差最小的压缩算法确定方法的流程示意图;
图4为本申请实施例中一种压缩维度和压缩误差之间的线性关系图;
图5为本申请实施例中一种压缩算法选择方法的应用场景示意图;
图6为本申请实施例中一种压缩算法选择装置的结构示意图;
图7为本申请实施例中一种压缩算法选择装置的结构示意图;
图8为本申请实施例中一种压缩算法选择装置的结构示意图;
图9为本申请实施例中一种压缩算法选择装置的结构示意图;
图10为本申请实施例中一种压缩算法选择装置的结构示意图;
图11为本申请实施例中一种压缩算法选择装置的结构示意图;
图12为本申请实施例中一种压缩算法选择装置的结构示意图;
图13为本申请实施例中一种压缩算法选择装置的结构示意图;
图14为本发明实施例中一种压缩算法选择设备的结构示意图;
图15为本发明实施例中一种压缩算法选择设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有技术中,基于人工经验选择用于压缩时间序列数据的压缩算法,存在人工成本高、处理效率低、所选择的压缩算法可靠度较低等技术问题,本申请实施例针对上述技术问题提供了一种压缩算法选择方法。
本申请实施例提供的压缩算法选择方法中提供了一种压缩算法库,该压缩算法库中包括有目前主流的用于压缩时间序列数据的压缩算法,获取到属于同一模式的至少一个时间序列数据后,利用压缩算法库中的压缩算法对所获取的每个时间序列数据进行压缩处理,具体针对每个时间序列数据进行压缩处理时,可以选择多种不同的压缩算法对该时间序列数据进行压缩处理,得到与不同的压缩算法对应的压缩数据,根据各压缩数据对应的压缩误差,确定该时间序列数据对应的压缩误差最小的压缩算法。如此确定出各个时间序列数据对应的压缩误差最小的压缩算法后,根据各个时间序列数据对应的压缩误差最小的压缩算法,确定适配于所获取的时间序列数据所属模式的最优压缩算法。
本申请实施例提供的压缩算法选择方法,利用压缩算法库中的压缩算法对所获取的属于同一模式的时间序列数据进行压缩处理,基于各时间序列数据对应的压缩误差最小的压缩算法,确定适配于各时间序列数据所属模式的最优压缩算法,由此基于实际压缩误差确定适配于某一模式的最优压缩算法,能够保证所确定的最优压缩算法针对属于该模式的时间序列数据均具有较好的压缩效果,可靠度较高。此外,在互联网大数据环境中存在大量各种各样的时间序列数据的情况下,利用本申请实施例提供的压缩算法选择方法,可以快速准确地针对各种模式确定出与之适配的最优压缩算法,无需经历人工调试操作,减少了人工成本,同时提高了处理效率。
本申请实施例提供的压缩算法选择方法可以应用于具有数据处理功能的设备,如终端设备、服务器等。其中,终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)、平板电脑等;服务器具体可以为独立服务器,也可以为集群服务器,该服务器可以同时为多个终端设备提供数据处理功能。
为了便于理解本申请实施例提供的技术方案,下面以服务器作为执行主体,结合终端设备与服务器之间交互的应用场景,对本申请实施例提供的压缩算法选择方法进行介绍。参见图1,图1为本申请实施例提供的压缩算法选择方法的应用场景示意图,该应用场景中包括服务器101、终端设备102、终端设备103和终端设备10n。
服务器101自身存储有压缩算法库,该压缩算法库中包括目前主流的用于压缩时间序列数据的压缩算法;应理解,该压缩算法库也可以独立于服务器101存在,当服务器101需要利用压缩算法库中的压缩算法时,服务器可以从该压缩算法库中调取所需的压缩算法。服务器101与终端设备102、终端设备103、终端设备10n之间可以通过局域网、无线网等通信网络进行通讯;应理解,服务器101可以与任意数量的终端设备进行通讯,且图1所示的终端设备仅为示例,在实际应用中,服务器可以与各种类型的终端设备进行通讯。
服务器101从终端设备102、终端设备103和终端设备10n获取大量时间序列数据,并将所获取的时间序列数据存储至待压缩时间序列数据库。进而,服务器101可以根据待压缩时间序列数据库中各个时间序列数据的标签,将各个待压缩的时间序列数据对应地划分至不同的模式,由于时间序列数据的标签能够表征该时间序列数据的来源、类型等信息,因此,服务器101可以根据各个时间序列数据的标签,识别各个时间序列数据所属模式,对数据进行模式归类。服务器101针对某一模式确定适配于该模式的最优压缩算法时,可以从待压缩时间序列数据库中获取属于该模式的至少一个时间序列数据,服务器101利用压缩算法库中的压缩算法,对所获取的属于同一模式的至少一个时间序列数据进行压缩处理,针对每个时间序列数据进行压缩处理时,服务器101可以采用压缩算法库中多种不同的压缩算法对该时间序列数据进行压缩处理,并得到与各个压缩算法对应的压缩数据,根据各压缩数据对应的压缩误差,确定该时间序列数据对应的压缩误差最小的压缩算法。
服务器101对所获取的各个时间序列数据均进行上述处理,得到各个时间序列数据各自对应的压缩误差最小的压缩算法。进而,服务器101根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定适配于各个时间序列数据所属的模式适配的最优压缩算法。
利用如此确定的最优压缩算法对属于该模式的时间序列数据进行压缩处理时,能够保证获得较好的压缩效果,压缩得到的压缩数据具有较小的压缩误差。在互联网大数据环境下,服务器可以采用上述压缩算法选择方法,针对各种模式的时间序列数据快速准确地确定出与之适配的最优压缩算法,在此过程中,无需经历人工调试,大大减少了人工成本,提高了处理效率。
需要说明的是,上述图1所示场景仅为一种示例,在实际应用中,本申请实施例提供的压缩算法选择方法还可以单独应用于终端设备和服务器,在此不对该压缩算法选择方法的应用场景做任何具体限定。
下面通过实施例对本申请提供的压缩算法选择方法进行介绍。
参见图2,图2为本申请实施例提供的一种压缩算法选择方法的流程示意图。为了便于描述,下述实施例以服务器作为执行主体进行介绍,应理解,该压缩算法选择方法的执行主体不限于服务器,还可以应用于终端设备等具有数据处理功能的设备中。如图2所示,该压缩算法选择方法包括以下步骤:
步骤201:获取属于同一模式的至少一个时间序列数据。
时间序列数据是按照时间顺序在不同的时间点上收集到的数据,时间序列数据能够反映某一事物、现象等随时间的变化状态或程度。时间序列数据产生于日常生活中的各个应用领域,例如,心电图、股票走势图、声波图、用户操作信息记录图等均属于时间序列数据。
同一模式的时间序列数据是指在同一应用场景下采集的时间序列数据,同一模式的时间序列数据具体可以为在同一应用场景下采集的属于同一技术领域的时间序列数据,例如,可以将从电商平台采集的所有时间序列数据划分至同一模式下;更细化地,同一模式的时间序列数据还可以为属于同一技术领域且属于同一数据类型的时间序列数据,例如,可以将从电商平台采集的用户购买数据划分至同一模式下,将电商平台采集的用户点击数据划分为另一模式下。即,可以根据实际需求划分时间序列数据所属的模式,在此不对划分模式的标准做具体限定。
服务器针对某一模式的时间序列数据确定最优压缩算法时,获取属于该模式的至少一个时间序列数据。具体实现时,服务器可以在自身存储的时间序列数据中筛选出属于该模式的至少一个时间序列数据;服务器也可以在与之通讯的终端设备发送的时间序列数据中,筛选出属于该模式的至少一个时间序列数据;服务器还可以在与之通讯的服务器发送的时间序列数据中,筛选出属于该模式的至少一个时间序列数据。
可以理解的是,服务器若要针对多个模式的时间序列数据确定对应的最优压缩算法,同样可以按照上述获取时间序列数据的方式,针对各个模式分别获取至少一个时间序列数据。
步骤202:针对至少一个时间序列数据中的各个时间序列数据,从压缩算法库中选择各个时间序列数据各自对应的压缩误差最小的压缩算法。
服务器获取到属于同一模式的至少一个时间序列数据后,利用压缩算法库中的压缩算法对所获取的每个时间序列数据进行压缩处理。针对每个时间序列数据进行压缩处理时,可以从压缩算法库中选择多种压缩算法对该时间序列数据进行压缩处理,得到与各个压缩算法对应的压缩数据,进而根据各个压缩数据对应的压缩误差,确定该时间序列数据对应的压缩误差最小的压缩算法。由此确定出所获取的各个时间序列数据各自对应的压缩误差最小的压缩算法。
需要说明的是,本申请实施例提供的压缩算法库中包括有目前主流的用于压缩时间序列数据的压缩算法,如逐段多项式表示(Piecewise Polynomial Representation,PPR)压缩算法、逐段线性近似(Piecewise Linear Approximation,PLA)压缩算法、逐段聚集近似(Piecewise Aggregate Approximation,PAA)压缩算法、自适应逐段常量近似(Adaptive Piecewise Constant Approximation,APCA)压缩算法、界标模型(Landmarkmodel)压缩算法、差分整合移动平均自回归模型(Autoregressive Integrated MovingAverage model,ARTMA)压缩算法、主成分分析(Principal components analysis)压缩算法、离散傅里叶变换(Discrete Fourier Transform,DFT)压缩算法、离散小波变换(Discrete Wavelet Transform,DWF)压缩算法、离散余弦变换(Discrete CosineTransform,DCF)压缩算法、单值分解(Singular Value Decomposition,SVD)压缩算法、隐马尔可夫(Hidden Markov Model,HMM)压缩算法、自编码器(Autoencoder,AE)压缩算法等,在此不对压缩算法库中所包括的压缩算法做任何限定。
为了便于进一步理解上述确定时间序列数据对应的压缩误差最小的压缩算法的实现过程,下面以针对一个时间序列数据,确定压缩误差最小的压缩算法为例,对该实现过程具体进行介绍:
假设服务器获取属于某一模式的时间序列数据A,服务器利用压缩算法库中压缩算法Y1对时间序列数据A进行压缩处理,得到压缩数据a1;利用压缩算法Y2对时间序列数据A进行压缩处理,得到压缩数据a2;利用压缩算法Y3对时间序列数据A进行压缩处理,得到压缩数据a3。进而,服务器根据压缩数据a1、压缩数据a2和压缩数据a3各自对应的压缩误差,确定出与时间序列数据A对应的压缩误差最小的压缩算法,假设压缩数据a1对应的压缩误差最小,则时间序列数据A对应的压缩误差最小的压缩算法为压缩算法Y1。
应理解,针对多个时间序列数据,确定各个时间序列数据各自对应的压缩误差最小的压缩算法时,服务器也可以按照上述方法,确定出各个时间序列数据各自对应的压缩误差最小的压缩算法。
步骤203:根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定适配上述至少一个时间序列数据所属模式的最优压缩算法。
服务器获取到各个时间序列数据各自对应的压缩误差最小的压缩算法后,服务器可以根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定适配于各个时间序列数据所属模式的最优压缩算法,利用该最优压缩算法对属于该模式的时间序列数据进行压缩处理,能够保证获得较好的压缩效果,即处理得到的序列数据具有较小的压缩误差。
应理解,服务器在步骤201中所获取的时间序列数据可以为一个,也可以为多个,下面分别针对服务器所获取的时间序列数据为一个,和服务器所获取的时间序列数据为多个这两种情况,对确定最优压缩算法的具体实现过程进行介绍:
当服务器所获取的时间序列数据为一个时,服务器可以直接确定该时间序列数据对应的压缩误差最小的压缩算法,作为适配于该时间序列数据所属模式的最优压缩算法。例如,服务器针对时间序列数据A确定出与之对应的压缩误差最小的压缩算法为Y1,则压缩算法Y1即可作为适配于时间序列数据A所属模式的最优压缩算法。
当服务器所获取的时间序列数据为多个时,服务器需要在与各个时间序列数据各自对应的压缩误差最小的压缩算法中,选择适配于各个时间序列所属模式的最优压缩算法。
在一种可能的实现方式中,服务器可以从各个时间序列数据各自对应的压缩误差最小的压缩算法中,选择压缩误差最小的压缩算法,确定该压缩误差最小的压缩算法作为适配于各个时间序列数据所属模式的最优压缩算法。
例如,假设时间序列数据A和时间序列数据B属于同一模式,与时间序列数据A对应的压缩误差最小的压缩算法为Y1,利用压缩算法Y1压缩处理时间序列数据A得到的压缩数据a1对应的压缩误差为0.3,与时间序列数据B对应的压缩误差最小的压缩算法为Y3,利用压缩算法Y3压缩处理时间序列数据B得到的压缩数据b3对应的压缩误差为0.5,服务器通过比较压缩数据a1和压缩数据b3各自对应的压缩误差,确定压缩数据a1对应的压缩误差最小,进而确定压缩数据a1对应的压缩算法Y1作为适配于时间序列数据A和时间序列数据B所属模式的最优压缩算法。
需要说明的是,服务器从各个时间序列数据各自对应的压缩误差最小的压缩算法中,选择压缩误差最小的压缩算法时,若存在多个压缩误差相等且该压缩误差为最小的情况,服务器还可以重新获取属于该模式的时间序列数据,利用这多个压缩误差相等且最小的压缩算法,对所获取的时间序列数据进行压缩处理,进而根据处理得到的压缩数据对应的压缩误差,确定该模式的最优压缩算法。
在另一种可能的实现方式中,服务器可以根据各个时间序列数据各自对应的压缩误差最小的压缩算法,统计压缩算法出现的次数,选择出现次数最多的压缩算法,并确定该出现次数最多的压缩算法作为适配于各个时间序列数据所属模式的最优压缩算法。
例如,假设时间序列数据A、时间序列数据B、时间序列数据C和时间序列数据D均属于同一模式,与时间序列数据A对应的压缩误差最小的压缩算法为Y1,与时间序列数据B对应的压缩误差最小的压缩算法为Y3,与时间序列数据C对应的压缩误差最小的压缩算法为Y1,与时间序列数据D对应的压缩误差最小的压缩算法为Y2。统计与各时间序列数据对应的压缩误差最小的压缩算法出现的次数,压缩算法Y1出现两次,压缩算法Y2出现一次,压缩算法Y3出现一次,通过对比可以发现,压缩算法Y1出现的次数最多,因此可以确定该出现次数最多的压缩算法Y1作为适配于时间序列数据A、B、C和D所属模式的最优压缩算法。
需要说明的是,服务器根据各压缩误差最小的压缩算法出现的次数,选择出现次数最多的压缩算法时,若存在多个出现次数相等且该出现次数最多的压缩算法,服务器还可以重新获取属于该模式的时间序列数据,利用这多个出现次数相等且出现次数最多的压缩算法,对所获取的时间序列数据进行压缩处理,根据处理得到的压缩数据对应的压缩误差,确定压缩误差最小的压缩算法作为该模式的最优压缩算法。
针对某一模式确定出最优压缩算法后,即可利用该最优压缩算法对属于该模式的时间序列数据进行压缩,得到时间序列数据对应的压缩数据。由于该最优压缩算法是基于实际压缩误差确定的,因此,利用该最优压缩算法对于属于该模式的时间序列数据进行压缩处理,能够得到较好的压缩效果,即利用该最优压缩算法对属于该模式的时间序列数据进行压缩,压缩得到的压缩数据通常具有较小的压缩误差。
需要说明的是,针对某一模式确定出最优压缩算法后,还可以标记该最优压缩算法与该模式之间的对应关系。这样,获取到属于某一模式的至少一个时间序列数据后,可以先判断压缩算法库中是否已存在与该时间序列数据所属模式对应的最优压缩算法。若存在,则直接利用已被标记的适配于该模式的最优压缩算法,对所获取的时间序列数据进行压缩处理,得到对应的压缩数据。反之,若不存在,则按照步骤202和步骤203的操作过程,对上述至少一个时间序列数据中的各个时间序列数据,从压缩算法库中选择各个压缩数据各自对应的压缩误差最小的压缩算法,进而根据各个压缩数据各自对应的压缩误差最小的压缩算法,确定适配于各时间序列数据所属模式的最优压缩算法。
由于压缩处理时间序列数据所得到的压缩数据能够对应地反映该时间序列数据所具有的特征,因此,在互联网领域,可以根据时间序列数据对应的压缩数据和该时间序列数据相关的用户画像特征数据,对初始推荐模型进行训练,得到推荐准确度更高的推荐模型。
上述用户画像特征数据指的是根据表征用户操作行为的基础数据统计分析生成的基本特征数据,该用户画像特征数据能够从大体上概括性地反映出用户的行为特征;而时间序列数据是服务器采集的用户日常生成的基础数据,该时间序列数据能够从时间维度上更详细地反映用户的行为特征。例如,服务器可以按照时间顺序采集用户一个月内在某基金平台上生成的基金购买数据,服务器实际采集的基金购买数据即为时间序列数据,该时间序列数据表明用户在这一月内的每一天购买基金的具体行为;服务器通过统计分析上述实际采集的基金购买数据生成基本特征数据,如用户这一个月总购买量,该基本特征数据即为用户画像特征数据。
服务器利用时间序列数据所属模式的最优压缩算法对该时间序列数据进行压缩,得到该时间序列数据对应的压缩数据,由于所采用的最优压缩算法针对该模式下的时间序列数据具有较好的压缩效果,因此压缩处理时间序列数据得到的压缩数据能够较为完整地反映时间序列数据的特征。进而,服务器根据用户画像特征和上述压缩数据,对初始推荐模型进行训练时,能够结合压缩数据所反映的详细的用户行为特征数据,由此训练得到的训练模型能够较为准确地预测用户操作行为。
本申请实施例提供的压缩算法选择方法,利用压缩算法库中的压缩算法对所获取的属于同一模式的时间序列数据进行压缩处理,基于各时间序列数据对应的压缩误差最小的压缩算法,确定适配于各时间序列数据所属模式的最优压缩算法,由此基于实际压缩误差确定适配于某一模式的最优压缩算法,能够保证所确定的最优压缩算法针对属于该模式的时间序列数据均具有较好的压缩效果,可靠度较高。此外,针对在互联网大数据的环境中存在大量各种各样的时间序列数据的情况,利用本申请实施例提供的压缩算法选择方法,可以快速准确地确定出适配于各种模式的最优压缩算法,无需经历人工调试操作,减少了人工成本,同时提高了处理效率。
如上文所述,针对某一模式确定与之适配的最优压缩算法时,需要根据所获取的属于该模式的各个时间序列数据各自对应的压缩误差最小的压缩算法来确定。为了便于进一步理解本申请实施例提供的压缩算法选择方法的具体实现过程,下面结合附图,对确定各个时间序列数据各自对应的压缩误差最小的压缩算法的实现过程进行介绍。
参见图3,图3为本申请实施例提供的确定压缩误差最小的压缩算法的流程示意图。为了便于描述,下述实施例仍以服务器作为执行主体进行介绍,应理解,该压缩误差最小的压缩算法确定方法的执行主体不限于服务器,还可以应用于终端设备等具有数据处理功能的设备中。针对至少一个时间序列数据中的每个时间序列数据确定压缩误差最小的压缩算法时,服务器需要执行以下步骤:
步骤301:从压缩算法库中调用压缩算法,通过被调用的压缩算法对一个时间序列数据进行压缩得到压缩数据。
服务器从压缩算法库中调用多个压缩算法,利用所调用的压缩算法对时间序列数据进行压缩处理,得到与所调用的各个压缩算法对应的压缩数据。
在调用压缩算法时,服务器可以在压缩算法库中遍历性地调用每个压缩算法,即调用压缩算法库中的每个压缩算法,利用压缩算法库中的每个压缩算法逐一对时间序列数据进行压缩处理,得到与压缩算法库中各个压缩算法对应的压缩数据。
此外,为了减少服务器的工作量,服务器在调用压缩算法时,还可以调用压缩算法库中的第一压缩算法,该第一压缩算法是曾被选择作为适配于第一模式的最优压缩算法,该第一模式指的是与所获取的至少一个时间序列数据所属模式相似的模式。即,服务器在调用压缩算法对时间序列数据进行压缩处理之前,可以先根据压缩算法库中各压缩算法对应的标签,判断压缩算法库中是否存在曾被选择作为适配于与该时间序列数据所属模式相似的模式的最优压缩算法,若存在,服务器可以调用这些最优压缩算法,对时间序列数据进行压缩处理。
需要说明的是,为了进一步减少服务器对时间序列数据进行压缩处理过程中所需的工作量,服务器可以针对所获取的时间序列数据进行抽样,得到与该时间序列数据对应的抽样数据,进而,利用压缩算法库中的压缩算法对该抽样数据进行压缩处理。由于抽样数据相对于完整的时间序列数据较小,因此,利用压缩算法库中的压缩算法对抽样数据进行压缩处理,可以相应地减少服务器压缩处理需要耗费的工作量。
应理解,当服务器获取到多个属于同一模式的时间序列数据时,服务器可以对所获取的各个时间序列数据进行抽样,获得各个时间序列数据各自对应的抽样数据。
在一种可能的实现方式中,服务器可以采用随机采样的方式,在各个时间序列数据中进行抽样得到各自对应的抽样数据。具体的,服务器在预先获知时间序列数据的方差的情况下,可以采用式(1)在时间序列数据确定抽样的样本数量:
其中,n为样本数量;σ2为方差,表示时间序列数据中抽样个体值与整体均值之间的偏离程度,抽样个体值分布越分散方差越大,所需要的样本数量越多;E为抽样误差,可以根据时间序列数据的整体均值的百分比设定;zn/2为可靠性系数,也称为置信度,当置信度为95%时,zn/2=1.96,当置信度为90%时,zn/2=1.645,置信度越高所需要的样本数量越多。
在另一种可能的实现方式中,若服务器预先并未获取到时间序列数据的方差,服务器可以采样阈值大于预设百分比的方式,对时间序列数据进行抽样。
当然,服务器还可以采用其他抽样算法对时间序列数据进行抽样,得到时间序列数据对应的抽样数据,在此不对所采用的抽样算法做任何限定。
步骤302:从解压算法库中调用与上述压缩算法对应的解压算法,通过被调用的解压算法对上述压缩数据进行解压得到解压数据。
服务器利用压缩算法库中的压缩算法对所获取的时间序列数据进行压缩处理,得到与各个压缩算法对应的压缩数据后,服务器需要进一步从解压算法库中调用与各个压缩算法对应的解压算法,利用所调用的解压算法,对应地对各个压缩数据进行解压处理得到各个解压数据。
例如,服务器针对时间序列数据A,分别采用压缩算法库中的压缩算法a1、a2和a3对时间序列数据A进行压缩处理,得到与压缩算法a1对应的压缩数据x,与压缩算法a2对应的压缩数据y,以及与压缩算法a3对应的压缩数据z。相应地,服务器调用解压算法库中与压缩算法a1对应的解压算法b1,对压缩数据x进行解压处理得到解压数据x’,调用解压算法库中与压缩算法a2对应的解压算法b2,对压缩数据y进行解压处理得到解压数据y’,调用压缩算法库中与压缩算法a3对应的解压算法b3,对压缩数据z进行解压处理得到解压数据z’。
可以理解的是,服务器可以在每次调用压缩算法对时间序列数据进行压缩处理,得到对应的压缩数据后,直接从解压算法库中调用与该压缩算法对应的解压算法,对压缩数据进行解压处理;服务器还可以在调用完所有压缩算法对时间序列数据进行压缩处理,,得到与各个压缩算法对应的压缩数据后,从解压算法库中调用与各个压缩算法对应的解压算法,分别对各个压缩数据进行解压处理。即,本申请实施例不对调用解压算法的时机做任何具体限定。
步骤303:根据解压数据和上述一个时间序列数据计算上述压缩算法的压缩误差最小的压缩算法。
服务器获取到各个压缩算法对应的解压数据后,计算该解压数据与时间序列数据之间的压缩误差,比较各个解压数据与时间序列之间的压缩误差,最终选取压缩误差最小的解压数据对应的压缩算法,作为压缩误差最小的压缩算法。
可选地,服务器可以利用均方误差计算方法,计算各解压数据与时间序列数据之间的均方误差,将该均方误差作为压缩误差,具体可以采用式(2)计算解压数据与时间序列数据之间的均方误差:
其中,为解压数据与时间序列数据之间的均方误差,为解压数据,θ为时间序列数据。
当然,服务器也可以采用其他误差计算方法确定解压数据与时间序列数据之间的压缩误差,如切比雪夫距离(Chebyshev distance)、动态时间规整(Dynamic TimeWarping,DTW)以及DTW的各种变换公式等,在此不对确定压缩误差的具体计算方法做任何限定。
需要说明的是,服务器调用压缩算法对时间序列数据进行压缩处理时,需要按照一定的维度对时间序列数据进行压缩处理。
在被调用的压缩算法存在指定的维度的情况下,服务器可以直接根据被调用的压缩算法和该压缩算法指定的维度,对该时间序列数据进行压缩处理,得到对应的压缩数据。可以理解的是,若某一压缩算法被确定为适配于该时间序列数据所属模式的最优压缩算法,那么即可相应地确定该压缩算法指定的维度,作为最优压缩算法的工作压缩维度。
在所调用的压缩算法不存在指定的维度的情况下,可以按照预设的遍历方式从预设维度参数范围中选择各个维度,根据被调用的压缩算法和所选择的各个维度,分别对该时间序列数据进行压缩,得到与各个维度对应的压缩数据。再利用该压缩算法对应的解压算法,对各个维度的压缩数据进行解压处理,得到对应于各个维度的解压数据,进而,根据各个维度对应的解压数据的压缩误差,确定所调用的压缩算法的最优压缩维度。
根据各个维度对应的压缩数据的压缩误差,确定最优压缩维度时,服务器可以整理各个维度与压缩误差之间的对应关系,即在不同的维度下,记录调用压缩算法对时间序列数据进行压缩得到的压缩数据的压缩误差,如图4所示,为一种示例性的维度与压缩误差之间的线性关系图。根据图4所示的维度与压缩误差的之间的关系可以发现,在该线性关系图中存在一个维度转折点knee,在该维度转折点knee之前,压缩误差随维度的增大而大幅度地减小,在该维度转折点knee之后,压缩误差随维度的增大并不会再产生明显变化,由此可以确定该维度转折点knee对应的维度作为该压缩算法的最优压缩维度。
可以理解的是,针对所调用的各个压缩算法确定出各自对应的最优压缩维度,当某一压缩算法被确定为适配于某一模式的最优压缩算法时,相应地,即可确定该压缩算法对应的最优压缩维度,作为最优压缩算法的工作压缩维度。
需要说明的是,上述预设的遍历方式可以为在预设维度参数范围内逐一选择各个维度,例如,预设维度参数范围为5-10,那么分别选择5、6、7、8、9和10维度,利用所调用的压缩算法在所选择的维度下对时间序列数据进行压缩处理;上述预设的遍历方式还可以为在预设维度参数范围内等距离地选择维度,例如,预设维度范围为10-50,以10作为选择距离,那么分别选择10、20、30、40和50维度,利用所调用的压缩算法在所选择的维度下对时间序列数据进行压缩处理;此外,上述预设的遍历方式还可以为在预设维度范围内以幂函数的形式选择维度,例如,预设维度范围为2-32,以2作为幂函数的底数,那么分别选择2(21)、4(22)、8(23)、16(24)和32(25)维度,利用所调用的压缩算法在所选择的维度下对时间序列数据进行压缩处理。
可以理解的是,上述预设的遍历方式仅为本申请实施例提供的示例性的遍历方式,实际应用中,服务器还可以根据实际需要,采用其他遍历方式选择压缩算法的压缩维度。
在上述压缩误差最小的压缩算法的确定方法中,服务器利用压缩算法库中的压缩算法对时间序列数据进行压缩,得到与各压缩算法对应的压缩数据,再利用解压算法库中与各压缩算法对应的解压算法,对各压缩数据进行解压处理,得到与各压缩算法对应的解压数据。进而,根据各个解压数据与时间序列数据之间的压缩误差,确定压缩误差最小的解压数据所对应的压缩算法,即确定出与该时间序列数据对应的压缩误差最小的压缩算法。由此,基于实际压缩误差所确定出的压缩误差最小的压缩算法较为可靠,进而,在各个时间序列数据各自对应的压缩误差最小的压缩算法中选择最优压缩算法时,能够保证所选择的最优压缩算法更为可靠,针对该模式的时间序列数据具有较好的压缩效果。
为了便于理解本申请提供的压缩算法选择方法,下面结合根据压缩数据训练推荐模型的应用场景,对本申请实施例提供的压缩算法选择方法进行介绍:
参见图5,图5为本申请实施例提供的压缩算法选择方法的应用场景示意图。在该应用场景中包括多个终端设备如终端设备503、终端设备504和终端设备50n,这些终端设备上均运行某基金应用程序,终端设备503、终端设备504和终端设备50n按照时间顺序对应地采集各个用户产生的基金购买数据,并将所采集的基金购买数据发送至压缩处理服务器501,该压缩处理服务器501将接收到的基金购买数据缓存至待压缩基金购买数据库中。
压缩处理服务器501在需要针对待压缩基金购买数据库中中的基金购买数据进行压缩时,先判断压缩算法库中是否存在已被标记为适配于基金购买数据所属模式的最优压缩算法,若存在,压缩处理服务器501则直接利用该最优压缩算法对终端设备发送的基金购买数据进行压缩处理,得到对应的基金购买压缩数据;若不存在,压缩处理服务器501从压缩算法库中选择压缩算法作为适配于基金购买数据所属模式的最优压缩算法,并利用该最优压缩算法对该基金购买数据进行压缩处理。
压缩处理服务器501具体针对每个基金购买数据进行压缩处理时,可以遍历性地调用压缩算法库中的每个压缩算法对基金购买数据m进行压缩处理。假设压缩算法库中存储有压缩算法a1、a2和a3,压缩处理服务器501可以分别调用压缩算法a1、a2和a3,对基金购买数据进行压缩处理,得到与压缩算法a1对应的基金购买压缩数据x、与压缩算法a2对应的基金购买压缩数据y,以及与压缩算法a3对应的基金购买压缩数据z。
需要说明的是,压缩处理服务器501利用压缩算法对基金购买数据进行压缩处理时,根据各压缩算法指定的维度对基金购买数据进行压缩处理,若各压缩算法不存在指定的维度,压缩处理服务器501还可以按照预设的遍历方式在各压缩算法预设维度参数范围内选择各个维度,对基金购买数据进行压缩处理,进而根据各维度下的基金购买压缩数据对应的压缩误差,确定各压缩算法对应的最优压缩维度。
压缩处理服务器501调用压缩算法库中的压缩算法对基金购买数据进行压缩处理,得到与各压缩算法对应的基金购买压缩数据后,压缩处理服务器501调用解压算法库中与各压缩算法对应的解压算法,对各基金购买压缩数据进行解压处理。假设压缩算法a1对应解压算法b1,压缩算法a2对应解压算法b2,压缩算法a3对应解压算法b3,压缩处理服务器501则利用解压算法b1对基金购买压缩数据x进行解压处理,得到对应的基金购买解压数据x’,利用解压算法b2对基金购买压缩数据y进行解压处理,得到对应的基金购买解压数据y’,利用解压算法b3对基金购买压缩数据z进行解压处理,得到对应的基金购买解压数据z’。
进而,压缩处理服务器501计算各基金购买解压数据与基金购买数据之间的压缩误差,即计算基金购买解压数据x’与基金购买数据m之间的压缩误差X,计算基金购买解压数据y’与基金购买数据m之间的压缩误差Y,计算基金购买解压数据z’与基金购买数据m之间的压缩误差Z。然后,比较压缩误差X、压缩误差Y和压缩误差Z的大小,确定最小的压缩误差对应的压缩算法作为适配于该基金购买数据m的最优压缩算法,假设压缩误差X最小,那么则确定压缩误差X对应的压缩算法a1作为适配于基金购买数据的最优压缩算法。标记压缩算法a1与基金购买数据m所属模式之间的对应关系,若压缩处理服务器501再次获取到该模式下的其他基金购买数据,压缩处理服务器501可以直接调用压缩算法a1,对所获取的基金购买数据进行压缩。
压缩处理服务器501利用压缩算法a1对从终端设备处获取的大量用户的基金购买数据进行压缩处理,得到各基金购买数据对应的基金购买压缩数据,并将该基金购买压缩数据存储至基金购买压缩数据库中,该基金购买压缩数据能够详细准确地反映用户的基金购买情况。
压缩处理服务器501获取到基金购买压缩数据后,可以将该基金购买压缩数据库中的基金购买压缩数据发送给推荐模型训练服务器503。进而,推荐模型训练服务器503可以将自身存储的能够大致反映该用户基金购买趋势的用户画像特征数据,与所接收的基金购买压缩数据结合起来,将用户画像特征数据以及相关的基金购买压缩数据作为训练样本数据,利用该训练样本对初始推荐模型进行训练得到推荐模型,由于推荐模型训练服务器503所接收的基金购买压缩数据,是利用适配于基金购买数据的最优压缩算法对实际采集的基金购买数据压缩得到的,因此,该基金购买压缩数据能够准确地反映出用户的基金购买情况,进而,结合该基金购买压缩数据与用户画像特征数据作为训练样本数据,基于该训练样本数据对初始推荐模型进行训练,使得训练得到的推荐模型性能更好,能够更加准确地预测出该用户的基金购买趋势,进而为该用户提供更准确有效地推荐信息。
针对上文描述的压缩算法选择方法,本申请还提供了对应的压缩算法选择装置,以便于这些方法在实际中的应用及实现。
参见图6,图6是与上文图2所示方法相对应的一种压缩算法选择装置600的结构示意图,该装置600包括:
获取模块601,用于获取属于同一模式的至少一个时间序列数据;
选择模块602,用于针对所述至少一个时间序列数据中的各个时间序列数据,从压缩算法库中选择各个时间序列数据各自对应的压缩误差最小的压缩算法;
确定模块603,用于根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定适配所述至少一个时间序列数据所属模式的最优压缩算法。
可选的,在上述图6所示的压缩算法选择装置的基础上,参见图7,图7是与上文图3所示方法对应的一种压缩算法选择装置700的结构示意图,该装置中选择模块602包括:
压缩子模块701,用于从压缩算法库中调用压缩算法,通过被调用的压缩算法对一个时间序列数据进行压缩得到压缩数据;
解压子模块702,用于从解压算法库中调用与所述压缩算法对应的解压算法,通过被调用的解压算法对所述压缩数据进行解压得到解压数据;
计算子模块703,用于根据所述解压数据和所述一个时间序列数据计算所述压缩算法的压缩误差;
选择子模块704,用于从被调用的至少两个压缩算法中选择与一个时间序列数据对应的压缩误差最小的压缩算法。
可选的,在上述图7所示的压缩算法选择装置的基础上,压缩子模块701具体用于根据被调用的压缩算法和所述压缩算法指定的维度,对一个时间序列数据进行压缩得到压缩数据;
则在图7所示的压缩算法选择装置的基础上,参见图8,图8为本申请实施例提供的另一种压缩算法选择装置800的结构示意图,该装置还包括:
第一工作维度确定模块801,用于确定所述最优压缩算法指定的维度,作为所述最优压缩算法的工作压缩维度。
可选的,在上述图7所示的压缩算法选择装置的基础上,压缩子模块701具体用于根据被调用的压缩算法和按照预设遍历方式从预设维度参数范围中选择的各个维度,分别对一个时间序列数据进行压缩得到压缩数据;
则在图7所示的压缩算法选择装置的基础上,参见图9,图9为本申请实施例提供的另一种压缩算法选择装置900的结构示意图,该装置还包括:
第二工作维度确定模块901,用于根据所述最优压缩算法在各个维度下的压缩误差,确定所述最优压缩算法的工作压缩维度。
可选的,在图7所示的压缩算法选择装置的基础上,压缩子模块701具体用于从压缩算法库中遍历性调用每个压缩算法。
可选的,在图7所示的压缩算法选择装置的基础上,压缩子模块701具体用于从所述压缩算法库中调用第一压缩算法,所述第一压缩算法是指曾被选择作为适配第一模式的最优压缩算法,所述第一模式是指与所述至少一个时间序列数据所属模式相似的模式。
可选的,在图6所示的的压缩算法选择装置的基础上,参见图10,图10是本申请实施例提供的又一种压缩算法选择装置1000的结构示意图,该装置还包括:
抽样模块1001,用于针对所述至少一个时间序列数据中各个时间序列数据分别进行抽样得到各个时间序列数据对应的抽样数据;
则所述选择模块602具体用于针对所述至少一个时间序列数据中的各个时间序列数据各自对应的抽样数据,从压缩算法库中选择各个抽样数据各自对应的压缩误差最小的压缩算法。
可选的,在图6所示的的压缩算法选择装置的基础上,所述至少一个时间序列数据包括一个时间序列数据,则所述选择模块602具体用于确定所述一个时间序列数据对应的压缩误差最小的压缩算法,作为适配所述一个时间序列数据所属模式的最优压缩算法。
可选的,在图6所示的的压缩算法选择装置的基础上,所述至少一个时间序列数据包括至少两个时间序列数据,则所述选择模块602具体用于:
从各个时间序列数据各自对应的压缩误差最小的压缩算法中,选择压缩误差最小的压缩算法;
确定所选择的压缩误差最小的压缩算法,作为适配所述至少两个时间序列数据所属模式的最优压缩算法。
可选的,在图6所示的的压缩算法选择装置的基础上,所述至少一个时间序列数据包括至少两个时间序列数据,则所述选择模块602具体用于:
根据各个时间序列数据各自对应的压缩误差最小的压缩算法,统计压缩算法出现的次数,选择出现次数最大的压缩算法;
确定所选择的出现次数最大的压缩算法,作为适配所述至少两个时间序列数据所属模式的最优压缩算法。
可选的,在图6所示的的压缩算法选择装置的基础上,参见图11,图11是本申请实施例提供的又一种压缩算法选择装置1100的结构示意图,该装置还包括:
判断模块1101,用于判断所述压缩算法库中是否存在已被标记为适配所述至少一个时间序列数据所属模式的最优压缩算法;
若否,则再执行所述至少一个时间序列数据中的各个时间序列数据,从压缩算法库中选择各个时间序列数据各自对应的压缩误差最小的压缩算法的步骤。
可选的,在图6所示的的压缩算法选择装置的基础上,参见图12,图12是本申请实施例提供的又一种压缩算法选择装置1200的结构示意图,该装置还包括:
压缩模块1201,用于根据所述最优压缩算法对属于所述至少一个时间序列数据所属模式的时间序列数据进行压缩得到时间序列数据对应的压缩数据。
可选的,在图6所示的的压缩算法选择装置的基础上,参见图13,图13是本申请实施例提供的又一种压缩算法选择装置1300的结构示意图,该装置还包括:
训练模块1301,用于根据所述时间序列数据对应的压缩数据和所述时间序列数据相关的用户画像特征数据,对初始推荐模型进行训练得到推荐模型。
本申请实施例提供的压缩算法选择装置,利用压缩算法库中的压缩算法对所获取的属于同一模式的时间序列数据进行压缩处理,基于各时间序列数据对应的压缩误差最小的压缩算法,确定适配于各时间序列数据所属模式的最优压缩算法,由此基于实际压缩误差确定适配于某一模式的最优压缩算法,能够保证所确定的最优压缩算法针对属于该模式的时间序列数据均具有较好的压缩效果,可靠度较高。此外,针对在互联网大数据的环境下存在各种各样的时间序列数据的情况,利用本申请实施例提供的压缩算法选择装置,可以快速地确定出适配于各种模式的最优压缩算法,无需经历人工调试操作,减少了人工成本,同时提高了处理效率。
本申请实施例还提供了用于选择压缩算法的设备,该设备具体可以为服务器,参见图14,图14是本申请实施例提供的一种用于选择压缩算法的服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。
其中,CPU 1422用于执行如下步骤:
获取属于同一模式的至少一个时间序列数据;
针对所述至少一个时间序列数据中的各个时间序列数据,从压缩算法库中选择各个时间序列数据各自对应的压缩误差最小的压缩算法;
根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定适配所述至少一个时间序列数据所属模式的最优压缩算法。
可选的,CPU 1422还可以执行本申请实施例中压缩算法选择方法任一具体实施例的方法步骤。
本申请实施例提供的用于选择压缩算法的设备还可以为终端设备,参见图15,图15为本申请实施例提供的一种用于选择压缩算法的终端设备的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称:Personal DigitalAssistant,英文缩写:PDA)、销售终端(英文全称:Point of Sales,英文缩写:POS)、车载电脑等任意终端设备,以终端为手机为例:
图15示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图15,手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1515、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(英文全称:wirelessfidelity,英文缩写:WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图15中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图15对手机的各个构成部件进行具体的介绍:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。通常,RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称:LowNoise Amplifier,英文缩写:LNA)、双工器等。此外,RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(英文全称:Global System of Mobile communication,英文缩写:GSM)、通用分组无线服务(英文全称:General Packet Radio Service,GPRS)、码分多址(英文全称:CodeDivision Multiple Access,英文缩写:CDMA)、宽带码分多址(英文全称:Wideband CodeDivision Multiple Access,英文缩写:WCDMA)、长期演进(英文全称:Long TermEvolution,英文缩写:LTE)、电子邮件、短消息服务(英文全称:Short Messaging Service,SMS)等。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(英文全称:Liquid Crystal Display,英文缩写:LCD)、有机发光二极管(英文全称:Organic Light-Emitting Diode,英文缩写:OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图15中,触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1560、扬声器1561,传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一手机,或者将音频数据输出至存储器1520以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图15示出了WiFi模块1570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1580还具有以下功能:
获取属于同一模式的至少一个时间序列数据;
针对所述至少一个时间序列数据中的各个时间序列数据,从压缩算法库中选择各个时间序列数据各自对应的压缩误差最小的压缩算法;
根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定适配所述至少一个时间序列数据所属模式的最优压缩算法。
可选的,处理器1580还可以执行本申请实施例中压缩算法选择方法任一具体实施例的方法步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储程序代码,该程序代码用于执行前述各个实施例所述的一种压缩算法选择方法中的任意一种实施方式。
本申请实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例所述的一种压缩算法选择方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种压缩算法选择方法,其特征在于,包括:
获取属于同一模式的至少一个时间序列数据;
针对所述至少一个时间序列数据中的各个时间序列数据,从压缩算法库中选择各个时间序列数据各自对应的压缩误差最小的压缩算法;
根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定适配所述至少一个时间序列数据所属模式的最优压缩算法。
2.根据权利要求1所述的方法,其特征在于,所述针对所述至少一个时间序列数据中的各个时间序列数据,从压缩算法库中选择各个时间序列数据各自对应的压缩误差最小的压缩算法,包括:
针对所述至少一个时间序列数据中的各个时间序列数据分别执行如下处理:
从压缩算法库中调用压缩算法,通过被调用的压缩算法对一个时间序列数据进行压缩得到压缩数据;
从解压算法库中调用与所述压缩算法对应的解压算法,通过被调用的解压算法对所述压缩数据进行解压得到解压数据;
根据所述解压数据和所述一个时间序列数据计算所述压缩算法的压缩误差;
从被调用的至少两个压缩算法中选择与一个时间序列数据对应的压缩误差最小的压缩算法。
3.根据权利要求2所述的方法,其特征在于,所述通过被调用的压缩算法对一个时间序列数据进行压缩得到压缩数据,包括:
根据被调用的压缩算法和所述压缩算法指定的维度,对一个时间序列数据进行压缩得到压缩数据;
则所述方法还包括:
确定所述最优压缩算法指定的维度,作为所述最优压缩算法的工作压缩维度。
4.根据权利要求2所述的方法,其特征在于,所述通过被调用的压缩算法对一个时间序列数据进行压缩得到压缩数据,包括:
根据被调用的压缩算法和按照预设遍历方式从预设维度参数范围中选择的各个维度,分别对一个时间序列数据进行压缩得到压缩数据;
则所述方法还包括:
根据所述最优压缩算法在各个维度下的压缩误差,确定所述最优压缩算法的工作压缩维度。
5.根据权利要求2所述的方法,其特征在于,所述从压缩算法库中调用压缩算法,包括:
从所述压缩算法库中调用第一压缩算法,所述第一压缩算法是指曾被选择作为适配第一模式的最优压缩算法,所述第一模式是指与所述至少一个时间序列数据所属模式相似的模式。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
针对所述至少一个时间序列数据中各个时间序列数据分别进行抽样得到各个时间序列数据对应的抽样数据;
则所述针对所述至少一个时间序列数据中的各个时间序列数据,从压缩算法库中选择各个时间序列数据各自对应的压缩误差最小的压缩算法,包括:
针对所述至少一个时间序列数据中的各个时间序列数据各自对应的抽样数据,从压缩算法库中选择各个抽样数据各自对应的压缩误差最小的压缩算法。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述至少一个时间序列数据包括一个时间序列数据;
则所述根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定适配所述至少一个时间序列数据所属模式的最优压缩算法,包括:
确定所述一个时间序列数据对应的压缩误差最小的压缩算法,作为适配所述一个时间序列数据所属模式的最优压缩算法。
8.根据权利要求1至5中任一项所述的方法,其特征在于,所述至少一个时间序列数据包括至少两个时间序列数据;
则所述根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定适配所述至少一个时间序列数据所属模式的最优压缩算法,包括:
从各个时间序列数据各自对应的压缩误差最小的压缩算法中,选择压缩误差最小的压缩算法;
确定所选择的压缩误差最小的压缩算法,作为适配所述至少两个时间序列数据所属模式的最优压缩算法。
9.根据权利要求1至5中任一项所述的方法,其特征在于,所述至少一个时间序列数据包括至少两个时间序列数据;
则所述根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定适配所述至少一个时间序列数据所属模式的最优压缩算法,包括:
根据各个时间序列数据各自对应的压缩误差最小的压缩算法,统计压缩算法出现的次数,选择出现次数最大的压缩算法;
确定所选择的出现次数最大的压缩算法,作为适配所述至少两个时间序列数据所属模式的最优压缩算法。
10.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
获取属于同一模式的至少一个时间序列数据;
判断所述压缩算法库中是否存在已被标记为适配所述至少一个时间序列数据所属模式的最优压缩算法;
若否,则再执行所述至少一个时间序列数据中的各个时间序列数据,从压缩算法库中选择各个时间序列数据各自对应的压缩误差最小的压缩算法的步骤。
11.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
根据所述最优压缩算法对属于所述至少一个时间序列数据所属模式的时间序列数据进行压缩得到时间序列数据对应的压缩数据。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
根据所述时间序列数据对应的压缩数据和所述时间序列数据相关的用户画像特征数据,对初始推荐模型进行训练得到推荐模型。
13.一种压缩算法选择装置,其特征在于,包括:
获取模块,用于获取属于同一模式的至少一个时间序列数据;
选择模块,用于针对所述至少一个时间序列数据中的各个时间序列数据,从压缩算法库中选择各个时间序列数据各自对应的压缩误差最小的压缩算法;
确定模块,用于根据各个时间序列数据各自对应的压缩误差最小的压缩算法,确定适配所述至少一个时间序列数据所属模式的最优压缩算法。
14.一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-12任一项所述的压缩算法选择方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-12任一项所述的压缩算法选择方法。
CN201810622648.0A 2018-06-15 2018-06-15 压缩算法选择方法、装置以及设备 Active CN110334124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810622648.0A CN110334124B (zh) 2018-06-15 2018-06-15 压缩算法选择方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810622648.0A CN110334124B (zh) 2018-06-15 2018-06-15 压缩算法选择方法、装置以及设备

Publications (2)

Publication Number Publication Date
CN110334124A true CN110334124A (zh) 2019-10-15
CN110334124B CN110334124B (zh) 2023-05-16

Family

ID=68139522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810622648.0A Active CN110334124B (zh) 2018-06-15 2018-06-15 压缩算法选择方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN110334124B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111082809A (zh) * 2019-11-07 2020-04-28 北京集创北方科技股份有限公司 一种触控数据传输方法及系统
CN111526151A (zh) * 2020-04-28 2020-08-11 网易(杭州)网络有限公司 一种数据传输方法、装置、电子设备及存储介质
CN112422525A (zh) * 2020-11-03 2021-02-26 珠海格力电器股份有限公司 一种故障数据传输方法、装置、设备及存储介质
CN112769874A (zh) * 2021-04-07 2021-05-07 南京创芯慧联技术有限公司 数据的压缩方法及其压缩装置
CN115811317A (zh) * 2022-10-17 2023-03-17 中国人民大学 一种基于自适应不解压直接计算的流处理方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101060629A (zh) * 2007-04-27 2007-10-24 华为技术有限公司 图像压缩/解压方法及图像编/解码器和解码电路
US20120265737A1 (en) * 2010-04-13 2012-10-18 Empire Technology Development Llc Adaptive compression
CN104348490A (zh) * 2014-11-14 2015-02-11 北京东方国信科技股份有限公司 一种基于效果优选的组合数据压缩算法
US20160173886A1 (en) * 2014-12-15 2016-06-16 Samsung Electronics Co., Ltd. Image data compression considering visual characteristic
CN107037980A (zh) * 2015-12-07 2017-08-11 Sap欧洲公司 时间序列数据的多表示存储

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101060629A (zh) * 2007-04-27 2007-10-24 华为技术有限公司 图像压缩/解压方法及图像编/解码器和解码电路
US20120265737A1 (en) * 2010-04-13 2012-10-18 Empire Technology Development Llc Adaptive compression
CN104348490A (zh) * 2014-11-14 2015-02-11 北京东方国信科技股份有限公司 一种基于效果优选的组合数据压缩算法
US20160173886A1 (en) * 2014-12-15 2016-06-16 Samsung Electronics Co., Ltd. Image data compression considering visual characteristic
CN107037980A (zh) * 2015-12-07 2017-08-11 Sap欧洲公司 时间序列数据的多表示存储

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111082809A (zh) * 2019-11-07 2020-04-28 北京集创北方科技股份有限公司 一种触控数据传输方法及系统
CN111526151A (zh) * 2020-04-28 2020-08-11 网易(杭州)网络有限公司 一种数据传输方法、装置、电子设备及存储介质
CN112422525A (zh) * 2020-11-03 2021-02-26 珠海格力电器股份有限公司 一种故障数据传输方法、装置、设备及存储介质
CN112769874A (zh) * 2021-04-07 2021-05-07 南京创芯慧联技术有限公司 数据的压缩方法及其压缩装置
CN112769874B (zh) * 2021-04-07 2021-07-23 南京创芯慧联技术有限公司 数据的压缩方法及其压缩装置
CN115811317A (zh) * 2022-10-17 2023-03-17 中国人民大学 一种基于自适应不解压直接计算的流处理方法和系统

Also Published As

Publication number Publication date
CN110334124B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN110163367B (zh) 一种终端部署方法和装置
CN110278449B (zh) 一种视频检测方法、装置、设备及介质
CN110334124A (zh) 压缩算法选择方法、装置以及设备
CN108230232B (zh) 一种图像处理的方法以及相关装置
CN110321965A (zh) 物体重识别模型的训练方法、物体重识别的方法及装置
CN110069715B (zh) 一种信息推荐模型训练的方法、信息推荐的方法及装置
WO2019020014A1 (zh) 解锁控制方法及相关产品
CN110263939A (zh) 一种表示学习模型的评估方法、装置、设备及介质
CN109598749A (zh) 一种三维人脸模型的参数配置方法、装置、设备及介质
CN110210605B (zh) 硬件算子匹配方法及相关产品
CN109376781B (zh) 一种图像识别模型的训练方法、图像识别方法和相关装置
CN110163045A (zh) 一种手势动作的识别方法、装置以及设备
CN109992367A (zh) 应用处理方法和装置、电子设备、计算机可读存储介质
CN105447583A (zh) 一种预测用户离网的方法及装置
CN110163342A (zh) 一种模型压缩方法、装置、设备及存储介质
CN111913848A (zh) 一种数据监测分析方法及相关设备
CN110287466A (zh) 一种实体模板生成方法和装置
CN112540996A (zh) 一种业务数据的校验方法、装置、电子设备及存储介质
CN110083742B (zh) 一种视频查询方法和装置
CN110415560B (zh) 基于车联网系统的资源量估计方法、碰撞预测方法及装置
CN110062222A (zh) 一种视频的评价方法、终端、服务器及相关产品
CN109375762A (zh) 一种降低功耗的方法、装置及终端
CN110277097B (zh) 数据处理方法及相关设备
CN110443852B (zh) 一种图像定位的方法及相关装置
CN107292833A (zh) 图像处理方法、装置和移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant