CN117689321A

CN117689321A - 业务数据处理方法及装置

Info

Publication number: CN117689321A
Application number: CN202211067042.8A
Authority: CN
Inventors: 张学理; 朱彬
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2024-03-12

Abstract

本公开提出一种业务数据处理方法及装置，其中，业务数据处理方法包括：获取在设定时段内对目标业务进行业务数据采样得到的第一时间序列；根据第一时间序列，对目标业务在设定时段之后的预测时段进行业务数据预测，以得到预测时间序列；响应于用户操作，确定参考业务的参考时间序列；根据目标业务和参考业务之间业务数据的关联关系，以及根据参考时间序列，对预测时间序列进行调整，以得到在参考业务影响下目标业务的所述预演时间序列，由此，目标业务的预演时间序列是在参考业务影响下对预测时间序列调整得到的，提高了预演时间序列的灵活性和准确性。

Description

业务数据处理方法及装置

技术领域

本公开涉及数据处理技术领域，尤其涉及一种业务数据处理方法及装置。

背景技术

目前，随着互联网行业的高速发展，业务数据已经做到了可监督、可记录、可回溯。比如，用户一次次的点击、浏览行为，用户跳转等行为，对于企业而言，如何预演未来一段业务数据的走势，以及业务数据内部蕴含的规律，成为了降本增效的关键。

相关技术中，主要采用相关模型拟合方式进行业务数据分析，以进行业务数据的预演，但是，通过模型进行业务数据预演，模型预演出的业务数据无法根据业务规划进行调整，准确性和灵活性较差。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本公开的第一个目的在于提出一种业务数据处理方法及装置，以实现根据目标业务和参考业务之间业务数据的关联关系，并根据参考业务的参考时间序列对预测时间序列进行调整，由此，目标业务的预演时间序列是在参考业务影响下对预测时间序列调整得到的，提高了预演时间序列的灵活性和准确性。

本公开的第二个目的在于提出一种业务数据处理装置。

本公开的第三个目的在于提出一种电子设备。

本公开的第四个目的在于提出一种计算机可读存储介质。

本公开的第五个目的在于提出一种计算机程序产品。

为达上述目的，本公开第一方面实施例提出了一种业务数据处理方法，包括：获取在设定时段内对目标业务进行业务数据采样得到的第一时间序列；根据所述第一时间序列，对所述目标业务在所述设定时段之后的预测时段进行业务数据预测，以得到预测时间序列；响应于用户操作，确定参考业务的参考时间序列；根据所述目标业务和所述参考业务之间业务数据的关联关系，以及根据所述参考时间序列，对所述预测时间序列进行调整，以得到在所述参考业务影响下所述目标业务的所述预演时间序列。

本公开实施例的业务数据处理方法，通过获取在设定时段内对目标业务进行业务数据采样得到的第一时间序列；根据第一时间序列，对目标业务在设定时段之后的预测时段进行业务数据预测，以得到预测时间序列；响应于用户操作，确定参考业务的参考时间序列；根据目标业务和参考业务之间业务数据的关联关系，以及根据参考时间序列，对预测时间序列进行调整，以得到在参考业务影响下目标业务的预演时间序列。该方法根据目标业务和参考业务之间业务数据的关联关系，并根据参考业务的参考时间序列对预测时间序列进行调整，由此，目标业务的预演时间序列是在参考业务影响下对预测时间序列调整得到的，提高了预演时间序列的灵活性和准确性。

为达上述目的，本公开第二方面实施例提出了一种业务数据处理装置，包括：获取模块，用于获取在设定时段内对目标业务进行业务数据采样得到的第一时间序列；预测模块，用于根据所述第一时间序列，对所述目标业务在所述设定时段之后的预测时段进行业务数据预测，以得到预测时间序列；第一确定模块，用于响应于用户操作，确定参考业务的参考时间序列；调整模块，用于根据所述目标业务和所述参考业务之间业务数据的关联关系，以及根据所述参考时间序列，对所述预测时间序列进行调整，以得到在所述参考业务影响下所述目标业务的所述预演时间序列。

为达上述目的，本公开第三方面实施例提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本公开第一方面实施例所述的业务数据处理方法。

为了实现上述目的，本公开第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如本公开第一方面实施例所述的业务数据处理方法。

为了实现上述目的，本公开第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如本公开第一方面实施例所述的业务数据处理方法。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开实施例所提供的一种业务数据处理方法的流程示意图；

图2为本公开实施例所提供的另一种业务数据处理方法的流程示意图；

图3为本公开实施例所提供的另一种业务数据处理方法的流程示意图；

图4为本公开实施例所提供的调整前预测时间序列和调整后的预测时间序列的示意图；

图5为本公开实施例所提供的另一种业务数据处理方法的流程示意图；

图6为本公开实施例所提供的时间序列聚簇示意图；

图7为本公开实施例所提供的第一时间序列拆分后的各子分量序列示意图；

图8为本公开实施例所提供的一种基于相似度对匹配的各时间序列进行排序的流程示意图；

图9为本公开实施例所提供的一种基于相似度对匹配的各时间序列进行排序的流程示意图；

图10为本公开实施例所提供的一种流量分析预演系统的结构示意图；

图11为本公开实施例所提供的一种第一时间序列的预处理流程示意图；

图12为本公开实施例所提供的一种可视化交互界面示意图；

图13为本公开实施例所提供的另一种业务数据处理装置的结构示意图；

图14是根据一示例性实施例示出的一种用于业务数据处理的电子设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

目前，随着互联网行业的高速发展，业务数据已经做到了可监督、可记录、可回溯。比如，用户一次次的点击、浏览行为，用户跳转行为等业务数据(信息时序流量)，对于企业而言，如何预判未来一段时间的业务数据(时间信息流)的走势，以及业务数据内部蕴含的规律，成为了降本增效的关键。由此，业务数据分析在行业内的发展，比如，客服、广告、物流、财经等多个业务场景下，业务数据分析已经展开应用。尤其是电商场景下，业务数据分析任务更加多样化和繁重，研发难以一一适配。

一般的，业务数据分析比较重要应用场景有业务数据预测(流量预测)、业务数据检测(流量检测)、业务数据预演(流量预演)等等。业务数据预测指通过时序算法、机器学习类算法、神经网络类算法等模型，基于已经发生的历史数据和外部特征，对未来一段时间的业务数据进行预测；异常检测用于识别业务数据曲线中不正常的地方，通常用于质检及运维；相关性分析多用于做业务数据预演功能，基于操作内容与业务数据内在的相关关系而挖掘趋势，不同于业务数据预测，业务数据预演要求在曲线预测的基础上，结果可灵活调整。

目前业务数据分析技术已经被用于系统运维、流量监控、归因分析等多种业务场景，但是普遍存在研发资源投入巨大，业务复杂性高等问题，成本与收益不匹配的问题。

目前整个业界对于业务数据的预估准确度越来越高，场景也越来越复杂。业务数据的推演成为了比业务数据预测更加深入而有价值的业务数据分析目标。当前采用模型拟合方式进行分析的方法，一方面会面对模型量随着场景量的增加而增多，导致后期无法维护，另一方面黑盒模型的业务数据预测只有结果没有归因分析，不能深度的挖掘业务影响因子从而达到灵活调整未来业务规划，以实现业务数据可控的推演目标。

一线业务人员在面对复杂的模型、数以百万计的参数和数据时，难以对业务数据进行客观而深度的分析，尤其是在多个业务相互影响、需要复盘某段历史业务数据形状产生的原因时，例如：某段时间的业务数据是否在历史上出现过类似趋势，某段业务数据是否与其他业务数据存在有时间上的相关性，如何检索某段特殊形状的趋势，如何分析两段流量的相似趋势和差异趋势。这些使用模型数据并不能直观的给出归因结果。

此外，对于业务数据本身建模，模型算法工程师在算法开发前，需要分析大量的外部特征，只有特征足够丰富，才能够成功建立高精确度的模型。然而不是所有特征都已经标准化的记录在系统中，或者已经量化为变量的，哪些特征或者哪些外部数据，对待训练模型有影响或者依赖，都需要大量分析挖掘才能获得。缺乏影响因子数据会造成对业务数据建模时无论如何都达不到较高的准确度，其核心原因在于对业务数据历史特点的影响因素挖掘不足，忽略了特征挖掘的重要性，这些仅靠模型工程师无法做到。

当前对业务数据进行分析的模式很多，总体上可以分为三种实现方式。

第一种是普通分析，针对规律性强，准确度要求低的业务分析场景。这种方式通常由一线业务人员自行进行，采用简单的数学公式及统计学规律去实现流量序列的分析，无需开发介入，周期较短，强烈依靠人工业务经验。

第二种是模型分析，需要开发及算法工程师介入，以成熟的业务数据分析模型，如统计学模型、机器学习模型等，对业务数据趋势及特征进行深度挖掘，在研发周期及成本投入上较大，研发人员需要花费大量精力在调整业务参数及熟悉业务数据特点上，例如电商系统中数千万业务数据场景需要分析，则研发人员再多也无法满足需求。

第三种是迁移学习，这种方式是用现有的以及训练好的分析模型，去分析其他同类型的业务数据，好处是训练周期短，缺点是依然需要对业务充分了解，且准确性存在一定问题。

针对上述问题，本公开提出一种业务数据处理方法及装置。需要说明的是，本公开实施例的业务数据处理方法可应用于本公开实施例的业务数据处理装置，该装置可被配置于电子设备中。其中，该电子设备可以是移动终端，例如，手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备。

下面参考附图描述本公开实施例的业务数据处理方法及装置方法和装置。

图1为本公开实施例所提供的一种业务数据处理方法的流程示意图。

如图1所示，该业务数据处理方法可包括如下步骤：

步骤101，获取在设定时段内对目标业务进行业务数据采样得到的第一时间序列。

作为本公开实施例的一种可能的实现方式，业务数据处理装置可在设定时段内，通过业务数据采集通道从各业务系统(比如，客服咨询系统、商品库存系统、促销活动系统或物流配送系统)中根据采样频率对目标业务(比如，咨询业务、商品库存业务、促销活动业务或物流配送业务)的业务数据进行数据采集，得到第一时间序列。其中，第一时间序列为按照采集时间排列的业务数据序列，采样频率可小于或等于设定时间段，比如，采用频率为1小时，设定时间段可为1小时、1天或1周等；此外，在采样频率与设定时间段相差较小时，可将设定时间段与采样频率之间的时间差值作为最小采样频率，比如，采样频率小于设定时间段10分钟时，则以10分钟作为最小采样频率。其中，需要说明的是，在采样频率对应的时间段内存在多个数据时，可将多个数据的总和作为该采用频率下采集的业务数据量。

步骤102，根据第一时间序列，对目标业务在设定时段之后的预测时段进行业务数据预测，以得到预测时间序列。

在本公开实施例中，可采用相关预测算法，根据第一时间序列，对目标业务在设定时段之后的预测时段进行业务数据预测，以得到预测时段的预测时间序列，其中，相关预测算法可包括但不限于：长短期记忆网络(Long Short-Term Memory，简称LSTM)或梯度提升回归树(Gradient Boosting Decision Tree，简称GBDT)等。

步骤103，响应于用户操作，确定参考业务的参考时间序列。

在本公开实施例中，用户可根据需求配置预演条件，根据配置的预演条件将参考业务的业务数据进行数据预演，以确定参考业务的参考时间序列，其中，预演条件比如可为是否有促销活动、人力调整等，此外，参考业务与目标业务相关，比如，目标业务为物流配送业务，参考业务可为商品库存业务或咨询业务。

步骤104，根据目标业务和参考业务之间业务数据的关联关系，以及根据参考时间序列，对预测时间序列进行调整，以得到在参考业务影响下目标业务的预演时间序列。

作为本公开实施例的一种可能的实现方式，可确定目标业务与参考业务之间的业务数据在至少一个关联维度上的关联关系，基于关联关系以及参考时间序列，对预测时间序列进行调整，将调整后的预测时间序列作为预演时间序列。其中，关联维度可包括：时域关联维度和数值关联维度。详细可见后续实施例的描述。

综上，根据目标业务和参考业务之间业务数据的关联关系，并根据参考业务的参考时间序列对预测时间序列进行调整，由此，目标业务的预演时间序列是在参考业务影响下对预测时间序列调整得到的，提高了预演时间序列的灵活性和准确性。

为了在参考业务影响下可准确地对预测时间序列进行调整，如图2所示，图2为本公开实施例所提供的另一种业务数据处理方法的流程示意图，在本公开实施例中，可先确定目标业务与参考业务之间的业务数据的关联关系，作为一种示例，可根据与第一时间序列之间的相似度，在时间序列集合中进行检索，以得到与第一时间序列匹配的第二时间序列，根据第一时间序列和第二时间序列，确定目标业务与参考业务之间业务数据的关联关系，图2所示实施例可包括如下步骤：

步骤201，获取在设定时段内对目标业务进行业务数据采样得到的第一时间序列。

步骤202，根据第一时间序列，对目标业务在设定时段之后的预测时段进行业务数据预测，以得到预测时间序列。

步骤203，响应于用户操作，确定参考业务的参考时间序列。

步骤204，根据与第一时间序列之间的相似度，在时间序列集合中进行检索，以得到与第一时间序列匹配的第二时间序列。

其中，第二时间序列，是在包含设定时段的候选时段内，对参考业务进行业务数据采样得到。

在本公开实施例中，在时间序列集合中，选择与第一时间序列相似度较高的时间序列作为第二时间序列，其中，第二时间序列，是在包含设定时段的候选时段内，对参考业务进行业务数据采样得到的，第二时间序列的个数可为一个或多个。

其中，相似度可为对一个或多个维度对应的相似度中的组合，进行加权融合得到的，多个维度对应的相似度可包括：曲线轮廓相似度、趋势因子分量序列相似度、周期因子分量序列相似度、波动因子分量序列相似度、时频域特征相似度以及异常类型的相似度。

需要说明的是，曲线轮廓相似度即第一时间序列的曲线轮廓与时间序列集合中各时间序列之间的曲线轮廓的相似度；趋势因子分量序列相似度即第一时间序列的趋势因子分量序列与时间序列集合中各时间序列的趋势因子分量序列的相似度；周期因子分量序列相似度即第一时间序列的周期因子分量序列与时间序列集合中各时间序列的周期因子分量序列的相似度；波动因子分量序列相似度即第一时间序列的波动因子分量序列与时间序列集合中各时间序列的波动因子分量序列的相似度；时频域特征相似度即第一时间序列的时频域特征与时间序列集合中各时间序列的时频域特征的相似度。

步骤205，根据第一时间序列和第二时间序列，确定目标业务和参考业务之间业务数据的关联关系。

可选地，根据第一时间序列和第二时间序列之间采样时间差异，确定目标业务和参考业务之间的时域关联关系；其中，采样时间差异可小于或等于设定时间阈值，和/或，根据第一时间序列和第二时间序列之间业务数据的取值差异，确定目标业务和参考业务之间的数值关联关系。

作为一种示例，可根据第一时间序列与第二时间序列的采样时间差，确定目标业务和参考业务之间的时域关联关系，比如，由于物流配送延迟，导致用户咨询相关问题的咨询量增长，但是，这种咨询量的增长会延迟于配送延迟量增长一天或两天，则物流配送与用户咨询之间存在时域关联关系。

作为另一种示例，根据第一时间序列和第二时间序列之间业务数据的取值差异，确定目标业务和参考业务之间的数值关联关系，比如，售前咨询量增长1倍，售后咨询量也增长0.5倍至1倍，则确定售前咨询量与售后咨询量之间存在数值关联关系。

作为又一种示例，根据第一时间序列和第二时间序列之间采样时间差异，确定目标业务和参考业务之间的时域关联关系；根据第一时间序列和第二时间序列之间业务数据的取值差异，确定目标业务和参考业务之间的数值关联关系。比如，咨询量增长1倍，销售量的增长0.5倍至1倍，且会延迟于咨询量增长一段时间。

步骤206，根据目标业务和参考业务之间业务数据的关联关系，以及根据参考时间序列，对预测时间序列进行调整，以得到在参考业务影响下目标业务的预演时间序列。

需要说明的是，步骤201至203、步骤206的执行过程可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过根据与第一时间序列之间的相似度，在时间序列集合中进行检索，以得到与第一时间序列匹配的第二时间序列；根据第一时间序列和第二时间序列，确定目标业务和参考业务之间业务数据的关联关系，由此，从时间序列集合中选取与第一时间序列相似度较高的参考业务的业务数据的第二时间序列，并根据第一时间序列与第二时间序列之间的互作用关系，可准确地确定目标业务和参考业务之间业务数据的关联关系。

为了清楚地说明如何得到参考业务影响下目标业务的预演时间序列的，如图3所示，图3为本公开实施例所提供的另一种业务数据处理方法的流程示意图，在本公开实施例中，根据参考数据序列中各第一时刻对应的业务数据，基于数据关联关系对预测时间序列中关联的第二时刻进行业务数据调整，以得到参考业务影响下目标业务的预演时间序列，图3所示实施例可包括如下步骤：

步骤301，获取在设定时段内对目标业务进行业务数据采样得到的第一时间序列。

步骤302，根据第一时间序列，对目标业务在设定时段之后的预测时段进行业务数据预测，以得到预测时间序列。

步骤303，响应于用户操作，确定参考业务的参考时间序列。

步骤304，根据参考时间序列中各业务数据对应的第一时刻，基于时域关联关系，确定关联的第二时刻。

在本公开实施例中，可根据参考时间序列中各业务数据对应的第一时刻，与预测时间序列中各业务数据的采样时间差异，确定关联的第二时刻。比如，第二时刻与第一时刻的时间差异小于或等于设定时间阈值。

步骤305，根据各第一时刻对应的业务数据，基于数值关联关系对预测时间序列中关联的第二时刻进行业务数据调整，以得到在参考业务影响下目标业务的预演时间序列。

进而，如图4所示，针对各第一时刻对应的业务数据，在与该第一时刻关联的第二时刻对应的业务数据与该第一时刻对应的业务数据存在数值关联关系时，可基于数值关联关系对关联的第二时刻对应的业务数据进行调整，以得到在参考业务影响下目标业务的预演时间序列。比如，可对相关业务曲线的异常点(如，未来某天配置促销活动)进行调整，或者调整其走势形状(如，扩张其库存量或采销量)，或者，根据人力、资源等需求，调整预测时间序列。

需要说明的是，步骤301至303的执行过程可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过根据参考时间序列中各业务数据对应的第一时刻，基于时域关联关系，确定关联的第二时刻；根据各第一时刻对应的业务数据，基于数值关联关系对预测时间序列中关联的第二时刻进行业务数据调整，以得到在参考业务影响下目标业务的预演时间序列，由此，基于目标业务与参考业务之间的时域关联关系以及数值关联关系，对预测时间序列进行调整得到预演时间序列，提高了预演时间序列的灵活性和准确性。

为了准确地说明如何快速地得到与第一时间序列匹配的第二时间序列的，如图5所示，图5为本公开实施例所提供的另一种业务数据处理方法的流程示意图，在本公开实施例中，可将时间序列集合中的时间序列基于聚类划分为至少两个聚簇，并对与第一时间序列匹配的聚簇，根据与第一时间序列之间的相似度进行排序，选取出与第一时间序列匹配的第二时间序列，图5所示实施例可包括如下步骤：

步骤501，获取在设定时段内对目标业务进行业务数据采样得到的第一时间序列。

步骤502，根据第一时间序列，对目标业务在设定时段之后的预测时段进行业务数据预测，以得到预测时间序列。

步骤503，响应于用户操作，确定参考业务的参考时间序列。

步骤504，获取时间序列集合，其中，时间序列集合中的时间序列基于聚类划分为至少两个聚簇。

在本公开实施例中，如图6所示，可采用聚簇算法，对时间序列集合中的各时间序列的特征进行聚簇，以得到至少两个聚簇，其中，可采用聚簇算法，对各时间序列的时域特征进行聚簇，也可对各时间序列的频域特征进行聚簇，以得到至少两个聚簇，本公开不做具体限定。每个聚簇中可包括至少一个时间序列，聚簇算法可为k最邻近分类算法(K-NearestNeighbor，简称KNN)。

步骤505，将第一时间序列分别与各聚簇匹配，以确定匹配的聚簇。

作为一种示例，可将第一时间序列分别与各聚簇进行相似度计算，以确定匹配的聚簇；作为另一种示例，可将第一时间序列与各聚簇的聚簇中心进行相似度计算，以确定匹配的聚簇。

其中，可采用动态时间归整(Dynamic Time Warping，简称DTW)算法，计算第一时间序列与各聚簇的相似度，以确定匹配的聚簇；或者，采用欧拉距离，计算第一时间序列与各聚簇的聚簇中心的相似度，以确定匹配的聚簇。

其中，需要说明的是，数以千万计的不同业务，存在业务量级上的差异，这种数值上的差异会影响趋势相似计算及特征数据聚类。因此，为了消除这一影响，将第一时间序列分别与各聚簇匹配之前，需要将第一时间序列归一化到0-1之间。

步骤506，对匹配的聚簇，根据与第一时间序列之间的相似度进行排序，以选取出与第一时间序列匹配的第二时间序列。

作为本公开实施例的一种可能的实现方式，对匹配的聚簇中的各时间序列，确定与第一时间序列之间的相似度；其中，相似度，是对曲线轮廓相似度、趋势因子分量序列相似度、周期因子分量序列相似度、波动因子分量序列相似度、时频域特征相似度，以及异常类型的相似度中的一个或多个组合，进行加权融合得到；按照相似度从高到底，对匹配的聚簇中的各时间序列进行排序，以将排序为前设定个数的时间序列作为第二时间序列。

也就是说，为了便于从多个相似度维度确定匹配的聚簇中的各时间序列中与第一时间序列之间的相似度，如图7所示，可将第一时间序列拆分为与第一时间序列时间长度相同的趋势因子分量序列、周期因子分量序列、波动因子分量序列，并且，将拆分后的各分量序列进行时频域特征提取，其中，时域特征可包括但不限于：波形因子、标准差、原点矩、峰度等；频域特征可包括：快速傅里叶变换(Fast Fourier Transform，简称FFT)熵、FFT标准差、FFT能量和小波熵等。

需要理解的是，有些不同的业务，虽然形状上没有相似性、时频域特征也不相似，但是会因为同样的事件发生异常同步，比如，某个系统崩溃会导致各种页面的业务数据同时下跌，或者，发生热点事件可导致某些商品的业务数据同时上涨等。通过对异常事件发生的时间及形状进行分析，可以挖掘业务之间潜在的影响。异常类型可采用统计学的斜率计算，比如，可根据曲线变化斜率(比如，斜率的变化率)来判断是否产生突变以及突变的起始和结束。异常类型，比如为，曲线变化斜率徒增两倍。

举例而言，举例而言，如图8所示，在第一时间序列(待分析的某个业务时序流量)通过聚类归类时，即可将第一时间序列分别与各聚簇进行相似度计算，以确定匹配的聚簇，在第一时间序列未通过聚类归类时，可将第一时间序列与各聚簇的聚簇中心进行相似度计算，以确定匹配的聚簇，进而，对匹配的聚簇，根据与第一时间序列之间的相似度进行排序，以选取出与所述第一时间序列匹配的第二时间序列。

其中，如图9所示，图9为本公开实施例所提供的一种对匹配的聚簇中的各时间序列进行排序的流程示意图，在图9中，根据匹配的聚簇中的各时间序列与第一时间序列的曲线轮廓相似度以及时频域特征相似度进行加权融合，根据加权融合后的相似度，对匹配的聚簇中的各时间序列进行排序。其中，匹配的聚簇中的各时间序列与第一时间序列的时频域特征相似度可采用空间欧拉距离进行计算。其中，图9中待分析的某个业务时序流量可为第一时间序列，待对比的N个时序流量可为时间序列集合，从流量片段库中提取所选业务及时间内的原始时序数据为匹配的聚簇。

步骤507，根据目标业务和参考业务之间业务数据的关联关系，以及根据参考时间序列，对预测时间序列进行调整，以得到在参考业务影响下目标业务的预演时间序列。

需要说明的是，步骤501至503、步骤507的执行过程可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过获取时间序列集合，其中，时间序列集合中的时间序列基于聚类划分为至少两个聚簇；将第一时间序列分别与各聚簇匹配，以确定匹配的聚簇；对匹配的聚簇，根据与第一时间序列之间的相似度进行排序，以选取出与第一时间序列匹配的第二时间序列，由此，可从时间序列集合中快速选取出与第一时间序列匹配的第二时间序列。

为了更加清楚地说明上述实施例，现举例进行说明。

举例而言，如图10所示，可根据流量分析预演系统工作模式进行业务数据处理，其中，预演系统工作模式可分为三个部分：

1、第一个是实时采集部分，包括外部系统接口和内部的时序流量采集系统，主要是通过实时消息管道，接入到各个外部系统的接口中，对其相关的数据进行实时采集，并统计为流量数值进行上报存储；

2、第二个是离线处理部分，包含了预处理模块、时序特征存储模块、相似对比加速三个模块，并通过离线的定时调度系统，对其工作时刻进行调度管理。其中，预处理模块能够对采集的原始流量，进行分割、分解、时频域特征提取等操作，时序特征存储模块是将流量及预处理后的数据格式化存储，方便后续的对比及检索操作。相似对比加速模块，相似对比加速模块：由于在实际的业务中，可能存在数量庞大的细分业务，如一个电商平台可能有数千万的商品需要监控，通过对这些流量进行片段分割后，其数量级再次增大，如何加速运营人员在使用过程中的检索速度是关键。相似对比加速模块，是通过多种维度及评估模型的聚类算法，对时序片段进行预先分类，以方便加速后续的检索对比过程；

如图11所示，预处理模块将采集到的各个系统连续时序流量，分割为定长的流量片段，比如，依据最小采样频率对连续的流量数据进行分割，如最小采样频率为1h，则以1小时、1天、1周的频率进行分割；然后，采用片段编码模块将上一步分割出的流量片段(第一时间序列)，进行索引化编码，方便存储及后续查找过程，索引化依据为业务编码-分割维度-窗口时间。索引化后，每个片段在存储系统中拥有唯一可排序检索的编码；进而，将归一化模块将用于数据片段进行归一化；将归一化后的数据片段分别采用时序分解模块进行时序分解、时频特征提取模块进行时频特征提取以及异常点定位模块进行异常点定位。其中，

时序分解模块可基于标准模板库(Standard Template Library，STL)算法模型，对流量片段进行拆分，将一段完整的流量序列数据，拆分成为与片段等长的趋势因子分量序列、周期因子分量序列、波动因子分量序列；时频特征提取模块负责提取时序片段的时频域特征，用于后续对时片段进行相似对比分析。常见的与时序形状有关的时间域特征可以为：波形因子、标准差、原点矩、峰度等等；常见的频域特征可以为：FFT熵、FFT标准差、FFT能量、小波熵；由此，可对流量进行深度分析，不光分析流量与流量间的相似性，也需要分析是否几个业务具备同样的趋势、周期、波动因素，从而能够发现潜在的互作用关系；异常点定位模块：异常定位的目的是确定各个序列的异常发生时间及形状，有些不同的业务，虽然形状上没有相似性、时频域特征也不相似，但是会因为同样的事件发生异常同步，比如某个系统崩溃会导致各种页面的流量同时下跌，或者热点事件导致某些商品流量同时上涨等。通过对异常事件发生的时间及形状进行分析，可以挖掘业务潜在的影响，对于模拟预演有较多帮助。异常提取的定位采用统计学的斜率计算，根据曲线变化斜率来判断是否产生突变以及突变的起始和结束。

3、第三个部分是交互分析及可视化部分，包括时序检索系统、流量预演系统。时序检索系统与流量预演系统均通过可视化系统与用户进行交互，如图12所示，分为交互区、图形区、数据区

其中，交互区为用户提供检索的基本配置功能，包括选择目标业务流量、选择对比模块(如异常对比、轮廓形状对比、特征对比等)、互作用分析设置(如相似阈值等)、排序检索分析设置(每种排序因子的权重等)；

图形区为用户提供分析结果的可视化能力，如原始流量的数据曲线，轮廓对比后相似的曲线段标注，异常事件点的相似标注、相似流量片段的排序展示等，方便用户直观的查看分析挖掘的结果；

数据展示区用于将各种结论性的数据进行呈现，比如目标流量与对比流量的轮廓相似度、排序数值、异常相似性等数据。

本公开实施例的业务数据处理方法，通过获取在设定时段内对目标业务进行业务数据采样得到的第一时间序列；根据第一时间序列，对目标业务在设定时段之后的预测时段进行业务数据预测，以得到预测时间序列；响应于用户操作，确定参考业务的参考时间序列；根据目标业务和参考业务之间业务数据的关联关系，以及根据参考时间序列，对预测时间序列进行调整，以得到在参考业务影响下目标业务的预演时间序列。该方法根据目标业务和参考业务之间业务数据的关联关系，并根据参考业务的参考时间序列对预测时间序列进行调整，由此，目标业务的预演时间序列是在参考业务影响下对预测时间序列调整得到的，提高了预演时间序列的准确性和灵活性。

为了实现上述实施例，本公开还提出一种业务数据处理装置。

图13为本公开实施例所提供的另一种业务数据处理装置的结构示意图。

如图13所示，该业务数据处理装置1300包括：获取模块1310、预测模块1320、第一确定模块1330和调整模块1340。

其中，获取模块1310，用于获取在设定时段内对目标业务进行业务数据采样得到的第一时间序列；预测模块1320，用于根据所述第一时间序列，对目标业务在设定时段之后的预测时段进行业务数据预测，以得到预测时间序列；第一确定模块1330，用于响应于用户操作，确定参考业务的参考时间序列；调整模块1340，用于根据目标业务和参考业务之间业务数据的关联关系，以及根据参考时间序列，对预测时间序列进行调整，以得到在参考业务影响下目标业务的预演时间序列。

作为本公开实施例的一种可能的实现方式，业务数据处理装置1300还包括：检索模块和第二确定模块。

其中，检索模块，用于根据与第一时间序列之间的相似度，在时间序列集合中进行检索，以得到与第一时间序列匹配的第二时间序列；其中，第二时间序列，是在包含设定时段的候选时段内，对参考业务进行业务数据采样得到；第二确定模块，用于根据第一时间序列和第二时间序列，确定目标业务和参考业务之间业务数据的关联关系。

作为本公开实施例的一种可能的实现方式，第二确定模块，还用于根据第一时间序列和第二时间序列之间采样时间差异，确定目标业务和参考业务之间的时域关联关系；和/或，根据第一时间序列和第二时间序列之间业务数据的取值差异，确定目标业务和参考业务之间的数值关联关系。

作为本公开实施例的一种可能的实现方式，调整模块，还用于：根据参考时间序列中各业务数据对应的第一时刻，基于时域关联关系，确定关联的第二时刻；根据各第一时刻对应的业务数据，基于数据关联关系对所述预测时间序列中关联的第二时刻进行业务数据调整，以得到在参考业务影响下目标业务的预演时间序列。

作为本公开实施例的一种可能的实现方式，检索模块，还用于：获取时间序列集合，其中，时间序列集合中的时间序列基于聚类划分为至少两个聚簇；将第一时间序列分别与各聚簇匹配，以确定匹配的聚簇；对匹配的聚簇，根据与第一时间序列之间的相似度进行排序，以选取出与第一时间序列匹配的第二时间序列。

作为本公开实施例的一种可能的实现方式，至少两个聚簇，是根据时间序列集合中各时间序列的时频域特征进行聚类得到的。

作为本公开实施例的一种可能的实现方式，检索模块，还用于：对所述匹配的聚簇中的各时间序列，确定与所述第一时间序列之间的相似度；其中，相似度，是对曲线轮廓相似度、趋势因子分量序列相似度、周期因子分量序列相似度、波动因子分量序列相似度、时频域特征相似度，以及异常类型的相似度中的一个或多个组合，进行加权融合得到；按照所述相似度从高到底，对匹配的聚簇中的各时间序列进行排序，以将排序为前设定个数的时间序列作为第二时间序列。

本公开实施例的业务数据处理装置，通过获取在设定时段内对目标业务进行业务数据采样得到的第一时间序列；根据第一时间序列，对目标业务在设定时段之后的预测时段进行业务数据预测，以得到预测时间序列；响应于用户操作，确定参考业务的参考时间序列；根据目标业务和参考业务之间业务数据的关联关系，以及根据参考时间序列，对预测时间序列进行调整，以得到在参考业务影响下目标业务的预演时间序列。该装置可实现根据目标业务和参考业务之间业务数据的关联关系，并根据参考业务的参考时间序列对预测时间序列进行调整，由此，目标业务的预演时间序列是在参考业务影响下对预测时间序列调整得到的，提高了预演时间序列的准确性和灵活性。

需要说明的是，前述对业务数据处理方法实施例的解释说明也适用于该实施例的业务数据处理装置，此处不再赘述。

为了实现上述实施例，本申请还提出一种电子设备，如图14所示，图14是根据一示例性实施例示出的一种用于业务数据处理的电子设备的框图。

如图14所示，上述电子设备1400包括：

存储器1410及处理器1420，连接不同组件(包括存储器1410和处理器1420)的总线1430，存储器1410存储有计算机程序，当处理器1420执行所述程序时实现本公开实施例所述的业务数据处理方法。

总线1430表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备1400典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备1400访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器1410还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)1440和/或高速缓存存储器1450。电子设备1400可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统1460可以用于读写不可移动的、非易失性磁介质(图14未显示，通常称为“硬盘驱动器”)。尽管图14中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线1430相连。存储器1410可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块1470的程序/实用工具1480，可以存储在例如存储器1410中，这样的程序模块1470包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块1470通常执行本公开所描述的实施例中的功能和/或方法。

电子设备1400也可以与一个或多个外部设备1490(例如键盘、指向设备、显示器等)通信，还可与一个或者多个使得用户能与该电子设备1400交互的设备通信，和/或与使得该电子设备1400能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1492进行。并且，电子设备1400还可以通过网络适配器1493与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图14所示，网络适配器1493通过总线1430与电子设备1400的其它模块通信。应当明白，尽管图14中未示出，可以结合电子设备1400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器1420通过运行存储在存储器1410中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本公开实施例的业务数据处理的解释说明，此处不再赘述。

为了实现上述实施例，本申请还提出一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例所述的业务数据处理方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行上述实施例所述的业务数据处理方法。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种业务数据处理方法，其特征在于，包括：

获取在设定时段内对目标业务进行业务数据采样得到的第一时间序列；

根据所述第一时间序列，对所述目标业务在所述设定时段之后的预测时段进行业务数据预测，以得到预测时间序列；

响应于用户操作，确定参考业务的参考时间序列；

根据所述目标业务和所述参考业务之间业务数据的关联关系，以及根据所述参考时间序列，对所述预测时间序列进行调整，以得到在所述参考业务影响下所述目标业务的所述预演时间序列。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据与所述第一时间序列之间的相似度，在时间序列集合中进行检索，以得到与所述第一时间序列匹配的第二时间序列；其中，所述第二时间序列，是在包含所述设定时段的候选时段内，对参考业务进行业务数据采样得到；

根据第一时间序列和所述第二时间序列，确定所述目标业务和所述参考业务之间业务数据的关联关系。

3.根据权利要求2所述的方法，其特征在于，所述根据第一时间序列和所述第二时间序列，确定所述目标业务和所述参考业务之间业务数据的关联关系，包括：

根据所述第一时间序列和所述第二时间序列之间采样时间差异，确定所述目标业务和所述参考业务之间的时域关联关系；

和/或，根据所述第一时间序列和所述第二时间序列之间业务数据的取值差异，确定所述目标业务和所述参考业务之间的数值关联关系。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标业务和所述参考业务之间业务数据的关联关系，以及根据所述参考时间序列，对所述预测时间序列进行调整，以得到在所述参考业务影响下所述目标业务的所述预演时间序列，包括：

根据所述参考时间序列中各业务数据对应的第一时刻，基于所述时域关联关系，确定关联的第二时刻；

根据各所述第一时刻对应的业务数据，基于所述数值关联关系对所述预测时间序列中关联的第二时刻进行业务数据调整，以得到在所述参考业务影响下所述目标业务的所述预演时间序列。

5.根据权利要求2所述的方法，其特征在于，所述根据与所述第一时间序列的相似度，在时间序列集合中进行检索，以得到与所述第一时间序列匹配的第二时间序列，包括：

获取所述时间序列集合，其中，所述时间序列集合中的时间序列基于聚类划分为至少两个聚簇；

将所述第一时间序列分别与各所述聚簇匹配，以确定匹配的聚簇；

对所述匹配的聚簇，根据与所述第一时间序列之间的相似度进行排序，以选取出与所述第一时间序列匹配的所述第二时间序列。

6.根据权利要求5所述的方法，其特征在于，所述至少两个聚簇，是根据所述时间序列集合中各时间序列的时频域特征进行聚类得到的。

7.根据权利要求5所述的方法，其特征在于，所述对所述匹配的聚簇，根据与所述第一时间序列之间的相似度进行排序，以选取出与所述第一时间序列匹配的所述第二时间序列，包括：

对所述匹配的聚簇中的各时间序列，确定与所述第一时间序列之间的相似度；其中，所述相似度，是对曲线轮廓相似度、趋势因子分量序列相似度、周期因子分量序列相似度、波动因子分量序列相似度、时频域特征相似度，以及异常类型的相似度中的一个或多个组合，进行加权融合得到；

按照所述相似度从高到底，对所述匹配的聚簇中的各时间序列进行排序，以将排序为前设定个数的时间序列作为所述第二时间序列。

8.一种业务数据处理装置，其特征在于，包括：

获取模块，用于获取在设定时段内对目标业务进行业务数据采样得到的第一时间序列；

预测模块，用于根据所述第一时间序列，对所述目标业务在所述设定时段之后的预测时段进行业务数据预测，以得到预测时间序列；

第一确定模块，用于响应于用户操作，确定参考业务的参考时间序列；

调整模块，用于根据所述目标业务和所述参考业务之间业务数据的关联关系，以及根据所述参考时间序列，对所述预测时间序列进行调整，以得到在所述参考业务影响下所述目标业务的所述预演时间序列。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

检索模块，用于根据与所述第一时间序列之间的相似度，在时间序列集合中进行检索，以得到与所述第一时间序列匹配的第二时间序列；其中，所述第二时间序列，是在包含所述设定时段的候选时段内，对参考业务进行业务数据采样得到；

第二确定模块，用于根据第一时间序列和所述第二时间序列，确定所述目标业务和所述参考业务之间业务数据的关联关系。

10.根据权利要求9所述装置，其特征在于，所述第二确定模块，还用于

11.根据权利要求10所述的装置，其特征在于，所述调整模块，还用于：

根据各所述第一时刻对应的业务数据，基于所述数据关联关系对所述预测时间序列中关联的第二时刻进行业务数据调整，以得到在所述参考业务影响下所述目标业务的所述预演时间序列。

12.根据权利要求9所述的装置，其特征在于，所述检索模块，还用于：

13.根据权利要求12所述的装置，其特征在于，所述至少两个聚簇，是根据所述时间序列集合中各时间序列的时频域特征进行聚类得到的。

14.根据权利要求12所述的装置，其特征在于，所述检索模块，还用于：

15.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-7中任一项所述的业务数据处理方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的业务数据处理方法。