CN115114345A

CN115114345A - 特征表示的提取方法、装置、设备、存储介质及程序产品

Info

Publication number: CN115114345A
Application number: CN202210351510.8A
Authority: CN
Inventors: 路杰程; 叶碧荣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-09-27
Anticipated expiration: 2042-04-02
Also published as: CN115114345B

Abstract

本申请公开了一种特征表示的提取方法、装置、设备、存储介质及程序产品，涉及机器学习领域。该方法包括：获取时间序列数据集；获取时间序列数据集中的时间序列数据与目标时间序列数据之间的重要度数据；基于重要度数据对时间序列数据集中的时间序列数据进行分组；对至少两个分组数据进行特征表示的提取，得到目标时间序列数据对应的目标特征表示。将多元时间序列数据按照其对目标时间序列数据的重要度进行分组，并对每个组内的多元时间序列数据转化为对应的特征表示，使得此特征表示能够较大程度表达时间序列数据集整体信息，并将特征表示输入至后续下游业务场景中，提升性能、稳定性并降低计算复杂度。

Description

特征表示的提取方法、装置、设备、存储介质及程序产品

技术领域

本申请实施例涉及机器学习领域，特别涉及一种特征表示的提取方法、装置、设备、存储介质及程序产品。

背景技术

时间序列数据是指根据时间节点构成的时间轴作为存储基础存储的数据，如，平台A的流量数据包括每小时的浏览量，包括：00:00至01:00浏览量20，01：00-02:00的浏览量为15，02：00-03:00的浏览量为8，其中，00:00、01:00、02:00为时间节点，时间节点构成时间轴，20、15、8为时间轴上存储的数据。

相关技术中，针对时间序列数据包括数据预测、数据聚类等多种不同的下游任务类型，不同的任务通过训练不同的机器学习模型实现。而不同的模型所需要的特征处理方式不尽相同。

故，相关技术中的时间序列数据，针对不同的下游任务需要进行繁琐的模型设计以及特定方案的数据特征提取，人机交互效率较低，时间序列数据的处理效率较低。

发明内容

本申请实施例提供了一种特征表示的提取方法、装置、设备、存储介质及程序产品，能够提高对时间序列数据的处理效率。所述技术方案如下。

一方面，提供了一种特征表示的提取方法，所述方法包括：

获取时间序列数据集，所述时间序列数据集中包括至少两个时间序列数据，所述时间序列数据是指以时间节点构成的时间轴为存储基础进行存储的数据；

针对所述时间序列数据集中的目标时间序列数据，获取所述时间序列数据集中的时间序列数据与所述目标时间序列数据之间的重要度数据，所述重要度数据用于表示时间序列数据与所述目标时间序列数据之间的数据时序关联程度；

基于所述重要度数据对所述时间序列数据集中的时间序列数据进行分组，得到至少两个分组数据；

对所述至少两个分组数据进行特征表示的提取，得到所述目标时间序列数据对应的目标特征表示，所述目标特征表示用于在下游业务场景的分析中应用。

另一方面，提供了一种特征表示的提取装置，所述装置包括：

获取模块，用于获取时间序列数据集，所述时间序列数据集中包括至少两个时间序列数据，所述时间序列数据是指以时间节点构成的时间轴为存储基础进行存储的数据；

所述获取模块，还用于针对所述时间序列数据集中的目标时间序列数据，获取所述时间序列数据集中的时间序列数据与所述目标时间序列数据之间的重要度数据，所述重要度数据用于表示时间序列数据与所述目标时间序列数据之间的数据时序关联程度；

分组模块，用于基于所述重要度数据对所述时间序列数据集中的时间序列数据进行分组，得到至少两个分组数据；

提取模块，用于对所述至少两个分组数据进行特征表示的提取，得到所述目标时间序列数据对应的目标特征表示，所述目标特征表示用于在下游业务场景的分析中应用。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述特征表示的提取方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的特征表示的提取方法。

另一方面，提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的特征表示的提取方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

将多元时间序列数据按照其对目标时间序列数据的重要度进行分组，并对每个组内的多元时间序列数据转化为对应的特征表示，使得此特征表示能够较大程度表达时间序列数据集整体信息的基础上，实现异常处理、稳定性提升等目的，并将特征表示输入至后续下游业务场景中，提升性能、稳定性并降低计算复杂度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的时间序列数据分组过程的示意图；

图2是本申请一个示例性实施例提供的实施环境示意图；

图3是本申请一个示例性实施例提供的特征表示的提取方法的流程图；

图4是基于图3示出的实施例提供的重要度分组过程示意图；

图5是基于图3示出的实施例提供的特征提取过程示意图；

图6是本申请另一个示例性实施例提供的特征表示的提取方法的流程图；

图7是基于图6示出的实施例提供的收缩残差自编码器的结构示意图；

图8是基于图6示出的实施例提供的加权自注意力单元示意图；

图9是基于图6示出的实施例提供的残差编码器单元示意图；

图10是本申请另一个示例性实施例提供的特征表示的提取方法的流程图；

图11是基于图10示出的实施例提供的双层表征抽取结构的示意图；

图12是本申请一个示例性实施例提供的整体架构示意图；

图13是本申请一个示例性实施例提供的双层表征抽取模型的整体流程示意图；

图14是本申请一个示例性实施例提供的模型迭代的重构误差示意图；

图15是本申请一个示例性实施例提供的双层表征提取模型的预测结果示意图；

图16是本申请一个示例性实施例提供的可视化界面示意图；

图17是本申请一个示例性实施例提供的配置界面示意图；

图18是本申请一个示例性实施例提供的特征表示的提取装置的结构框图；

图19是本申请另一个示例性实施例提供的特征表示的提取装置的结构框图；

图20是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，针对本申请实施例中涉及的名词进行简单介绍。

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大特征表示的提取技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

计算机视觉技术(Computer Vision，CV)：是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

时间序列数据出现在各个领域，如：在软件应用领域，可以通过时间序列数据确定软件平台的浏览量、下载量等；在医疗领域，可以通过时间序列数据确定疾病的发病率、各个时间段的住院人数预测数据等；在人流量控制领域，可以通过时间序列数据预测各个公共空间的对象密集程度，从而通过管控手段控制对象聚集。值得注意的是，上述时间序列数据的应用领域仅为示意性的举例，本实施例对此不加以限定。

本申请实施例中，以医疗领域中的时间序列数据为例进行说明，如：发病率预测、住院人数预测、疾病时空聚类等。通常，针对不同的任务场景，所使用的机器学习模型差异也较大，且不同的机器学习模型所需要的特征处理过程和方式也不尽相同，即使使用相同的数据集，也需要根据机器学习模型的要求对时间序列数据进行分解、变换、检验等操作，模型开发、配置和迁移的效率较低。

值得注意的是，上述发病率数据、住院人数数据为用户主动上传的数据；或者，为经过用户单独授权后获取的数据。上述实施例中以发病率预测、住院人数预测、疾病时空聚类为例进行说明，本申请实施例提供的特征表示的提取方法还可以应用于其他场景中，对此不加以限定。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户单独授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的发病率数据、住院人数数据都是在充分授权的情况下获取的。

针对上述机器学习模型的应用效率较低的问题，本实施例提供了一种特征表示的提取方法。图1示出了本申请一个示例性实施例提供的时间序列数据分组过程的示意图，如图1所示，针对数据源中的时间序列数据集100进行特征重要度计算与特征分组，得到重要度矩阵与分组110。其中，重要度计算是指针对时间序列数据集中的目标时间序列数据，计算时间序列数据集中的其他时间序列数据相对于该目标时间序列数据的重要度，从而得到重要度矩阵。

根据重要度矩阵对其他时间序列数据进行排序，并根据排序结果进行分组，得到分组结果。

从而在特征提取时，基于重要度矩阵与分组110对各个分组进行特征提取，最终得到目标时间序列数据所对应的特征表示。

其次，对本申请实施例中涉及的实施环境进行说明，示意性的，请参考图2，该实施环境中涉及终端210、服务器220，终端210和服务器220之间通过通信网络230连接。

在一些实施例中，终端210用于向服务器220发送时间序列数据。在一些实施例中，终端210中安装有具有时间序列数据分析功能(如：时间序列数据预测功能)的应用程序，示意性的，终端210中安装有人流量预测功能的应用程序。如：终端210中安装有搜索引擎程序、旅游应用程序、生活辅助应用程序、即时通讯应用程序、视频类程序、游戏类程序等，本申请实施例对此不加以限定。

服务器220中在获取时间序列数据构成的时间序列数据集后，通过重要度分析以及分组对时间序列数据集中的时间序列数据进行特征表示的提取，从而应用于下游的时间序列数据分析任务中。

其中，重要度分析是指，针对时间序列数据集中的目标时间序列数据，对其他时间序列数据相对于该目标时间序列数据的重要度进行分析，从而得到重要度矩阵的过程。

上述终端可以是手机、平板电脑、台式电脑、便携式笔记本电脑、智能电视、车载终端、智能家居设备等多种形式的终端设备，本申请实施例对此不加以限定。

值得注意的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。

结合上述名词简介和应用场景，对本申请提供的特征表示的提取方法进行说明，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图3所示，该方法包括如下步骤。

步骤301，获取时间序列数据集，时间序列数据集中包括至少两个时间序列数据。

时间序列数据是指以时间节点构成的时间轴为存储基础进行存储的数据，也即，时间序列数据中包括多个子数据，子数据分布在时间轴上的各个时间点或者时间段。

在一些实施例中，时间轴以预设的时间粒度表达，或者，时间轴以随机时间粒度表达。示意性的，以秒表达时间轴，或者，以小时表达时间轴，或者，以天表达时间轴。

以住院人数为例进行说明，住院人数是以天为时间粒度存储的数据，如：5月10日，住院人数为201，5月11日，住院人数为182；或者，住院人数是以月为时间粒度存储的数据，如：5月平均每日的住院人数为200，6月平均每日的住院人数为170。

在一些实施例中，时间序列数据集是公开数据源中的时间序列数据构成的数据集。可选地，时间序列数据集中包括多元时间序列数据，其中，多元是指针对同一对象从多方面统计得到的数据，示意性的，以医院的时间序列数据为例，该时间序列数据集中包括医院每日的住院人数、手术执行总数、就诊人数，医生值班人数等。其中，每个数据类型对应一个时间序列数据，如：医院A对应的住院人数实现为一条时间序列数据，医院A对应的手术执行总数实现为一条时间序列数据。

在一些实施例中，时间序列数据集中包括至少两个对象分别对应的多元时间序列数据，如：时间序列数据集中包括医院A的多元时间序列数据、医院B的多元时间序列数据以及医院C的多元时间序列数据。

在一些实施例中，时间序列数据集中的时间序列数据是时间轴对齐的数据，可选地，时间序列数据集中的时间序列数据以自然时间节点构成的时间轴为存储基础进行存储；或者，时间序列数据集中的时间序列数据以预设时间节点构成的时间轴为存储基础进行存储，本实施例对此不加以限定。

步骤302，针对时间序列数据集中的目标时间序列数据，获取时间序列数据集中的时间序列数据与目标时间序列之间的重要度数据。

其中，重要度数据用于表示时间序列数据与目标时间序列数据之间的数据时序关联程度。

在一些实施例中，目标时间序列数据为随机抽取得到的时间序列数据；或者，目标时间序列数据是根据下游业务场景确定的时间序列数据，本实施例对此不加以限定。示意性的，下游业务场景为住院人数预测，则目标时间序列数据为时间序列集合中的住院人数数据，即时间轴上各时间节点的住院人数统计数据。

示意性的，令时间序列数据集的每个时间序列为s_i＝(x_i1,x_i2,…,x_iT)，时间序列数据集为S＝(s₁,s₂,…,s_n)，时间序列数据的数量为n，x_ij为第i个时间序列数据内的第j个元素，T为时间序列总长度。则，对每一个时间序列数据s_i，计算s中其他时间序列数据对当前时间序列数据s_i的重要度数据。其中，s_i即为上述目标时间序列数据。

在一些实施例中，重要度数据用于表示两个时间序列数据之间的牵绊程度，也即，两个时间序列数据之间的影响程度。示意性的，时间序列数据a为医院A的住院人数；时间序列数据b为医院A的就诊人数；时间序列数据c为医院B的器械采购数量。其中，时间序列数据b所表达的就诊人数越多，则时间序列数据a所表达的住院人数相对也会增多，而时间序列数据c所表达的器械采购数量对时间序列数据a所表达的住院人数影响较小，故，时间序列数据a与时间序列数据b之间的重要度较高，而时间序列数据a与时间序列数据c之间的重要度较低。

可选地，根据时间序列数据集中两个时间序列数据之间的数据变化关联情况，确定两个时间序列数据之间的重要度。

在一些实施例中，通过随机森林等基于树结构的模型计算上述重要度数据；通过动态时间规整类误差、均方误差与交叉熵等损失函数、向量自回归模型(VectorAutoregression，VAr)等时间序列模型的检验参数、各类回归等统计检验计算上述重要度数据。

在一些实施例中，针对下游业务场景的不同，采用不同的计算方式确定上述重要度数据；或者，在下游业务场景不同的情况下，采用相同的计算方式确定上述重要度数据。

步骤303，基于重要度数据对时间序列数据集中的时间序列数据进行分组，得到至少两个分组数据。

可选地，首先基于重要度数据对时间序列数据集中的时间序列数据进行排序，得到排序队列，从而根据排序队列对时间序列数据集中的时间序列数据进行分组，得到至少两个分组数据。

在一些实施例中，在对排序队列中的时间序列数据进行分组时，包括如下情况中的至少一种：

第一，以重要度数据阈值为界限，对排序队列中的时间序列数据进行分组，得到至少两个分组数据。

也即，预先设定至少一个重要度数据阈值，以该重要度数据阈值为分组界限，将小于重要度数据阈值的时间序列数据划分为一组，并大于重要度数据阈值的时间序列数据划分为一组。其中，当重要度数据阈值存在多个时，则根据多个重要度数据划分得到的阈值区间对时间序列数据进行分组。

如：重要度数据阈值包括10、2，则将重要度数据大于10的划分为分组1，将重要度数据位于2-10区间内的划分为分组2，将重要度数据小于1的划分为分组3。

第二，以连续重要度数据的总和达到预设阈值为划分条件，对排序队列中的时间序列数据进行分组，得到至少两个分组数据。

也即，预先设定预设阈值，并将排序队列中时间序列数据的重要度数据依次进行相加，当相加得到的总和达到预设阈值时，则将参与重要度数据相加的各个时间序列数据划分为一组，并将总和清零，继续对排序队列中剩余的时间序列数据进行重要度数据相加。

示意性的，排序队列中依次包括时间序列数据1(对应目标时间序列数据的重要度数据为80)、时间序列数据2(对应目标时间序列数据的重要度数据为70)、时间序列数据3(对应目标时间序列数据的重要度数据为68)、时间序列数据4(对应目标时间序列数据的重要度数据为20)、时间序列数据5(对应目标时间序列数据的重要度数据为18)、时间序列数据6(对应目标时间序列数据的重要度数据为10)、时间序列数据7(对应目标时间序列数据的重要度数据为6)，预设阈值为120，则首先将重要度数据80和70相加，达到120，故将时间序列数据1和时间序列数据2划分为第一个分组，继续将重要度数据68与20相加，未达到120，继续与重要度数据18相加，未达到120，继续与重要度数据10相加，未达到120，继续与重要度数据6相加，达到120，故将时间序列数据3、时间序列数据4、时间序列数据5、时间序列数据6、时间序列数据7划分为第二个分组。

第三，由于重要度数据的分布通常实现为重要度数据的大小与数量呈负相关关系，也即，重要度数据越大，对应的时间序列数据越少，故，根据预设划分数量对时间序列数据进行分组划分。

可选地，预设划分数量中包括至少两个子数量，每个子数量用于表示依次划分排序队列中的时间序列数据时，每个分组对应的时间序列数据的数量。在一些实施例中，当根据至少两个子数量对排序队列进行划分时，存在时间序列数据未包含在预设划分数量内时，将剩余的时间序列数据划分为一个分组。

示意性的，预设划分数量包括3、20、50，也即，将排序队列中的前三个划分为第一个分组，将第4个至第23个划分为第二个分组，将第24个至第73个划分为第三个分组，并将从第74个开始之后的时间序列数据划分为第四个分组。

第四，通过分组模型对排序队列进行分组划分。

其中，分组模型为预先训练得到的机器学习模型，将重要度数据和排序队列输入至分组模型后，输出得到至少两个分组。

其中，分组模型是预先通过标注有分组信息的样本时间序列数据训练得到的机器学习模型。

值得注意的是，上述分组划分的方式仅为示意性的举例，本申请实施例对此不加以限定。

示意性的，请参考图4，其示出了本申请一个示例性实施例提供的重要度分组过程示意图。如图4所示，针对时间序列数据集400，根据实际下游业务场景设计的一系列重要度算子o_i，重要度算子o_i能够根据时间序列数据输出针对每个时间序列s_i，其他时间序列数据的重要度评分矩阵R_i。将各个重要度矩阵加权后排序，我们能够得到每一个时间序列数据所对应的全局重要度评分矩阵I_i＝(…,score_i*,…)，针对序列s_i，我们将I_i中评分最高到最低的序列按比例进行划分，划分权重为(w₁,...,w_s,...,w_K)，按重要度顺序分为G_i1到G_iK共K个组。

步骤304，对至少两个分组数据进行特征表示的提取，得到目标时间序列数据对应的目标特征表示。

目标特征表示用于在下游业务场景的分析中应用。其中，下游业务场景包括时间序列数据异常检测、时间序列数据预测业务、时间序列数据聚类业务等，本实施例对此不加以限定。

示意性的，以上述划分得到的K个组为例进行说明，如图5所示，其示出了本申请一个示例性实施例提供的特征提取过程示意图。针对时间序列数据500划分得到的K个分组510，分别通过K个预先训练得到的模型进行特征提取，得到K组特征表示520，将该K组特征表示520确定为目标时间序列数据对应的目标特征表示，将该K组特征表示520应用于后续动态任务中。

在一些实施例中，设计收缩残差自编码器结构，对每个组形成的输入数据进行表征抽取。

综上所述，本实施例提供的方法，将多元时间序列数据按照其对目标时间序列数据的重要度进行分组，并对每个组内的多元时间序列数据转化为对应的特征表示，使得此特征表示能够较大程度表达时间序列数据集整体信息的基础上，实现降噪、异常处理、稳定性提升、多任务适应、可解释性等目的，并将具有这一系列优点的特征表示输入至后续下游业务场景中，提升性能、稳定性并降低计算复杂度。

本实施例提供的方法，参照目标时间序列数据对时间序列数据集进行分组排序并抽取表征向量，能够使得在后续的任务中不仅使用当前目标序列信息，还能够使用其它全局的时间序列信息，同时能够按照序列内在关联动态决定其他时间序列对抽取表征贡献的占比，并且通过分组划分将更重要的信息更多地在表征向量中表示，最终在使用完整信息的基础上，为每个序列学习到最适合其内在变化的表征，有效提升后续的各类任务与应用(如异常检测、时序预测、时序聚类)模型的表现。

在一个可选的实施例中，在对时间序列数据分组后，通过残差自编码器对时间序列数据分组进行特征表示的提取。图6是本申请另一个示例性实施例提供的特征表示的提取方法流程图，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图6所示，上述步骤304还可以实现为如下步骤。

步骤3041，将至少两个分组数据输入预先训练得到的残差自编码器，提取得到至少两个分组数据对应的分组特征向量。

可选地，将至少两个分组数据输入预先训练得到的残差自编码器，提取至少两个分组数据对应的潜向量；通过残差解码器对至少两个分组数据对应的潜向量进行解码，得到重构数据，基于重构数据对至少两个分组数据进行迭代重构，得到稳定值稳定点的潜向量，作为至少两个分组数据对应的分组特征向量。

在一些实施例中，将至少两个分组数据输入预先训练得到的收缩残差自编码器，提取得到至少两个分组数据对应的分组特征向量。

可选地，通过至少两个分组数据对候选残差自编码器进行训练，得到残差自编码器。

在一些实施例中，基于重要度数据构成重要度矩阵，将重要度矩阵输入加权噪声模型，得到噪声矩阵，通过残差自编码器和噪声矩阵对至少两个分组数据进行残差编码及解码，得到重构数据，基于重构数据与至少两个分组数据之间的数据排列差异，对候选残差自编码器进行训练，得到残差自编码器。

可选地，通过收缩损失函数基于重构数据与至少两个分组数据之间的数据排列差异确定损失值，收缩损失函数用于将偏移潜在数据均值的点向所述数据均值收缩，基于损失值对候选残差自编码器的模型参数进行迭代调整，得到残差自编码器。

示意性的，以单组数据输入收缩残差自编码器进行特征表示的提取为例进行说明，请参考图7，其示出了本申请一个示例性实施例提供的收缩残差自编码器的结构示意图，如图7所示。自编码器在训练阶段从输入到输出分别由加权噪声矩阵710、加权自注意力单元720、残差编码器单元730、残差解码器单元740、和收缩损失函数750构成。

其中，收缩损失函数750能够提升特征维度上重要度评分高的部分在损失函数中的占比，而加权噪声矩阵710在重要性评分更高以及时间更靠后的部分加入了更多的不确定性，两者的作用相结合，使得特征抽取自编码器模型更信任时间点靠前部分的数据特征，对时间点靠后部分的数据特征不完全取信，直接转换至表征向量中，而是对这一部分与其他时间步数据进行交互，判断数据点的可信程度，并对离群部分的数据进行收缩，向其整体数据判定的潜在均值位置收敛。同时，提升重要度评分高部分的损失占比使得模型能够在抽取的表征向量更多表达重要度较强的部分数据以降低重构损失，并根据噪声强度将其压缩至可信范围内，从而保持了更重要部分数据的在抽取向量中的表达性。

输入的分组数据经加权自注意力单元720、残差编码器单元730处理生成潜向量760，作为当前输入所抽取的表征。残差解码器单元740将潜向量760重构为输入形式的矩阵，经由收缩损失函数750进行迭代训练，更新模型参数。由于自编码器模型具有上文所述的收缩性质，因此每次重构流程都能够使时间序列数据集中偏离潜在均值的点向均值收缩，因此将重构输出作为输入再次使用模型重构，迭代到一定程度时，数据将会收敛至其潜在均值的稳定点处，此时抽取对应的表征向量即为原始数据的稳定点表征向量，迭代至稳定点过程中获取的各向量收敛程度不同，其性质也不同，分别适应不同的实际任务。如：提取的表征向量保持原始特征与降噪属性，适合时间序列预测任务，稳定点处的表征向量向数据稳定均值收敛，适应异常检测与聚类识别等分离属性的任务。

相关技术中，在进行表征抽取时目标为找到对原数据最有代表性的表征，减少重构信息损失。而本申请实施例中，在考虑实际任务的情况下，需要在表征抽取部分就对此目标进行优化设计。

如针对时间序列预测任务，当输出每一个时间步预测值，并将其作为下一步预测的输入时，每一步预测的误差都会不断累计，造成预测结果受模型内部扰动影响较大，模型鲁棒性无法保证的问题。对于这种情况，本申请实施例中，在表征抽取模型训练的输入端与输出端分别设计加权噪声矩阵与收缩损失函数来控制模型对输入数据某部分的“信任”程度，从而使模型在抽取表征时对靠后时间步输入的离群值进行收缩，使其更加靠近输入数据结构与模型交互所判定的潜在均值，即判定输入中的噪声点进行降噪，使得在使用抽取到的表征进行时序预测等任务时能够减少累计误差扰动所带来的影响。由于这种误差很大程度上来源于训练时的特征更新与随机初始化，因此使用此种方法训练的表征抽取模型能够有效提升鲁棒性，模型可信度高。

令表征抽取模型形式为自编码器结构，输入数据为

其中每个s为L_t长度时间窗口的时间序列输入向量，令其中的s₁为表征抽取目标序列，其他序列为该任务的协变量。输出重构数据为

其中每个recons为每个输入s对应的自编码器输出重构序列。定义收缩损失函数

其中score_i为输入中s_i时间序列数据对应目标时间序列数据的重要度，同时令目标时间序列数据自身的重要度权重score_target＝max(I_target)，nw_s为目标时间序列数据当前输入的组数据所包含的时间序列个数。

对每一个输入模型的X_input，我们生成对应的加权噪声矩阵Noise_input，其中对应X_input的每一个序列维度为加权后采样的高斯噪声，即ε_i＝(...,N_it,...)，其中

N_*i～Normal(0,c·score_i·f(t))

t为当前时间窗口数据中的时间步，f(t)变换被设计为更靠后的时间步值更大，如对时间标识向量(1,...,L_t)做归一化变换，获取权值与重要度评分相乘作为噪声的扰动幅度。c为幅度修正因子，其依照原数据的预处理方法，将标准差值修正至原数据整体的分布数量级上。通过对不同重要性序列以及不同时间步分配不同的噪声等级，对重要度评分更高、时间上更靠后的数据施加了扰动幅度更大的噪声。

针对上述加权自注意力单元和残差编解码单元进行结构说明。

加权自注意力单元：

本申请实施例中所应用的加权自注意力单元如图8所示，加权自注意力单元800基于点积自注意力结构810，将输入数据内每一个特征的对应序列都进行一次遮罩操作，由此获取特征数量nw_s个自注意力输入矩阵，将遮罩操作后的输入矩阵X作为Key与Query，将原始输入矩阵作为Value，进行点积自注意力操作，通过softmax函数820后，将每个自注意力输出与其遮罩对应特征的重要度score_i相乘，并将所有的注意力输出相加获取局部注意力与全局重要度交互后的注意力输出，经由全连接网络与跳层连接加和后输出为自注意力处理后的自编码器输入。加权自注意力单元800能够将全局重要性特征与局部特征进行交互，获取数据重建任务在各输入特征维度上的注意力信息。

残差编解码单元：

本申请实施例中的编码与解码部分由残差编码器单元与解码器单元堆叠而成，编码器结构与解码器结构相近。以残差编码单元为例进行说明，残差编码单元根据不同的输入数据格式，可以选择全连接、卷积、注意力等模式。示意性的，如图9所示，残差编码器单元900有两阶段的编码部分，每一部分中包含一个编码、标准化层、Relu激活函数、以及一个维度降低/提升的编码层，每部分分别输出无跳层、第一部分跳层、第二部分跳层以及全部跳层的处理数据进行合成，作为单元的输出，输入至模型的下一部分。两部分跳层组合所构成的残差编码器单元能够较好的保持原输入与各层参数的交互信息，数据能够进行跳层的选择通路，降低模型训练难度，使得模型能够堆叠较多的编码器/解码器结构，保证模型对表征抽取与重构任务的拟合能力。由于任务目标为使用抽取的表征向量进行下一阶段的动态任务，因此不在编码器与解码器之间设置跳层连接，信息在进入潜向量时没有其他损失，维持表征向量的表示效果。

步骤3042，基于至少两个分组对应的分组特征向量，确定目标时间序列数据对应的目标特征表示。

在一些实施例中，将至少两个分组对应的分组特征向量进行融合，得到目标时间序列数据对应的目标特征表示。

可选地，将至少两个分组对应的分组特征向量进行拼接，得到目标时间序列对应的目标特征表示。

其中，目标特征表示用于在下游业务场景的分析中应用，也即，目标特征表示用于应用于后续时间序列数据异常检测、时间序列数据预测业务、时间序列数据聚类业务等业务场景中。

本实施例提供的方法，特征抽取自编码器模型更信任时间点靠前部分的数据特征，对时间点靠后部分的数据特征不完全取信，直接转换至表征向量中，而是对这一部分与其他时间步数据进行交互，判断数据点的可信程度，并对离群部分的数据进行收缩，向其整体数据判定的潜在均值位置收敛。同时，提升重要度评分高部分的损失占比使得模型能够在抽取的表征向量更多表达重要度较强的部分数据以降低重构损失，并根据噪声强度将其压缩至可信范围内，从而保持了更重要部分数据的在抽取向量中的表达性。

在一个可选的实施例中，自编码器结构的表征抽取模型的任务目标是在识别噪声、异常点的情况下尽可能精准地重构原始数据。若仅使用生成的不存在偏移的噪声时间序列数据训练自编码器，使用均方误差损失函数作为目标，则得到的将是能够拟合每个时间序列均值作为重构序列的模型。而如果输入的时间序列数据存在偏移，如训练集数值聚集在[0，0.5]之间，而真实数据集存在(0.5，+∞]的数据点，那么模型在数据缺失的情况下很可能无法有效定位新输入的数值所在的均值位置，产生了训练数据集较小情况下的过拟合。在数据集大与小、采样方式随机程度的区分下，需要在完全噪声重构模型与过拟合的重构模型之间寻找平衡。由此，本申请实施例中通过双层表征抽取结构进行表征提取。

值得注意的是，上述实施例中以收缩损失函数基于均方误差损失函数加权修改得到为例进行说明，在一些实施例中，也可以根据实际任务背景，选择适合时间序列形状相似度判定的动态时间规整损失函数以及适合方向判定的交叉熵等损失函数等进行重要度加权。加权噪声也可依照实际数据分布调整其噪声等级、噪声分布函数等，根据任务进行适应处理。

图10是本申请另一个示例性实施例提供的特征表示的提取方法的流程图，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图10所示，上述图3所示出的步骤304还可以实现为如下步骤。

步骤1001，获取时间序列数据集中，针对目标时间序列数据划分得到的至少两个分组数据中随机时间窗口的数据，作为第一输入数据。

在一些实施例中，首先获取基于目标时间序列数据划分得到的至少两个分组数据；针对至少两个分组数据中的目标分组数据，对该目标分组数据按照随机时间窗口进行截取，得到第一输入数据。可选地，针对至少两个分组数据分别进行随机时间窗口的截取，并获取至少两个分组数据分别对应的第一输入数据进行输入。

其中，随机时间窗口的步长是预先设定的，或者，随机时间窗口的步长是随机得到的。

步骤1002，将第一输入数据输入上层表征抽取模型，输出得到第一特征表示。

将上述第一输入数据输入至上层表征抽取模型，其中，上层表征抽取模型所采用的结构如上述图6所示出的收缩残差自编码器的结构，而输入数据实现为上述第一输入数据。

将第一输入数据输入至上层表征抽取模型，通过上层表征抽取模型对至少两个分组数据分别对应的第一输入数据进行特征提取，得到第一特征表示。

可选地，以K个分组数据为例进行说明，则通过K个上层表征抽取模型对K个分组数据对应的第一输入数据分别进行特征提取，得到第一特征表示，其中第i个上层表征抽取模型对第i个分组数据对应的第一输入数据进行特征提取，K为正整数，i为小于等于K的正整数。

步骤1003，将时间序列数据分别对应的分组数据作为第二输入数据。

获取时间序列数据集中针对各个时间序列数据划分得到的分组数据，将各分组数据作为第二输入数据。示意性的，时间序列数据集中包括n个时间序列数据，n为正整数，则获取针对n个时间序列数据分别划分得到的n组分组数据，将n个分组数据作为第二输入数据。其中，针对每个时间序列数据划分得到至少两个分组数据。

步骤1004，将第二输入数据输入下层表征抽取模型，输出得到第二特征表示。

将上述第二输入数据输入至下层表征抽取模型，其中，下层表征抽取模型所采用的结构如上述图6所示出的收缩残差自编码器的结构，而输入数据实现为上述第二输入数据。

将第二输入数据输入至下层表征抽取模型，通过下层表征抽取模型对时间序列数据分别对应的分组数据作为第二输入数据进行特征提取，得到第二特征表示。

可选地，以n个时间序列数据为例进行说明，则获取n个时间序列数据分别对应的分组数据，即获取n组分组数据，通过n个下层表征抽取模型对n组分组数据对应的第二输入数据分别进行特征提取，得到第二特征表示，其中第m个下层表征抽取模型对第m个时间序列数据对应的分组数据的第二输入数据进行特征提取，n为正整数，m为小于等于n的正整数。

步骤1005，基于第一特征表示和第二特征表示，确定目标时间序列数据对应的目标特征表示。

在一些实施例中，融合第一特征表示和第二特征表示，得到目标时间序列对应的目标特征表示。

双层模型结构同为上述图6所示出的实施例中提供的收缩残差自编码结构，其区分处为输入数据。

本实施例中，要求上层表征抽取模型能够识别当前目标序列所抽取的特征组之外的均值、趋势特征信息，因此上层表征抽取模型每次训练的输入为从全体数据集S中，随机抽取s_i序列获取其对应划分组中随机时间窗口的数据作为输入数据。对于每个划分G_k，共享其相对应的上层表征抽取模型，因此所需上层表征抽取模型共有K个。下层表征抽取模型的输入为每个目标序列所对应的分组G_ik，当划分无重叠且为全集时，需训练的下层表征抽取模型共n个，因此需要训练的下层表征抽取模型共n×K个。

在一些实施例中，将上层表征抽取模型的训练视为预训练任务，其在全体数据集上拟合整体数据重构的趋势，可使用的数据量较多，泛化能力较强。将下层表征抽取模型的训练视为微调，即继承对应划分的上层表征抽取模型预训练的参数，在上层表征抽取模型学习到的均值与趋势拟合基础上，学习到数据集子集中特有的时间序列形状趋势信息，最大化重构拟合程度。两者分别提取更抽象与更细节的信息作为表征，为我们后续的实际任务提供了更广泛的互补信息，防止子数据集因数据量过少导致的表征泛化能力较弱。同时，使用上层预训练模型能够减少下层表征抽取模型继承后的训练代数，在上层表征抽取模型增加训练代数e次，在下层表征抽取模型减少e代，则可以在模型效果影响较小的情况下，共减少了(n-1)Ke次的训练代数，当时间序列数量n较大时，双层模型显著减少了训练所需的算力消耗。

示意性的，请参考图11，其示出了本申请一个示例性实施例提供的双层表征抽取结构的示意图，如图11所示，针对目标时间序列数据划分得到的至少两个分组数据，将每个分组数据根据随机时间窗口进行截取，得到数据片段，输入至上层表征抽取模型1110，将各个时间序列数据划分得到的分组数据分别输入下层表征抽取模型1120，最终得到目标特征表示1130，应用于下游业务场景中。

本实施例提供的方法，通过双层表征抽取结构及其训练方法，以及收缩残差自编码器的迭代收缩性等概念，能够在传统自编码器抽取固定表征之外，提供给使用者对于表征所表达的含义与侧重点的一些可解释信息。

图12是本申请一个示例性实施例提供的整体架构示意图，如图12所示，该整体架构中包括特征分组与重要度计算模块1210、收缩残差自编码器训练阶段1220、收缩残差自编码器应用阶段1230以及双层表征抽取模型1240；

其中，特征分组与重要度计算模块1210主要包括如下过程：首先从数据源1200中获取时间序列数据集1211，时间序列数据集1211是从数据源1200中获取的随机时间序列数据构成的数据集。对时间序列数据集1211进行特征重要度计算与特征分组1212，得到重要度矩阵与分组1213。

收缩残差自编码器训练阶段1220主要包括如下过程：将时间序列数据集1211针对目标时间序列数据进行分组，得到分组特征数据1221，根据重要度矩阵与分组1213中的重要度矩阵输入加权噪声模块1222，根据分组特征数据1221和加权噪声模块1222通过加权自注意力模块1223进行自注意力处理，并通过残差编码器模块1224进行编码，得到潜向量1225，将潜向量1225通过残差解码器模块1226进行解码，并输入收缩损失函数1227得到损失值，从而基于损失值对收缩残差自编码器进行训练。

收缩残差自编码器应用阶段1230主要包括如下过程：将时间序列数据集1211针对目标时间序列数据进行分组，得到分组特征数据1231，将分组特征数据1231通过加权自注意力模块1232进行自注意力处理，并通过残差编码器模块1233进行编码，得到潜向量1234，将潜向量1234通过残差解码器模块1235进行解码，得到重构数据1236，根据重构数据1236作为重构输入进行迭代重构，从而得到稳定在稳定点的潜向量1234作为输出。

双层表征抽取模型1240采用上述收缩残差自编码器作为上层表征抽取模型1241和下层表征抽取模型1242，从而实现表征抽取/迭代重构，并将抽取的表征向量存储至表征向量抽取结果池1243，从而实现下游任务应用1244，如：时序预测、异常检验、时序聚类等，应用于医疗场景包括疾控监测、生存分析等。

图13是本申请一个示例性实施例提供的双层表征抽取模型的整体流程示意图。如图13所示，包括如下过程。

训练阶段1310：对于时间序列数据集中针对每个时间序列数据的分组划分，使用全体数据集训练上层表征抽取模型，再对每个目标序列的每个分组划分使用对应上层表征抽取模型微调训练下层表征抽取模型。

应用阶段1320：进行表征抽取任务时，目标序列每个分组的双层模型都会获取两个表征向量，将其拼接得到实际任务中使用的表征向量。

在异常检测、时序聚类等合适的任务中，获取多次重构后得到的迭代收缩表征向量作为任务中使用的表征向量，或使用不同重构次数的表征向量相连作为最终输入以获取更全面的信息，再或者将原始序列与表征向量相连接作为表征处理得到的全体信息。如图13所示，使用一系列线性预测器1330组合为集成模型来处理上一部分抽取的表征向量集合，可以根据实际情况对后续任务的模型结构进行调整。由于模型已经将时间序列形式的原始数据经过深层次变换形成了表达性强的表征向量集合，因此后续任务不需要使用复杂的模型，即具有复杂时序处理要求或复杂参数结构的模型，只需要使用对应任务的基础模型即可达到较好的效果。

本申请实施例中的双层模型中包括上层表征抽取模型和下层表征抽取模型，而上层表征抽取模型和下层表征抽取模型皆采用图6所示出实施例中提供的收缩残差自编码器结构，而收缩残差自编码器具有迭代收缩的性质。每次收缩残差自编码器将输入数据重构都会进行模型判定的降噪处理，对数据中的离群点进行收缩。若重复将重构数据再次输入模型，输出的重构数据将会稳定至模型所判定的噪声点所在的潜在均值上，稳定点数据再次输入模型不再产生显著变化。

示意性的，将得带过程每次输出与原始数据之间的均方误差进行示出，如图14所示，其中曲线1410为上层模型重构误差，曲线1420为下层模型重构误差。如图14可知，在100次迭代过程中，模型迭代的重构误差从初始重构开始先上升，后收敛于一个稳定值。若输入数据所包含的时序特征所服从的分布的确定性越强，噪声越少，这个收敛过程将会越快，并且重构误差将不会偏离最优值过多。当输入数据包含的离群值越多时，重构误差将会增加，并且减慢收敛速度。

由于残差收缩自编码器的迭代收缩性，故可以使用单次的表征抽取作为后续的任务输入，也可以根据实际任务情况，选择多次迭代的稳定点表征作为任务的输入或补充输入。

如：在异常检测任务中，由于异常点数据迭代收敛后的重构将会偏离原始输入较多，可以根据稳定点误差判定当前输入数据远离历史数据的程度，从而在异常检测任务中最大程度地利用可获取信息，提升检测精度；在时间序列聚类任务中，潜在分布空间中较为接近的数据点在单次表征抽取中可能并不能展现出类别划分的特征，但经过一定次数的迭代收缩，这些数据点将会根据历史数据空间向其潜在均值收敛。

示意性的，如图15所示，使用较短的时间序列数据训练双层收缩残差自编码器模型，将抽取到的表征输入一系列线性回归器进行训练，曲线图表中横轴为时间t，t＝30以后的数据为回归模型的预测值，图中上半部分1510为初始双层表征训练模型的预测结果，下半部分1520为迭代20次后的表征。通过这种预测形式的表征可视化，能够看出迭代收缩后的表征向量所包含信息与初次抽取有较大不同，其包含的更多的是输入数据收敛至整体数据集的均值位置信息。如预测部分的波峰与波谷处，模型预测值与训练数据中的波峰与波谷数据相同，说明模型判定这一部分的变化趋势与之前的波峰与波谷相近，将其收缩为相似的重构矩阵。而模型未能在历史数据中寻找到相近趋势，将其收敛至结构相似的重构矩阵。通过这种可视化方式我们能够看出，收缩残差自编码器的迭代收缩性使其在提取输入数据深层表征、判定数据相似性的应用上具有较大的潜能，如应用于时序聚类任务中。

在一些实施例中，上述曲线图能够通过时序可视化设定在训练或者应用过程中进行可视化展示。如图16所示，在可视化界面1600中显示有各个阶段的曲线，如：上层表征抽取模型训练过程的曲线、下层表征抽取模型训练过程的曲线、稳定点判定曲线、预测任务测试曲线等。

在一些实施例中，由于本申请实施例提供的双层残差自编码器结构能够适用于多种时间序列数据的分析中，在模型训练或者应用之前，用户能够针对双层残差自编码器进行个性化配置。

也即，显示模型配置界面，模型配置界面中包括数据选取控件，接收在数据选取控件上的第一触发操作，显示候选数据集，从候选数据集中对时间序列数据集进行选择。

可选地，模型配置界面中还包括结构设定控件，接收在结构设定控件上的第二触发操作，基于第二触发操作显示模型结构设定区域，模型结构设定区域用于对特征提取过程中所应用的模型结构进行设定，接收在模型结构设定区域中的设定操作，得到用于急性特征提取的模型结构。

示意性的，如图17所示，在配置界面1700中包括数据管线配置区域1710、表征抽取模型设定区域1720以及任务模型设定区域1730。

其中，数据管线配置区域1710中主要包括数据查询1711、数据选取1712、数据标识1713和时序可视化1714等功能。数据查询1711是指在公开数据源或者已存储的数据源中进行数据查询。数据选取1712是指在公开数据源或者已存储的数据源中对应用或者训练阶段所采用的数据进行选取。数据标识1713是指从公开数据源或者已存储的数据源中对预测目标数据进行标识。时序可视化1714是指对训练或者应用阶段的各种曲线进行可视化展示。

表征抽取模型设定区域1720中主要包括特征分组设定1721、自编码器单元设定1722、自编码器结构设定1723以及模型超参数1724等功能。其中，特征分组设定1721是指针对时间序列数据对其他时间序列数据按照重要度数据进行分组时，分组的规则，如：分组数量、分组时采用的划分阈值等。自编码器单元设定1722是指针对上下层表征抽取模型中所包含的单元以及单元的数量进行设定。自编码器结构设定1723是指针对上下层表征抽取模型中所包含单元的排布结构进行设定。模型超参数1724是指针对上下层表征抽取模型中的模型超参数进行设置。示意性的，可以根据算力条件，对模型中的模块进行再次组合。如将加权自注意力模块与残差编解码器相并列多次堆叠、将残差编码器单元内层数继续增加、或是增加各层以及潜向量的维度数，在算力与时间允许的条件下，增大参数空间能够一定程度上提升模型的重构表现。

任务模型设定区域1730中主要包括时间序列设定1731、预测模型设定1732、聚类模型设定1733以及异常检测设定1734等选项。其中，时间序列设定1731用于对时间序列数据的时间序列范围等进行设定。用户能够在预测模型设定1732、聚类模型设定1733以及异常检测设定1734中进行选择，从而对下游业务场景进行确定，针对下游业务场景适应性的训练以及应用上述双层表征抽取模型。

本申请实施例中提供了可扩展性强，适应多种任务，可定制化的时间序列表征抽取框架。模型能够自动判定目标时间序列与其他协变量之间的关联程度，使用双层收缩残差自编码器对目标数据与协变量之间所包含的不同层次表征进行提取，并根据不同模型、是否迭代重构等方法提取出表征的不同性质应用于医疗时间序列应用中的异常检测、时序预测以及时序聚类等多种任务。使用者可根据实际场景与任务需要，通过修改损失函数、噪声分布形式、编码解码器单元结构等方法对模型框架进行修改与扩展，加入适应各类任务的网络结构与训练技巧来获取最适合该任务的表征形式，并通过尝试迭代重构在稳定点表征与初始表征之间进行取舍或组合，获取更全面的数据特征表达。

本申请实施例中所设计的模型流程配置简单，模块化程度高，能够将时间序列特征抽取为简单的表征向量，因此不需要后续使用复杂的时序模型进行处理，可以转而使用任务所对应的基础模型进行配置，大大降低了数据处理的时间耗费以及模型迁移配置的难度。

本申请实施例中所提出的双层表征抽取结构及其训练方法，以及收缩残差自编码器的迭代收缩性等概念，能够在传统自编码器抽取固定表征之外，提供给使用者对于表征所表达的含义与侧重点的一些可解释信息，使自编码器表征抽取模型不只是作为一个黑箱，而是使用者能够自由操控的，结果可理解的特征处理工具。

图18是本申请一个示例性实施例提供的特征表示的提取装置的结构框图，如图18所示，该装置包括：

获取模块1810，用于获取时间序列数据集，所述时间序列数据集中包括至少两个时间序列数据，所述时间序列数据是指以时间节点构成的时间轴为存储基础进行存储的数据；

所述获取模块1810，还用于针对所述时间序列数据集中的目标时间序列数据，获取所述时间序列数据集中的时间序列数据与所述目标时间序列数据之间的重要度数据，所述重要度数据用于表示时间序列数据与所述目标时间序列数据之间的数据时序关联程度；

分组模块1820，用于基于所述重要度数据对所述时间序列数据集中的时间序列数据进行分组，得到至少两个分组数据；

提取模块1830，用于对所述至少两个分组数据进行特征表示的提取，得到所述目标时间序列数据对应的目标特征表示，所述目标特征表示用于在下游业务场景的分析中应用。

在一个可选的实施例中，如图19所示，所述分组模块1820，包括：

排序单元1821，用于基于所述重要度数据对所述时间序列数据集中的时间序列数据进行排序，得到排序队列；

分组单元1822，用于根据排序队列对所述时间序列数据集中的时间序列数据进行分组，得到所述至少两个分组数据。

在一个可选的实施例中，所述分组单元1822，还用于以重要度数据阈值为划分界限，对所述排序队列中的时间序列数据进行分组，得到所述至少两个分组数据；或者，

所述分组单元1822，还用于以连续重要度数据的总和达到预设阈值为划分条件，对所述排序队列中的时间序列数据进行分组，得到所述至少两个分组数据。

在一个可选的实施例中，所述提取模块1830，包括：

提取单元1831，用于将所述至少两个分组数据输入预先训练得到的残差自编码器，提取得到所述至少两个分组数据对应的分组特征向量；

确定单元1832，用于基于所述至少两个分组数据对应的分组特征向量，确定所述目标时间序列数据对应的所述目标特征表示。

在一个可选的实施例中，所述提取单元1831，还用于将所述至少两个分组数据输入预先训练得到的残差自编码器，提取所述至少两个分组数据对应的潜向量；通过残差解码器对所述至少两个分组数据对应的潜向量进行解码，得到重构数据；基于所述重构数据对所述至少两个分组数据进行迭代重构，得到稳定至稳定点的潜向量，作为所述至少两个分组数据对应的分组特征向量。

在一个可选的实施例中，所述装置还包括：

训练模块1840，用于通过所述至少两个分组数据对候选残差自编码器进行训练，得到所述残差自编码器。

在一个可选的实施例中，所述训练模块1840，还用于基于所述重要度数据构成重要度矩阵；将所述重要度矩阵输入加权噪声模型，得到噪声矩阵；通过所述候选残差自编码器和所述噪声矩阵对所述至少两个分组数据进行残差编码及解码，得到重构数据；基于所述重构数据与所述至少两个分组数据之间的数据排列差异，对所述候选残差自编码器进行训练，得到所述残差自编码器。

在一个可选的实施例中，所述训练模块1840，还用于通过收缩损失函数基于所述重构数据与所述至少两个分组数据之间的数据排列差异确定损失值，所述收缩损失函数用于将偏离潜在数据均值的点向所述数据均值收缩；基于所述损失值对所述候选残差自编码器的模型参数进行迭代调整，得到所述残差自编码器。

在一个可选的实施例中，提取模块1830，还用于获取所述时间序列数据集中，针对目标时间序列数据划分得到的所述至少两个分组数据中随机时间窗口的数据，作为第一输入数据；将所述第一输入数据输入上层表征抽取模型，输出得到第一特征表示；将所述时间序列数据分别对应的分组数据作为第二输入数据；将所述第二输入数据输入下层表征抽取模型，输出得到第二特征表示；基于所述第一特征表示和所述第二特征表示，确定所述目标时间序列数据对应的所述目标特征表示。

在一个可选的实施例中，所述装置还包括：

显示模块1850，用于显示模型配置界面，所述模型配置界面中包括数据选取控件；

接收模块1860，用于接收在所述数据选取控件上的第一触发操作，显示候选数据集；

所述获取模块1810，还用于从所述候选数据集中对所述时间序列数据集进行选择。

在一个可选的实施例中，所述模型配置界面中还包括结构设定控件；

所述接收模块1860，还用于接收在所述结构设定控件上的第二触发操作；

所述显示模块1850，还用于基于所述第二触发操作显示模型结构设定区域，所述模型结构设定区域用于对特征提取过程中所应用的模型结构进行设定；

所述接收模块1860，还用于接收在所述模型结构设定区域中的设定操作，得到用于进行特征提取的模型结构。

综上所述，本实施例提供的装置，将多元时间序列数据按照其对目标时间序列数据的重要度进行分组，并对每个组内的多元时间序列数据转化为对应的特征表示，使得此特征表示能够较大程度表达时间序列数据集整体信息的基础上，实现降噪、异常处理、稳定性提升、多任务适应、可解释性等目的，并将具有这一系列优点的特征表示输入至后续下游业务场景中，提升性能、稳定性并降低计算复杂度。

需要说明的是：上述实施例提供的特征表示的提取装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的特征表示的提取装置与特征表示的提取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图20示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以是如图2所示的服务器。

具体来讲：服务器2000包括中央处理单元(Central Processing Unit，CPU)2001、包括随机存取存储器(Random Access Memory，RAM)2002和只读存储器(Read OnlyMemory，ROM)2003的系统存储器2004，以及连接系统存储器2004和中央处理单元2001的系统总线2005。服务器2000还包括用于存储操作系统2013、应用程序2014和其他程序模块2015的大容量存储设备2006。

大容量存储设备2006通过连接到系统总线2005的大容量存储控制器(未示出)连接到中央处理单元2001。大容量存储设备2006及其相关联的计算机可读介质为服务器2000提供非易失性存储。也就是说，大容量存储设备2006可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器2004和大容量存储设备2006可以统称为存储器。

根据本申请的各种实施例，服务器2000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器2000可以通过连接在系统总线2005上的网络接口单元2011连接到网络2012，或者说，也可以使用网络接口单元2011来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备可以实现为如图2所示的终端或者服务器。该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的特征表示的提取方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的特征表示的提取方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的特征表示的提取方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种特征表示的提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述重要度数据对所述时间序列数据集中的时间序列数据进行分组，得到至少两个分组数据，包括：

基于所述重要度数据对所述时间序列数据集中的时间序列数据进行排序，得到排序队列；

根据排序队列对所述时间序列数据集中的时间序列数据进行分组，得到所述至少两个分组数据。

3.根据权利要求2所述的方法，其特征在于，所述根据排序队列对所述时间序列数据集中的时间序列数据进行分组，得到所述至少两个分组数据，包括：

以重要度数据阈值为划分界限，对所述排序队列中的时间序列数据进行分组，得到所述至少两个分组数据；或者，

以连续重要度数据的总和达到预设阈值为划分条件，对所述排序队列中的时间序列数据进行分组，得到所述至少两个分组数据。

4.根据权利要求1至3任一所述的方法，其特征在于，所述对所述至少两个分组数据进行特征表示的提取，得到所述目标时间序列数据对应的目标特征表示，包括：

将所述至少两个分组数据输入预先训练得到的残差自编码器，提取得到所述至少两个分组数据对应的分组特征向量；

基于所述至少两个分组数据对应的分组特征向量，确定所述目标时间序列数据对应的所述目标特征表示。

5.根据权利要求4所述的方法，其特征在于，所述将所述至少两个分组数据输入预先训练得到的残差自编码器，提取得到所述至少两个分组数据对应的分组特征向量，包括：

将所述至少两个分组数据输入预先训练得到的残差自编码器，提取所述至少两个分组数据对应的潜向量；

通过残差解码器对所述至少两个分组数据对应的潜向量进行解码，得到重构数据；

基于所述重构数据对所述至少两个分组数据进行迭代重构，得到稳定至稳定点的潜向量，作为所述至少两个分组数据对应的分组特征向量。

6.根据权利要求4所述的方法，其特征在于，所述将所述至少两个分组数据输入预先训练得到的残差自编码器之前，还包括：

通过所述至少两个分组数据对候选残差自编码器进行训练，得到所述残差自编码器。

7.根据权利要求6所述的方法，其特征在于，所述通过所述至少两个分组数据对候选残差自编码器进行训练，得到所述残差自编码器，包括：

基于所述重要度数据构成重要度矩阵；

将所述重要度矩阵输入加权噪声模型，得到噪声矩阵；

通过所述候选残差自编码器和所述噪声矩阵对所述至少两个分组数据进行残差编码及解码，得到重构数据；

基于所述重构数据与所述至少两个分组数据之间的数据排列差异，对所述候选残差自编码器进行训练，得到所述残差自编码器。

8.根据权利要求7所述的方法，其特征在于，所述基于所述重构数据与所述至少两个分组数据之间的数据排列差异，对所述候选残差自编码器进行训练，得到所述残差自编码器，包括：

通过收缩损失函数基于所述重构数据与所述至少两个分组数据之间的数据排列差异确定损失值，所述收缩损失函数用于将偏离潜在数据均值的点向所述数据均值收缩；

基于所述损失值对所述候选残差自编码器的模型参数进行迭代调整，得到所述残差自编码器。

9.根据权利要求1至3任一所述的方法，其特征在于，所述对所述至少两个分组数据进行特征表示的提取，得到所述目标时间序列数据对应的目标特征表示，包括：

获取所述时间序列数据集中，针对目标时间序列数据划分得到的所述至少两个分组数据中随机时间窗口的数据，作为第一输入数据；

将所述第一输入数据输入上层表征抽取模型，输出得到第一特征表示；

将所述时间序列数据分别对应的分组数据作为第二输入数据；

将所述第二输入数据输入下层表征抽取模型，输出得到第二特征表示；

基于所述第一特征表示和所述第二特征表示，确定所述目标时间序列数据对应的所述目标特征表示。

10.根据权利要求1至3任一所述的方法，其特征在于，所述获取时间序列数据集，包括：

显示模型配置界面，所述模型配置界面中包括数据选取控件；

接收在所述数据选取控件上的第一触发操作，显示候选数据集；

从所述候选数据集中对所述时间序列数据集进行选择。

11.根据权利要求10所述的方法，其特征在于，所述模型配置界面中还包括结构设定控件；

所述方法还包括：

接收在所述结构设定控件上的第二触发操作；

基于所述第二触发操作显示模型结构设定区域，所述模型结构设定区域用于对特征提取过程中所应用的模型结构进行设定；

接收在所述模型结构设定区域中的设定操作，得到用于进行特征提取的模型结构。

12.一种特征表示的提取装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的特征表示的提取方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至13任一所述的特征表示的提取方法。

15.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1至13任一所述的特征表示的提取方法。