CN113886614A

CN113886614A - 数据处理方法、装置、计算机设备及介质

Info

Publication number: CN113886614A
Application number: CN202111244924.2A
Authority: CN
Inventors: 曹阳; 谢齐辉; 陈萱; 姜浩源
Original assignee: Shanghai Sensetime Technology Development Co Ltd
Current assignee: Shanghai Sensetime Technology Development Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-04

Abstract

本说明书提供一种数据处理方法、装置、计算机设备及介质，所述方法包括：从多个特征计算图中获取与数据预测请求对应的目标特征计算图，其中，各特征计算图为基于结构化数据的多个特征参数之间的关联关系预先生成，以指示结构化数据的维度特征，数据预测请求用于请求对目标结构化数据进行预测处理；基于目标特征计算图和目标结构化数据，利用预先训练好的数据处理神经网络，确定数据预测请求对应的数据处理结果。通过先基于目标结构化数据所涉及的特征参数确定预测方向，再基于特征参数对应的具体数据进行预测分析，可以有效降低进行实际数据预测分析所需的计算量，并相应提高数据处理过程的效率。

Description

数据处理方法、装置、计算机设备及介质

技术领域

本说明书涉及机器学习技术领域，尤其涉及一种数据处理方法、装置、计算机设备及介质。

背景技术

深度学习作为一种通过模拟人脑的深层次抽象认知过程，以实现计算机对数据的复杂运算和优化的技术，在多种类型的行业中都得到了广泛的应用。一个完整的深度学习框架包括两个主要部分，一个是训练，另一个是推理。而无论是训练部分还是推理部分，均包括特征工程和模型计算这两个主要过程。

其中，特征工程作为能够最大限度地从数据中提取特征以供模型使用的工程活动，是深度学习框架的重要组成部分。相关技术中，主要是由相关技术人员编写代码，以通过代码采用数据管道(Pipeline)插件，来将特征工程中的多个复杂问题分解成一个个的处理过程，从而逐个对各个处理过程进行处理。

但训练过程和推理过程所要处理的数据量差别较大，从而使得训练过程中涉及到的特征工程代码，和推理过程中涉及到的特征工程代码区别较大，因而在推理过程，需要重新编写代码，从而使得推理过程的数据处理效率较低。

发明内容

为克服相关技术中存在的问题，本说明书提供了一种数据处理方法、装置、计算机设备及介质。

根据本说明书实施例的第一方面，提供一种数据处理方法，该方法包括：

从多个特征计算图中获取与数据预测请求对应的目标特征计算图，其中，各特征计算图为基于结构化数据所涉及的多个特征参数之间的关联关系预先生成，以指示结构化数据的维度特征，数据预测请求用于请求对目标结构化数据进行预测处理；

基于目标特征计算图和目标结构化数据，利用预先训练好的数据处理神经网络，确定数据预测请求对应的数据处理结果。

结合本公开提供的任一实施方式，基于结构化数据所涉及的多个特征参数之间的关联关系预先生成特征计算图，包括：

将结构化数据所涉及的多个特征参数，分别作为特征计算图的多个节点；

对于多个节点中的任意两个节点，在两个节点对应的两个特征参数具有关联关系的情况下，在特征计算图中创建用于连接两个节点的边，以指示边所连接的两个节点对应的两个特征参数之间的关联关系。

结合本公开提供的任一实施方式，从多个特征计算图中获取与数据预测请求对应的目标特征计算图，包括：

确定目标结构化数据所涉及的至少一个目标特征参数；

基于至少一个目标特征参数，从多个特征计算图中，确定包括至少一个目标特征参数的对应节点的目标特征计算图。

结合本公开提供的任一实施方式，目标结构化数据包括多个目标特征参数各自对应的数据；基于目标特征计算图和目标结构化数据，利用预先训练好的数据处理神经网络，确定数据预测请求对应的数据处理结果，包括：

将目标结构化数据输入预先训练好的数据处理神经网络，通过预先训练好的数据处理神经网络，基于目标特征计算图所指示的目标结构化数据的维度特征，对目标结构化数据中各目标特征参数各自对应的数据进行处理，得到数据预测请求对应的数据处理结果。

结合本公开提供的任一实施方式，数据处理神经网络的训练过程包括：

获取样本数据，其中，样本数据为涉及多个样本特征参数的结构化数据，并标注有样本数据对应的样本处理结果；

将样本数据输入初始神经网络，通过初始神经网络，基于目标特征计算图所指示的样本数据的维度特征，对样本数据中各样本特征参数各自对应的数据进行处理，得到样本数据对应的预测结果；

基于能够表征预测结果和样本处理结果之间的差异的损失函数，对初始神经网络进行训练，直至满足预设的训练完成条件，得到数据处理神经网络。

结合本公开提供的任一实施方式，不同的关联关系对应于不同的算法，关联关系对应的算法被封装为计算工具，不同的关联关系对应于不同的计算工具；

将样本数据输入初始神经网络，通过初始神经网络，基于目标特征计算图所指示的样本数据的维度特征，对样本数据中各样本特征参数各自对应的数据进行处理，得到样本数据对应的预测结果，包括：

基于样本数据所涉及的多个样本特征参数之间的关联关系，确定目标特征计算图中所涉及到的计算工具；

将样本数据输入初始神经网络，通过初始神经网络，采用目标特征计算图中所涉及到的计算工具，对样本数据中各样本特征参数各自对应的数据进行处理，得到样本数据对应的预测结果。

结合本公开提供的任一实施方式，数据处理结果包括以下至少一项：

基于产品销售数据进行分析所得到的处理结果；

基于用户行为数据进行分析所得到的处理结果；

对车辆轨迹进行分析所得到的处理结果。

根据本说明书实施例的第二方面，提供一种数据处理装置，该装置包括：

获取单元，用于从多个特征计算图中获取与数据预测请求对应的目标特征计算图，其中，各特征计算图为基于结构化数据所涉及的多个特征参数之间的关联关系预先生成，以指示结构化数据的维度特征，数据预测请求用于请求对目标结构化数据进行预测处理；

结果确定单元，用于基于目标特征计算图和目标结构化数据，利用预先训练好的数据处理神经网络，确定数据预测请求对应的数据处理结果。

结合本公开提供的任一实施方式，该装置还包括：

生成单元，用于基于结构化数据所涉及的多个特征参数之间的关联关系预先生成特征计算图；

该生成单元，在用于基于结构化数据所涉及的多个特征参数之间的关联关系预先生成特征计算图时，具体用于：

将结构化数据所涉及的多个特征参数，分别作为特征计算图的多个节点；对于多个节点中的任意两个节点，在两个节点对应的两个特征参数具有关联关系的情况下，在特征计算图中创建用于连接两个节点的边，以指示边所连接的两个节点对应的两个特征参数之间的关联关系。

结合本公开提供的任一实施方式，该获取单元，在用于从多个特征计算图中获取与数据预测请求对应的目标特征计算图时，具体用于：

确定目标结构化数据所涉及的至少一个目标特征参数；

结合本公开提供的任一实施方式，目标结构化数据包括多个目标特征参数各自对应的数据；

结果确定单元，在用于基于目标特征计算图和目标结构化数据，利用预先训练好的数据处理神经网络，确定数据预测请求对应的数据处理结果时，具体用于：

将目标结构化数据输入预先训练好的数据处理神经网络，通过预先训练好的数据处理神经网络，基于特征计算图所指示的目标结构化数据的维度特征，对目标结构化数据中各目标特征参数各自对应的数据进行处理，得到数据预测请求对应的数据处理结果。

结合本公开提供的任一实施方式，在训练数据处理神经网络时，该获取单元，还用于获取样本数据，其中，样本数据为涉及多个样本特征参数的结构化数据，并标注有所述样本数据对应的样本处理结果；

该装置还包括：

处理单元，用于将样本数据输入初始神经网络，通过初始神经网络，基于目标特征计算图所指示的样本数据的维度特征，对样本数据中各样本特征参数各自对应的数据进行处理，得到样本数据对应的预测结果；

训练单元，用于基于能够表征预测结果和样本处理结果之间的差异的损失函数，对初始神经网络进行训练，直至满足预设的训练完成条件，得到数据处理神经网络。

该处理单元，在用于将样本数据输入初始神经网络，通过初始神经网络，基于目标特征计算图所指示的样本数据的维度特征，对样本数据中各样本特征参数各自对应的数据进行处理，得到样本数据对应的预测结果时，具体用于：

基于产品销售数据进行分析所得到的处理结果；

基于用户行为数据进行分析所得到的处理结果；

对车辆轨迹进行分析所得到的处理结果。

根据本说明书实施例的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述数据处理方法所执行的操作。

根据本说明书实施例的第四方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有程序，程序被处理器执行上述数据处理方法所执行的操作。

根据本说明书实施例的第五方面，提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述数据处理方法所执行的操作。

本说明书的实施例提供的技术方案可以包括以下有益效果：

在本说明书实施例中，从多个特征计算图中获取与数据预测请求对应的目标特征计算图，其中，各特征计算图为基于结构化数据的多个特征参数之间的关联关系预先生成，以指示结构化数据的维度特征，数据预测请求用于请求对目标结构化数据进行预测处理；基于目标特征计算图和目标结构化数据，利用预先训练好的数据处理神经网络，确定数据预测请求对应的数据处理结果。通过先基于目标结构化数据所涉及的特征参数确定预测方向，再基于特征参数对应的具体数据进行预测分析，可以有效降低进行实际数据预测分析所需的计算量，并相应提高数据处理过程的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书根据一示例性实施例示出的一种数据处理方法的流程图。

图2是本说明书根据一示例性实施例示出的一种特征计算图的示意图。

图3是本说明书根据一示例性实施例示出的一种数据处理神经网络训练过程以及推理过程的流程图。

图4是本说明书根据一示例性实施例示出的一种数据处理装置的框图。

图5是本说明书根据一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如本公开中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本公开提供了一种数据处理方法，用于处理结构化数据。其中，结构化数据为由二维表结构来逻辑表达和实现的数据，包括产品销售数据、用户行为数据、车辆轨迹，等等。也即是，本公开所提供的数据处理方法，可以应用在需要通过结构化数据建模的多种产品中，例如，面向企业(To Business，To B)场景中的产品销售数据，面向客户(To Customer，ToC)场景中用户的行为预测，车辆轨迹还原(如城市级别的车辆轨迹还原)，等等。

上述仅为对本公开应用场景的示例性说明，并不构成对本公开应用场景的限定，在更多可能的实现方式中，本公开可以应用在多种其他涉及到结构化数据的数据处理过程中。

上述数据处理方法可以由计算机设备执行，计算机设备可以是服务器，例如一台服务器、多台服务器、服务器集群、云计算平台等等，可选地，计算机设备还可以是终端设备，例如手机、平板电脑、游戏机、便携式计算机、台式机、广告机、一体机等等，本公开对计算机设备的具体类型不加以限定。

上述为关于本公开的应用场景的相关介绍，接下来结合本说明书实施例，对本公开所提供的数据处理方法进行详细说明。

如图1所示，图1是本说明书根据一示例性实施例示出的一种数据处理方法的流程图，该方法包括以下步骤：

步骤101、从多个特征计算图中获取与数据预测请求对应的目标特征计算图，其中，各特征计算图为基于结构化数据所涉及的多个特征参数之间的关联关系预先生成，以指示结构化数据的维度特征，数据预测请求用于请求对目标结构化数据进行预测处理。

其中，该数据预测请求可以基于用户在计算机设备上的数据预测操作触发，还可以由计算机设备在获取到要进行预测处理的目标结构化数据(以下还可简称为待预测数据)时自行生成，本公开对此不加以限定。该数据预测请求用于基于请求对待预测的目标结构化数据进行预测处理，以获得对应的数据处理结果。

其中，该数据预测请求可携带待预测的目标结构化数据，或者，该数据预测请求可携带待预测的目标结构化数据的数据标识，以便计算机设备可以基于数据标识，获取到待预测的目标结构化数据。并且，待预测的目标结构化数据涉及多个特征参数并包括各个特征参数对应的数据。具言之，结构化数据可以理解为按特征参数组织的数据，例如键(Key)-值(Value)型数据。在结构化数据中，特征参数的个数(也即Key的个数)可理解为该结构化数据整体所涉及的数据维度的数量(所谓数据维度可包括例如身份、性别、行为偏好等)，而每个特征参数对应的数据(也即Key对应的Value)可理解为在该特征参数所表征的数据维度上的取值(例如，学生-女性-音乐剧，或者职员-男性-户外运动等)。并且，特征参数的取值范围是有限制的，或者说，同一特征参数的不同取值之间共享特定的属性。此外，在本文中，出于表述简便的考虑，特征参数对应的数据还可称为特征参数值。

以待预测的目标结构化数据为用户行为数据为例，用户行为数据涉及的特征参数包括用户标识信息、用户属性信息(如性别、年龄等)、用户行为偏好信息(如偏好的上网时间、浏览新闻时偏好的新闻类型等)，等等。相应地，用户行为数据可具体包括用户标识对应的数据(以下也可简称为用户标识，例如手机号或身份证号)、用户属性信息对应的数据(如男性、38岁等)、用户行为偏好信息对应的数据，(如15点到18点、体育新闻等)等等。

通过如上按特征参数结构化地组织数据来获得结构化数据，使得以下成为可能：首先，基于该结构化数据所涉及的特征参数，可初步预测该结构化数据的维度特征(Dimensional Characteristic，例如与用户消费行为相关、涉及用户驾驶习惯等)；其次，基于该结构化数据所包括的特征参数值，可相对准确地确定该结构化数据的个体特征(Individual Characteristic，例如用户喜欢点外卖、用户习惯避开高峰期出行等)。

基于以上独创性的发现，本公开创新性地提出，在接收到来自用户的数据预测请求时，可先基于该数据预测请求对应的结构化数据所涉及的特征参数初步确定预测方向，再基于该数据预测请求对应的结构化数据所包括的特征参数值，在所述预测方向上进行数据预测分析。通过先基于所涉及的特征参数确定预测方向、再基于具体的特征参数值进行预测分析，可以有效降低进行实际数据预测分析所需的计算量，并相应提高预测分析的效率以及预测结果的准确度。

例如，通过获取与作为待预测数据的用户行为数据对应的数据预测请求，可以基于接收到的数据预测请求，预测该用户行为数据对应的数据处理结果(如用户的点击操作结果，也即是，用户可能会对哪条推荐内容进行点击)。

其中，关联关系至少包括映射关系和运算关系，在更多可能的实现方式中，关联关系还包括其他关系类型，本公开对此不加以限定。以关联关系包括映射关系和运算关系为例，下面分别对关联关系所包括的这两种关系类型进行介绍：

映射关系可以表征是否能够基于一个或多个特征参数对应的数据映射出另一个特征参数对应的数据。例如，基于第一特征参数的值，可以确定出第二特征参数的值。

可选地，映射关系可以为一对一映射，也可以为多对一映射，也即是，基于不同的特征参数对应的数据，所确定出的另一个特征参数对应的数据可能相同。此外，基于同一特征参数对应的不同数据所确定出的另一个特征参数的数据可以相同，也可以不同。仍以待预测数据为用户行为数据为例，每个用户标识对应于一个用户属性信息，也即是，用户标识与用户属性信息之间为一对一映射，而不同的用户属性信息对应的用户行为偏好信息可能相同，也可能不同，也即是，用户属性信息与用户行为偏好信息之间为多对一映射。

运算关系可以指示两个及两个以上特征参数之间的关联关系。换言之，所述关联关系可表征如何基于两个或两个以上的特征参数各自对应的数据进行运算处理，以确定出另一个特征参数对应的数据。例如，如何基于第一特征参数的值、第二特征参数的值，确定第三特征参数的值。其中，运算关系可以包括四则运算、卷积运算、积分运算、统计运算、离散运算等，相应地，运算处理可以为四则运算处理、卷积运算处理、积分运算处理、统计运算处理、离散运算处理等等，本公开对此不加以限定。

步骤102、基于目标特征计算图和目标结构化数据，利用预先训练好的数据处理神经网络，确定数据预测请求对应的数据处理结果。

其中，数据处理结果包括基于产品销售数据进行分析所得到的处理结果、基于用户行为数据进行分析所得到的处理结果，和/或，对车辆轨迹进行分析所得到的处理结果。

该预先训练好的数据处理神经网络可以为多种类型的神经网络，例如，该预先训练好的数据处理神经网络可以为卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep Neural Networks，DNN)，可选地，预先训练好的数据处理神经网络还可以为其他类型的神经网络，本公开对数据处理神经网络的具体类型不加以限定。

在一种可能的实现方式中，将目标结构化数据输入预先训练好的数据处理神经网络，通过预先训练好的数据处理神经网络，基于目标特征计算图所指示的目标结构化数据的维度特征，对目标结构化数据中各目标特征参数各自对应的数据进行处理(包括基于映射关系进行映射处理，以及基于运算关系进行运算处理)，以得到数据预测请求对应的数据处理结果。

以该预先训练好的数据处理神经网络为CNN，运算处理为卷积运算处理为例，相应地，确定数据处理结果的过程包括：将目标结构化数据输入作为数据处理神经网络的CNN，通过CNN的各个卷积层，基于目标特征计算图所指示的结构化数据的维度特征，对目标结构化数据中各目标特征参数各自对应的数据进行卷积处理，从而得到数据预测请求对应的数据处理结果。需要说明的是，该过程仅为一种确定数据处理结果的示例性说明，并不构成对本公开的限定。

本公开通过先基于目标结构化数据所涉及的特征参数确定预测方向，再基于特征参数对应的具体数据进行预测分析，可以有效降低进行实际数据预测分析所需的计算量，并相应提高数据处理过程的效率。而且，通过基于特征参数之间的关联关系生成特征计算图，而训练过程和推理过程中用到的特征参数不会发生改变，从而使得所生成的特征计算图在训练过程和推理过程中均可以使用，从而实现了训练和推理过程的一体化，从而能够实现自动化部署推理服务，无需如相关技术中一样，在训练过程和推理过程中需要编写不同的代码，来实现特征工程，节省了开发时间，而且还可以减少代码错误的风险。

在介绍了本公开的基本实现过程之后，下面具体介绍本公开的各种非限制性实施方式。

其中，特征计算图中包括多个节点，各个节点之间设置有边。在一些实施例中，基于结构化数据所涉及的多个特征参数之间的关联关系预先生成特征计算图，包括以下步骤：

步骤一、将结构化数据所涉及的多个特征参数，分别作为特征计算图的多个节点。

仍以待预测的目标结构化数据为用户行为数据为例，用户行为数据所涉及的多个特征参数包括用户年龄、用户性别(如男性、女性)以及用户行为偏好信息(如偏好浏览娱乐新闻、偏好听爵士风格的音乐等)，则将用户年龄、用户性别以及用户行为偏好信息，作为特征计算图的多个节点。

步骤二、对于多个节点中的任意两个节点，在两个节点对应的两个特征参数具有关联关系的情况下，在特征计算图中创建用于连接两个节点的边，以指示边所连接的两个节点对应的两个特征参数之间的关联关系。

基于上述步骤一中所确定出的特征计算图的多个节点，其中，用户性别、用户年龄和用户行为偏好信息之间为运算关系，基于用户性别和用户年龄即能预测出用户行为偏好信息，而用户行为偏好信息和用户操作数据(实际浏览了哪种类型的新闻、实际听了哪种类型的音乐)之间是映射关系，基于用户的行为偏好信息即能预测出用户操作数据，基于上述关系在各个节点之间构建边，即可得到如图2所示的特征计算图，参见图2，图2是本说明书根据一示例性实施例示出的一种特征计算图的示意图。

上述过程中所涉及的待预测的目标结构化数据、目标结构化数据所涉及的特征参数以及特征参数之间的关联关系等等，均为一种示例性的说明，并不构成对本公开的限定，在更多可能的实现方式中，待预测的目标结构化数据、目标结构化数据所涉及的特征参数以及特征参数之间的关联关系等为其他类型，本公开对此不加以限定。

在一些实施例中，可以基于不同的结构化数据的特征参数，以及同一个结构化数据的不同特征参数，构建特征计算图，并对所构建的特征计算图进行存储，以便后续在对结构化数据进行处理时，可以直接从已存储的特征计算图中获取要使用的目标特征计算图。

在一种可能的实现方式中，在接收到数据预测请求后，从已存储的多个特征计算图中，获取数据预测请求对应的目标特征计算图。

例如，计算机设备可以关联有一个数据库，用于存储不同特征参数对应的特征计算图，从而在计算机设备接收到数据预测请求的情况下，能够直接从计算机设备所关联的数据库中，获取到数据预测请求对应的目标特征计算图。

其中，从多个特征计算图中获取与数据预测请求对应的目标特征计算图，包括以下步骤：

步骤一、确定目标结构化数据所涉及的至少一个目标特征参数。

在一种可能的实现方式中，数据预测请求对应的待预测的目标结构化数据中，仅包括与数据预测请求的预测目标对应的数据，计算机设备可以基于数据预测请求所对应的目标结构化数据，确定数据预测请求对应的至少一个目标特征参数。

其中，数据预测请求的预测目标用于指示通过对待预测的目标结构化数据进行处理所要得到的结果。仍以待预测的目标结构化数据为用户行为数据为例，若数据预测请求的预测目标为用户会对哪种类型的新闻进行浏览，也即是，数据预测请求的预测目标是获取到用户操作数据，则与数据预测请求对应的数据包括用户性别对应的数据、用户年龄对应的数据以及用户行为偏好信息对应的数据。基于此，即可确定数据预测请求对应的至少一个目标特征参数为用户性别、用户年龄和用户行为偏好信息。

可选地，计算机设备还可以直接基于数据预测请求对应的预测目标，确定数据预测请求对应的至少一个目标特征参数。

在一种可能的实现方式中，计算机设备中预先存储有各个数据预测请求的类型，与目标特征参数之间的对应关系，以便在接收到数据预测请求后，能够直接基于已存储的对应关系，以及接收到的数据预测请求的类型，确定该数据预测请求对应的至少一个目标特征参数。

上述仅为确定数据预测请求对应的至少一个目标特征参数的示例性方式，在更多可能的实现方式中，还可以采用其他方式，来确定数据预测请求对应的至少一个目标特征参数，本公开对此不加以限定。

步骤二、基于至少一个目标特征参数，从多个特征计算图中，确定包括至少一个目标特征参数的对应节点的目标特征计算图。

在一种可能的实现方式中，计算机设备基于已确定出的至少一个目标特征参数，从计算机设备所关联的数据库中，确定出包括这至少一个目标特征参数的对应节点的目标特征计算图。

上述过程通过预先对多个特征计算图进行存储，以便在需要进行数据预测时，能够直接获取已存储的特征计算图，无需重新进行特征计算图的生成，从而能够提高数据预测速度和数据预测效率。

在一些实施例中，数据处理神经网络的训练过程包括：

步骤一、获取样本数据，其中，样本数据为涉及多个样本特征参数的结构化数据，并标注有样本数据对应的样本处理结果。

以样本数据为样本用户行为数据为例，该样本数据所涉及的样本特征参数可以包括样本用户行为偏好信息(也即是，样本偏好的新闻类型)，样本数据对应的样本处理结果可以为样本用户的历史操作数据(用户实际点击的新闻)。

步骤二、将样本数据输入初始神经网络，通过初始神经网络，基于目标特征计算图所指示的样本数据的维度特征，对样本数据中各样本特征参数各自对应的数据进行处理，得到样本数据对应的预测结果。

其中，初始神经网络可以为CNN、RNN、DNN等，本公开对具体采用哪种类型的神经网络不加以限定。

仍以样本数据为样本用户行为数据，样本数据对应的样本特征参数包括样本用户行为偏好信息和样本用户的历史操作数据为例，计算机设备将样本用户行为数据所包括的样本用户行为偏好信息对应的数据，输入初始神经网络，通过初始神经网络，基于目标特征计算图中样本用户行为偏好信息与样本用户的操作数据之间的映射关系，对样本用户行为偏好信息对应的数据进行处理，从而得到样本用户的操作数据，作为样本数据对应的预测结果。

步骤三、基于能够表征预测结果和样本处理结果之间的差异的损失函数，对初始神经网络进行训练，直至满足预设的训练完成条件，得到数据处理神经网络。

基于上述步骤一和步骤二中的示例继续进行说明，该预测结果即为样本用户的操作数据，该样本处理结果即为样本用户的历史操作数据。

在一种可能的实现方式中，基于预测结果和样本处理结果之间的差异，确定初始神经网络的损失函数，进而基于确定出的损失函数，对初始神经网络的网络参数进行更新，直至满足预设的训练完成条件，得到数据处理神经网络。

其中，初始神经网络的损失函数可以采用任意类型的函数，本公开对此不加以限定。该网络参数包括权重参数，可选地，该网络参数还可以包括其他类型的参数，本公开对此不加以限定。

需要说明的是，步骤二和步骤三中更新网络的过程为迭代处理过程，也即是，计算机设备将第一个样本数据输入初始神经网络，通过初始神经网络，输出第一个样本数据对应的预测结果，基于第一个样本数据的预测结果和第一个样本数据的样本处理结果之间的差异，确定初始神经网络的损失函数，进而基于确定出的损失函数，更新初始神经网络的网络参数，得到经过第一次参数更新的数据处理神经网络；计算机设备将第二个样本数据输入经过第一次参数更新的数据处理神经网络，通过经过第一次参数更新的数据处理神经网络，输出第二个样本数据对应的预测结果，基于第二个样本数据的预测结果和第二个样本数据的样本处理结果之间的差异，确定经过第一次参数更新的数据处理神经网络的损失函数，进而基于确定出的损失函数，更新经过第一次参数更新的数据处理神经网络的网络参数，得到经过第二次参数更新的数据处理神经网络，进而通过第三个样本数据继续对经过第二次参数更新的数据处理神经网络继续进行网络参数的更新，得到经过第三次参数更新的数据处理神经网络，以此类推，直至满足预设的训练完成条件，将满足训练完成条件的数据处理神经网络，作为训练好的数据处理神经网络。

其中，训练完成条件为损失函数满足设定条件，或者，迭代次数达到设定次数，等等，本公开对此不加以限定。

需要说明的是，数据处理神经网络中包括用于进行特征工程的特征计算引擎，上述在对数据处理神经网络进行训练的过程，包括对特征计算引擎的训练过程。

在一些实施例中，不同的关联关系对应于不同的算法，关联关系对应的算法被封装为计算工具，不同的关联关系对应于不同的计算工具。

在一种可能的实现方式中，在将关联关系对应的算法封装为计算工具后，对封装得到的计算工具进行存储，以便后续能够直接获取到已存储的计算工具，从而通过计算工具，对多个特征参数对应的数据进行处理。

相应地，将样本数据输入初始神经网络，通过初始神经网络，基于目标特征计算图所指示的样本数据的维度特征，对样本数据中各样本特征参数各自对应的数据进行处理，得到样本数据对应的预测结果，包括以下步骤：

步骤一、基于样本数据所涉及的多个样本特征参数之间所指示的关联关系，确定目标特征计算图中所涉及到的计算工具。

在一种可能的实现方式中，计算机设备根据样本数据所涉及的多个样本特征参数之间的关联关系，从已存储的计算工具中，获取与关联关系对应的计算工具，作为目标特征计算图中所涉及到的计算工具。

步骤二、将样本数据输入初始神经网络，通过初始神经网络，采用目标特征计算图中所涉及到的计算工具，对样本数据中各样本特征参数各自对应的数据进行处理，得到样本数据对应的预测结果。

上述各个实施例的过程可以参见图3，图3是本说明书根据一示例性实施例示出的一种数据处理神经网络训练过程以及推理过程的流程图，在基于结构化数据构建特征计算图后，基于特征计算图进行特征计算引擎的训练，进而实现数据处理神经网络的训练，从而实现数据处理神经网络的参数调优，得到数据处理性能较好的数据处理神经网络，进而将特征计算图和训练好的数据处理神经网络推送给计算机设备，以便计算机设备在接收到数据预测请求的情况下，基于特征计算图，通过训练好的数据处理神经网络以及特征计算推理引擎，来对数据预测请求进行处理，实现基于数据预测请求的推理。

上述图3所示的过程仅为对本公开的流程性说明，具体实现过程可以参见上述各个实施例，此处不再赘述。

在一些实施例中，上述各个过程可以通过Photon平台实现。

Photon是基于结构化、图及图谱大数据的机器学习平台，它抽象了大数据机器学习的数据、特征、训练、部署等公有模块，并提供了编排及管理工具，为大数据学习提供了从开发到生产环境部署的全生命周期支持。其中，Photon平台的主要特点包括：

(1)多框架支持：支持深度学习、机器学习、分布式机器学习框架，包括深度学习训练框架(如TensorFlow，PyTorch等)、分布式及单机版机器学习库(如Spark MLlib、Scikit-learn、XGBoost、LightGBM等)；在各框架下，为数据、特征、训练、部署等环节，定义了统一接口及工件。

(2)面向生产环境：提供机器学习管道(Pipeline)编排、元数据(Metadata)管理、训练调度、推理部署及监控工具，实现包含数据变换的训练、推理一体化。

(3)开发与生产统一：支持本地开发及容器化应用(Kubernetes，k8s)集群环境部署，通过桌面启动器(Laucher)申请不同环境中的资源。

(4)可扩展：基于k8s，支持分布式计算及训练。

通过Photon平台，可以实现代码库的模块化、标准化，为机器学习提供生产环境训练、推理部署的支持，提高研发效率及代码的质量，最小化研发到部署的工作。

对于Photon平台来说，推理引擎是Photon平台提供的在线模型预测服务，推理引擎可以提供开源远程过程调用(Google Remote Procedure Call，gRPC)及符合架构(Representational State Transfer，REST)的API接口(Application ProgrammingInterface，应用程序接口)，供外部应用调用进行样本的预测。

使用Photon平台可以创建训练的Pipeline，在创建训练的Pipeline时，用户可指定每个模块(Board)是否加入服务(Serving)，默认加入数据变换(Transformer)类及模型(Estimator)类模块。各个模块在训练Pipeline中相连，且为单链，模型类模块最多只能有一个，且位于推理模块的末尾。

训练Pipeline末尾的Pusher(推送器)将涉及到的安装包、库以及源代码打包，发送到指定存储路径(本地文件系统或者全球存储区域网络S3)。推理机服务(InferenceEngine Server)端启动后，从指定存储路径拉取Serving包文件，解压并创建服务管道实例(Serving_Pipeline Instance)，等待请求，并启动子进程以一定间隔检查是否有新的Serving包推送，并在检测到新的Serving包推送时，拉取新推送的Serving包。

上述仅为一种示例性的实现方式的说明，在更多可能的实现方式中，本公开还可以通过其他平台或代码实现，本公开对此不加以限定。

与前述方法的实施例相对应，本说明书还提供了装置及其所应用的计算机设备的实施例。

如图4所示，图4是本说明书根据一示例性实施例示出的一种数据处理装置的框图，该装置包括：

获取单元401，用于从多个特征计算图中获取与数据预测请求对应的目标特征计算图，其中，各特征计算图为基于结构化数据所涉及的多个特征参数之间的关联关系预先生成，以指示结构化数据的维度特征，数据预测请求用于请求对目标结构化数据进行预测处理；

结果确定单元402，用于基于目标特征计算图和目标结构化数据，利用预先训练好的数据处理神经网络，确定数据预测请求对应的数据处理结果。

在一种可能的实现方式中，该装置还包括：

在一种可能的实现方式中，获取单元401，在用于从多个特征计算图中获取与数据预测请求对应的目标特征计算图时，具体用于：

确定目标结构化数据所涉及的至少一个目标特征参数；

在一种可能的实现方式中，目标结构化数据包括多个特征参数各自对应的数据；

结果确定单元402，在用于基于目标特征计算图和目标结构化数据，利用预先训练好的数据处理神经网络，确定数据预测请求对应的数据处理结果时，具体用于：

在一种可能的实现方式中，在训练数据处理神经网络时，该获取单元401，还用于获取样本数据，其中，样本数据为涉及多个样本特征参数的结构化数据，并标注有所述样本数据对应的样本处理结果；

该装置还包括：

在一种可能的实现方式中，不同的关联关系对应于不同的算法，关联关系对应的算法被封装为计算工具，不同的关联关系对应于不同的计算工具；

处理单元，在用于将样本数据输入初始神经网络，通过初始神经网络，基于目标特征计算图所指示的样本数据的维度特征，对样本数据中各样本特征参数各自对应的数据进行处理，得到样本数据对应的预测结果时，具体用于：

在一种可能的实现方式中，数据处理结果包括以下至少一项：

基于产品销售数据进行分析所得到的处理结果；

基于用户行为数据进行分析所得到的处理结果；

对车辆轨迹进行分析所得到的处理结果。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本公开还提供了一种计算机设备，参见图5，图5是本说明书根据一示例性实施例示出的一种计算机设备的结构示意图。如图5所示，计算机设备包括处理器510、存储器520和网络接口530，存储器520用于存储可在处理器510上运行的计算机指令，处理器510用于在执行所述计算机指令时实现本公开任一实施例所提供的数据处理方法，网络接口530用于实现输入输出功能。在更多可能的实现方式中，计算机设备还可以包括其他硬件，本公开对此不做限定。

本公开还提供了一种计算机可读存储介质，计算机可读存储介质可以是多种形式，比如，在不同的例子中，计算机可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。特殊的，计算机可读介质还可以是纸张或者其他合适的能够打印程序的介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现本公开任一实施例所提供的数据处理方法。

本公开还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现本公开任一实施例所提供的数据处理方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、装置、终端、计算机可读存储介质或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于终端所对应的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在本公开的范围内。在一些情况下，在本公开中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在本公开的范围以内。在某些情况下，本公开中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。也即是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

以上所述仅为本说明书的可选实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

从多个特征计算图中获取与数据预测请求对应的目标特征计算图，其中，各所述特征计算图为基于结构化数据所涉及的多个特征参数之间的关联关系预先生成，以指示所述结构化数据的维度特征，所述数据预测请求用于请求对目标结构化数据进行预测处理；

基于所述目标特征计算图和所述目标结构化数据，利用预先训练好的数据处理神经网络，确定所述数据预测请求对应的数据处理结果。

2.根据权利要求1所述的方法，其特征在于，基于结构化数据所涉及的多个特征参数之间的关联关系预先生成所述特征计算图，包括：

将所述结构化数据所涉及的多个特征参数，分别作为所述特征计算图的多个节点；

对于所述多个节点中的任意两个节点，在所述两个节点对应的两个特征参数具有关联关系的情况下，在所述特征计算图中创建用于连接所述两个节点的边，以指示所述边所连接的两个节点对应的特征参数之间的关联关系。

3.根据权利要求1所述的方法，其特征在于，所述从多个特征计算图中获取与数据预测请求对应的目标特征计算图，包括：

确定所述目标结构化数据所涉及的至少一个目标特征参数；

基于所述至少一个目标特征参数，从所述多个特征计算图中，确定包括所述至少一个目标特征参数的对应节点的目标特征计算图。

4.根据权利要求1所述的方法，其特征在于，所述目标结构化数据包括多个目标特征参数各自对应的数据；

所述基于所述目标特征计算图和所述目标结构化数据，利用预先训练好的数据处理神经网络，确定所述数据预测请求对应的数据处理结果，包括：

将所述目标结构化数据输入所述预先训练好的数据处理神经网络，通过所述预先训练好的数据处理神经网络，基于所述特征计算图所指示的所述目标结构化数据的维度特征，对所述目标结构化数据中各所述目标特征参数各自对应的数据进行处理，得到所述数据预测请求对应的数据处理结果。

5.根据权利要求1所述的方法，其特征在于，所述数据处理神经网络的训练过程包括：

获取样本数据，其中，所述样本数据为涉及多个样本特征参数的结构化数据，并标注有所述样本数据对应的样本处理结果；

将所述样本数据输入初始神经网络，通过所述初始神经网络，按照所述目标特征计算图所指示的所述样本数据的维度特征，对所述样本数据中各所述样本特征参数各自对应的数据进行处理，得到所述样本数据对应的预测结果；

基于能够表征所述预测结果和所述样本处理结果之间的差异的损失函数，对所述初始神经网络进行训练，直至满足预设的训练完成条件，得到所述数据处理神经网络。

6.根据权利要求5所述的方法，其特征在于，不同的关联关系对应于不同的算法，所述关联关系对应的算法被封装为计算工具，不同的关联关系对应于不同的计算工具；

所述将所述样本数据输入初始神经网络，通过所述初始神经网络，基于所述目标特征计算图所指示的所述样本数据的维度特征，对所述样本数据中各所述样本特征参数各自对应的数据进行处理，得到所述样本数据对应的预测结果，包括：

基于所述样本数据所涉及的多个样本特征参数之间的关联关系，确定所述目标特征计算图中所涉及到的计算工具；

将所述样本数据输入所述初始神经网络，通过所述初始神经网络，采用所述目标特征计算图中所涉及到的计算工具，对所述样本数据中各所述样本特征参数各自对应的数据进行处理，得到所述样本数据对应的预测结果。

7.根据权利要求1所述的方法，其特征在于，所述数据处理结果包括以下至少一项：

基于产品销售数据进行分析所得到的处理结果；

基于用户的行为数据进行分析所得到的处理结果；

对车辆轨迹进行分析所得到的处理结果。

8.一种数据处理装置，其特征在于，所述装置包括：

获取单元，用于从多个特征计算图中获取与数据预测请求对应的目标特征计算图，其中，各所述特征计算图为基于结构化数据所涉及的多个特征参数之间的关联关系预先生成，以指示所述结构化数据的维度特征，所述数据预测请求用于请求对目标结构化数据进行预测处理；

结果确定单元，用于基于所述目标特征计算图和所述目标结构化数据，利用预先训练好的数据处理神经网络，确定所述数据预测请求对应的数据处理结果。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的数据处理方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有程序，所述程序被处理器执行如权利要求1至7中任一项所述的数据处理方法所执行的操作。