CN111768246A

CN111768246A - 一种数据处理方法、模型建立方法、装置及电子设备

Info

Publication number: CN111768246A
Application number: CN202010623706.9A
Authority: CN
Inventors: 周鹏程; 崔燕达; 张发恩
Original assignee: Alnnovation Beijing Technology Co ltd
Current assignee: Alnnovation Beijing Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-13
Anticipated expiration: 2040-06-30

Abstract

本申请涉及一种数据处理方法、模型建立方法、装置及电子设备，属于计算机技术领域。该方法包括在需要预测参与促销定价的N个产品使收益最大化的最优参数组合时，获取影响收益最大化的决策因子，决策因子包括：目标置信度和决策变量，决策变量包括：N个产品各自的输入参数以及各自的参数变量；针对每一个产品，利用事先训练得到的预测模型，获得该产品在不同参数下的目标置信度的置信区间，其中，根据该产品的输入参数以及对应的参数变量得到该产品的不同参数；根据该产品在不同参数下的目标置信度的置信区间，确定该产品的最优参数，从而得到使收益最大化的N个产品的最优参数组合。通过该方法使得求解出的最优解更准确。

Description

一种数据处理方法、模型建立方法、装置及电子设备

技术领域

本申请属于计算机技术领域，具体涉及一种数据处理方法、模型建立方法、装置及电子设备。

背景技术

促销活动是市场营销的基本策略之一，好的促销活动可以带来巨大的收益。随着人工智能的发展，越来越多的人工智能技术被应用到各领域的促销定价优化中。在现有的促销优化方案中，预测成交总额(Gross Merchandise Volume，GMV)+优化求解是一种常见且有效的技术方案。该框架的原理为：利用机器学习模型预测某一库存量单位(StockKeeping Unit，SKU)在某一时间周期内的GMV，然后设定决策变量为广告、价格等促销方式，在某一SKU上的投入，利用优化算法，基于GMV预测模型，求解出针对每一SKU能使GMV最大化的最佳促销投放方式。

现有的GMV预测或销量预测大多都是预测期望，对预测值高于真实值，和预测值低于真实值均给予同样的惩罚，即偏向预测平均值。但在实际场景中，往往更希望看到GMV预测值低于真实值(更希望实际产生的GMV高于提前的GMV预测值，而不是小于)，即模型构建时应给予预测值高于真实值更多的惩罚，而不是给予同样的惩罚。

发明内容

鉴于此，本申请的目的在于提供一种数据处理方法、模型建立方法、装置及电子设备，以改善现有预测对预测值高于真实值以及预测值低于真实值均给予同样的惩罚，即偏向预测平均值，使得求解出的最优解不准确的问题。

本申请的实施例是这样实现的：

第一方面，本申请实施例提供了一种数据处理方法，包括：在需要预测参与促销定价的N个产品使收益最大化的最优参数组合时，获取影响收益最大化的决策因子，所述决策因子包括：目标置信度和决策变量，其中，所述决策变量包括：所述N个产品各自的输入参数以及各自的参数变量，N为大于1的整数；针对每一个产品，利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间，其中，根据该产品的输入参数以及对应的参数变量得到该产品的不同参数；根据该产品在不同参数下的所述目标置信度的置信区间，确定该产品的最优参数，从而得到使收益最大化的所述N个产品的最优参数组合。本申请实施例中，通过获取影响收益最大化的决策因子，然后针对每一个产品，根据利用事先训练得到的预测模型，获得该产品在不同参数下的目标置信度的置信区间，进而确定该产品的最优参数，从而得到使收益最大化的所述N个产品的最优参数组合，在求解最优解时，会综合考虑置信度，置信区间以及GMV期望这三个维度，而不再是对预测值高于真实值以及预测值低于真实值均给予同样的惩罚，使得最终确定的最优解更准确。

结合第一方面实施例的一种可能的实施方式，若N的值小于第一预设阈值，利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间，包括：利用事先构建的表征GMV期望与输入特征之间的线性关系的线性模型，预测该产品在不同参数下的GMV期望；根据预设置信区间公式、所述GMV期望，获得该产品在不同参数下的所述目标置信度的置信区间。本申请实施例中，当N的值小于第一预设阈值，也即数据量小时，采用线性模型来预测该产品在不同参数下的GMV期望，进而获得该产品在不同参数下的所述目标置信度的置信区间，以避免过度拟合，导致结果不准确。

结合第一方面实施例的一种可能的实施方式，所述决策因子还包括：所述N个产品各自的历史GMV，若N的值不小于第一预设阈值，且所述N个产品的历史GMV分布符合正态分布或类似正态分布；利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间，包括：利用事先训练得到的销量预测模型，预测该产品在不同参数下的销量结果；根据预测的不同参数下的销量结果，得到对应的GMV期望；根据预设正态分布置信区间公式、所述GMV期望，获得该产品在不同参数下的所述目标置信度的置信区间。本申请实施例中，当决策因子还包括N个产品各自的历史GMV，若N的值不小于第一预设阈值，且N个产品的历史GMV分布符合正态分布或类似正态分布时，则利用事先训练得到的销量预测模型，预测该产品在不同参数下的销量结果，进而便可快速准确的获得不同参数下的GMV期望，从而得到不同参数下的目标置信度的置信区间。

结合第一方面实施例的一种可能的实施方式，所述决策因子还包括：所述N个产品各自的历史GMV，若N的值不小于第一预设阈值，且所述N个产品的历史GMV分布不符合正态分布或类似正态分布；利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间，包括：从预设分位点模型库中选取出与所述目标置信度对应的第一分位点预测模型和第二分位点预测模型；分别利用所述第一分位点预测模型和所述第二分位点预测模型，预测该产品在不同参数下的GMV期望；针对该产品的每一参数，根据该参数下的所述第一分位点预测模型预测的GMV期望、所述第二分位点预测模型预测的GMV期望，得到该参数下的所述目标置信度的置信区间，从而得到该产品在不同参数下的所述目标置信度的置信区间。本申请实施例中，当决策因子还包括N个产品各自的历史GMV，若N的值不小于第一预设阈值，且N个产品的历史GMV分布不符合正态分布或类似正态分布时，则获取该目标置信度对应的2个分位点预测模型，然后利用这2个分位点预测模型分别预测该产品在不同参数下的GMV期望，从而得到该产品在不同参数下的目标置信度的置信区间，通过利用分位点来平衡高估和低估的不同惩罚系数，这样在实际当中就不会出现GMV很高而ROI较低的情况，使得求解出的最优参数更准确。

结合第一方面实施例的一种可能的实施方式，在利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间之前，所述方法还包括：获取样本数据，所述样本数据包括M个产品各自与销量相关的原始数据，所述原始数据包括历史GMV，其中，M为正整数，且M大于N；若样本数M小于第二预设阈值，则利用所述样本数据，构建表征GMV期望与输入特征之间的线性关系的线性模型；若所述样本数M不小于所述第二预设阈值，判断所述M个产品的历史GMV分布是否符合正态分布或类似正态分布；在为是时，则利用所述样本数据构建销量预测模型；在为否时，则利用所述样本数据、不同的损失函数，构建不同分位点下的GMV预测模型。本申请实施例中，针对不同的数据规模(N的数值大小)以及不同的GMV分布假设(N个产品的历史GMV分布情况)，提出不同的GMV分布预测方法，进而在计算各个产品在不同参数下的目标置信度的置信区间时所选用的预测模型不同，进行有针对性的区别，以保证最终获得的各个产品的最优参数尽可能的准确。

第二方面，本申请实施例还提供了一种模型建立方法，包括：获取样本数据，所述样本数据包括M个产品各自与销量相关的原始数据，所述原始数据包括历史GMV，其中，M为正整数；判断样本数M是否小于预设阈值；在为是时，利用所述样本数据，构建表征GMV期望与输入特征之间的线性关系的线性模型。

结合第二方面实施例的一种可能的实施方式，在判断样本数M是否小于预设阈值之后，所述方法还包括：在所述样本数M不小于所述预设阈值时，若所述M个产品的历史GMV分布符合正态分布或类似正态分布，则利用所述样本数据构建销量预测模型；或者，在所述样本数M不小于所述预设阈值时，若所述M个产品的历史GMV分布不符合正态分布或类似正态分布，则利用所述样本数据、不同的损失函数，构建不同分位点下的GMV预测模型。

第三方面，本申请实施例还提供了一种数据处理装置，包括：获取模块、预测模块以及确定模块；获取模块，用于在需要预测参与促销定价的N个产品使收益最大化的最优参数组合时，获取影响收益最大化的决策因子，所述决策因子包括：目标置信度和决策变量，其中，所述决策变量包括：所述N个产品各自的输入参数以及各自的参数变量，N为大于1的整数；预测模块，用于针对每一个产品，利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间，其中，根据该产品的输入参数以及对应的参数变量得到该产品的不同参数；确定模块，用于根据该产品在不同参数下的所述目标置信度的置信区间，确定该产品的最优参数，从而得到使收益最大化的所述N个产品的最优参数组合。

第四方面，本申请实施例还提供了一种电子设备，包括：存储器和处理器，所述处理器与所述存储器连接；所述存储器，用于存储程序；所述处理器，用于调用存储于所述存储器中的程序，以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法，或者，执行上述第二方面实施例和/或结合第二方面实施例的一种可能的实施方式提供的方法。

第五方面，本申请实施例还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法，或者，执行上述第二方面实施例和/或结合第二方面实施例的一种可能的实施方式提供的方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了本申请实施例提供的一种模型建立方法的流程示意图。

图2示出了本申请实施例提供的一种数据处理方法的流程示意图。

图3示出了本申请实施例提供的一种模型建立装置的模块框图。

图4示出了本申请实施例提供的一种数据处理装置的模块框图。

图5示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再者，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

促销优化归根结底是一种资源分配问题，涉及到资源分配的问题时，通常存在一个非常不对称的问题：资源过度分配(高估预测)的成本和资源分配不足(低估预测)的成本差别很大。具体来说，高估预测通常造成投入过大，而收益小于预期，从而导致投资回报率(Return On Investment，ROI)降低，相反地，低估预测则会得到收益大于预期，不会导致ROI降低，因此实际场景中，往往更希望看到GMV预测值低于真实值的情况，也即更希望实际产生的GMV高于预测的GMV预测值，而鉴于现有的GMV预测或销量预测大多预测的都是期望，对预测值高于真实值和预测值低于真实值均给予同样的惩罚，即偏向预测平均值，这样使得求解出的促销优化不一定是最优的。因此，本申请实施例在预测GMV时引入分位点预测。利用分位点来平衡高估和低估的不同惩罚系数。这样在实际当中就不会出现GMV很高而ROI较低的情况。

本申请实施例基于现有技术框架，针对促销优化的场景，提出预测GMV分布，而不是预测常见的GMV期望，并且针对不同的数据规模以及不同的分布假设，提出不同的GMV分布预测方法，下面将结合图1，对本申请实施例提供的模型建立方法进行说明。

步骤S101：获取样本数据，所述样本数据包括M个产品各自与销量相关的原始数据。

在建立模型时，获取建立模型所需的样本数据，该样本数据包括M(M为正整数)个产品各自与销量相关的原始数据，其中，该原始数据包括历史GMV以及其他与销量相关的数据，例如，价格、广告投入、预设时间段(如一周、15天等)内的平均销量。每个产品与销量相关的原始数据可以包含多维特征，但是对于不同产品来说要保证彼此之间的维度相同，即产品1的原始数据的维度与产品2的原始数据的维度相同，例如，产品1的原始数据包括历史GMV、价格、广告投入、预设时间段内的平均销量，则对应其他产品也应包含产品1所对应的数据维度，即历史GMV、价格、广告投入、预设时间段内的平均销量。若产品1的原始数据包括历史GMV、价格、预设时间段内的平均销量，则对应其他产品也应包含产品1所对应的数据维度，即历史GMV、价格、预设时间段内的平均销量。

步骤S102：判断样本数M是否小于预设阈值。

在获取到样本数据后，判断样本数M是否小于预设阈值，也即判断数据量是大还是小，针对不同的数据规模，采用不同的模型。例如，当样本数M小于预设阈值时(也即数据量小时)，执行步骤S103，当样本数M不小于预设阈值时(也即数据量大时)，执行步骤S104。其中，该预设阈值为事先设定的阈值，不同的适用场景中对应的阈值不同，例如，该阈值可以是30、40、50等数值。

步骤S103：利用所述样本数据，构建表征GMV期望与输入特征之间的线性关系的线性模型。

当数据量小时，利用样本数据，构建表征GMV期望与输入特征之间的线性关系的线性模型，以避免过拟合。以一元线性模型为例(模型输入只包含一维特征)，进而可以推广到多元线性模型。该一元线性模型方程为：

其中，

为通过样本计算得到的模型参数，

为第i个样本的输入特征x对应的历史GMV(期望值)，其中，输入特征x为与销量相关的参数，例如价格、广告投入等，需要说明的是，该输入特征x可以仅包括价格，也可以是既包含价格又包含广告投入。

在基于样本数据得到线性模型的模型表达式后，也即得到的模型参数后，基于样本总方差计算公式计算样本总方差。样本总方差计算公式为：

其中，y_i为样本x_i对应的真实值(历史GMV)，M-2为样本总数M减去2个回归参数

的估计量的自由度(

的估计量的自由度各为1)的值，此时

为样本输入特征x_i对应的GMV预测值。因为预测的

是期望，所以

将其代入上述总方差公式，得到总方差为：

这样便可求得样本的总方差。

在得到表征GMV期望与输入特征之间的线性关系的线性模型以及总方差s² _yx后，后续在预测参与促销定价的N(N为大于1的整数，且小于M)个产品使收益最大化的最优参数组合时，当数据量小时，针对每一个产品，根据预设置信区间公式以及对应的参数，即可获得该产品在不同参数(可以是价格，也可以是价格+广告投入)下的目标置信度的置信区间，进而便可根据该产品在不同参数下的所述目标置信度的置信区间，确定该产品的最优参数。其中，预设置信区间公式为：

其中，

其中，α＝1-目标置信度，v＝n-1，

为根据α和v查t分布表得到的t分布系数，

为利用线性模型对具体自变量x₀预测得到的因变量y₀(GMV)的期望值，

为期望值方差，s_yx为总方差(为一定值)，n为该产品的不同参数的个数，

为该产品的各个参数的期望值，x_i为该产品的第i个参数，取值依次为1到n。为了便于理解，以产品1来说，假设产品1包括5个参数，分别为参数A、参数B、参数C、参数D和参数E，则在求解参数A对应的置信区间时，则x₀即为参数A，x为这个5个参数的期望值，i依次取值1-5，则

这样便可求得参数A对应的置信区间，按照同样的计算方式，可以得到产品1在不同参数下的目标置信度的置信区间。

步骤S104：判断所述M个产品的历史GMV分布是否符合正态分布或类似正态分布。

当数据量大时，进一步判断M个产品的历史GMV分布是否符合正态分布或类似正态分布，若M个产品的历史GMV分布符合正态分布或类似正态分布，则执行步骤S105，若M个产品的历史GMV分布不符合正态分布或类似正态分布，则执行步骤S106。

步骤S105：利用所述样本数据构建销量预测模型。

若M个产品的历史GMV分布符合正态分布或类似正态分布，则利用样本数据构建销量预测模型，该销量预测模型可以使用树模型，或深度学习模型。

在得到销量预测模型后，后续在预测参与促销定价的N个产品使收益最大化的最优参数组合时，当数据量大，且N个产品的历史GMV分布符合正态分布或类似正态分布时，针对每一个产品，利用事先训练得到的销量预测模型，预测该产品在不同参数(可以是价格，也可以是价格+广告投入)下的销量结果，然后根据预测的不同参数下的销量结果，得到对应的GMV期望(GMV期望＝销量*价格)，最后根据预设正态分布置信区间公式、预测的GMV期望，便可获得该产品在不同参数下的目标置信度的置信区间，进而便可根据该产品在不同参数下的所述目标置信度的置信区间，确定该产品的最优参数。其中，预设正态分布置信区间公式为：

其中，y^pred为预测的GMV期望值，z为根据查正态分布表获得的目标置信度对应的z值，

为N个产品的历史GMV的标准差，N为产品数。以目标置信度为95％为例，则95％置信度对应的置信区间为：

1.960为置信度95％对应的Z值。

步骤S106：利用所述样本数据、不同的损失函数，构建不同分位点下的GMV预测模型。

若M个产品的历史GMV分布不符合正态分布或类似正态分布，则利用该样本数据、不同的损失函数，构建不同分位点下的GMV预测模型，该GMV预测模型可以使用树模型，或深度学习模型。不同分位点下的GMV预测模型构建时所使用的损失函数(loss function)为：

其中，Q为分位数，取值在0-1之间，y^pred为GMV预测模型预测的GMV期望，y^truth为真实GMV，也即历史GMV。Q>0.5时即对预测偏小给予更大的惩罚，Q＝0.5时，该loss function蜕化为L1惩罚。对GMV的预测偏大或偏小给予不同的惩罚来构建分位数模型，平衡高估和低估的不同惩罚系数，这样在实际当中就不会出现GMV很高而ROI较低的情况。

通过构建不同的损失函数，即可得到不同分位点下的GMV预测模型。一种实施方式下，在得到几个关键分位点对应的GMV分布之后，可以采用线性插值的方法补全GMV的预测分布。另一种补全GMV分布的方法为：对Q进行离散化，对每个Q单独建立一个GMV预测模型，Q离散化的越细，GMV分布补全的就越精细。例如，Q依次取0.2、0.5、0.8，这样就可以分别得到20％、50％、80％分位点下的GMV预测模型。在得到不同分位点对应的GMV预测模型，将其存储在分位点模型库中，以便后续使用。

在得到不同分位点对应的GMV预测模型后，就可以得到不同置信度下的置信区间，例如，80％置信度下的置信区间为：20％分位点下预测的GMV值与80％分位点下预测的GMV值构成的区间，也即[20％分位点下预测的GMV值，80％分位点下预测的GMV值]，同理，70％置信度下的置信区间为：[30％分位点下预测的GMV值，70％分位点下预测的GMV值]。后续在预测参与促销定价的N个产品使收益最大化的最优参数组合时，当数据量大，且N个产品的历史GMV分布不符合正态分布或类似正态分布时，针对每一个产品，从预设分位点模型库中选取出与目标置信度(如80％)对应的第一分位点预测模型和第二分位点预测模型；然后分别利用第一分位点预测模型和第二分位点预测模型，预测该产品在不同参数(可以是价格，也可以是价格+广告投入)下的GMV期望；针对该产品的每一参数，根据该参数下的第一分位点预测模型预测的GMV期望、第二分位点预测模型预测的GMV期望，得到该参数下的目标置信度的置信区间，从而得到该产品在不同参数下的所有目标置信度的置信区间，进而便可根据该产品在不同参数下的所述目标置信度的置信区间，确定该产品的最优参数。

本申请实施例还提供了一种数据处理方法，如图2所示，下面将结合图2，对本申请实施例提供的数据处理方法进行说明。

步骤S201：在需要预测参与促销定价的N个产品使收益最大化的最优参数组合时，获取影响收益最大化的决策因子。

在需要预测参与促销定价的N(N为大于1的整数)个产品使收益最大化的最优参数组合时，获取影响收益最大化的决策因子，该决策因子包括：目标置信度(假设为80％)和决策变量，其中，该决策变量包括：N个产品各自的输入参数以及各自的参数变量，该输入参数可以是价格，也可以是价格+广告投入，相应地，当输入参数为价格时，对应的参数变量为价格的变化量(也即价格的波动量)，当输入参数为价格+广告投入时，相应的参数变量可以是价格的变化量或广告投入的变化量，或者，既包含价格的变化量又包含广告投入的变化量。

其中，一种实施方式下，可以根据用户的配置操作，获取影响收益最大化的决策因子，也即该决策因子可以根据用户的需求进行配置。例如，是实时配置的，即一次配置仅能使用一次，每当需要预测最优参数组合时，当前获取的影响收益最大化的决策因子均是响应用户当前的配置操作而获取到的，是实时的。以某个超市的商品促销为例，店家将参与促销定价的N个产品各自的输入参数以及各自的参数变量在电脑的软件上进行配置，并配置预期的GMV目标置信度即可。

其中，根据产品各自的输入参数以及各自的参数变量，便可得到每个产品各自的不同参数。例如，对于产品1来说，假设输入参数为价格25元，参数变量为±3，且每次变化量为1，则可以得到该产品的不同参数，分别为：22、23、24、25、26、27、28。同样的原理，当输入参数为价格+广告投入时，当参数变量为价格的变化量+广告投入的变化量，则可以不同的价格以及不同的广告投入，也即得到不同的参数。

其中，需要说明的是，对于N个不同产品来说，需要确保彼此之间的数据维度相同，即输入参数的维度相同，例如，对于产品1、产品2来说，若产品1的输入参数为价格，则产品2的输入参数也只能是价格，而不能是价格+广告投入，同样的，若产品1的输入参数为价格+广告投入，则产品2的输入参数也只能是价格+广告投入。此外，若在建模时是依据包含历史GMV、价格、预设时间段内的平均销量的原始数据进行建模的，则在求解时各个产品的输入参数为价格；若在建模时是依据包含历史GMV、价格+广告投入、预设时间段内的平均销量的原始数据进行建模的，则在求解时各个产品的输入参数为价格+广告投入，两者需保持一致。

步骤S202：针对每一个产品，利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间。

针对每一个产品，利用事先训练得到的预测模型，获得该产品在不同参数下的目标置信度的置信区间。其中，根据该产品的输入参数以及对应的参数变量便可得到该产品的不同参数，例如，假设输入参数为价格+广告投入，对应的参数变量为价格的波动量+广告投入波动量，这样便可以得到该产品的不同参数，也即得到不同的价格以及不同的广告投入。

其中，利用事先训练得到的预测模型，获得该产品在不同参数下的目标置信度的置信区间的过程可以是：若N的值小于第一预设阈值(如30)，则利用事先构建的表征GMV期望与输入特征之间的线性关系的线性模型，预测该产品在不同参数下的GMV期望，根据预设置信区间公式、预测的GMV期望，获得该产品在不同参数下的目标置信度的置信区间。以该一元线性模型为例，

则将不同的参数(自变量)带入该方程，即可得到对应的

(GMV期望)，然后再根据预设置信区间公式、GMV期望，便可获得该产品在不同参数下的目标置信度的置信区间。其中，预设置信区间公式为：

其中，

其中，α＝1-目标置信度，v＝n-1，

为根据α和v查t分布表得到的t分布系数。x₀为该产品的具体参数，

为该产品的各个参数的期望值，x_i为该产品的第i个参数，取值依次为1到n。为了便于理解，举例进行说明，对于产品1来说，由于不同的价格以及不同的广告投入，对应的y_yx值不同，因此在相同目标置信度下会有多个置信区间。针对其中某个具体的自变量x₀(价格+广告投入)来说，可以得到该x₀对应的y_yx，然后带入该预设置信区间公式中，即可得到该参数下的目标置信度的置信区间。

当决策因子还包括：N个产品各自的历史GMV时，若N的值不小于第一预设阈值，此时，根据N个产品的历史GMV分布情况来选择不同的预测模型。一种实施方式下，若N的值不小于第一预设阈值，且N个产品的历史GMV分布符合正态分布或类似正态分布，则利用事先训练得到的预测模型，获得该产品在不同参数下的目标置信度的置信区间的过程可以是：利用事先训练得到的销量预测模型，预测该产品在不同参数下的销量结果；根据预测的不同参数下的销量结果，得到对应的GMV期望；根据预设正态分布置信区间公式、预测的GMV期望，获得该产品在不同参数下的目标置信度的置信区间。其中，预设正态分布置信区间公式为：

为N个产品的历史GMV的标准差，N为产品数。其中，该产品的不同参数，可以是指不同价格，也可以是指不同价格+不同广告投入，不同参数对应的销量结果不同，进而对应的GMV期望也不同。其中，GMV期望＝销量*价格。

又一种实施方式下，若N的值不小于第一预设阈值，且N个产品的历史GMV分布不符合正态分布或类似正态分布，则利用事先训练得到的预测模型，获得该产品在不同参数下的目标置信度的置信区间的过程可以是：从预设分位点模型库中选取出与目标置信度对应的第一分位点预测模型和第二分位点预测模型；分别利用第一分位点预测模型和第二分位点预测模型，预测该产品在不同参数下的GMV期望；针对该产品的每一参数，根据该参数下的第一分位点预测模型预测的GMV期望、第二分位点预测模型预测的GMV期望，得到该参数下的目标置信度的置信区间，从而得到该产品在不同参数下的目标置信度的置信区间。其中，预设分位点模型库中存储有不同分位点对应的GMV预测模型。假设目标置信度为80％，则从预设分位点模型库中选取出与目标置信度(80％)对应的2个分位点预测模型为20％分位点对应的GMV预测模型(第一分位点预测模型)和80％分位点对应的GMV预测模型(第二分位点预测模型)。若目标置信度为60％，则对应的2个分位点预测模型为40％分位点对应的GMV预测模型和60％分位点对应的GMV预测模型。若目标置信度为30％，则对应的2个分位点预测模型为30％分位点对应的GMV预测模型和70％分位点对应的GMV预测模型，依此类推，可以得到任意目标置信度(0-100％中的任一数值，不包含两端点)对应的2个分位点预测模型，目标置信度为50％的情况除外。在得到目标置信度对应的第一分位点预测模型和第二分位点预测模型后，分别利用第一分位点预测模型和第二分位点预测模型，预测该产品在不同参数下的GMV期望，假设对于产品1来说，有5个不同参数(假设为A、B、C、D、E)，则利用第一分位点预测模型和第二分位点预测模型，分别预测产品1在5个不同参数下的GMV期望，针对参数A来说，该参数(参数A)的目标置信度(80％)的置信区间为[20％分位点预测模型预测的GMV期望，80％分位点预测模型预测的GMV期望]，同理参数B的目标置信度(80％)的置信区间为[20％分位点预测模型预测的GMV期望，80％分位点预测模型预测的GMV期望]，以此类推，这样便可以得到该产品在不同参数下的目标置信度的置信区间。

本申请实施例中，针对不同的数据规模(N的数值大小)以及不同的GMV分布假设(N个产品的历史GMV分布情况)，提出不同的GMV分布预测方法，进而在计算各个产品在不同参数下的目标置信度的置信区间时所选用的预测模型不同，进行有针对性的区别，以保证最终获得的各个产品的最优参数尽可能的准确。

其中，上述的预测模型(线性模型、销量预测模型、分位点预测模型)均为事先训练获得，也即在步骤S202之前，该方法还包括：针对不同的数据规模(样本大小)以及不同的GMV分布假设建立不同的预测模型。例如，获取样本数据，所述样本数据包括M个产品各自与销量相关的原始数据，所述原始数据包括历史GMV，其中，M为正整数，且M大于N；若样本数M小于第二预设阈值，则利用所述样本数据，构建表征GMV期望与输入特征之间的线性关系的线性模型；若所述样本数M不小于所述第二预设阈值，判断所述M个产品的历史GMV分布是否符合正态分布或类似正态分布；在为是时，则利用所述样本数据构建销量预测模型；在为否时，则利用所述样本数据、不同的损失函数，构建不同分位点下的GMV预测模型。该部分内容请参阅上述的模型建立方法部分的内容，在此不再赘述。

步骤S203：根据该产品在不同参数下的所述目标置信度的置信区间，确定该产品的最优参数，从而得到使收益最大化的所述N个产品的最优参数组合。

在得到该产品在不同参数下的目标置信度的置信区间后，根据该产品在不同参数下的目标置信度的置信区间，确定该产品的最优参数，从而得到使收益最大化的N个产品的最优参数组合。对于产品1来说，由于不同的价格以及不同的广告投入，对应相同目标置信度下会有多个置信区间，从中选择置信区间变化最小的置信区间，这样就可以得到该产品1的最优参数(变化最小的置信区间对应的参数)，对于产品2来说，由于不同的价格以及不同的广告投入，对应相同目标置信度下会有多个置信区间，从中选择置信区间变化最小的置信区间，这样就可以得到该产品2的最优参数(变化最小的置信区间对应的参数)，以此类推，就可以得到N个产品各自的最优参数，从而得到N个产品的最优参数组合(各自产品的最优参数组合)。

本申请实施例还提供了一种模型建立装置100，如图3所示，该模型建立装置100包括：获取模块110、判断模块120以及构建模块130。

获取模块110，用于获取样本数据，所述样本数据包括M个产品各自与销量相关的原始数据，所述原始数据包括历史GMV，其中，M为正整数。

判断模块120，用于判断样本数M是否小于预设阈值。

构建模块130，用于在样本数M小于预设阈值时，利用所述样本数据，构建表征GMV期望与输入特征之间的线性关系的线性模型。

可选地，所述构建模块130，还用于在样本数M不小于预设阈值时，若所述M个产品的历史GMV分布符合正态分布或类似正态分布，则利用所述样本数据构建销量预测模型或者，所述构建模块130还用于在样本数M不小于预设阈值时，若所述M个产品的历史GMV分布不符合正态分布或类似正态分布，则利用所述样本数据、不同的损失函数，构建不同分位点下的GMV预测模型。

本申请实施例所提供的模型建立装置100，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本申请实施例还提供了一种数据处理装置200，如图4所示。该数据处理装置200包括：获取模块210、获得模块220以及确定模块230。

获取模块210，用于在需要预测参与促销定价的N个产品使收益最大化的最优参数组合时，获取影响收益最大化的决策因子，所述决策因子包括：目标置信度和决策变量，其中，所述决策变量包括：所述N个产品各自的输入参数以及各自的参数变量，N为大于1的整数。

获得模块220，用于针对每一个产品，利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间，其中，根据该产品的输入参数以及对应的参数变量得到该产品的不同参数。

确定模块230，用于根据该产品在不同参数下的所述目标置信度的置信区间，确定该产品的最优参数，从而得到使收益最大化的所述N个产品的最优参数组合。

可选地，若N的值小于第一预设阈值；所述获得模块220，用于利用事先构建的表征GMV期望与输入特征之间的线性关系的线性模型，预测该产品在不同参数下的GMV期望；根据预设置信区间公式、所述GMV期望，获得该产品在不同参数下的所述目标置信度的置信区间。

可选地，所述决策因子还包括：所述N个产品各自的历史GMV，若N的值不小于第一预设阈值，且所述N个产品的历史GMV分布符合正态分布或类似正态分布；所述获得模块220，用于利用事先训练得到的销量预测模型，预测该产品在不同参数下的销量结果；根据预测的不同参数下的销量结果，得到对应的GMV期望；根据预设正态分布置信区间公式、所述GMV期望，获得该产品在不同参数下的所述目标置信度的置信区间。

可选地，所述决策因子还包括：所述N个产品各自的历史GMV，若N的值不小于第一预设阈值，且所述N个产品的历史GMV分布不符合正态分布或类似正态分布；所述获得模块220，用于从预设分位点模型库中选取出与所述目标置信度对应的第一分位点预测模型和第二分位点预测模型；分别利用所述第一分位点预测模型和所述第二分位点预测模型，预测该产品在不同参数下的GMV期望；针对该产品的每一参数，根据该参数下的所述第一分位点预测模型预测的GMV期望、所述第二分位点预测模型预测的GMV期望，得到该参数下的所述目标置信度的置信区间，从而得到该产品在不同参数下的所述目标置信度的置信区间。

可选地，该数据处理装置200还包括模型建立模块，该模型建立模块用于在获得模块220利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间之前：获取样本数据，所述样本数据包括M个产品各自与销量相关的原始数据，所述原始数据包括历史GMV，其中，M为正整数，且M大于N；若样本数M小于第二预设阈值，则利用所述样本数据，构建表征GMV期望与输入特征之间的线性关系的线性模型；若所述样本数M不小于所述第二预设阈值，判断所述M个产品的历史GMV分布是否符合正态分布或类似正态分布；在为是时，则利用所述样本数据构建销量预测模型；在为否时，则利用所述样本数据、不同的损失函数，构建不同分位点下的GMV预测模型。

本申请实施例所提供的数据处理装置200，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

如图5所示，图5示出了本申请实施例提供的一种电子设备300的结构框图。所述电子设备300包括：收发器310、存储器320、通讯总线330以及处理器340。

所述收发器310、所述存储器320、处理器340各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线330或信号线实现电性连接。其中，收发器310用于收发数据。存储器320用于存储计算机程序，如存储有图3或图4中所示的软件功能模块，即图3所示的模型建立装置100或图4所示的数据处理装置200。其中，模型建立装置100或数据处理装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器320中或固化在所述电子设备300的操作系统(operating system，OS)中的软件功能模块。所述处理器340，用于执行存储器320中存储的可执行模块，例如模型建立装置100包括的软件功能模块或计算机程序。例如，处理器340，用于获取样本数据，所述样本数据包括M个产品各自与销量相关的原始数据，所述原始数据包括历史GMV，其中，M为正整数；以及还用于判断样本数M是否小于预设阈值；以及还用于在为是时，利用所述样本数据，构建表征GMV期望与输入特征之间的线性关系的线性模型。

所述处理器340，用于执行数据处理装置200包括的软件功能模块或计算机程序时，所述处理器340，用于在需要预测参与促销定价的N个产品使收益最大化的最优参数组合时，获取影响收益最大化的决策因子，所述决策因子包括：目标置信度和决策变量，其中，所述决策变量包括：所述N个产品各自的输入参数以及各自的参数变量，N为大于1的整数；以及还用于针对每一个产品，利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间，其中，根据该产品的输入参数以及对应的参数变量得到该产品的不同参数；以及还用于根据该产品在不同参数下的所述目标置信度的置信区间，确定该产品的最优参数，从而得到使收益最大化的所述N个产品的最优参数组合。

其中，存储器320可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器340可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器340也可以是任何常规的处理器等。

其中，上述的电子设备300，包括但不限于计算机、服务器等。

本申请实施例还提供了一种非易失性计算机可读取存储介质(以下简称存储介质)，该存储介质上存储有计算机程序，该计算机程序被计算机如上述的电子设备300运行时，执行上述所示的数据处理方法或模型建立方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，笔记本电脑，服务器，或者电子设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read－Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

在需要预测参与促销定价的N个产品使收益最大化的最优参数组合时，获取影响收益最大化的决策因子，所述决策因子包括：目标置信度和决策变量，其中，所述决策变量包括：所述N个产品各自的输入参数以及各自的参数变量，N为大于1的整数；

针对每一个产品，利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间，其中，根据该产品的输入参数以及对应的参数变量得到该产品的不同参数；

根据该产品在不同参数下的所述目标置信度的置信区间，确定该产品的最优参数，从而得到使收益最大化的所述N个产品的最优参数组合。

2.根据权利要求1所述的方法，其特征在于，若N的值小于第一预设阈值，利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间，包括：

利用事先构建的表征GMV期望与输入特征之间的线性关系的线性模型，预测该产品在不同参数下的GMV期望；

根据预设置信区间公式、所述GMV期望，获得该产品在不同参数下的所述目标置信度的置信区间。

3.根据权利要求1所述的方法，其特征在于，所述决策因子还包括：所述N个产品各自的历史GMV，若N的值不小于第一预设阈值，且所述N个产品的历史GMV分布符合正态分布或类似正态分布；利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间，包括：

利用事先训练得到的销量预测模型，预测该产品在不同参数下的销量结果；

根据预测的不同参数下的销量结果，得到对应的GMV期望；

根据预设正态分布置信区间公式、所述GMV期望，获得该产品在不同参数下的所述目标置信度的置信区间。

4.根据权利要求1所述的方法，其特征在于，所述决策因子还包括：所述N个产品各自的历史GMV，若N的值不小于第一预设阈值，且所述N个产品的历史GMV分布不符合正态分布或类似正态分布；利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间，包括：

从预设分位点模型库中选取出与所述目标置信度对应的第一分位点预测模型和第二分位点预测模型；

分别利用所述第一分位点预测模型和所述第二分位点预测模型，预测该产品在不同参数下的GMV期望；

针对该产品的每一参数，根据该参数下的所述第一分位点预测模型预测的GMV期望、所述第二分位点预测模型预测的GMV期望，得到该参数下的所述目标置信度的置信区间，从而得到该产品在不同参数下的所述目标置信度的置信区间。

5.根据权利要求1所述的方法，其特征在于，在利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间之前，所述方法还包括：

获取样本数据，所述样本数据包括M个产品各自与销量相关的原始数据，所述原始数据包括历史GMV，其中，M为正整数，且M大于N；

若样本数M小于第二预设阈值，则利用所述样本数据，构建表征GMV期望与输入特征之间的线性关系的线性模型；

若所述样本数M不小于所述第二预设阈值，判断所述M个产品的历史GMV分布是否符合正态分布或类似正态分布；

在为是时，则利用所述样本数据构建销量预测模型；

在为否时，则利用所述样本数据、不同的损失函数，构建不同分位点下的GMV预测模型。

6.一种模型建立方法，其特征在于，包括：

获取样本数据，所述样本数据包括M个产品各自与销量相关的原始数据，所述原始数据包括历史GMV，其中，M为正整数；

判断样本数M是否小于预设阈值；

在为是时，利用所述样本数据，构建表征GMV期望与输入特征之间的线性关系的线性模型。

7.根据权利要求6所述的方法，其特征在于，在判断样本数M是否小于预设阈值之后，所述方法还包括：

在所述样本数M不小于所述预设阈值时，若所述M个产品的历史GMV分布符合正态分布或类似正态分布，则利用所述样本数据构建销量预测模型；或者，

在所述样本数M不小于所述预设阈值时，若所述M个产品的历史GMV分布不符合正态分布或类似正态分布，则利用所述样本数据、不同的损失函数，构建不同分位点下的GMV预测模型。

8.一种数据处理装置，其特征在于，包括：

获取模块，用于在需要预测参与促销定价的N个产品使收益最大化的最优参数组合时，获取影响收益最大化的决策因子，所述决策因子包括：目标置信度和决策变量，其中，所述决策变量包括：所述N个产品各自的输入参数以及各自的参数变量，N为大于1的整数；

预测模块，用于针对每一个产品，利用事先训练得到的预测模型，获得该产品在不同参数下的所述目标置信度的置信区间，其中，根据该产品的输入参数以及对应的参数变量得到该产品的不同参数；

确定模块，用于根据该产品在不同参数下的所述目标置信度的置信区间，确定该产品的最优参数，从而得到使收益最大化的所述N个产品的最优参数组合。

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述处理器与所述存储器连接；

所述存储器，用于存储程序；

所述处理器，用于调用存储于所述存储器中的程序，以执行如权利要求1-5中任一项所述的方法，或者执行如权利要求6或7所述的方法。

10.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器运行时，执行如权利要求1-5中任一项所述的方法，或者执行如权利要求6或7所述的方法。