CN113254501B

CN113254501B - 一种通过将连续特征离散化预测程序tad的控制方法及装置

Info

Publication number: CN113254501B
Application number: CN202110628404.5A
Authority: CN
Inventors: 战思南; 沈振雷
Original assignee: Shanghai 2345 Network Technology Co ltd
Current assignee: Shanghai 2345 Network Technology Co ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-11-16
Anticipated expiration: 2041-06-07
Also published as: CN113254501A

Abstract

本发明提供了一种通过将连续特征离散化预测程序TAD的控制方法，包括如下步骤：a.获取程序的连续特征信息以及离散特征信息；b.基于Embedding模型将离散特征信息转换为离散特征信息向量化表示；c.基于软离散化层将连续特征信息软离散化为软离散化特征信息向量化表示；d.将离散特征信息向量化表示以及软离散化特征信息向量化表示输入至MLP神经网络中训练，并将输出结果作为程序TAD的预测结果，软离散化层通过如下公式确定：

，h（x）为软离散化特征信息向量化表示，x为所述连续特征信息，w、b为参数。本发明使用方便，功能强大，实用性强，适应面广，克服了现有技术中无法实现连续特征软离散化的技术弊端，具有极高的商业价值。

Description

一种通过将连续特征离散化预测程序TAD的控制方法及装置

技术领域

本发明属于程序开发技术领域，具体地，涉及一种通过将连续特征离散化预测程序TAD的控制方法及装置。

背景技术

每个用户的总活跃天数指标（Total Active Days per User），即为TAD，一个具有普适性的移动产品价值衡量标准，以帮助移动创业者了解并专注于那些真正重要的点，即让app的用户长久地留下来，在现有的技术中，通过采用连续特征预测程序的TAD。在渠道质量评估中，我们需要预估渠道的平均生命周期TAD，我们会有大量统计类连续特征，这些特征直接做归一化输入深度模型效果不太好，因为很多特征都呈非线性分布。通常的做法是将这些连续特征进行手动离散化，但是手动离散化依赖经验，而且不容易合理切分。

在深度学习中，我们常用的特征数据有两种，一种是离散特征，一种是连续特征，对于离散特征的处理，深度学习中通常采用embedding的方式，而对于连续特征，通常会进行归一化处理，然后直接输入到模型进行计算，如果连续特征分布存在较强的非线性（大多情况下是这样），通常的深度学习模型学习起来会非常困难。目前工业界常用的方式是将这一类特征提起根据经验进行离散化，比如一天的时间，划分成凌晨，上午，下午，晚上。再比如连续的年龄划分为未成年，青年，中年，老年等等。

现有的这些划分需要十分熟悉业务特点和数据分布，依赖专家经验，而且在分割边界的数据会存在一定的困惑度，比如，17岁算未成年，18岁就算青年了。然而生理上和个人特质上并没有如此大的变化，模型却出现了严重的分散，这也给模型学习带来了很大的困难。

而目前，市场上并没有一种能够有效解决上述问题的具体办法，尤其涉及一种通过将连续特征离散化预测程序TAD的控制方法及装置。

发明内容

针对现有技术存在的技术缺陷，本发明的目的是提供一种通过将连续特征离散化预测程序TAD的控制方法及装置，根据本发明的一个方面，提供了一种通过将连续特征离散化预测程序TAD的控制方法，包括如下步骤：

a.获取所述程序的连续特征信息以及离散特征信息；

b.基于Embedding模型将所述离散特征信息转换为离散特征信息向量化表示；

c.基于软离散化层将所述连续特征信息软离散化为软离散化特征信息向量化表示；

d.将所述离散特征信息向量化表示以及所述软离散化特征信息向量化表示输入至MLP神经网络中训练，并将输出结果作为程序TAD的预测结果，其中，

所述软离散化层通过如下公式确定：

，其中，所述h（x）为软离散化特征信息向量化表示，所述x为所述连续特征信息，所述w、b为参数。

优选地，所述连续特征信息至少包括平均单价和/或平均点击次数和/或留存率和/或平均使用时间和/或平均启动次数。

优选地，所述离散特征信息至少包括渠道类型和/或渠道付费类型和/或付费状态。

优选地，在所述步骤a之前，还包括步骤：

i：获取在一个或多个连续特征信息的条件下的实际TAD；

ii：通过梯度下降法调试参数w以及参数b，以使得步骤d中的程序TAD的预测结果趋近于实际TAD。

优选地，在所述步骤ii中，通过梯度下降法调试参数w、参数b、离散特征的embedding以及MLP的参数，以使得步骤d中的程序TAD的预测结果趋近于实际TAD。

优选地，不同组合的连续特征信息所对应的所述参数w以及所述参数b不同。

根据本发明的另一个方面，提供了一种通过将连续特征离散化预测程序TAD的控制装置，其采用所述的控制方法，包括：

第一获取装置：获取所述程序的连续特征信息以及离散特征信息；

第一处理装置：基于Embedding模型将所述离散特征信息转换为离散特征信息向量化表示；

第二处理装置：基于软离散化层将所述连续特征信息软离散化为软离散化特征信息向量化表示；

第三处理装置：将所述离散特征信息向量化表示以及所述软离散化特征信息向量化表示输入至MLP神经网络中训练，并将输出结果作为程序TAD的预测结果，其中，

所述软离散化层通过如下公式确定：

优选地，还包括：

第二获取装置：获取在一个或多个连续特征信息的条件下的实际TAD；

第四处理装置：通过梯度下降法调试参数w以及参数b，以使得程序TAD的预测结果趋近于实际TAD。

本发明提供了一种通过将连续特征离散化预测程序TAD的控制方法，通过获取所述程序的连续特征信息以及离散特征信息；基于Embedding模型将所述离散特征信息转换为离散特征信息向量化表示；基于软离散化层将所述连续特征信息软离散化为软离散化特征信息向量化表示；将所述离散特征信息向量化表示以及所述软离散化特征信息向量化表示输入至MLP神经网络中训练，并将输出结果作为程序TAD的预测结果。本发明所采用的连续变量自动软离散化的方式，可以在模型训练过程中，用于任何模型的连续特征自动离散化，使得数据模型更加平滑，而不是出现离散的分布呈现，自动进行软离散化。在实际应用的DeepFM中，通常我们都是将非线性分布得救离散特征离散化作为离散特征输入；同理，DNN等众多模型中也一样可以适用。本发明可以把原来的连续特征利用本发明所提供的公式映射到多维特征，然后将这样的多维特征输入的模型的后续层进行处理，即可完成连续特征的自动离散化。本发明使用方便，功能强大，实用性强，适应面广，克服了现有技术中无法实现连续特征软离散化的技术弊端，具有极高的商业价值。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出了本发明的具体实施方式的，一种通过将连续特征离散化预测程序TAD的控制方法的具体流程示意图；

图2示出了本发明的第一实施例的，通过梯度下降法调试参数w以及参数b的具体流程示意图；

图3示出了本发明的另一具体实施方式的，一种通过将连续特征离散化预测程序TAD的控制装置的模块连接示意图；以及

图4示出了本发明的第二实施例的，h（x）作为x在w,b参数下的一个软离散化值的曲线形态图。

具体实施方式

为了更好的使本发明的技术方案清晰的表示出来，下面结合附图对本发明作进一步说明。

图1示出了本发明的具体实施方式的，一种通过将连续特征离散化预测程序TAD的控制方法的具体流程示意图，本发明公开的通过将连续特征离散化预测程序TAD的控制方法具体包括如下步骤：

首先，进入步骤S101，获取所述程序的连续特征信息以及离散特征信息，本领域技术人员理解，本发明旨在保护将连续特征离散化预测这样的技术核心，而将连续特征离散化这样突破性的技术手段可以解决包括但不限于本发明中所提到的TAD，任何需要用到大量连续特征的深度学习模型都可以采用本方法对连续特征进行自动软离散化，将连续特征离散化的具体应用将随着技术不断的完善而具备越来越多的使用场景，但一旦采用本发明所公开的将连续特征离散化预测这样的技术方案都将落入本发明所记载的保护范围。

进一步地，所述连续特征信息以及离散特征信息即为通俗意义上所理解的含义，具体地，连续特征信息即为连续变量，离散特征信息又称离散变量。区分两种变量的方法为观察变量是否连续可分。连续变量，指在一定区间内可以任意取值，相邻的两个数值可作无限分割(即可取无限个值)。比如身高，身高可以是183，也可以是183.1，也可以是183.111……1。而离散变量，是指其数值只能用自然数、整数、计数单位等描述的数据。例如，是否上班，班级数量，成绩评级。

然后，进入步骤S102，基于Embedding模型将所述离散特征信息转换为离散特征信息向量化表示，文本类的Embedding可以分为两种，一种是比较传统的word2vector、fasttext、glove这些算法的方案，叫做词向量固定表征类算法，这些算法主要是通过分析词的出现频率来进行Embedding生成，不考虑文本上下文。而另一种文本Embedding方法，也是目前最流行的方案是动态词表征算法，比如Bert、ELMo、GPT，这类算法会考虑文本上下文。Embedding模型通常用于通过计算用户和物品或物品和物品的Embedding相似度，来缩小推荐候选库的范围；实现高维稀疏特征向量向低维稠密特征向量的转换；训练好的embedding可以当作输入深度学习模型的特征。Embedding模型就是从原始数据提取出来的特征，即通过神经网络映射之后的低维向量，在本申请中，将所述离散特征信息转换为离散特征信息向量化表示。

紧接着，进入步骤S103，基于软离散化层将所述连续特征信息软离散化为软离散化特征信息向量化表示，在这样的实施例中，本领域技术人员理解，在本发明所公开的用以预测程序TAD为例，所述连续特征信息至少包括平均单价和/或平均点击次数和/或留存率和/或平均使用时间和/或平均启动次数，所述离散特征信息至少包括渠道类型和/或渠道付费类型和/或付费状态。所述软离散化层通过如下公式确定：

进一步地，整体模型如下：首先获取或者统计渠道投放的相关特征数据，如：平均单价，平均点击次数，留存率，平均使用时间，平均启动次数等连续特征，以及渠道类型、渠道付费类型、付费状态等离散特征；将离散特征进行embedding得到离散特征信息向量化表示,将连续特征输入软离散化层得到软离散化特征信息向量化表示；将离散特征信息向量化表示和软离散化特征信息向量化表示拼接输入MLP；输出目标TAD预估值。

进一步地，特征软离散化方式如下：假设输入的连续特征信息为x，所述w、b为参数，则f(x) = wx+b；g(x) = 1/(1+exp(-x))；h(x) = g(wx+b)*g(-（wx+b）)，将h(x) = g(f(x))*g(-f(x))，即

，其中，所述h（x）为软离散化特征信息向量化表示，所述x为所述连续特征信息，所述w、b为参数，即h(x)作为x在w,b参数下的一个软离散化值。

最后，进入步骤S104，将所述离散特征信息向量化表示以及所述软离散化特征信息向量化表示输入至MLP神经网络中训练，并将输出结果作为程序TAD的预测结果，将所述离散特征信息向量化表示以及所述软离散化特征信息向量化表示展平成后，拼接成一个向量，输入至MLP神经网络中训练。

图2示出了本发明的第一实施例的，通过梯度下降法调试参数w以及参数b的具体流程示意图，作为步骤S101的前置步骤，即可以根据在步骤S101中所获取到的不同的组合的连续特征信息，确定不同的参数w以及参数b，而在所述步骤S101之前的前置步骤，即归纳总结出所有不同组合中参数w以及参数b的最优取值，还包括步骤：

首先，进入步骤S201，获取在一个或多个连续特征信息的条件下的实际TAD，在这样的实施例中，本发明将在不断的训练学习中不断的完善计算过程以及预测结果，具体地，不同的w,b参数，会得到x在不同取值范围的激活，我们将输入x标准化，然后在按照正态分布，随机一组w和b参数，通过h(x) 就能把x随机划分成n段, n等于w和b的维度。

最后，进入步骤S202，通过梯度下降法调试参数w以及参数b，以使得步骤d中的程序TAD的预测结果趋近于实际TAD，在所述步骤ii中，通过梯度下降法调试参数w、参数b、离散特征的embedding以及MLP的参数，以使得步骤d中的程序TAD的预测结果趋近于实际TAD，不同组合的连续特征信息所对应的所述参数w以及所述参数b不同。参考图4，图4示出了本发明的第二实施例的，h（x）作为x在w,b参数下的一个软离散化值的曲线形态图，而所述参数w和所述参数b是可学习的，我们通过梯度下降方法，最优化参数w以及参数b，就能得到变量x的合理划分。

图3示出了本发明的另一具体实施方式的，一种通过将连续特征离散化预测程序TAD的控制装置的模块连接示意图，本发明公开了一种通过将连续特征离散化预测程序TAD的控制装置，其采用所述的控制方法，包括第一获取装置1：获取所述程序的连续特征信息以及离散特征信息，所述第一获取装置1的工作原理可以参考前述步骤S101，在此不予赘述。

进一步地，所述控制装置还包括第一处理装置2：基于Embedding模型将所述离散特征信息转换为离散特征信息向量化表示，所述第一处理装置2的工作原理可以参考前述步骤S102，在此不予赘述。

进一步地，所述控制装置还包括第二处理装置3：基于软离散化层将所述连续特征信息软离散化为软离散化特征信息向量化表示，所述第二处理装置3的工作原理可以参考前述步骤S103，在此不予赘述。

进一步地，所述控制装置还包括第三处理装置4：将所述离散特征信息向量化表示以及所述软离散化特征信息向量化表示输入至MLP神经网络中训练，并将输出结果作为程序TAD的预测结果，其中，

所述软离散化层通过如下公式确定：

，其中，所述h（x）为软离散化特征信息向量化表示，所述x为所述连续特征信息，所述w、b为参数，所述第三处理装置4的工作原理可以参考前述步骤S104，在此不予赘述。

进一步地，所述控制装置还包括第二获取装置5：获取在一个或多个连续特征信息的条件下的实际TAD，所述第二获取装置5的工作原理可以参考前述步骤S201，在此不予赘述。

进一步地，所述控制装置还包括第四处理装置6：通过梯度下降法调试参数w以及参数b，以使得程序TAD的预测结果趋近于实际TAD，所述第四处理装置6的工作原理可以参考前述步骤S202，在此不予赘述。

需要说明的是，上述各装置实施例的具体实施方式与前述对应方法实施例的具体实施方式相同，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实施例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

此外，本领域技术人员理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域技术人员理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种通过将连续特征离散化预测程序TAD的控制方法，其特征在于，包括如下步骤：

a.获取所述程序的连续特征信息以及离散特征信息；

d.将所述离散特征信息向量化表示以及所述软离散化特征信息向量化表示输入至MLP神经网络中训练，并将输出结果作为程序TAD的预测结果，其中，所述TAD为每个用户总活跃天数指标，其中，

所述软离散化层通过如下公式确定：

2.根据权利要求1所述的控制方法，其特征在于，所述连续特征信息至少包括平均单价和/或平均点击次数和/或留存率和/或平均使用时间和/或平均启动次数。

3.根据权利要求1所述的控制方法，其特征在于，所述离散特征信息至少包括渠道类型和/或渠道付费类型和/或付费状态。

4.根据权利要求1所述的控制方法，其特征在于，在所述步骤a之前，还包括步骤：

i：获取在一个或多个连续特征信息的条件下的实际TAD；

5.根据权利要求4所述的控制方法，其特征在于，在所述步骤ii中，通过梯度下降法调试参数w、参数b、离散特征的embedding以及MLP的参数，以使得步骤d中的程序TAD的预测结果趋近于实际TAD。

6.根据权利要求4或5所述的控制方法，其特征在于，不同组合的连续特征信息所对应的所述参数w以及所述参数b不同。

7.一种通过将连续特征离散化预测程序TAD的控制装置，其采用如权利要求1-6中任一项所述的控制方法，其特征在于，包括：

第一获取装置（1）：获取所述程序的连续特征信息以及离散特征信息；

第一处理装置（2）：基于Embedding模型将所述离散特征信息转换为离散特征信息向量化表示；

第二处理装置（3）：基于软离散化层将所述连续特征信息软离散化为软离散化特征信息向量化表示；

第三处理装置（4）：将所述离散特征信息向量化表示以及所述软离散化特征信息向量化表示输入至MLP神经网络中训练，并将输出结果作为程序TAD的预测结果，其中，

所述软离散化层通过如下公式确定：

8.根据权利要求7所述的控制装置，其特征在于，还包括：

第二获取装置（5）：获取在一个或多个连续特征信息的条件下的实际TAD；

第四处理装置（6）：通过梯度下降法调试参数w以及参数b，以使得程序TAD的预测结果趋近于实际TAD。