CN110717785A

CN110717785A - 基于标签分布学习的决策方法、系统及装置

Info

Publication number: CN110717785A
Application number: CN201910930427.4A
Authority: CN
Inventors: 马健; 钟文亮
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-21

Abstract

本说明书实施例公开了一种基于标签分布学习的决策方法。所述方法包括：获取与至少一个用户相关的至少一组特征数据，每一个用户可以对应一组特征数据；对于每一个用户，基于所述一组特征数据，以及第一决策模型，确定与所述用户对应的分布曲线，其中，所述第一决策模型可以为基于标签分布学习的可迁移深度学习模型；至少基于所述分布曲线，确定针对每个用户的第一决策结果，所述第一决策结果可以与第一业务相关。

Description

基于标签分布学习的决策方法、系统及装置

技术领域

本说明书实施例涉及数据处理技术领域，特别涉及一种基于标签分布学习的决策方法、系统、及装置。

背景技术

互联网的发展和智能终端的普及，使得网络支付手段应运而生。网络支付平台在推广自身所能提供的各种业务时，通常会给用户发放一定金额的红包，以驱动用户使用或参与该业务。红包通常对应着成本，希望通过有限的成本达到最大的收益，因此需要针对不同的用户对发放红包的金额进行决策。

发明内容

本说明书实施例的一个方面提供一种基于标签分布学习的决策方法。所述方法可以包括以下至少一种操作。获取与至少一个用户相关的至少一组特征数据，每一个用户可以对应一组特征数据；对于每一个用户，基于所述一组特征数据，以及第一决策模型，确定与所述用户对应的分布曲线，其中，所述第一决策模型可以为基于标签分布学习的可迁移深度学习模型；至少基于所述分布曲线，确定针对每个用户的第一决策结果，所述第一决策结果可以与第一业务相关。

本说明书实施例的另一方面提供一种基于标签分布学习的决策系统。所述系统获取模块，以及确定模块。所述获取模块用于获取与至少一个用户相关的至少一组特征数据，每一个用户对应一组特征数据。所述确定模块用于对于每一个用户，基于所述一组特征数据，以及第一决策模型，确定与所述用户对应的分布曲线，其中，所述第一决策模型为基于标签分布学习的可迁移深度学习模型；以及用于至少基于所述分布曲线，确定针对每个用户的第一决策结果，所述第一决策结果与第一业务相关。

本说明书实施例的另一方面提供一种基于标签分布学习的决策装置。所述装置包括至少一个处理器以及至少一个存储器。所述至少一个存储器可以用于存储指令。所述处理器可以用于执行所述指令，实现如上所述的基于标签分布学习的决策方法。

附图说明

本说明书将以示例性实施例的方式进一步描述，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书的一些实施例所示的示例性决策系统的示意图；

图2是根据本说明书的一些实施例所示的示例性处理设备的示框图；

图3是根据本说明书的一些实施例所示的基于标签分布学习的决策方法的示例性流程图；

图4是根据本说明书的一些实施例所示的获取第一决策模型的示例性流程图；

图5是根据本说明书的一些实施例所示的确定第一决策数据的示例性流程图；

图6是根据本说明书的一些实施例所示的示例性处理设备110的框图；

图7是根据本说明书的一些实施例所示的示例性分布曲线的示意图；

图8是根据本说明书的一些实施例所示的确定用户最大转化率的示意图；

图9是根据本说明书的一些实施例所示的基于标签分布学习的深度神经网络的示意图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本说明书的一些实施例所示的示例性决策系统的示意图。在一些实施例中，该决策系统100可以用于确定业务场景中针对用户的决策结果，例如，在进行线上业务推广时，用于确定对用户进行红包激励时的红包金额。又例如，在进行风险管控时，用于确定用户行为对应的风险大小。如图1所示，决策系统100可以包括处理设备110、存储设备120、终端130和网络140。

处理设备110可用于处理与用户相关联的信息和/或数据来执行在本说明书中揭示的一个或者多个功能。例如，处理设备110可以基于获取的用户特征数据，确定与用户相关的分布曲线。又例如，处理设备110可以基于目标决策结果，以及与用户相关的分布曲线，确定用户最大转化率。还例如，处理设备110可以更新整个决策流程中所使用的模型和/或算法。在一些实施例中，处理设备110可以包括一个或多个处理引擎(例如，单核心处理引擎或多核心处理器)。仅作为范例，处理设备110可以包括中央处理器(中央处理器)、特定应用集成电路(ASIC)、专用指令集处理器(ASIP)、图像处理器(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可程序逻辑装置(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等中的一种或多种组合。在一些实施例中，处理设备110可以是业务推广平台自身的服务器，也可以是业务推广平台外接的一个处理设备。任何业务推广的目标用户，其相关的信息都可以被处理设备110所获取并处理。

终端130可以是用户使用的设备。在一些实施例中，终端130可以是带有数据获取、存储和/或发送功能的设备，也可以是带有定位技术的设备，例如，智能手机。在一些实施例中，终端130可以包括但不限于移动设备130-1、平板电脑130-2、笔记本电脑130-3、台式电脑130-4等或其任意组合。示例性的移动设备130-1可以包括但不限于智能手机、个人数码助理(Personal Digital Assistance，PDA)、收银机、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备、显示增强设备等或其任意组合。在一些实施例中，终端130可以将获取到的数据发送至决策系统100中的一个或多个组件。例如，终端130可以将获取到的数据发送至处理设备110或存储设备120。在一些实施例中，终端130可以产生和/或获取各种数据，例如，所述数据可以包括用户的行为数据、属性数据等等。示例性用户的行为数据可以包括但不限于线上操作事件、线上操作类型、线上操作时间、线上操作地点、线上支付交易金额(若涉及线上支付)、线上支付交易是否使用红包(或奖励金)、红包(或奖励金)大小等数据。

存储设备120可以存储数据和/或指令。在一些实施例中，存储设备120可以存储采集到的数据。所述数据可以包括与用户有关的原始数据。例如，用户的行为数据、属性数据等。在一些实施例中，所述数据还可以包括经过处理的其他数据。例如，用户的分布曲线等。在一些实施例中，存储设备120可以存储供处理设备110执行或使用的数据和/或指令，处理设备110可以通过执行或使用所述数据和/或指令以实现本说明书中的示例性方法。在一些实施例中，存储设备120可以与网络140连接实现与决策系统100中的一个或多个组件(例如，处理设备110、终端130等)之间的通信。决策系统100的一个或多个组件可以通过网络140访问存储在存储设备120中的数据或指令。在一些实施例中，存储设备120可以直接与决策系统100的一个或多个组件(例如，处理设备110、终端130等)连接或通信。在一些实施例中，存储设备120可以是处理设备110的一部分。在一些实施例中，存储设备120可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。示例性的大容量储存器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性的挥发性只读存储器可以包括随机存取内存(RAM)。示例性的RAM可包括动态RAM(DRAM)、双倍速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、闸流体RAM(T-RAM)和零电容RAM(Z-RAM)等。示例性的ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(PEROM)、电子可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用磁盘ROM等。在一些实施例中，存储设备120可以在云平台上实现。仅作为示例，所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。例如，本说明书中一些算法或者数据可以存储在某个云平台上，定期更新，处理设备110通过网络访问这些算法或者数据，以实现整个平台的算法或者数据的统一与交互。特别的，一些历史数据可以统一存储在平台的一个云平台上，以便多个处理设备110或者终端130访问或者更新，以便保证数据的实时性和跨平台使用。例如，终端130可以随时将用户的行为数据发布到某个云平台上，系统可以根据多个终端130的数据执行决策操作。

在一些实施例中，网络140可以促进信息和/或数据的交换。在一些实施例中，决策系统100的一个或多个组件(例如，处理设备110、存储设备120、终端130等)可以通过网络140传送信息至决策系统100的其他组件。例如，处理设备110可以通过网络140从存储设备120中获取与用户相关联的信息和/或数据。在一些实施例中，网络140可以是任意形式的有线或者无线网络，或其任意组合。仅作为范例，网络140可以是有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共交换电话网络(PSTN)、蓝牙^TM网络、紫蜂^TM网络、近场通讯(NFC)网络、全球移动通讯系统(GSM)网络、码分多址(CDMA)网络、时分多址(TDMA)网络、通用分组无线服务(GPRS)网络、增强数据速率GSM演进(EDGE)网络、宽带码分多址接入(WCDMA)网络、高速下行分组接入(HSDPA)网络、长期演进(LTE)网络、用户数据报协议(UDP)网络、传输控制协议/互联网协议(TCP/IP)网络、短讯息服务(SMS)网络、无线应用协议(WAP)网络、超宽带(UWB)网络、移动通信(1G、2G、3G、4G、5G)网络、Wi-Fi、Li-Fi、窄带物联网(NB-IoT)、红外通信等中的一种或多种组合。在一些实施例中，网络140可包括一个或者多个网络接入点。例如，网络140可包括有线或无线网络进接点比如基站和/或互联网交换点(图中未示出)…。通过该网络接入点，决策系统100的一个或多个组件可以连接至网络140以交换信息和/或数据。

图2为根据本说明书的一些实施例所示的示例性处理设备的示框图。处理设备110可以包括用来实现本说明书实施例中所描述的系统的任意部件。例如，处理设备110可以通过硬件、软件程序、固件或其组合实现。为了方便起见，图中仅绘制了一个处理设备，但是本说明书实施例所描述的与决策系统100相关的计算功能可以以分布的方式、由一组相似的平台所实施，以分散系统的处理负荷。

在一些实施例中，处理设备110可以包括处理器210、存储器220、输入/输出部件230和通信端口240。在一些实施例中，所述处理器(例如，CPU)210，可以以一个或多个处理器的形式执行程序指令。在一些实施例中，所述存储器220包括不同形式的程序存储器和数据存储器，例如，硬盘、只读存储器(ROM)、随机存储器(RAM)等，用于存储由计算机处理和/或传输的各种各样的数据文件。在一些实施例中，所述输入/输出部件230可以用于支持处理设备110与其他部件之间的输入/输出。在一些实施例中，所述通信端口240可以与网络连接，用于实现数据通信。示例性的处理设备可以包括存储在只读存储器(ROM)、随机存储器(RAM)和/或其他类型的非暂时性存储介质中的由处理器210执行的程序指令。本说明书实施例的方法和/或流程可以以程序指令的方式实现。处理设备110也可以通过网络通讯接收本说明书中披露的程序和数据。

为理解方便，图2中仅示例性绘制了一个处理器。然而，需要注意的是，本说明书实施例中的处理设备110可以包括多个处理器，因此本说明书实施例中描述的由一个处理器实现的操作和/或方法也可以共同地或独立地由多个处理器实现。例如，如果在本说明书中，处理设备110的处理器执行步骤1和步骤2，应当理解的是，步骤1和步骤2也可以由处理设备110的两个不同的处理器共同地或独立地执行(例如，第一处理器执行步骤1，第二处理器执行步骤2，或者第一和第二处理器共同地执行步骤1和步骤2)。

图3为根据本说明书的一些实施例所示的基于标签分布学习的决策方法的示例性流程图。所述决策可以是针对线上业务推广时，确定发送给用户的红包或奖励金的金额大小。所述决策也可以是针对风险管控时，确定用户行为对应的风险大小。在一些实施例中，方法300中的一个或以上步骤可以在图1所示的系统100中实现。例如，方法300中的一个或以上步骤可以作为指令的形式存储在存储设备120和/或存储器220中，并被处理设备110和/或处理器210调用和/或执行。

步骤310，获取与至少一个用户相关的至少一组特征数据。步骤310可以由获取模块610执行。

在一些实施例中，所述用户可以是指网络支付平台的使用者。例如，所述用户可以是终端130(例如，智能手机)的使用者，通过安装于终端130之上的应用程序访问所述网络支付平台并使用其提供的多种业务。所述用户也可以是指有业务(例如，本说明书中提到的第一业务)使用潜在需求的个人或群体。例如，用户通过网络支付平台实现过转账，同时网络支付平台提供信贷业务，则用户可以是信贷业务的潜在需求者。在一些实施例中，所述特征数据可以是用于刻画用户并在一定程度上反映用户需求或消费习惯的数据。所述特征数据可以包括但不限于用户的行为数据、属性数据等。示例性的用户的行为数据可以包括但不限于用户的线上操作事件、线上操作类型、线上操作时间、线上操作地点、线上支付交易金额(若涉及线上支付)、线上支付交易是否使用红包(或奖励金)、红包(或奖励金)大小、消费记录、关注内容、订阅记录、浏览习惯、保险数据、信贷历史等数据。示例性用户的属性数据可以包括但不限于用户的身份、年龄、性别、身高、体重、地理位置等数据。在一些实施例中，所述至少一个用户与所述至少一组特征数据一一对应。每一个用户对应一组特征数据。

在一些实施例中，所述特征数据可以从存储设备中读取。其中，所述存储设备可以是决策系统100中的存储设备(例如，存储设备120、存储器220等)，也可以是不属于系统100的外部存储设备(例如，光盘、移动硬盘等)。在一些实施例中，所述特征数据可以通过接口获取。所述接口可以包括但不限于程序接口、数据接口、传输接口等。在一些实施例中，决策系统100工作时，可以自动从所述接口中提取特征数据。例如，获取模块610可以实时获取终端130上产生的用户的行为数据。在一些实施例中，还可以采用本领域技术人员熟知的任意方式获取特征数据，本说明书的实施例对此不做限制。

步骤320，对于每一个用户，基于所述一组特征数据，以及第一决策模型，确定与所述用户对应的分布曲线。步骤320可以由确定模块620执行。

在一些实施例中，所述第一决策模型可以是基于标签分布学习的可迁移深度学习模型。所述深度学习模型可以包括但不限于深度神经网络(Deep Neural Networks，DNN)、玻尔兹曼机(Boltzmann Machines)、深度自编码器(Deep Auto Encoder)等。在一些实施例中，所述第一决策模型可以是基于标签分布学习的可迁移深度神经网络模型。所述标签分布可以是指标签集合中所有标签的描述度构建了一个类似于概率分布的数据形式，用以表达标签对应的样本在完整数据(例如，所有的样本)中所占的比例。所述标签分布学习是指学习标签分布的过程。所述可迁移表示在某个领域中训练获得的模型可以应用于不同但是相关的领域。示例性的深度神经网络模型可以包括但不限于循环神经网络(RecurrentNeural Networks)、递归神经网络(Recursive Neural Networks)、卷积神经网络(Convolutional Neural Networks)、长短时记忆神经网络(Long Short-term MemoryNetwork)、门限循环单元(Gated Neural Unit)、深度信念网络(Deep Belief NeuralNetworks)、生成式对抗网络(Generative Adversarial Networks)等。所述基于标签分布学习的可迁移深度神经网络模型可以使用大量的样本特征数据(作为训练输入)以及与样本特征数据相关的样本结果(作为标签)，利用标签分布算法训练初始的深度神经网络模型而得到。关于模型获取的描述可以参考本说明书图4部分。

可以理解，由于标签分布算法的特征，所述第一决策模型(即，基于标签分布学习的可迁移深度学习模型)的输出并非是针对一个用户的点估计，而是一个分布估计。因此，确定模块620将与用户相关的至少一组特征数据输入所述第一决策模型，所获取的可以是与所述用户对应的分布曲线。在一些实施例中，所述分布曲线可以是用于表示用户对于数值的敏感度的曲线。例如，针对业务推广场景，所述分布曲线可以是发送至用户的红包或奖励金大小与用户使用接收的红包或奖励金后尝试所述业务的几率之间的曲线。所述分布曲线可以由连续的函数表示，并且对应于不同的场景，分布曲线还可以具有不同的趋势。例如，用户对于红包或奖励金的敏感可以是随着红包或奖励金的变大而上升的。作为示例，所述分布曲线趋势可以包括单调递增或单调递减等。参考图7，图7是根据本说明书的一些实施例所示的示例性分布曲线的示意图。如图7所示，示例性分布曲线可以用以说明红包或奖励金大小与被使用几率之间(例如，核销率)的关系，其是一条连续且单调递增的曲线。随着红包或奖励金的增大，核销率也增大，反应了用户对于红包或奖励金的敏感度随着红包或奖励金的增大而提升。

在一些实施例中，示例性的分布曲线可以由以下方程式表示：

其中，y表示用户的对于数值的敏感度(例如，用户对于接收到的红包或奖励金的核销率)，t表示与决策相关的数值集合中的其中某一数值(例如，发送给用户的红包或奖励金的大小)，w表示第一参数，b表示第二参数，y_max表示用户对于数值的敏感度的最大值，y_min表示用户对于数值的敏感度的最小值。在一些实施例中，第一参数w和第二参数b可以是所述第一决策模型的网络层输出层的两个节点的输出，用户特征通过模型训练过程可以学习得到上述两个参数w和b。在其中的一些实施例中，参数w和b可以只与用户特征相关，，α∈[1,5]。y_max和y_min可以是根据模型训练的样本数据所确定的。

可以知道的是，由于使用了标签分布学习算法，所述第一决策模型产出的分布曲线覆盖了一个较大的数值范围。这使得利用所述分布曲线可以对在模型训练时样本数据中未出现的样本决策结果(例如，红包或奖励金的大小)进行决策。例如，假定所述第一决策模型在训练时所使用的样本数据不包含数值(例如，红包或奖励金的大小)为10-20这一范围内的数据。如果使用其他的决策模型，则无法预估用户在10-20这一范围内的决策结果。而由于所述第一决策模型的输出为连续的分布曲线，则可以利用分布曲线对10-20这一范围进行决策。这样增加了所述第一决策模型的决策空间，使得模型的覆盖性更广。

步骤330，至少基于所述分布曲线，确定针对每个用户的第一决策结果。步骤330可以由确定模块620执行。

在一些实施例中，所述第一决策结果可以是与第一业务有关的结果。所述第一业务可以指向用户推荐使用或激励继续使用的网络应用程序或其包括的某个功能所对应的业务。例如，向用户推荐的网上支付平台提供收付款、以及信贷功能，则是第一业务可以是收付款业务，或信贷业务。在一些实施例中，所述第一决策结果可以包括用于激励用户的成本的数值。例如，可以通过向用户发放一定数值的红包或者赠予一定数值的免额权益来激励用户使用该应用程序或功能。

在一些实施例中，确定模块620可以获取与第一业务相关的目标决策结果，基于所述目标决策结果和与用户对应的分布曲线确定用户最大转化率，以及基于所述用户最大转化率，确定针对每个用户的第一决策结果。关于确定针对每个用户的第一决策结果的内容可以参考本说明书的一个或多个实施例(例如，图5及其描述)，此处不再赘述。

在一些实施例中，所述第一决策模型可以被更新。模型更新可以由更新模块630执行。在一些实施例中，更新模块630可以基于与用户相关的至少一组特征数据以及第一决策结果，更新第一决策模型。更新模块630可以将所述至少一组特征数据作为第一决策模型的输入，将所述第一决策结果作为对应于所述输入的标签，继续训练所述第一决策模型，以获取更新后的第一决策模型。

在一些实施例中，所述第一决策模型可以用于迁移。由于使用了标签分布学习算法，使得所述第一决策模型可以输出关于用户的分布曲线。使用所述分布曲线，可以对在模型训练时样本数据中未出现的样本决策结果(例如，红包或奖励金的大小)进行决策。例如，假定所述第一决策模型在训练时所使用的样本数据不包含数值(例如，红包或奖励金的大小)为10-20这一范围内的数据。如果使用其他的决策模型，则无法预估用户在10-20这一范围内的决策结果。而由于所述第一决策模型的输出为连续的分布曲线，则可以利用分布曲线对10-20这一范围进行决策。正因如此，使得所述第一决策模型可以在无需无偏样本积累的条件下迁移到其他业务。模型的可迁移性可以使第一决策模型适用多个业务，这样降低样本积累的成本和模型训练的成本。模型迁移可以由迁移模块640执行。在一些实施例中，迁移模块640可以基于迁移学习方法以及第一决策模型，获取第二决策模型。所述迁移学习算法可以包括特征迁移、样本迁移、场景迁移等多种算法。所述第二决策模型可以适用于第二业务并确定与第二业务相关的针对每个用户的第二决策结果。在一些实施例中，所述第二业务可以与第一业务相似或接近。例如，假定所述第一业务是网络支付平台提供的信用消费业务，则所述第二业务可以是网络支付平台提供的信用借贷业务。两者背景相似，但用于激励用户使用的红包或奖励金的范围不同。

应当注意的是，上述有关流程300的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程300进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。例如，流程300中的所有步骤可以在包括一组指令的计算机可读介质中实现。指令可以以电子流或电信号的形式传输。

图4为根据本说明书的一些实施例所示的获取第一决策模型的示例性流程图。在一些实施例中，方法400中的一个或以上步骤可以在图1所示的系统100中实现。例如，方法400中的一个或以上步骤可以作为指令的形式存储在存储设备120和/或存储器220中，并被处理设备110和/或处理器210调用和/或执行。在一些实施例中，方法400可以由确定模块620执行。

步骤410，获取与多个样本用户相关的多组样本特征数据。

在一些实施例中，所述样本用户可以是与所述第一业务相关的历史参与者。例如，所述样本用户可以是已经使用过网络支付平台提供的业务的用户。所述样本用户可以是个人或群体。需要注意的是，所述样本用户可以是通过发放的红包或奖励金的激励而参与业务的。在一些实施例中，所述样本特征数据可以是指用于刻画样本用户并在一定程度上反映样本用户需求的数据。在一些实施例中，样本特征数据可以包括但不限于样本用户的行为数据、属性数据等。示例性样本用户的行为数据可以包括但不限于样本用户的消费记录、关注内容、订阅记录、红包或奖励金记录、浏览习惯、保险数据、信贷历史等数据。示例性样本用户的属性数据可以包括但不限于样本用户的身份、年龄、性别、身高、体重、地理位置等数据。在一些实施例中，样本特征数据可以至少包括与样本结果相关的数据，例如，样本用户的消费记录、红包或奖励金记录等。每一个样本用户可以对应一组样本特征数据。在一些实施例中，样本特征数据可以从存储设备中读取。其中，所述存储设备可以是决策系统100中的存储设备(例如，存储设备120、存储器220等)，也可以是不属于系统100的外部存储设备(例如，光盘、移动硬盘等)。在一些实施例中，样本特征数据可以通过接口获取。所述接口可以包括但不限于程序接口、数据接口、传输接口等。在一些实施例中，决策系统100工作时，可以自动从所述接口中提取样本特征数据。例如，可以实时获取终端130上产生的样本用户的行为数据。在一些实施例中，还可以采用本领域技术人员熟知的任意方式获取样本特征数据，本说明书的实施例对此不做限制。

步骤420，对于每个样本特征数据，划分所述样本特征数据为第一样本特征数据集和第二样本特征数据集。

在一些实施例中，所述第一样本特征数据集可以是样本特征数据中与样本结果无关的特征数据集。所述样本结果可以是训练模型后希望通过训练好的模型得到的决策结果。例如，假定训练好的模型的功能是为推荐业务而确定发送至用户的红包或奖励金的大小，则所述第一样本特征数据集所包括的特征数据与红包或奖励金的大小无关，比如第一样本特征数据集可以包含与样本用户相关的身份、年龄、性别、身高、体重、地理位置、关注内容、订阅记录、浏览习惯等数据。所述第二样本特征数据集可以是样本特征数据中与样本结果相关的特征数据集。例如，第二样本特征数据集可以包含与样本用户相关的消费记录、红包或奖励金记录、保险数据、信贷历史等数据。

步骤430，基于多个第一样本特征数据集，利用标签分布学习算法训练初始决策模型，获取中间决策模型。

在一些实施例中，所述初始决策模型可以是没有经过训练的深度学习模型。例如，初始决策模型可以包括但不限于深度神经网络(Deep Neural Networks)、玻尔兹曼机(Boltzmann Machines)、深度自编码器(Deep Auto Encoder)等。示例性的深度神经网络模型可以包括但不限于循环神经网络(Recurrent Neural Networks)、递归神经网络(Recursive Neural Networks)、卷积神经网络(Convolutional Neural Networks)、长短时记忆神经网络(Long Short-term Memory Network)、门限循环单元(Gated NeuralUnit)、深度信念网络(Deep Belief Neural Networks)、生成式对抗网络(GenerativeAdversarial Networks)等。在一些实施例中，可以利用标签分布学习算法，将与多个样本用户相关的多组第一样本特征数据集输入到初始决策模型，以获取中间决策模型。所述中间决策模型可以是尚未完成对初始决策模型的完整训练的过渡模型。在一些实施例中，对于所述初始决策模型的训练可以是训练模型的输出层的两个节点，例如，两个节点可输出两个参数，为流程300中步骤320提到的第一参数w和第二参数b。所述第一参数w和第二参数b与用户的第一样本特征相关。参考图9，图9示出了其他决策模型以及根据本说明书的一些实施例的基于标签分布学习的第一决策模型的示意图。如图9所示，将第一样本特征输入所述基于标签分布学习的深度神经网络，该深度神经网络可以在输出层输出第一参数w和第二参数b。所述第一参数w可以是一个正数。在模型中对应第一参数w的节点可以采用softplus激活函数，例如，示例性的ζ(x)＝log(1+e^x)。所述第二参数b可以是大于0小于4的数。在模型中对应第二参数b的节点可以采用softsign激活函数，例如，示例性的

步骤440，基于多个第二样本特征数据集，利用标签分布学习算法训练所述中间决策模型，获取所述第一决策模型。

在一些实施例中，可以利用标签分布学习算法，将与多个样本用户相关的多组第二样本特征数据集输入到中间决策模型，以所述获取第一决策模型。在一些实施例中，对于所述中间决策模型的训练可以是训练模型的最终输出，例如，分布曲线。将所述第二样本特征数据集输入至所述中间决策模型后，结合所述中间决策模型所学习到的两个参数，可以利用标签分布学习算法继续训练以学习得到最终的分布曲线，继而完成整个模型的训练。参考图9，如图9所示，在所述基于标签分布学习的深度神经网络的输出层加入第二样本特征，所述神经网络可以输出与用户相关的分布曲线。

应当注意的是，上述有关流程400的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程400进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。例如，流程400中的所有步骤可以在包括一组指令的计算机可读介质中实现。指令可以以电子流或电信号的形式传输。

图5是根据本说明书的一些实施例所示的确定第一决策数据的示例性流程图。在一些实施例中，方法500中的一个或以上步骤可以在图1所示的系统100中实现。例如，方法500中的一个或以上步骤可以作为指令的形式存储在存储设备120和/或存储器220中，并被处理设备110和/或处理器210调用和/或执行。在一些实施例中，方法500可以由确定模块620执行。

步骤510，获取与第一业务相关的目标决策结果。

在一些实施例中，所述与第一业务相关的目标决策结果可以是用于激励多个用户使用所述第一业务的总预算成本。例如，可以在目标决策结果的范围内向多个用户发放红包或者赠予奖励权益来激励多个用户使用某个应用程序或功能。在一些实施例中，所述目标决策结果可以是预先确定的，用于向用户发放的红包或奖励金的总额。

步骤520，基于所述目标决策结果，以及所述分布曲线，确定用户最大转化率。

在一些实施例中，所述用户最大转化率可以是指在目标决策结果的约束下参与所述第一业务的用户占所述多个用户的最大比例。例如，使用接收到的红包或奖励金参与所述第一业务的用户占所有接收到红包或奖励金的用户的比值是最大的。在一些实施例中，与每个用户对应的分布曲线可以被利用，与所述目标决策结果一起，以确定所述用户最大转化率。作为示例，可以知道，所述分布曲线可以反应用户对于红包或奖励金大小的敏感度变化。例如，若某一用户的分布曲线是单调递增的曲线，那说明红包或奖励金越大，用户的红包或奖励金的核销率就越大，用户参与所述第一业务的几率也就越大。所述用户最大转化率也可以被理解为在目标决策结果约束下的所有用户参与所述第一业务的整体几率的最合理分布。参考图8，图8是根据本说明书的一些实施例所示的确定用户最大转化率的示意图。如图8所示，曲线A可以表示用户A的分布曲线，曲线B可以表示用户B的分布曲线，横轴可以是业务激励成本金额(例如，红包或奖励金大小)，纵轴可以表示用户对于激励数值的响应度(例如，核销率)。从分布曲线可以看出，用户A对于金额的响应持续升高，用户B在金额为2元时即有较高的响应，其后随着金额增大响应度处于平缓状态。对于不同的总预算成本，针对用户A和用户B可以有不同的决策结果。例如，总预算成本为2元时，可以全部分配给用户B，可以实现最大转化率。又例如，总预算成本为5元时，可以分配3元给用户A、分配2元给用户B，可以实现最大转化率。

步骤530，基于所述用户最大转化率，确定针对每个用户的第一决策结果。

在一些实施例中，在确定所述用户最大转化率后，可以直接基于获取所述用户最大转化率时，各个用户对于各自的敏感度(或者说响应几率)，从对应的分布曲线上获取对应的决策结果(例如，红包或奖励金大小)，作为所述第一决策结果。

应当注意的是，上述有关流程500的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程500进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。例如，流程500中的所有步骤可以在包括一组指令的计算机可读介质中实现。指令可以以电子流或电信号的形式传输。

图6是根据本说明书的一些实施例所示的示例性处理设备110的框图。处理设备110可以获取与目标商户相关的商户信息，并确定目标商户的风险预估值。如图6所示，处理设备110可以包括获取模块610、确定模块620、更新模块630、以及迁移模块640。

获取模块610可以获取数据。

在一些实施例中，获取模块610可以获取与至少一个用户相关的至少一组特征数据。所述特征数据可以是用于刻画用户并在一定程度上反映用户需求的数据，可以包括但不限于用户的行为数据、属性数据等。示例性用户的行为数据可以包括但不限于用户的消费记录、关注内容、订阅记录、红包记录、浏览习惯、保险数据、信贷历史等数据。示例性用户的属性数据可以包括但不限于用户的身份、年龄、性别、身高、体重、地理位置等数据。

确定模块620可以确定一个或多个结果。

在一些实施例中，确定模块620可以基于与每一个用户对应的一组特征数据和第一决策模型，确定与所述用户对应的分布曲线。所述第一决策模型可以是基于标签分布学习的可迁移深度神经网络模型，包括但不限于深度神经网络(Deep Neural Networks，DNN)、玻尔兹曼机(Boltzmann Machines)、深度自编码器(Deep Auto Encoder)等。所述分布曲线可以是用于表示用户对于数值的敏感度的曲线。例如，针对业务推广场景，所述分布曲线可以是发送至用户的红包或奖励金大小与用户使用接收的红包或奖励金后尝试所述业务的几率之间的曲线。所述分布曲线可以由连续的函数表示，并且对应于不同的场景，分布曲线还可以具有不同的趋势。

在一些实施例中，确定模块620可以至少基于所述分布曲线，确定针对每个用户的第一决策结果。所述第一决策结果可以是与第一业务有关的结果。所述第一业务可以指向用户推荐使用或激励继续使用的网络应用程序或其包括的某个功能所对应的业务。例如，向用户推荐的网上支付平台提供收付款、以及信贷功能，则是第一业务可以是收付款业务，或信贷业务。在一些实施例中，所述第一决策结果可以包括用于激励用户的成本的数值。例如，可以通过向用户发放一定数值的红包或者赠予一定数值的免额权益来激励用户使用该应用程序或功能。在一些实施例中，确定模块620可以获取与第一业务相关的目标决策结果，基于所述目标决策结果和与用户对应的分布曲线确定用户最大转化率，以及基于所述用户最大转化率，确定针对每个用户的第一决策结果。

在一些实施例中，确定模块620可以确定第一决策模型。确定模块620可以获取与多个样本用户相关的多组样本特征数据。对于每个样本特征数据，确定模块620可以划分所述样本特征数据为第一样本特征数据集和第二样本特征数据集。所述第一样本特征数据集与样本结果无关，所述第二样本特征数据集与样本结果相关。划分完毕后，确定模块620可以基于多个第一样本特征数据集，利用标签分布学习算法训练初始决策模型，获取中间决策模型。其中，所述初始决策模型为深度学习模型。随后，确定模块620可以基于多个第二样本特征数据集，利用标签分布学习算法训练所述中间决策模型，获取所述第一决策模型。

更新模块630可以更新模型。

在一些实施例中，更新模块630可以基于与用户相关的至少一组特征数据以及第一决策结果，更新第一决策模型。例如，更新模块630可以将所述至少一组特征数据作为第一决策模型的输入，将所述第一决策结果作为对应于所述输入的标签，继续训练所述第一决策模型，以获取更新后的第一决策模型。

迁移模块640可以执行迁移操作。

在一些实施例中，迁移模块640可以用于执行模型的迁移。迁移模块640可以基于迁移学习方法以及第一决策模型，获取第二决策模型。所述迁移学习算法可以包括特征迁移、样本迁移、场景迁移等多种算法。所述第二决策模型可以适用于第二业务并确定与第二业务相关的针对每个用户的第二决策结果。在一些实施例中，所述第二业务可以与第一业务相似或接近。例如，假定所述第一业务是网络支付平台提供的信用消费业务，则所述第二业务可以是网络支付平台提供的信用借贷业务。两者背景相似，但用于激励用户使用的红包或奖励金的范围不同。

关于以上各个模块的具体描述可以参考本说明书流程图部分。

应当理解，图6所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于处理设备110及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，在一些实施例中，图6中披露的获取模块610、确定模块620、更新模块630和迁移模块640可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。又例如，确定模块620可以分为确定单元和训练单元，分别用于确定对应于用户的第一决策结果，以及训练所述第一决策模型。还例如，处理设备110中各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。

图9示出了其他决策模型以及根据本说明书的一些实施例的基于标签分布学习的第一决策模型的示意图。如图9所示，图中虚框可以表示神经网络层，箭头可以表示数据流向和/或数据输出。图中左半部分可以表示其他决策模型。第一样本特征和第二样本特征输入至其他模型后，经过多个神经网络层的计算，可以得到最终的决策结果，输出为为一个单一的数值。图中的右半部分可以表示本说明中其中的一些实施例披露的基于标签分布学习的第一决策模型。第一样本特征输入至第一决策模型后，经过多个神经网络层的计算，可以在输出层输出两个参数，例如，第一参数w和第二参数b。之后，第二样本特征可以被输入至第一决策模型，结合第一参数w和第二参数b，第一决策模型可以输出最终的决策结果，为一个分布曲线。其中第一样本特征可以是用户特征，第二样本特征可以是金额特征。

本说明书实施例可能带来的有益效果包括但不限于：(1)本说明书实施例所披露的基于标签分布学习的决策模型的输出的是与用户相关的连续分布曲线，而非点估计，可以对决策模型训练时样本中没有出现的样本决策结果进行预估决策。(2)采用标签分布学习的决策模型具有可迁移性，可以降低样本积累和模型训练的成本。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种基于标签分布学习的决策方法，包括：

获取与至少一个用户相关的至少一组特征数据，每一个用户对应一组特征数据；

对于每一个用户，基于所述一组特征数据，以及第一决策模型，确定与所述用户对应的分布曲线，其中，所述第一决策模型为基于标签分布学习的可迁移深度学习模型；

至少基于所述分布曲线，确定针对每个用户的第一决策结果，所述第一决策结果与第一业务相关。

2.根据权利要求1所述的方法，其中，获取所述第一决策模型，包括：

获取与多个样本用户相关的多组样本特征数据，每一个样本用户对应一组样本特征数据，所述样本特征数据至少包括与样本结果相关的数据；

对于每个样本特征数据，划分所述样本特征数据为第一样本特征数据集和第二样本特征数据集；所述第一样本特征数据集与样本结果无关，所述第二样本特征数据集与样本结果相关；

基于多个第一样本特征数据集，利用标签分布学习算法训练初始决策模型，获取中间决策模型；其中，所述初始决策模型为深度学习模型；

基于多个第二样本特征数据集，利用标签分布学习算法训练所述中间决策模型，获取所述第一决策模型。

3.根据权利要求1所述的方法，其中，所述分布曲线由连续的函数表示。

4.根据权利要求1所述的方法，其中，所述至少基于至少一个分布曲线，确定针对每个用户的第一决策结果，包括：

获取与所述第一业务相关的目标决策结果；

基于所述目标决策结果，以及所述分布曲线，确定用户最大转化率，所述用户最大转化率表示参与所述第一业务用户占所述至少一个用户的最大比例；

基于所述用户最大转化率，确定针对每个用户的第一决策结果。

5.根据权利要求4所述的方法，其中，所述方法进一步包括：

基于所述至少一组特征数据，以及所述第一决策结果，更新所述第一决策模型。

6.根据权利要求5所述的方法，其中，所述更新所述第一决策模型，包括：

将所述至少一组特征数据作为所述第一决策模型的输入，将所述第一决策结果作为对应于所述输入的标签，继续训练所述第一决策模型。

7.根据权利要求1所述的方法，其中，所述方法进一步包括：

基于迁移学习算法，以及所述第一决策模型，获取第二决策模型；其中，所述第二决策模型用于确定针对所述用户的第二决策结果，所述第二决策结果与第二业务相关。

8.一种基于标签分布学习的决策系统，包括获取模块，以及确定模块；

所述获取模块，用于获取与至少一个用户相关的至少一组特征数据，每一个用户对应一组特征数据；

所述确定模块，用于对于每一个用户，基于所述一组特征数据，以及第一决策模型，确定与所述用户对应的分布曲线，其中，所述第一决策模型为基于标签分布学习的可迁移深度学习模型；以及用于至少基于所述分布曲线，确定针对每个用户的第一决策结果，所述第一决策结果与第一业务相关。

9.根据权利要求8所述的系统，其中，所述确定模块进一步用于获取所述第一决策模型，包括：

10.根据权利要求8所述的系统，其中，所述分布曲线由连续的函数表示。

11.根据权利要求8所述的系统，其中，为确定针对每个用户的第一决策结果，所述确定模块用于：

获取与所述第一业务相关的目标决策结果；

12.根据权利要求11所述的系统，其中，所述系统进一步包括更新模块；

所述更新模块，用于基于所述至少一组特征数据，以及所述第一决策结果，更新所述第一决策模型。

13.根据权利要求12所述的系统，其中，为更新所述第一决策模型，所述更新模块用于：

14.根据权利要求8所述的系统，其中，所述系统进一步包括迁移模块；

所述迁移模块，用于基于迁移学习算法，以及所述第一决策模型，获取第二决策模型；其中，所述第二决策模型用于确定针对所述用户的第二决策结果，所述第二决策结果与第二业务相关。

15.一种基于标签分布学习的决策装置，其特征在于，所述装置包括至少一个处理器以及至少一个存储器：所述至少一个存储器用于存储指令；所述处理器用于执行所述指令，实现如权利要求1至7中任一项所述方法。