CN110832533A

CN110832533A - 用于生成用户偏好内容的对抗式方法和系统

Info

Publication number: CN110832533A
Application number: CN201880045026.4A
Authority: CN
Inventors: 邓岳; 沈逸麟; 金红霞
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-07-21
Filing date: 2018-07-23
Publication date: 2020-02-21
Anticipated expiration: 2038-07-23
Also published as: US11721090B2; EP3655915A4; EP3655915A1; US20190026274A1; CN110832533B; WO2019017756A1

Abstract

一种推荐方法，包括：检索包括已消费内容和未消费内容的内容消费数据。基于内容消费数据，识别未消费的第一段内容。确定与第一段内容的负消费相关的第一段内容的第一特征。使用第一系统将第一特征修改为第二特征。将包括第二特征的第二段内容提供给电子设备。第二段内容是第一段内容的修改实例。

Description

用于生成用户偏好内容的对抗式方法和系统

技术领域

一个或多个实施例总体上涉及使用神经网络(NN)的数据处理，尤其涉及使用对抗式学习的数据处理。

背景技术

深度神经网络(DNN)已经在机器学习中广泛应用，从计算机视觉到语音识别以及自然语言处理。DNN将从输入到输出的参数化函数定义为多层基本函数的组合，包括线性/仿射变换和非线性函数二者。

DNN也成为一个强大的工具来处理推荐系统的任务，诸如音乐、新闻、时尚文章和移动应用程序推荐。许多媒体内容、广告、优惠券内容、促销活动等都是通过现有的推荐系统提供给用户的。终端用户很可能不喜欢大量推荐的内容。

发明内容

技术问题

传统的推荐系统丢弃了这些不喜欢的内容。结果，这些推荐系统无法向用户提供任何用户偏好的推荐。

技术方案

一个或多个实施例总体上涉及基于对抗式机器学习的内容管理。在一个实施例中，一种推荐方法包括：检索包括已消费内容和未消费内容的内容消费数据。基于内容消费数据，识别未消费的第一段内容。确定与第一段内容的负消费相关的第一段内容的第一特征。使用第一系统将第一特征修改为第二特征。将包括第二特征的第二段内容提供给电子设备。第二段内容是第一段内容的修改实例。

在一些实施例中，一种电子设备包括存储指令的存储器。至少一个处理器执行该指令，其包括如下处理，该处理被配置为：检索包括已消费内容和未消费内容的内容消费数据；基于内容消费数据，识别未消费的第一段内容；确定与第一段内容的负消费相关的第一段内容的第一特征；使用第一系统将第一特征修改为第二特征；以及提供包括第二特征的第二段内容，其中第二段内容是第一段内容的修改实例。

在一个或多个实施例中，一种非暂时性处理器可读介质包括程序，该程序在被处理器执行时执行一种方法，其包括：检索包括已消费内容和未消费内容的内容消费数据；基于内容消费数据，识别未消费的第一段内容；确定与第一段内容的负消费相关的第一段内容的第一特征；使用第一系统将第一特征修改为第二特征；以及向电子设备提供包括第二特征的第二段内容，其中第二段内容是第一段内容的修改实例。

从下面结合附图通过示例方式说明一个或多个实施例的原理的详细描述中，一个或多个实施例的这些以及其他方面和优势将变得清楚。

附图说明

为了更全面理解实施例的特征和优势以及优选使用模式，应当参考下文结合附图阅读的详细描述，附图中：

图1示出根据一些实施例的通信系统的示意性视图；

图2示出根据一些实施例的包括电子设备和云或服务器环境在内的系统的架构框图，该系统能够单独地或组合地执行基于对抗式学习的数据处理；

图3A示出不平衡数据分类的示例；

图3B示出根据一些实施例的通过变换大类样本以生成更多小类样本来解决图3A的不平衡数据分类的示例方案；

图4示出根据一些实施例的伪装对抗式网络(DAN)的概览；

图5示出根据一些实施例的用于训练DAN的示例过程；

图6A示出根据一些实施例的将广告(例如，电视(TV)广告)的特征矢量进行伪装的示例；

图6B示出根据一些实施例的将电子优惠券的特征矢量进行伪装的示例；

图7示出根据一些实施例的用于基于对抗式机器学习来修改内容的过程的框图；以及

图8是示出包括实施一个或多个实施例的计算系统在内的信息处理系统的高级框图。

具体实施方式

做出下列描述的目的是举例说明一个或多个实施例的通用原理，而不意味着限制本文请求保护的发明概念。此外，本文描述的特定特征可以与各种可能组合和排列中的每一个中的其他描述的特征结合使用。除非在此另有明确定义，否则所有术语都应被给予可能的最广泛解释，包括说明书中隐含的含义以及本领域技术人员所理解的含义和/或字典、专著等中定义的含义。

应当注意，术语“…中至少一个”是指前面元素中的一个或不止一个。例如，“a、b、c或其组合中至少一个”可以解释为：“a”、“b”或“c”单独地；或“a”和“b”组合在一起；“b”和“c”组合在一起；“a”和“c”组合在一起；或“a”、“b”和“c”组合在一起。

一个或多个实施例提供基于对抗式机器学习的内容管理。一些实施例包括一种方法，其包括一种推荐方法，包括：检索包括已消费内容和未消费内容的内容消费数据。基于内容消费数据，识别未消费的第一段内容。确定与第一段内容的负消费相关的第一段内容的第一特征。使用第一系统将第一特征修改为第二特征。向电子设备提供包括第二特征的第二段内容。第二段内容是第一段内容的修改实例。

DNN是强大且流行的学习模型，其在许多计算机视觉、语音和语言处理任务中实现了最先进的模式识别性能。为了清晰起见，术语“网络”指的是网络架构(例如，NN架构)，其描述了施加在输入上的变换，而“模型”指的是具有通过在某些训练数据集上训练网络而获得的固定参数的已训练网络。

在一些实施例中，将用户不喜欢的内容修改成喜欢的内容。本文提到的“内容”包括但不限于广告内容、媒体内容、TV流/流传输、优惠券、促销活动、虚拟现实(VR)内容、促销等。在一些实施例中，采用机器学习框架并将其称为“对抗式评论学习”。对抗式学习释放了为训练机器学习模型而对人类提供的标签的需求。对抗式评论学习设计了在生成器之间的对抗式博弈，以为新生成的特征提供更增强的评估。使用对抗式学习的思想来处理机器学习中不完善标签的问题。不完善标签涵盖了被标记的数据集中涉及的不平衡的标签分布和错误的标签。推荐系统用于修改不喜欢的内容，对“喜欢”所修改内容的可能性进行评估，然后推荐成功修改的内容。

在一些实施例中，对抗式评论学习机制用于通过为生成的数据人为地提供标签来评估生成的新内容。此功能使得学习框架能够更稳健地处理训练数据中的不完善标签。这种不完善标签分布包括不平衡的标签、有噪声的标签以及甚至缺失的标签。一些实施例通过重新访问不喜欢的内容并学习改进它们，来将不喜欢的内容修改为喜欢的内容。一些实施例不选取全新的内容，而是修改不喜欢的内容。这种方法增加了推荐机会，并可以扩展到个性化设置。

在一些实施例中，在推荐系统中采用对抗式优化。传统的推荐系统纯粹基于从用户获得的真实数据来形成它们的推荐决策。这种数据可能是片面的，不能充分覆盖可能的操作和反馈的整个集合。不同的是，一些实施例采用对抗式推荐来评估来自现实世界数据和生成的特征这二者的推荐内容。生成的内容和用户的反馈不是从现实世界数据获得的，而是通过对抗式评论学习处理进行模拟的。

一些实施例提供以下能力：生成终端用户之前不喜欢的新修改内容；识别生成的新内容和其他现实世界内容的似然概率；使用虚拟对抗式学习来设计与传统系统相比需要更少训练数据的实用推荐系统；使用对抗式评论学习对具有不平衡标签分布的数据点进行分类；使用对抗式评论学习对具有错误标签的数据进行分类；以及减少推荐系统中对训练样本大小的需求。

图1是根据一个实施例的通信系统10的示意性视图。通信系统10可以包括发起向外通信操作的通信设备(发送设备12)和通信网络110，发送设备12可以使用通信网络110来发起并进行与通信网络110内的其他通信设备的通信操作。例如，通信系统10可以包括接收来自发送设备12的通信操作的通信设备(接收设备11)。尽管通信系统10可以包括多个发送设备12和接收设备11，但是在图1中仅各示出一个以简化附图。在一个实施例中，通信系统10可以部分地形成对抗式学习框架。

可以使用可操作为创建通信网络的任何合适的电路、设备、系统或其组合(例如，包括通信塔和电信服务器的无线通信基础设施)来创建通信网络110。通信网络110能够使用任何合适的通信协议来提供通信。在一些实施例中，通信网络110可以支持例如传统电话线路、有线电视、Wi-Fi(例如，IEEE 802.11协议)、

高频系统(例如，900MHz、2.4GHz和5.6GHz通信系统)、红外、其他相对局部化的无线通信协议、或其任意组合。在一些实施例中，通信网络110可以支持无线和蜂窝电话以及个人电子邮件设备(例如，

)所使用的协议。这样的协议可以包括例如GSM、GSM+EDGE、CDMA、四频带以及其他蜂窝协议。在另一示例中，长距离通信协议可以包括Wi-Fi和用于使用VOIP、LAN、WAN或其他基于TCP-IP的通信协议来拨打或接收呼叫的协议。当发送设备12和接收设备11位于通信网络110内时，它们可以通过双向通信路径(诸如路径13)或通过两条单向通信路径进行通信。发送设备12和接收设备11都能够发起通信操作和接收发起的通信操作。

发送设备12和接收设备11可以包括用于发送和接收通信操作的任何合适的设备。例如，发送设备12和接收设备11可以包括但不限于移动电话设备、电视(TV)系统、智能TV系统、照相机、摄像机、具有音频视频功能的设备、平板电脑、可穿戴设备、智能家电、智能相框以及能够进行无线通信(在支持无线的附件系统的帮助下或无需支持无线的附件系统的帮助)或经由有线通道(例如，使用传统电话线路)进行通信的任何其他设备。通信操作可以包括任何合适形式的通信，例如包括语音通信(例如，电话呼叫)、数据通信(例如，数据和控制消息收发、电子邮件、文本消息、媒体消息)、视频通信或其组合(例如，视频会议)。

图2示出系统100的架构框图，系统100能够使用电子设备120(例如，移动电话设备、TV系统、照相机、摄像机、具有音频视频功能的设备、平板电脑、平板设备、可穿戴设备、智能家电、智能相框、智能照明等)、云或服务器140、或者电子设备120与云计算(例如，可配置计算系统资源和更高级服务的共享池等)或服务器140(例如，管理网络资源的计算机、设备或程序等)的组合，利用对抗式学习来执行数据处理。发送设备12(图1)和接收设备11都可以包括电子设备120的部分或全部特征。在一些实施例中，电子设备120可以包括：显示器121、麦克风122、音频输出123、输入机制124、通信电路125、控制电路126、照相机128、处理和存储器129、NN修改和判别处理130和/或131(用于使用电子设备120上、云/服务器140上、电子设备120和云/服务器140的组合上的NN修改和NN判别处理来基于对抗式机器学习对内容进行修改，与通信电路125通信以利用云或服务器140获取/提供信息；并且可以包括用于但不限于下文描述的示例的任意处理)、以及任何其他合适的组件。提供应用1-N 127，其可以从云或服务器140、通信网络110(图1)等获取，其中N是等于或大于1的正整数。

在一些实施例中，音频输出123、显示器121、输入机制124、通信电路125和麦克风122所采用的所有应用可以通过控制电路126互连和管理。在一个示例中，能够向其他调谐设备发送音乐的手持式音乐播放器可以并入在电子设备120中。

在一些实施例中，音频输出123可以包括任何合适的音频组件，用于向电子设备120的用户提供音频。例如，音频输出123可以包括内置在电子设备120中的一个或多个扬声器(例如，单声道或立体声扬声器)。在一些实施例中，音频输出123可以包括远程耦接到电子设备120的音频组件。例如，音频输出123可以包括可以利用有线方式(例如，利用插孔耦接到电子设备120)或无线方式(例如，

头戴式受话器或

头戴式耳机)耦接到通信设备的头戴式耳机、头戴式受话器或耳塞。

在一些实施例中，显示器121可以包括任何合适的屏幕或投影系统，用于提供向用户可见的显示。例如，显示器121可以包括并入在电子设备120中的屏幕(例如，LCD屏、LED屏、OLED屏等)。作为另一示例，显示器121可以包括可移动显示器或投影系统，用于在远离电子设备120的表面上提供内容显示(例如，视频投影仪)。显示器121可以在控制电路126的指导下操作以显示内容(例如，关于通信操作的信息或关于可用媒体选择的信息)。

在一些实施例中，输入机制124可以是任何合适的机制或用户接口，用于向电子设备120提供用户输入或指令。输入机制124可以采取各种形式，诸如按钮、键区、转盘、点击式滚轮、鼠标、可视指针、遥控器、一个或多个传感器(例如，照相机或视觉传感器、光传感器、接近传感器等)或触摸屏。输入机制124可以包括多点触摸屏。

在一些实施例中，通信电路125可以是任何合适的通信电路，其可操作为连接到通信网络(例如，图1中的通信网络110)并将来自电子设备120的通信操作和媒体发送到通信网络内的其他设备。通信电路125可以操作为使用任何合适的通信协议与通信网络连接，例如Wi-Fi(例如，IEEE 802.11协议)、

高频系统(例如，900MHz、2.4GHz和5.6GHz通信系统)、红外、GSM、GSM+EDGE、CDMA、四频带以及其他蜂窝协议、VOIP、TCP-IP或任何其他合适的协议。

在一些实施例中，通信电路125可以操作为使用任何合适的通信协议创建通信网络。例如，通信电路125可以使用短距离通信协议创建短距离通信网络以连接到其他通信设备。例如，通信电路125可以操作为使用

协议创建局部通信网络以将电子设备120与

头戴式耳机耦接。

在一些实施例中，控制电路126可以操作为控制电子设备120的操作和性能。控制电路126可以包括例如处理器、总线(例如，用于向电子设备120的其他组件发送指令)、存储器、存储设备或用于控制电子设备120的操作的任何其他合适的组件。在一些实施例中，一个或多个处理器(例如，在处理和存储器129中)可以驱动显示器并处理从用户接口接收的输入。存储器和存储设备可以包括例如高速缓存器、闪速存储器、ROM和/或RAM/DRAM。在一些实施例中，存储器可以专用于存储固件(例如，用于设备应用，诸如操作系统、用户接口功能和处理器功能)。在一些实施例中，存储器可以操作为存储与其他设备相关的信息，电子设备120可以利用这些信息来执行通信操作(例如，保存与通信操作相关的联系信息或存储与用户选择的不同媒体类型和媒体项目相关的信息)。

在一些实施例中，控制电路126可以操作为执行在电子设备120上实施的一个或多个应用的操作。可以实施任何合适数量或类型的应用。尽管下列讨论将列举不同应用，但是将理解，部分或所有应用可以组合成一个或多个应用。例如，电子设备120可以包括应用1-N127，其包括但不限于：自动语音识别(ASR)应用、OCR应用、对话应用、地图应用、媒体应用(例如，QuickTime、MobileMusic.app或MobileVideo.app)、社交网络应用(例如，

等)、日历应用(例如，用于管理事件、预约等的日历)、互联网浏览应用、推荐应用等。在一些实施例中，电子设备120可以包括可操作为执行通信操作的一个或多个应用。例如，电子设备120可以包括消息收发应用、电子邮件应用、语音邮件应用、即时消息收发应用(例如，用于聊天)、视频会议应用、传真应用或用于执行任何合适的通信操作的任何其他合适的应用。

在一些实施例中，电子设备120可以包括麦克风122。例如，电子设备120可以包括麦克风122以允许用户在通信操作期间或作为建立通信操作的手段或作为使用物理用户接口的替代，发送用于应用1-N 127的语音控制和导航的音频(例如，语音音频)。麦克风122可以并入在电子设备120中，或者可以远程耦接到电子设备120。例如，麦克风122可以并入在有线头戴式受话器中，麦克风122可以并入在无线头戴式耳机中，麦克风122可以并入在遥控设备中，等等。

在一些实施例中，照相机模块128包括一个或多个照相机设备，其包括用于捕获静止和视频图像的功能性、编辑功能性、用于发送、分享照片/视频等的通信互操作性等。

在一些实施例中，电子设备120可以包括适合于执行通信操作的任何其他组件。例如，电子设备120可以包括电源、用于耦接到主机设备的端口或接口、辅助输入机制(例如，通/断开关)或任何其他合适的组件。

图3A示出不平衡数据分类的一个示例。信息样本310被称为小类(例如，喜欢的内容、点击的广告信息日志数据、用户消费的推荐等)。线305表示分类。信息样本320被称为大类(例如，不喜欢的内容、未点击的广告信息日志、用户未消费的推荐等)。如图所示，信息样本是不平衡的，其中小类侧的信息样本310相对于大类侧的信息样本320是不足的。一种方法是执行大类下采样。尽管这可以平衡这两个类，但是关于小类的信息不够丰富(例如，随着来自小类的样本而增加，使得两个类是平衡的)。另一种方法是通过在小类中添加合成的“伪”样本对小类中的点进行过采样来执行小类上采样。然而，通过上采样生成的数据的质量相比于实际数据较低。

图3B示出根据一些实施例的通过(使用变换T 330)变换大类信息样本320以生成更多小类信息样本311来解决图3A的不平衡数据分类的示例方案。在一些实施例中，大类中的一些信息样本320(使用变换T 330)被变换成图3A的小类信息样本310中的新样本，以成为信息样本311。在一些实施例中，变换T 330将一些大类信息样本320变换为小类信息样本311。作为变换的结果，这两个类之间的平衡总体上得以增强，如图3B所示。在一些实施例中，变换T 330包括使用如下所述的伪装对抗式网络(DAN)。

在一些实施例中，采用基于NN的伪装对抗式网络(DAN)来提高具有有限正类信息的监督学习的准确性。在点击率(CTR)预测的情境下，DAN背后的合理性可以直观地理解为“未点击的广告化妆”。DAN将不喜欢的内容(例如，被忽略的广告、广告印象(未点击)等)伪装成有趣的内容，并鼓励判别器将这些伪装的内容分类为正推荐。在对抗性方面，判别器是清醒的，它被优化为根据无监督信息理论分配策略将这些伪装的内容分配给它们的固有类。使用DAN得到的结果在CTR预测方面明显优于传统的监督学习和生成式对抗网络(GAN)。

在一些实施例中，DAN可以被实施用于小类扩展，以实现上采样的效果。DAN解决与不平衡标签相关联的CTR预测问题。DAN并入了伪装神经网络来生成更多样本，以通过伪装负样本(即，大类样本)来丰富小类。在一些实施例中，伪装神经网络“欺骗”判别器(判别神经网络)以使其相信所有伪装样本都是正的。判别神经网络也被实施为经由信息理论判别聚类策略将这些伪装的样本明确地分配给它们的固有类。相比于传统系统，DAN提高了推荐频率和准确性二者。当较少的训练数据可用时，DAN也非常有效。DAN保持合理的良好性能，即使将训练样本的大小减小到例如10％，这提供了提高的处理速度。

Ad数据(或广告数据)的一个显著问题是不平衡的标签分布，即，有限的正样本(点击)对充足的负样本(未点击)。针对这一问题的自然的解决方案是丰富少数正群组的信息。然而，在现实世界场景中，可能无法直接从用户那里寻求更多的正样本。在一些实施例中，DAN经由生成式DNN来生成更多正样本。在一些实施例中，DAN使用所谓的“Ad化妆(广告化妆)”。广告化妆的一般假设是，如果不喜欢的广告的某些属性稍微改变/修改，则它可能有机会成为感兴趣的广告(这将导致正样本)。广告特征矢量包含一个表示广告呈现时间的条目。例如，如果对“超级碗比赛”的广告印象在早上10点被推送给用户(其中广告的时间特征被表示为“早上”)，则该广告可能不会被点击，因为早上时间可能总是工作时间。相应地，关于“超级碗广告”的未点击记录被累积在训练数据中。但是这并非必然意味着“超级碗广告”本身是不好的，不被用户喜欢。在一些实施例中，广告中的所有其他特征保持相同，但是广告的显示时间特征从“早上”改成“晚上”。那么基于显示时间修改，所修改的不喜欢的原始广告可能变为受欢迎的并获得点击。根据上面讨论的合理性，可以通过稍微修改将历史数据中的大量未点击变换成感兴趣的内容。在一些实施例中，DAN针对未点击进行变换和化妆。

在一些实施例中，采用“判别神经网络”即判别器来模拟真实用户对广告点击的行为。从DAN方面来看，其目标在于最终伪装未点击广告并鼓励判别器将这些伪装的广告分类为正的。从对抗性视角看，判别器避免被伪装网络欺骗并使用“智能”目标来识别伪装的广告。

图4示出根据一些实施例的DAN的概览。实线箭头指示DAN的修改(或伪装)NN 430的训练过程流，而虚线箭头指示用于DAN的判别NN 440的流程。在一些实施例中，判别NN440的目标包括两个选项。第一选项是“严格目标”，其被建立为将所有伪装的内容(例如，伪装的广告)分配给负类(例如，未点击)。对目标的第一选项可能过于严格而不合理。应当有一些成功伪装的内容(例如，伪装的广告)，例如时间特征被表示为“早上”的超级碗广告，其在化妆后可以被分配给正类。在一个示例中，如果把所有伪装的广告当作未点击，则这些成功伪装的广告和它们对应的最喜欢的特征内容可能不会被正确地馈送到分类器的正侧。因此，可以将更合理的“温和目标”用于判别NN 440。温和目标应当根据伪装数据的特征值将伪装数据分配到两个类中(例如，点击和未点击)。为了实现这一点，将聚类目标设计用于判别NN 440，以鼓励两个类之间有较大的裕度。在一些实施例中，“温和目标”可以智能地处理成功伪装的样本和未成功伪装的样本二者，而没有任何偏见的预先判断。应当注意，尽管广告的上下文可能涉及CTR预测，但是DAN也适合于一般的分类问题。

在一些实施例中，DAN将不喜欢的内容当作输入。这些输入可以归纳成特征矢量x。DAN通过修改NN 430传递不喜欢的内容(例如，真实数据410的未点击数据412)以改变不喜欢的内容的一些特征。DAN将修改NN 430定义为变换T。在一些实施例中，应当注意，可以将变换T实施为诸如NN的处理。DAN通过评估处理(诸如判别NN 430)对修改后的内容进行评估。评估处理试图将修改后的内容置于两个类中，即正类和负类。所有分配给正类的样本都是成功修改的内容(例如，修改数据420的伪装的未点击421)。修改后的内容可以再次提供给电子设备120(图2)供用户使用。这意味着对应的不喜欢的内容(例如，未点击数据412)现在被修改NN 430变换为感兴趣的内容。相反，负类包含所有未成功修改的内容(例如，剩余的未点击数据412)。负类中的数据都是不喜欢的内容，即使在修改NN 430中变换之后也是如此。修改NN 430的目标是说服评估处理将所有修改后的内容421分配到正类(例如，点击)中，而不分配到任何负类中(例如，无未点击数据413)。评估处理的目标是根据修改后内容的固有特征属性/值，将修改后的内容公平地分配到正类和负类中。通过对抗式优化(例如，对抗式博弈460)，对修改NN 430和评估处理的目标进行联合优化。

在一些实施例中，虽然可以在CTR预测的上下文中对DAN进行描述，但是所有关于DAN的后续讨论也无缝地适合于一般的分类问题。根据上面讨论的合理性，历史数据中应当有大量不喜欢的内容，可以使用DAN通过修改将不喜欢的内容变换为感兴趣的内容。DAN变换这些内容的一个或多个特征。判别NN 440被设计用于模拟真实用户对内容评级的行为。从修改NN 430方面来看，其目标是最终对内容进行变换并鼓励判别NN 440将这些修改内容分类为正的。从对抗性视角看，判别NN 440应当避免被伪装网络欺骗，并提出“智能”目标来识别这些修改内容。在一些实施例中，判别NN 440是经过训练阶段的训练模型。在NN的训练阶段中，已知每条记录的正确类，并且输出节点被分配与正确类相对应的节点的“正确”值(例如，1、.9等)且被分配其他节点的不正确值(例如，0、.1等)。将输出节点的NN计算值与这些“正确”值进行比较，并计算每个节点的误差项。误差项用于调整权重，以便进一步的迭代得到更接近“正确”值的输出值。因此，对于每次迭代，每次都要调整与输入值相关联的权重。在此训练阶段期间，NN通过调整权重来进行学习以预测输入样本的正确类标签。

在一些实施例中，修改NN 430的学习部分通过实线箭头链接。有M个正样本(点击411)x⁺～P_A ⁺(x)和N个负样本(未点击412)x^-～P_A ^-(x)，对于不平衡的情况，M<N。A⁺表示正样本的空间(相应地，A^-表示负样本的空间)。修改NN 430 T()将负样本映射到

其中

是伪装样本z(修改的点击421)所跨越的空间，其中z与现实世界数据x⁺和x^-共享相同的维度。修改NN 430的学习目的是鼓励两个分布P_A ⁺(x)和P_A ⁺(z)的对等。从“伪装目标”450来看，显然伪装目标意图利用判别NN 440D(·)将所有伪装数据(伪装的未点击421)分配到正类。NN 440D(·)中的最后一层连接到Sigmoid输出以指示输入样本为正的概率。因此，我们可以在数学上写出伪装学习目标：

[数学公式1]

L₁(T，D)＝-E_x-[log D(T(x^-)]+λ||T(x^-)-x^-||₁.

第一项是输出概率与正分布之间的Kullback-Liebler(KL)散度。KL是交叉熵项的一部分。第二项使用l₁距离来限制伪装过程以只对原始内容进行“轻微”的改变。l₁距离是交叉熵项的一部分。

传统的生成式对抗网络被设计用于生成从未在现实世界中存在过的全新样本。因此，传统的生成式对抗网络需要对随机种子(矢量)进行采样，以馈送到生成器中并产生编造的输出。不同的是，在DAN中，所有样本都来自现实世界数据(例如，真实数据410)，并且修改NN 430的输入是实际的负样本。修改NN 430调整负数据，以使负数据服从正类中的分布。因此，在DAN中使用“伪装”这个词而不是“生成器”。这种特性在图4中很明显，使得DAN的基础架构中不包含随机矢量采样功能。

如图4中虚线箭头所示，根据一些实施例，判别NN 440将真实数据410和修改的数据420二者作为输入。因此，这两种类型的数据都会导致判别NN 440中的最终损失。真实数据410包括用户点击标签，因此通过交叉熵损失来定义这部分数据的监督损失并不困难。第二部分损失是判别NN 440对伪装数据的态度。如上所述，对于判别NN 440而言有两种可能的方式来处理伪装的数据，要么凭借“严格损失”，要么凭借“温和损失”。在一些实施例中，采用更合理的“温和损失”并允许一些负数据变换为正数据。然而，困难在于不知道伪装数据中哪一部分表现得像正样本，哪一部分仍然是负的。为了解决这一问题，在正、负伪装样本之间最大化信息理论裕度。与监督学习中的其他裕度不同，这种信息理论裕度是完全无监督的。在DAN中，假设有N个未标记的点。当判别NN 440D(·)将这N个点分配给2个类(l＝1或l＝0)时，判别器的分配置信度可以通过以下加性条件熵M_D(x)来很好地表征。

[数学公式2]

条件熵捕获两个类之间的判别聚类裕度，因此M_D(x)被称为信息理论裕度(例如，信息裕度471)。该项应被最小化以鼓励聚类结果之间有较大的裕度。将上述两部分的损失合并在一起，形成判别NN 440的最终训练目标：

[数学公式3]

L₂(T，D)＝-E_x-[log[1-D(x^-)]]-E_x ⁺[log[D(x^-)]+ηM₃(T(x^-)).

其中前两项来自现实世界标记数据的交叉熵，最后一项惩罚修改的数据420(例如，伪装的未点击421)的裕度。应当注意，DAN中的方法与传统的生成式对抗网络有很大的不同，在传统的生成式对抗网络中，判别器仅被设立用于对样本的真伪进行分类。在传统的半监督学习中，用于训练的未标记数据是预先固定的。不同的是，在一些实施例中，DAN中的无监督样本是由修改NN 430产生的。因此，判别NN 440可能有机会在多次迭代中访问不同版本的伪装样本。更重要的是，随着训练迭代的进行，修改NN 440也在进化并可能为判别器生成更困难的样本。因此，与传统的半监督学习相比，可以在训练阶段中利用更多样化更困难的无监督样本对DAN进行优化。如此，DAN实现了比传统的半监督方法更佳的性能，后者仅采用预先固定的未标记样本作为辅助。

图5示出根据一些实施例的用于训练DAN的示例过程500。DAN的训练涉及双层优化，其需要依次最小化伪装和判别器的损失。将所有训练样本分成多个小批次，并且迭代地馈送这些小批次，以对DAN进行训练。在一个实施例中，选择K的默认值(例如，K＝100，等等)。

深度学习框架具有“重训练”的名声。由于涉及到两个(深度)NN(图4中的修改NN430和判别NN 440)，DAN需要重训练复杂度。此外，将这两个NN的学习目标设计成相互对抗。对抗式训练的博弈本质不可避免地增加了优化的复杂度。在一些实施例中，通过减少总训练样本来提高训练速度。在一些实施例中，训练速度的提高可能部分归因于编码在DAN的对抗式学习框架中的自数据增强机制(将使不平衡的数据分布平衡)。因此，在保持良好性能的同时减小总训练规模是合理的。

在一些实施例中，可能将该框架扩展到处理多类任务。一种扩展是以一对多的方式来实施DAN。

图6A示出根据一些实施例的将广告(例如，电视(TV)广告610)的特征矢量615进行伪装的示例。在示例TV广告610中，特征矢量615包括诸多特征，包括领带样式、西服颜色等。针对原始TV广告610，特征矢量615包括领带样式为格子的领带样式620以及白色西服颜色630。假设所接收的TV广告610未被点击、查看、打开等。在伪装处理630(例如，使用上述DAN)之后，特征矢量615被修改为具有纯色领带样式621和黑色西服颜色631。在此示例中，DAN的修改NN 430(图4)通过其他用户的总体数据来学习知识类型(即，经过训练)；并且对特征矢量615的修改做出决定。修改后的特征矢量615与原始的特征矢量615相比提供了更好的机会来接收正结果(即，点击或查看)。应当注意，也可以修改/伪装其他特征以改善所追求的正结果，诸如投放TV广告610的一天中的时间、一周中的天等等，以便优化具有正结果的可能性。还应当注意，在一些实施例中，如果某个特征没有改变，则DAN的修改NN 430对该特征的输出为零，表示该特征不需要任何改变。

图6B示出根据一些实施例的将电子优惠券611的特征矢量616进行伪装的示例。在示例电子优惠券611中，原始的特征矢量616包括$5折扣优惠券640的特征。假设所接收的电子优惠券611未被点击、查看、打开等。在伪装处理630(例如，使用上述DAN)之后，特征矢量616被修改为具有特征为$7.80折扣优惠券641的电子优惠券。修改后的特征矢量616与原始的特征矢量616相比提供了更好的机会来接收正结果(即，点击、查看、打开等)。应当注意，也可以修改/伪装其他特征以改善所追求的正结果，诸如投放电子优惠券611的一天中的时间、一周中的天等等，以便优化具有正结果的可能性。

图7示出根据一些实施例的用于使用NN修改和NN判别处理来基于对抗式机器学习对内容进行修改的过程700的框图。在一些实施例中，过程700的框710提供：检索内容消费数据(例如，从图2中的设备120获取点击和未点击的内容数据，等等)，其包括已消费内容(例如，对内容的正动作)和未消费内容(例如，对内容的负动作)。在一些实施例中，通过确定正用户动作和负用户动作等等，可以从不同的促销/广告活动中检索内容消费数据。在框720中，过程700基于内容消费数据来识别未消费的第一段内容(例如，内容上无动作，未点击内容，等等)。在框730中，过程700确定与第一段内容的负消费相关的第一段内容的第一特征(例如，特征矢量的第一特征或特征值)。在一些实施例中，该确定是基于所涉及的内容或项目的类型。例如，领带可能具有诸多特征，比如：宽度、颜色、样式、材质、形状等。DAN基于对历史数据(例如，类似内容、产品等的在先正动作)的训练/学习来确定哪些特征如果被修改可能相比于其他修改会得到正动作。在框740中，过程700使用第一系统(例如，第一机器学习处理、第一NN系统、图4中的修改NN 430)将第一特征修改为第二特征(例如，修改/伪装的特征；伪装的未点击，图4中的421，等等)。在框750中，过程700向电子设备(例如，图2中的电子设备120)提供包括第二特征的第二段内容(例如，修改后的TV广告、修改后的电子优惠券等)(第二段内容是第一段内容的修改实例)。在框760中，过程700通过对抗式处理(例如，图4中的对抗式博弈460)，基于对第一神经网络(例如，图4中的修改NN 430)的伪装目标(例如，图4中的伪装目标450)和第二神经网络(例如，图4中的判别NN 440)的判别目标(例如，图4中的判别目标470)进行评估来优化第二段内容。

在一些实施例中，过程700包括由第一系统(例如，图4中的修改NN 430)将第一段内容变换为多段内容。该多段内容中的每一段改变第一段内容的不同特征(例如，特征矢量的特征)；使用第二系统(例如，图4中的判别NN 440)，利用训练模型(例如，经由机器学习)来评估该多段内容中的每一段。在一些实施例中，该训练模型是基于内容消费数据进行训练的。过程700还包括：基于评估结果确定第二段内容具有成功消费(例如，对内容的正动作、点击等)的可能性，来识别第二段内容。

在一些实施例中，过程700还包括：基于内容消费数据识别已消费的第三段内容；确定导致消费第三段内容的第二特征；以及找到第二段内容。第二段内容将第一特征替换为第二特征。

在一些实施例中，过程700还包括：基于训练模型更新第一系统(例如，图4中的修改NN 430)。过程700还可以包括：由第二系统将第二段内容分配到正消费类或负消费类；以及当确定第二段内容被分配到正消费类时，向电子设备提供第二段内容。在一些实施例中，第二神经网络(例如，图4中的判别NN 440)模拟用户对内容消费评级的行为。

图8是示出包括实施一个或多个实施例的计算系统在内的信息处理系统的示例性高级框图。系统800包括一个或多个处理器811(例如，ASIC、CPU等)，并且还可以包括电子显示设备812(用于显示图形、文本和其他数据)、主存储器813(例如，随机访问存储器(RAM)、高速缓存设备等)、存储设备814(例如，硬盘驱动)、可移动存储设备815(例如，可移动存储设备、可移动存储器、磁带驱动、光盘驱动、其内存储有计算机软件和/或数据的计算机可读介质)、用户接口设备816(例如，键盘、触摸屏、键区、指点设备)和通信接口817(例如，调制解调器、无线收发机(诸如Wi-Fi、蜂窝)、网络接口(诸如以太网卡)、通信端口或PCMCIA插槽和卡)。

通信接口817允许通过互联网850、移动电子设备851、服务器852、网络853等在计算机系统和外部设备之间传送软件和数据。系统800还包括前述设备811至817所连接到的通信基础设施818(例如，通信总线、交叉开关或网络)。

经由通信接口817传送的信息可以是信号形式，诸如电信号、电磁信号、光信号或能够经由运载信号的通信链路被通信接口817接收的其他信号，所述通信链路可以使用电线或线缆、光纤、电话线路、蜂窝电话链路、射频(RF)链路和/或其他通信信道来实施。

在电子设备(例如，图2中的电子设备120)的一个或多个实施例的一种实现方式中，系统800还包括图像捕获设备820(诸如照相机128(图2))和音频捕获设备819(诸如麦克风122(图2))。系统800还可以包括应用处理或处理器，诸如MMS 821、SMS 822、电子邮件823、社交网络接口(SNI)824、音频/视频(AV)播放器825、网络浏览器826、图像捕获827等。

在一个实施例中，系统800包括NN修改和判别处理830，其可以实施如上所述关于NN修改和判别处理130和/或131(图2)、DAN处理(图4)和过程700(图7)所描述的类似处理。在一个实施例中，NN修改和判别处理830连同操作系统829可以被实施为驻留在系统800的存储器中的可执行代码。在另一实施例中，NN修改和判别处理830可以提供在硬件、固件等中。

在一个实施例中，主存储器813、存储设备814和可移动存储设备815中的每一个可以自身或组合地存储用于上述实施例的指令，所述指令可以由一个或多个处理器811执行。

如本领域技术人员所知的，以上描述的前述示例性架构根据所述架构可以以多种方式来实施，诸如供处理器执行的程序指令、软件模块、微代码、计算机可读介质上的计算机程序产品、模拟/逻辑电路、专用集成电路、固件、消费电子设备、AV设备、无线/有线发送器、无线/有线接收器、网络、多媒体设备等。此外，所述架构的实施例可以采取完全硬件实施例、完全软件实施例、或包含硬件和软件元件二者的实施例的形式。

已经参考根据一个或多个实施例的方法、装置(系统)和计算机程序产品的流程图示和/或框图描述了一个或多个实施例。这种图示/框图中的每个框或其组合可以通过计算机程序指令来实施。当计算机程序指令被提供给处理器时，产生一种机器，使得经由处理器执行的指令创建用于实施在流程图和/或框图中指定的功能/操作的装置。流程图/框图中的每个框可以表示硬件和/或软件模块或逻辑，从而实施一个或多个实施例。在备选实现中，框中注释的功能可以不按附图中提到的顺序进行，并发地进行，等等。

术语“计算机程序介质”、“计算机可用介质”、“计算机可读介质”和“计算机程序产品”用于总体指代介质，诸如主存储器、辅存储器、可移动存储设备、安装在硬盘驱动中的硬盘。这些计算机程序产品是用于向计算机系统提供软件的装置。计算机可读介质允许计算机系统从计算机可读介质读取数据、指令、消息或消息包以及其他计算机可读信息。计算机可读介质例如可以包括非易失性存储器，诸如软盘、ROM、闪速存储器、盘驱动存储器、CD-ROM以及其他永久性存储设备。例如，这对于在计算机系统之间传输信息(诸如数据和计算机指令)很有用。计算机程序指令可以存储在计算机可读介质中，其可以指导计算机、其他可编程数据处理装置或其他设备按特定方式工作，使得存储在计算机可读介质中的指令产生一种制品，该制品包括实施在流程图和/或框图的一个或多个框中指定的功能/动作的指令。

本文中表示框图和/或流程图的计算机程序指令可以加载到计算机、可编程数据处理装置或处理设备上以引起在其上执行一系列操作，从而产生计算机实现的过程。计算机程序(即，计算机控制逻辑)存储在主存储器和/或辅存储器中。计算机程序也可以经由通信接口接收。这种计算机程序在被执行时使得计算机系统执行本文所讨论的实施例的特征。特别地，计算机程序在被执行时使得处理器和/或多核处理器执行计算机系统的特征。这种计算机程序表示计算机系统的控制器。计算机程序产品包括有形存储介质，其可被计算机系统读取并存储供计算机系统执行的指令以执行一个或多个实施例的方法。

尽管已经参考一些版本描述了实施例，但是其他版本也是可能的。因此，所附权利要求的精神和范围不应当受限于本文包含的优选版本的描述。

Claims

1.一种推荐方法，包括：

检索包括已消费内容和未消费内容的内容消费数据；

基于所述内容消费数据，识别未消费的第一段内容；

确定与所述第一段内容的负消费相关的所述第一段内容的第一特征；

使用第一系统将所述第一特征修改为第二特征；以及

向电子设备提供包括所述第二特征的第二段内容，其中所述第二段内容是所述第一段内容的修改实例。

2.根据权利要求1所述的推荐方法，还包括：

由所述第一系统将所述第一段内容变换为多个内容段，其中所述多个内容段中的每一段改变所述第一段内容的不同特征；

使用第二系统，利用训练模型来评估所述多个内容段中的每一段，其中所述训练模型已基于所述内容消费数据经过训练；以及

基于评估结果确定所述第二段内容具有成功消费的可能性，识别所述第二段内容。

3.根据权利要求1所述的推荐方法，还包括：

基于所述内容消费数据识别已消费的第三段内容；

确定导致消费所述第三段内容的第二特征；以及

找到所述第二段内容，其中所述第二段内容将所述第一特征替换为所述第二特征。

4.根据权利要求2所述的推荐方法，还包括：

基于所述训练模型更新所述第一系统。

5.根据权利要求2所述的推荐方法，还包括：

由所述第二系统将所述第二段内容分配到正消费类或负消费类；以及

当确定所述第二段内容被分配到正消费类时，向所述电子设备提供所述第二段内容。

6.根据权利要求2所述的推荐方法，其中所述第一系统包括第一神经网络，并且所述第二系统包括第二神经网络。

7.根据权利要求6所述的推荐方法，其中所述第二神经网络模拟用户对内容消费评级的行为。

8.根据权利要求6所述的推荐方法，还包括：

通过对抗式处理，基于对所述第一神经网络的伪装目标和所述第二神经网络的判别目标进行评估来优化所述第二段内容。

9.一种电子设备，包括：

存储指令的存储器；以及

执行所述指令的至少一个处理器，所述指令包括被配置为执行如下操作的处理：

检索包括已消费内容和未消费内容的内容消费数据；

基于所述内容消费数据，识别未消费的第一段内容；

使用第一系统将所述第一特征修改为第二特征；以及

提供包括所述第二特征的第二段内容，其中所述第二段内容是所述第一段内容的修改实例。

10.根据权利要求9所述的电子设备，其中所述处理还被配置为：

11.根据权利要求9所述的电子设备，其中所述处理还被配置为：

基于所述内容消费数据识别已消费的第三段内容；

确定导致消费所述第三段内容的第二特征；以及

12.根据权利要求10所述的电子设备，其中所述处理还被配置为：

基于所述训练模型更新所述第一系统；

13.根据权利要求10所述的电子设备，其中所述第一系统包括第一神经网络，所述第二系统包括第二神经网络，并且所述第二神经网络模拟用户对内容消费评级的行为。

14.根据权利要求13所述的电子设备，其中所述处理还被配置为：