CN109218741B

CN109218741B - 一种直播控制方法及装置

Info

Publication number: CN109218741B
Application number: CN201710538917.0A
Authority: CN
Inventors: 毛锋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2021-10-22
Anticipated expiration: 2037-07-04
Also published as: CN109218741A

Abstract

本文公开了一种直播控制方法及装置，上述直播控制方法包括：根据设定时长的真实直播内容，预测将要发生的直播内容；根据预测得到的直播内容，执行相应的直播控制操作。如此，提高对直播内容的监控效果，实现防患于未然。

Description

一种直播控制方法及装置

技术领域

本发明涉及数据处理技术，尤其涉及一种直播控制方法及装置。

背景技术

目前，网络直播作为一种新的内容传播方式，一方面提升了用户体验和效率，另一方面也给不良内容，如色情、涉政、暴恐等提供了新的传播渠道，不但给互联网平台商、运营商带来巨大的违规风险，也给社会、国家造成巨大的负面影响。由于网络直播过程产生的内容是实时的，若采用人工方式审核直播内容，不仅成本巨大，而且效率低下。另外，在目前的网络直播自动监控方案中，都是基于直播中已经发生的内容进行监控，因此导致监控决策具有滞后性，无法实现防患于未然。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供一种直播控制方法及装置，能够提高对直播内容的监控效果，实现防患于未然。

第一方面，本申请实施例提供一种直播控制方法，包括：

根据设定时长的真实直播内容，预测将要发生的直播内容；

根据预测得到的直播内容，执行相应的直播控制操作。

其中，所述根据设定时长的真实直播内容，预测将要发生的直播内容，可以包括：

从设定时长的真实直播内容中采样得到M帧真实内容；

基于预测网络模型处理所述M帧真实内容，得到N帧预测内容；其中，所述预测网络模型包括一种或多种分辨率下的深度卷积神经网络，N、M均为大于或等于1的整数。

其中，所述基于预测网络模型处理所述M帧真实内容，得到N帧预测内容，可以包括：

按照所述分辨率由小到大的顺序，依次确定任一种分辨率下的深度卷积神经网络的输出内容；其中，分辨率P_i下的深度卷积神经网络的输入内容包括：扩展到分辨率P_i的N帧特征内容、缩放到分辨率P_i的M帧真实内容，所述N帧特征内容是分辨率P_i-1下的深度卷积神经网络的输出内容，其中，分辨率P_i大于分辨率P_i-1，i为大于1的整数；分辨率P₁下的深度卷积神经网络的输入内容包括：缩放到分辨率P₁的M帧真实内容；

根据最大分辨率下的深度卷积神经网络的输出内容，确定N帧预测内容。

其中，所述预测网络模型可以是通过优化第一目标函数训练得到的；所述第一目标函数可以包括以下部分：相似度损失、运动损失以及对抗损失。

其中，一帧真实内容和一帧预测内容之间的运动损失可以通过以下方式确定：

针对一帧真实内容中的任一像素，根据所述像素与相邻真实内容帧中的邻域像素的L1距离，确定所述像素的真实帧间运动信息；

针对一帧预测内容中的任一像素，根据所述像素与相邻预测内容帧中的邻域像素的L1距离，确定所述像素的预测帧间运动信息；

根据全部像素的真实帧间运动信息和预测帧间运动信息之间的L1距离，确定所述运动损失。

其中，所述对抗损失可以通过以下方式确定：

采用对抗网络对所述预测网络模型输出的预测内容进行判别，根据判别结果，确定所述对抗损失；

其中，所述对抗网络包括深度卷积神经网络，所述对抗网络的输入包括第一组内容和第二组内容，所述第一组内容为真实内容，若所述第二组内容为预测内容，则所述对抗网络的输出为0，若所述第二组内容为真实内容，则所述对抗网络的输出为1；

所述对抗网络是通过优化第二目标函数训练得到的。

其中，上述方法还可以包括：通过以下方式训练所述预测网络模型和所述对抗网络：

执行以下步骤直至所述第二目标函数满足收敛条件：

根据真实直播内容、基于所述真实直播内容预测得到的预测内容以及所述对抗网络，计算所述第一目标函数，根据所述第一目标函数的计算结果，更新所述预测网络模型；

基于更新后的预测网络模型，计算所述第二目标函数，根据所述第二目标函数的计算结果，更新所述对抗网络。

其中，所述预测将要发生的直播内容之后，上述方法还可以包括：

根据预测得到的直播内容以及与所述预测得到的直播内容对应的真实直播内容，计算所述第一目标函数和所述第二目标函数，并更新所述预测网络模型和所述对抗网络；

在所述第二目标函数满足收敛条件时，采用更新后的预测网络模型和对抗网络进行内容预测。

其中，所述根据预测得到的直播内容，执行相应的直播控制操作，可以包括：

在检测到预测得到的直播内容满足直播控制条件时，执行与所述直播控制条件对应的直播控制操作。

第二方面，本申请实施例提供一种直播控制装置，包括：

预测模块，适于根据设定时长的真实直播内容，预测将要发生的直播内容；

控制模块，适于根据预测得到的直播内容，执行相应的直播控制操作。

其中，所述预测模块可以适于通过以下方式根据设定时长的真实直播内容，预测将要发生的直播内容：

从设定时长的真实直播内容中采用得到M帧真实内容；

第三方面，本申请实施例提供一种直播预测方法，包括：

获取设定时长的真实直播内容；

根据所述设定时长的真实直播内容，基于预测网络模型，预测将要发生的直播内容；

其中，所述预测网络模型包括一种或多种分辨率下的深度卷积神经网络。

其中，所述根据所述设定时长的真实直播内容，基于预测网络模型，预测将要发生的直播内容，可以包括：

从设定时长的真实直播内容中采样得到M帧真实内容；

按照所述分辨率由小到大的顺序，依次确定任一种分辨率下的深度卷积神经网络的输出内容；其中，分辨率P_i下的深度卷积神经网络的输入内容包括：扩展到分辨率P_i的N帧特征内容、缩放到分辨率P_i的M帧真实内容，所述N帧特征内容是分辨率P_i-1下的深度卷积神经网络的输出内容，其中，分辨率P_i大于分辨率P_i-1，i为大于的整数；分辨率P₁下的深度卷积神经网络的输入内容包括：缩放到分辨率P₁的M帧真实内容；

其中，所述对抗损失可以通过以下方式确定：

所述对抗网络是通过优化第二目标函数训练得到的。

第四方面，本申请实施例提供一种直播预测装置，包括：

获取模块，适于获取设定时长的真实直播内容；

直播预测模块，适于根据所述设定时长的真实直播内容，基于预测网络模型，预测将要发生的直播内容；

其中，所述直播预测模块可以适于通过以下方式根据所述设定时长的真实直播内容，基于预测网络模型，预测将要发生的直播内容：

从设定时长的真实直播内容中采样得到M帧真实内容；

第五方面，本申请实施例提供一种控制方法，包括：

根据已发生信息，预测尚未发生信息；

根据尚未发生信息，执行控制操作。

其中，所述根据尚未发生信息，执行控制操作，可以包括：

在检测到的所述尚未发生信息满足控制条件时，执行与所述控制条件对应的控制操作。

第六方面，本申请实施例提供一种数据处理方法，包括：

获取已经接收到的第一数据；

根据所述第一数据，计算第二数据，其中，所述第二数据为所述第一数据的预测后续数据；

判断所述第二数据是否为目标数据。

其中，所述第一数据可以包括第一图像数据；所述第二数据可以包括第二图像数据。

其中，上述数据处理方法还可以包括：若所述第二数据为目标数据，将发送所述目标数据的计算设备的网络连接屏蔽。

其中，上述数据处理方法还可以包括：若所述第二数据为目标数据，向发送所述目标数据的计算设备发送提示信息。

第七方面，本申请实施例提供一种数据处理方法，包括：

向接收端计算设备，发送第一数据，其中，所述接收端计算设备适于根据所述第一数据，计算第二数据，并确定所述第二数据是否为目标数据，其中，所述第二数据为所述第一数据的预测后续数据；

接收提示信息，其中，所述提示信息适于提示待发送数据为目标数据。

其中，所述第一数据可以为非目标数据。

第八方面，本申请实施例提供一种装置，包括：存储器、处理器以及存储在所述存储器上并在所述处理器上运行的直播控制程序，所述直播控制程序被所述处理器执行时实现上述第一方面的直播控制方法的步骤。

此外，本申请实施例还提供一种计算机可读介质，存储有直播控制程序，所述直播控制程序被处理器执行时实现上述第一方面的直播控制方法的步骤。

此外，本申请实施例还提供一种计算机可读介质，存储有直播预测程序，该直播预测程序被处理器执行时实现上述第三方面的直播预测方法的步骤。

此外，本申请实施例还提供一种计算机可读介质，存储有控制程序，该控制程序被处理器执行时实现上述第五方面的控制方法的步骤。

此外，本申请实施例还提供一种计算机可读介质，存储有数据处理程序，该数据处理程序被处理器执行时实现上述第六方面或第七方面的数据处理方法的步骤。

在本申请实施例中，根据设定时长的真实直播内容，预测将要发生的直播内容，并根据预测得到的直播内容，执行相应的直播控制操作。如此，基于对真实直播内容的预测结果，进行直播控制，可以在不良或受管控的直播内容播出前就进行相应控制，从而实现防患于未然，提高直播内容的监控效果。

进一步地，在本申请实施例中，采用包括相似度损失、运动损失以及对抗损失的第一目标函数训练预测网络模型，并采用预测网络模型进行直播内容预测，如此，在保证预测高相似度的直播内容的前提下，使生成的预测内容帧有高锐度、逼真的细节和连贯的运动，从而提高了直播预测效果。

进一步地，在本申请实施例中，通过对预测网络模型进行在线更新，使得预测网络模型可以对不同场景和类型的直播内容具有自适应性。

当然，实施本申请的任一产品不一定需要同时达到以上所有优点。

附图说明

图1为CNN卷积层计算原理的示意图；

图2为卷积计算的示意图；

图3为实施本申请实施例一的直播控制方法的系统示意图；

图4为本申请实施例一提供的直播控制方法的流程图；

图5为本申请实施例一的单路直播预测的示意图；

图6为本申请实施例一的预测网络模型的结构示意图；

图7为本申请实施例一的预测网络模型的示例图；

图8为本申请实施例一的运动损失的计算示意图；

图9为本申请实施例一的对抗网络的结构示意图；

图10为本申请实施例一的预测网络模型G和对抗网络D的训练逻辑示意图；

图11为本申请实施例二的预测网络模型G和对抗网络D的在线训练流程图；

图12为本申请实施例三提供的直播控制装置的示意图；

图13为本申请实施例四提供的直播预测方法的流程图；

图14为本申请实施例四提供的直播预测装置的示意图；

图15为本申请实施例五提供的控制方法的流程图；

图16为本申请实施例六提供的数据处理方法的流程图；

图17为本申请实施例七提供的数据处理方法的流程图。

具体实施方式

以下结合附图对本申请实施例进行详细说明，应当理解，以下所说明的实施例仅用于说明和解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本申请实施例以及实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

一些实施方式中，执行直播控制方法、直播预测方法、控制方法或者数据处理方法的计算设备可包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存(memory)。

内存可能包括计算机可读介质中的非永久性存储器、随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。内存可能包括模块1，模块2，……，模块N(N为大于2的整数)。

计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)，快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

术语解释：

卷积神经网络(Convolutional Neural Network，CNN)：多个卷积神经元级联的多层网络，通过权值共享实现了参数的降维和快速求解；具体而言，传统的神经网络是全连接的，用来学习整幅图像上的特征，从计算角度而言，非常耗时；然而，自然图像有其固有特性，也就是说，图像的一部分的统计特性与其他部分是一样的；这也意味着在这一部分上学习到的特征也能用在另一部分上，因此对于这个图像上的所有位置，都能使用同样的学习特征；当从一个大尺寸图像中随机选取一小块，比如说11×11作为样本，并且从这个小块样本中学习到了一些特征，这时可以把从这个11×11样本中学习到的特征作为探测器，应用到这个图像的任意地方中去；特别是，可以用从11×11样本中所学习到的特征跟原本的大尺寸图像作卷积，从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。如图1所示，一幅分辨率为224×224，通道为3的输入图像，与48个不同参数、尺寸都为11×11×3的卷积核进行卷积运算，获得了48个尺寸为55×55的特征映射(feature map)。图1中展示了两个卷积核对图像卷积后，在两个feature map上对应的地方生成了激活值。

深度卷积神经网络：一种更多层的神经网络，而且加入了大量的卷积滤波器(称局部感知野)。基于深度卷积神经网络进行的图像识别可以通过大量的标注数据自主学习特征，并同时生成分类器，最终的模型能够克服因环境光线的多样化、人种的多样性等问题，相对传统的方法在分类预测性能上有大幅度的提升。

卷积：深度卷积神经网络的核心计算单元。对图像像素矩阵I，作用一个3×3大小的卷积核W，即将对应的像素值进行相乘并求和，如以下公式和图2所示：

H[i][j]＝I×W＝∑(I[i][j]×w[k][l])；

其中，I[i][j]表示位于图像第i行、第j列的像素，w[k][l]表示位于卷积核第k行、第l列的值。

张量：一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。

L1距离：也称曼哈顿距离，用以标明两个点在标准坐标系上的绝对轴距总和。

实施例一

图3为实施本申请实施例一的直播控制方法的系统示意图。如图3所示，本申请实施例的系统可以包括：直播内容发出端30、直播分发平台32、内容播放端36以及内容预测集群34。

其中，直播内容发出端30可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable MediaPlayer，PMP)、可穿戴设备等移动终端，以及诸如数字TV、台式计算机等固定终端。

其中，内容播放端36可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable MediaPlayer，PMP)、可穿戴设备等移动终端，以及诸如数字TV、台式计算机等固定终端。

其中，直播分发平台32可以包括一个或多个服务端计算设备(比如，服务器)。内容预测集群34可以包括一个或多个服务端计算设备(比如，服务器)。在示例性实现方式中，内容预测集群34可以集成在直播分发平台32中。

如图4所示，本实施例提供的直播控制方法包括以下步骤：

S401、根据设定时长的真实直播内容，预测将要发生的直播内容；

S402、根据预测得到的直播内容，执行相应的直播控制操作。

在本实施例中，直播内容至少包括图像。

基于图3所示的系统，在示例性实现方式中，直播内容发出端30将直播者(用户)的视频画面推送到直播分发平台32；直播分发平台32缓存设定时长的直播内容，并将最近缓存的设定时长的直播内容发送给内容预测集群34，或者，内容预测集群34可以主动从直播分发平台32实时获取缓存的设定时长的直播内容；内容预测集群34根据获取的直播内容，进行内容预测，并将预测结果返回给直播分发平台32；直播分发平台32可以实时根据预测结果，进行不良内容的识别，并根据识别结果采取相应的措施。比如，直播分发平台32没有从预测结果中识别到不良内容时，可以将直播内容发送端30推送的直播内容正常发送给内容播放端36，由内容播放端36进行直播内容的播放；在直播分发平台32从预测结果中识别到不良内容时，可以向直播内容发出端30发出警告或阻断直播内容发出端30的直播内容。

在示例性实施方式中，本实施例的直播控制方法可以由直播分发平台32执行。比如，直播分发平台32可以根据缓存的设定时长的直播内容，进行内容预测，并实时根据预测结果，进行不良内容的识别，以便根据识别结果采取相应措施。

在示例性实现方式中，本实施例的直播控制方法可以由直播内容发出端30执行。比如，直播内容发出端30可以在向直播分发平台32推送视频画面时，进行内容预测，并根据预测结果进行不良内容的识别，根据识别结果采取相应的措施，例如，在根据预测结果识别到不良内容时，在显示界面显示警告信息或暂停向直播分发平台32推送视频画面。

在示例性实现方式中，本实施例的直播控制方法可以由内容播放端36执行。比如，内容播放端36在收到直播内容后缓存设定时长，根据缓存的设定时长的直播内容，进行内容预测，根据预测结果进行不良内容的识别，并根据识别结果采用相应的措施，例如，在根据预测结果识别到不良内容时，向直播分发平台32发出警告或暂停在显示界面播放后续的直播内容。

在本实施例中，直播产生的内容是流式的，一路直播流一天的内容小于或等于一个24小时的视频文件。本实施例进行内容预测时仅保留和处理过去设定时长(或称缓存时长)的内容，对于更早之前的直播内容当前不予处理，从而确保存储和计算效率。然而，本申请对于设定时长并不限定，可以根据系统的实际存储和计算能力进行设置。

下面参照图5以单路直播内容为例说明预测流程。

图5中的方块表示帧的采样点，ti表示采样时刻，比如t2的方块表示在t2这个时刻进行直播帧(或叫直播画面)的采样。其中，实线方块是真实播放帧的采样，虚线方块是预测获得的帧。每一行表示在某个预测时间点进行的帧序列预测，如第一行表示在t8时刻，通过{t1，t2，...，t8}这8帧的内容预测出{t9，t10，t11，t12}这4帧的内容，第二行表示在t12时刻，通过{t5，t6，...，t12}这8帧的内容预测出{t13，t14，t15，t16}这4帧的内容，第三行表示在t16时刻，通过{t9，t10，...，t16}这8帧的内容预测出{t17，t18，t19，t20}这4帧的内容。每相邻两个预测时间点的处理时间间隔为4个采样点，当采样间隔为0.5秒时(即t2-t1＝0.5秒)，那么每隔2秒进行一次预测计算。

在每个预测时间点进行帧预测后存在帧序列{R，P}，其中，R是已经发生的真实帧序列，P是在预测网络模型G下预测出的帧序列，如在t8时刻，R＝{t1，t2，t3，...，t8}，P＝{t9，t10，t11，t12}，且P＝G(R)。

在示例性实施方式中，S401可以包括：

S4011、从设定时长的真实直播内容中采样得到M帧真实内容；

S4012、基于预测网络模型处理M帧真实内容，得到N帧预测内容；其中，预测网络模型包括一种或多种分辨率下的深度卷积神经网络，N、M均为大于或等于1的整数。

其中，S4012可以包括：

按照分辨率由小到大的顺序，依次确定任一分辨率下的深度卷积神经网络的输出内容；其中，分辨率P_i下的深度卷积神经网络的输入内容包括：扩展到分辨率P_i的N帧特征内容、缩放到分辨率P_i的M帧真实内容，上述N帧特征内容是分辨率P_i-1下的深度卷积神经网络的输出内容，其中，分辨率P_i大于分辨率P_i-1，i为大于或等于1的整数；分辨率P₁下的深度卷积神经网络的输入内容包括：缩放到分辨率P₁的M帧真实内容；

其中，预测网络模型中的不同深度卷积神经网络用于处理不同分辨率的内容。

以预测网络模型G包括分辨率P₁下的深度卷积神经网络G₁、分辨率P₂下的深度卷积神经网络G₂以及分辨率P₃下的深度卷积神经网络G₃为例，即G＝{G_k|k＝1，2，3}，其中，分辨率P₁小于分辨率P₂，分辨率P₂小于分辨率P₃。如图6所示，S4012可以包括：

将M帧真实内容缩放到分辨率P₁，记为G₁I；

深度卷积神经网络G₁对G₁I进行处理后，生成分辨率为P₁的N帧特征内容，记为G₁O；

对G₁O进行上采样，扩展到分辨率P₂，记为G₁U；

将M帧真实内容缩放到分辨率P₂，记为G₂I；

深度卷积神经网络G₂处理合并后的G₁U和G₂I，生成分辨率为P₂的N帧特征内容，记为G₂O；

对G₂O进行上采样，扩展到分辨率P₃，记为G₂U；

将M帧真实内容缩放到分辨率P₃，记为G₃I；

深度卷积神经网络G₃处理合并后的G₂U和G₃I，生成分辨率为P₃的N帧特征内容，记为G₃O。

在本示例中，G₃O即为最终得到的N帧预测内容。

下面参照图7对上述示例中的深度卷积神经网络G₁、深度卷积神经网络G₂以及深度卷积神经网络G₃的实现方式进行说明。在本示例中，G₁的分辨率P₁＝W₁×H₁＝8×8，G₂的分辨率P₂＝W₂×H₂＝16×16，G₃的分辨率P₃＝W₃×H₃＝32×32。其中，不同分辨率下的深度卷积神经网络的输入图像尺寸不同。如图7所示，共有三列，从左到右分别表示G₁、G₂、G₃的处理过程。

在本示例中，以M帧真实内容为8帧图像，N帧预测内容为4帧图像为例进行说明。如图7所示，本示例的基于预测网络模型G的预测流程包括：

步骤一、将当前8帧图像缩放到W₁×H₁，并构建3×8×W₁×H₁的张量；其中，3表示每帧图像有3个颜色通道；

步骤二、在G₁中向前计算4次卷积(conv)和非线性激励(relu)，获得G₁的输出张量3×4×W₁×H₁，即生成了分辨率为W₁×H₁的4帧图像，记G₁O；

步骤三、对G₁O进行上采样(upscale)，增大分辨率到W₂×H₂，获得3×4×W₂×H₂张量，记G₁U；

步骤四、将原8帧图像缩放到W₂×H₂，构建3×8×W₂×H₂的张量，并与G₁U合并(concat)，获得3×12×W₂×H₂的张量；

步骤五、对于合并后的张量，在G₂中向前计算6次卷积和非线性激励，获得3×4×W₂×H₂，记G₂O；

步骤六、对G₂O进行上采样(upscale)，增大分辨率到W₃×H₃，获得3×4×W₃×H₃张量，记G₂U；

步骤七、将原8帧图像缩放到W₃×H₃，构建3×8×W₃×H₃的张量，并与G₂U合并，获得3×12×W₃×H₃的张量；

步骤八、在G₃中向前计算6次卷积和非线性激励，获得3×4×W₃×H₃的张量，记G₃O，即最终预测得到的4帧图像。

需要说明的是，本申请对于任一个深度卷积神经网络中进行的卷积次数并不限定，对于非线性激励所采用的非线性激励函数并不限定。其中，预测网络模型中的所有卷积核可以通过训练得到。

在示例性实施方式中，预测网络模型G是通过优化第一目标函数训练得到的；其中，第一目标函数包括以下部分：相似度损失、运动损失以及对抗损失。

其中，为了训练获得构成网络G的所有卷积核的参数，可以定义如下式所示的第一目标函数(或损失函数)，通过对该第一目标函数进行优化来完成训练：

其中，该第一目标函数包含以下三个部分：相似度损失Loss_Sim、运动损失Loss_Mv、对抗损失Loss_Adv；w₁、w₂、w₃分别是上述三个损失在第一目标函数中的权重。上式中t表示帧的时间序号，每次Loss涉及4个帧的计算，即t的个数为4。R_t表示时间序号为t的真实帧，P_t表示时间序号为t的预测帧，

表示以t为起点的4个真实帧所组成的向量，

表示以t为起点的4个预测帧所组成的向量。

其中，相似度损失Loss_Sim计算了预测图像矩阵和真实图像矩阵的L1距离，即两个图像矩阵对应像素差的绝对值之和，如下式：

针对一帧真实内容(即一个真实帧)中的任一像素，根据该像素与相邻真实内容帧中的邻域像素的L1距离，确定该像素的真实帧间运动信息；

针对一帧预测内容(即一个预测帧)中的任一像素，根据该像素与相邻预测内容帧中的邻域像素的L1距离，确定该像素的预测帧间运动信息；

根据全部像素的真实帧间运动信息和预测帧间运动信息之间的L1距离，确定运动损失。

如图8所示，以真实帧R_t中的(i，j)位置的像素为例，相邻真实帧为R_t-1，领域像素包括真实帧R_t-1中的(i，j)、(i，j-1)及(i-1，j)位置的像素。然而，本申请并不限定帧间运动信息计算时选择的相邻帧以及邻域像素的数目和位置。比如，相邻帧可以为R_t+1，邻域像素可以包括真实帧R_t+1中的(i，j)、(i，j+1)及(i+1，j)位置的像素。关于预测帧间运动信息的计算类似于真实帧间运动信息，故于此不再赘述。

其中，运动损失Loss_Mv的计算式子如下所示：

由于运动损失对帧间运动信息是敏感的，因此，可以提高预测图像的锐度和运动的连贯性。

其中，对抗损失Loss_Adv可以通过以下方式确定：

采用对抗网络D对预测网络模型G输出的预测内容进行判别，根据判别结果，确定对抗损失；

其中，对抗网络D包括深度卷积神经网络，对抗网络D的输入包括第一组内容和第二组内容，第一组内容为真实内容，若第二组内容为预测内容，则对抗网络D的输出为0，若第二组内容为真实内容，则对抗网络D的输出为1；对抗网络D是通过优化第二目标函数训练得到的。

对抗损失Loss_Adv的计算式子如下：

其中，

表示4帧真实帧；当待判别的4帧为预测帧时，结果为0，当待判别的4帧为真实帧时，结果为1。

其中，对抗网络D包括一个深度卷积神经网络，其结构如图9所示。对抗网络D的输入包括两组3×4×W₃×H₃的图像，然后通过4次卷积和非线性激励，以及3次全连接(fullconnect)获得1个值，并通过sigmoid函数形成一个0至1之间的归一化概率值，表示这两组中第2组图像是预测网络模型G生成的预测图像的概率。

需要说明的是，本申请对于对抗网络D中进行的卷积次数并不限定，对于非线性激励所采用的非线性激励函数并不限定。其中，对抗网络D的所有卷积核可以通过训练得到。

其中，为了训练对抗网络D的参数，可以定义如下所示的第二目标函数，通过对该第二目标函数进行优化来完成训练：

在示例性实施方式中，本实施例的方法还可以包括：通过以下方式训练预测网络模型和对抗网络：

执行以下步骤直至第二目标函数满足收敛条件：

根据真实直播内容、基于该真实直播内容预测得到的预测内容以及对抗网络，计算第一目标函数，根据第一目标函数的计算结果，更新预测网络模型；

基于更新后的预测网络模型，计算第二目标函数，根据第二目标函数的计算结果，更新对抗网络。

在本实现方式中，第二目标函数的收敛条件包括：第二目标函数的计算结果不再下降。

如图10所示，本实现方式的流程包括：重复如下三个步骤，直到lossD(即

)收敛(即lossD不再下降)：

步骤一、M帧直播图像(real frames)通过预测网络模型G获得N帧预测图像(predict frames)；

步骤二、基于当前对抗网络D，计算损失Loss，并将该损失通过BP(Backpropagation Algorithm，反向传播算法)算法更新预测网络模型G的参数；

步骤三、基于更新后的预测网络模型G，计算损失lossD，并将该损失通过BP算法更新对抗网络D的参数。

在本实施例中，S402可以包括：

在检测到预测得到的直播内容满足直播控制条件时，执行与直播控制条件对应的直播控制操作。

其中，直播控制条件可以包括预测得到的直播内容中存在不良内容；此时，执行与直播控制条件对应的直播控制操作可以包括：

向直播内容发出端发送告警，或者，阻断当前的直播内容。

其中，在直播内容中检测不良内容的方式可以采用相关技术中的图像识别方式。本申请对此并不限定。

其中，本申请对于直播控制条件和对应的直播控制操作并不限定。在实际应用中，可根据实际情况进行设置。

综上所述，本实施例通过最近发生的M帧真实直播内容预测将要发生的N帧内容，并基于预测结果进行直播控制，从而提高直播监控效果，实现防范于未然。进一步地，通过包括相似度损失、运动损失以及对抗损失的第一目标函数训练用于内容预测的预测网络模型G，可以在保证预测高相似度的内容帧的前提下，使预测得到的帧具有高锐度、逼真的细节和连贯的运动，从而确保预测效果。

实施例二

本实施例与实施例一的区别在于：本实施例中，在S402之后，本实施例的方法还可以包括：

根据预测得到的直播内容以及与预测得到的直播内容对应的真实直播内容，计算第一目标函数和第二目标函数，更新预测网络模型和对抗网络；

在第二目标函数满足收敛条件时，采用更新后的预测网络模型和对抗网络进行内容预测。

其中，第二目标函数的收敛条件可以包括：第二目标函数的计算结果不再下降。

在本实施例中，在直播过程中，为了更好地表达和适应新场景，可以对预测网络模型G和对抗网络D进行在线更新，在线更新过程包括以下步骤：

步骤一、对预训练好的预测网络模型G和对抗网络D进行拷贝，获得其副本G’和D’；其中，G和D用于在线预测，G’和D’用于在线训练；其中，采用G和D进行在线预测的过程可以参照实施例一所述，故于此不再赘述；

步骤二、采用G根据当前视频的M帧真实内容进行预测，获得N帧预测内容P；

步骤三、待与预测内容P对应的N帧真实内容到达后，计算Loss和LossD，并更新G’和D’；其中，根据Loss和LossD更新G’和D’的过程可以参照实施例一中G和D的训练过程，故于此不再赘述；

步骤四、当LossD收敛到一定程度，用G’和D’分别替换G和D，并回到步骤一；否则回到步骤二。即，在LossD收敛没有收敛到一定程度时，仍用之前的G和D进行在线预测，在LossD收敛到一定程度时，可以采用更新后的G’和D’进行在线预测。

如图11所示，在预测时间点t8，基于G获得了4帧预测内容，并在得到预测内容后对G’和D’进行了更新；在预测时间点t12基于G获得了4帧预测内容，并在得到预测内容后对G’和D’进行了更新，而且发现LossD收敛了；在预测时间点t16，可以用G’和D’分别替换G和D，并用更新后的G进行内容预测，并得到4帧预测内容后对G’和D’进行更新。

综上所述，在本实施例中，通过在线更新优化预测网络模型和对抗网络，使得预测网络模型对不同场景和类型的直播内容具有自适应性，从而提高预测效果。

实施例三

本实施例提供一种直播控制装置，如图12所示，包括：

预测模块120，适于根据设定时长的真实直播内容，预测将要发生的直播内容；

控制模块122，适于根据预测得到的直播内容，执行相应的直播控制操作。

其中，预测模块120可以适于通过以下方式根据设定时长的真实直播内容，预测将要发生的直播内容：

从设定时长的真实直播内容中采用得到M帧真实内容；

基于预测网络模型处理M帧真实内容，得到N帧预测内容；其中，预测网络模型包括一种或多种分辨率下的深度卷积神经网络，N、M均为大于或等于1的整数。

其中，预测模块120可以适于通过以下方式基于预测网络模型处理M帧真实内容，得到N帧预测内容：

按照分辨率由小到大的顺序，依次确定任一种分辨率下的深度卷积神经网络的输出内容；其中，分辨率P_i下的深度卷积神经网络的输入内容包括：扩展到分辨率P_i的N帧特征内容、缩放到分辨率P_i的M帧真实内容，上述N帧特征内容是分辨率P_i-1下的深度卷积神经网络的输出内容，其中，分辨率P_i大于分辨率P_i-1，i为大于1的整数；分辨率P₁下的深度卷积神经网络的输入内容包括：缩放到分辨率P₁的M帧真实内容；

其中，预测网络模型可以是通过优化第一目标函数训练得到的；其中，第一目标函数可以包括以下部分：相似度损失、运动损失以及对抗损失。

针对一帧真实内容中的任一像素，根据该像素与相邻真实内容帧中的邻域像素的L1距离，确定该像素的真实帧间运动信息；

针对一帧预测内容中的任一像素，根据该像素与相邻预测内容帧中的邻域像素的L1距离，确定该像素的预测帧间运动信息；

其中，对抗损失可以通过以下方式确定：

采用对抗网络对预测网络模型输出的预测内容进行判别，根据判别结果，确定对抗损失；

其中，对抗网络包括深度卷积神经网络，对抗网络的输入包括第一组内容和第二组内容，第一组内容为真实内容，若第二组内容为预测内容，则对抗网络的输出为0，若第二组内容为真实内容，则对抗网络的输出为1；对抗网络是通过优化第二目标函数训练得到的。

其中，本实施例的装置还可以包括：训练模块，适于通过以下方式训练预测网络模型和对抗网络：

执行以下步骤直至第二目标函数满足收敛条件：

其中，本实施例的装置还可以包括：

更新模块，适于根据预测得到的直播内容以及与预测得到的直播内容对应的真实直播内容，计算第一目标函数和第二目标函数，并更新预测网络模型和对抗网络；在第二目标函数满足收敛条件时，采用更新后的预测网络模型和对抗网络进行内容预测。

其中，控制模块122可以适于通过以下方式根据预测得到的直播内容，执行相应的直播控制操作：

关于本实施例提供的直播控制装置的相关说明可以参照实施例一或二的说明，故于此不再赘述。

本实施例还提供一种装置，包括：存储器、处理器以及存储在存储器上并在处理器上运行的直播控制程序，直播控制程序被处理器执行时实现如实施例一或二所述的直播控制方法的步骤。

其中，处理器可以包括但不限于微处理器(MCU)或可编程逻辑器件(FPGA)等的处理装置。存储器可用于存储应用软件的软件程序以及模块，如本实施例中的直播控制方法对应的程序指令或模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至上述装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

其中，上述装置还可以包括：通信单元，可以经由一个网络接收或者发送数据。在一个实例中，通信单元可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通信。

实施例四

本实施例提供一种直播预测方法，如图13所示，包括：

S131、获取设定时长的真实直播内容；

S132、根据设定时长的真实直播内容，基于预测网络模型，预测将要发生的直播内容；

其中，预测网络模型包括一种或多种分辨率下的深度卷积神经网络。

其中，S132可以包括：

从设定时长的真实直播内容中采样得到M帧真实内容；

按照分辨率由小到大的顺序，依次确定任一种分辨率下的深度卷积神经网络的输出内容；其中，分辨率P_i下的深度卷积神经网络的输入内容包括：扩展到分辨率P_i的N帧特征内容、缩放到分辨率P_i的M帧真实内容，上述N帧特征内容是分辨率P_i-1下的深度卷积神经网络的输出内容，其中，分辨率P_i大于分辨率P_i-1，i为大于的整数；分辨率P₁下的深度卷积神经网络的输入内容包括：缩放到分辨率P₁的M帧真实内容；

其中，预测网络模型可以是通过优化第一目标函数训练得到的；第一目标函数可以包括以下部分：相似度损失、运动损失以及对抗损失。

其中，对抗损失可以通过以下方式确定：

关于本实施例提供的直播预测方法的相关实现方式可以参照实施例一对S401的实现方式的描述，故于此不再赘述。

本实施例还提供一种直播预测装置，如图14所示，包括：

获取模块140，适于获取设定时长的真实直播内容；

直播预测模块142，适于根据设定时长的真实直播内容，基于预测网络模型，预测将要发生的直播内容；

其中，直播预测模块142可以适于通过以下方式根据设定时长的真实直播内容，基于预测网络模型，预测将要发生的直播内容：

从设定时长的真实直播内容中采样得到M帧真实内容；

其中，对抗损失可以通过以下方式确定：

其中，对抗网络包括深度卷积神经网络，对抗网络的输入包括第一组内容和第二组内容，第一组内容为真实内容，若第二组内容为预测内容，则对抗网络的输出为0，若第二组内容为真实内容，则对抗网络的输出为1；

对抗网络是通过优化第二目标函数训练得到的。

关于本实施例提供的直播预测装置的相关说明可以参照本实施例的直播预测方法的描述，故于此不再赘述。

实施例五

本实施例提供一种控制方法，如图15所示，包括：

S151、根据已发生信息，预测尚未发生信息；

S152、根据尚未发生信息，执行控制操作。

其中，S152可以包括：

在检测到的尚未发生信息满足控制条件时，执行与该控制条件对应的控制操作。

在示例性实施方式中，本实施例的方法可以应用于直播领域，此时，可以根据已发生的直播内容，预测尚未发生的直播内容，并根据预测得到的尚未发生的直播内容，执行相应的控制操作。关于本实施方式的说明可以参照实施例一和二的描述，故于此不再赘述。

在示例性实施方式中，本实施例的方法可以应用于风险控制领域。比如，可以根据当前的通信网络状态，预估通信网络的未来趋势，根据预估得到的未来趋势，进行风险控制处理。例如，预估到一通信网络在未来一段时间内存在被攻击的可能，则可以针对预估到的网络攻击信息，执行相应控制处理，以提升网络安全等级。或者，可以根据当前终端的使用信息，预估终端的未来使用信息，根据预估得到的未来使用信息，进行控制处理。例如，当根据一终端当前的使用信息，可以预估该终端在未来某一时刻会感染一病毒，则根据该预测结果，可以执行对该病毒的防御控制，比如阻断该终端对相关网站的访问等。

实施例六

本实施例提供一种数据处理方法，如图16所示，包括：

S161、获取已经接收到的第一数据；

S162、根据第一数据，计算第二数据，其中，第二数据为第一数据的预测后续数据；

S163、判断第二数据是否为目标数据。

在示例性实施方式中，第一数据可以包括第一图像数据；第二数据可以包括第二图像数据。

在示例性实施方式中，本实施例的数据处理方法还可以包括：

若第二数据为目标数据，将发送目标数据的计算设备的网络连接屏蔽。

若第二数据为目标数据，向发送目标数据的计算设备发送提示信息。

本实施例的数据处理方法可以应用于接收端计算设备，发送端计算设备发送第一数据，接收端计算设备根据收到的第一数据，计算第一数据的预测后续数据，并判断预测后续数据是否为目标数据。

以本实施例的数据处理方法应用于直播领域为例，基于图3，接收端计算设备可以为直播分发平台32包括的服务端计算设备，发送端计算设备可以为直播内容发出端30。在本示例中，第一数据包括已发生的真实直播内容，第二数据包括将要发生的预测直播内容。其中，接收端计算设备获取接收到的直播内容后，计算将要发生的直播内容，并判断将要发生的直播内容是否为目标数据，比如，是否为不良内容；若判断将要发生的直播内容为目标数据，则可以屏蔽发送端计算设备的网络连接，以阻止发送端计算设备发送目标数据，或者，可以向发送端计算设备发送提示信息，以提示发送端计算设备待发送数据为目标数据。关于本实施方式的说明可以参照实施例一和二的描述，故于此不再赘述。

实施例七

本实施例提供一种数据处理方法，如图17所示，包括：

S171、向接收端计算设备，发送第一数据，其中，接收端计算设备适于根据第一数据，计算第二数据，并确定第二数据是否为目标数据，其中，第二数据为第一数据的预测后续数据；

S172、接收提示信息，其中，提示信息适于提示待发送数据为目标数据。

其中，第一数据可以包括第一图像数据；第二数据可以包括第二图像数据。

其中，第一数据可以为非目标数据。

本实施例的数据处理方法可以应用于发送端计算设备，其中，接收端计算设备在判断出第二数据为目标数据之后，可以向发送端计算设备发送提示信息，以提示发送端计算设备后续待发送数据为目标数据。

以本实施例的数据处理方法应用于直播领域为例，基于图3，接收端计算设备可以为直播分发平台32包括的服务端计算设备，发送端计算设备可以为直播内容发出端30。在本示例中，第一数据包括已发生的真实直播内容，第二数据包括将要发生的预测直播内容。其中，发送端计算设备向接收端计算设备发送真实直播内容；接收端计算设备获取接收到的直播内容后，计算将要发生的直播内容，并判断将要发生的直播内容是否为目标数据，比如，是否为不良内容；若判断将要发生的直播内容为目标数据，则可以向发送端计算设备发送提示信息，比如，通知发送端计算设备的用户后续待发送数据包括不良内容。关于本实施方式的相关说明可以参照实施例一和二的描述，故于此不再赘述。

此外，本申请实施例还提供一种计算机可读介质，存储有直播控制程序，该直播控制程序被处理器执行时实现实施例一或实施例二所述的直播控制方法的步骤。

本申请实施例还提供一种计算机可读介质，存储有直播预测程序，该直播预测程序被处理器执行时实现实施例四所述的直播预测方法的步骤。

本申请实施例还提供一种计算机可读介质，存储有控制程序，该控制程序被处理器执行时实现实施例五所述的控制方法的步骤。

本申请实施例还提供一种计算机可读介质，存储有数据处理程序，该数据处理程序被处理器执行时实现实施例六或实施例七所述的数据处理方法的步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上显示和描述了本申请的基本原理和主要特征和本申请的优点。本申请不受上述实施例的限制，上述实施例和说明书中描述的只是说明本申请的原理，在不脱离本申请精神和范围的前提下，本申请还会有各种变化和改进，这些变化和改进都落入要求保护的本申请范围内。

Claims

1.一种直播控制方法，其特征在于，包括：

从设定时长的真实直播内容中采样得到M帧真实内容，所述M帧真实内容为所述真实直播内容中的M帧内容；

按照分辨率由小到大的顺序，依次确定任一种分辨率下的深度卷积神经网络的输出内容；其中，分辨率P_i下的深度卷积神经网络的输入内容包括：扩展到分辨率P_i的N帧特征内容、缩放到分辨率P_i的M帧真实内容，所述N帧特征内容是分辨率P_i-1下的深度卷积神经网络的输出内容，其中，分辨率P_i大于分辨率P_i-1，i为大于1的整数；分辨率P₁下的深度卷积神经网络的输入内容包括：缩放到分辨率P₁的M帧真实内容；

根据最大分辨率下的深度卷积神经网络的输出内容，确定N帧预测内容；

根据预测得到的直播内容，执行相应的直播控制操作；

其中，预测网络模型包括多种分辨率下的深度卷积神经网络，N、M均为大于或等于1的整数。

2.根据权利要求1所述的方法，其特征在于，所述预测网络模型是通过优化第一目标函数训练得到的；其中，所述第一目标函数包括以下部分：相似度损失、运动损失以及对抗损失。

3.根据权利要求2所述的方法，其特征在于，一帧真实内容和一帧预测内容之间的运动损失通过以下方式确定：

4.根据权利要求2所述的方法，其特征在于，所述对抗损失通过以下方式确定：

所述对抗网络是通过优化第二目标函数训练得到的。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：通过以下方式训练所述预测网络模型和所述对抗网络：

执行以下步骤直至所述第二目标函数满足收敛条件：

6.根据权利要求4所述的方法，其特征在于，所述预测将要发生的直播内容之后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述根据预测得到的直播内容，执行相应的直播控制操作，包括：

8.一种直播控制装置，其特征在于，包括：

预测模块，适于从设定时长的真实直播内容中采样得到M帧真实内容，所述M帧真实内容为所述真实直播内容中的M帧内容；

其中，预测网络模型包括多种分辨率下的深度卷积神经网络，N、M均为大于或等于1的整数；

9.一种直播控制装置，其特征在于，包括：存储器、处理器以及存储在所述存储器上并在所述处理器上运行的直播控制程序，所述直播控制程序被所述处理器执行时实现如权利要求1至7中任一项所述的直播控制方法的步骤。

10.一种计算机可读介质，其特征在于，存储有直播控制程序，所述直播控制程序被处理器执行时实现如权利要求1至7中任一项所述的直播控制方法的步骤。