CN107295362B

CN107295362B - 基于图像的直播内容筛选方法、装置、设备及存储介质

Info

Publication number: CN107295362B
Application number: CN201710680294.0A
Authority: CN
Inventors: 王兵
Original assignee: Shanghai Six World Information Technology Co Ltd
Current assignee: Shanghai Six World Information Technology Co Ltd
Priority date: 2017-08-10
Filing date: 2017-08-10
Publication date: 2020-02-21
Anticipated expiration: 2037-08-10
Also published as: CN107295362A

Abstract

本发明实施例公开了一种基于图像的直播内容筛选方法、装置、设备及存储介质，其中，所述方法包括：获取直播中的视频，从所述视频中提取若干视频帧图像；将所述视频帧图像输入评价卷积神经网络分类器，获取所述评价卷积神经网络分类器的输出；根据所述视频帧图像对应的时间权重值和评价卷积神经网络分类器的输出计算筛选结果。可以利用卷积神经网络分类器自动得到精确度较高的筛选结果，能够统一对直播内容的评价标准，且评价速度快，效率更高。

Description

基于图像的直播内容筛选方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于图像的直播内容筛选方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，用户服务器可以通过互联网进行多媒体直播，使观众观看该多媒体直播的多媒体直播流。当需要观看直播时，用户按照自己的需求，点击进入一直播间，进而直播服务器基于用户的选择，将用户选择的直播间的直播视频流发送到用户设备(User Equipment，UE)上，使用户在UE上观看该直播间件对应的直播视频。为了方便用户找到属于自己偏好的直播间或直播内容，服务器会按照直播间推荐策略向用户推荐一些直播间。

目前，选取优秀的直播内容向用户进行推荐通常采用人工推荐的方式，即由工作人员通过观看直播内容后给出相应的评价，并根据评价向用户进行推荐。但上述方法存在如下问题：由于直播的内容繁多，采用人工评价的方法工作量大、成本高且效率低；并且由于每个工作人员的喜好不同，无法实现评价标准的统一。

发明内容

本发明实施例提供了一种基于图像的直播内容筛选方法、装置、设备及存储介质，以解决现有技术中对直播内容筛选成本高、效率低及标准不统一的技术问题。

第一方面，本发明实施例提供了一种基于图像的直播内容筛选方法，包括：

获取直播中的视频，从所述视频中提取若干视频帧图像；

将所述视频帧图像输入评价卷积神经网络分类器，获取所述评价卷积神经网络分类器的输出；

根据所述视频帧图像对应的时间权重值和价卷积神经网络分类器的输出计算筛选结果。

第二方面，本发明实施例还提供了一种基于图像的直播内容筛选装置，包括：

提取模块，用于获取直播中的视频，从所述视频中提取若干视频帧图像；

输入模块，用于将所述视频帧图像输入评价卷积神经网络分类器，获取所述评价卷积神经网络分类器的输出；

计算模块，用于根据所述视频帧图像对应的时间权重值和评价卷积神经网络分类器的输出计算筛选结果。

第三方面，本发明实施例还提供了一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述实施例提供的基于图像的直播内容筛选方法方法。

第四方面，本发明实施例还提供了包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的基于图像的直播内容筛选方法。

本发明实施例提供的基于图像的直播内容筛选方法、装置、设备及存储介质，通过从直播视频中提取帧图像，并利用完成训练的评价卷积神经网络分类器对输入的帧图像输出评价筛选结果。可以利用卷积神经网络分类器自动得到精确度较高的筛选结果，能够统一对直播内容的评价标准，且评价速度快，效率更高。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明实施例一提供的基于图像的直播内容筛选方法的流程示意图；

图2是本发明实施例二提供的基于图像的直播内容筛选方法的流程示意图；

图3是本发明实施例三提供的基于图像的直播内容筛选方法的流程示意图；

图4是本发明实施例四提供的基于图像的直播内容筛选方法的流程示意图；

图5是本发明实施例五提供的基于图像的直播内容筛选方法的流程示意图；

图6是本发明实施例六提供的基于图像的直播内容筛选装置的结构示意图；

图7是本发明实施例七提供的服务器的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的基于图像的直播内容筛选方法的流程图，本实施例可适用于对直播内容进行评价筛选的情况，该方法可以由基于图像的直播内容筛选装置来执行，并可集成于直播内容筛选服务器中，具体包括如下步骤：

S110，获取直播中的视频，从所述视频中提取若干视频帧图像。

随着互联网络技术的发展，直播的概念有了新的拓展和发展，通过网络信号，在线收看体育赛事、活动、新闻和娱乐化表演等成为当前直播的主流。在主播进行直播时，可以通过直播服务器获取到直播中的视频内容。

本质上，视频由多帧连续的画面组成。因此，可以从所述直播视频中提取若干视频帧图像。所述若干帧，至少包括两帧。其提取方式可以是按照时间轴，在预先设定或者随机的播放时刻，提取当前播放的视频的帧图像。示例性的，所述直播视频时长为7分钟，则可以随机提取在45秒，1份23秒、3分11秒，5份26秒，6分52秒对应的帧图像。优选的，可以将从所述视频中提取若干视频帧图像，具体优化为：按固定时长从所述视频中提取若干视频帧图像。在本实施例中，由于是采用帧图像来反映直播视频中的具体内容，所提取的帧图像应尽可能的反映直播视频的节目内容。按时间轴随机提取的帧图像可能会遗漏直播视频的内容。因此，可以按固定时长从所述视频中提取若干视频帧图像，以尽可能充分反映直播视频的相应内容。

此外，提取视频帧图像的密度也应该充分考虑服务器的处理能力，如果提取的视频帧图像过多，会严重影响对视频帧图像的处理时间。优选的，可以采用每4s或者1s的时间间隔提取视频帧图像。以尽可能的使提取的视频帧图像在能够反映直播视频的内容的前提下，尽可能的减少提取视频帧图像的数量。

S120，将所述视频帧图像输入评价卷积神经网络分类器，获取所述评价卷积神经网络分类器的输出。

卷积神经网络(Convolutional Neural Network,CNN)，是一种前馈神经网络，人工神经元可以响应周围单元，尤其适用于图像处理。其基本结构可以包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。因此，卷积神经网络以其局部权值共享的特殊结构在图像处理方面有着独特的优越性。通过卷积运算，可以使原信号特征增强，并且降低噪音。

示例性的，可以根据服务器的处理能力和视频帧图像的复杂程度，设定卷积层的数量以及神经元的数量，以得到较为准确的筛选结果。并且可以采用采用Dropout技术。Dropout将隐藏层中随机选取的一半的神经元的输出设置为0。通过Dropout技术可以加快训练速度，也可以提高筛选结果的稳定性。

在本实施例中，可以预先设立一个评价卷积神经网络分类器，将多个已经人工筛选完成的视频帧图像和其筛选结果作为训练样本输入到评价卷积神经网络分类器进行训练。在训练完成后，向所述评价卷积神经网络分类器中输入上述所得到的频谱图像，评价卷积神经网络分类器给出相应的评价结果。

S130，根据所述视频帧图像对应的时间权重值和评价卷积神经网络分类器的输出计算筛选结果。

将所述视频帧图像输入评价卷积神经网络分类器。得到相应的输出结果。由于所述直播的视频包括多帧视频帧图像。相应的，卷积神经网络分类器会给输入的每一帧视频帧图像输出一个筛选结果。需要将其综合，以得到所述直播视频一个筛选结果。在本实施例中，可以根据所述频谱图像对应的时间权重值和评价卷积神经网络分类器的输出计算筛选结果。示例性的，由于直播中通常由开场-高潮-结束三个时间顺序部分组成，可以根据预先建立的时间窗函数设定每个视频片段权重值，所述时间窗函数可以为两侧小、中间大的平滑曲线函数。根据所述频谱图像，即所述视频帧图像对应的视频提取时间的权重值与其对应的输出计算筛选结果。

本实施例提供的基于图像的直播内容筛选方法、装置、设备及存储介质，通过从直播视频中提取帧图像，并利用完成训练的评价卷积神经网络分类器对输入的帧图像输出评价筛选结果。可以利用卷积神经网络分类器自动得到精确度较高的筛选结果，能够统一对直播内容的评价标准，且评价速度快，效率更高。

实施例二

图2为本发明实施例二提供的基于图像的直播内容筛选方法的流程示意图。本实施例以上述实施例为基础进行优化，在本实施例中，在从所述视频中提取若干视频帧图像之后，将所述视频帧图像输入评价卷积神经网络分类器之前，增加如下步骤：将所述视频帧图像转换为预设分辨率的图像；相应的，将所述视频帧图像输入评价卷积神经网络分类器，具体优化为：将所述图像输入评价卷积神经网络分类器。

相应的，本实施例所提供的基于图像的直播内容筛选方法，具体包括：

S210，获取直播中的视频，从所述视频中提取若干视频帧图像。

S220，将所述视频帧图像转换为预设分辨率的图像。

评价卷积神经网络分类器中通过卷积核对输入的视频帧图像进行处理。卷积核在二维平面上平移，并且卷积核的每个元素与被卷积图像对应位置相乘，再求和。通过卷积核的不断移动，可以得到一个新的图像，这个图像完全由卷积核在各个位置时的乘积求和的结果组成。通过卷积运算可以使原信号特征增强，并且降低噪音。不同的卷积核能够提取到图像中的不同特征。由此可以看出，原始输入的视频帧图像的分辨率和卷积运算的处理速度密切相关。为了提高处理速度，在本实施例中，可以在保留视频帧图像的图像特征的基础上，降低所述视频帧图像的分辨率，以提高评价卷积神经网络分类器的处理速度。

示例性的，可以采用等间隔采样的方法实现，该方法实现简单，但是原图像中未被选中的像素信息会在缩小后的图像中丢失。此外可以采用基于局部均值的图像缩小方式减低所述视频帧图像的分辨率，在缩小图像的像素时，不仅仅单纯的取在原图像中的采样点像素，而是以相邻的两个采样点为分割，将原图像分成一个个的子块。缩小图像的像素取相应子块像素的均值。所述分辨率可以根据评价卷积神经网络分类器的性能以及所要求的筛选时间确定。示例性的，可以通过上述两种方式将视频帧图像转换为256×256像素的图片。可以在保留视频帧图像的图像特征的基础上，降低所述视频帧图像的分辨率。

S230，将所述图像输入评价卷积神经网络分类器，获取所述评价卷积神经网络分类器的输出。

将利用上述方法所得到的预设分辨率的图像输入到评价卷积神经网络分类器中，评价卷积神经网络分类器根据输入的预设分辨率的图像，可以快速的输出筛选结果。

S240，根据所述视频帧图像对应的时间权重值和评价卷积神经网络分类器的输出计算筛选结果。

本实施例通过将在从所述视频中提取若干视频帧图像之后，将所述视频帧图像输入评价卷积神经网络分类器之前，增加如下步骤：将所述视频帧图像转换为预设分辨率的图像；相应的，将所述视频帧图像输入评价卷积神经网络分类器，具体优化为：将所述图像输入评价卷积神经网络分类器。可以在保留视频帧图像的图像特征的基础上，降低所述视频帧图像的分辨率，以提高评价卷积神经网络分类器的处理速度。

实施例三

图3为本发明实施例三提供的基于图像的直播内容筛选方法的流程示意图。本实施例以上述实施例为基础进行优化，在本实施例中，在将所述频谱图像输入评价卷积神经网络分类器之前，增加如下步骤：将所述视频帧图像按直播场景进行分类；相应的，所述将所述视频帧图像输入评价卷积神经网络分类器，包括：将所述视频帧图像输入与所述直播场景对应的评价卷积神经网络分类器。

S310，获取直播中的视频，从所述视频中提取若干视频帧图像。

S320，将所述视频帧图像按直播场景进行分类。

目前，直播可以分为以下几个种类:赛事直播、游戏直播、户外直播和聊天直播等。对于每一种类的直播，其对应的视频有不同的呈现，其评价标准也并不一致。例如：对于游戏直播，可以根据游戏直播中的场景变化及场景中游戏人物的数量多少判断游戏直播是否精彩；而对于户外直播，则更多需要根据直播视频中的前景图像变化是否丰富来判断其是否优秀。而这两种标准在视频的视频帧图像上则有完全不同的呈现，因此，需要将直播的视频进行分类，以更好的对当前直播的视频进行筛选。

可以通过多种方式对视频频按直播场景进行分类，例如：对于每种直播通常都有相应的文字标签，该文字标签可以由管理员输入，也可以由用户输入。根据这些标签可以对视频帧图像频按直播场景进行分类。

S330，将所述视频帧图像输入与所述直播场景对应的评价卷积神经网络分类器，获取所述评价卷积神经网络分类器的输出。

如上所述，每种类型的直播场景的评价标准不同，因此需要对于每种直播场景都相应可以预先设立一个评价卷积神经网络分类器，将相应直播场景类型的多个视频帧图像和筛选结果作为训练样本输入到与所述直播场景对应的评价卷积神经网络分类器进行训练。在训练完成后，向所述评价卷积神经网络分类器中输入上述所得到的视频帧图像，该评价卷积神经网络分类器给出相应的评价筛选结果。

S340，根据所述视频帧图像对应的时间权重值和评价卷积神经网络分类器的输出计算筛选结果。

本实施例通过在将所述频谱图像输入评价卷积神经网络分类器之前，增加如下步骤：将所述视频帧图像按直播场景进行分类；相应的，所述将所述视频帧图像输入评价卷积神经网络分类器，包括：将所述视频帧图像输入与所述直播场景对应的评价卷积神经网络分类器。可以根据不同直播场景的图像特征建立相应的卷积神经网络分类器，并可以将视频帧图像按照直播场景选择对应的卷积神经网络分类器，能够进一步提高筛选结果的准确性。

实施例四

图4为本发明实施例四提供的基于图像的直播内容筛选方法的流程示意图。本实施例以上述实施例为基础进行优化，在本实施例中，将所所述视频按直播场景进行分类，具体优化为：通过分类卷积神经网络分类器对所述视频帧图像按直播场景进行分类。

S410，获取直播中的视频，从所述视频中提取若干视频帧图像。

S420，通过分类卷积神经网络分类器对所述视频帧图像按直播场景进行分类。

虽然可以通过直播的标签确定当前视频帧图像的直播场景分类，但是直播的标签由于是人为标注的，尤其有可能是用户进行标注的，不可避免的会产生标注错误。因此，在本实施例中，可以通过分类卷积神经网络分类器对所述视频帧图像进行分类。示例性的，可以根据视频帧图像训练分类卷积神经网络分类器，并可根据分类卷积神经网络分类器对输入的视频帧图像自动进行分类。优选的，可以将通过分类卷积神经网络分类器对所述视频帧图像按直播场景进行分类，具体优化为：通过多层分类卷积神经网络分类器对所述视频帧图像按直播场景进行分类。由于直播的类型多种多样，在每一种大类下又可分为多个小类，而每个小类的直播视频差别较大。因此，需要通过多层分类卷积神经网络分类器对所述视频帧图像进行分类。示例性的，所述多层分类卷积神经网络分类器可以按照业务需求进行分类。例如：可以包括多层分类卷积神经网络分类器，例如：可以包括：业务类型分类卷积神经网络分类器，和位于所述业务类型分类卷积神经网络分类器下一层的场景分类卷积神经网络分类器。可以将输入的视频帧图像按照：游戏、户外、运动和歌舞等业务类型进行分类。在对场景进行分类完成后，可以利用下一层的场景分类卷积神经网络分类器继续进行分类。示例性的，在将所述视频帧图像分为游戏类后，可以利用下一层的场景分类卷积神经网络分类器将所述视频帧图像分为不同的游戏场景。例如：英雄联盟游戏场景、DOTA游戏场景和魔兽争霸游戏场景等。所述下一层的场景分类卷积神经网络分类器的数量可以根据业务类型数量确定。利用多层类卷积神经网络分类器可以对所述视频帧图像进行更精确地分类，提高了分类的准确性。

S430，将所述视频帧图像输入与所述直播场景对应的评价卷积神经网络分类器，获取所述评价卷积神经网络分类器的输出。

S440，根据所述视频帧图像对应的时间权重值和评价卷积神经网络分类器的输出计算筛选结果。

本实施例通过将所述视频按直播场景进行分类，具体优化为：通过分类卷积神经网络分类器对所述视频帧图像按直播场景进行分类。可以利用卷积神经网络分类器能够准确地对视频帧图像进行分类，提高了分类的准确性。进而提高了评价结果的准确性。

实施例五

图5为本发明实施例五提供的基于图像的直播内容筛选方法的流程示意图。本实施例以上述实施例为基础进行优化，在本实施例中，在按固定时长从所述视频中提取若干视频帧图像之前，增加如下步骤：按初始预设时长从所述视频中提取若干视频帧图像；将所述视频帧图像输入评价卷积神经网络分类器，获取所述评价卷积神经网络分类器的输出；根据所述评价卷积神经网络分类器的输出自适应调整所述固定时长，以得到最优固定时长；相应的，将所述按调整后的固定时长从所述视频中提取若干视频帧图像，具体优化为：按最优固定时长从所述视频中提取若干视频帧图像。

S510，获取直播中的视频，按初始预设时长从所述视频中提取若干视频帧图像。

S520，将所述视频帧图像输入评价卷积神经网络分类器，获取所述评价卷积神经网络分类器的输出。

S530，根据所述评价卷积神经网络分类器的输出自适应调整时长，以得到最优固定时长。

由上述描述可知，提取视频帧图像的密度可以影响评价卷积神经网络分类器的输出结果的准确性，通常，密度越大，评价卷积神经网络分类器的输出结果的准确性越高，密度与准确性成正比。但提取视频帧图像的密度也应该充分考虑服务器的处理能力，如果提取的视频帧图像过多，会严重影响对视频帧图像的处理时间。以尽可能的使提取的视频帧图像在能够反映直播视频的内容的前提下，尽可能的减少提取视频帧图像的数量。在本实施例中，可以通过自适应的方式对采集的密度，即采集两帧视频帧图像之间的时长进行调整。示例性的，可以根据评价卷积神经网络分类器的输出结果对时长进行调整。例如：所述评价卷积神经网络分类器的输出结果介于0-1之间，其中0代表质量较差，1代表质量较好。如果所述评价卷积神经网络分类器的输出结果介于0.4-0.6之间，则认为价卷积神经网络分类器的输出结果的准确性较低，因此需要增大提取视频帧图像的密度，减少两帧视频帧图像之间的时长。通过不断的输出结果反馈对两帧视频帧图像之间的时长进行调整。以使得到的输出结果能够满足要求。将满足要求的对应时长设定为最优固定时长。

示例性的，所述要求可以是在使用单一评价卷积神经网络分类器进行评价时，判断输出结果是否位于预设的正常输出阈值范围内，如果评价结果位于预设的正常输出阈值范围内时，可以认为满足要求。所述正常输出阈值范围可以根据设计确定。例如：可以将正常输出阈值范围设定为(0,0.2)和(0.8,1)，如果评价结果位于上述两个阈值范围则可以表明评价结果并非含混而是具有明显倾向的，其分类判断结果比较准确。能够满足要求。此外，所述要求可以是在使用多个评价卷积神经网络分类器进行评价时，判断可以给出明显倾向性的评价结果的评价卷积神经网络分类器的个数是否超过预设的个数阈值，如果超过设的个数阈值，可以认为满足要求。其中，可以给出明显倾向性的评价结果可以参考上述阈值范围的方法进行确定。

S540，按最优固定时长从所述视频中提取若干视频帧图像。

S550，将所述视频帧图像输入评价卷积神经网络分类器，获取所述评价卷积神经网络分类器的输出。

S560，根据所述视频帧图像对应的时间权重值和价卷积神经网络分类器的输出计算筛选结果。

本实施例通过在按固定时长从所述视频中提取若干视频帧图像之前，增加如下步骤：按初始预设时长从所述视频中提取若干视频帧图像；将所述视频帧图像输入评价卷积神经网络分类器，获取所述评价卷积神经网络分类器的输出；根据所述评价卷积神经网络分类器的输出自适应调整所述固定时长，以得到最优固定时长；相应的，将所述按调整后的固定时长从所述视频中提取若干视频帧图像，具体优化为：按最优固定时长从所述视频中提取若干视频帧图像。可以根据输出的评价结果反馈对采集帧图像之间的时长进行调整，能够进一步提高评价卷积神经网络分类器的输出评价结果的准确性。

实施例六

图6是本发明实施例六提供的基于图像的直播内容筛选装置的结构示意图，如图5所示，所述装置包括：

提取模块610，用于获取直播中的视频，从所述视频中提取若干视频帧图像；

输入模块620，用于将所述视频帧图像输入评价卷积神经网络分类器，获取所述评价卷积神经网络分类器的输出；

计算模块630，用于根据所述视频帧图像对应的时间权重值和评价卷积神经网络分类器的输出计算筛选结果。

本实施例提供的基于图像的直播内容筛选装置，通过从直播视频中提取帧图像，并利用完成训练的评价卷积神经网络分类器对输入的帧图像输出评价筛选结果。可以利用卷积神经网络分类器自动得到精确度较高的筛选结果，能够统一对直播内容的评价标准，且评价速度快，效率更高。

在上述各实施例的基础上，所述提取模块，用于：

按固定时长从所述视频中提取若干视频帧图像。

在上述各实施例的基础上，所述装置还包括：

转换模块，用于将所述视频帧图像转换为预设分辨率的图像；

相应的，所述输入模块包括：

图像输入单元，用于将所述图像输入评价卷积神经网络分类器。

在上述各实施例的基础上，所述装置还包括：

预设提取模块，用于按初始预设时长从所述视频中提取若干视频帧图像；

输出获取模块，用于将所述视频帧图像输入评价卷积神经网络分类器，获取所述评价卷积神经网络分类器的输出；

自适应调整模块，用于根据所述评价卷积神经网络分类器的输出自适应调整所述固定时长，以得到最优固定时长；

相应的，所述提取模块，包括：

提取单元，用于按最优固定时长从所述视频中提取若干视频帧图像。

在上述各实施例的基础上，所述装置还包括：

分类模块，用于将所述视频帧图像按直播场景进行分类；

相应的，所述输入模块包括：

分类输入单元，用于将所述视频帧图像输入与所述直播场景对应的评价卷积神经网络分类器。

在上述各实施例的基础上，所述分类模块，包括：

分类单元，用于通过分类卷积神经网络分类器对所述视频帧图像按直播场景进行分类。

在上述各实施例的基础上，所述分流单元用于：

通过多层分类卷积神经网络分类器对所述视频帧图像按直播场景进行分类。

本发明实施例所提供的基于图像的直播内容筛选装置可执行本发明任意实施例所提供的基于图像的直播内容筛选方法，具备执行方法相应的功能模块和有益效果。

实施例七

图7为本发明实施例7提供的一种服务器的结构示意图。图7示出了适于用来实现本发明实施方式的示例性服务器12的框图。图7显示的服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备/服务器/服务器12交互的设备通信，和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的基于图像的直播内容筛选方法。

实施例八

本发明实施例八还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的基于图像的直播内容筛选方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于图像的直播内容筛选方法，其特征在于，包括：

获取直播中的视频，从所述视频中提取若干视频帧图像；

根据所述视频帧图像对应的时间权重值和评价卷积神经网络分类器的输出计算视频内容筛选结果。

2.根据权利要求1所述的方法，其特征在于，从所述视频中提取若干视频帧图像，包括：

按固定时长从所述视频中提取若干视频帧图像。

3.根据权利要求2所述的方法，其特征在于，在按固定时长从所述视频中提取若干视频帧图像之前，还包括：

按初始预设时长从所述视频中提取若干视频帧图像；

根据所述评价卷积神经网络分类器的输出自适应调整所述固定时长，以得到最优固定时长；

相应的，所述按调整后的固定时长从所述视频中提取若干视频帧图像，包括：

按最优固定时长从所述视频中提取若干视频帧图像。

4.根据权利要求1所述的方法，其特征在于，在从所述视频中提取若干视频帧图像之后，将所述视频帧图像输入评价卷积神经网络分类器之前，还包括：

将所述视频帧图像转换为预设分辨率的图像；

相应的，将所述视频帧图像输入评价卷积神经网络分类器，包括：

将所述图像输入评价卷积神经网络分类器。

5.根据权利要求1所述的方法，其特征在于，在将所述视频帧图像输入评价卷积神经网络分类器之前，还包括：

将所述视频帧图像按直播场景进行分类；

相应的，所述将所述视频帧图像输入评价卷积神经网络分类器，包括：

将所述视频帧图像输入与所述直播场景对应的评价卷积神经网络分类器。

6.根据权利要求5所述的方法，其特征在于，所述将所述视频按直播场景进行分类，包括：

通过分类卷积神经网络分类器对所述视频帧图像按直播场景进行分类。

7.根据权利要求6所述的方法，其特征在于，通过分类卷积神经网络分类器对所述视频帧图像按直播场景进行分类，包括：

8.一种基于图像的直播内容筛选装置，其特征在于，包括：

计算模块，用于根据所述视频帧图像对应的时间权重值和评价卷积神经网络分类器的输出计算视频内容筛选结果。

9.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的基于图像的直播内容筛选方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-5任一所述的基于图像的直播内容筛选方法。