CN107197370A

CN107197370A - 一种直播视频的场景检测方法和装置

Info

Publication number: CN107197370A
Application number: CN201710481870.9A
Authority: CN
Inventors: 韩三普; 周洋
Original assignee: Beijing Environment And Wind Technology Co Ltd
Current assignee: Beijing Environment And Wind Technology Co Ltd
Priority date: 2017-06-22
Filing date: 2017-06-22
Publication date: 2017-09-22

Abstract

本发明实施例提供了一种直播视频的场景检测方法和装置，该方法包括：从直播的视频流中提取目标帧图像；在所述目标帧图像中识别图像场景信息；根据所述图像场景信息识别所述直播的视频流的直播场景信息。本发明实施例通过汇总图像场景信息对直播的视频流进行场景识别，减少了少数目标帧图像的判断误差，提高了场景识别的准确率，实现了在全民网络直播平台，对大流量的直播的场景自动检测，大大提高了效率。

Description

一种直播视频的场景检测方法和装置

技术领域

本发明涉及视频处理的技术领域，特别是涉及一种直播视频的场景检测方法和一种直播视频的场景检测装置。

背景技术

随着网络科技的发展以及智能设备的普及，人们喜欢将自己或者自己身边的事情，以视频的形式实时在网络平台上进行直播，与其他用户进行互动。

在互动式的直播场景下，为了优化主播和观众的体验，平台会有提供一些自动生成的互动操作。

但是，在直播间里，主播有时会离开镜头或者故意遮挡镜头，从而导致这些自动生成的互动操作偏离了直播间的实际情景，降低用户体验。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种直播视频的场景检测方法和相应的一种直播视频的场景检测装置。

依据本发明的一个方面，提供了一种直播视频的场景检测方法，包括：

从直播的视频流中提取目标帧图像；

在所述目标帧图像中识别图像场景信息；

根据所述图像场景信息识别所述直播的视频流的直播场景信息。

可选地，还包括：

将所述直播场景信息通过预置的接口发送至订阅设备。

可选地，所述从直播的视频流中提取目标帧图像的步骤包括：

从直播的视频流中查找画面组；

在所述画面组中提取关键帧图像，作为目标帧图像。

每间隔预设的时间段，从所述直播的视频流中提取关键帧图像，作为目标帧图像。

可选地，所述图像场景信息包括主播场景信息、静物场景信息、遮挡场景信息和断流场景信息中的一个或多个。

可选地，所述在所述目标帧图像中识别图像场景信息的步骤包括：

在所述目标帧图像中进行人脸识别；

当识别到人脸时，生成主播场景信息；

当未识别到人脸时，在所述目标帧图像中进行物体检测；

当检测到物体时，生成静物场景信息；

当未检测到物体时，生成遮挡场景信息。

可选地，所述在所述目标帧图像中进行人脸识别的步骤包括：

基于竖屏方式在所述目标帧图像中进行人脸识别；

当未识别到人脸时，将所述目标帧图像旋转指定的角度；

基于横屏方式在旋转之后的目标帧图像中进行人脸识别。

在所述目标帧图像指定的区域中，若检测到指定的水印，则生成断流场景信息。

统计所述直播的视频流的数量；

当所述数量超过预设的数量阈值时，缩小预置的图像识别窗口，缩小后的图像识别窗口的面积小于所述目标帧图像的面积；

在所述缩小后的图像识别窗口中，对所述目标帧图像的部分区域识别图像场景信息。

可选地，所述根据所述图像场景信息识别所述直播的视频流的直播场景信息的步骤包括：

将所述图像场景信息存储至预置的滑动窗口中；

采用所述滑动窗口中缓存的图像场景信息识别所述直播的视频流的直播场景信息。

可选地，所述将所述图像场景信息存储至预置的滑动窗口中的步骤包括：

判断预置的滑动窗口是否已全部存储在先的图像场景信息；

若是，则从所述滑动窗口中移除时间戳最小的、在先的图像场景信息；

将当前的图像场景信息存储至空闲的滑动窗口中；

若否，则将当前的图像场景信息存储至预置的、空闲的滑动窗口中。

可选地，所述采用所述滑动窗口中缓存的图像场景信息识别所述直播的视频流的直播场景信息的步骤包括：

统计在所述滑动窗口中、相同场景的图像场景信息的数量占比；

当某个场景的图像场景信息的数量占比高于预设的比例阈值时，基于所述场景对所述直播的视频流生成直播场景信息。

根据本发明的另一方面，提供了一种直播视频的场景检测装置，包括：

视频采样模块，适于从直播的视频流中提取目标帧图像；

视频分析模块，适于在所述目标帧图像中识别图像场景信息；

业务处理模块，适于根据所述图像场景信息识别所述直播的视频流的直播场景信息。

可选地，还包括：

接口模块，适于将所述直播场景信息通过预置的接口发送至订阅设备。

可选地，所述视频采样模块还适于：

从直播的视频流中查找画面组；

在所述画面组中提取关键帧图像，作为目标帧图像。

可选地，所述视频采样模块还适于：

可选地，所述视频分析模块还适于：

在所述目标帧图像中进行人脸识别；

当识别到人脸时，生成主播场景信息；

当未识别到人脸时，在所述目标帧图像中进行物体检测；

当检测到物体时，生成静物场景信息；

当未检测到物体时，生成遮挡场景信息。

可选地，所述视频分析模块还适于：

基于竖屏方式在所述目标帧图像中进行人脸识别；

当未识别到人脸时，将所述目标帧图像旋转指定的角度；

基于横屏方式在旋转之后的目标帧图像中进行人脸识别。

可选地，所述视频分析模块还适于：

统计所述直播的视频流的数量；

可选地，所述业务处理模块还适于：

将所述图像场景信息存储至预置的滑动窗口中；

可选地，所述业务处理模块还适于：

判断预置的滑动窗口是否已全部存储在先的图像场景信息；

将当前的图像场景信息存储至空闲的滑动窗口中；

可选地，所述业务处理模块还适于：

本发明实施例采用分层结构，在每层中均有相应的处理，组成了一个可扩展的跨界系统，在视频采样层中，从直播的视频流中提取目标帧图像，降低了计算量，在视频分析层中，在目标帧图像中识别图像场景信息，在业务处理层中，根据图像场景信息识别直播的视频流的直播场景信息，通过汇总图像场景信息对直播的视频流进行场景识别，减少了少数目标帧图像的判断误差，提高了场景识别的准确率，实现了在全民网络直播平台，对大流量的直播的场景自动检测，大大提高了效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种直播视频的场景检测方法的步骤流程图；

图2示出了根据本发明一个实施例的一种直播系统结构示意图；

图3A-图3C示出了根据本发明一个实施例的一种图像场景信息的示例图；

图4示出了根据本发明一个实施例的另一种直播视频的场景检测方法的步骤流程图；

图5示出了根据本发明一个实施例的一种直播监控系统的逻辑分层示意图图；

图6示出了根据本发明一个实施例的一种直播监控系统的结构示意图；

图7示出了根据本发明一个实施例的一种直播视频的场景检测装置的结构框图；以及

图8示出了根据本发明一个实施例的另一种直播视频的场景检测装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，示出了根据本发明一个实施例的一种直播视频的场景检测方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，从直播的视频流中提取目标帧图像。

在具体实现中，如图2所示，在一个直播的系统中，可以包括服务器201，第一终端202、一个或多个第二终端203。

第一终端202，如个人电脑、手机、平板电脑、专业录制编码设备等等，配置有麦克风、摄像头等部件，进行内容采集，即采集视频数据(包括音频数据)。

第一终端202通过分布式推流的方式将视频数据上传到服务器201中，具体而言，第一终端202在推流之前会通过名字服务，一般是DNS(Domain Name System，域名系统)智能解析或是自有按IP(Internet Protocol，网络之间互连的协议)调度系统获取最靠谱的推流节点，然后把流上传到服务器202中。

服务器202(如分布式推流节点)接入了流式的视频数据之后，后续进行编解码或者做一些水印等视频处理，比如，给视频数据加一些打点的数据、字幕以及一些特殊说明等，构成了直播后台系统。

服务器202根据不同的业务需求，需要有不同的后台服务来支撑，其可以为独立的服务器，也可以为服务器集群，如分布式系统，根据服务的不同，可以区分为管理服务器、Web服务器、流媒体服务器，等等。

服务器202通过视频处理之后，生成H.264和AAC(Advanced Audio Coding，高级音频编码)等格式的直播流，然后通过CDN(Content Delivery Network，内容分发网络)等方式分发到一个或多个第二终端203，如手机、个人电脑、VR(Virtual Reality，虚拟现实)设备，等等，让用户看到实时的直播流。

在此直播系统中，第一终端202所属的用户可以称之为主播，第二终端203所属的用户可以称之为观众，观众可以在第二终端203中进行点赞、送礼、发信息等操作，通过服务器201反馈至第一终端201，实现与主播之间的互动。

当然，服务器202在处理完流式的视频数据之后，还可以进行录制存储，录制完了之后还能够转成点播，满足用户的多样需求。

此外，服务器202还有虚拟直播的概念，即在录下来的时可以转成FLV(FLASHVIDEO，流媒体格式)的流推出来，不是真正的现实流录播。

在实际应用中，直播系统的直播可以包括如下几种形式：

1、媒体和活动直播

在此种方式中，多是单向，即低上行、高下行，一般无交互、流数少，延迟容忍度高，如大于10s，包含电视转流、演唱会直播等。

2、游戏直播

在此种方式中，多是单向，一般无交互、流数多，延迟容忍度较高，如大于5s。

3、秀场直播

在此种方式中，多是单向，一般文字交互、流数量多，延迟容忍度低，如2～5s。

4、社交直播

在此种方式中，多是单向，一般文字交互、流数量非常多，延迟容忍度低，如2～5s。

社交直播和秀场直播在交互上类似，但是，秀场直播一般都是有限的主播把内容运营起来，推流的数量较少，一般小于100路，而社交直播是路人即可产生内容，所以直播的流数会上升到1000，甚至10000。

在本发明实施例中，采用分层结构对直播的视频流进行场景检测。

在分层结构中，其中一层为视频采样层，在视频采样层中，可以从直播的视频流中提取目标帧图像。

视频本质上由一帧一帧的连续图像组成的，本发明实施例中，可以采用定期的方式，每间隔预设的时间段(如2～4s)，从直播的视频流中提取关键帧图像，作为目标帧图像，该目标帧图像可以代表某个时间段内的视频，从而将对视频流的分析简化为对静止图像的分析。

在本发明的一个实施例中，可以从直播的视频流中查找画面组(Group OfPicture，GOP)，在画面组中提取关键帧图像，作为目标帧图像。

一个GOP是一组连续的图像，MPEG(Moving Pictures Experts Group/MotionPictures Experts Group，动态图像专家组)编码将图像(即帧)分为I、P、B三种，I是内部编码帧，P是前向预测帧，B是双向内插帧。I帧表示关键帧，这一帧画面的完整保留，解码时通过本帧数据即可完成，而P帧和B帧记录的是相对于I帧的变化。

步骤102，在所述目标帧图像中识别图像场景信息。

在分层结构中，其中一层为视频分析层，在视频分析层中，可以在目标帧图像中识别图像场景信息。

在具体实现中，图像场景信息包括主播场景信息、静物场景信息、遮挡场景信息和断流场景信息中的一个或多个。

其中，如图3A所示，主播场景信息表示主播位于目标帧图像的场景。

如图3B所示，静物场景信息表示主播不在目标帧图像中，但目标帧图像中具有物体的场景。

如图3C所示，遮挡场景信息表示目标帧图像存在遮挡的场景。

断流场景信息表示直播信号中断的场景。

在本发明的一个实施例中，步骤102可以包括如下子步骤：

子步骤S11，在所述目标帧图像中进行人脸识别。

人脸识别的方法大体分为两类，一种是基于知识模型，另一种是基于统计模型。

基于知识模型主要利用先验知识将人脸看作器官特征的组合，根据眼睛、眉毛、嘴巴、鼻子等器官的特征以及相互之间的几何位置关系来检测人脸。

基于统计模型则将人脸看作一个整体的模式——二维像素矩阵，从统计的观点通过大量人脸图像样本构造人脸模式空间。根据相似度量来判断人脸是否存在。

目前随着各种方法的不断提出和应用条件的变化，将知识模型与统计模型相结合，形成综合检测手段。

在具体实现中，可以从目标帧图像中提取特征信息，结合SVM(支持向量机)等进行有监督机器学习，进行人脸识别。

目前提取特征信息的方式有：

1、SIFT(Scale-invariant feature transform)，是一种检测局部特征的算法，该算法通过求一幅图中的特征点(interest points,or corner points)及其有关scale和orientation的描述子得到特征并进行图像特征点匹配。

2、PCA(主成分分析)，通过一个特征向量矩阵，将待识别图片的特征向量进行降维处理，提取出最重要的低维度特征向量，作为识别依据。

3、HOG(Histogram of Oriented Gradient，方向梯度直方图)，是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子，它通过计算和统计图像局部区域的梯度方向直方图来构成特征。

4、LBP(Local Binary Pattern，局部二值模式)，是一种用来描述图像局部纹理特征的算子；它具有旋转不变性和灰度不变性等显著的优点。

5、HAAR，包括边缘特征、线性特征、中心特征和对角线特征，组合成特征模板。特征模板内有白色和黑色两种矩形，并定义该模板的特征值为白色矩形像素和减去黑色矩形像素,反映了图像的灰度变化情况。

当然，除了上述的浅层机器学习方案外，目前也有基于CNN(ConvolutionalNeural Network，卷积神经网络)、RNN(Recurrent Neural Networks，循环神经网络)等构造深层的神经网络，基于标注过的大量人脸图片，完成学习建模。

在本发明的一个实施例中，在进行人脸识别时，基于竖屏方式(portrait)在目标帧图像中进行人脸识别。

当未识别到人脸时，将目标帧图像旋转指定的角度(如90°或270°)，基于横屏方式(即landscape)在旋转之后的目标帧图像中进行人脸识别。

子步骤S12，当识别到人脸时，生成主播场景信息。

子步骤S13，当未识别到人脸时，在所述目标帧图像中进行物体检测。

子步骤S14，当检测到物体时，生成静物场景信息。

子步骤S15，当未检测到物体时，生成遮挡场景信息。

若在目标帧图像中识别到人脸，即主播在直播间内，则可以生成主播场景信息。

若在目标帧图像中未识别到人脸，则对目标帧图像进一步做检测，判断是否有静物，或者是否有遮挡。

在具体实现中，可以对目标帧图像进行canny边缘检测，检测出目标帧图像中所有灰度值变化较大的点，而且这些点连接起来就构成了若干线条，这些线条就可以称为图像的边缘。

在canny边缘检测中，对目标帧图像进行二值转换，变成灰度图(，灰度范围为0～255)，并对其做高斯模糊(高斯矩阵设置为3x3)，消除目标帧图像的噪点。

接着对整个目标帧图像的像素，求出其平均的灰度均值，将其记为meanval，做为canny双阈值的低阈值，高阈值取一个大于150且大于meanval的数，如果meanval大于150，则高阈值取min(meanval+10,255)。

最后生成了包含物体边缘的灰度图像，对于非边缘的点灰度变成0值，此时基于处理后的目标帧图像再统计一次非0点的数目。

如果非0点的数目到达门限值，则认为直播间存在物体，生成静物场景信息。

如果非0点的数目低于门限值，则认为直播间的摄像头被遮盖，生成遮挡场景信息。

在本发明的另一个实施例中，步骤102可以包括如下子步骤：

子步骤S21，在所述目标帧图像指定的区域中，若检测到指定的水印，则生成断流场景信息。

在直播的过程中，主播可能会接电话等原因暂时切换至后台(即临时断流)，为了保证用户体验直播间此时还是维持开通状态，系统仍然会产生直播流。

为了区分临时断流与真实断流，并且，为了避免在边缘检测中识别为静物场景信息，系统会在视频流的图像帧中特定的位置添加特定的水印。

若在目标帧图像中指定的区域中检测到指定的水印，则生成断流场景信息。

当然，在真实断流的场景中，并不会产生图像帧。

在本发明的另一个实施例中，步骤102可以包括如下子步骤：

子步骤S31，统计所述直播的视频流的数量。

子步骤S32，当所述数量超过预设的数量阈值时，缩小预置的图像识别窗口，缩小后的图像识别窗口的面积小于所述目标帧图像的面积。

子步骤S33，在所述缩小后的图像识别窗口中，对所述目标帧图像的部分区域识别图像场景信息。

本发明实施例基于移动互联网互动直播间的特点，提供一个加速开关，当同时在线的直播间的数量达到数量阈值时，触发这个加速开关。

此时，对场景信息进行检测的窗口将不再是目标帧图像的原始大小，而是以目标帧图像(不论横屏/竖屏)中线为出发点，向两头各扩展图像一定长度(如1/3)，即检测的窗口缩减为原始大小的一定比例(如2/3)。

步骤103，根据所述图像场景信息识别所述直播的视频流的直播场景信息。

在分层结构中，其中一层为业务处理层，在业务处理层中，可以根据图像场景信息识别直播的视频流的直播场景信息。

由于视频分析层给出的是某一小段时间内静止的场景的分类结果，而实际情况下，直播的视频流又是一个由连续和不断变化的场景组成的，如果靠一两次静止的场景的分类结果进行对直播的视频流进行分类，可能会有误差。

因此，在本发明实施例中，可以汇总静止的场景，对直播的视频流进行场景分类，从而获知其直播场景信息。

在本发明的一个实施例中，步骤103可以包括如下子步骤：

子步骤S41，将所述图像场景信息存储至预置的滑动窗口中。

在本发明实施例中，可以对每个直播的视频流配置一个缓存历次图像分类信息的滑动窗口，缓存最近一段时间的图像场景信息。

在缓存图像场景信息时，可以判断预置的滑动窗口是否已全部存储在先的图像场景信息；

若是，则从滑动窗口中移除时间戳最小的、在先的图像场景信息，并将当前的图像场景信息存储至空闲(即未存储图像场景信息)的滑动窗口中。

若否，则将当前的图像场景信息存储至预置的、空闲(即未存储图像场景信息)的滑动窗口中。

子步骤S42，采用所述滑动窗口中缓存的图像场景信息识别所述直播的视频流的直播场景信息。

每接收到一个新的图像场景信息，则可以重新采用滑动窗口中缓存的图像场景信息对直播的视频流进行场景识别，从而平滑了机器学习算法的误差，得到一个更为稳定的直播场景信息。

在一种实施方式中，可以统计在滑动窗口中、相同场景的图像场景信息的数量占比。

当某个场景的图像场景信息的数量占比高于预设的比例阈值时，基于场景对直播的视频流生成直播场景信息。

例如，滑动窗口设置为10，即缓存最近10次的图像场景信息，如果10次的图像场景信息中，6次为主播场景信息，3次为静物场景信息，1次为遮挡场景信息，由于6次大于5次(比例阈值)，则可以认为直播的视频流的直播场景信息为主播场景信息。

参照图4，示出了根据本发明一个实施例的另一种直播视频的场景检测方法实施例的步骤流程图，具体可以包括如下步骤：

步骤401，从直播的视频流中提取目标帧图像。

步骤402，在所述目标帧图像中识别图像场景信息。

步骤403，根据所述图像场景信息识别所述直播的视频流的直播场景信息。

步骤404，将所述直播场景信息通过预置的接口发送至订阅设备。

在分层结构中，其中一层为接口层，在接口层中，可以将直播场景信息通过预置的接口发送至订阅设备。

如图5所示，在逻辑结构上，本发明实施例可以划分为视频采样层501、视频分析层502、业务处理层503、接口层504。

如图6所示，部署独立的开流状况服务器601，这是一个外部的系统，从这个系统里，可以查询到当前开播的视频流，从而按照当前开播的视频流的信息(如ID)，去获取目标帧图像并进行分类。

部署独立的分析调度服务器602，分析调度服务器602从开流状况服务器601获取当前开播的视频流的信息(如ID)，作为外部数据源，然后以视频流的信息(如ID)作为输入信息，去调度分析服务器604进行分析处理工作。

部署独立的帧提取服务器603，划分为视频采样层，从而从直播的视频流中提取目标帧图像。

部署独立的分析服务器(集群)604，划分为视频分析层，从而在目标帧图像中识别图像场景信息。

分析处理的结果(即图像场景信息)有部分存储在分析调度服务器602上，也有部分在业务处理服务器605上。

部署独立的业务处理服务器605，划分为业务处理层，从而根据图像场景信息识别所述直播的视频流的直播场景信息。

部署独立的接口服务器606，划分为接口层，又可称为表示层，在该接口层中，对外提供API(Application Programming Interface,应用程序编程接口)接口，将直播的视频流的直播场景信息提供给第三方的订阅设备，由其进行业务相关的扩展使用。

例如，系统会生出一些动态的菜单，如果能识别出主播场景信息，则菜单内容与主播交流有关，如果识别静物场景信息，则菜单内容偏重和直播间其他的观众交流，如果识别出遮挡场景信息，则不会有互动菜单。

部署独立的接口订阅服务器607，通过API接口从接口服务器606获取直播的视频流的直播场景信息，向用户提供质量较高的直播间或主播，让用户在网站进行搜索，将直播的信息通过订阅、邮件推荐给用户。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图7，示出了根据本发明一个实施例的一种直播视频的场景检测装置的结构框图，具体可以包括如下模块：

视频采样模块701，适于从直播的视频流中提取目标帧图像；

视频分析模块702，适于在所述目标帧图像中识别图像场景信息；

业务处理模块703，适于根据所述图像场景信息识别所述直播的视频流的直播场景信息。

在本发明的一个实施例中，所述视频采样模块701还适于：

从直播的视频流中查找画面组；

在所述画面组中提取关键帧图像，作为目标帧图像。

在本发明的一个实施例中，所述视频采样模块701还适于：

在本发明的一个实施例中，所述图像场景信息包括主播场景信息、静物场景信息、遮挡场景信息和断流场景信息中的一个或多个。

在本发明的一个实施例中，所述视频分析模块702还适于：

在所述目标帧图像中进行人脸识别；

当识别到人脸时，生成主播场景信息；

当未识别到人脸时，在所述目标帧图像中进行物体检测；

当检测到物体时，生成静物场景信息；

当未检测到物体时，生成遮挡场景信息。

在本发明的一个实施例中，所述视频分析模块702还适于：

基于竖屏方式在所述目标帧图像中进行人脸识别；

当未识别到人脸时，将所述目标帧图像旋转指定的角度；

基于横屏方式在旋转之后的目标帧图像中进行人脸识别。

在本发明的一个实施例中，所述视频分析模块702还适于：

统计所述直播的视频流的数量；

在本发明的一个实施例中，所述业务处理模块703还适于：

将所述图像场景信息存储至预置的滑动窗口中；

在本发明的一个实施例中，所述业务处理模块703还适于：

判断预置的滑动窗口是否已全部存储在先的图像场景信息；

将当前的图像场景信息存储至空闲的滑动窗口中；

在本发明的一个实施例中，所述业务处理模块703还适于：

参照图8，示出了根据本发明一个实施例的另一种直播视频的场景检测装置的结构框图，具体可以包括如下模块：

视频采样模块801，适于从直播的视频流中提取目标帧图像；

视频分析模块802，适于在所述目标帧图像中识别图像场景信息；

业务处理模块803，适于根据所述图像场景信息识别所述直播的视频流的直播场景信息；

接口模块804，适于将所述直播场景信息通过预置的接口发送至订阅设备。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的直播视频的场景检测设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明实施例公开了A1、一种直播视频的场景检测方法，包括：

从直播的视频流中提取目标帧图像；

在所述目标帧图像中识别图像场景信息；

A2、如A1所述的方法，还包括：

将所述直播场景信息通过预置的接口发送至订阅设备。

A3、如A1所述的方法，所述从直播的视频流中提取目标帧图像的步骤包括：

从直播的视频流中查找画面组；

在所述画面组中提取关键帧图像，作为目标帧图像。

A4、如A1所述的方法，所述从直播的视频流中提取目标帧图像的步骤包括：

A5、如A1或A2或A3或A4所述的方法，所述图像场景信息包括主播场景信息、静物场景信息、遮挡场景信息和断流场景信息中的一个或多个。

A6、如A5所述的方法，所述在所述目标帧图像中识别图像场景信息的步骤包括：

在所述目标帧图像中进行人脸识别；

当识别到人脸时，生成主播场景信息；

当未识别到人脸时，在所述目标帧图像中进行物体检测；

当检测到物体时，生成静物场景信息；

当未检测到物体时，生成遮挡场景信息。

A7、如A6所述的方法，所述在所述目标帧图像中进行人脸识别的步骤包括：

基于竖屏方式在所述目标帧图像中进行人脸识别；

当未识别到人脸时，将所述目标帧图像旋转指定的角度；

基于横屏方式在旋转之后的目标帧图像中进行人脸识别。

A8、如A5所述的方法，所述在所述目标帧图像中识别图像场景信息的步骤包括：

A9、如A1或A2或A3或A4或A6或A7或A8所述的方法，所述在所述目标帧图像中识别图像场景信息的步骤包括：

统计所述直播的视频流的数量；

A10、如A1或A2或A3或A4或A6或A7或A8所述的方法，所述根据所述图像场景信息识别所述直播的视频流的直播场景信息的步骤包括：

将所述图像场景信息存储至预置的滑动窗口中；

A11、如A10所述的方法，所述将所述图像场景信息存储至预置的滑动窗口中的步骤包括：

判断预置的滑动窗口是否已全部存储在先的图像场景信息；

将当前的图像场景信息存储至空闲的滑动窗口中；

A12、如A10所述的方法，所述采用所述滑动窗口中缓存的图像场景信息识别所述直播的视频流的直播场景信息的步骤包括：

本发明实施例还公开了B13、一种直播视频的场景检测装置，包括：

视频采样模块，适于从直播的视频流中提取目标帧图像；

B14、如B13所述的装置，还包括：

B15、如B13所述的装置，所述视频采样模块还适于：

从直播的视频流中查找画面组；

在所述画面组中提取关键帧图像，作为目标帧图像。

B16、如B13所述的装置，所述视频采样模块还适于：

B17、如B13或B14或B15或B16所述的装置，所述图像场景信息包括主播场景信息、静物场景信息、遮挡场景信息和断流场景信息中的一个或多个。

B18、如B17所述的装置，所述视频分析模块还适于：

在所述目标帧图像中进行人脸识别；

当识别到人脸时，生成主播场景信息；

当未识别到人脸时，在所述目标帧图像中进行物体检测；

当检测到物体时，生成静物场景信息；

当未检测到物体时，生成遮挡场景信息。

B19、如B18所述的装置，所述视频分析模块还适于：

基于竖屏方式在所述目标帧图像中进行人脸识别；

当未识别到人脸时，将所述目标帧图像旋转指定的角度；

基于横屏方式在旋转之后的目标帧图像中进行人脸识别。

B20、如B17所述的装置，所述视频分析模块还适于：

B21、如B13或B14或B15或B16或B18或B19或B20所述的装置，所述视频分析模块还适于：

统计所述直播的视频流的数量；

B22、如B13或B14或B15或B16或B18或B19或B20所述的装置，所述业务处理模块还适于：

将所述图像场景信息存储至预置的滑动窗口中；

B23、如B22所述的装置，所述业务处理模块还适于：

判断预置的滑动窗口是否已全部存储在先的图像场景信息；

将当前的图像场景信息存储至空闲的滑动窗口中；

B24、如B22所述的装置，所述业务处理模块还适于：

Claims

1.一种直播视频的场景检测方法，包括：

从直播的视频流中提取目标帧图像；

在所述目标帧图像中识别图像场景信息；

2.如权利要求1所述的方法，其特征在于，还包括：

将所述直播场景信息通过预置的接口发送至订阅设备。

3.如权利要求1所述的方法，其特征在于，所述从直播的视频流中提取目标帧图像的步骤包括：

从直播的视频流中查找画面组；

在所述画面组中提取关键帧图像，作为目标帧图像。

4.如权利要求1所述的方法，其特征在于，所述从直播的视频流中提取目标帧图像的步骤包括：

5.如权利要求1或2或3或4所述的方法，其特征在于，所述图像场景信息包括主播场景信息、静物场景信息、遮挡场景信息和断流场景信息中的一个或多个。

6.如权利要求5所述的方法，其特征在于，所述在所述目标帧图像中识别图像场景信息的步骤包括：

在所述目标帧图像中进行人脸识别；

当识别到人脸时，生成主播场景信息；

当未识别到人脸时，在所述目标帧图像中进行物体检测；

当检测到物体时，生成静物场景信息；

当未检测到物体时，生成遮挡场景信息。

7.如权利要求6所述的方法，其特征在于，所述在所述目标帧图像中进行人脸识别的步骤包括：

基于竖屏方式在所述目标帧图像中进行人脸识别；

当未识别到人脸时，将所述目标帧图像旋转指定的角度；

基于横屏方式在旋转之后的目标帧图像中进行人脸识别。

8.如权利要求5所述的方法，其特征在于，所述在所述目标帧图像中识别图像场景信息的步骤包括：

9.如权利要求1或2或3或4或6或7或8所述的方法，其特征在于，所述在所述目标帧图像中识别图像场景信息的步骤包括：

统计所述直播的视频流的数量；

10.一种直播视频的场景检测装置，包括：

视频采样模块，适于从直播的视频流中提取目标帧图像；