CN113902989A

CN113902989A - 直播场景检测方法、存储介质及电子设备

Info

Publication number: CN113902989A
Application number: CN202111159815.0A
Authority: CN
Inventors: 洪国伟; 曹成志; 曾裕斌; 董治; 雷兆恒
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-07

Abstract

本申请公开一种直播场景检测方法。该方法包括：针对待检测的视频的视频帧，分割前景区域和背景区域，其中所述前景区域包括运动目标；识别所述前景区域中的运动目标的仪态，以得到仪态特征；识别所述背景区域中的环境的属性，以得到属性特征；以及将所述运动目标的仪态特征和所述环境的属性特征进行多模态特征融合，以获得所述视频的视频特征，并基于所述视频特征预测所述视频是否为直播视频。本申请还公开了一种存储介质和电子设备。

Description

直播场景检测方法、存储介质及电子设备

技术领域

本申请涉及计算机视觉技术领域，具体地涉及一种直播场景检测方法、存储介质及电子设备。

背景技术

近年来，以直播为主要形式的微视频作为一种新颖的媒体形式，在社交网络上广泛传播，给人们的生活增添许多乐趣。由于微视频的种类及数量等较为繁多，因此亟需一种有效地对其进行识别过滤的方法，从而可以得到有意义的直播视频提供给用户观看，以提高用户的观看体验。

传统地，可以使用特征提取方法，例如尺度不变特征转换算法或模板匹配算法等方法，来识别视频中物体的局部特征从而达到场景识别的目的。其中，物体的局部特征可以是例如卧室墙角、门的把手等用于判别视频图像中的标志性物体。但这种方法过于针对局部区域，导致其泛化性较差，不利于普及。

还有一些场景识别与检测技术使用各种卷积神经网络来进行图像分类操作，直接端到端进行训练，例如利用卷积神经网络、残差网络等经典模型，这种方式在直播场景中的应用效果并不好。这是由于在直播环境中，图像中存在人物等关键信息并且其占据了图像中的大部分区域，削弱了图像背景的原始特征，从而导致检测效果不佳。

发明内容

因此，本发明实施例意图提供一种直播场景检测方法和装置以及相关的存储介质和电子设备，其能够有效解决利用局部特征进行直播场景检测时泛化性较差以及端到端进行训练削弱了图像背景的原始特征等问题。

在第一方面，提供一种直播场景检测方法，其包括：

针对待检测的视频的视频帧，分割前景区域和背景区域，其中所述前景区域包括运动目标；

识别所述前景区域中的运动目标的仪态，以得到仪态特征；

识别所述背景区域中的环境的属性，以得到属性特征；以及

将所述运动目标的仪态特征和所述环境的属性特征进行多模态特征融合，以获得所述视频的视频特征，并基于所述视频特征预测所述视频是否为直播视频。

在第二方面，提供一种直播场景检测装置，其包括：

分割单元，配置成针对待检测的视频的视频帧，分割前景区域和背景区域，所述前景区域包括运动目标；

仪态识别单元，配置成识别所述前景区域中的运动目标的仪态，以得到仪态特征；

环境属性识别单元，配置成识别所述背景区域中的环境的属性，以得到属性特征；

融合预测单元，配置成将所述运动目标的仪态特征和所述环境的属性特征进行多模态特征融合，以获得所述视频的视频特征，并基于所述视频特征预测所述视频是否为直播视频。

在第三方面，提供一种存储介质，存储有计算机程序，所述计算机程序配置成被运行时执行任一本发明实施例的直播场景检测方法。

在第四方面，提供一种电子设备，其包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行任一本发明实施例的直播场景检测方法。

根据上述技术方案，可以通过多模态特征进行直播场景检测。这种方法综合考虑了多个特征对检测结果的影响，实现了多个特征的互补，从而提高了检测结果的准确度。此外，上述技术方案从全局角度提取到了视频中的多个特征，基于该多个特征进行直播场景检测，可以增强直播场景检测方法的泛化性。

本发明实施例的其他可选特征和技术效果一部分在下文描述，一部分可通过阅读本文而明白。

附图说明

以下，结合附图来详细说明本发明的实施例，所示出的元件不受附图所显示的比例限制，附图中相同或相似的附图标记表示相同或类似的元件，其中：

图1示出了根据本发明实施例的直播场景检测方法的示意性流程图；

图2示出了根据本发明实施例的待检测的视频的视频帧的示意图；

图3示出了根据本发明实施例的分割前景区域和背景区域的方法的示意性流程图；

图4示出了根据本发明实施例的图2所示的视频帧的二值化图像的示意图；

图5示出了根据本发明实施例的分割前景区域和背景区域的示意性框图；

图6示出了根据本发明实施例的图4所示的二值化图像中前景区域的至少部分边界的示意图；

图7示出了根据本发明实施例的基于图6所示的边界确定的前景区域的示意图；

图8示出了根据本发明实施例的对人物进行姿态估计的方法的示意性流程图；

图9示出了根据本发明实施例的人物的关键部位的示意图；

图10示出了根据本发明实施例的基于关键部位确定人物的姿态关键点的方法的示意性流程图；

图11示出了根据本发明实施例的图9所示人物的的姿态估计框架的示意图；

图12示出了根据本发明实施例的对人物进行表情检测的方法的示意性流程图；

图13示出了根据本发明实施例的识别背景区域中的环境的属性的方法的示意性流程图；

图14示出了根据本发明实施例的对背景区域进行网格划分的示意图；

图15示出了根据本发明实施例的模板匹配的示意图；

图16示出了根据本发明实施例的对视频的声音进行节拍检测的方法的示意性流程图；

图17示出了根据本发明实施例的视频中声音的音频幅值数据的波形的示意图；

图18示出了根据本发明实施例的视频中声音的差值音频序列的频域信号的波形的示意图；

图19示出了根据本发明实施例的特征融合以获得视频特征并基于视频特征预测直播视频的方法的示意性流程图；

图20示出了根据本发明实施例的直播场景检测方法的示意图；

图21示出了根据本发明实施例的直播场景检测装置的结构示意图；以及

图22示出了能实施根据本发明实施例的直播场景检测方法的电子设备的示例性结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合具体实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

如背景技术中所述，现有的直播场景检测方法仅仅通过单幅图像来判断直播情景，忽略了蕴含的时序信息、主播的仪态信息等等。由此，导致现有的直播场景检测方法准确性和普适性较低。当前存在这样的需求，即针对直播环境中的复杂情况，提高直播场景检测的准确度，增强直播场景检测的泛化性。

本发明实施例提供一种直播场景检测方法。该方法可以有效适应直播环境中的复杂情况，提高场景识别的准确度，从而可以提高用户的观看体验。此外，本发明实施例还相应地涉及对应的装置以及实施上述方法的计算机系统和存储有可执行上述方法的程序的存储介质。在一些实施例中，装置、部件、单元或模型可以由软件、硬件或软硬件结合实现。

图1示出了根据本发明实施例的直播场景检测方法100的示意性流程图。参考图1，所述直播场景检测方法100可以包括步骤S110至步骤S170。

步骤S110，针对待检测的视频的视频帧，分割前景区域和背景区域。其中前景区域包括运动目标。

待检测的视频可以是任何适合进行场景检测的视频。其中，场景可以用于描绘目标的活动以及所处环境等。例如，人在卧室读书或睡觉，人在广场跳舞或室内唱歌，熊猫在室外吃竹子等都可以将其视为场景。可以理解，对于录制直播视频，摄像头通常会正对着直播场景中的目标，这样便于更好地播放目标的仪态。对于目标是人物的场景来说，人物可以随时调整自己的仪态，还可以保持与观众进行互动。总之，直播视频中通常包括运动目标，其可以是人物或动物等。运动目标在直播过程中通常是处于运动状态。可以理解，该运动状态并非仅限定于大幅度运动，例如跳舞、做操等，还可以是小幅度运动，例如唱歌、读书等。

待检测的视频中可以包括多个视频帧，针对其中的视频帧分割其前景区域和背景区域。可以采用例如大津法—最大类间方差法(OTSU算法)等任何现有的或未来研发的分割方法。只要目标不是静止的，均可以认为其是运动目标。基于目标是否运动可以分割视频帧中的前景区域和背景区域。前景区域包括运动目标，其余区域例如距离镜头较远的静止对象或周围环境则可以认为是背景区域。图2示出了根据本发明实施例的待检测的视频的视频帧的示意图。如图2所示，其中面向镜头的人物是这一视频帧的前景区域，而背向镜头的人物以及二人所处的周围环境可能是这一视频帧的背景区域。

步骤S130，识别前景区域中的运动目标的仪态,以得到仪态特征。

在得到前景区域和背景区域后，可以对前景区域中的运动目标的仪态进行识别，以得到仪态特征。运动目标的仪态可以包括运动目标的姿态和表情等。以运动目标是人物为例，其作出不同的动作可以在视频中呈现出不同的姿态，例如站姿、坐姿、走路的姿态、跳舞的姿态等等。可以通过各种特征信息来对人物姿态动作进行识别，比如人物轮廓等，还可以基于运动捕获技术进行人物姿态识别。具体地，通过定位人物的关节点、储存关节点运动数据信息来识别人物运动轨迹。人物有不同的情绪可以在视频中呈现出不同的表情，可以根据人脸的关键点的形状和位置等识别人物的表情。所识别的运动目标的仪态可以用仪态特征来表示。

步骤S150，识别背景区域中的环境的属性，以得到属性特征。

基于分割后得到的背景区域，进行环境的属性的识别，以得到环境的属性特征。例如，环境的属性标识了具体是什么环境，例如可以是一个光线很强的、明亮宽敞的阳台，还可以是一个暖色调偏多的、具有浪漫风格的卧室等。示例性地，可以基于光线的强弱程度、色彩搭配、标志性建筑设施以及装修风格等来确定环境的属性并得到对应的属性特征。例如，基于所识别的办公桌、电脑等可以识别出该背景区域中的环境是办公室。

步骤S170，将运动目标的仪态特征和环境的属性特征进行多模态特征融合，以获得视频特征，并基于视频特征预测视频是否为直播视频。

多模态特征可以是衡量一个目标的多个指标和状态。根据上述步骤得到的运动目标的仪态特征以及背景区域中的环境的属性特征等，都可以视为是基于待检测的视频获取到的不同模态的特征。这些特征从不同方面描述了视频，冗余信息少。可以将上述多个特征进行多模特特征融合以获得视频特征，即将多个特征融合为一个特征。可以理解，由于直播视频的主体是“运动目标”，而环境因素对直播过程的影响不大。于是，可以对上述特征赋予不同的权重，以表示其重要程度。例如，可以对运动目标的仪态特征赋予70％的权重，而对背景区域中的环境的属性特征赋予20％的权重，剩余的10％可以用于表示其他特征。

示例性地，可以将视频特征输入到神经网络中，以由神经网络预测所对应的视频是否为直播视频。当预测结果表示该视频是直播视频时，可以对其进行保留。若预测结果表示该视频不是直播视频时，可以对其进行删除。此外，还可以根据预测结果对直播视频进行分类，例如将其分为唱歌、跳舞等类别。

在本申请中不对特征融合方法做具体限定，任何现有的或未来的可以实现多模态特征融合的方法均在本申请的保护范围之内。

根据上述技术方案，可以利用经多模态特征融合后的视频特征进行直播场景检测。这种方法综合考虑了多个特征对检测结果的影响，实现了多个特征的互补，从而提高了检测结果的准确度。此外，上述技术方案从全局角度提取到了视频中的多个特征，基于该多个特征进行直播场景检测，可以增强直播场景检测方法的泛化性。

图3示出了根据本发明实施例的分割前景区域和背景区域的示意性流程图。参见图3，在本发明实施例中，步骤S110分割前景区域和背景区域可以通过以下步骤实现。

步骤S111，计算视频的当前帧与前一帧的差分图像。

由于在直播场景中，前景区域中的目标在运动，由此，相邻的视频帧之间存在一定的差异。可以利用帧间差来分割前景区域和背景区域。首先分别将待检测的视频中相邻的两个视频帧记为F_n和F_n-1，则两个视频帧中对应的像素点的灰度值记为F_n(x，y)和F_n-1(x，y)。示例性地，可以根据公式：

D_n(x，y)＝|F_n(x，y)-F_n-1(x，y)|

计算得到差分图像中的像素点的灰度值D_n(x，y)，进而得到差分图像D_n。

步骤S112，对差分图像进行二值化处理，以得到二值化图像。

对差分图像进行二值化处理的方法有很多。例如，当差分图像中的像素点的灰度值小于或等于阈值T时，将该灰度值所对应的像素点设为0(黑色)。反之，当差分图像中的像素点的灰度值大于阈值T时，将该灰度值所对应的像素点设为255(白色)。进而可以得到二值化图像R_n。一般地，阈值T可以设置为127。具体地，可以利用以下公式实现：

图4示出了根据本发明实施例将图2所示视频帧对应的差分图像进行二值化处理后得到的二值化图像。

步骤S113，对二值化图像进行连通性分析，以得到前景区域和背景区域。

根据上述步骤已经得到了二值化图像，其中灰度值为255的像素点为前景区域中的点。连通性分析是指找出二值化图像中的各个连通区域并对其进行标记。连通性分析可以采用以下算法：两遍扫描法(Two-Pass)和种子填充法(Seed Filling)。本领域普通技术人员可以理解这两种算法的具体实施步骤以及所得结果，在此不对其进行详细的描述。

为了帮助理解，图5示出了根据本发明实施例的分割前景区域和背景区域的示意性框图。如图5所示，首先从待检测视频中确定当前帧F_n和前一帧F_n-1。然后，计算二者的差分图像。根据设置的阈值，对差分图像进行二值化处理。最后通过连通性分析，得到该视频帧的前景区域和背景区域。

由此，通过上述简单的计算充分利用了视频中前景区域包括运动目标的特点，即可实现对视频中视频帧的前景区域和背景区域的分割。算法简单易于实现，并且计算量较小，可以节省计算成本。

在一些实施例中，步骤S113可以包括：首先，针对二值化图像执行膨胀操作和腐蚀操作，以获得前景区域的至少部分边界；然后，基于至少部分边界，确定前景区域和所述背景区域。

示例性地，对图4所示的二值化图像分别执行膨胀操作和腐蚀操作后可以得到图6所示的包括前景区域的部分边界的图像，该边界在图6中示出为白色曲线。一些情况中，运动目标没有完全出现在视频中，例如人物坐在写字台前读书。此种情况下，人物通常上半身出现在直播视频的偏下位置，其下半身可能未出现在视频中。因此，一般将直播视频中的同样位置取为前景区域。以图6为例，前景区域是指包含在白色边界之下的连通区域。在另一些情况中，视频帧中的运动目标可能完全出现在视频中，例如人物在正中间跳舞。通过膨胀操作和腐蚀操作可以获取到人物的全部边界。由此可以将包含在全部边界之内的区域视为前景区域，将全部边界之外的区域视为背景区域。

上述膨胀操作可以理解为扩大图4中的明亮白色区域。具体地，可以用一个结构元素扫描图像中的每一个像素，用结构元素中的每一个像素与其覆盖的像素做“或”操作，如果都为0，则该像素为0，否则为1。相反地，腐蚀操作可以用一个结构元素扫描图像中的每一个像素，用结构元素中的每一个像素与其覆盖的像素做“与”操作，如果都为1，则该像素为1，否则为0。通常情况下，这两个操作是按顺序进行的。

根据上述技术方案，膨胀操作可以将与运动目标接触的所有背景点合并到运动目标中，填补了区域中的细小孔洞，使运动目标增大。而腐蚀操作可以消除运动目标的边界点，使其缩小，同时可以消除小于结构元素的噪声点。由此，通过这些简单的操作可以得到更为平滑、准确度更高的边界。从而达到以较小的计算代价准确分割前景区域与背景区域的目的。

根据本发明一个实施例，基于至少部分边界，确定前景区域和背景区域还可以包括：首先，确定视频帧的边框；然后，将视频帧的下边框与至少部分边界所围成的区域确定为前景区域，将前景区域以外的其他区域确定为背景区域。

如前所述，人物通常上半身出现在直播视频的偏下位置。参见图6，在该实施例中，视频帧中的人物是坐着的，获取的是人物的半身像，因此白色边界是前景区域(人物)的部分边界，其余部分边界可以是视频帧的下边框。图7示出了根据本发明实施例的基于图6所示的边界确定的前景区域的示意图。参见图7，经由上述部分边界和下边框所围成的区域之内为前景区域(图7中灰色部分)，之外为背景区域。

在直播视频中，运动目标例如人物，如果没有完全出现在视频帧中，其出现在视频帧中的中下位置的可能性更大。根据上述技术方案可以有效确定运动目标的边界，进而基于完整的边界可以实现对图像的前/背景区域准确分割。

如前所述，在本发明实施例中，运动目标可以包括人物。步骤S130识别前景区域中的运动目标的仪态可以包括：对人物进行姿态估计，以得到人物的姿态特征；和/或对人物进行表情检测，以得到人物的表情特征。例如，人物的姿态特征可以利用人物的躯干或四肢等位置信息来表示。根据位置信息可以大致得知人物此时所做运动的幅度范围以及剧烈程度等，以此可以预测人物所进行的活动。当运动的幅度范围大时，预测得出人物此时可能正在做一些剧烈运动，例如跑步、跳舞等。当运动的幅度范围小时，预测得出人物此时可能正在做一些轻缓的动作，例如读书、睡觉等。类似地，人物的表情特征可以利用人物的五官的位置信息来表示。根据位置信息可以大致得知五官的形状和位置，以此可以预测人物此时的情绪等。例如，当五官的位置均在正常的范围内的位置时，可能表示此时人物的情绪变化起伏不大，进而预测得出人物此时可能在做例如读书等专注度很高或睡觉等没有情绪变化的活动。又例如，当嘴巴张开的面积占人脸面积的比例超出正常比例时，可能表示此时人物的情绪有起伏变化，进而预测得出人物可能在进食、讲话或唱歌等。

对于直播视频，很多都是人物的直播视频。一方面，人物的姿态和人物的表情是人物的明显特征；另一方面，人物的姿态估计和表情预测也是较容易实现的。因此，这保证了直播场景检测的可行性和可靠性。最后，这二者从不同方面标识了人物，如果综合考虑这二者，将为直播场景检测取得更优的效果提供保障。

图8示出了根据本发明实施例的对人物进行姿态估计的方法的示意性流程图。参见图8，对人物进行姿态估计可以包括步骤S131至步骤S133。

步骤S131，对前景区域进行语义分割，以获得人物的关键部位。

可以理解，语义分割是指对前景区域中的每一个像素进行分类。其中的类别可以是人物的上臂、前臂、大腿、小腿、躯干等。每个类别均为一个关键部位。在本申请中不对实现语义分割的具体算法进行限定，任何现有的或未来的可以实现语义分割的算法均在本申请的保护范围之内。图9示出了根据本发明实施例的人物的关键部位的示意图。如图9所示，通过语义分割获得了人物的前臂，参见图9中高亮区域。

步骤S132，基于关键部位确定人物的姿态关键点。

在获得关键部位之后，可以确定对应的姿态关键点。姿态关键点通常是人体的关节或部位的端点。通常情况下，关键点位于关键部位的边界或端部。可以基于此来利用关键部位确定人物的姿态关键点。再次参见图9，人物的前臂作为关键部位，其中所涉及的关键点可以有两个，分别是手腕和手肘的截线的中点。

步骤S133，基于姿态关键点确定人物的姿态特征。

根据本发明的实施例，可以将所确定的姿态关键点进行编号。然后连接相关联的关键点，例如，属于同一部位的关键点。以上面示例为例，上述步骤S132得到了两个关键点，将这两个关键点进行连接。对于上面示例，类似地，还可以将手肘与肩部关键点进行连接。在将相关联的关键点均进行了连接后，将获得一个类似人体骨架图的由线段构成的图形。根据该图形即可实现对人物的姿态的预测，从而确定人物的姿态特征。例如，人物的坐姿、站姿、跑步的姿态等。

人物的姿态作为多模态特征中最重要特征之一，对直播场景检测的结果有着极大的影响。实际上，在直播视频中，人物的姿态通常是一些较为常规的坐姿、站姿等。上述步骤以较小的计算代价获得了较为准确的人物的姿态的估计结果，为之后的直播场景的检测提供了稳定准确的信息，进而保障了直播场景检测结果的准确性。

图10示出了根据本发明实施例的基于关键部位确定人物的姿态关键点的方法的示意性流程图。如图10所示，步骤S132基于关键部位确定人物的姿态关键点可以包括以下步骤S132a至步骤S132c。

步骤S132a，用平行四边形拟合关键部位。

如上所述，关键部位是基于人物的躯体提取的。根据生理学特征，可以利用平行四边形对其进行拟合。如图9所示，对前景区域进行语义分割后获得了前臂这一关键部位。该前臂可以用平行四边形来进行拟合。示例性地，可以将视频帧的一个顶点作为原点，以建立直角坐标系。由此可以获得平行四边形各个顶点的位置坐标。

步骤S132b，基于平行四边形的顶点的位置坐标，确定平行四边形的短边。

根据上述步骤获得各个顶点的位置坐标后，随机选择其中一个顶点作为基点，然后分别计算与之相连的两个顶点到该基点的距离。两点之间距离较近的点的连线即为平行四边形的短边。

步骤S132c，确定短边的中点，以作为姿态关键点。

在确定了平行四边形的短边之后，可以根据短边的位置和长度确定短边的中点。进而将从短边上取到的两个中点作为姿态关键点。针对同一个平行四边形，将其上取到的关键点进行连线，可以对姿态进行估计。可以理解，在语义分割后可以获得多个关键部位，为了简洁在上述方案中仅对一个关键部位进行描述。针对多个关键部位执行上述操作后可以获得如图11所示的人物的姿态估计框架的示意图。

对于直播场景的检测，姿态估计是其中的一部分操作，上述步骤在保证姿态关键点的准确性的基础上，计算量较小。由此，在保证直播场景检测结果的准确性的基础上，提高了检测速度。

根据本发明实施例，识别前景区域中的运动目标的仪态特征包括对人物进行表情检测。图12是根据本发明实施例的对人物进行表情检测的方法的示意性流程图。参见图12，对人物进行表情检测的步骤可以包括步骤S134和步骤S135。

步骤S134，检测人物的人脸关键点。

首先，可以获得视频帧中人物的面部识别框。然后，在面部识别框内检测人脸关键点。人物的人脸关键点可以用人物的五官的位置信息来表示，例如，眼睛、眉毛以及嘴巴等的位置坐标。示例性地，对人脸区域可以进行68个关键点采样。与姿态关键点类似地，针对不同的部位可以对其关键点进行编号，例如人脸轮廓的编号为1-16，两个眉毛的编号分别为17-21和22-26，鼻子的编号为27-36，两个眼睛的编号为37-42和43-48，嘴巴的编号为49-68。

步骤S135，根据人脸关键点确定人物的表情特征。

例如，当编号为49-68的关键点所围成的面积在面部识别框中所占的比例越大时，可以表示人物的嘴巴张得越大，人物的情绪越激动，可能是非常惊讶。又例如，当编号为17-21或22-26的关键点与面部识别框上边界的距离与面部识别框高度的比值越小时，可以表示人物的眉毛上扬，可能非常开心。反之，其中人物可能非常伤心。

基于上述操作可以准确确定人物的表情，为后续的直播视频检测过程提供了更准确的输入数据。

图13示出了根据本发明实施例的识别背景区域中的环境的属性的方法的示意性流程图。参见图13，步骤S150识别背景区域中的环境的属性可以包括以下步骤S151至步骤S153。

步骤S151，对背景区域进行网格划分。

优选地，对背景区域进行网格划分，使得划分后的网格中至少存在一个网格不包括前景区域。因为该网格不包括前景区域的像素，其所有像素都是背景区域的，由此该网格更有利于对背景区域中的环境的属性的识别，避免了前景区域中的像素对识别背景区域中的环境的属性的干扰。图14示出了根据本发明实施例的对背景区域进行网格划分的示意图。如图14所示，在该实施例中将背景区域均分为5*5个网格。其中，第一列中的5个网格以及右上角的三个网格都是不包括前景区域的网格。

步骤S152，在经划分的图像中确定一个或多个连续网格内的图像为模板图像。

可以将经划分的图中的任意一个或多个连续网格内的图像确定为模板图像。优选地，将与前景区域无交集的网格确定为模板图像，以避免前景区域对识别背景区域的干扰。仍以图14为例，可以在第一列中的五个网格、第一行第四列的一个网格以及第五列中前两行的两个网格中确定模板图像。

步骤S153，将模板图像与图像数据库中的样本图像分别进行模板匹配，以确定视频帧的环境的属性特征。其中样本图像分别包括具有不同属性的环境。

可以理解，图像数据库中包含大量的样本图像。每个样本图像中可能包括具有不同属性的环境。图15示出了根据本发明实施例的模板匹配的示意图。图15的右侧示出了图像数据库中的部分样本图像。如图所示，样本图像中包括分别示出不同属性的环境的图像：例如青少年的卧室、浪漫的卧室和木制的厨房等的图像。示例性地，在进行模板匹配时，可以首先根据模板图像与样本图像的对比度、亮度或色调等对样本图像进行初筛，以减少样本图像数量，进而减少后续模板匹配的计算量。然后，基于筛选后的样本图像，利用模板图像进行模板匹配。例如，可以将模板图像视为滑块，将其在样本图像上逐像素滑动，每滑动一次计算出此时模板图像与其所覆盖的样本图像中的区域的相似度。根据相似度确定模板匹配结果。相似度越高，则模板图像中的环境的属性与样本图像中的环境的属性相同的概率越大；否则，反之。由此，根据所匹配的样本图像中的环境的属性可以确定视频帧中的环境的属性特征。

上述匹配过程所利用的匹配算法精度高，且运算过程简单，容易实现。由此，保证了直播视频检测的效率和准确性。

在一个具体实施例中，直播场景识别方法100还可以包括：对视频的声音进行节拍检测，以生成节拍特征。该方法100中的步骤S170还可以通过以下步骤实现，将节拍特征与运动目标的仪态特征和环境的属性特征进行多模态特征融合，以获得视频的视频特征。由此，可以基于视频特征预测视频是否为直播视频。在该实施例中增加了节拍特征，视频的节拍特征可以以向量的形式表示，例如，

其中，向量的元素可以表示声音中包含特定周期的节拍的概率。该特定周期可以是1秒、2秒等。例如上述向量表示声音中包含周期为1秒、2秒、3秒、4秒、5秒的节拍的概率分别为0.1、0.5、0.4、0.1和0.1。因此，根据上述向量，可以确定该视频的声音大概率存在一个周期为2至3秒之间的节拍。与人物的姿态特征、人物的表情特征和环境的属性特征类似地，节拍特征也可以作为多模态特征中的一个。

节拍特征给出了视频中声音的有关信息，是对视频的视频帧的相关信息的一个有力补充。特别是直播视频，其中很大比例的唱歌视频和跳舞视频，有一些是日常生活视频，但也会伴有背景音乐。由此，通过在视觉特征的基础上，增加听觉特征，显著提高了直播场景检测结果的准确性。而且，节拍特征是个相对容易检测的声音特征，利用该节拍特征不会给直播视频检测增加太多的计算量。

图16示出了根据本发明实施例的对视频的声音进行节拍检测的示意性流程图。如图16所示，步骤S160对视频的声音进行节拍检测可以包括以下步骤S161至步骤S164。

步骤S161，从视频中提取声音的音频幅值数据。

图17示出了根据本发明实施例的视频中的声音的音频幅值数据的波形的示意图。音频幅值数据可以表示声音的音量，其可以以一维向量的形式存储。

步骤S162，计算当前时刻音频幅值与前一时刻音频幅值的差值，以得到差值音频序列。

可以理解，在未对音频幅值数据进行处理之前，其可能存在噪音数据。因此可以对其先进行滤波降噪处理。例如，当前时刻与前一时刻相差1毫秒，针对当前时刻音频幅值与前一时刻音频幅值计算二者差值，可以获得当前时刻所对应的幅值差值。针对声音的时长中的多个时刻，分别执行如上所述的步骤，将获得多个幅值差值。将幅值差值作为纵坐标，将时间作为横坐标且步长为1毫秒，可以得到差值音频序列。

步骤S163，对差值音频序列进行傅里叶变换，以得到频域信号。

相对于时域信号而言，频域信号更易于对声音进行节拍分析。对图17所示的声音的差值音频序列进行傅里叶变换可以得到如图18所示的频域信号。

步骤S164，基于频域信号确定节拍特征。示例性地，可以利用经训练的神经网络来实现该步骤。

根据上述步骤，有效去除了声音中与节拍无关的信息。基于通过上述步骤获得的频域信息更容易分析获得节拍特征，且上述步骤算法简单，容易实现。

可以理解，上述技术方案仅用于示意，而不构成对本发明的限制。例如，步骤S130和步骤S150的先后顺序可以交换，甚至可以同时并行执行。此外，步骤S131至步骤S133与步骤S134和步骤S135仅仅用于区分步骤S130中的不同操作，也不表示步骤的先后顺序。总之，上述方案中的顺序仅仅是示例性地，而不是对实际直播场景检测过程中步骤顺序的限定。

图19示出了根据本发明实施例的特征融合以获得视频特征并基于视频特征预测直播视频的方法的示意性流程图。如图19所示，步骤S170将运动目标的仪态特征和环境的属性特征进行多模态特征融合，以获得视频特征可以包括以下步骤S171、步骤S172。

步骤S171，获得运动目标的仪态特征对应的向量以及环境的属性特征对应的向量。

如前文所述，从视频提取的人物的姿态特征、人物的表情特征、环境的属性特征等都可以作为视频的某一模态特征。其中每个特征均可以用向量表示。在此步骤中，可以获得运动目标的仪态特征以及环境的属性特征各自对应的向量。

步骤S172，利用运动目标的仪态特征及环境的属性特征分别对应的向量构建特征矩阵，其中特征矩阵用于表示视频的视频特征。

根据前述步骤S171可以得到运动目标的仪态特征对应的向量以及环境的属性特征对应的向量，倘若直接将多个特征串联组合，会导致严重的特征冗余，并且忽略了多模态特征之间的权重差异。根据本申请的实施例，基于这些向量可以构建待检测视频的第i个视频帧的特征矩阵x_i＝(x₁，x₂，，……)。其中，x₁，x₂，，……分别表示上述运动目标的仪态特征对应的向量以及环境的属性特征对应的向量。可以理解，运动目标的仪态特征以及环境的属性特征对应的向量的维度可能相同也可能不同。当向量的维度不同时，以这些向量中的最大维度为基准，对其余向量的不足元素用“0”进行补足，由此构建特征矩阵。

进一步地，所述基于视频特征预测视频是否为直播视频可包括步骤S173和S174。

步骤S173，将所述特征矩阵输入训练好的多层感知机，以由所述多层感知机输出场景分类向量，其中所述场景分类向量中的元素用于表示直播视频的场景或非直播视频的场景；

步骤S174，根据场景分类向量中的元素确定所述视频是否为直播视频。

多层感知机(MLP)是一种前馈人工神经网络模型，训练好的多层感知机是指对其中的神经网络的参数进行优化后的模型。经过多层感知机可以输出场景分类向量y_i。例如，输出的场景分类向量可以是

其中每个元素分别表示视频是该元素所对应的场景的概率。可以理解，当元素的数值越大时，可以表示作为视频帧中的场景属于该元素所对应的场景的概率越高。示例性地，多个不同场景可以包括直播视频场景以及非直播视频场景。换言之，对于某一场景，其或者属于直播视频场景，或者属于非直播视频场景。如上所述，待检测的视频可能包含多个视频帧，针对其中的每个视频帧，分别执行上述步骤可以获得多个场景分类向量。示例性地，当超过特定数目的视频帧，例如50％的视频帧，属于同一场景时，则可以将该待检测的视频的检测结果输出为属于该场景。例如，待检测的视频中包含50个视频帧，即可以得到50个场景分类向量。其中，基于前5个视频帧所获得的场景分类向量表示这些视频帧为室内走路场景，基于后45个视频帧所获得的场景分类向量表示这些视频帧为室内唱歌场景。显然45个超过50个的50％，于是将该待检测的视频检测为室内唱歌场景。室内唱歌场景属于直播视频场景中的一种，由此该视频为直播场景。反之，若基于前45个视频帧所获得的场景分类向量表示这些视频帧为室内读书场景，基于后5个视频帧所获得的场景分类向量表示这些视频帧为室内唱歌场景，则将该待检测的视频检测为室内读书场景。室内读书场景属于非直播视频场景中的一种。由此，该视频为非直播场景。

综上，通过多层感知机的非线性变换，建立起x_i和y_i之间的映射。

现有的、针对视频的场景识别与检测技术主要是使用各种卷积神经网络来进行图像分类操作。神经网络可以是例如，深度神经网络中的VGG16模型以及残差网络(ResNet)模型等经典模型。这种方法针对自然场景十分有效，可以达到很高的准确率。但对于存在人物等运动目标占据大部分区域的直播视频而言，该方法的场景识别效果并不理想。

可以理解，上述的步骤S171、S172、S173和S174以对运动目标的仪态特征对应的向量以及环境的属性特征进行多模态特征融合为例，来描述获得视频的视频特征的具体过程。如前所述，还可将声音的节拍特征与运动目标的仪态特征和环境的属性特征一并进行多模态特征融合，以获得视频的视频特征，其过程与上述过程类似，为了简洁，在此不再赘述。

因此，在本申请中，利用多层感知机基于上述多模态特征对待检测的视频进行直播场景检测，可以对视频特征中的非重复特征进行提取，有效避免了特征的冗余现象，进而有效弥补了现有技术中场景识别效果不理想等问题。

在本发明实施例中，可以利用训练视频和该训练视频对应的场景标签数据，基于交叉熵损失函数训练多层感知机。且在训练过程中可以使用小批梯度下降算法对多层感知机的网络权重和偏置进行优化。

场景标签数据

可以是训练视频中的每一个视频帧所对应的场景的标准化数据，其可以通过例如人工或机器标注而获得。场景标签数据中包括训练视频中真实场景所对应的场景标签向量。示例性地，场景标签数据可以使用一位有效编码(One-hot编码)的形式来表示。例如，对于室内唱歌视频，其视频标签数据的向量中在对应于室内唱歌场景的位置处元素为“1”，其余的对应于例如跳舞、读书等场景的位置处元素均为“0”。与待检测的视频类似地，将标注有场景标签数据的训练视频作为输入，执行前述步骤S110至步骤S170，可以得到对应的场景分类向量。使用交叉熵损失函数可以计算场景标签数据

和场景分类向量y_i之间的预测损失。交叉熵损失函数E_n(W，B)可以根据以下公式进行计算：

其中，bn表示将训练视频的所有视频帧所对应的所有场景标签数据均分为N个批次后每一批数据中包含的样本数量；W和B分别表示多层感知机的网络权重和偏置。

基于计算出的多个交叉熵损失函数的函数值，可以使用最小批梯度下降算法对多层感知机的网络权重和偏置进行优化。例如，在每一批数据的损失函数的函数值反向传播后不断调整网络权重和偏置，直至最小批梯度下降算法收敛。可以理解，算法的收敛可以指经过多次的迭代之后，输出的数值趋于某个具体数值。

批梯度下降算法针对的是计算出的所有交叉熵损失函数的函数值，即整个数据集，通过对数据集中所有的样本进行计算可以求解出梯度的方向。在上述算法中每次迭代都要使用到所有样本数据，对于数据量特别大的情况，需要花费大量的计算成本。而小批梯度下降算法可以在每次迭代的过程中利用部分样本代替所有样本。

经过上述训练过程可以实现对多层感知机的网络优化，进而经由优化后的多层感知机输出的直播场景检测结果同样是优化的，即提升了检测结果的准确性和可靠性。此外，使用小批梯度下降算法对多层感知机的网络进行优化可以显著减小计算量，节省大量的计算成本，同时保证计算结果的准确性不受任何影响。

图20示出了根据本发明实施例的直播场景检测方法的示意图。如图20所示，首先针对待检测的视频的视频帧进行区域分割，以获得前景区域和背景区域。基于前景区域可以对其中的运动目标，例如人物进行姿态估计和/或表情检测，以获得人物的姿态特征和/或人物的表情特征。基于背景区域可以进行模板匹配，以确定视频帧中的环境的属性特征。在上述进行区域分割的同时还可以针对待检测的视频进行音频数据的提取。对提取到的音频数据进行差值处理和傅里叶变换可以获得节拍特征。前述人物的姿态特征、人物的表情特征、环境的属性特征以及节拍特征均可以用向量的形式进行表示，以作为多模态特征中的一个。将多模态特征进行融合以获得视频特征。将该视频特征输入到多层感知机中可以预测待检测的视频是否是直播视频。

在本发明的一些实施例中，如图21所示，还提供一种直播场景检测装置2100。所述装置2100可包括分割单元2101、仪态识别单元2102、环境属性识别单元2103、融合预测单元2104。

在所示的实施例中，所述分割单元2101可配置成针对待检测的视频的视频帧，分割前景区域和背景区域。所述前景区域包括运动目标。在所示的实施例中，所述仪态识别单元2102可配置成识别所述前景区域中的运动目标的仪态，以得到仪态特征。在所示的实施例中，所述环境属性识别单元2103可配置成识别所述背景区域中的环境的属性，以得到属性特征。在所示的实施例中，所述融合预测单元2104可配置成融合所述视频的多模态特征以获得视频特征，并基于所述视频特征预测所述视频是否为直播视频。所述多模态特征包括所述运动目标的仪态特征和所述环境的属性特征。

本领域技术人员将明白，在不引起矛盾的情况下，本实施例的装置可以结合其他实施例所述的方法特征，反之则反。

在本发明实施例中，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行任一本发明实施例的直播场景检测方法。

在本发明实施例中，提供一种电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行任一本发明实施例的直播场景检测方法。

图22示出了一种可以实施本发明实施例的直播场景检测方法的电子设备2200的示意图，在一些实施例中可以包括比图示更多或更少的电子设备。在一些实施例中，可以利用单个或多个电子设备实施。在一些实施例中，可以利用云端或分布式的电子设备实施。

如图22所示，电子设备2200包括中央处理器(CPU)2201，其可以根据存储在只读存储器(ROM)2202中的程序和/或数据或者从存储部分2208加载到随机访问存储器(RAM)2203中的程序和/或数据而执行各种适当的操作和处理。CPU 2201可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，CPU 2201可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、神经网络处理器(NPU)、数字信号处理器(DSP)等等。在RAM 2203中，还存储有电子设备2200操作所需的各种程序和数据。CPU 2201、ROM 2202以及RAM 2203通过总线2204彼此相连。输入/输出(I/O)接口2205也连接至总线2204。

上述处理器与存储器共同用于执行存储在存储器中的程序，所述程序被计算机执行时能够实现上述各实施例描述的直播场景检测方法或装置的步骤或功能。

以下部件连接至I/O接口2205：包括键盘、鼠标等的输入部分2206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分2207；包括硬盘等的存储部分2208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分2209。通信部分2209经由诸如因特网的网络执行通信处理。驱动器2210也根据需要连接至I/O接口2205。可拆卸介质2211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器2210上，以便于从其上读出的计算机程序根据需要被安装入存储部分2208。图22中仅示意性示出部分组件，并不意味着计算机系统2200只包括图22所示组件。

上述实施例阐明的系统、装置、模块或单元，可以由计算机或其关联部件实现。计算机例如可以为移动终端、智能电话、个人计算机、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备、智能电视、物联网系统、智能家居、工业计算机、服务器或者其组合。

在优选的实施例中，所述直播场景检测方法可以至少部分或全部在云端的机器学习平台或者部分或全部地在自搭建的机器学习系统、如GPU阵列中实施或实现。

在优选的实施例中，所述直播场景检测方法和装置可以在服务器、例如云端或分布式服务器中实施或实现。在优选实施例中，还可以借助服务器，基于生成结果向中断推送或发送数据或内容。

在本发明的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

在本发明的实施例的方法、程序、系统、装置等，可以在单个或多个连网的计算机中执行或实现，也可以在分布式计算环境中实践。在本说明书实施例中，在这些分布式计算环境中，可以由通过通信网络而被连接的远程处理设备来执行任务。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本领域技术人员可想到，上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现，可以用软件、硬件和软/硬件结合的方式实现。

除非明确指出，根据本发明实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中，各步骤的多任务处理和并行/合并处理也是可以的或者可能是有利的。

在本文中，“第一”、“第二”是用于在同一实施例中区分不同的元件，不指代顺序或相对重要性。

在本文中，针对本发明的多个实施例进行了描述，但为简明起见，各实施例的描述并不是详尽的，各个实施例之间相同或相似的特征或部分可能会被省略。在本文中，“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本发明的至少一个实施例或示例中，而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

已参考上述实施例具体示出并描述了本发明的示例性系统及方法，其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本发明的精神及范围。

Claims

1.一种直播场景检测方法，其特征在于，包括：

识别所述前景区域中的运动目标的仪态，以得到仪态特征；

识别所述背景区域中的环境的属性，以得到属性特征；以及

2.根据权利要求1所述的方法，其特征在于，所述将所述运动目标的仪态特征和所述环境的属性特征进行多模态特征融合，以获得所述视频的视频特征，包括：

获得所述运动目标的仪态特征对应的向量以及所述环境的属性特征对应的向量；

利用所述运动目标的仪态特征及所述环境的属性特征分别对应的向量构建特征矩阵，其中所述特征矩阵用于表示所述视频的视频特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述视频特征预测所述视频是否为直播视频，包括：

将所述特征矩阵输入训练好的多层感知机，以由所述多层感知机输出场景分类向量，其中所述场景分类向量中的元素用于表示直播视频的场景或非直播视频的场景；

根据场景分类向量中的元素确定所述视频是否为直播视频。

4.根据权利要求1至3任一项所述的方法，其特征在于，其中，所述运动目标包括人物，所述识别所述前景区域中的运动目标的仪态特征，包括：

对所述人物进行姿态估计，以得到所述人物的姿态特征；和/或

对所述人物进行表情检测，以得到所述人物的表情特征。

5.根据权利要求4所述的方法，其特征在于，所述对所述人物进行姿态估计，包括：

对所述前景区域进行语义分割，以获得所述人物的关键部位；

基于所述关键部位确定所述人物的姿态关键点；以及

基于所述姿态关键点确定所述人物的姿态特征。

6.根据权利要求5所述的方法，其特征在于，所述基于所述关键部位确定所述人物的姿态关键点，包括：

用平行四边形拟合所述关键部位；

基于所述平行四边形的顶点的位置坐标，确定所述平行四边形的短边；

确定所述短边的中点，以作为所述姿态关键点。

7.根据权利要求4所述的方法，其特征在于，所述对所述人物进行表情检测，包括：

检测所述人物的人脸关键点；

根据所述人脸关键点确定所述人物的表情特征。

8.根据权利要求1至3任一项所述的方法，其特征在于，所述分割前景区域和背景区域，包括：

计算所述视频的当前帧与前一帧的差分图像；

对所述差分图像进行二值化处理，以得到二值化图像；以及

对所述二值化图像进行连通性分析，以得到所述前景区域和所述背景区域。

9.根据权利要求8所述的方法，其特征在于，所述对所述二值化图像进行连通性分析以得到所述前景区域和所述背景区域，包括：

针对所述二值化图像执行膨胀操作和腐蚀操作，以获得所述前景区域的至少部分边界；

基于所述至少部分边界，确定所述前景区域和所述背景区域。

10.根据权利要求9所述的方法，其特征在于，所述基于所述至少部分边界，确定所述前景区域和所述背景区域，包括：

确定所述视频帧的边框；

将所述视频帧的下边框与所述至少部分边界所围成的区域确定为所述前景区域，将所述前景区域以外的其他区域确定为所述背景区域。

11.根据权利要求1至3任一项所述的方法，其特征在于，所述识别所述背景区域中的环境的属性，包括：

对所述背景区域进行网格划分；

在经划分的图像中确定一个或多个连续网格内的图像为模板图像；

将所述模板图像与图像数据库中的样本图像分别进行模板匹配，以确定所述视频帧的环境的属性特征，其中所述样本图像分别包括具有不同属性的环境。

12.根据权利要求1至3任一项所述的方法，其特征在于，还包括：

对所述视频的声音进行节拍检测，以生成节拍特征；

将所述节拍特征与所述运动目标的仪态特征和所述环境的属性特征进行多模态特征融合，以获得所述视频的视频特征。

13.根据权利要求12所述的方法，其特征在于，所述对所述视频的声音进行节拍检测，包括：

从所述视频中提取所述声音的音频幅值数据；

计算当前时刻音频幅值与前一时刻音频幅值的差值，以得到差值音频序列；

对所述差值音频序列进行傅里叶变换，以得到频域信号；

基于所述频域信号确定所述节拍特征。

14.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行根据权利要求1至13中任一项所述的直播场景检测方法。

15.一种电子设备，其特征在于，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行根据权利要求1至13中任一项所述的直播场景检测方法。