CN110969066A

CN110969066A - 直播视频的识别方法、装置及电子设备

Info

Publication number: CN110969066A
Application number: CN201811161263.5A
Authority: CN
Inventors: 苏驰; 刘弘也
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2020-04-07
Anticipated expiration: 2038-09-30
Also published as: CN110969066B

Abstract

本发明实施例提供的一种直播视频的识别方法、装置及电子设备，通过从待识别的直播视频中获取多个图像帧，分别对多个图像帧进行特征提取，得到每个图像帧的图像特征矩阵。对图像帧特征矩阵进行拼接，得到多个图像帧组成的视频片段的视频片段特征矩阵。将视频片段特征矩阵输入预设的分类算法，获得直播视频属于违规视频的置信度，若置信度满足预设的违规条件，则确定直播视频为违规视频。与传统的仅对视频中的单一图像帧进行识别的方式相比，不仅可以识别单个图像帧中的裸露画面，还可以识别视频片段中的低俗动作，从而降低无法识别低俗动作造成的违规视频漏检。

Description

直播视频的识别方法、装置及电子设备

技术领域

本发明涉及视频识别技术领域，特别是涉及一种直播视频的识别方法、装置及电子设备。

背景技术

随着直播行业的迅猛发展，直播视频监管工作面对的视频数量呈爆发式增涨，人工观看各视频以识别违规视频的识别方式已难以满足需求。同时，鉴于视频识别实质上是图像识别的过程，因此，通过引入计算机视觉技术对视频帧进行识别从而实现对视频的自动化识别，以满足大量直播视频的监管需求。

在直播视频识别技术中，如果对视频进行逐帧识别，则需要进行大量的计算，无法应对直播视频的实时性。因此，相应的直播视频识别方法中大多基于标准图像识别技术对直播视频进行抽帧检查，采用的技术方案可归纳为：对直播视频进行抽帧采样，将采样得到的图像帧输入预先训练好的卷积神经网络进行检测，得到该图像帧属于违规类型的置信度，当这个置信度大于设定的阈值时，则将此图像帧或视频标记为违规。

实际应用中，如果直播视频中出现人体裸露的画面，或者低俗的动作，则该视频属于违规视频。但是，动作特征是由多个图像帧构成的视频片段的整体信息反映的，如果利用上述用于图像帧识别的卷积神经网络进行识别，将只能对构成低俗动作的某些单一图像帧进行识别，而无法对多个图像帧构成的视频片段的整体信息进行识别，也就很难识别低俗动作，导致违规视频漏检。

因此，如何对违规视频中的低俗动作进行自动化识别，以降低违规视频的漏检，是现有的直播视频识别技术需要解决的问题。

发明内容

本发明实施例的目的在于提供一种直播视频的识别方法、装置及电子设备，以降低违规视频的漏检。具体技术方案如下：

第一方面，本发明实施例提供了一种直播视频的识别方法，该方法包括：

从待识别的直播视频中获取多个图像帧；

分别对多个图像帧进行特征提取，得到每个图像帧的图像特征矩阵；

对图像帧特征矩阵进行拼接，得到多个图像帧组成的视频片段的视频片段特征矩阵；

将视频片段特征矩阵输入预设的分类算法，获得直播视频属于违规视频的置信度；

若置信度满足预设的违规条件，则确定直播视频为违规视频。

第二方面，本发明实施例提供了一种直播视频的识别装置，该装置包括：

图像获取模块，用于从待识别的直播视频中获取多个图像帧；

置信度获取模块，用于分别对多个图像帧进行特征提取，得到每个图像帧的图像特征矩阵；对图像帧特征矩阵进行拼接，得到多个图像帧组成的视频片段的视频片段特征矩阵；将视频片段特征矩阵输入预设的分类算法，获得直播视频属于违规视频的置信度；

判断模块，用于当置信度满足预设的违规条件，则确定直播视频为违规视频。

第三方面，本发明实施例提供了一种电子设备，该设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如上述第一方面提供的直播视频的识别方法的所有步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面提供的直播视频的识别方法的步骤。

本发明实施例提供的一种直播视频的识别方法、装置及电子设备，通过从待识别的直播视频中获取多个图像帧，分别对多个图像帧进行特征提取，得到每个图像帧的图像特征矩阵。对图像帧特征矩阵进行拼接，得到多个图像帧组成的视频片段的视频片段特征矩阵。将视频片段特征矩阵输入预设的分类算法，获得直播视频属于违规视频的置信度，若置信度满足预设的违规条件，则确定直播视频为违规视频。由于视频片段特征矩阵是拼接多个图像帧的图像帧特征矩阵得到的，能够反映由多个图像帧组成的视频片段的整体特征，从而能够反映视频片段中的动作特征。因此，利用预设的分类算法识别视频片段特征矩阵，与传统的仅对视频中的单一图像帧进行识别的方式相比，不仅可以识别单个图像帧中的裸露画面，还可以识别视频片段中的低俗动作，从而降低无法识别低俗动作造成的违规视频漏检。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明一实施例的直播视频的识别方法的流程示意图；

图2为本发明另一实施例的直播视频的识别预设的识别模型的训练方法的流程示意图；

图3为本发明另一实施例的直播视频的识别方法的流程示意图；

图4为本发明一实施例的直播视频的识别装置的结构示意图；

图5为本发明另一实施例的直播视频的识别装置的结构示意图；

图6为本发明再一实施例的直播视频的识别装置的结构示意图；

图7为本发明一实施例的电子设备的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面首先对本发明实施例提供的一种直播视频的识别方法进行介绍。

需要说明的是，本发明实施例提供的直播视频的识别方法，可以应用于提供直播服务的电子设备，该设备包括台式计算机、便携式计算机、互联网电视，智能移动终端、可穿戴式智能终端、服务器等，在此不作限定，任何可以实现本发明实施例的电子设备，均属于本发明实施例的保护范围。

如图1所示，本发明一实施例的直播视频的识别方法的流程，可以包括：

S101，从待识别的获取直播视频中获取多个的图像帧。

获取直播视频的图像帧具体可以是按预设周期从待识别的直播视频中采集多个图像帧，从而得到等间隔的多个图像帧。由于动作是由连续的图像帧构成的，且无间隔的连续图像帧的差别可能不大，因此，等间隔的图像帧与无间隔的连续图像帧相比，能够在尽可能保留反映动作特征的图像帧的同时，避免获取无间隔的连续图像帧形成的庞大数据量所导致的数据处理速度缓慢。

例如，待识别的直播视频中，构成主播喝水动作的所有图像帧中，无间隔的第1帧图像帧至第5帧图像帧可能都是主播手部接触杯子的动作，无间隔的第6帧图像帧至第15帧图像帧可能都是主播拿起杯子的动作，无间隔的第16帧图像帧至第25帧图像帧可能都是主播喝水的动作。当按照预设周期采集多个图像帧时，可以获得主播手部接触杯子的第5帧图像帧A，主播拿起杯子的第10帧图像帧B以及第15帧图像帧C，主播喝水的第20帧图像帧D以及第25帧图像帧E，从而以相对较少的图像帧构成了主播喝水的动作。

S102，分别对多个图像帧进行特征提取，得到每个图像帧的图像特征矩阵。

例如，分别对图像帧A，图像帧B，图像帧C，图像帧D以及图像帧E进行特征提取，得到图像帧A的图像特征矩阵a，图像帧B的图像特征矩阵b，图像帧C的图像特征矩阵c，图像帧D的图像特征矩阵d以及图像帧E的图像特征矩阵e。

其中，分别对多个图像帧进行特征提取，可以是利用预设的卷积神经网络进行特征提取，该预设的卷积神经网络为预先利用多个样本图像训练得到的，且多个样本图像可以构成属于违规视频的样本视频。对多个图像帧进行特征提取，也可以是利用HOG(Histogram of Oriented Gradient，方向梯度直方图)特征算法提取，或者，利用LBP(Local Binary Pattern，局部二值模式)算法等特征提取算法提取。任何可以用于提取图像的违规特征和未违规特征的特征提取算法均可用于本发明，本实施例对此不作限制。

S103，对图像帧特征矩阵进行拼接，得到多个图像帧组成的视频片段的视频片段特征矩阵。

实际应用中，进行违规视频识别时所获取的图像帧通常为三通道的彩色图像，相应的，图像帧特征矩阵为三维特征矩阵。因此，对图像帧特征矩阵进行拼接，具体可以是将多个图像帧特征矩阵拼接成四维特征矩阵，例如，将M个图像帧的图像帧特征矩阵(c,h,w)拼接为由M帧图像帧组成的视频片段的视频片段特征矩阵(M,c,h,w)。其中，h为矩阵的长，w为矩阵的宽，c为矩阵的通道数。

S104，将视频片段特征矩阵输入预设的分类算法，获得直播视频属于违规视频的置信度。

对于违规视频识别，只要该视频中存在违规图像帧或者违规视频片段，则该视频即可被确定为违规视频。因此，直播视频中违规图像帧或者违规视频片段的置信度，可以作为直播视频的置信度。

其中，预设的分类算法，具体可以是分类器模型，例如SoftMax(柔性最大化)分类器以及二分类器模型等。当然，预设的分类算法为预先利用包含违规和未违规的多个样本图像进行训练得到的。任何可以用于区分违规与非违规视频特征的分类算法均可用于本发明，本实施例对此不作限制。

S105，若置信度满足预设的违规条件，则确定直播视频为违规视频。

预设的违规条件具体可以为，置信度属于预设置信度区间，或者，置信度不小于预设置信度阈值。预设置信度区间和预设置信度阈值为训练完成预设的分类算法时确定的。

可选的，本发明图1实施例的S102，具体可以包括：

分别将多个图像帧分别输入预设的识别模型的特征提取子网络，进行特征提取，得到每个图像帧的图像帧特征矩阵。预设的识别模型为预先利用收集的多个样本图像训练得到的卷积神经网络模型。

特征提取子网络是构成预设的识别模型的子网络之一，该子网络为包含多组批量归一化层、激活函数层、卷积层以及池化层的深度卷积神经网络，用于图象帧特征的提取。

其中，预设的识别模型的训练，可选的，如图2所示，本发明一实施例的预设的识别模型的训练方法的流程，可以包括：

S201，将收集的多个样本图像输入初始的卷积神经网络模型进行训练，得到由所述多个样本图像构成的视频片段属于违规视频的预测置信度。

其中，预测置信度是初始的卷积神经网络模型对输入的样本图像处理后，得到的多个样本图像构成的视频片段属于违规视频的的概率，为初始的卷积神经网络模型对样本图像的检测结果。

S202，根据得到的预测置信度和预先标注的每个样本图像属于是否违规的类别信息，利用预设的误差函数，判断处于当前训练阶段的卷积神经网络模型是否收敛。如果收敛，执行S203，如果不收敛，执行S204至S205。

S203，将处于当前训练阶段的卷积神经网络模型确定为预设的识别模型。

利用预设的误差函数，判断当前目标检测模型是否收敛具体可以是，以最小化预设的误差函数为目标，计算预设的误差函数的最小值，当得到最小值时，则代表当前目标检测模型收敛，当还未得到最小值时，则代表当前目标检测模型不收敛。

预设的误差函数用于计算每个样本图像中预先标注的样本图像属于是否违规的类别信息，与处于当前训练阶段的卷积神经网络模型的检测结果的差异，差异越小，则检测结果越准确。因此，当预设的误差函数得到最小值时，当前训练阶段的卷积神经网络模型对样本图像的检测结果与预先标注的类别信息越相同。进而可以在当前训练阶段的卷积神经网络模型收敛时，将当前训练阶段的卷积神经网络模型确定为预设的目标检测模型。

S204，利用预设的梯度函数，采用随机梯度下降算法调整处于当前训练阶段的卷积神经网络模型的模型参数。

S205，将收集的多个样本图像输入调整后的卷积神经网络模型，重复进行训练和调整模型参数的步骤，直至调整后的卷积神经网络收敛。

随机梯度下降算法调整处于当前训练阶段的卷积神经网络模型的模型参数，以使卷积神经网络模型经过模型参数调整后，检测结果得到改善，减少与预先标注的类别信息之间的差异，从而达到收敛。

相应的，在处于当期训练阶段的模型收敛之前，重新进行上述训练和调整模型参数的步骤。当然，每次训练都是针对最新调整了模型参数的卷积神经网络模型。

实际应用中，还可以将预设的分类算法作为构成预设的识别模型的子网络，相应的，本发明图1实施例中的S104，具体可以包括：

将视频片段特征矩阵输入预设的识别模型的分类器子网络，得到直播视频属于违规视频的置信度。

分类器子网络为预设的分类算法，是构成预设的识别模型的子网络之一，该子网络用于获取输入的视频特征矩阵对应的视频片段的置信度，作为直播视频属于违规类型的置信度。

例如，按预设周期从直播视频中采集了M帧图像帧，其中M＞1，M帧图像帧均为长W、高H的三通道RGB图象帧。将M帧图像帧分别输入预设的识别模型的特征提取子网络，通过特征提取子网络的运算，提取出M帧图像帧各自的图像帧特征矩阵(c,h,w)，拼接为由M帧图像帧组成的视频片段的视频片段特征矩阵f₁＝(M,c,h,w)。其中，h为矩阵的长，w为矩阵的宽，c为矩阵的通道数。将视频片段特征矩阵f₁＝(M,c,h,w)输入预设的识别模型的分类器子网络，通过第一分类器子网络的运算，得到视频片段特征矩阵f₁＝(M,c,h,w)对应的视频片段属于违规类型的置信度，作为直播视频属于违规视频的置信度。

可选的，上述将视频片段特征矩阵输入预设的识别模型的分类器子网络，得到直播视频属于违规视频的置信度，具体可以包括：

对视频片段特征矩阵进行转置处理，得到转置视频片段特征矩阵。

对转置视频片段特征矩阵进行转置、以及降维变形，得到降维视频片段特征矩阵。

将降维视频片段特征矩阵输入预设全连接层以及预设激活函数，得到响应权重矩阵。

对响应权重矩阵进行变形恢复，得到时空响应权重矩阵。

利用时空响应权重矩阵，对转置视频片段特征矩阵进行加权处理，得到视频特征向量。

将视频特征向量输入预设全连接层以及预设激活函数，得到直播视频属于违规视频的置信度。

例如，对视频片段特征矩阵f₁＝(M,c,h,w)进行转置处理，得到转置视频片段特征矩阵f₂＝(c,M,h,w)。对转置视频片段特征矩阵f₂＝(c,M,h,w)进行转置、以及降维变形，得到降维视频片段特征矩阵M·h·w·c。利用预设隐藏层为1的全连接层及预设sigmoid激活函数，对降维视频片段特征矩阵M·h·w·c进行运算，得到值域为[0,1]、且维度为M·h·w的响应权重矩阵。对响应权重矩阵进行变形恢复，得到时空响应权重矩阵P₁＝(M,h,w)。利用时空响应权重矩阵P₁＝(M,h,w)，对转置视频片段特征矩阵f₂＝(c,M,h,w)进行加权处理，得到视频特征向量

其中，j代表所述M帧图像帧组成的视频片段中第j帧图像帧，(k,l)代表图像帧中坐标为(k,l)的矩形区域，i代表c维视频特征向量的第i个维度。利用预设隐藏层为1的全连接层及预设sigmoid激活函数，对视频特征向量f_v进行运算，得到视频片段特征矩阵f₁＝(M,c,h,w)对应的直播视频属于违规视频的置信度。

实际应用中，由于卷积神经网络的训练是根据卷积神经网络对不断输入的样本数据的不同滤波结果来调整卷积神经网络包含的滤波器的参数，因此，不同的样本数据可以得到具有不同参数的卷积神经网络。但是，如果希望单一的神经网络能够识别尽可能全面的不同违规样本，则该单一的神经网络可能会因过拟合导致模型复杂或者无法收敛。为此，可以采用多个预设的识别模型，利用能够识别尽可能多的不同违规图像的多个预设的识别模型，在降低违规视频的漏检的同时，避免过拟合的问题。

为此，如图3所示，本发明另一实施例的直播视频的识别方法的流程，预设的识别模型的数量为多个，该方法可以包括：

S301，从待识别的直播视频中获取多个图像帧。

S301与本发明图1实施例中的S101为相同的步骤，在此不再赘述，详见本发明图1实施例的描述。

S302，分别将多个图像帧输入每个预设的识别模型的特征提取子网络进行特征提取，得到每个图像帧的多个图像帧特征矩阵。

例如，分别将图像帧A，图像帧B输入预设的识别模型F1，F2，……，Fn，得到图像帧A的图像帧特征矩阵a1，图像帧特征矩阵a2，……，图像帧特征矩阵an，图像帧B的图像帧特征矩阵b1，图像帧特征矩阵b2，……，图像帧特征矩阵bn。其中n为预设的识别模型的数量。

S303，对得到的多个图像帧特征矩阵中，由同一个预设的识别模型的特征提取子网络提取的图像帧特征矩阵进行拼接，得到多个图像帧组成的视频片段的多个视频片段特征矩阵。

例如，将由预设的识别模型F1的特征提取子网络提取的图像帧特征矩阵a1和图像帧特征矩阵b1进行拼接，得到图像帧A和图像帧B组成的视频片段AB的视频片段特征矩阵a1b1。将由预设的识别模型F2的特征提取子网络提取的图像帧特征矩阵a2和图像帧特征矩阵b2进行拼接，得到图像帧A和图像帧B组成的视频片段AB的视频片段特征矩阵a2b2。以此类推，进行拼接，得到多个图像帧组成的视频片段的多个视频片段特征矩阵。

S304，分别将得到的多个视频片段特征矩阵输入每个预设的识别模型的分类器子网络，得到直播视频属于违规视频的多个置信度。

例如，分别将得到的视频片段特征矩阵a1b1，视频片段特征矩阵a2b2，……，视频片段特征矩阵anbn，输入每个预设的识别模型的分类器子网络，得到直播视频属于违规视频的置信度P1，置信度P2，……，置信度Pn。

S305，利用预设融合规则，融合所述多个置信度，得到目标置信度。

可选的，S305，具体可以包括：

将多个置信度，输入预设加权平均算法，得到目标置信度。

其中，预设加权平均算法可以是线性加权平均算法，也可以是非线性加权平均算法。

例如，线性加权平均算法中，每个预设的识别模型得到的置信度的权重均为1，可以直接基于多个置信度计算平均值，得到目标置信度。

非线性加权平均算法中，可以根据每个预设的识别模型的重要程度或者准确度，为每个预设的识别模型得到的置信度，设置不同的权重。例如，置信度P1的权重为0.6，置信度P2的权重为0.2，……，置信度Pn的权重为0.1。对每个置信度按设置的权重进行加权，再基于加权后的置信度计算平均值，得到目标置信度。

或者，S305，具体还可以包括：

统计多个置信度中，相同置信度的数量。

将数量最多的相同置信度，确定为目标置信度。

可以理解的是，预设的识别模型的检测检测结果存在一定容错度，或者，具有不同模型参数的预设的识别模型，对同一个视频特征矩阵的识别结果不同，相同识别结果的数量越多，表明该视频特征矩阵对应的视频越接近该识别结果。因此，可以将数量最多的相同置信度，确定为目标置信度。

例如，得到的10个置信度中，置信度为0.4的置信度数量为2个，置信度为0.6的置信度数量为3个，置信度为0.8的置信度数量为5个，则确定目标置信度为0.8。

S306，如果目标置信度满足预设识别条件，则确定直播视频为违规视频。

预设的违规条件具体可以为，目标置信度属于预设置信度区间，或者，目标置信度不小于预设置信度阈值。预设置信度区间和预设置信度阈值为训练完成预设的分类算法时确定的。

相应于上面的方法实施例，本发明实施例还提供了一种直播视频的识别装置。

如图4所示，本发明一实施例提供的直播视频的识别装置的结构，可以包括：

图像获取模块401，用于从待识别的直播视频中获取多个图像帧。

置信度获取模块402，用于分别对多个图像帧进行特征提取，得到每个图像帧的图像特征矩阵；对所述图像帧特征矩阵进行拼接，得到多个图像帧组成的视频片段的视频片段特征矩阵；将视频片段特征矩阵输入预设的分类算法，获得直播视频属于违规视频的置信度。

判断模块403，用于当所述置信度满足预设的违规条件，则确定所述直播视频为违规视频。

本发明实施例提供的一种直播视频的识别装置，通过从待识别的直播视频中获取多个图像帧，分别对多个图像帧进行特征提取，得到每个图像帧的图像特征矩阵。对图像帧特征矩阵进行拼接，得到多个图像帧组成的视频片段的视频片段特征矩阵。将视频片段特征矩阵输入预设的分类算法，获得直播视频属于违规视频的置信度，若置信度满足预设的违规条件，则确定直播视频为违规视频。由于视频片段特征矩阵是拼接多个图像帧的图像帧特征矩阵得到的，能够反映由多个图像帧组成的视频片段的整体特征，从而能够反映视频片段中的动作特征。因此，利用预设的分类算法识别视频片段特征矩阵，与传统的仅对视频中的单一图像帧进行识别的方式相比，不仅可以识别单个图像帧中的裸露画面，还可以识别视频片段中的低俗动作，从而降低无法识别低俗动作造成的违规视频漏检。

如图5所示，本发明另一实施例提供的直播视频的识别装置的结构，可以包括：

图像获取模块501，具体用于：

按预设频率从直播视频中采集多个图像帧。

置信度获取模块502，可以包括：提取子模块5021和分类子模块5022。

其中，提取子模块5021，用于分别将多个图像帧输入预设的识别模型的特征提取子网络进行特征提取，得到每个图像帧的图像帧特征矩阵；对图像帧特征矩阵进行拼接，得到多个图像帧组成的视频片段的视频片段特征矩阵；预设的识别模型为预先利用收集的多个样本图像训练得到的卷积神经网络模型。

分类子模块5022，用于将视频片段特征矩阵输入所述预设的识别模型的分类器子网络，得到所述直播视频属于违规视频的置信度。

判断模块503，用于当第一置信度或者第二置信度满足预设识别条件时，确定图象帧对应的直播视频为违规视频。

可选的，本发明图5实施例中的提取子模块5021中使用的预设的识别模型，可以采用如下模块训练获得：

预测模块，用于将收集的多个样本图像输入初始的卷积神经网络模型进行训练，得到由所述多个样本图像构成的视频片段属于违规视频的预测置信度。

参数调整模块，用于根据得到的预测置信度和预先标注的每个样本图像属于是否违规的类别信息，利用预设的误差函数，判断处于当前训练阶段的卷积神经网络模型是否收敛。在当前训练阶段的卷积神经网络模型不收敛时，利用预设的梯度函数，采用随机梯度下降算法调整处于当前训练阶段的卷积神经网络模型的模型参数。将收集的多个样本图像输入调整后的卷积神经网络模型，重复上述进行训练和调整模型参数的步骤，直至调整后的卷积神经网络收敛。

模型确定模块，用于在当前训练阶段的卷积神经网络模型收敛时，将处于当前训练阶段的卷积神经网络模型确定为预设的识别模型。

可选的，本发明图5实施例中的分类子模块5022，具体用于：

对视频片段特征矩阵进行转置处理，得到转置视频片段特征矩阵；

对转置视频片段特征矩阵进行转置以及降维变形，得到降维视频片段特征矩阵；

将降维视频片段特征矩阵输入预设全连接层以及预设激活函数，对第一降维视频片段特征矩阵进行运算，得到第一响应权重矩阵；

对响应权重矩阵进行变形恢复，得到时空响应权重矩阵；

时空响应权重矩阵，对转置视频片段特征矩阵进行加权处理，得到视频特征向量；

如图6所示，本发明再一实施例提供的直播视频的识别装置的结构，可以包括：

图像获取模块601，可以用于从待识别的直播视频中获取多个图像帧。

置信度获取模块602可以包括：提取子模块6021和分类子模块6022。

其中，提取子模块6021，用于分别将所述多个图像帧输入每个预设的识别模型的特征提取子网络进行特征提取，得到每个图像帧的多个图像帧特征矩阵。对图像帧特征矩阵进行拼接，得到多个图像帧组成的视频片段的视频片段特征矩阵；预设的识别模型为预先利用收集的多个样本图像训练得到的卷积神经网络模型。

分类子模块6022，用于分别将得到的多个视频片段特征矩阵输入每个预设的识别模型的分类器子网络，得到直播视频属于违规视频的多个置信度。

融合子模块6023，用于利用预设融合规则，融合多个置信度，得到目标置信度。

判断模块603，用于如果目标置信度满足预设识别条件，则确定直播视频为违规视频。

可选的，上述本发明图6实施例中的融合子模块6023，具体可以用于：

将所述多个置信度，输入预设加权平均算法，得到目标置信度。

统计多个置信度中，相同置信度的数量；将数量最多的相同置信度，确定为目标置信度。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器通703过通信总线704完成相互间的通信；

所述存储器703，用于存放计算机程序；

所述处理器701，用于执行所述存储器703上所存放的计算机程序时，实现上述实施例所述的任一直播视频的识别方法的所有步骤。

本发明实施例提供的一种电子设备，通过从待识别的直播视频中获取多个图像帧，分别对多个图像帧进行特征提取，得到每个图像帧的图像特征矩阵。对图像帧特征矩阵进行拼接，得到多个图像帧组成的视频片段的视频片段特征矩阵。将视频片段特征矩阵输入预设的分类算法，获得直播视频属于违规视频的置信度，若置信度满足预设的违规条件，则确定直播视频为违规视频。由于视频片段特征矩阵是拼接多个图像帧的图像帧特征矩阵得到的，能够反映由多个图像帧组成的视频片段的整体特征，从而能够反映视频片段中的动作特征。因此，利用预设的分类算法识别视频片段特征矩阵，与传统的仅对视频中的单一图像帧进行识别的方式相比，不仅可以识别单个图像帧中的裸露画面，还可以识别视频片段中的低俗动作，从而降低无法识别低俗动作造成的违规视频漏检。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(Non-Volatile Memory，简称NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明一实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，该计算机程序被处理器执行时，实现上述实施例所述的任一直播视频的识别方法的所有步骤。

本发明实施例提供的一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时，实现通过从待识别的直播视频中获取多个图像帧，分别对多个图像帧进行特征提取，得到每个图像帧的图像特征矩阵。对图像帧特征矩阵进行拼接，得到多个图像帧组成的视频片段的视频片段特征矩阵。将视频片段特征矩阵输入预设的分类算法，获得直播视频属于违规视频的置信度，若置信度满足预设的违规条件，则确定直播视频为违规视频。由于视频片段特征矩阵是拼接多个图像帧的图像帧特征矩阵得到的，能够反映由多个图像帧组成的视频片段的整体特征，从而能够反映视频片段中的动作特征。因此，利用预设的分类算法识别视频片段特征矩阵，与传统的仅对视频中的单一图像帧进行识别的方式相比，不仅可以识别单个图像帧中的裸露画面，还可以识别视频片段中的低俗动作，从而降低无法识别低俗动作造成的违规视频漏检。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，简称DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(Digital Versatile Disc，简称DVD))、或者半导体介质(例如固态硬盘(SolidState Disk，简称SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种直播视频的识别方法，其特征在于，所述方法包括：

从待识别的直播视频中获取多个图像帧；

分别对所述多个图像帧进行特征提取，得到每个图像帧的图像特征矩阵；

对所述图像帧特征矩阵进行拼接，得到所述多个图像帧组成的视频片段的视频片段特征矩阵；

将所述视频片段特征矩阵输入预设的分类算法，获得所述直播视频属于违规视频的置信度；

若所述置信度满足预设的违规条件，则确定所述直播视频为违规视频。

2.根据权利要求1所述的方法，其特征在于，所述分别对所述多个图像帧进行特征提取，得到每个图像帧的图像特征矩阵，包括：

分别将所述多个图像帧输入预设的识别模型的特征提取子网络进行特征提取，得到每个图像帧的图像帧特征矩阵；所述预设的识别模型为预先利用收集的多个样本图像训练得到的卷积神经网络模型；

所述将所述视频片段特征矩阵输入预设的分类算法，获得所述直播视频属于违规视频的置信度，包括：

将所述视频片段特征矩阵输入所述预设的识别模型的分类器子网络，得到所述直播视频属于违规视频的置信度。

3.根据权利要求2所述的方法，其特征在于，所述将所述视频片段特征矩阵输入所述预设的识别模型的分类器子网络，得到所述直播视频属于违规视频的置信度，包括：

对所述视频片段特征矩阵进行转置处理，得到转置视频片段特征矩阵；

对所述转置视频片段特征矩阵进行转置以及降维变形，得到降维视频片段特征矩阵；

将所述降维视频片段特征矩阵输入预设全连接层以及预设激活函数，得到响应权重矩阵；

对所述响应权重矩阵进行变形恢复，得到时空响应权重矩阵；

利用所述时空响应权重矩阵，对所述转置视频片段特征矩阵进行加权处理，得到视频特征向量；

将所述视频特征向量输入预设全连接层以及预设激活函数，得到所述直播视频属于违规视频的置信度。

4.根据权利要求2所述的方法，其特征在于，所述预设的识别模型的数量为多个；

所述分别将所述多个图像帧输入预设的识别模型的特征提取子网络进行特征提取，得到每个图像帧的图像帧特征矩阵，包括：

分别将所述多个图像帧输入每个预设的识别模型的特征提取子网络进行特征提取，得到每个图像帧的多个图像帧特征矩阵；

所述对所述图像帧特征矩阵进行拼接，得到所述多个图像帧组成的视频片段的视频片段特征矩阵，包括：

对得到的多个图像帧特征矩阵中，由同一个预设的识别模型的特征提取子网络提取的图像帧特征矩阵进行拼接，得到所述多个图像帧组成的视频片段的多个视频片段特征矩阵；

所述将所述视频片段特征矩阵输入所述预设的识别模型的分类器子网络，得到所述直播视频属于违规视频的置信度，包括：

分别将得到的多个视频片段特征矩阵输入每个预设的识别模型的分类器子网络，得到所述直播视频属于违规视频的多个置信度；

利用预设融合规则，融合所述多个置信度，得到目标置信度；

所述若所述置信度满足预设的违规条件，则确定所述直播视频为违规视频，包括：

如果所述目标置信度满足预设识别条件，则确定所述直播视频为违规视频。

5.根据权利要求4所述的方法，其特征在于，所述利用预设融合规则，融合所述多个置信度，得到目标置信度，包括：

6.根据权利要求4所述的方法，其特征在于，所述利用预设融合规则，融合所述多个置信度，得到目标置信度，包括：

统计所述多个置信度中，相同置信度的数量；

将数量最多的相同置信度，确定为目标置信度。

7.根据权利要求2所述的方法，其特征在于，所述预设的识别模型，采用如下步骤训练获得：

将收集的多个样本图像输入初始的卷积神经网络模型进行训练，得到由所述多个样本图像构成的视频片段属于违规视频的预测置信度；

根据得到的预测置信度和预先标注的每个样本图像属于是否违规的类别信息，利用预设的误差函数，判断处于当前训练阶段的卷积神经网络模型是否收敛；

如果收敛，则将处于当前训练阶段的卷积神经网络模型确定为预设的识别模型；

如果不收敛，则利用预设的梯度函数，采用随机梯度下降算法调整处于当前训练阶段的卷积神经网络模型的模型参数；

将收集的多个样本图像输入调整后的卷积神经网络模型，重复上述进行训练和调整模型参数的步骤，直至调整后的卷积神经网络收敛。

8.一种直播视频的识别装置，其特征在于，所述装置包括：

置信度获取模块，用于分别对所述多个图像帧进行特征提取，得到每个图像帧的图像特征矩阵；对所述图像帧特征矩阵进行拼接，得到所述多个图像帧组成的视频片段的视频片段特征矩阵；将所述视频片段特征矩阵输入预设的分类算法，获得所述直播视频属于违规视频的置信度；

判断模块，用于当所述置信度满足预设的违规条件，则确定所述直播视频为违规视频。

9.根据权利要求8所述的装置，其特征在于，所述置信度获取模块，包括：

提取子模块，用于分别将所述多个图像帧输入预设的识别模型的特征提取子网络进行特征提取，得到每个图像帧的图像帧特征矩阵；对所述图像帧特征矩阵进行拼接，得到所述多个图像帧组成的视频片段的视频片段特征矩阵；所述预设的识别模型为预先利用收集的多个样本图像训练得到的卷积神经网络模型；

分类子模块，用于将所述视频片段特征矩阵输入所述预设的识别模型的分类器子网络，得到所述直播视频属于违规视频的置信度。

10.根据权利要求9所述的装置，其特征在于，所述分类子模块，具体用于：

将所述降维视频片段特征矩阵输入预设全连接层以及预设激活函数，对所述第一降维视频片段特征矩阵进行运算，得到第一响应权重矩阵；

所述时空响应权重矩阵，对所述转置视频片段特征矩阵进行加权处理，得到视频特征向量；

11.根据权利要求9所述的装置，其特征在于，所述预设的识别模型的数量为多个；

所述提取子模块，具体用于分别将所述多个图像帧输入每个预设的识别模型的特征提取子网络进行特征提取，得到每个图像帧的多个图像帧特征矩阵；

所述分类器子模块，具体用于分别将得到的多个视频片段特征矩阵输入每个预设的识别模型的分类器子网络，得到所述直播视频属于违规视频的多个置信度；

所述置信度获取模块还包括：融合子模块，用于利用预设融合规则，融合所述多个置信度，得到目标置信度；

所述判断模块，具体用于如果所述目标置信度满足预设识别条件，则确定所述直播视频为违规视频。

12.根据权利要求11所述的装置，其特征在于，所述融合子模块，具体用于：

13.根据权利要求11所述的装置，其特征在于，所述融合子模块，具体用于：

统计所述多个置信度中，相同置信度的数量；

将数量最多的相同置信度，确定为目标置信度。

14.根据权利要求9所述的装置，其特征在于，所述预设的识别模型，采用如下模块训练获得：

预测模块，用于将收集的多个样本图像输入初始的卷积神经网络模型进行训练，得到由所述多个样本图像构成的视频片段属于违规视频的预测置信度；

参数调整模块，用于根据得到的预测置信度和预先标注的每个样本图像属于是否违规的类别信息，利用预设的误差函数，判断处于当前训练阶段的卷积神经网络模型是否收敛；在当前训练阶段的卷积神经网络模型不收敛时，利用预设的梯度函数，采用随机梯度下降算法调整处于当前训练阶段的卷积神经网络模型的模型参数；将收集的多个样本图像输入调整后的卷积神经网络模型，重复上述进行训练和调整模型参数的步骤，直至调整后的卷积神经网络收敛；

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述权利要求1-7任一所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一所述的方法步骤。