CN110163115A

CN110163115A - 一种视频处理方法、装置和计算机可读存储介质

Info

Publication number: CN110163115A
Application number: CN201910342354.7A
Authority: CN
Inventors: 李志成
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-08-23
Anticipated expiration: 2039-04-26
Also published as: CN110163115B

Abstract

本发明公开了一种视频处理方法、装置和计算机可读存储介质，属于视频处理技术领域，用以解决现有技术中匹配的标签不准确的问题，该方法在确定出待处理视频的视频分类后，利用与该视频分类对应的标签分类模型来确定待处理视频匹配的分类标签，由于本发明实施例中针对不同的视频分类配置相适应的标签分类模型，这样可以为待处理视频匹配视频分类下的分类标签，从而使得添加的分类标签更适合待处理视频，也即提高了匹配的分类标签的准确性，进而提高了基于分类标签进行查询时的召回率和准确率。

Description

一种视频处理方法、装置和计算机可读存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频处理方法、装置和计算机可读存储介质。

背景技术

现有的对视频打标签的方案都是对视频按一定的时间间隔截取一张图片，然后基于通用标签识别模型对该图片进行多标签分类，基于分类结果确定该视频的标签。上述通用标签识别模型的训练样本一般从Imagenet、COCO、Open Images数据源获取，但这些数据源针对不同的场景、分类、物体等标注质量参差不齐，从而导致训练得到的上述通用标签识别模型的标签匹配效果较差，例如，利用通用标签识别模型对图1左侧的图进行标签匹配时得到的标签匹配结果为标签“广州塔”，可以看出图1左侧的图明显不是广州塔，也就进一步验证了基于通用标签识别模型进行标签匹配时存在标签匹配结果较差的问题。

因此，如何为视频匹配合适的标签是值得考虑的技术问题之一。

发明内容

本发明实施例提供一种视频处理方法、装置和计算机可读存储介质，用以为视频添加合适的标签，进而提高基于添加的标签进行查询时的召回率。

一方面，本发明实施例提供一种视频处理方法，包括：

获取待处理视频；

确定待处理视频的视频分类结果；

根据所述待处理视频和所述视频分类结果对应的标签分类模型，确定所述待处理视频匹配的分类标签，其中，不同的视频分类结果对应不同的标签分类模型。

一方面，本发明实施例提供一种视频处理装置，包括：

获取模块，获取待处理视频；

视频分类模块，用于确定待处理视频的视频分类结果；

标签分类模块，用于根据所述待处理视频和所述视频分类结果对应的标签分类模型，确定所述待处理视频匹配的分类标签，其中，不同的视频分类结果对应不同的标签分类模型。

一方面，本发明实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明提供的视频处理方法。

一方面，本发明实施例提供一种计算机可读介质，存储有处理器可执行指令，所述处理器可执行指令用于执行本发明提供的视频处理方法。

本发明有益效果：

本发明实施例提供的视频处理方法、装置和计算机可读存储介质，在确定出待处理视频的视频分类后，利用与该视频分类对应的标签分类模型来确定待处理视频匹配的分类标签，由于本发明实施例中针对不同的视频分类配置相适应的标签分类模型，这样可以为待处理视频匹配视频分类下的分类标签，从而使得添加的分类标签更适合待处理视频，也即提高了匹配的分类标签的准确性，进而提高了基于分类标签进行查询时的召回率和准确率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为现有技术中匹配标签的效果示意图；

图2为本发明实施例提供的视频处理方法的应用场景示意图；

图3为本发明实施例提供的视频处理方法的流程示意图；

图4为本发明实施例提供的确定待处理视频的视频分类的方法流程示意图；

图5为本发明实施例提供的CNN模型和CNN+LSTM模型分别识别视频分类的准确率示意图；

图6a为本发明实施例提供的部分分类标签示意图；

图6b为本发明实施例提供的确定待处理视频的分类标签的方法流程示意图；

图7为本发明实施例提供的确定视频帧的候选分类标签的方法流程示意图之一；

图8为本发明实施例提供的视频帧的候选分类标签的方法流程示意图之二；

图9为本发明实施例提供的视频处理方法为左侧待处理视频确定出的分类标签的效果示意图；

图10为本发明实施例提供的视频处理装置的结构示意图；

图11为本发明实施例提供的实施视频处理方法的计算设备的结构示意图。

具体实施方式

本发明实施例提供的视频处理方法、装置和计算机可读存储介质，用以为视频添加合适的标签，进而提高基于添加的标签进行查询时的召回率。

以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

为了便于理解本发明，本发明涉及的技术术语中：

1、分类标签，以视频为例进行说明，对整个视频或视频的某帧画面的用关键词进行标注或描述。

2、支持向量机：(Support Vector Machine，SVM)，基于统计学习理论对数据进行分类预测。致力于寻找结构化风险最小进一步提高学习机的泛化能力，从而达到经验风险和置信范围的最小化，最终使得在统计样本量比较少的情况下，也能够获得良好的学习效果。

3、卷积神经网络：(Convolutional Neural Network,CNN)是一种针对二维输入识别问题的神经网络，由一个或多个卷积层和池化层(pooling layer)组成。其特点是权值共享，减少了参数数量，且对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。

4、长短时间记忆模型，(Long Short Term Memory，LSTM)，一种改进之后的循环神经网络，可以解决RNN无法处理长距离的依赖问题。本发明通过利用LSTM模型可以捕获视频中各个视频帧之间的时序关系，在此基础上可以更好地为视频添加合适的分类标签。

5、光学字符识别，(Optical Character Recognition，OCR)，是通过扫描等光学输入方式将各种图片、照片、票据、报刊、书籍、文稿及其它印刷品的文字内容进行识别和提取的技术。

6、语言识别技术，(Automatic Speech Recognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

为了解决现有技术中采用通用标签识别模型为视频匹配的分类标签不准确，进而导致基于分类标签进行查询时视频召回率和准确率较低的问题。本发明实施例给出了解决方案，参考图2所示的应用场景示意图，该场景包括终端设备101、终端设备102、终端设备103和服务器104，用户1、用户2、用户3分别使用终端设备101、终端设备102、终端设备103，终端设备101～终端设备103中均安装了具有上传视频功能的客户端，用户1可以通过终端设备101中的上述客户端上传了视频后，该客户端会发送给服务器104，由此，服务器104获取到的视频即为本发明中的待处理视频，然后服务器104按照本发明提供的视频处理方法为用户1上传的视频确定合适的分类标签，进而提高了基于该分类标签进行查询时视频的召回率和准确率。

需要说明的是，终端设备101、终端设备102和终端设备103与服务器104之间通过网络进行通信连接，该网络可以为局域网、广域网等。前述的终端设备101、终端设备102和终端设备103可以是手机、平板电脑、掌上电脑(Personal Digital Assistant，PDA)，笔记本电脑、智能穿戴式设备(例如智能手表和智能手环)、个人计算机，等等，无论是哪种类型的终端设备，在该终端设备中均可以安装有同一社交平台对应的客户端，并且通过各个终端设备均可以登录相应的社交账户。以及，前述的服务器104可以是个人计算机、大中型计算机、计算机集群，等等。

下面结合图2的应用场景，参考下面各图来描述根据本发明示例性实施方式提供的视频处理方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

以下结合图3对本发明实施例的技术方案进行说明。

S31、获取待处理视频。

本步骤中，待处理视频可以为影视、娱乐、动物等各种视频，该视频可以是用户实时制作上传的，也可以是预先拍摄好剪辑整理后上传的。

S32、确定待处理视频的视频分类结果。

本发明中的视频分类可以但不限于包括：汽车、母婴、时尚娱乐、游戏、军事、科技、新闻资讯、时政新闻、国际新闻、社会新闻、军事新闻、娱乐新闻、经济新闻、体育新闻、教科文卫新闻、动物、美食、体育、旅行、动漫、舞蹈、音乐、影视、综艺娱乐和主播等等。

一种可能的方式中，可以按照图4所示的流程确定待处理视频的视频分类结果，包括以下步骤：

S41、获取待处理视频的至少一个候选视频帧。

本步骤中，可以按照一定时间间隔从待处理视频中截取视频帧，这样可以截取到的多个视频帧即为候选视频帧。可选地，上述时间间隔的取值范围可以为0.5秒～3秒。

S42、针对每个候选视频帧，利用视频分类模型确定该候选视频帧在各个视频分类下的置信概率。

可选地，本发明中的视频分类模型可以为单独的CNN模型，也可以为CNN与LSTM的结合模型。具体地，若候选视频帧中包括画面特征比较明显的场景，则采用CNN模型来确定候选视频帧的候选视频分类，则候选视频帧中画面特征比较明显的场景包括游戏、足球、篮球和动漫等；若候选视频帧中包括画面特征比较不明显的场景，则采用CNN与LSTM结合模型来确定该候选视频帧的候选视频分类，而画面特征比较不明显的场景可以为电视剧、户外运动、美食和旅游等。

具体地，可以预先采集包括画面特征明显的场景的图像样本对CNN模型进行训练，从而得到训练好的CNN模型；以及采集包括画面特征不明显的场景的图像样本来训练CNN和LSTM模型，从而得到训练好的CNN和LSTM模型，图5给出了CNN模型和CNN+LSTM模型分别识别视频分类的准确率示意图，可以看出CNN+LSTM模型中由于引入了能够学习时间信息的LSTM模型，使得识别准确率更高。

具体实施时，针对待处理视频，在截取每一候选视频帧后，可以对该候选视频帧进行识别，若识别出该候选视频帧包含画面特征明显的场景内容，则将其输入至训练好的CNN模型；否则，将该候选视频帧输入至训练好的CNN和LSTM模型中。具体以识别出的候选视频帧包含画面特征明显的场景内容为例进行说明，则训练好的CNN和LSTM模型的处理过程为：利用CNN模型对候选视频帧进行特征提取，得到第一特征向量；然后利用LSTM模型对第一特征向量进场处理得到第二特征向量；再利用3D卷积网络对第二特征向量进行处理得到特征向量序列；再次利用LSTM模型对特征向量序列进行处理输出一维向量，将该一维向量输入到归一化函数中，从而得到该候选视频帧属于各个视频分类的置信概率。

具体地，先利用CNN模型对候选视频帧做卷积、过滤和池化处理，从而可以从该候选视频帧中提取出第一特征向量；然后将该第一特征向量输入到LSTM模型中，该LSTM模型为时间递归神经网络，可以用于处理和预测时间序列中间隔和延迟相对较长的重要事件，将第一特征向量输入到LSTM模型后，LSTM模型可以学习到候选视频帧中提取的特征之间的时间信息，然后得到第二特征向量，使得第二特征向量更能符合候选视频帧；然后3D卷积网络能更好地捕获候选视频帧中的时间和空间的特征信息，如，本发明中基于3D卷积网络可以从第二特征向量中提取出的特征向量序列中的特征值为候选视频帧中与目标、场景和动作相关的特征；再将特征向量序列输入到LSTM模型中，该LSTM模型与3D卷积网络属于不同层，其功能是用于将多维特征向量序列转换成一维向量序列。本发明中的归一化函数可以为softmax函数，将LSTM模型输出的一维向量输入到softmax函数中时，该函数就可以输出该候选视频帧在各个视频分类下的置信概率。

S43、基于至少一个候选视频帧的分别在各个视频分类下的置信概率，确定所述待处理视频的视频分类结果。

可选地，当获取的候选视频帧为一个时，则将该候选视频帧在各个视频分类下的置信概率进行由大到小排序，将置信概率最大的视频分类确定为待处理视频的视频分类。

本步骤中，针对每一候选视频帧，在按照步骤S42确定出该候选视频帧在各个视频分类下的置信概率后，可以对置信概率进行排序处理，然后将置信概率取最大值对应的视频分类作为该候选视频帧的视频分类；基于此原理，可以得到各个候选视频帧的视频分类，然后再按照置信概率由大到小的顺序对各个候选视频帧的视频分类的置信概率进行排序，将置信概率最大对应的视频分类确定为待处理视频的视频分类，即待处理视频的视频分类结果。例如，待处理视频截取了5个候选视频帧，记为候选视频帧1～候选视频帧5，视频分类包括汽车、时尚娱乐、游戏、音乐和影视，则针对候选视频帧1，确定出该候选视频帧在上述各个视频分类下的置信概率分别为0.5|汽车、0.8|时尚娱乐、0.75|游戏、0.6|音乐、0.9|影视，则可以确定出该候选视频帧的视频分类为影视，基于此，若确定出候选视频帧2的视频分类为0.8|时尚娱乐，候选视频帧3的视频分类为0.95|影视、候选视频帧4的视频分类为0.8|游戏、候选视频帧5的视频分类为0.85|音乐，则可以对各个候选视频帧的置信概率进行排序处理，可以得出影视的置信概率最大，则可以确定出待处理视频的视频分类结果为影视。

可选地，还可以按照下述过程确定待处理视频的视频分类结果：在确定出各个候选视频帧分别在各个视频分类下的置信概率后，可以针对每一个视频分类，将在该视频分类下各个候选视频帧的置信概率进行加权平均处理，可以得到待处理视频在该视频分类的平均置信概率；同理，可以确定出待处理视频在各个视频分类下的平均置信概率，然后再按照平均置信概率由大到小的顺序进行排序，将平均置信概率取值最大对应的视频分类作为待处理视频的视频分类。

通过实施步骤S41～步骤S43的流程，可以确定出待处理视频的视频分类。

另一种实施方式中，待处理视频上传时，大量用户生成内容视频(UGC)在用户上传视频时，会让用户选择该视频属于哪一视频分类，或为视频打上选择的分类标签，也就是说用户有可能为待处理视频选择了分类标签，则在此基础之上，所述方法，还包括：若确定待处理视频存在分类标签，则利用分类标签利用LSTM或支持向量机(SVM)模型对该待处理视频进行视频分类，以输出待处理视频的视频分类结果。

可选地，还可以人工对待处理视频进行视频分类。例如，通过专职人员观看待处理视频后，由专职人员对待处理视频进行视频分类，由此也可以获得待处理视频的视频分类结果。

需要说明的是，上述确定待处理视频的视频分类时，涉及的LSTM模型是依靠门机制来解决特征的长期依赖的问题，该LSTM模型中增加了输入门限、遗忘门限和输出门限，使得自循环的权重是变化的，这样一来在模型参数固定的情况下，不同时刻的积分尺度可以动态改变，从而避免了梯度消失或者梯度膨胀的问题，该LSTM模型可以表示为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

上述公式中，f_t表示遗忘门限，i_t表示输入门限，x_t用于表示t时刻的输入；表示对输入x和前一时刻的隐含层状态经过矩阵相乘及经双曲正切(tanh)作用后的值，这个也是LSTM里的基本操作；C_t为当前时刻的单元状态；C_t-1为t-1时刻的单元状态；o_t表示输出门限，h_t-1表示t-1时刻隐含层单元的输出，h_t表示t时刻隐含层单元的输出，W_f、W_i、W_C、W_o均用于表示参数矩阵，b_f、b_i、b_C、b_o表示偏置项，σ用于表示sigmoid函数。利用上述LSTM网络结构再结合CNN模型就可以确定出待处理视频的视频分类。

S33、根据所述待处理视频和所述视频分类结果对应的标签分类模型，确定所述待处理视频匹配的分类标签。

本发明实施例中，不同的视频分类结果对应不同的标签分类模型。基于此，在确定出待处理视频的视频分类结果后，如确定出的视频分类结果为影视视频分类，则利用影视视频分类对应的标签分类模型为待处理视频匹配合适的分类标签。由于本发明中为每一视频分类配置了与其相应的标签分类模型，这样在为待处理视频添加分类标签时，添加的分类标签更适合待处理视频，进而基于添加的分类标签进行查询时，视频的召回率和准确率都会有很大提升。

具体地，针对每一视频分类，可以利用属于该视频分类的视频样本对标签分类模型进行训练，其中，视频样本的分类标签已知，这样，训练后得到的即为该视频分类下的标签分类模型。同理，可以训练出每一视频分类下的标签分类模型。需要说明的是，训练过程与确定待处理视频的分类标签的过程的执行主体可以相同，也可以不同，具体可以根据实际情况而定。例如，可以离线训练好视频分类模型和每一视频分类的标签分类模型，然后将模型的代码存储到服务器中，当获取到待处理视频后，通过调用视频分类模型就可以确定出待处理视频的视频分类结果，然后再利用与视频分类结果相匹配的、训练好的标签分类模型确定待处理视频的分类标签，并为待处理视频标注确定出的分类标签，图6a给出了部分分类标签示意图。

基于上述任一实施例，可以按照图6b所示的流程来实施步骤S33，包括以下步骤：

S61、获取待处理视频的至少一个视频帧。

具体地，在按照图4所示的流程截取每一候选视频帧后，可以对候选视频帧进行存储，则本步骤中可以提取存储的每一候选视频帧，提取的候选视频帧即为步骤S61中的视频帧，然后再实施后续步骤。

S62、针对每个视频帧，利用所述标签分类模型，确定该视频帧的候选分类标签。

本步骤中，可以将该视频帧输入到标签分类模型中，该模型即可输出该视频帧的候选分类标签。

可选地，由于视频帧为一张图片，对图片进行处理需要消耗处理时间，而一张图片并不是都包含重要场景，而是在一些特定区域存在重要场景，故为了减少模型处理时间，可以按照图7所示的流程确定视频帧的候选分类标签，包括以下步骤：

S71、从该视频帧中提取至少一个候选区域。

具体地，视频中包含重要场景的区域的位置一般是确定的，故可以预先配置几个区域的位置信息，该位置信息一般可以表示为：中心的坐标，区域长和区域宽；然后基于区域的位置信息从该视频帧中提取出位置信息对应的区域，也即本发明中的候选区域。可选地，可以利用候选区域框选算法从该视频帧中提取出至少一个候选区域。候选区域的数量可以根据实际情况而定。

S72、针对每个候选区域，利用所述标签分类模型，确定该候选区域在各个分类标签下的置信概率。

本步骤中，针对从视频帧中提取的每一候选区域，可以将该候选区域输入到视频分类结果对应的标签分类模型中，该标签分类模型的处理过程为：对该候选区域进行特征提取，提取出区域特征向量，然后利用归一化函数对该区域特征向量进行处理，得到该候选区域在各个分类标签下的置信概率。具体地，本发明中的标签分类模型可以包括CNN和归一化函数，该归一化函数可以为sigmod函数等。具体实施时，先利用CNN模型对候选区域进行特征提取，包括卷积、过滤和池化处理过程，基于前述处理过程即可到得到该候选区域的区域特征向量，其中，候选区域的表现形式为矩阵。然后将该向量输入到sigmod函数中，该函数即可输出该候选区域在各个标签分类下的置信概率。

S73、将该候选区域分别在各个分类标签下的置信概率不低于相应分类标签的置信概率阈值的分类标签，确定为该候选区域的候选分类标签。

具体地，在确定候选区域的候选分类标签时，为每一分类标签配置了一个置信概率阈值，针对每一分类标签，在步骤S72确定出该候选区域在该分类标签下的置信概率后，可以将该候选区域在该分类标签下的置信概率与该分类标签的置信概率阈值进行比较，若置信概率大于置信概率阈值，则确定该分类标签为该候选区域的候选分类标签，同理，可以分别比较该候选区域在其他分类标签的置信概率与其他分类标签的置信概率阈值，进而可以确定出该候选区域的候选分类标签，其中，确定出的候选分类标签可以不止一个。例如，视频帧的某一候选区域确定出在办公标签的置信概率大于办公标签对应的置信概率阈值，则确定办公标签为该候选区域的候选分类标签。

同理，当从视频帧中提取出多个候选区域时，可以参考步骤S73确定出该视频帧中其他候选区域的候选分类标签。需要说明的是，本发明中的候选分类标签与分类标签是相同的，仅是撰写区分，没有其他实际含义。

S74、根据所述至少一个候选区域的候选分类标签，确定该视频帧的候选分类标签。

可选地，当从视频帧中提取出一个候选区域时，则可以直接将该候选区域的候选分类标签确定为视频帧的候选分类标签，或者可以利用交叉假设最大池算法(cross-hypothesis max-pooling)对该候选区域的候选分类标签进行处理，得到视频帧的候选分类标签。

当从视频帧中提取多个候选区域时，基于步骤S73确定出各个候选区域的候选分类标签后，可以利用交叉假设最大池算法对各个候选区域的候选分类标签作融合处理，从而将融合处理后的候选分类标签作为视频帧的候选分类标签，其中确定出的视频帧的候选分类标签可以不止一个。

可选地，本发明实施例中，在实施步骤S72之后，以及在实施步骤S73之前，还包括图8所示的流程，可以包括以下步骤：

S81、对待处理视频中时间戳与该视频帧的时间戳满足设定条件的视频帧进行识别处理，确定该视频帧与所述满足设定条件的视频帧之间的关联信息。

本步骤中，上述设定条件可以理解为：时间上相邻，即时间戳与该视频帧的时间戳之差在预设范围内；具体地，在从待处理视频中截取每一视频帧后，可以以该视频帧的时间戳为基准，可以对时间戳与该视频帧的时间戳之差在预设范围内的视频帧进行识别处理，例如，该视频帧前后一段时间内的视频帧进行识别处理，从而可以确定出该视频帧与上述满足设定条件的视频帧之间的关联信息。

可选地，本发明实施例中的关联信息至少包括以下一项：所述满足设定条件的视频帧的候选分类标签、基于所述满足设定条件的视频帧的语音信息转换的文本信息和基于满足设定条件的视频帧识别出的文字信息。具体地，上述满足设定条件的视频帧的候选分类标签为按照图7所示的流程确定出的，当视频帧存在语音信息时，可以采用ASR技术将语音信息转换成文本信息；当视频帧存在文字信息时，可以利用OSR文字识别技术识别出视频帧中的文字信息。

S82、确定与所述关联信息相关的分类标签。

S83、调低所述相关的分类标签的置信概率阈值。

具体地，视频中时间上相邻的视频帧之间的场景是极其相近的，若任一视频帧前后一段时间内视频帧出现了一些场景，则很有可能该视频帧中也有可能存在该场景，而场景与分类标签息息相关，若前后几帧视频中都出现了办公桌、办公椅场景，则该视频帧中极有可能也存在办公桌和办公椅场景，进而可以确定该视频帧的候选分类标签可以有办公标签、笔记本标签和电脑标签，则通过调整相关分类标签的置信概率阈值，从而可以达到相关分类标签被确定为视频帧的候选分类标签的可能性更高。

具体地，在确定出关联信息后，可以确定出与关联信息相关的分类标签，然后可以调低与关联信息相关的分类标签的置信概率阈值，同时还可以调高除相关的分类标签以外的其他分类标签的置信概率阈值，具体调低多少和调高多少可以根据实际情况而定。这样一来，与关联信息相关的分类标签越有可能被确定为视频帧的候选分类标签，也即为视频帧确定出合适的分类标签。可选地，还可以调高除所述相关的分类标签以外的其他分类标签的置信概率阈值，这样，降低了其他分类标签被确定为视频帧的候选分类标签的可能性，从而进一步地增加了与关联信息相关的分类标签被确定为视频帧的候选分类标签的可能性。基于此实现了针对不同视频帧，在确定视频帧的候选分类标签时分类标签的置信概率阈值的动态调整。

当关联信息为满足设定条件的视频帧的分类标签，假设视频帧1的前后一段视频中存在某一视频帧因包括办公桌、办公椅场景而被确定该视频帧的候选分类标签为办公标签，则可以将标签分类模型中办公标签的置信概率阈值调低，这样一来，当基于步骤S72确定出视频帧1在各个分类标签下的置信概率后，在实施步骤S73时，由于办公标签的置信概率阈值调低，则办公标签被确定为候选区域的候选分类标签的可能性就比较大，进而被确定为视频帧1的候选分类标签的可能性也比较大。此外，由于办公桌上一般都会有笔记本、电脑等等，则可以相应调低笔记本标签和电脑标签的置信概率阈值；可选地，还可以调高其他分类标签的置信概率阈值，这样一来，可以保证办公标签等极有可能被确定为该视频帧1的候选分类标签，进而被确定为待处理视频的分类标签的可能性大大提高。

可选地，当关联信息为基于满足设定条件的视频帧的语音信息转换的文本信息，或者基于满足设定条件的视频帧识别出文字信息时，如识别出的文本信息/文字信息为“食物类信息”，则可以将食物类相关的分类标签的置信概率阈值动态调低一点，这样就保证食物相关的分类标签越有可能被确定为视频帧的候选分类标签，进而提高食物类相关的分类标签被确定为待处理视频的分类标签的可能性。

S63、根据所述至少一个视频帧的候选分类标签，确定所述待处理视频匹配的分类标签。

可选地，可以根据各个视频帧的候选分类标签的置信概率，确定所述待处理视频匹配的分类标签。

本步骤中，当从待处理视频中获取一个视频帧时，则可以按照置信概率由大到小的顺序对该视频帧的候选分类标签的置信概率进行排序处理，选取前几个候选分类标签作为待处理视频匹配的分类标签。

当从待处理视频中获取多个视频帧时，在确定出待处理视频中各个视频帧的候选分类标签后，可以参考步骤S43确定待处理视频的视频分类的方法确定待处理视频匹配的分类标签。例如，视频帧1的候选分类标签包括办公标签、笔记本标签，……，视频帧2的候选分类标签包括办公标签、电脑标签，……，由于视频帧的候选分类标签为基于候选区域和标签分类模型确定出的，sigmod函数能够输出候选分类标签的置信概率，故可以基于视频帧1的办公标签的置信概率和视频帧2的办公标签的置信概率求取平均，得到办公标签的平均置信概率，同理可以得到笔记本标签的平均置信概率和电脑标签的平均置信概率(电脑标签的平均置信概率即为电脑标签的置信概率)，然后按照平均置信概率按照由大到小进行排序处理，可以将前N个候选分类标签作为待处理视频则分类标签，参考图9所示，图9为基于本发明实施例提供的方法确定出的左侧待处理视频的分类标签。采用本发明提供的方法为待处理视频匹配出分类标签后，可以为待处理视频打上匹配的分类标签，然后基于分类标签进行查询时视频的召回率和准确率都有很大的提升。

本发明提供的方法，在确定出待处理视频的视频分类后，利用与该视频分类对应的标签分类模型来确定待处理视频匹配的分类标签，由于本发明实施例中针对不同的视频分类配置相适应的标签分类模型，这样可以为待处理视频匹配视频分类下的分类标签，从而使得添加的分类标签更适合待处理视频，进而提高了基于分类标签进行查询时的召回率和准确率。

基于同一发明构思，本发明实施例中还提供了一种视频处理装置，由于上述装置解决问题的原理与视频处理方法相似，因此上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图10所示，为本发明实施例提供的视频处理装置的结构示意图，包括：获取模块101，视频分类模块102和标签分类模块，其中：

获取模块101，获取待处理视频；

视频分类模块102，用于确定待处理视频的视频分类结果；

标签分类模块103，用于根据所述待处理视频和所述视频分类结果对应的标签分类模型，确定所述待处理视频匹配的分类标签，其中，不同的视频分类结果对应不同的标签分类模型。

可选地，所述标签分类模块103，具体用于获取所述待处理视频的至少一个视频帧；针对每个视频帧，利用所述标签分类模型，确定该视频帧的候选分类标签；基于所述至少一个视频帧的候选分类标签，确定所述待处理视频匹配的分类标签。

可选地，所述标签分类模块103，具体用于从该视频帧中提取至少一个候选区域；针对每个候选区域，利用所述标签分类模型，确定该候选区域在各个分类标签下的置信概率；将该候选区域分别在各个分类标签下的置信概率不低于相应分类标签的置信概率阈值的分类标签，确定为该候选区域的候选分类标签；根据所述至少一个候选区域的候选分类标签，确定该视频帧的候选分类标签。

可选地，本发明实施例提供的视频处理装置，还包括：

确定模块104，用于在所述标签分类模块103利用所述标签分类模型，确定该候选区域在各个分类标签下的置信概率之后，对所述待处理视频中时间戳与该视频帧的时间戳满足设定条件的视频帧进行识别处理，确定该视频帧与所述满足设定条件的视频帧之间的关联信息；

阈值调整模块105，用于确定与所述关联信息相关的分类标签；调低所述相关的分类标签的置信概率阈值，并调高除所述相关的分类标签以外的其他分类标签的置信概率阈值。

可选地，本发明实施例中的关联信息至少包括以下一项：所述关联信息至少包括以下一项：所述满足设定条件的视频帧的候选分类标签、基于所述满足设定条件的视频帧的语音信息转换的文本信息和基于满足设定条件的视频帧识别出的文字信息。

可选地，所述标签分类模块103，具体用于根据各个视频帧的候选分类标签的置信概率，确定所述待处理视频匹配的分类标签。

可选地，所述视频分类模块102，具体用于获取所述待处理视频的至少一个候选视频帧；针对每个候选视频帧，利用视频分类模型确定该候选视频帧在各个视频分类下的置信概率；基于所述至少一个候选视频帧的分别在各个视频分类下的置信概率，确定所述待处理视频的视频分类结果。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本发明示例性实施方式的视频处理方法和装置之后，接下来，介绍根据本发明的另一示例性实施方式的计算设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述描述的根据本发明各种示例性实施方式的数据查询方法中的步骤。例如，所述处理器可以执行如图3所示的步骤S31～步骤S33中的视频处理流程。

下面参照图11来描述根据本发明的这种实施方式的计算设备110。图11显示的计算设备110仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算设备110以通用计算设备的形式表现。计算设备110的组件可以包括但不限于：上述至少一个处理器111、上述至少一个存储器112、连接不同系统组件(包括存储器112和处理器111)的总线113。

总线113表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器112可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1121和/或高速缓存存储器1122，还可以进一步包括只读存储器(ROM)1123。

存储器112还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125，这样的程序模块1124包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备110也可以与一个或多个外部设备114(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算设备110交互的设备通信，和/或与使得该计算设备110能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口115进行。并且，计算设备110还可以通过网络适配器116与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器116通过总线113与用于计算设备11的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备110使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

基于同一发明构思，本发明实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行如前述的视频处理方法的步骤。

基于同一发明构思，本发明实施例还提供一种视频处理装置，该视频处理装置包括至少一个处理器及可读存储介质，当该可读存储介质中包括的指令被该至少一个处理器执行时，可以执行如前述的视频处理方法的步骤。

基于同一发明构思，本发明实施例还提供一种芯片系统，该芯片系统包括处理器，还可以包括存储器，用于实现如前述的视频处理方法的步骤。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

在一些可能的实施方式中，本发明实施例提供的视频处理方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机上运行时，所述程序代码用于使所述计算机执行前文述描述的根据本发明各种示例性实施方式的视频处理方法中的步骤。

基于同一发明构思，本发明实施例还提供一种信息查询装置，该装置包括：存储器，用于存储程序指令；处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行前文述描述的根据本发明各种示例性实施方式的视频处理方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频；

确定待处理视频的视频分类结果；

2.如权利要求1所述的方法，其特征在于，根据所述待处理视频和所述视频分类结果对应的标签分类模型，确定所述待处理视频匹配的分类标签，具体包括：

获取所述待处理视频的至少一个视频帧；

针对每个视频帧，利用所述标签分类模型，确定该视频帧的候选分类标签；

基于所述至少一个视频帧的候选分类标签，确定所述待处理视频匹配的分类标签。

3.如权利要求2所述的方法，其特征在于，利用所述标签分类模型，确定该视频帧的候选分类标签，具体包括：

从该视频帧中提取至少一个候选区域；

针对每个候选区域，利用所述标签分类模型，确定该候选区域在各个分类标签下的置信概率；

将该候选区域分别在各个分类标签下的置信概率不低于相应分类标签的置信概率阈值的分类标签，确定为该候选区域的候选分类标签；

根据所述至少一个候选区域的候选分类标签，确定该视频帧的候选分类标签。

4.如权利要求3所述的方法，其特征在于，在利用所述标签分类模型，确定该候选区域在各个分类标签下的置信概率之后，还包括：

对所述待处理视频中时间戳与该视频帧的时间戳满足设定条件的视频帧进行识别处理，确定该视频帧与所述满足设定条件的视频帧之间的关联信息；

确定与所述关联信息相关的分类标签；

调低所述相关的分类标签的置信概率阈值，并调高除所述相关的分类标签以外的其他分类标签的置信概率阈值。

5.如权利要求4所述的方法，其特征在于，所述关联信息至少包括以下一项：所述满足设定条件的视频帧的候选分类标签、基于所述满足设定条件的视频帧的语音信息转换的文本信息和基于满足设定条件的视频帧识别出的文字信息。

6.如权利要求3所述的方法，其特征在于，基于各个视频帧的候选分类标签，确定所述待处理视频匹配的分类标签，具体包括：

根据各个视频帧的候选分类标签的置信概率，确定所述待处理视频匹配的分类标签。

7.如权利要求1～6任一所述的方法，其特征在于，确定待处理视频的视频分类结果，具体包括：

获取所述待处理视频的至少一个候选视频帧；

针对每个候选视频帧，利用视频分类模型确定该候选视频帧在各个视频分类下的置信概率；

基于所述至少一个候选视频帧的分别在各个视频分类下的置信概率，确定所述待处理视频的视频分类结果。

8.一种视频处理装置，其特征在于，包括：

获取模块，获取待处理视频；

视频分类模块，用于确定待处理视频的视频分类结果；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一权利要求所述的方法。

10.一种计算机可读介质，存储有处理器可执行指令，其特征在于，所述处理器可执行指令用于执行如权利要求1至7任一权利要求所述的方法。