CN110475129B

CN110475129B - 视频处理方法、介质及服务器

Info

Publication number: CN110475129B
Application number: CN201910848343.6A
Authority: CN
Inventors: 王柏瑞; 马林; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2021-05-28
Anticipated expiration: 2038-03-05
Also published as: EP3764276A1; US20200304822A1; US11368705B2; CN108419094B; US20220279202A1; CN108419094A; WO2019169996A1; US11934454B2; CN110475129A; US20200304796A1; EP3764276A4

Abstract

本发明实施例公开了一种视频处理方法、视频检索方法、装置、介质及服务器，利用从视频内容与自然语句之间的双向信息，通过对原始视频进行编解码处理，既能够得到自然语句，又可获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频，基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化；这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程，有利于提升自然语句的描述准确率，优化视频内容理解服务的质量。

Description

视频处理方法、介质及服务器

技术领域

本发明涉及互联网技术领域，具体涉及视频处理技术领域，尤其涉及一种视频处理方法、一种计算机存储介质以及一种服务器。

背景技术

为了方便快速了解视频的主要内容，视频内容理解服务应运而生。视频内容理解服务是将视频内容转换为采用一个自然语句来进行描述的服务。衡量视频内容理解服务的质量优劣的一个重要因素，即是用于描述视频内容的自然语句的描述准确率。现有技术中，视频处理流程一般分为编码阶段及解码阶段，编码阶段：由编码器对原始视频的每一帧进行特征提取；解码阶段：由解码器根据提取的视频特征预测出用于描述该视频内容的自然语句。通过现有技术的方案虽然实现了视频内容理解服务；但是，其仅获得用于描述视频内容的自然语句，却并未关注如何提升自然语句对视频内容的描述准确率，这就无法保证视频内容理解服务的质量。

发明内容

本发明实施例提供一种视频处理方法、视频检索方法、装置、介质及服务器，能够优化自然语句的生成过程以提升描述准确率，提升视频内容理解服务的质量。

一方面，本发明实施例提供了一种视频处理方法，所述方法应用于视频处理系统中，所述视频处理系统包括编码器、解码器及重构器，所述方法包括：

通过对原始视频进行编解码处理，获取所述原始视频的视频特征及解码阶段的隐藏状态；

根据所述解码阶段的隐藏状态重构出目标视频的视频特征；

获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性；

根据所述差异性对所述解码器和/或所述重构器进行优化。

另一方面，本发明实施例提供了一种视频检索方法，所述视频处理系统包括编码器、解码器及重构器，所述方法包括：

接收视频检索请求，所述视频检索请求携带检索关键信息；

从视频数据库中查找与所述检索关键信息相匹配的自然语句，所述视频数据库中包括至少一个视频类别，每个视频类别下的至少一个视频，以及各视频对应的自然语句，其中，所述各视频对应的自然语句采用所述视频处理系统预测得到；

获取所述相匹配的自然语句对应的匹配视频，并输出所述匹配视频。

再一方面，本发明实施例提供了一种视频处理装置，所述装置应用于视频处理系统中，所述视频处理系统包括编码器、解码器及重构器，所述装置包括：

处理单元，用于通过对原始视频进行编解码处理，获取所述原始视频的视频特征及解码阶段的隐藏状态；

重构单元，用于根据所述解码阶段的隐藏状态重构出目标视频的视频特征；

差异获取单元，用于获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性；

优化单元，用于根据所述差异性对所述解码器和/或所述重构器进行优化。

再一方面，本发明实施例提供一种视频检索装置，应用于视频处理系统中，所述视频处理系统包括编码器、解码器及重构器，所述装置包括：

接收单元，用于接收视频检索请求，所述视频检索请求携带检索关键信息；

检索单元，用于从视频数据库中查找与所述检索关键信息相匹配的自然语句，所述视频数据库中包括至少一个视频类别，每个视频类别下的至少一个视频，以及各视频对应的自然语句，其中，所述各视频对应的自然语句采用所述视频处理系统预测得到；

获取单元，用于获取所述相匹配的自然语句对应的匹配视频；

输出单元，用于输出所述匹配视频。

再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质应用于视频处理系统中，所述视频处理系统包括编码器、解码器及重构器，所述计算机存储介质存储有一条或一条以上第一指令，所述一条或一条以上第一指令适于由处理器加载并执行如下步骤：

根据所述解码阶段的隐藏状态重构出目标视频的视频特征；

根据所述差异性对所述解码器和/或所述重构器进行优化；

或者，所述计算机存储介质存储有一条或一条以上第二指令，所述一条或一条以上第二指令适于由处理器加载并执行如下步骤：

接收视频检索请求，所述视频检索请求携带检索关键信息；

再一方面，本发明实施例提供了一种服务器，所述服务器包括视频处理系统，所述视频处理系统包括编码器、解码器及重构器，所述服务器还包括：

处理器，适于实现一条或一条以上指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或一条以上第一指令，所述一条或一条以上第一指令适于由所述处理器加载并执行如下步骤：

根据所述解码阶段的隐藏状态重构出目标视频的视频特征；

根据所述差异性对所述解码器和/或所述重构器进行优化；

接收视频检索请求，所述视频检索请求携带检索关键信息；

本发明实施例利用了从视频内容与自然语句之间的双向信息，通过对原始视频进行编解码处理，既能够得到自然语句，又可获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频，基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化；这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程，有利于提升自然语句的描述准确率，优化视频内容理解服务的质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有的视频处理系统的框架结构示意图；

图2为本发明实施例的视频处理系统的框架结构示意图；

图3为本发明实施例提供的一种视频处理方法的流程图；

图4为本发明实施例提供的另一种视频处理方法的流程图；

图5为本发明实施例提供的再一种视频处理方法的流程图；

图6为本发明实施例提供的一种视频处理装置的结构示意图；

图7为本发明实施例提供的一种视频检索方法的流程图；

图8a为本发明实施例提供的一种视频类网站的页面示意图；

图8b为本发明实施例提供的一种视频类网站的视频检索界面示意图；

图8c为本发明实施例提供的一种视频类网站的检索结果界面示意图；

图9为本发明实施例提供的一种视频检索装置的结构示意图；

图10为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

为了方便快速了解视频的主要内容，视频内容理解服务应运而生。所谓视频内容理解服务是指通过对视频进行包括提取视频的特征、理解视频内容等一系列的编解码处理，最后生成用于描述视频内容的自然语句。换句话说，视频内容理解服务是将视频内容转换为采用一个自然语句来进行描述的服务。视频内容理解服务可以应用于多种互联网场景中，例如：视频内容理解服务可以应用于视频类网站的分类场景中，基于视频的自然语句描述来对视频进行分类；再如：视频内容理解服务还可以应用于视频类网站的检索场景中，基于视频的自然语句描述来对视频进行检索；还可与语音检索系统相结合，通过将视频的自然语句转换为语音输出以用于辅助视觉障碍者进行视频检索；等等。

衡量视频内容理解服务的质量优劣的一个重要因素，即是用于描述视频内容的自然语句的描述准确率。如果自然语句的描述准确率越高，表明自然语句所表达的内容与视频内容的匹配度越高，那么视频内容理解服务质量越优质，用户使用体验越佳；反之，自然语句的描述准确率越低，表明自然语句所表达的内容与视频内容的匹配度越低，那么视频内容理解服务质量越劣质，用户使用体验越差。现有技术采用图1所示的视频处理系统来实现视频内容理解服务；请参见图1，该视频处理系统的框架结构主要由编码器和解码器组成，相应地，现有的视频处理流程分为两个阶段，包括编码阶段及解码阶段；编码阶段：由编码器对原始视频的每一帧进行特征提取；解码阶段：通过诸如平均特征机制、注意力机制等方式对所提取的帧特征进行变换，再由解码器依据变换后的视频特征预测出用于描述该视频内容的自然语句。从上述的视频处理方案可以看出，现有技术中解码器是利用编码器输出的视频特征来进行自然语句的生成，这利用的是视频与自然语言之间的前向信息，即从视频内容到自然语句的信息；但是，现有技术忽略了视频与自然语言之间的后向信息，即从自然语句到视频内容的信息，也就是说，现有技术仅仅获得了用于描述视频内容的自然语句，但由于忽略了视频与自然语言之间的后向信息，导致该自然语句可能会由于忽略了视频内容的部分语义而使影响其对视频内容的描述准确率，从而影响了视频内容理解服务的质量。

基于此，本发明实施例提出这样一种视频处理的系统构想：既利用从视频内容到自然语句的前向信息，同时利用自然语句到视频内容的后向信息，通过双向信息的考虑提升自然语句对视频内容的描述准确率，从而优化视频内容理解服务的质量。具体原理如下：既然原始视频的内容经过一系列处理能够生成用于描述该原始视频的内容的自然语句，那么反过来，所生成的自然语句经过一系列处理也应当能够还原出原始视频的内容；如果还原出来的内容与原始视频的内容差异性较小(如小于预设阈值)，表明所生成的自然语句对原始视频的内容描述较为准确，否则，表明所生成的自然语句对原始视频的内容描述不够准确。基于此原理，本发明实施例提出的视频处理系统在现有技术的基础上引入用于重构还原视频内容的重构器，请一并参见图2，本发明实施例的视频处理系统包括编码器、解码器以及重构器。需要特别说明的是，本发明后续实施例中，原始视频是指原始输入至编码器的待描述视频；目标视频是指由重构器根据解码得到的自然语句重构还原出来的输入视频。基于图2所示的视频处理系统，本发明实施例的视频处理流程主要分为四个阶段，包括编码阶段、解码阶段、重构阶段及优化阶段；具体如下：

一、编码阶段：

将原始视频输入至编码器中，由编码器对原始视频的每一帧进行特征提取，得到帧特征序列。一般地，编码器可以基于卷积神经网络(Convolutional Neural Network，CNN)来进行特征提取，本发明实施例以卷积神经网络Inception-V4为例，对于一个包含m(m为正整数)帧的原始视频，编码器利用卷积神经网络Inception-V4可提取到每一帧的特征v_i，该特征v_i为一个1536维度的特征向量；那么最终可获得帧特征序列V＝{v₁,v₂......v_m}。

二、解码阶段：

在获得原始视频的帧特征序列V之后，可通过平均特征机制、注意力机制等方式对帧特征序列进行变换，再将变换得到的视频特征输入至解码器中，由解码器依据该视频特征预测多个解码时刻的单词，并按照时序将各解码时刻的单词进行合并生成用于描述原始视频的内容的自然语句。其中，平均特征机制是指按照求取平均特征的方法对帧特征序列进行整合变换。本发明实施例中，基于平均特征机制对上述的帧特征序列V进行整合，整合后的视频特征可表述为下述式(1)：

其中，注意力机制(Attention Mechamism)，又可称作注意力模型(AttentionModol)被广泛应用于自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中，并且对深度学习任务具有极大的提升作用。注意力机制可分为空间注意力机制和时间注意力机制，在视频的编解码处理框架中尤以时间注意力机制应用较为广泛。具体实现中，在编码器框架内引入注意力机制对源序列进行加权变换，或在解码器框架内引入注意力机制对目标序列进行加权变换，均可有效提高序列对序列的自然方式下的系统表现。本发明实施例中，基于时间注意力机制对上述的帧特征序列V进行整合，整合后的视频特征可表述为下述式(2)：

上述式(2)中，α_i表示帧特征v_i的动态权重，上述式(2)可知，时间注意力机制为每一个帧特征分配一个权重，整合特征为所有帧特征进行加权求和得到。

一般地，解码器可以递归神经网络(Recurrent Neural Network，RNN)来进行自然语句的预测，本发明实施例以长短期记忆单元(Long Short-Term Memory，LSTM)的循环神经网络(以下简称LSTM网络)为例，同时以通过时间注意力机制对帧特征序列进行变换为例进行说明。设解码器生成用于描述原始视频的内容的自然语句表示为S，该自然语句S的长度为n(n为正整数)，该n的取值可以根据实际需要进行设定，例如：设定n＝30，表示自然语句S的长度为30个单词长度；再如：设定n＝25，表示自然语句S的长度为25个单词长度。由于自然语句S的长度为n，表示解码器在解码阶段总共进行n次解码处理，每次解码处理需要预测一个单词；即解码器在解码时刻t₁预测得到单词s₁，在解码时刻t₂预测得到单词s₂，以此类推，在解码时刻t_n预测得到单词s_n。也就是说，解码阶段中，解码器在任意解码时刻t_k(k为正整数，且1≤k≤n)预测得到单词s_k，那么，解码器预测得到的自然语句S＝{s₁,s₂,...s_k,..,s_n}。在此情况下，本发明实施例的解码阶段的具体处理流程如下：

为了捕获原始视频中的全局时间信息，解码器每进行一次单词的预测，就利用时间注意力机制对帧特征序列V进行一次整合，具体的整合处理参见上述式(2)。但需要特别说明的是，在本发明实施例的解码阶段，时间注意力在当前解码时刻为每一帧分配权重时，还需要考虑解码器的LSTM网络上一解码时刻的隐藏状态这一因素，这会使得每一解码时刻进行整合所获得的整合特征可能是不同的，因此上述式(2)可以变换表述为如下式(3)：

上述式(3)中，

表示在任意解码时刻t_k得到的整合特征；

表示在解码时刻t_k为帧特征v_i分配的动态权重。每一解码时刻得到的整合特征会输入至解码器，由解码器根据所输入的整合特征在每一解码时刻预测单词，解码器预测单词的过程可以参见如下式(4)：

其中，s_k∈S＝{s₁,s₂,...s_k...,s_n}表示自然语句S中的第k个单词；s_<k表示自然语句S中已经预测得到的部分单词；θ表示解码器的处理参数；P()表示当前解码时刻预测得到的单词s_k的概率；exp()表示指数函数；h_k表示解码器的LSTM网络的第k个隐藏状态；f()表示解码器的LSTM网络的激活函数。由上述式(4)可知，解码阶段中，解码器能够预测出任一解码时刻t_k的单词s_k的概率，同时得到解码器的LSTM网络在任一解码时刻t_k的隐藏状态h_k，进而得到解码阶段的隐藏状态序列H＝{h₁,h₂,...h_k,...h_n}。

三、重构阶段：

将解码阶段的隐藏状态序列H通过平均特征机制或注意力机制等方式进行变换，将变换后的隐藏状态输入至重构器中，由重构器依据变换后的隐藏状态重构出目标视频的特征。

本发明实施例中，重构器可以基于深度神经网络来对输入视频的特征进行重构，此处的深度神经网络可包括但不限于：卷积神经网络、循环神经网络、深度神经网络等等。以LSTM网络为例，将解码阶段的隐藏状态序列H作为重构器的LSTM网络的输入，可重构出目标视频的全局特征和/或局部特征。此处的全局特征是指由所有视频帧共同反映的特征，局部特征是指一个一个的帧特征。

一种实施方式：重构目标视频的全局特征。

首先，为了重构出目标视频的全局特征，重构器要充分考虑解码阶段的所有解码时刻的隐藏状态，对应于解码阶段解码器所进行的n次解码处理，在重构阶段重构器需要进行n次重构处理；设重构时刻为t_j，其中j为正整数，且1≤j≤n。可见，重构时刻t_j与解码时刻t_k一一相对应，此处的对应关系是指：利用解码时刻t₁的隐藏状态h₁，可重构出目标视频在重构时刻t₁的全局特征；利用解码时刻t₂的隐藏状态h₂，可重构出目标视频在重构时刻t₂的全局特征；同理，利用解码时刻t_n的隐藏状态h_n，可重构出目标视频在重构时刻t_n的全局特征。上述可知，利用任意解码时刻t_k的隐藏状态h_k，可重构出目标视频在重构时刻t_j的全局特征，此时j和k取值相同。本发明实施例可基于平均特征机制对解码阶段的隐藏状态序列H进行整合，可得到解码器预测出的自然语句的全局表达信息如下式(5)：

式(5)中，φ(H)表示解码器的各解码时刻的隐藏状态的平均特征。

其次，将φ(H)、当前重构时刻t_j对应的解码阶段的隐藏状态h_j以及重构器在上一重构时刻t_j-1的隐藏状态z_j-1作为重构器的LSTM网络的输入，会得到重构器的当前重构时刻t_j的隐藏状态z_j。此过程可以参见如下式(6)：

上式(6)中，

和

分别称为输入门、遗忘门、记忆门和输出门；tanh()是双曲正切函数；σ是神经网络常见的激活函数sigmoid函数；z_j不仅表示重构器在当前重构时刻t_j的隐藏状态，同时还表示重构器在当前重构时刻t_j重构出来的目标视频的全局特征。

另一种实施方式：重构目标视频的局部特征。

首先，重构器需要重构出一个包含m(m为正整数)帧的目标视频中的每一个视频帧的特征，也就是说，在重构目标视频的局部特征时，重构器需要进行m次的重构处理，此时，设重构时刻为t_j，j为正整数且1≤j≤m。设重构器在重构时刻t₁重构得到帧特征z₁，在重构时刻t₂重构得到帧特征z₂，以此类推，在重构时刻t_m重构得到帧特征z_m。基于时间注意力机制对解码阶段的隐藏状态序列进行变换，此变换的过程具体为：在每个重构时刻，重构器每进行一次帧特征的重构处理，就利用时间注意力机制对解码器的隐藏状态序列进行一次变换。这个过程可发掘出解码器所预测得到的自然语句的局部表达信息，即得到当前重构时刻t_j的文本信息

其次，将

及重构器上一重构时刻t_j-1的隐藏状态z_j-1作为重构器的LSTM网络的输入，会得到重构器的当前重构时刻t_j的隐藏状态z_j，该过程可以表示为如下式(8)：

上述式(8)中，

不仅表示重构器在当前重构时刻t_j的隐藏状态，同时还表示重构器在当前重构时刻t_j重构出来的目标视频的一个帧特征。

四、优化阶段：

将目标视频的特征与原始输入的原始视频的特征进行比对，如果二者差异较小(小于预设阈值)，那么表明解码器所生成的自然语句对原始视频的视频内容的描述较为准确；反之，如果二者差异较大(大于预设阈值)，那么表明解码器所生成的自然语句对原始视频的视频内容的描述不够准确，在这种情况下，可以基于二者之间的差异性去优化训练解码器和/或重构器的处理参数，使得二者差异性逐渐减小，这个过程就是利用了自然语言到视频内容的后向信息来约束解码器对自然语句的生成。随着不断优化，视频处理系统的整体框架网络趋于稳定，所生成的自然语句对视频内容的描述也就更为准确。

一种实施方式中，利用原始视频的全局特征和目标视频的全局特征之间的欧氏距离构建重构器的全局损失函数

表示为：

上述(9)中，Z表示重构出的输入视频的全局特征序列，Z＝{z₁,z₂,...z_n}；

表示求取欧氏距离。

另一种实施方式中，利用重构器目标视频的视频帧特征与原始视频中的帧特征之间的平均欧氏距离构建得到重构器的局部损失函数

表示为：

由于整个视频处理系统的差异函数是由解码器的损失函数和重构器的损失函数两部分构成，那么综合上述重构器的损失函数，可得到整个视频处理系统的差异函数的表达式如下：

上述式(11)中，θ_rec表示重构器的处理参数；λ为经验参数，用于平衡重构器的损失对整个视频处理系统的影响，且λ的值可根据实际经验设定。根据经验在重构目标视频的全局特征时，上述式(11)中L_rec(V,Z；θ_rec)替换为式(9)且λ的值可设置为0.2；在重构目标视频的局部特征时，上述式(11)中L_rec(V,Z；θ_rec)替换为式(10)且λ的值可设置为0.1。

综上可知，上式(11)反映了原始视频的特征与目标视频的特征之间的差异性，优化阶段的作用就是通过对视频处理系统的整体框架网络进行优化训练，不断减小式(11)所反映的差异性，从而约束自然语句的生成，使得自然语句的描述准确率更高。由式(11)可知，差异性主要是受解码器的处理参数θ和重构器的处理参数θ_rec影响的，优化阶段的过程就是基于上式(11)的差异函数对解码器的处理参数和/或重构码器的处理参数进行训练，使得式(11)的结果小于预设阈值，以减小差异性。

可以理解的是，根据式(11)可知，在优化训练过程中解码器的优化目标为：

本发明实施例既利用了从视频内容到自然语句的前向信息，对原始视频进行编解码处理得到自然语句；同时利用了自然语句到视频内容的后向信息，通过获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频，基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化；这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程，有利于提升自然语句的描述准确率，优化视频内容理解服务的质量。

基于上述描述，本发明实施例提供了一种视频处理方法，该方法可以应用于图2所示的视频处理系统中，请参见图3，该方法可包括以下步骤S101-S104。

S101，通过对原始视频进行编解码处理，获取所述原始视频的视频特征及解码阶段的隐藏状态。

S102，根据所述解码阶段的隐藏状态重构出目标视频的视频特征。

S103，获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性。

S104，根据所述差异性对解码器和/或重构器进行优化。

本发明实施例提供了另一种视频处理方法，该方法可以应用于图2所示的视频处理系统中，请参见图4，该方法可包括以下步骤S201-S211。

S201，调用所述编码器提取所述原始视频的帧特征。

S202，按照所述原始视频的视频帧的时序对提取到的帧特征进行合并，生成所述原始视频的帧特征序列。

S203，获取所述解码器在多个解码时刻的隐藏状态。

该步骤S203可包括以下步骤s11-s13：

s11，在每个解码时刻，基于平均特征机制或时间注意力机制对所述原始视频的帧特征序列中的各帧特征进行整合，得到整合特征。

s12，调用所述解码器对所述整合特征进行解码处理以预测出单词。

s13，获取所述解码器在每个解码时刻的隐藏状态。

其中，各解码时刻预测出的单词按照各解码时刻的时序合并形成用于描述所述原始视频的自然语句。

S204，按照解码时刻的时序对获取到的多个解码时刻的隐藏状态进行合并，得到解码阶段的隐藏状态序列。

S205，将平均特征机制作用于所述解码阶段的隐藏状态序列，得到所述自然语句的全局表达信息。

S206，调用所述重构器根据所述自然语句的全局表达信息及所述解码阶段的隐藏状态序列重构出目标视频的全局特征。

S207，计算所述目标视频的全局特征与所述原始视频的帧特征序列之间的第一欧氏距离。

S208，根据所述第一欧氏距离构建所述重构器的全局损失函数。

S209，获取所述解码器的损失函数。

S210，根据所述解码器的损失函数及所述重构器的全局损失函数构建全局差异函数，所述全局差异函数用于描述所述目标视频与所述原始视频之间的全局特征差异性。

S211，根据所述差异性对所述解码器的处理参数进行优化更新；和/或根据所述差异性对所述重构器的处理参数进行优化更新。

本发明实施例提供了再一种视频处理方法，该方法可以应用于图2所示的视频处理系统中，请参见图5，该方法可包括以下步骤S301-S311。

S301，调用所述编码器提取所述原始视频的帧特征。

S302，按照所述原始视频的视频帧的时序对提取到的帧特征进行合并，生成所述原始视频的帧特征序列。

S303，获取所述解码器在多个解码时刻的隐藏状态。

S304，按照解码时刻的时序对获取到的多个解码时刻的隐藏状态进行合并，得到解码阶段的隐藏状态序列。

S305，将时间注意力机制作用于所述解码器在各解码时刻的隐藏状态，得到所述自然语句的局部表达信息。

S306，调用所述重构器根据所述自然语句的局部表达信息及所述解码器在各解码时刻的隐藏状态重构出输入视频的局部特征。

S307，计算所述目标视频的局部特征与所述原始视频的帧特征之间的第二欧氏距离。

S308，根据所述第二欧氏距离构建所述重构器的局部损失函数。

S309，获取所述解码器的损失函数。

S310，根据所述解码器的损失函数及所述重构器的局部损失函数构建局部差异函数，所述局部差异函数用于描述所述目标视频的视频帧与所述原始视频的视频帧之间的差异性。

S311，根据所述差异性对所述解码器的处理参数进行优化更新；和/或根据所述差异性对所述重构器的处理参数进行优化更新。

基于上述视频处理系统及视频处理方法实施例的描述，本发明实施例还公开了一种视频处理装置，该视频处理装置可以是运行于服务器中的一个计算机程序(包括程序代码)，该视频处理装置可以被应用于图3-图5所示实施例的视频处理方法中，以用于执行视频处理方法中的步骤。请参见图6，该视频处理装置运行如下单元：

处理单元101，用于通过对原始视频进行编解码处理，获取所述原始视频的视频特征及解码阶段的隐藏状态。

重构单元102，用于根据所述解码阶段的隐藏状态重构出目标视频的视频特征。

差异获取单元103，用于获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性。

优化单元104，用于根据所述差异性对所述解码器和/或所述重构器进行优化。

一种实施方式中，所述处理单元101具体用于：

调用所述编码器提取所述原始视频的帧特征；

按照所述原始视频的视频帧的时序对提取到的帧特征进行合并，生成所述原始视频的帧特征序列；

获取所述解码器在多个解码时刻的隐藏状态；

按照解码时刻的时序对获取到的多个解码时刻的隐藏状态进行合并，得到解码阶段的隐藏状态序列。

另一种实施方式中，所述处理单元101具体用于：

在每个解码时刻，基于平均特征机制或时间注意力机制对所述原始视频的帧特征序列中的各帧特征进行整合，得到整合特征；

调用所述解码器对所述整合特征进行解码处理以预测出单词；

获取所述解码器在每个解码时刻的隐藏状态；

再一种实施方式中，所述重构单元102具体用于：

将平均特征机制作用于所述解码阶段的隐藏状态序列，得到所述自然语句的全局表达信息；

调用所述重构器根据所述自然语句的全局表达信息及所述解码阶段的隐藏状态序列重构出目标视频的全局特征。

再一种实施方式中，所述差异获取单元103具体用于：

计算所述目标视频的全局特征与所述原始视频的帧特征序列之间的第一欧氏距离；

根据所述第一欧氏距离构建所述重构器的全局损失函数；

获取所述解码器的损失函数；

根据所述解码器的损失函数及所述重构器的全局损失函数构建全局差异函数，所述全局差异函数用于描述所述目标视频与所述原始视频之间的全局特征差异性。

再一种实施方式中，所述重构单元102具体用于：

将时间注意力机制作用于所述解码器在各解码时刻的隐藏状态，得到所述自然语句的局部表达信息；

调用所述重构器根据所述自然语句的局部表达信息及所述解码器在各解码时刻的隐藏状态重构出输入视频的局部特征。

再一种实施方式中，所述差异获取单元103具体用于：

计算所述目标视频的局部特征与所述原始视频的帧特征之间的第二欧氏距离；

根据所述第二欧氏距离构建所述重构器的局部损失函数；

获取所述解码器的损失函数；

根据所述解码器的损失函数及所述重构器的局部损失函数构建局部差异函数，所述局部差异函数用于描述所述目标视频的视频帧与所述原始视频的视频帧之间的差异性。

再一种实施方式中，所述优化单元104具体用于：

根据所述差异性对所述解码器的处理参数进行优化更新；和/或

根据所述差异性对所述重构器的处理参数进行优化更新。

根据本发明的一个实施例，图3所示的视频处理方法涉及的步骤S101-S104可以是由图6所示的视频处理装置中的各个单元来执行的。例如，图3中所示的步骤S101、S102、S103、S104可以分别由图6中所示的处理单元101、重构单元102、差异获取单元103、优化单元104来执行。

根据本发明的一个实施例，图4所示的视频处理方法涉及的步骤S201-S211可以是由图6所示的视频处理装置中的各个单元来执行的。例如，图4中所示的步骤S201-S204、S205-S206、S207-S210、S211可以分别由图6中所示的处理单元101、重构单元102、差异获取单元103、优化单元104来执行。

根据本发明的一个实施例，图5所示的视频处理方法涉及的步骤S201-S211可以是由图6所示的视频处理装置中的各个单元来执行的。例如，图5中所示的步骤S301-S304、S305-S306、S307-S310、S311可以分别由图6中所示的处理单元101、重构单元102、差异获取单元103、优化单元104来执行。

根据本发明的另一个实施例，图6所示的视频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，视频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

基于上述视频处理系统、视频处理方法及视频处理装置实施例的描述，本发明实施例还公开了一种视频检索方法，请参见图7，该方法可包括以下步骤S401-S404。

S401，接收视频检索请求，所述视频检索请求携带检索关键信息。

实际应用中，图2所示的视频处理系统可以部署在视频类网站的后台服务器中，该视频处理系统能够为视频类网站中的所有视频预测生成描述准确率较高的自然语句，从而为视频类网站提供优质的视频内容理解服务(如视频检索服务)。具体实现中，视频类网站可以提供视频检索入口，请参见图8a，视频类网站设有视频检索快捷按键(图8a所示的虚线框部分)，当该视频检索快捷按键被触发(如点击、选择)时，会进入图8b所示的视频检索界面，该视频检索界面包括输入接口，用户可以在该输入接口中输入检索关键信息，并点击“搜索”按键从而发起视频检索请求，该视频检索请求携带用户所输入的检索关键信息，那么，视频类网站前端(如浏览器客户端)则会将该视频检索请求发送至后台服务器，由后台服务器基于图2所示的视频处理系统为该用户提供视频检索服务。需要说明的是，再请参见图8b，视频检索界面中的输入接口可以包括文本输入接口及语音输入接口，通过文本输入接口所输入的检索关键信息为检索文本，例如：检索文本为关键词“吐槽”、“奔跑”等字符；通过语音输入接口所输入的检索关键信息为检索音频，例如：检索音频为用户上传的待检索视频中出现的一段语音，或录制的用户语音等音频。

S402，从视频数据库中查找与所述检索关键信息相匹配的自然语句。

视频数据库收录了视频类网站内的所有视频，具体地，所述视频数据库中包括至少一个视频类别，每个视频类别下的至少一个视频，以及各视频对应的自然语句，其中，所述各视频对应的自然语句采用所述视频处理系统预测得到。视频数据库可以表示为如下表：

表一：视频数据库

视频	视频类别	自然语句
			Video-1	电视剧	自然语句一
Video-2	电影	自然语句二
			Video-3	综艺	自然语句三
…	…	…

需要说明的是，视频类别可以是视频类网站根据各种属性进行设置的，例如：可根据内容属性设置如表一所示的视频类别，也可以根据地域属性设置大陆、港台、欧美、日韩等视频类别，等等；每一种视频类别会包含标签集合，标签集合中可收录多个标签，这些标签可以来源于该视频类别下的视频的内容标签、后台人工设置的标签，或者用户的点评标签等等。视频数据库可以依据各视频的自然语句来对视频进行分类，具体地，视频的自然语句是由多个单词按序组成的，那么，视频的自然语句可以采用单词集合表示，例如：Video-1对应的自然语句一可以表示为{单词1，单词2，…单词n}。由于每一个视频类别也会有对应的标签集合，通过计算视频的自然语句对应单词集合与视频类别的标签集合之间的匹配度，从而实现对视频的分类。

如前述，检索关键信息可以包括检索文本或检索音频。一种实施方式中，若检索关键信息为检索文本，该检索文本实际上也可以表示为一个关键词集合，可表示为{关键词1，关键词2…关键词n}，例如：检索文本包括“吐槽”、“奔跑”这两个字符，那么其对应的关键词集合为{吐槽，奔跑}。这时可分别计算该关键词集合与表一所示的各视频的自然语句对应单词集合之间的相似度，如果该关键词集合与某自然语句对应的单词集合之间的相似度大于预设阈值，则表明二者匹配，否则不匹配。这样，就可以从视频数据库中查找到与所述检索关键信息相匹配的一个或多个自然语句。

另一种实施方式中，若检索关键信息为检索音频，那么为了方便后续处理，可以首先采用音频转文本技术，将检索音频转换为检索文本，再依据上述实施方式中的匹配方法，从视频数据库中查找到与所述检索关键信息相匹配的一个或多个自然语句。本实施方式可用于辅助视觉障碍者进行视频检索，提升视频类网站的视频检索功能的智能性及实用性。

S403，获取所述相匹配的自然语句对应的匹配视频。

S404，输出所述匹配视频。

步骤S403-S404中，举例来说，设检索关键信息与自然语句一之间的相似度大于预设阈值，并且检索关键信息与自然语句二之间的相似度也大于预设阈值，那么该检索关键信息与自然语句一相匹配，同时与自然语句二相匹配，那么根据上述表一可获得匹配视频包括Video-1和Video-2；进一步可参见图8c所示的检索结果界面，在该检索结果界面中显示匹配视频Video-1和Video-2。可以理解的是，匹配视频的数量可以为一个或多个，在输出所述匹配视频时，可以按照匹配视频的自然语句与检索关键信息之间的相似度由高至低的顺序进行输出，也可以按照随机顺序输出。

本发明实施例基于优化的视频处理系统的框架能够为视频预测出准确率较高的自然语句，根据该自然语句获得满足视频检索需求的匹配视频，从而为用户提供优质的视频检索服务，提升了视频处理系统的智能性和实用性。

基于上述实施例所示的视频检索方法，本发明实施例还提供了一种视频检索装置，该视频检索装置可以是运行于服务器中的一个计算机程序(包括程序代码)，该视频检索装置可以被应用于图7所示实施例的视频检索方法中，以用于执行视频检索方法中的步骤。请参见图9，该视频检索装置运行如下单元：

接收单元201，用于接收视频检索请求，所述视频检索请求携带检索关键信息。

检索单元202，用于从视频数据库中查找与所述检索关键信息相匹配的自然语句，所述视频数据库中包括至少一个视频类别，每个视频类别下的至少一个视频，以及各视频对应的自然语句，其中，所述各视频对应的自然语句采用所述视频处理系统预测得到。

获取单元203，用于获取所述相匹配的自然语句对应的匹配视频。

输出单元204，用于输出所述匹配视频。

根据本发明的一个实施例，图7所示的视频检索方法涉及的步骤S401-S404可以是由图9所示的视频检索装置中的各个单元来执行的。例如，图7中所示的步骤S401、S402、S403、S404可以分别由图9中所示的接收单元201、检索单元202、获取单元203、输出单元204来执行。

根据本发明的另一个实施例，图9所示的视频检索装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，视频检索装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

基于上述实施例所示视频处理系统、视频处理方法及视频检索方法，本发明实施例还提供了一种服务器，该服务器可以是视频类网站的后台服务器。请参见图10，该服务器的内部结构至少包括图2所示的视频处理系统，即包括编码器、解码器及重构器，进一步，该服务器的内部还包括处理器、通信接口及计算机存储介质。其中，服务器内的处理器、通信接口及计算机存储介质可通过总线或其他方式连接，在本发明实施例所示图10中以通过总线连接为例。

通信接口是实现服务器与外部设备(如终端设备)之间进行交互和信息交换的媒介。处理器(或称CPU(Central Processing Unit，中央处理器))是服务器的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例的一种实施方式中，所述的处理器用于控制视频处理系统对原始视频进行编解码处理，重构目标视频，获取目标视频与原始视频之间的差异性，以及根据差异性对视频处理系统的框架进行优化；等等。本发明实施例的另一种实施方式中，所述处理器用于根据视频检索请求中携带的检索关键信息，从视频数据库中查找相匹配的自然语句；获得并输出匹配的自然语句对应的匹配视频；等等。计算机存储介质(Memory)是服务器中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括服务器的内置存储介质，当然也可以包括服务器所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了服务器的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，所述计算机存储介质存储有一条或一条以上第一指令，处理器加载并执行计算机存储介质中存放的一条或一条以上第一指令，以实现上述图3-5所示方法流程中的相应步骤；具体实现中，计算机存储介质中的一条或一条以上第一指令由处理器加载并执行如下步骤：

根据所述解码阶段的隐藏状态重构出目标视频的视频特征；

根据所述差异性对所述解码器和/或所述重构器进行优化。

一种实施方式中，所述处理器加载计算机存储介质中的一条或一条以上第一指令执行所述通过对原始视频进行编解码处理，获取所述原始视频的视频特征及解码阶段的隐藏状态的步骤的过程中，具体执行如下步骤：

调用所述编码器提取所述原始视频的帧特征；

获取所述解码器在多个解码时刻的隐藏状态；

另一种实施方式中，所述处理器加载计算机存储介质中的一条或一条以上第一指令执行所述获取所述解码器在多个解码时刻的隐藏状态的步骤的过程中，具体执行如下步骤：

获取所述解码器在每个解码时刻的隐藏状态；

再一种实施方式中，所述处理器加载计算机存储介质中的一条或一条以上第一指令执行所述根据所述解码阶段的隐藏状态重构出目标视频的视频特征的步骤的过程中，具体执行如下步骤：

再一种实施方式中，所述处理器加载计算机存储介质中的一条或一条以上第一指令执行所述获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性的步骤的过程中，具体执行如下步骤：

根据所述第一欧氏距离构建所述重构器的全局损失函数；

获取所述解码器的损失函数；

根据所述第二欧氏距离构建所述重构器的局部损失函数；

获取所述解码器的损失函数；

再一种实施方式中，所述处理器加载计算机存储介质中的一条或一条以上第一指令执行所述根据所述差异性对所述解码器和/或所述重构器进行优化的步骤的中，具体执行如下步骤：

根据所述差异性对所述重构器的处理参数进行优化更新。

本实施例既利用了从视频内容到自然语句的前向信息，对原始视频进行编解码处理得到自然语句；同时利用了自然语句到视频内容的后向信息，通过获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频，基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化；这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程，有利于提升自然语句的描述准确率，优化视频内容理解服务的质量。

在另一个实施例中，所述计算机存储介质存储有一条或一条以上第二指令，处理器加载并执行计算机存储介质中存放的一条或一条以上第二指令，以实现上述图7所示方法流程中的相应步骤；具体实现中，计算机存储介质中的一条或一条以上第二指令由处理器加载并执行如下步骤：

接收视频检索请求，所述视频检索请求携带检索关键信息；

一种实施方式中，所述检索关键信息包括检索文本或检索音频；若所述检索关键信息为检索音频，则所述处理器加载计算机存储介质中的一条或一条以上第二指令执行从视频数据库中查找与所述检索关键信息相匹配的自然语句的步骤之前，还执行如下步骤：将所述检索音频转换为检索文本。

本实施例基于优化的视频处理系统的框架能够为视频预测出准确率较高的自然语句，根据该自然语句获得满足视频检索需求的匹配视频，从而为用户提供优质的视频检索服务，提升了视频处理系统的智能性和实用性。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种视频处理方法，应用于视频处理系统中，所述视频处理系统包括编码器及解码器，其特征在于，所述视频处理系统还包括重构器，所述方法包括：

通过对原始视频进行编解码处理，获取原始视频的帧特征序列及解码阶段的隐藏状态；

基于平均特征机制，并根据所述解码阶段的隐藏状态重构出目标视频的全局特征；

获取所述目标视频的全局特征与所述原始视频的帧特征序列之间的差异性；

根据所述差异性对所述解码器和/或所述重构器进行优化；

其中，所述编解码处理包括编码阶段的处理和解码阶段的处理；所述编码阶段的处理包括采用所述编码器对所述原始视频进行特征提取的处理；所述解码阶段的处理包括采用所述解码器根据所述编码器提取的所述原始视频的视频特征预测用于描述所述原始视频的视频内容的自然语句的处理；所述重构器用于在重构阶段根据所述解码阶段的隐藏状态重构出所述目标视频的视频特征。

2.如权利要求1所述的方法，其特征在于，所述通过对原始视频进行编解码处理，获取所述原始视频的帧特征序列及解码阶段的隐藏状态，包括：

调用所述编码器提取所述原始视频的帧特征；

获取所述解码器在多个解码时刻的隐藏状态；

3.如权利要求2所述的方法，其特征在于，所述获取所述解码器在多个解码时刻的隐藏状态，包括：

在每个解码时刻，基于平均特征机制对所述原始视频的帧特征序列中的各帧特征进行整合，得到整合特征；

获取所述解码器在每个解码时刻的隐藏状态；

4.如权利要求2所述的方法，其特征在于，所述基于平均特征机制，并根据所述解码阶段的隐藏状态重构出目标视频的全局特征，包括：

5.如权利要求1所述的方法，其特征在于，所述获取所述目标视频的全局特征与所述原始视频的帧特征序列之间的差异性，包括：

根据所述第一欧氏距离构建所述重构器的全局损失函数；

获取所述解码器的损失函数；

6.如权利要求1-5任一项所述的方法，其特征在于，所述根据所述差异性对所述解码器和/或所述重构器进行优化，包括：

根据所述差异性对所述重构器的处理参数进行优化更新。

7.一种视频处理方法，应用于视频处理系统中，所述视频处理系统包括编码器及解码器，其特征在于，所述视频处理系统还包括重构器，所述方法包括：

通过对原始视频进行编解码处理，获取原始视频的帧特征及解码阶段的隐藏状态；

基于时间注意力机制，并根据所述解码阶段的隐藏状态重构出目标视频的局部特征；

获取所述目标视频的局部特征与所述原始视频的帧特征之间的差异性；

根据所述差异性对所述解码器和/或所述重构器进行优化；

8.如权利要求7所述的方法，其特征在于，所述通过对原始视频进行编解码处理，获取原始视频的帧特征及解码阶段的隐藏状态，包括：

调用所述编码器提取所述原始视频的帧特征；以及，

获取所述解码器在多个解码时刻的隐藏状态。

9.如权利要求8所述的方法，其特征在于，所述获取所述解码器在多个解码时刻的隐藏状态，包括：

在每个解码时刻，基于时间注意力机制对所述原始视频的帧特征序列中的各帧特征进行整合，得到整合特征；

获取所述解码器在每个解码时刻的隐藏状态；

10.如权利要求8所述的方法，其特征在于，所述基于时间注意力机制，并根据所述解码阶段的隐藏状态重构出目标视频的局部特征，包括：

11.如权利要求10所述的方法，其特征在于，所述获取所述目标视频的局部特征与所述原始视频的帧特征之间的差异性，包括：

根据所述第二欧氏距离构建所述重构器的局部损失函数；

获取所述解码器的损失函数；

12.一种计算机存储介质，应用于视频处理系统中，所述视频处理系统包括编码器及解码器，其特征在于，所述视频处理系统还包括重构器，所述计算机存储介质存储有一条以上指令，所述一条以上指令适于由处理器加载并执行如权利要求1-6任一项所述的视频处理方法；或者执行如权利要求7-11任一项所述的视频处理方法。

13.一种服务器，所述服务器包括视频处理系统，所述视频处理系统包括编码器及解码器，其特征在于，所述视频处理系统还包括重构器，所述服务器还包括：

处理器，适于实现一条以上指令；以及，

计算机存储介质，所述计算机存储介质存储有一条以上指令，所述一条以上指令适于由处理器加载并执行如权利要求1-6任一项所述的视频处理方法；或者执行如权利要求7-11任一项所述的视频处理方法。