CN111294646B

CN111294646B - 一种视频处理方法、装置、设备及存储介质

Info

Publication number: CN111294646B
Application number: CN202010096614.XA
Authority: CN
Inventors: 宋浩; 黄珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2022-08-30
Anticipated expiration: 2040-02-17
Also published as: WO2021164326A1; US20220198800A1; CN111294646A

Abstract

本发明实施例提供了一种视频处理方法、装置、设备及存储介质；方法包括：从待处理视频对应的帧序列中提取相邻视频帧；定位相邻视频帧中每个视频帧中的文本区域；确定相邻视频帧中每个视频帧中的文本区域之间的相似度；根据相似度确定待处理视频中包含相同文本的关键视频帧段；基于关键视频帧段确定待处理视频中的文本关键帧。通过本发明实施例，能够提升视频关键帧的准确度。

Description

一种视频处理方法、装置、设备及存储介质

技术领域

本发明涉及视频领域中的视频处理技术，尤其涉及一种视频处理方法、装置、设备及存储介质。

背景技术

视频关键帧指能够表征视频中信息的主要的视频帧；通过视频关键帧，能够快速确定视频中所表达的信息，进而对视频进行处理。

一般来说，从视频中提取视频关键帧时，通常通过比较各视频帧之间的相似性，并将相似性小的视频帧作为视频的视频关键帧。然而，由于上述提取视频关键帧的过程中，各视频帧之间的比较是针对整个视频帧进行的；因此，当视频中各视频帧之间的场景变化大而文本信息不变时，所提取得到的视频关键帧中存在因视频关键帧中文本信息相同而导致的视频关键帧的重复率高的问题；从而，提取到的视频关键帧的准确度低。

发明内容

本发明实施例提供一种视频处理方法、装置、设备及存储介质，能够提升视频关键帧的准确度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种视频处理方法，包括：

从待处理视频对应的帧序列中提取相邻视频帧；

定位所述相邻视频帧中每个视频帧中的文本区域；

确定所述相邻视频帧中每个视频帧中的文本区域之间的相似度；

根据所述相似度确定所述待处理视频中包含相同文本的关键视频帧段；

基于所述关键视频帧段确定所述待处理视频中的文本关键帧。

本发明实施例提供一种视频处理装置，包括：

提取模块，用于从待处理视频对应的帧序列中提取相邻视频帧；

定位模块，用于定位所述相邻视频帧中每个视频帧中的文本区域；

相似度模块，用于确定所述相邻视频帧中每个视频帧中的文本区域之间的相似度；

关键帧模块，用于根据所述相似度确定所述待处理视频帧中包含相同文本的关键视频帧段；

所述关键帧模块，还用于基于所述关键视频帧段确定所述待处理视频中的文本关键帧。

本发明实施例提供一种视频处理设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的视频处理方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的视频处理方法。

本发明实施例具有以下有益效果：由于用于确定文本关键帧的相邻视频帧的相似度，是结合视频帧的文本区域得到的，因此，该相似度体现了相邻视频帧在文本信息上的相似性；进而再结合相似度和文本区域，能够准确获取到拥有不同文本信息的视频关键帧；从而所提取到的文本关键帧中的文本信息的重复率低，文本关键帧的准确度高，所以，也就提升了视频关键帧的准确度。

附图说明

图1是一种示例性的获取视频关键帧的流程示意图；

图2是另一种示例性的获取视频关键帧的流程示意图；

图3是又一种示例性的获取视频关键帧的流程示意图；

图4是又另一种示例性的获取视频关键帧的流程示意图；

图5是本发明实施例提供的视频处理系统100的一个可选的架构示意图；

图6是本发明实施例提供的服务器400的结构示意图；

图7是本发明实施例提供的视频处理方法的一个可选的流程示意图；

图8是本发明实施例提供的视频处理方法的又一个可选的流程示意图；

图9是本发明实施例提供的一种示例性的视频处理流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(ArtificialIntelligence，AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

2)机器学习(MachineLearning，ML)，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能；重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。

3)人工神经网络，是一种模仿生物神经网络结构和功能的数学模型，本文中人工神经网络的示例性结构包括深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolutional Neural Network，CNN)和循环神经网络(Recurrent Neural Network，RNN)等。其中，DNN内部的神经网络层可以分为三类，输入层，隐藏层和输出层，并且层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连；在信息推荐领域中，能够对用户进行合理的兴趣推测和衍生，提升内容多样性。

4)损失函数，又称代价函数，是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。

5)视频关键帧，用于描述一个视频镜头的关键图像帧，能够反映一个视频镜头的主要内容；而文本关键帧属于关键视频帧的一种。

6)OCR(OpticalCharacterRecognition，光学字符识别)，指电子设备(例如扫描仪或数码相机)检查图像上的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

另外，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开了研究和应用；例如，常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗和智能客服等；随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值；比如，还可以将人工智能应用在视频处理领域。下面，针对人工智能在视频处理领域的应用进行说明。

视频关键帧检测技术指选取视频中少量的视频帧或视频段来表征视频的过程，通过关键视频帧检测技术对视频进行处理，有利用提高视频对应的含义的获取效率；因此，随着互联网中视频数量的不断增加，视频关键帧检测技术得到了广泛的应用。一般来说，在利用视频关键帧检测技术获取视频中的视频关键帧时，通常采用机器学习实现。

比如，利用子集选取的处理方式从视频中选择视频帧/视频段，即通过子模块优化算法(submodular optimization)学习视频中的最优解，以得到视频关键帧。或者，采用目光注视跟踪技术检测视频中的视频关键帧，并利用子模块优化算法提升所得到的视频关键帧的相关性和多样性。

又比如，参见图1，图1是一种示例性的获取视频关键帧的流程示意图；如图1所示，示出了采用字典学习及稀疏编码提升视频关键帧的相关性，并根据视频关键帧的局部运动区域及其相关性提取得到视频关键帧的过程：首先，输入待处理视频1-1，对待处理视频1-1进行运动区域检测处理1-2，并对运动区域检测结果进行预处理1-3，得到时空特征1-4；然后，对时空特征1-4进行稀疏化表示，得到稀疏特征1-5，并获取稀疏特征1-5对应的第一图特征1-6，以及利用字典获取稀疏特征1-5的第二图特征1-7；最后，匹配第一图特征1-6和第二图特征1-7，得到匹配度1-8，当匹配度1-8大于预设匹配度时，输出对应的视频帧/视频段，而当匹配度小于等于预设匹配度时，舍弃对应的视频帧，如此，也就得到的了视频关键帧1-9。

再比如，基于深度学习技术获取视频关键帧，参见图2，图2是另一种示例性的获取视频关键帧的流程示意图；如图2所示，示出了利用增强学习的策略，并通过设置视频关键帧的多样性与表达性的奖励函数，实现有监督以及无监督的视频关键帧的检测：首先，将待处理视频解码为多个视频序列集合V₁-V_m，利用两个神经网络模型2-1和2-2对多个视频序列集合V₁-V_m进行特征提取，并对提取的特征进行处理得到关于视频关键帧的多样性与表达性的奖励函数2-3，以及根据奖励函数和所提取的特征确定视频关键帧2-4。

还比如，利用序列到序列技术来确定视频的视频关键帧，参见图3，图3是又一种示例性的获取视频关键帧的流程示意图；如图3所示，示出了利用构建的基于注意力的编码解码网络获取视频关键帧的过程：将待处理视频对应的视频帧序列3-1输入至编码器3-2中，并利用注意力机制3-3确定的权重信息3-31和编码器的编码结果在解码器3-4进行解码，根据解码结果3-5，进行视频关键帧3-6的获取。或者，通过监督学习的策略来使用长短时记忆网络和行列式点过程(Determinantal Point Processes)自动地检测待处理视频中的视频关键帧。又或者，通过产生式对抗网络(Generative Adversarial Network)，并结长短时记忆网络对待处理视频中的扩张时序单元进行重构，通过重构误差实现待处理视频的视频关键帧的检测。

最后比如，将待处理视频中的文字信息作为提取视频关键帧的因素，参见图4，图4是又另一种示例性的获取视频关键帧的流程示意图；如图4所示，示出了基于文本孪生网络的视频关键帧的检测过程：获取待处理视频4-1的相邻的视频帧4-2，并利用文本孪生网络(4-31和4-32)对相邻的视频帧4-2的相似度4-4进行计算，同时利用注意力模块4-51和4-52判断视频帧中是否有文字信息，分别得到结果4-61和4-62，进而根据相似度和是否有文字信息的结果获取视频关键帧4-7。

然而，基于上述描述的获取视频关键帧的技术方案中，均无法检测出待处理视频中的基于文字的视频关键帧；另外，虽然图4提出了将待处理视频中的文字信息作为提取视频关键帧的因素，但由于视频关键帧的检测过程中，是针对整个视频帧进行的相似度比较，因此，针对视频中各视频帧之间的场景变化大而文字不变时，所提取得到的视频关键帧中存在因文字的重复率高而导致的视频关键帧的重复率高的问题；从而，提取到的视频关键帧的准确度低。

基于此，本发明实施例提供一种视频处理方法、装置、设备和存储介质，能够提升提取到的视频关键帧的准确度。下面说明本发明实施例提供的视频处理设备的示例性应用，本发明实施例提供的视频处理设备可以实施为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，也可以实施为服务器。下面，将说明视频处理设备实施为服务器时的示例性应用。

参见图5，图5是本发明实施例提供的视频处理系统100的一个可选的架构示意图，为实现支撑一个视频处理应用，服务器400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

服务器200，用于通过网络300向服务器400提供待处理视频，并通过网络300从服务器400中获取待处理视频的文本关键帧。

服务器400，用于通过网络300从服务器200中获取待处理视频；以及，从待处理视频对应的帧序列中提取相邻视频帧；定位文本关键帧相邻视频帧中每个视频帧中的文本区域；确定文本关键帧相邻视频帧中每个视频帧中的文本区域之间的相似度；根据文本关键帧相似度确定文本关键帧待处理视频中包含相同文本的关键视频帧段；基于文本关键帧关键视频帧段确定文本关键帧待处理视频中的文本关键帧；以及，通过网络300向服务器200发送文本关键帧。

另外，本发明实施例提供的视频处理设备可以是服务器400，还可以是服务器200和服务器400的结合。

参见图6，图6是本发明实施例提供的服务器400的结构示意图，图6所示的服务器400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。服务器400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器450旨在包括任意适合类型的存储器。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的视频处理装置可以采用软件方式实现，图6示出了存储在存储器450中的视频处理装置455，其可以是程序和插件等形式的软件，包括以下软件模块：提取模块4551、定位模块4552、相似度模块4553、关键帧模块4554、处理模块4555、训练模块4556和优化模块4557，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的视频处理装置可以采用硬件方式实现，作为示例，本发明实施例提供的视频处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

下面，将结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的视频处理方法。

参见图7，图7是本发明实施例提供的视频处理方法的一个可选的流程示意图，将结合图7示出的步骤进行说明。

S101、从待处理视频对应的帧序列中提取相邻视频帧。

在本发明实施例中，视频处理设备在通过进行视频处理来获取视频关键帧时，所对应的处理对象即待处理视频；由于该待处理视频是由多个视频帧按预定序列组成的，因此，存在待处理视频对应的帧序列；这里，视频处理设备在从待处理视频中选择两个相邻的视频帧进行组合时，也就从待处理视频对应的帧序列中提取到了相邻视频帧。

需要说明的是，相邻指待处理视频的视频帧在预定序列上的相邻。另外，相邻视频帧对还可以包括至少三个相邻的视频帧，本发明实施例对此不作具体限定。

S102、定位相邻视频帧中每个视频帧中的文本区域。

在本发明实施例中，视频处理设备对相邻视频帧中的每个视频帧中的文本区域进行定位，也就定位到了相邻视频帧中每个视频帧中的文本区域。

需要说明的是，视频处理设备所定位出的相邻视频帧中每个视频帧中的文本区域，是针对各视频帧中均存在文本区域的相邻视频帧而言的。

S103、确定相邻视频帧中每个视频帧中的文本区域之间的相似度。

在本发明实施例中，视频处理设备获得了相邻视频帧中每个视频帧中的文本区域之后，对相邻视频帧中每个视频帧中的文本区域之间进行比较，也就能够获得相邻视频帧中每个视频帧中的文本区域之间的相似度。

需要说明的是，相似度表征基于文本区域确定的相邻视频中各视频帧之间的相似性的度量值，而相似度与相似性之间的关系可以是正相关还可以是负相关，本发明实施例对此不作具体限定。

S104、根据相似度确定待处理视频中包含相同文本的关键视频帧段。

在本发明实施例中，由于相似度表征基于文本区域确定的相邻视频中各视频帧之间的相似性的度量值，因此，视频处理设备通过将相似度与预设相似度进行比较，根据比较结果就能够确定相邻视频帧中的视频帧之间是否基于文本区域相似，相似则表明相邻视频中的视频帧之间包含相同文本，也就获得了关键视频帧段。

S105、基于关键视频帧段确定待处理视频中的文本关键帧。

在本发明实施例中，视频处理设备获得了关键视频帧段之后，由于关键视频帧段中各视频之间包含相同文本，因此，从包含相同文本的关键视频帧段中提取单个视频帧，并将所获得的单个视频帧进行组合，也就获得了文本关键帧。

需要说明的是，文本关键帧指待处理视频中的拥有不同文本信息的视频帧；用于基于文本信息对待处理视频进行处理。从而，当获得了待处理视频的文本关键帧之后，就能够利用该文本关键帧对待处理视频进行基于文本信息的处理了，比如，OCR技术，视频文本审核系统和视频文本理解系统等。

可以理解的是，视频处理设备通过定位待处理视频中各视频帧的文本块位置信息(文本区域)，并结合文本块位置信息确定待处理视频中相邻视频帧间的相似性，实现了准确有效获取待处理视频的视频关键帧(文本关键帧)的技术方案，提升了视频关键帧的准确性。

进一步地，在本发明实施例中，S101可以通过S1011-S1012实现；也就是说，视频处理设备从待处理视频对应的帧序列中提取相邻视频帧，包括S1011-S1012，下面将结合各步骤进行说明。

S1011、对待处理视频进行解码，得到视频帧序列。

在本发明实施例中，视频处理设备对待处理视频以视频帧为单位进行解码，也就得到了多个视频帧按照预定序列组成的视频帧序列。

示例性地，视频处理设备利用ffmpeg(Fast Forward Mpeg)将待处理视频解码为连续的视频帧(视频帧序列)。

S1012、获取视频帧序列的当前视频帧与下一视频帧，得到相邻视频帧。

在本发明实施例中，视频处理设备从视频帧序列的第一个视频帧开始，将第一个视频帧作为当前视频帧，并选择第二个视频帧作为下一视频帧，此时也就得到了一个由第一个视频帧和第二视频帧组成是相邻视频帧；接着，视频处理设备将第二视频帧作为当前视频帧，并选择第三个视频帧作为下一视频帧，此时也就得到了一个由第二个视频帧和第三视频帧组成是相邻视频帧；如此，依次选择视频帧序列中后续的视频帧作为当前视频帧，并选择视频序列中当前视频帧的下一视频帧，进而将当前视频帧与下一视频帧组成相邻视频帧，直到当前视频帧为视频帧序列中的最后一个视频帧之前的一个视频帧，下一视频帧为最后第一个视频帧时，结束相邻视频帧的获取。

也就是说，待处理视频的各视频帧是按照预定序列排列的，最后一个视频帧是在该预定序列中的最后一个所对应的视频帧，而开始获取视频帧对是从该预定序列中的第一个所对应的视频帧开始的。

需要说明的是，当前视频帧为视频帧序列中除最后一个视频帧外的任一视频帧，下一视频帧为视频帧序列中与当前视频帧相邻的下一个视频帧。

另外，视频处理设备还可以从视频帧序列中按照其他的选择方式从视频帧序列中选择相邻的视频帧组成相邻视频帧，本发明实施例对此不作具体限定。

进一步地，在本发明实施例中，S102可通过S1021-S1024实现；也就是说，视频处理设备定位相邻视频帧中每个视频帧中的文本区域，包括S1021-S1024，下面对各步骤分别进行说明。

S1021、获取相邻视频帧中每个视频帧的初始特征。

在本发明实施例中，视频处理设备获取待处理视频的视频关键帧时，旨在获取待处理视频中拥有不同文本的视频帧；故，先获取相邻视频帧的各视频帧的整体特征即初始特征。

这里，初始特征为视频帧的整体的特征信息，即视频处理设备对视频帧的整个区域进行特征提取，来获得初始特征。

S1022、获取初始特征中的文本掩码特征。

在本发明实施例中，视频处理设备获得了初始特征之后，从初始特征中检测相邻视频帧的各视频帧中的文本位置区域的特征，也就得到了相邻视频帧中各视频帧分别对应的文本掩码特征。

S1023、根据文本掩码特征，计算相邻视频帧中每个视频帧中的文本包含值。

在本发明实施例中，视频处理设备获得了文本掩模特征之后，由于文本掩模特征表征视频帧中包含文本信息的区域所对应的特征，因此，能够根据该文本掩码特征计算出相邻视频帧中各视频帧对应的是否包含文本信息的度量值即文本包含值。

S1024、当相邻视频帧对应的文本包含值均大于预设包含值时，根据文本掩码特征，确定相邻视频帧中每个视频帧中的文本区域。

需要说明的是，视频处理设备中设置有预设包含值，表征确定包含文本区域的最小值；从而，视频处理设备获得了相邻视频帧文本包含值之后，如果相邻视频帧中每个视频帧的文本包含值均大于该预设包含值，则表明该相邻视频帧中的每个视频帧均包含文本区域；并且，相邻视频帧中每个视频帧中的文本区域为基于其所对应的文本掩码特征确定的。

进一步地，在本发明实施例中，S103可通过S1031-S1033实现；也就是说，视频处理设备确定相邻视频帧中每个视频帧中的文本区域之间的相似度，包括S1031-S1033，下面对各步骤分别进行说明。

S1031、融合相邻视频帧中每个视频帧的初始特征，和相邻视频帧中每个视频帧中的文本区域对应的文本掩码特征，得到相邻视频帧中每个视频帧的关键帧特征。

需要说明的是，相邻视频帧每个视频帧中的文本区域对应着文本掩码特征，因此，视频处理设备能够获取到该文本掩码特征，并将获取到的文本掩码特征和初始特征进行融合。

在本发明实施例中，视频处理设备利用文本掩码特征对初始特征进行加权处理，完成对初始特征和文本掩码特征进行融合的处理，实现视频帧中用于确定与其他视频帧的相似度的特征在文本方面的凸出，使得所确定的相似度是基于视频帧的文本信息的相似度；这里，所得到的融合结果即关键帧特征，关键帧特征用于表征视频帧对应的用于确定是否是待处理视频的视频关键帧的特征。

S1032、获取相邻视频帧中每个视频帧的关键帧特征之间的特征差。

需要说明的是，当完成了相邻视频帧中每个视频帧对应的关键帧特征获取时，视频处理设备将相邻视频帧中两个相邻的视频帧对应的两个关键帧特征进行对比，也就获取到了相邻视频帧中每个视频帧的关键帧特征之间的特征差。

S1033、根据特征差确定相邻视频帧中每个视频帧中的文本区域之间的相似度。

在本发明实施例中，由于特征差在一定程度上表征了两个相邻的视频帧之间的相似性，从而，能够根据特征差所表征的相似性，获得相邻视频帧中的两个相邻的视频帧之间的相似度；易知，当该特征差所对应的值越大时，则表明两个相邻的视频帧越不相似，而当特征差所对应的值越小时，则表明两个相邻的视频帧越相似。

需要说明的是，考虑到特征差不足以凸出两个相邻视频帧之的相似性；这里，视频处理设备还可以对特征差进行优化，比如，利用卷积层、“inception-A”、池化层(平均池化、最大池化或随机池化)和全连接层中的至少一种对特征差进行优化；进而，将优化后的特征差作为确定相似度的目标特征差。这里，如果待处理的特征的大小不一致，可以通过调整特征的大小，使大小一致后再进行优化。

相应地，S1033中视频处理设备根据特征差确定相邻视频帧中每个视频帧中的文本区域之间的相似度，包括：视频处理设备根据目标特征差特征差确定相邻视频帧中每个视频帧中的文本区域之间的相似度。

综上，由于相似度表征了两个相邻的视频帧相似的可能性，并且，相似度越大相似的可能性越小，相似度越小相似的可能性越大，以及视频处理设备中设置有预设相似度，用于判断相似度是否表征两个相邻的视频帧相似；因此，视频处理设备能够确定目标视频帧集合中的相似度小于预设相似度的视频帧对为相似的视频帧对。

进一步地，在本发明实施例中，S1022可通过S10221-S10222实现；也就是说，视频处理设备获取初始特征中的文本掩码特征，包括S10221-S10222，下面对各步骤分别进行说明。

S10221、确定初始特征的文本权重值。

在本发明实施例中，视频处理设备对每个视频帧的初始特征对应的文本信息的权重值进行获取，也就完成了初始特征中的文本权重的获取，所获取到的结果即文本权重值；这里，文本权重值在一定程度上表征了初始特征中所包含的文本信息的量。

示例性地，当初始特征为256*14*14的特征图时，视频处理设备利用注意力模型式(1)和式(2)获取每个14*14对应的权重值，也就得到了256个权重值；式(1)和式(2)，如下所示：

e_i＝W_i·f_i+b_i (1)

其中，f_i为256个14*14中的第i个14*14，W_i和b_i为与f_i对应的注意力模型中可训练得到的参数信息，而e_i为第i个14*14中的文本信息；j为256，

为256个14*14中的文本信息的和，α_i和softmax(e_i)均为第i个14*14对应的权重值。这里，为了方便计算，计算过程中可将14*14拉成196维向量后再参与计算。

S10222、采用文本权重值获取初始特征中的文本掩码特征。

需要说明的是，视频处理设备获得了文本权重值之后，采用文本权重值获取初始特征中的文本特征，所获取到的结果即文本掩码特征。

示例性地，参见式(3)，

f_attn＝α_i·f_i (3)

其中，基于式(1)和式(2)，f_attn为第i个14*14对应的文本特征；这里，256个f_attn的和即文本掩码特征。

进一步地，在本发明实施例中，S105可通过S1051-S1054实现；也就是说，视频处理设备基于关键视频帧段确定待处理视频中的文本关键帧，包括S1051-S1054，下面对各步骤分别进行说明。

S1051、合并关键视频帧段，得到第一子文本关键帧。

在本发明实施例中，由于关键视频帧段中的各视频之间相似，因此，视频处理设备从关键视频帧段中选择任一视频帧，也就得到了第一子文本关键帧；这里，第一子文本关键帧属于待处理视频的文本关键帧。

可以理解的是，视频处理设备将小于预设相似度的相似度对应的视频帧对进行合并，舍弃了相似的视频帧，从而也就准确获得了待处理视频中拥有不同文本信息的视频帧。

S1052、根据相邻视频帧的单个文本包含值大于预设包含值的视频帧，以及不小于预设相似度的相似度对应的相邻视频帧，得到不同文本的关键视频帧。

在本发明实施例中，待处理视频的文本关键帧还来源于相邻视频帧的单个文本包含值大于预设包含值的视频帧，以及不小于预设相似度的相似度对应的相邻视频帧；从而，视频处理设备将相邻视频帧的单个文本包含值大于预设包含值的视频帧，以及不小于预设相似度的相似度对应的相邻视频帧进行组合，也就获得了不同文本的关键视频帧。

S1053、从不同文本的关键视频帧中，去除与关键视频帧段中的视频帧相同的视频帧，得到第二子文本关键帧。

需要说明的是，考虑到不同文本的关键视频帧与关键视频帧段之间存在相同的视频帧，因此，视频处理设备从不同文本的关键视频帧中，去除与关键视频帧段中的视频帧相同的视频帧；此时，去除了相同的视频帧后的不同文本的关键视频帧即第二子文本关键帧；易知，第二子文本关键帧也属于待处理视频的文本关键帧。

S1054、将第一子文本关键帧和第二子文本关键帧，组合为文本关键帧。

在本发明实施例中，视频处理设备获得了第一子文本关键帧和第二子文本关键帧之后，由于第一子文本关键帧和第二子文本关键帧均属于待处理视频的文本关键帧；因此，视频处理设备将第一子文本关键帧和第二子文本关键帧共同作为文本关键帧。

进一步地，视频处理设备能够根据文本关键帧，对待处理视频进行处理，得到处理信息。也就是说，对待处理视频进行处理时，是仅针对拥有文本信息的视频帧进行的，比如视频OCR技术；从而，当视频处理设备获得了文本关键帧时，也就能够根据文本关键帧对待处理视频进行处理了，所得到处理结果即处理信息。此时，视频处理设备即服务器200和服务器400的结合。

参见图8，图8是本发明实施例提供的视频处理方法的又一个可选的流程示意图；如图8所示，在本发明实施例中，S105之后还包括S106-S107；也就是说，视频处理设备基于关键视频帧段确定待处理视频中的文本关键帧之后，该视频处理方法还包括S106-S107；下面将结合图8示出的步骤进行说明。

S106、获取文本关键帧的文本信息，得到目标文本信息。

在本发明实施例中，视频处理设备对文本关键帧中的各视频帧进行文本信息的获取，也就获得了目标文本信息。这里，目标文本信息为待处理视频对应的信息的文本形式的表示。

S107、依据目标文本信息，对待处理视频进行审核处理，得到审核结果。

需要说明的是，目标文本信息表征了待处理视频对应的信息，因此，视频处理设备对目标文本信息进行审核，就实现了对待处理视频的审核，也就得到了审核结果(比如审核通过或审核未通过)。

也就是说，视频处理设备获得了文本关键帧之后，可以应用于文字视频审核系统中，即通过待处理视频的视频关键帧中的文字对待处理视频进行审核，以确定待处理视频中是否为预设的视频(符合规定的视频)。

进一步地，在本发明实施例中，S105之后还包括S108；也就是说，视频处理设备基于关键视频帧段确定待处理视频中的文本关键帧之后，该视频处理方法还包括S108，下面将对该步骤进行说明。

S108、将文本关键帧，发送至显示设备，以通过显示设备显示文本关键帧。

需要说明的是，视频处理设备获得了文本关键帧之后，将该文本关键帧发送至显示设备，以在显示设备上显示该文本关键帧，进而根据显示的文本关键帧确定待处理视频所表征的信息。如此，能够使用户快速获知待处理视频的主要信息。

示例性地，10秒的待处理视频，前1-6秒的视频显示的均为第一字幕，后7-10秒的视频显示的字幕均为第二字幕，则经过本发明实施例提供的视频处理方法，能够从前1-6秒的视频中选择一个视频帧，以及从后7-10秒的视频中选择一个视频帧，作为文本关键帧；如此，用户在获知待处理视频的主要内容时，通过观看待处理视频需要10秒，而看两个视频帧组成的文本关键帧则需要1秒或更短的时间，但都能实现对待处理视频的主要内容的获知；故，提升了信息获取效果。

可以理解的是，视频处理设备通过获取待处理视频的文本关键帧，对文本关键帧进行处理，来代替对待处理视频进行处理，提升了视频处理速度；另外，由于文本关键帧的准确度高，从而，获得的处理信息的准确度也就高。

进一步地，在本发明实施例中，S102-S103可借用网络模型实现；也就是说，视频处理设备定位相邻视频帧中每个视频帧中的文本区域；以及确定相邻视频帧中每个视频帧中的文本区域之间的相似度，包括：视频处理设备利用预设关键帧模型，定位相邻视频帧中每个视频帧中的文本区域，并确定相邻视频帧中每个视频帧中的文本区域之间的相似度。

需要说明的是，视频处理设备能够获取到预设关键帧模型，比如，与其他设备交互以从其他设备中获取，或从自身存储机制中获取；并且，该预设关键帧模型为预先训练的用于对相邻视频帧的各视频帧的文本包含以及相邻视频帧的各视频帧间的相似性进行获取的模型；因此，视频处理设备获得了该预设关键帧模型和相邻视频帧之后，将相邻视频帧作为预设关键帧模型的输入，就能够利用该预设关键帧模型获取该相邻视频帧中各视频帧对应的文本区域(或者是衡量是否包含文本信息的度量值即文本包含值)了，以及能够获得相邻视频帧中两个相邻的视频帧之间的相似性即相似度了。

在本发明实施例中，视频处理设备获取待处理视频的视频关键帧时，旨在获取待处理视频中拥有不同文本的视频帧；故，利用预设关键帧模型先获取相邻视频帧的各视频帧的整体特征即初始特征，并从初始特征中检测相邻视频帧的各视频帧中的文本位置区域的特征，也就得到了相邻视频帧中各视频帧分别对应的文本掩码特征，以获取每个视频帧的文本区域；进一步再利用相邻视频帧中各视频帧分别对应的文本掩码特征，确定相邻视频帧中各视频帧分别对应的文本包含值，以及结合各初始特征和各文本掩码特征的对应组合结果，对相邻视频帧中各视频帧之间的相似性进行比较，来得到两个相邻的视频帧之间的相似度。

进一步地，在本发明实施例中，视频处理设备借用网络模型实现S102-S103之前，该视频处理方法还包括S109-S112；下面对各步骤进行说明。

S109、获取训练样本；训练样本包括相邻样本视频帧、文本标注区域和标注相似度。

在本发明实施例中，视频处理设备能够获取到用于训练得到预设关键帧模型的样本，即训练样本。

需要说明的是，训练样本由三部分组成：相邻样本视频帧、文本标注区域和标注相似度；其中，相邻样本视频帧为样本视频中两个相邻的视频帧，而样本视频为用于训练得到预设关键帧模型的视频样本；文本标注区域为样本视频帧中各样本视频帧分别对应的文本信息；标注相似度为相邻样本视频帧之间的实际的相似性。

S110、利用原始关键帧模型，获取相邻样本视频帧中每个样本视频的文本预测区域，以及相邻样本视频帧的预测相似度。

在本发明实施例中，视频处理设备能够获取到原始关键帧模型，原始关键帧模型为待训练的用于对相邻样本视频帧的各样本视频帧的文本信息以及相邻样本视频帧间的相似性进行预测的模型；这里，视频处理设备将相邻样本视频帧输入指原始关键帧模型中，利用该原始关键帧模型预测相邻样本视频帧中各相邻样本视频帧应的文本信息即文本预测区域，以及预测相邻样本视频帧中各样本视频帧之间的相似性的度量值即预测相似度。

需要说明的是，视频处理设备获取样本视频的视频关键帧时，旨在获取样本视频中拥有不同文本的视频帧；故，利用原始关键帧模型先获取相邻样本视频帧的各样本视频帧的整体特征即初始预测特征，并从初始预测特征中检测相邻样本视频帧的各样本视频帧中的文本位置区域的特征，也就得到了相邻样本视频帧中各样本视频帧分别对应的文本掩码预测特征，从而也就获得了文本预测区域；进一步结合各初始预测特征和各文本掩码预测特征的对应组合结果，对相邻样本视频帧中各样本视频帧之间的相似性进行比较，来得到两个相邻的样本视频帧之间的预测相似度。

这里，初始预测特征为样本视频帧的整体的特征信息，即视频处理设备对样本视频帧的整个区域进行特征提取，来获得初始预测特征。

S111、获取相邻样本视频帧中每个样本视频帧的文本预测区域分别与文本标注区域之间的差异，以及预测相似度与标注相似度之间的差异，得到损失函数。

在本发明实施例中，为了能确定原始关键帧模型的预测能力，视频处理设备进行各文本预测区域与文本标注区域之间的差异，以及预测相似度与标注相似度之间的差异的获取，也就得到了用于训练原始关键帧模型的损失函数。

需要说明的是，损失函数包括两部分，一部分为文本部分的损失函数，即各文本预测区域与文本标注区域之间的差异；并且，文本部分的损失函数又包括两个子部分，每个子部分对应一个样本视频帧的文本预测区域与文本标注区域对应的标注区域信息的差异。另一部分为相似性部分的损失函数，即预测相似度与标注相似度之间的差异。

示例性地，损失函数如式(4)所示：

L(x₁,x₂)＝α·L_{text_mask}(x₁)+α·L_{text_mask}(x₂)+β·L_sim(x₁,x₂) (4)

其中，x₁和x₂是相邻样本视频帧，α为各文本预测区域与文本标注区域之间的差异所占的权重，β为预测相似度与标注相似度之间的差异所占的权重；L_{text_mask}(x₁)是相邻样本视频帧中x₁对应的文本预测区域与文本标注区域之间的差异，L_{text_mask}(x₂)是相邻样本视频帧中x₂对应的文本预测区域与文本标注区域之间的差异；L(x₁,x₂)为损失函数；L_sim(x₁,x₂)为预测相似度与标注相似度之间的差异。

这里，当各文本预测区域与文本标注区域之间的差异采用L2范数损失函数；x₁对应的文本标注区域中的标注区域信息为y1，对应的文本预测区域为

x₂对应的文本标注区域中的标注区域信息为y2，对应的文本预测区域为

x₁和x₂的预测相似度为p(x₁,x₂)，标注相似度为y(x₁,x₂)时，则基于式(4)，得到式(5)所示的损失函数。

在本发明实施例中，为了更有效地训练相似度，可将预测相似度与标注相似度之间的差异对应的权重设置为大于，各文本预测区域与文本标注区域之间的差异对应的权重；比如，将式(4)和式(5)中的α设置为0.1，β设置为0.9。

S112、利用损失函数，持续对原始关键帧模型进行迭代训练，直到满足预设训练截止条件时，停止训练，得到预设关键帧模型。

在本发明实施例中，当视频处理设备获得了损失函数之后，判断损失函数是否满足预设训练截止条件，不满足的话，则利用损失函数对原始关键帧模型中的参数进行调整，比如，式(1)中的W_i和b_i；此时，也就完成了一次训练；接着将调整后的原始关键帧模型作为下一次训练的待训练模型，对相邻样本视频帧的各样本视频帧的文本信息以及相邻样本视频帧间的相似性进行预测，将预测结果与标注信息(文本标注区域和标注相似度)进行比较，得到新的损失函数，并在新的损失函数不满足预设训练截止条件时，进行调整后的原始关键帧模型中的参数的调整；如此，进行迭代训练，直到获取到的损失函数小于预设阈值时确定满足预设训练截止条件，此时，停止训练，并将当前训练得到的模型作为预设关键帧模型；即预设关键帧模型为训练完成的原始关键帧模型。

需要说明的是，预设训练截止条件可以是上述的获取到的损失函数小于预设阈值，还可以是其他的判断条件，本发明实施例对此不作具体限定。

还需要说明的是，本发明实施例中所提到的模型可以为人工神经网络模型，还可以为其他网络模型，本发明实施例对此不作具体限定。

此外，在本发明实施例中，视频处理设备进行原始关键帧模型的训练时，各参数都是根据实际情况进行设置的。比如，在原始关键帧模型的训练过程中，使用Adam优化器对网络进行训练，起始的学习率设定为0.0005，每30个epoch降低为原来的0.1，mini-batch的大小设置为128，动量(momentum)和权重衰减分别设置为0.9和0.0001。

需要说明的是，在获得了预设关键帧模型后，可以对预设关键帧模型进行评估；评估时，将评估视频划分难度等级，以通过不同的难度等级对预设关键帧模型的准确度进行衡量。

示例性地，将评估视频分三种难度等级：简单、中等和困难；其中，简单，指视频中上方或者下方出现字幕，且字幕集体出现，集体消失，这些字幕通常来表示视频中的人说了什么话。中等，指视频中出现的文字(或艺术字)通常很多且直接表明内容，如：招嫖、赌博结果等，这些文字在整个视频中并不改变或一段时间变化一次。困难，指视频中的文字滚动出现或一个个字(或词)的出现。

此时，如果将评估视频中包含有相同文本信息的视频帧中的任一视频帧作为文本关键帧，则相邻文本关键帧的时间段定义为关键帧段，若预测的文本关键帧落在关键帧段内，即被认定为预测准确；这里，使用召回率与准确率对预设关键帧模型的准确性进行衡量；并且，检测为相同关键帧段的关键帧数只记为1；如公式(6)和(7)所示。

召回率＝检测到正确的关键帧帧数/标注为真值的关键帧帧数 (6)

准确率＝检测到正确的关键帧帧数/检测到的总关键帧数 (7)

进而，在1秒视频采1帧，容易级的数据集对应的预估视频集为34，中等级的数据集对应的预估视频集为27，困难级的数据集对应的预估视频集为29(易知，所有数据集为100)的情况下，评估结果如表1所示：

表1

数据集	准确率	召回率
			容易集(34)	89.47％	77.08％
中等集(27)	90.31％	56.01％
			困难集(29)	84.49％	26.12％
所有	88.19％	44.96％

易知，预设关键帧模型具备高的准确率和召回率。

进一步地，在本发明实施例中，S112之后还包括S113；也就是说，视频处理设备利用损失函数，持续对原始关键帧模型进行迭代训练，直到满足预设训练截止条件时，停止训练，得到预设关键帧模型之后，该视频处理方法还包括S113，下面对S113进行说明。

S113、当获取到新的训练样本时，利用新的训练样本对预设关键帧模型进行优化。

需要说明的是，当视频处理设备获得了预设关键帧模型时，还可以通过获取新的训练样本对预设关键帧模型进行优化，以提升预设关键帧模型的泛化能力。

在本发明实施例中，当视频处理设备获得了新的训练样本之后，能够基于新的训练样本优化预设关键帧模型，以利用优化后的预设关键帧模型进行视频处理。这里，优化过程与训练得到预设关键帧模型的过程类似，本发明实施例在此不再赘述。

相应地，在本发明实施例中，视频处理设备利用预设关键帧模型，定位相邻视频帧中每个视频帧中的文本区域，并确定相邻视频帧中每个视频帧中的文本区域之间的相似度，包括：利用优化后的预设关键帧模型，定位相邻视频帧中每个视频帧中的文本区域，并确定相邻视频帧中每个视频帧中的文本区域之间的相似度。

可以理解的是，视频处理设备通过不断对预设关键帧模型进行优化，能够提升优化后的预设关键帧模型的泛化能力，进而基于优化后的预设关键帧模型实现视频处理时，能够进一步提升视频处理的效果。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

参见图9，图9是本发明实施例提供的一种示例性的视频处理流程示意图；如图9所示，首先，获取待处理视频9-1中的第一个视频帧对9-2，也就获得了相邻视频帧，其中，视频帧对9-2包括视频帧9-11和视频帧9-12；将视频帧对9-2中的视频帧9-11输入至一个ResNet网络中的第4_2卷积层前的网络9-31，得到视频帧9-11的特征9-41(初始特征)，将视频帧对9-2中的视频帧9-12输入至另一个ResNet网络中的第4_2卷积层前的网络9-32，得到视频帧9-12的特征9-42(初始特征)。

然后，将特征9-41输入至网络9-51中，先经过注意力模块9-511的处理，获得权重值9-5111(文本权重值)；再通过掩码文本区域模块9-512，利用权重值9-5111融合特征9-41，得到文本掩码区域9-5121(文本掩码特征)；进而，根据文本掩码区域9-5121确定视频帧9-11对应的文本区域9-61。同样的，将特征9-42输入至网络9-52中，先经过注意力模块9-521的处理，获得权重值9-5211(文本权重值)；再通过掩码文本区域模块9-522，利用权重值9-5211融合特征9-42，得到文本掩码区域9-5221(文本掩码特征)；进而，根据文本掩码区域9-5221确定视频帧9-12对应的文本区域9-62。

最后，利用相似度模型9-7，先将特征9-41与文本掩码区域9-5121进行加权，得到关键帧特征9-81；同样地，将特征9-42与文本掩码区域9-5221进行加权，得到关键帧特征9-82；再将关键帧特征9-81与关键帧特征9-82进行绝对值相减操作，得到视频帧差值特征9-9(特征差)；这里，为了生成更有效的视频帧差值特征，对视频帧差值特征9-9进行两个卷积层9-71、Inception-A模块9-72、平均池化层9-73和全连接层9-74，最终得到相似度9-10。

需要说明的是，接下来，利用上述过程继续对待处理视频中各视频帧对进行处理，直至处理完待处理视频的最后一个视频帧对，从而也就得到了待处理视频9-1包含的各视频帧对分别对应的相似度，以及待处理视频9-1中各视频帧分别对应的文本区域；进而根据获得的各文本区域和各相似度确定文本关键帧。

下面继续说明本发明实施例提供的视频处理装置455的实施为软件模块的示例性结构，在一些实施例中，如图6所示，存储在存储器450的视频处理装置455中的软件模块可以包括：

提取模块4551，用于从待处理视频对应的帧序列中提取相邻视频帧；

定位模块4552，用于定位所述相邻视频帧中每个视频帧中的文本区域；

相似度模块4553，用于确定所述相邻视频帧中每个视频帧中的文本区域之间的相似度；

关键帧模块4554，用于根据所述相似度确定所述待处理视频帧中包含相同文本的关键视频帧段；

所述关键帧模块4554，还用于基于所述关键视频帧段确定所述待处理视频中的文本关键帧。

进一步地，所述提取模块4551，还用于对所述待处理视频进行解码，得到所述帧序列；获取所述帧序列的当前视频帧与下一视频帧，得到所述相邻视频帧。

进一步地，所述定位模块4552，还用于获取所述相邻视频帧中每个视频帧的初始特征；获取所述初始特征中的文本掩码特征；根据所述文本掩码特征，计算所述相邻视频帧中每个视频帧中的文本包含值；当所述相邻视频帧对应的所述文本包含值均大于预设包含值时，根据所述文本掩码特征，确定所述相邻视频帧中每个视频帧中的文本区域。

进一步地，所述相似度模块4553，还用于融合所述相邻视频帧中每个视频帧的初始特征，和所述相邻视频帧中每个视频帧中的文本区域对应的文本掩码特征，得到所述相邻视频帧中每个视频帧的关键帧特征；获取所述相邻视频帧中每个视频帧的关键帧特征之间的特征差；根据所述特征差确定所述相邻视频帧中每个视频帧中的文本区域之间的所述相似度。

进一步地，所述相似度模块4553，还用于确定所述初始特征的文本权重值；采用所述文本权重值获取所述初始特征中的所述文本掩码特征。

进一步地，所述所述关键帧模块4554，还用于合并所述关键视频帧段，得到第一子文本关键帧；根据所述相邻视频帧的单个文本包含值大于所述预设包含值的视频帧，以及不小于预设相似度的所述相似度对应的所述相邻视频帧，得到不同文本的关键视频帧；从所述不同文本的关键视频帧中，去除与所述关键视频帧段中的视频帧相同的视频帧，得到第二子文本关键帧；将所述第一子文本关键帧和所述第二子文本关键帧，组合为所述文本关键帧。

进一步地，所述视频处理装置455还包括处理模块4555，用于获取所述文本关键帧的文本信息，得到目标文本信息；依据所述目标文本信息，对所述待处理视频进行审核处理，得到审核结果。

进一步地，所述处理模块4556，还用于将所述文本关键帧，发送至显示设备，以通过所述显示设备显示所述文本关键帧。

进一步地，所述定位模块4552和所述相似度模块4553，还用于利用预设关键帧模型，定位所述相邻视频帧中每个视频帧中的文本区域，并确定所述相邻视频帧中每个视频帧中的文本区域之间的所述相似度。

进一步地，所述视频处理转置455还包括训练模块4556，用于获取训练样本，所述训练样本包括相邻样本视频帧、文本标注区域和标注相似度；利用原始关键帧模型，获取所述相邻样本视频帧中每个样本视频帧的文本预测区域，以及所述相邻样本视频帧之间的预测相似度；获取所述相邻样本视频帧中每个样本视频帧的文本预测区域分别与所述文本标注区域之间的差异，以及所述预测相似度与所述标注相似度之间的差异，得到损失函数；利用所述损失函数，持续对所述原始关键帧模型进行迭代训练，直到满足预设训练截止条件时，停止训练，得到所述预设关键帧模型。

进一步地，所述视频处理转置455还包括优化模块4557，用于当获取到新的训练样本时，利用所述新的训练样本对所述预设关键帧模型进行优化。

相应地，所述定位模块4552和所述相似度模块4553，还用于利用优化后的预设关键帧模型，定位所述相邻视频帧中每个视频帧中的文本区域，并确定所述相邻视频帧中每个视频帧中的文本区域之间的所述相似度。

本发明实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的视频处理方法，例如，如图7示出的视频处理方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本发明实施例，由于用于确定文本关键帧的相邻视频帧的相似度，是结合视频帧的文本区域得到的，因此，该相似度体现了相邻视频帧在文本信息上的相似性；进而再结合相似度和文本区域，能够准确获取到拥有不同文本信息的视频关键帧；从而所提取到的文本关键帧中的文本信息的重复率低，文本关键帧的准确度高，所以，也就提升了视频关键帧的准确度。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，包括：

从待处理视频对应的帧序列中提取多组相邻视频帧；

获取每组所述相邻视频帧中每个视频帧的初始特征，每个视频帧的所述初始特征用于表征对该视频帧的整个区域进行特征提取而得到的整体特征；

从每个视频帧的所述初始特征中，检测每个视频帧的文本掩码特征，其中，每个视频帧的所述文本掩码特征用于表征每个视频帧中的文本区域的特征；

对于所述多组相邻视频帧中每个视频帧，融合该视频帧的所述初始特征和该视频帧的所述文本掩码特征，以得到该视频帧的关键帧特征，所述关键帧特征比所述初始特征更凸出文本区域的特征；

获取每组所述相邻视频帧中相邻视频帧的关键帧特征之间的特征差；

根据所述特征差，确定每组所述相邻视频帧中相邻视频帧是否相似；

根据所述文本掩码特征，确定每个视频帧是否包含文本；

从所述帧序列中，提取出第一子文本关键帧，其中所述第一子文本关键帧中每个视频帧均包含文本，并且相邻视频帧不相似；

从所述多组相邻视频帧中，提取出目标相邻视频帧，其中每组所述目标相邻视频帧中仅单个视频帧包含文本；

从各所述目标相邻视频帧中分别提取出包含文本且与第一子文本关键帧不重复的视频帧，以得到第二子文本关键帧；

确定待处理视频的文本关键帧，所述文本关键帧包括所述第一子文本关键帧和所述第二子文本关键帧。

2.根据权利要求1所述的方法，其特征在于，所述从待处理视频对应的帧序列中提取相邻视频帧，包括：

对所述待处理视频进行解码，得到所述帧序列；

获取所述帧序列的当前视频帧与下一视频帧，得到所述相邻视频帧。

3.根据权利要求1所述的方法，其特征在于，所述根据所述文本掩码特征，确定每个视频帧是否包含文本，包括：

根据每个视频帧的所述文本掩码特征，确定每个视频帧的文本包含值，所述文本包含值为是否包含文本信息的度量值；

在所述帧序列中一个视频帧的文本包含值大于预设包含值时，确定该视频帧包含文本。

4.根据权利要求1所述的方法，其特征在于，所述从每个视频帧的所述初始特征中，检测每个视频帧的文本掩码特征，包括：

确定所述初始特征的文本权重值；

采用所述文本权重值获取所述初始特征中的所述文本掩码特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述特征差，确定每组所述相邻视频帧中相邻视频帧是否相似，包括：

根据所述特征差，确定每组所述相邻视频帧中相邻视频帧之间的相似度，所述相似度越小相邻视频帧越相似；

在所述相似度小于预设相似度时，确定所述相邻视频帧相似；

在所述相似度不小于预设相似度时，确定所述相邻视频帧不相似。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

获取所述文本关键帧的文本信息，得到目标文本信息；

依据所述目标文本信息，对所述待处理视频进行审核处理，得到审核结果。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

将所述文本关键帧，发送至显示设备，以通过所述显示设备显示所述文本关键帧。

8.根据权利要求1至5任一项所述的方法，其特征在于，通过预设关键帧模型执行所述获取每组所述相邻视频帧中每个视频帧的初始特征，以及从每个视频帧的所述初始特征中，检测每个视频帧的文本掩码特征。

9.根据权利要求8所述的方法，其特征在于，所述预设关键帧模型通过以下处理获得：

获取训练样本，所述训练样本包括相邻样本视频帧、文本标注区域和标注相似度；

利用原始关键帧模型，获取所述相邻样本视频帧中每个样本视频帧的文本预测区域，以及所述相邻样本视频帧之间的预测相似度；

获取所述相邻样本视频帧中每个样本视频帧的文本预测区域分别与所述文本标注区域之间的差异，以及所述预测相似度与所述标注相似度之间的差异，得到损失函数；

利用所述损失函数，持续对所述原始关键帧模型进行迭代训练，直到满足预设训练截止条件时，停止训练，得到所述预设关键帧模型。

10.根据权利要求9所述的方法，其特征在于，所述利用所述损失函数，持续对所述原始关键帧模型进行迭代训练，直到满足预设训练截止条件时，停止训练，得到所述预设关键帧模型之后，所述方法还包括：

当获取到新的训练样本时，利用所述新的训练样本对所述预设关键帧模型进行优化。

11.一种视频处理装置，其特征在于，包括：

提取模块，用于从待处理视频对应的帧序列中提取多组相邻视频帧；

定位模块，用于：获取每组所述相邻视频帧中每个视频帧的初始特征，每个视频帧的所述初始特征用于表征对该视频帧的整个区域进行特征提取而得到的整体特征；从每个视频帧的所述初始特征中，检测每个视频帧的文本掩码特征，其中，每个视频帧的所述文本掩码特征用于表征每个视频帧中的文本区域的特征；根据所述文本掩码特征，确定每个视频帧是否包含文本；

融合模块，用于：对于所述多组相邻视频帧中每个视频帧，融合该视频帧的所述初始特征和该视频帧的文本掩码特征，以得到该视频帧的关键帧特征，所述关键帧特征比所述初始特征更凸出文本区域的特征；

相似度模块，用于：获取每组所述相邻视频帧中相邻视频帧的关键帧特征之间的特征差；根据所述特征差，确定每组所述相邻视频帧中相邻视频帧是否相似；

关键帧模块，用于：

12.一种视频处理设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至10任一项所述的方法。