CN114283428A

CN114283428A - 一种图像处理方法、装置及计算机设备

Info

Publication number: CN114283428A
Application number: CN202110928481.2A
Authority: CN
Inventors: 刘军煜
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2022-04-05

Abstract

本申请实施例公开了一种图像处理方法、装置及计算机设备，其中方法包括：获取待处理视频中相邻的第一图像帧和第二图像帧；若第一图像帧和第二图像帧均包括文本内容，则基于第一图像帧的第一文本特征和第二图像帧的第二文本特征，确定第一图像帧和第二图像帧之间的相似关系；若第一图像帧和第二图像帧均不包括文本内容，则基于第一图像帧的第一图像特征和第二图像帧的第二图像特征，确定第一图像帧和第二图像帧之间的相似关系；基于第一图像帧和第二图像帧之间的相似关系，更新待处理视频的相似关系集，相似关系集中记录的相似关系可用于确定待处理视频的关键图像帧，进而可以提升对视频文件进行关键图像帧抽取的准确率。

Description

一种图像处理方法、装置及计算机设备

技术领域

本申请涉及图像处理领域，尤其涉及一种图像处理方法、装置及计算机设备。

背景技术

视频文件的关键图像帧可以应用于多种场景下，如：视频封面选择场景、视频剪辑场景等。纵观图像处理技术的发展历史，可以看出在针对如何获取图像相似度，并基于图像相似度确定关键图像帧这一方向上，存在许多经典的图像处理模型和图像处理算法，然而基于传统的图像处理方法抽取得到的关键图像帧的准确度普遍较低。因此，如何提升对视频文件进行关键图像帧抽取时，得到的关键图像帧的准确度，成为了当下的研究热点。

发明内容

本申请实施例提供了一种图像处理方法、装置及计算机设备，可以提升对视频文件进行关键图像帧抽取的准确率。

一方面，本申请实施例提供了一种图像处理方法，包括：

获取待处理视频中相邻的第一图像帧和第二图像帧；

若所述第一图像帧和所述第二图像帧均包括文本内容，则基于所述第一图像帧的第一文本特征和所述第二图像帧的第二文本特征，确定所述第一图像帧和所述第二图像帧之间的相似关系；

若所述第一图像帧和所述第二图像帧均不包括文本内容，则基于所述第一图像帧的第一图像特征和所述第二图像帧的第二图像特征，确定所述第一图像帧和所述第二图像帧之间的相似关系；

基于所述第一图像帧和所述第二图像帧之间的相似关系，更新所述待处理视频的相似关系集，所述相似关系集用于记录所述待处理视频中任意两个相邻图像帧之间的相似关系，所述相似关系集中记录的相似关系用于确定所述待处理视频的关键图像帧。

另一方面，本申请实施例提供的一种图像处理装置，包括：

获取单元，用于获取待处理视频中相邻的第一图像帧和第二图像帧；

确定单元，用于若所述第一图像帧和所述第二图像帧均包括文本内容，则基于所述第一图像帧的第一文本特征和所述第二图像帧的第二文本特征，确定所述第一图像帧和所述第二图像帧之间的相似关系；

所述确定单元，还用于若所述第一图像帧和所述第二图像帧均不包括文本内容，则基于所述第一图像帧的第一图像特征和所述第二图像帧的第二图像特征，确定所述第一图像帧和所述第二图像帧之间的相似关系；

处理单元，用于基于所述第一图像帧和所述第二图像帧之间的相似关系，更新所述待处理视频的相似关系集，所述相似关系集用于记录所述待处理视频中任意两个相邻图像帧之间的相似关系，所述相似关系集中记录的相似关系用于确定所述待处理视频的关键图像帧。

在一种实施方式中，所述确定单元还用于执行：

若所述第一图像帧和所述第二图像帧中任一图像帧包括文本内容，且另一图像帧不包括文本内容，则确定所述第一图像帧和所述第二图像帧之间的相似关系为不相似。

在又一种实施方式中，所述第一文本特征包括所述第一图像帧中文本框的第一数量，所述第二文本特征包括所述第二图像帧中文本框的第二数量，一个文本框用于表示一个文本显示区域，文本显示区域用于显示文本内容；所述确定单元还用于执行：

若所述第一数量和所述第二数量不相同，则确定所述第一图像帧和所述第二图像帧之间的相似关系为不相似。

在又一种实施方式中，所述第一文本特征还包括所述第一图像帧中文本框的第一位置信息，所述第二文本特征还包括所述第二图像帧中文本框的第二位置信息；所述确定单元还用于执行：

若所述第一数量和所述第二数量相同，则确定所述第一位置信息与所述第二位置信息之间的匹配关系；

若所述第一位置信息与所述第二位置信息之间的匹配关系为不匹配，则确定所述第一图像帧和所述第二图像帧之间的相似关系为不相似。

在又一种实施方式中，所述第一文本特征还包括所述第一图像帧中文本框的第一文本内容，所述第二文本特征还包括所述第二图像帧中文本框的第二文本内容；所述确定单元还用于执行：

若所述第一位置信息与所述第二位置信息之间的匹配关系为匹配，则确定所述第一文本内容与所述第二文本内容之间的文本相似度；

若所述文本相似度大于文本相似度阈值，则确定所述第一图像帧和所述第二图像帧之间的相似关系为相似；

若所述文本相似度小于或等于所述文本相似度阈值，则确定所述第一图像帧和所述第二图像帧之间的相似关系为不相似。

在又一种实施方式中，所述处理单元还用于执行：

将所述第一图像帧和所述第二图像帧调整为一致大小；

对所述第一图像帧进行文字区域检测，得到所述第一图像帧中的文本框；并对所述第二图像帧进行文字区域，得到所述第二图像帧中的文本框；

对所述第一图像帧中的文本框进行文字识别，得到所述第一文本内容，并对所述第二图像帧中的文本框进行文字识别，得到所述第二文本内容。

在又一种实施方式中，所述图像特征包括所述第一图像帧的第一图像特征，以及所述第二图像帧的第二图像特征；所述确定单元还用于执行：

若所述第一图像特征与所述第二图像特征的图像相似度小于或等于图像相似度阈值，则确定所述第一图像帧和所述第二图像帧之间的相似关系为不相似；

若所述第一图像特征与所述第二图像特征的图像相似度大于所述图像相似度阈值，则确定所述第一图像帧和所述第二图像帧之间的相似关系为相似。

在又一种实施方式中，所述待处理视频包括N个图像帧，所述第一图像帧和所述第二图像帧属于所述N个图像帧，所述N个图像帧按照所述N个图像帧中每个图像帧在所述待处理视频中出现时间的先后顺序进行排列，N为大于1的整数；所述处理单元还用于执行：

从所述相似关系集中获取所述N个图像帧中每两个相邻图像帧之间的相似关系；

基于所述N个图像帧中每两个相邻图像帧之间的相似关系，将所述N个图像帧划分为M个图像帧组；其中，每个图像帧组包括一个或多个图像帧，当任一图像帧组包括多个图像帧时，所述多个图像帧是连续的，且每两个图像帧之间的相似关系均为相似，M为正整数，且M小于或等于N；

分别从每个图像帧组中获取一个图像帧作为关键图像帧。

一方面，本申请提供了一种计算机设备，包括：

处理器，适于实现一条或多条计算机程序；

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行：

获取待处理视频中相邻的第一图像帧和第二图像帧；若所述第一图像帧和所述第二图像帧均包括文本内容，则基于所述第一图像帧的第一文本特征和所述第二图像帧的第二文本特征，确定所述第一图像帧和所述第二图像帧之间的相似关系；若所述第一图像帧和所述第二图像帧均不包括文本内容，则基于所述第一图像帧的第一图像特征和所述第二图像帧的第二图像特征，确定所述第一图像帧和所述第二图像帧之间的相似关系；基于所述第一图像帧和所述第二图像帧之间的相似关系，更新所述待处理视频的相似关系集，所述相似关系集用于记录所述待处理视频中任意两个相邻图像帧之间的相似关系，所述相似关系集中记录的相似关系用于确定所述待处理视频的关键图像帧。

一方面，本申请提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行：

一方面，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品包括计算机程序，该计算机程序存储在计算机存储介质中；计算机设备的处理器从计算机存储介质中读取该计算机程序，处理器执行该计算机程序，使得计算机设备执行：

在本申请中，计算机设备通过在相邻的两个图像帧均包括文本内容时，基于第一文本特征和第二文本特征判断两个图像帧之间相似关系，使得本申请提供的方法可以召回带有文本内容的关键图像帧；又由于计算机设备在相邻的两个图像帧均不包括文本内容时，可以基于图像特征判断两个图像帧之间的相似关系，使得本申请兼顾了在图像帧仅包括图像内容的情况下，计算机设备对两个图像帧之间的相似关系进行判定的情况，在一定程度上提升了计算机设备对视频文件进行关键图像帧抽取时的准确率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法的流程示意图；

图2是本申请实施例提供的一种文本框的示意图；

图3是本申请实施例提供的一种图像处理方法的流程示意图；

图4a是本申请实施例提供的一种颜色直方图的示意图；

图4b是本申请实施例提供的一种像素单元(cell)和像素块(block)的示意图；

图5a是本申请实施例提供的一种内核过滤图像的示意图；

图5b是本申请实施例提供的一种梯度方向划分的示意图；

图6是本申请实施例提供的一种图像处理装置的结构示意图；

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

本申请实施例基于OCR技术和图像分析技术提供了一种图像处理方案，其中，OCR(Optical Character Recognition，光学字符识别)技术是指：对文本资料的图像文件进行分析识别处理，获取文字及版面信息的技术。那么，可以理解的是，采用OCR技术可以对图像中的文字进行识别，并得到以文本的形式返回的图像中的文字。上述提及的图像分析技术是指：利用数学模型以及图像处理技术来分析底层特征和上层结构，从而提取具有一定智能性的信息的技术。具体应用中，图像分析技术的侧重点在于研究图像的内容，其包括但不局限于使用图像处理的各种技术，但图像分析技术相较于图像处理技术而言，图像分析技术更倾向于对图像内容的分析、解释和识别，图像分析的主要过程可以为：输入、分割、识别、解释。

本申请实施例提出的图像处理方案的大致原理可以如下：针对视频文件中每相邻的两个图像帧(第一图像帧、第二图像帧)，根据两个图像帧是否均包括文字内容，选择对应的相似关系确定方式来确定该两个图像帧之间的相似关系(如：相似、不相似)，并进一步基于相邻的两个图像帧之间的相似关系，确定出该视频文件中的关键图像帧。具体地，当两个图像帧均包括文字内容时，采用的相似关系确定方式可以是：基于第一图像帧中文本内容的第一文本特征以及第二图像帧中文本内容的第二文本特征，确定两个图像帧之间的相似关系；当两个图像帧均不包括文字内容时，采用的相似关系确定方式可以是：基于第一图像帧的第一图像特征以及第二图像帧的第二图像特征，确定两个图像帧之间的相似关系。不难看出，本申请提供的图像处理方案，可以用于判断跨模态数据之间的相似关系，如：判断既包括图像内容又包括文本内容的两个图像之间的相似关系，那么，可以理解，采用本申请对两个图像之间的相似关系进行判定，可以有效提升判定结果(即：两个图像间的相似关系)的准确性，那么，也就进一步可以提升对视频文件进行关键图像帧抽取的准确性。

在具体应用时，上述图像处理方案可以由一个计算机设备执行，该计算机设备可以是终端或者服务器，其中，终端可以包括但不限于:智能手机、平板电脑、笔记本电脑、台式计算机、智能电视等；终端内可运行各式各样的客户端(application，APP)，如多媒体播放客户端、社交客户端、浏览器客户端、信息流客户端、教育客户端，等等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。

基于上述描述不难理解，本申请提供的图像处理方案可以应用于多个场景下，如：视频封面选取场景，视频浓缩场景以及视频剪辑场景等。可选地，当上述图像处理方案应用于视频封面选取场景时，计算机设备可以先通过上述图像处理方案获取到视频文件的一个或多个关键图像帧，若获取到的关键图像帧只有一个，则计算机设备可以直接将该关键图像帧作为视频封面，若获取到的关键图像帧有多个，计算机设备则可以对该多个关键图像帧进行图像质量评价处理，进而从该多个关键图像帧选取出图像质量最高的关键图像帧作为该视频文件的视频封面。

可选地，当上述图像处理方案应用于视频浓缩场景时，计算机设备可以通过上述图像处理方案获取到视频文件的一个或多个关键图像帧，并基于该一个或多个关键图像帧组成新的目标视频(即：进行视频浓缩后的视频文件)，其中，由于关键图像帧可以代表该关键图像帧附近时间节点的视频帧的内容，那么，可以理解，由关键图像帧组成的目标视频可以较为完整地概括视频文件的主要内容，那么，进一步地可以理解，该图像处理方案在用于安防视频展示场景时，可以有效提升相关人员的工作效率。

可选地，当上述图像处理方案应用于视频剪辑场景时，计算机设备可以先通过上述图像处理方案获取到视频文件的一个或多个关键图像帧，然后设定剪辑片段的时长(如30S)，进而可以选取出包含的关键图像帧数量最多的视频片段(该视频片段的时长为30S)作为目标片段，该目标片段可以作为视频文件的关键精彩片段。当然，本申请还可以用于其他相似度判别场景，如：用于判断两张图片的文字内容是否相同、两张图片的人脸是否相似、两张图片包含的服装是否相似等等，本申请在此不再详细举例说明。

基于上述图像处理方案原理的描述，本申请提供了一种图像处理方法，该图像处理方法可以由上述提及的计算机设备来执行；请参见图1所示，该图像处理方法可以包括以下步骤：

S101，获取待处理视频中相邻的第一图像帧和第二图像帧。

其中，第一图像帧和第二图像帧可以是从N个图像帧中选取的，这N个图像帧可以是计算机设备对待处理视频进行解码处理，并对待处理视频进行抽帧处理后得到的。示例性地，计算机设备可以利用OpenCV(开源计算机视觉库)对待处理视频进行解码处理；所谓的OpenCV指的是：Intel开源计算机视觉库，它由一系列C函数和少量C++类构成，实现了图像处理和计算机视觉方面的很多通用算法。在本申请中，主要利用了OpenCV提供的图像处理模块，以及视频分析模块，其中，图像处理模块包括但不限于：线性和非线性图像滤波、几何图像变换(调整尺寸，仿射和透视扭曲，通用的基于表的重新映射)、色彩空间转换、直方图等；视频分析模块包括但不限于：运动估计，背景减除和对象跟踪算法等。那么，基于此，本申请可以快速、高效地对待处理视频进行解码处理，以得到N个图像帧，那么，也就使得本申请可以快速地获取第一图像帧和第二图像帧。此外，上述提及的N个图像帧可以按照抽帧得到的图像帧在待处理视频中出现的时间先后顺序排列，那么基于此，第一图像帧和第二图像帧可以指N个图像帧中相邻排列的两个图像帧。

具体应用中，计算机设备对待处理视频进行抽帧处理，可以包括但不限于如下两种方式：

第一种方式是：计算机设备采用全抽帧的方式对待处理视频进行抽帧处理，其中，全抽帧可以理解为：计算机设备抽取图像帧的频率和视频的帧率相同；举例来说，当待处理视频的视频帧率为每秒25帧时，计算机设备可以每秒抽取25帧图像帧，那么，对于一个时长为m秒的视频来说，计算机设备对其进行采样抽帧后得到的N个图像帧具体为：25*m个视频帧，那么不难理解，计算机设备采用此种方式对待处理视频进行抽帧处理，可以使得计算机设备能够从抽帧处理得到的N个图像帧中，确定出更全面的关键图像帧。第二种方式是：计算机设备采用采样抽帧的方式对待处理视频进行抽帧处理，采样抽帧可以理解为：当待处理视频的帧率为n(n为正整数)帧时，每秒抽取k帧图像帧，k为小于n的正整数，那么，对于一个时长为m秒的视频来说，计算机设备对其进行采样抽帧后得到的N个图像帧具体为：k*m个视频帧。那么，基于此，不难理解，计算机设备采用采样抽帧的方式对待处理视频进行抽帧处理，可以有效降低计算量，并减轻计算机设备的数据处理负担。

S102，若第一图像帧和第二图像帧均包括文本内容，则基于第一图像帧的第一文本特征和第二图像帧的第二文本特征，确定第一图像帧和第二图像帧之间的相似关系。

在实际应用中，不难理解的是：图像帧可以同时包括文本内容和图像内容。那么，基于此，计算机设备可以先判断第一图像帧是否包括文本内容，并判断第二图像帧是否包括文本内容；进一步地，当第一图像帧和第二图像帧均包括文本内容时，计算机设备可以基于第一图像帧的第一文本特征和第二图像帧的第二文本特征，来确定第一图像帧和第二图像帧之间的相似关系。又经过实验表明，在对图像帧中的文本显示区域进行文字识别时，采用文本框检测得到的识别结果的准确度要高于直接对文本显示区域进行文字识别得到的识别结果的准确度，那么，示例性地，任一图像帧的文本特征可以是计算机设备采用OCR识别技术对该任一图像帧进行文本特征提取后得到的。

具体地，上述提及的第一图像帧的第一文本特征可以包括但不限于：第一图像帧中文本框的第一数量、第一数量个文本框中每个文本框的第一位置信息、以及每个文本框的第一文本内容；第二图像帧的第二文本特征可以包括但不限于：第二图像帧中文本框的第二数量、第二数量个文本框中每个文本框的第二位置信息、以及每个文本框的第二文本内容。其中，文本框可以参见图2中211所示，可见，文本框211属于图像帧中文本内容的显示区域21中的一部分，且文本框可以用于表示一个文本显示区域，文本显示区域用于显示文本内容。示例性地，若计算机设备采用OCR技术对图像帧进行文本特征提取，那么，文本框的数量(如：第一数量、第二数量)和位置信息(如：第一位置信息、第二位置信息)可以是计算机设备采用FAST-RCNN算法对图像帧进行文字区域检测后得到的，每个文本框的文本内容(如：第一文本内容、第二文本内容)可以是计算机设备采用CNN(Convolutional NeuralNetworks，卷积神经网络)算法、LSTM(Long-Short Term Memory，长短期记忆人工神经网络)算法、以及CTC(Connectionist Temporal Classification，联结主义时间分类)算法对各个文本框进行文字识别后得到的。

S103，若第一图像帧第二图像帧均不包括文本内容，则基于第一图像帧的第一图像特征和第二图像帧的第二图像特征，确定第一图像帧和第二图像帧之间的相似关系。

其中，第一图像帧和第二图像帧之间的相似关系可以是：计算机设备基于第一图像帧和第二图像帧之间的相似度确定的。具体地，若第一图像帧和第二图像帧之间的图像相似度小于或等于图像相似度阈值，则计算机设备可以确定第一图像帧和第二图像帧之间的相似关系为不相似；对应地，若第一图像帧和第二图像帧之间的图像相似度大于图像相似度阈值，则计算机设备可以确定第一图像帧和第二图像帧之间的相似关系为相似。

在一个实施例中，第一图像帧和第二图像帧之间的相似度可以通过：计算机设备采用SIFT(Scale-invariant feature transform，尺度不变特征变换)算法或SURF(Speeded Up Robust Features，加速稳健特征)算法对第一图像帧和第二图像帧进行相似度评价之后得到。这两个算法的主要原理如下：通过对图像帧进行特征点提取，然后基于提取到的特征点构建该图像帧的特征向量，从而使得计算机设备可以在得到第一图像帧的特征向量(即：第一图像特征)，以及第二图像帧的特征向量(即：第二图像特征)之后，通过计算两个特征向量之间的距离(如汉明距离，欧式距离，余弦距离等)得到第一图像帧和第二图像帧之间的图像相似度。

在又一个实施例中，第一图像帧和第二图像帧之间的图像相似度也可以通过：计算机设备基于PSNR(Peak Signal to Noise Ratio，峰值信噪比)或SSIM(StructuralSimilarity，结构相似性)来确定。其中，PSNR算法或SSIM算法的原理都是：在像素层面上对第一图像帧和第二图像帧的相似度进行评价。

在又一个实施例中，第一图像帧和第二图像帧之间的图像相似度还可以通过：计算机设备基于深度学习算法对第一图像帧和第二图像帧进行相似度评价后得到。示例性地，计算机设备采用的深度学习算法可以是孪生网络算法，那么，当计算机设备采用的深度学习算法为孪生网络算法时，计算机设备可以先分别提取第一图像帧的第一图像特征，以及第二图像帧的第二图像特征，并将第一图像特征和第二图像特征进行特征合并；进一步地，当计算机设备将第一图像特征和第二图像特征进行特征合并之后，可以基于特征合并后的目标图像特征计算第一图像帧和第二图像帧之间的相似度。

需要说明的是，当本申请提供的图像处理方法用于线上业务(如：在线视频剪辑、在线视频封面选取)时，由于线上业务需要重点关注关键图像帧的识别速度，因此，在此情况下，在以上三种图像相似度的计算方法中，计算机设备采用深度学习算法对第一图像帧和第二图像帧的图像相似度进行计算这一方法的优先级可以设置为最低，即：本申请用于线上业务时，可以优先考虑使用其它两种图像相似度的计算方法。

在实际应用中，图像特征可以用颜色直方图和梯度直方图表示，基于此，计算机设备可以将图像帧的颜色直方图和该图像帧的梯度直方图进行拼接处理，然后将拼接处理得到的特征作为图像帧的图像特征。那么，进一步地，计算机设备可以通过计算两个图像特征之间的余弦距离来确定两个图像帧之间的相似关系；具体地，当余弦距离大于或等于某个参数(如：距离阈值参数)时，计算机设备可以确定两个图像帧之间的相似关系为相似；当余弦距离小于该某个参数时，计算机设备可以确定两个图像帧之间的相似关系为不相似。示例性地，余弦距离的范围可以为[-1，1]，距离阈值参数可以为0.7，那么也就是说，当第一图像特征和第二图像特征的余弦距离大于或等于0.7时，计算机设备可以确定第一图像帧和第二图像帧是相似的；当第一图像特征和第二图像特征的余弦距离小于0.7时，计算机设备可以确定第一图像帧和第二图像帧是不相似的。

在一个实施例中，不难理解，当第一图像帧和第二图像帧中只有一个图像帧包括文本内容时，计算机设备可以直接判定第一图像帧和第二图像帧的相似关系为不相似。

S104，基于第一图像帧和第二图像帧之间的相似关系，更新待处理视频的相似关系集。

其中，相似关系集用于记录待处理视频中任意两个相邻图像帧之间的相似关系，那么，计算机设备可以基于相似关系集中记录的相似关系，来确定待处理视频的关键图像帧。示例性地，计算机设备可以基于两个不同的标识，在相似关系集中表示两个图像帧之间的相似关系为相似或不相似，相似关系集中每个元素对应一个图像帧，如：计算机设备可以在相似关系集中，通过标识“0”和/或标识“1”来表示两个图像帧之间的相似关系。举例来说，假设相似关系集中任一元素可以表示为Ri，那么，Ri可以表示N个图像帧中第i个图像帧与第i-1个图像帧是否相似，其中，i为正整数且i<N；那么，若第i个图像帧与第i-1个图像帧的相似关系为相似，则Ri＝R(i-1)；若第i个图像帧与第i-1个图像帧的相似关系为不相似，则Ri+R(i-1)＝1，即：Ri与R(i+1)取反，也就是说：当Ri＝0时，R(i-1)＝1；当Ri＝1时，R(i-1)＝0。

那么基于此，计算机设备在基于相似关系集中记录的相似关系确定待处理视频的关键图像帧时，可以具体通过如下方式实现：计算机设备从相似关系集中确定每两个相邻图像帧之间的相似关系，并基于每两个相邻图像帧之间的相似关系，将N个图像帧划分为M(M为正整数，且M≤N)个图像帧组，每个图像帧组包括一个或多个图像帧；那么，当任一图像帧组中的图像帧为多个时，每两个图像帧之间的相似关系均为相似，即：这多个图像帧均用同样的标识进行表示，那么，不难理解的是，这任一图像帧中的多个图像帧是N个图像帧中连续出现的多个图像帧。那么，进一步地，计算机设备可以从每个图像帧组中获取一个图像帧作为关键图像帧，示例性地，计算机设备可以将每个图像帧组中的第一个图像帧作为关键图像帧，也可以将每个图像帧组中任意一个图像帧作为关键图像帧，本申请对此不作限制。

以下结合具体示例来对上述方法进行详细阐述。假设N个图像具体为：{R1，R2，R3，R4，R5，R6，R7，R8，R9}，且初始定义R1＝1；那么，当相似关系集为{1，1，0，0，1，1，1，1，0}时，由于R1＝R2，因此可以理解：第1个关键图像帧和第2个关键图像帧相似；由于R2+R3＝1，因此可以理解：第2个关键图像帧和第3个关键图像帧不相似。通过上述方式，计算机设备可以基于N个图像帧对应的相似关系集，得到该N个图像帧中每相邻两个图像帧之间的相似关系。需要说明的是，计算机设备也可以初始定义R1＝0，那么，在此情况下，{R1，R2，R3，R4，R5，R6，R7，R8，R9}对应的相似关系集可以表示为：{0，0，1，1，0，0，0，0，1}。基于此，计算机设备可以将这N个图像帧划分为4个图像帧组，分别为{R1，R2}、{R3、R4}、{R5、R6、R7、R8}，以及{R9}；那么，基于此，当计算机设备将每个图像帧组中的第一个图像帧作为关键图像帧时，{R1，R2，R3，R4，R5，R6，R7，R8，R9}对应的关键图像帧可以为{R1、R3、R、R9}；当计算机设备将每个图像帧组中任意一个图像帧作为关键图像帧时，{R1，R2，R3，R4，R5，R6，R7，R8，R9}对应的关键图像帧可以为{R1、R3、R、R9}，也可以为{R1，R4，R6，R9}等。

在本申请实施例中，当视频文件中两个图像帧均包括文本内容时，计算机设备可以采用OCR技术来获取图像帧的文本显示区域对应的文本特征，进而基于第一图像帧的第一文本特征以及第二图像帧的第二文本特征，来对这两个图像帧之间的相似关系进行判定，那么，由前述可知，计算机设备采用OCR技术进行文本框识别得到的文本识别结果准确度较高，因此，这可以使得计算机设备基于OCR技术判定得到的两个图像帧的相似关系也会更加准确，从而使得计算机设备可以有效召回带有文本内容的关键图像帧。当视频文件中两个图像帧均不包括文本内容时，计算机设备通过获取第一图像帧的第一图像特征和第二图像帧的第二图像特征，来对这两个图像帧之间的相似关系进行判定，使得本申请兼顾了在图像帧仅包括图像内容的情况下，计算机设备对两个图像帧之间的相似关系进行判定的情况，在一定程度上提升了计算机设备对视频文件进行关键图像帧抽取时的准确率。

基于上述描述，本申请实施例提供了另一种图像处理方法，该方法也可以由上述提及的计算机设备执行；请参见图3，该图像处理方法可以包括如下步骤：

S301，获取待处理视频中相邻的第一图像帧和第二图像帧。

在一个实施例中，步骤S301的相关实施例可以参见步骤S101的相关描述，本申请在此不再赘述。

S302，将第一图像帧和第二图像帧调整为一致大小。

其中，为了提升计算机设备对图像帧进行文本内容识别的准确性，计算机设备可以在对图像帧进行文本内容识别之前，对各个图像帧进行resize(即：改变图像帧的大小)操作，以将各个图像帧调整至同样大小，其中，文本内容识别可以包括：文本框检测和文本框文字识别。此外，可选地，计算机设备还可以在调整图像帧的尺寸大小时，调整各个图像帧的对比度、亮度、饱和度等，本申请对此不做限制。

S303，对第一图像帧进行文字区域检测，得到第一图像帧中的文字框；并对第二图像帧进行文字区域，得到第二图像帧中的文字框。

基于步骤S102的描述可知，在具体应用中，计算机设备可以基于Fast-RCNN技术对图像帧进行文字区域检测，得到图像帧对应的一个或多个文字框。其中，Fast-RCNN通过将图像帧输入卷积网络中进行卷积，可以避免卷积重复计算，大大减少了计算机设备的计算量；此外，Fast-RCNN采用的是ROIpooling(即：Region of Interestpooling，感兴趣区域池化)，这样做可以将各个候选文本框转化为相同大小；Fast-RCNN中使用SVD((SingularValue Decomposition，奇异值分解)代替全连接层，可以有效提高计算速度；数据集的增加可以有效提高mAP(Meanaverage precision，平均精度的均值)，从而提升计算机设备识别文本框时的准确度。

那么，基于上述描述可知，计算机设备可以采用Fast-RCNN技术对第一图像帧进行文字区域识别，得到第一图像帧中的第一数量个文字框；计算机设备也可以采用Fast-RCNN技术对第二图像帧进行文字识别，得到第二图像帧中的第二数量个文字框。

S304，对第一图像帧中的文字框进行文字识别，得到第一文本内容，并对第二图像帧中的文字框进行文字识别，得到第二文本内容。

由步骤S102的描述可知，在一种实施例中，计算机设备可以结合CNN技术、LSTM技术以及CTC技术来对第一图像帧(或第二图像帧)中的各个文字框进行文字识别。其中，CNN是一类包含卷积计算且具有深度结构的前馈神经网络，采用CNN技术能够有效的将大数据量的图像帧降维成小数据量，并且能够有效的保留图片特征，从而使得计算机设备可以在保证卷积处理的效率的同时，于一定程度上兼顾文字识别结果的准确度。此外，又由前述可知，第一图像帧和第二图像帧是属于N个图像帧中的两个相邻的图像帧，而N个图像帧又是按照待处理视频中的时间先后顺序排列的，那么，由于LSTM网络非常适合基于时间序列数据进行分类、处理和预测，且CTC是一种避开输入与输出手动对齐的一种方式，非常适合OCR技术，因此，计算机设备在采用OCR技术对图像帧进行处理时，通过结合CNN技术、LSTM技术以及CTC技术来对第一图像帧(或第二图像帧)中的各个文字框进行文字识别，使得计算机设备得到的文字识别结果的准确度可以得到保证，进而使得计算机设备确定出的第一图像帧和第二图像帧之间的相似关系的准确率得到保证。

S305，若第一数量和第二数量相同，则确定第一位置信息和第二位置信息之间的匹配关系。

由前述可知，第一图像帧的文本特征包括第一图像帧中文本框的第一数量、第一图像帧中文本框的第一位置信息，第二图像帧的文本特征包括第二图像帧中文本框的第二数量、第二图像帧中文本框的第二位置信息。其中，第一位置信息可以包括：第一数量个文本框中每个文本框的位置信息；第二位置信息可以包括：第二数量个文本框中每个文本框的位置信息。

那么，计算机设备可以先判断第一数量和第二数量是否相同，若第一数量和第二数量不相同，则计算机设备可以直接确定第一图像帧和第二图像帧之间的相似关系为不相似；若第一数量和第二数量相同，则计算机设备可以基于第一位置信息与第二位置信息之间的匹配关系，来进一步确定第一图像帧和第二图像帧之间的相似关系。

在具体实施例中，计算机设备确定第一位置信息与第二位置信息之间的匹配关系的方式可以包括如下步骤(1)-(3)，其中：(1)计算机设备获取第一图像帧对应的第一数量个文本框中各个文本框的位置信息，以及获取第二图像帧对应的第二数量个文本框中各个文本框的位置信息；(2)计算机设备建立第一数量个文本框和第二数量个文本框之间的对应关系；(3)计算机设备根据具有对应关系的两个文本框的位置信息之间的位置误差是否小于误差阈值，来确定该具有对应关系的两个文本框的位置信息之间的匹配关系。其中，示例性地，计算机设备在确定两个文本框的位置信息之间的匹配关系时，采用的损失函数可以是cross-entropy loss function(交叉熵损失函数)，或weighted cross-entropy lossfunction(加权交叉熵损失函数)等。需要说明的是，对于上述提及的步骤(1)和(2)，计算机设备可以先执行(1)再执行(2)；当然，计算机设备也可以先执行(2)再执行(1)；本申请对上述提及的步骤(1)和步骤(2)的执行顺序不作具体限制。

S306，若第一位置信息与第二位置信息之间的匹配关系为匹配，则确定第一文本内容与第二文本内容之间的文本相似度。

基于上述描述可知，第一图像帧的文本特征还包括：第一图像帧中文本框的第一文本内容，第二图像帧的文本特征还包括：第二图像帧中文本框的第二文本内容，其中，第一文本内容可以包括：第一数量个文本框中每个文本框的文本内容，第二文本内容可以包括：第二数量个文本框中每个文本框的文本内容。为了便于说明，以下假设第一图像帧中的任一文本框表示为：文本框A，且假设第二图像帧中与文本框A具有对应关系的文本框表示为：文本框B，那么可见，文本框A和文本框B具有对应关系，那么，也就可以称文本框A和文本框B为：一对具有对应关系的文本框。那么，也就不难理解，对于第一图像帧和第二图像帧，计算机设备可以获取到第一数量(或第二数量)对具有对应关系的文本框。

其中，当计算机设备根据具有对应关系的两个文本框的位置信息之间的位置误差是否小于误差阈值，来确定该具有对应关系的两个文本框的位置信息之间的匹配关系时，若文本框A的左上角位置和文本框B的左上角位置之间的位置误差小于误差阈值，且文本框A的右下角位置和文本框B的右下角位置之间的位置误差小于该误差阈值，计算机设备则可以确定文本框A的位置信息和文本框B的位置信息之间的匹配关系为匹配。示例性地，误差阈值可以为5px，px(Pixel，像素)是指：可以在数字显示设备上显示和表示的数字图像或图形的最小单位。那么对应地，不难理解，若文本框A的左上角位置和文本框B的左上角位置之间的位置误差大于或等于误差阈值，或者，文本框A的右下角位置和文本框B的右下角位置之间的位置误差大于或等于该误差阈值，计算机设备则可以确定文本框A的位置信息和文本框B的位置信息之间的匹配关系为不匹配。

在实际应用中不难理解的是，计算机设备可以通过上述方法，确定出上述提及的第一数量对(或第二数量对)具有对应关系的两个文本框中，每一对具有对应关系的两个文本框的位置信息之间的匹配关系。那么，进一步地，若任一对具有对应关系的文本框的位置信息之间的匹配关系为不匹配，则计算机设备可以直接确定第一图像帧和第二图像帧之间的相似关系为不相似。对应地，若每一对具有对应关系的文本框的位置信息之间的匹配关系均为匹配，则计算机设备可以基于第一图像帧中文本框的第一文本内容，与第二图像帧中文本框的第二文本内容之间的文本相似度，来进一步确定第一图像帧和第二图像帧之间的相似关系，具体地，计算机设备可以基于每一对具有对应关系的文本框之间的文本相似度，确定第一图像帧和第二图像帧之间的相似关系。其中，计算机设备在确定每一对具有对应关系的文本框之间的文本相似度时，采用的损失函数可以为softmax loss function(归一化损失函数)，或者weighted softmax loss function(加权归一化损失函数)等。

S307，若文本相似度大于文本相似度阈值，则确定第一图像帧和第二图像帧之间的相似关系为相似。

其中，计算机设备可以分别对每一对具有对应关系的两个文本框进行文本相似度评估，为了便于说明，本申请进一步假设文本框A中显示的文本内容为文本内容a，文本框B中显示的文本内容为文本内容b。那么，计算机设备可以先对文本框A进行文字识别以得到文本内容a，并对文本框B进行文字识别以得到文本内容b，然后计算机设备可以计算文本内容a和文本内容b的文本相似度。

那么，若上述提及的第一数量对(或第二数量对)具有对应关系的文本框中，每对具有对应关系的文本框之间的文本相似度均大于第一相似度阈值，计算机设备则可以确定第一文本内容和第二文本内容之间的文本相似度大于文本相似度阈值，进而计算机设备可以确定第一图像帧和第二图像帧之间的相似关系为相似。其中，示例性地，上述提及的第一相似度阈值可以是：计算机设备在确保每一对具有对应关系的文本框，其对应的两个文本内容之间的文字误差在2个字符以内的情况下进行设置的。那么，也就是说，若上述提及的文本内容a和文本内容b之间，具有差异的字符数量为2个，计算机设备则确定文本内容a和文本内容b之间的文本相似度小于或等于该第一相似度阈值；若上述提及的文本内容a和文本内容b之间，具有差异的字符数量为0个或者1个，计算机设备则确定文本内容a和文本内容b之间的文本相似度大于该第一相似度阈值。

S308，若文本相似度小于或等于文本相似度阈值，则确定第一图像帧和第二图像帧之间的相似关系为不相似。

基于上述描述不难理解，若上述提及的第一数量对(或第二数量对)具有对应关系的文本框中，任意一对具有对应关系的文本框之间的文本相似度小于或等于第一相似度阈值，计算机设备则可以确定第一文本内容和第二文本内容之间的文本相似度小于文本相似度阈值，进而计算机设备可以确定第一图像帧和第二图像帧之间的相似关系为不相似。

S309，若第一图像帧第二图像帧均不包括文本内容，则基于第一图像帧的第一图像特征和第二图像帧的第二图像特征，确定第一图像帧和第二图像帧之间的相似关系。

由步骤S103可知，计算机设备可以将图像帧的颜色直方图和梯度直方图进行拼接处理，以得到该图像帧的图像特征。其中，颜色直方图包括：R通道的颜色直方图、G通道的颜色直方图，以及B通道的颜色直方图，那么，计算机设备可以将这三个通道的颜色直方图进行拼接，以得到图像帧对应的完整的颜色直方图。示例性地，对于图4a所示的图像帧41，计算机设备对其进行图像特征提取后，可以得到如图4a中42所示的三个通道的颜色直方图。

以下将结合具体示例对计算机设备获取颜色直方图的方式进行详细阐述：计算机设备首先可以将图像帧的大小调整至目标大小，如：调整至720*480px，进一步地，计算机设备可以将图像帧划分为若干个16*16px的小单元(或称为：cell，即：细胞单元)，然后计算机设备获取每个小单元包括的16*16个像素值，每个像素值可以是0至255这256个数值中任意一个；进一步地，计算机设备可以将0-255划分为9个像素值区间，即：将0-255的范围平均映射到1-9个像素值区间，然后计算机设备再根据16*16个像素值，统计每个像素值区间对应的像素值的数量，并通过滑动窗口的方式来构建直方图，每滑动一次就可以得到一个长度为9的特征向量，那么，不难理解，每滑动一次构建得到的一个直方图即为一个小单元对应的颜色直方图。当然，像素值区间的数量可以为其他值(如：10、16等)，滑动窗口时的滑动长度可以根据实际需求进行设置，示例性地，本申请中滑动长度可以设置为16px。

那么，基于上述描述，假设图像帧均被调整为了720*480px大小，滑动长度为16px，每个cell大小为16*16px；那么，计算机设备可以进一步将2*2个cell作为一个block(像素块)，示例性地，block可如图4b中43所示，cell可如图4b中44所示，可见，每个block包括4个cell，那么基于此，也就不难理解，每个block的特征向量可以由4个cell的特征向量拼接得到，因此，一个block的特征向量的长度可以为4*9＝36，其中，“4”指的是cell的个数，“9”指的是每个cell的特征向量的长度。由于cell的特征向量是通过滑动窗口的方式获取的，那么，也就不难理解，block的特征向量也可以通过滑动窗口的方式获取，示例性地，滑动长度也可以为16px。那么，在此情况下，对于尺寸为720*480px的图像帧来说，其水平方向上可以包括720/16-1＝44个block，竖直方向上可以包括480/16-1＝29个block，那么，该图像帧包括的block总数为44*29。进一步地，计算机设备可以将这44*29个block对应的特征向量进行合并，从而可以得到该图像帧对应的一个通道的颜色直方图，也就是说，每个通道的颜色直方图对应的特征向量长度可以为44*29*9*4，其中，“44*29”是block的数量，“4”是每个block包括的cell的数量，“9”是每个cell的特征向量长度；那么，进一步也就可以理解，一个图像帧的颜色直方图对应的特征向量长度为44*29*9*4*3，其中，44*29*9*4是指每个通道的颜色直方图对应的特征向量长度，“3”是指R、G、B三个通道。

由上述描述可知，计算机设备不仅可以获取颜色直方图，还可以获取图像帧的梯度直方图。梯度直方图最主要的概念的是梯度，而梯度又包含两个量，即：方向、大小。梯(即：方向)可以拆分为水平方向和垂直方向，以水平方向为例，水平方向的梯表示的是：当前位置和水平方向左右侧的值的差，其中，差越大，则表示梯度越大；那么，计算机设备可以通过计算水平方向梯度和垂直梯度来得到梯度直方图，具体的计算方式可以如式1所示：

Grad²＝grad_H ²+grad_V ² 式1

其中，Grad表示梯度直方图的梯度，Grad_H表示梯度直方图的水平梯度，Grad_V表示梯度直方图的垂直梯度。此外，计算机设备可以通过使用如图5a所示的内核过滤图像来实现对水平梯度和垂直梯度的计算，如：Xi位置的水平梯度可以用图5a中51所示的内核来计算，即：-X(i-1)+X(i-1)。但需要说明的是，经过实验表明，在本申实施例中的计算机设备构建梯度直方图的特征向量时，可以不考虑梯度大小。

以下将结合具体示例对计算机设备获取梯度直方图的方式进行详细阐述：计算机设备先将图像帧的大小调整至目标大小，如：调整至720*480px，进一步地，计算机设备可以将图像帧划分为若干个16*16px的cell，由于梯度直方图包括梯度的大小和方向，不难理解，每个cell包括512个像素值(即：16*16个用于指示梯度大小的值、以及16*16个用于指示梯度方向的值，合计16*16*2＝512)。在实际应用时，每个cell的梯度方向可以分成z(z为正整数)个方向块(如图5b所示)，使用cell中的梯度方向和幅度对z个方向块进行加权投影，以使得每个cell可以产生z维的特征向量。示例性地，z可以为9，即：计算机设备可以将360度分成9个方向块，继而用于对梯度方向进行投影，其中，梯度直方图的方向可以通过式2计算得到：

θ＝arctan(grad_V+grad_H) 式2

其中，θ表示梯度方向对应的角度，Grad_H表示梯度直方图的水平梯度，Grad_V表示梯度直方图的垂直梯度。

那么，基于上述描述不难理解，计算机设备在构建梯度直方图时，可以只利用每个cell中的256个梯度方向的值；需要说明的是，在本申请中，计算机设备可以将梯度方向取绝对值后再进行投影，那么，也就是说，在本申请实施例中，每个cell中梯度方向的角度范围即为[0°，180°]。那么，同理地，计算机设备可以将0-180划分为9个角度区间，即：将0°-180°的角度范围平均映射到1-9个角度区间(即：[0°,20°]、[20°,40°]、[40°,60°]、[60°,80°]、[80°,100°]、[100°,120°]、[120°,140°、[140°,160°]、[160°,180°])，然后计算机设备再根据256个梯度方向的值，统计每个角度区间对应的像素的数量，并通过滑动窗口的方式来构建梯度直方图，每滑动一次就可以得到一个长度为9的特征向量。在此情况下，对于尺寸为720*480px的图像帧来说，其水平方向上可以包括720/16-1＝44个block，竖直方向上可以包括480/16-1＝29个block，那么，该图像帧包括的block总数可以为44*29。进一步地，计算机设备可以将这44*29个block对应的特征向量进行合并，从而可以得到该图像帧对应的梯度直方图，也就是说，图像帧的梯度直方图对应的特征向量长度可以为44*29*9*4，其中，44*29是block的数量，“4”是每个block包括的cell的数量，“9”是每个cell的特征向量长度。

S310，基于第一图像帧和第二图像帧之间的相似关系，更新待处理视频的相似关系集。

在一个实施例中，步骤S310的相关实施例可以参见步骤S104的相关描述，本申请在此不再赘述。

本申请实施例通过计算机设备采用FAST-RCNN技术对图像帧进行文本框检测，有效地提升了文本框检测的速度以及准确度；此外，由于计算机设备在两个文本框的文本内容相差一个字符的情况下，也确定该两个文本框的文本内容之间的文本相似度大于第一相似度阈值；那么可见，本申请提供的图像处理方法增加了汉明损失为1的情况，也就使得第一文本内容和第二文本内容的文本相似度大于第一相似度阈值的概率得到的提升，那么，进一步也就使得待处理视频的关键图像帧的召回率得到了有效提升。同时，由于本申请在第一图像帧和第二图像帧均不包括文本内容时，通过计算机设备基于图像特征确定第一图像帧和第二图像帧之间的相似关系，使得本申请兼顾了计算机设备在两个图像帧均不包括文本内容、两个图像帧中存在的一个图像帧包括文本内容，以及两个图像帧均包括文本内容这三种情况下，确定两个图像帧之间的相似关系的方式，使得本申请在用于关键图像帧抽取时，具备较高的准确率和召回率，在一定程度上极大地节省了计算机设备对待处理视频进行文字识别的计算量和计算时间。

基于上述图像处理方法的相关描述，本申请还公开了一种图像处理装置，该图像处理装置可以是运行与上述所提及的计算机设备中的一个计算机程序(包括程序代码)。该图像处理装置可以执行如图1和图3所示的图像处理方法，请参见图6，该图像处理装置60至少可以包括：获取单元601、确定单元602以及处理单元603。

获取单元601，用于获取待处理视频中相邻的第一图像帧和第二图像帧；

确定单元602，用于若所述第一图像帧和所述第二图像帧均包括文本内容，则基于所述第一图像帧的第一文本特征和所述第二图像帧的第二文本特征，确定所述第一图像帧和所述第二图像帧之间的相似关系；

所述确定单元602，还用于若所述第一图像帧和所述第二图像帧均不包括文本内容，则基于所述第一图像帧的第一图像特征和所述第二图像帧的第二图像特征，确定所述第一图像帧和所述第二图像帧之间的相似关系；

处理单元603，用于基于所述第一图像帧和所述第二图像帧之间的相似关系，更新所述待处理视频的相似关系集，所述相似关系集用于记录所述待处理视频中任意两个相邻图像帧之间的相似关系，所述相似关系集中记录的相似关系用于确定所述待处理视频的关键图像帧。

在一种实施方式中，所述确定单元602还用于执行：

在又一种实施方式中，所述第一文本特征包括所述第一图像帧中文本框的第一数量，所述第二文本特征包括所述第二图像帧中文本框的第二数量，一个文本框用于表示一个文本显示区域，文本显示区域用于显示文本内容；所述确定单元602还用于执行：

在又一种实施方式中，所述第一文本特征还包括所述第一图像帧中文本框的第一位置信息，所述第二文本特征还包括所述第二图像帧中文本框的第二位置信息；所述确定单元602还用于执行：

在又一种实施方式中，所述第一文本特征还包括所述第一图像帧中文本框的第一文本内容，所述第二文本特征还包括所述第二图像帧中文本框的第二文本内容；所述确定单元602还用于执行：

在又一种实施方式中，所述处理单元602还用于执行：

将所述第一图像帧和所述第二图像帧调整为一致大小；

在又一种实施方式中，所述确定单元602还用于执行：

在又一种实施方式中，所述待处理视频包括N个图像帧，所述第一图像帧和所述第二图像帧属于所述N个图像帧，所述N个图像帧按照所述N个图像帧中每个图像帧在所述待处理视频中出现时间的先后顺序进行排列，N为大于1的整数；所述处理单元603还用于执行：

分别从每个图像帧组中获取一个图像帧作为关键图像帧。

根据本申请的一个实施例，图1和图3所示的方法所涉及各个步骤可以是由图6所示的图像处理装置60中的各个单元来执行的。例如，图1所示的步骤S101可由图6所示的图像处理装置60中的获取单元601来执行；步骤S102至步骤S103均可由图6所示的图像处理装置60中的确定单元602来执行；步骤S104可由图6所示的图像处理装置60中的处理单元603来执行。再如，图3所示的步骤S301可由图6所示的图像处理装置60中的获取单元601来执行；步骤S302至步骤S304均可由图6所示的图像处理装置60中的处理单元603来执行；步骤S305至步骤S309均可由图6所示的图像处理装置60中的确定单元602来执行；步骤S310可由图6所示的图像处理装置60中的处理单元603来执行。

根据本申请的另一个实施例，图6所示的图像处理装置60中的各个单元是基于逻辑功能划分的，上述各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。在本申请的其它实施例中，上述基于图像处理装置60也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图1或图3所示的方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图6中所示的图像处理装置60，以及来实现本申请实施例的图像处理方法。所述计算机程序可以记载于例如计算机存储介质上，并通过计算机存储介质装载于上述计算设备中，并在其中运行。

在本申请中，图像处理装置通过在相邻的两个图像帧均包括文本内容时，基于文本特征判断两个图像帧之间相似关系，使得本申请提供的方法可以召回带有文本内容的关键图像帧；又由于图像处理装置在相邻的两个图像帧均不包括文本内容时，可以基于图像特征判断两个图像帧之间的相似关系，使得本申请兼顾了在图像帧仅包括图像内容的情况下，图像处理装置对两个图像帧之间的相似关系进行判定的情况，在一定程度上提升了图像处理装置对视频文件进行关键图像帧抽取时的准确率。

基于上述方法实施例以及装置实施例的相关描述，本申请实施例还提供了一种计算机设备，请参见图7。该计算机设备70至少包括处理器701和计算机存储介质702，且计算机设备70的处理器701和计算机存储介质702可通过总线或其他方式连接。

其中，上述提及的计算机存储介质702是计算机设备70中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质702既可以包括计算机设备70中的内置存储介质，当然也可以包括计算机设备70所支持的扩展存储介质。计算机存储介质702提供存储空间，该存储空间存储了计算机设备70的操作系统。并且，在该存储空间中还存放了适于被处理器701加载并执行的一条或多条的计算机程序，这些计算机程序可以是一个或一个以上的程序代码。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。所述处理器701(或称CPU(CentralProcessing Unit，中央处理器))是计算机设备70的计算核心以及控制核心，其适于实现一条或多条计算机程序，具体适于加载并执行一条或多条计算机程序从而实现相应方法流程或相应功能。

在一个实施例中，可由处理器701加载并执行计算机存储介质702中存放的一条或多条计算机程序，以实现上述有关图1和图3所示的方法实施例中的相应方法步骤；具体实现中，计算机存储介质702中的一条或多条计算机程序由处理器701加载并执行如下步骤：

在一种实施方式中，所述处理器701还用于加载并执行：

在又一种实施方式中，所述第一文本特征包括所述第一图像帧中文本框的第一数量，所述第二文本特征包括所述第二图像帧中文本框的第二数量，一个文本框用于表示一个文本显示区域，文本显示区域用于显示文本内容；所述处理器701还用于加载并执行：

在又一种实施方式中，所述第一文本特征还包括所述第一图像帧中文本框的第一位置信息，所述第二文本特征还包括所述第二图像帧中文本框的第二位置信息；所述处理器701还用于加载并执行：

在又一种实施方式中，所述第一文本特征还包括所述第一图像帧中文本框的第一文本内容，所述第二文本特征还包括所述第二图像帧中文本框的第二文本内容；所述处理器701还用于加载并执行：

在又一种实施方式中，所述处理器701还用于加载并执行：

将所述第一图像帧和所述第二图像帧调整为一致大小；

在又一种实施方式中，所述处理器701还用于加载并执行：

在又一种实施方式中，所述待处理视频包括N个图像帧，所述第一图像帧和所述第二图像帧属于所述N个图像帧，所述N个图像帧按照所述N个图像帧中每个图像帧在所述待处理视频中出现时间的先后顺序进行排列，N为大于1的整数；所述处理器701还用于加载并执行：

分别从每个图像帧组中获取一个图像帧作为关键图像帧。

在本申请中，计算机设备通过在相邻的两个图像帧均包括文本内容时，基于文本特征判断两个图像帧之间相似关系，使得本申请提供的方法可以召回带有文本内容的关键图像帧；又由于计算机设备在相邻的两个图像帧均不包括文本内容时，可以基于图像特征判断两个图像帧之间的相似关系，使得本申请兼顾了在图像帧仅包括图像内容的情况下，计算机设备对两个图像帧之间的相似关系进行判定的情况，在一定程度上提升了计算机设备对视频文件进行关键图像帧抽取时的准确率。

本申请还提供了一种计算机存储介质，该计算机存储介质中存储了上述图像处理方法的计算机程序，该计算机程序包括程序指令，当一个或多个处理器加载并执行该程序指令，可以实现实施例中对图像处理方法的描述，在此不再赘述。对采用相同方法的有益效果的描述，在此不再赘述。可以理解的是，程序指令可以被部署在一个或多个能够相互通信的设备上执行。

需要说明的是，根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备中的处理器从计算机可读存储介质读取该计算机指令，然后执行该计算机指令，进而使得该计算机设备能够执行上述图1和图3所示的图像处理方法实施例方面的各种可选方式中提供的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可存储于计算机可读取存储介质中，该计算机程序在执行时，可包括如上述图像处理方法的实施例的流程。其中，所述的计算机可读取存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请的局部实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或局部流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待处理视频中相邻的第一图像帧和第二图像帧；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述第一文本特征包括所述第一图像帧中文本框的第一数量，所述第二文本特征包括所述第二图像帧中文本框的第二数量，一个文本框用于表示一个文本显示区域，文本显示区域用于显示文本内容；所述基于所述第一图像帧的第一文本特征和所述第二图像帧的第二文本特征，确定所述第一图像帧和所述第二图像帧之间的相似关系，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一文本特征还包括所述第一图像帧中文本框的第一位置信息，所述第二文本特征还包括所述第二图像帧中文本框的第二位置信息；所述基于所述第一图像帧的第一文本特征和所述第二图像帧的第二文本特征，确定所述第一图像帧和所述第二图像帧之间的相似关系，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一文本特征还包括所述第一图像帧中文本框的第一文本内容，所述第二文本特征还包括所述第二图像帧中文本框的第二文本内容；所述基于所述第一图像帧的第一文本特征和所述第二图像帧的第二文本特征，确定所述第一图像帧和所述第二图像帧之间的相似关系，还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

将所述第一图像帧和所述第二图像帧调整为一致大小；

7.根据权利要求1所述的方法，其特征在于，所述基于所述第一图像帧的第一图像特征和所述第二图像帧的第二图像特征，确定所述第一图像帧和所述第二图像帧之间的相似关系，包括：

8.根据权利要求1所述的方法，其特征在于，所述待处理视频包括N个图像帧，所述第一图像帧和所述第二图像帧属于所述N个图像帧，所述N个图像帧按照所述N个图像帧中每个图像帧在所述待处理视频中出现时间的先后顺序进行排列，N为大于1的整数；所述方法还包括：

分别从每个图像帧组中获取一个图像帧作为关键图像帧。

9.一种图像处理装置，其特征在于，包括：

10.一种计算机设备，其特征在于，所述计算机设备包括：

处理器，适于实现一条或多条计算机程序；

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-8中任一项所述的图像处理方法。