CN114973293B

CN114973293B - 相似性判断方法、关键帧提取方法及装置、介质和设备

Info

Publication number: CN114973293B
Application number: CN202210642081.XA
Authority: CN
Inventors: 尹康
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2024-09-20
Anticipated expiration: 2042-06-08
Also published as: CN114973293A

Abstract

本公开提供一种相似性判断方法、相似性判断装置、关键帧提取方法、关键帧提取装置、计算机可读介质和电子设备，涉及图像处理技术领域。该方法包括：获取第一文档图像和第二文档图像；基于第一文档图像和第二文档图像计算相似参数，相似参数包括交并比参数；根据相似参数和对应的预设相似条件确定第一文档图像与第二文档图像的相似性。本公开通过计算表征第一文档图像和第二文档图像重合程度的交并比参数，可以有针对性的对文档图像进行相似性判断，避免了基于设计特征无法对文档图像进行相似性判断的问题。

Description

相似性判断方法、关键帧提取方法及装置、介质和设备

技术领域

本公开涉及图像处理技术领域，具体涉及一种相似性判断方法、相似性判断装置、关键帧提取方法、关键帧提取装置、计算机可读介质和电子设备。

背景技术

在相关技术中，对重复图像帧进行识别的方法主要有两大类。一类是基于神经网络进行的。通常需要通过大数据训练神经网络，训练结束后只需输入两张图像即可输出相似性的判断结果；另一类则主要依赖于人工设计特征，如直方图等计算两张图像间的相似性来判断是否相似。然而，上述第一类方法耗时较长，功耗较高，也无法应用到对实时性有较高要求的场景，第二类方法则主要针对常规图像进行重复识别，针对同一文档视频中不同帧的文档图像这种差距较小的视频帧，往往无法得到正确的判断结果。

发明内容

本公开的目的在于提供一种相似性判断方法、相似性判断装置、关键帧提取方法、关键帧提取装置、计算机可读介质和电子设备，进而至少在一定程度上避免了基于设计特征无法对同一文档视频中不同帧的文档图像进行相似性判断的问题。

根据本公开的第一方面，提供一种相似性判断方法，包括：获取第一文档图像和第二文档图像；基于第一文档图像和第二文档图像计算相似参数，相似参数包括交并比参数；根据相似参数和对应的预设相似条件确定第一文档图像与第二文档图像的相似性。

根据本公开的第二方面，提供一种关键帧提取方法，包括：在视频对应的视频帧序列中获取当前关键帧，对当前关键帧进行文档关键帧提取处理；其中，文档关键帧提取处理包括：在当前关键帧为文档帧时，确定当前关键帧为文档关键帧；获取视频帧序列对应的缓存序列，并在缓存序列为空序列时，将文档关键帧加入缓存序列；在缓存序列为非空序列时，获取缓存序列中的最后一个缓存关键帧作为文档关键帧对应的参考关键帧，并利用上述第一方面提供的相似性判断方法确定文档关键帧与参考关键帧的相似性；在文档关键帧与参考关键帧不相似时，在缓存序列中选择目标关键帧加入关键帧序列，并在清空缓存序列后，将文档关键帧加入缓存序列；在文档关键帧与参考关键帧相似时，将文档关键帧加入缓存序列；在视频帧序列中获取下一关键帧，并继续对下一关键帧进行文档关键帧提取处理，直至视频结束且视频帧序列为空，输出关键帧序列。

根据本公开的第三方面，提供一种相似性判断装置，包括：图像获取模块，用于获取第一文档图像和第二文档图像；参数计算模块，用于基于第一文档图像和第二文档图像计算相似参数，相似参数包括交并比参数；相似性判断模块，用于根据相似参数和对应的预设相似条件确定第一文档图像与第二文档图像的相似性。

根据本公开的第四方面，提供一种关键帧提取装置，包括：第一处理模块，用于在视频对应的视频帧序列中获取当前关键帧，对当前关键帧进行文档关键帧提取处理；其中，文档关键帧提取处理包括：在当前关键帧为文档帧时，确定当前关键帧为文档关键帧；获取视频帧序列对应的缓存序列，并在缓存序列为空序列时，将文档关键帧加入缓存序列；在缓存序列为非空序列时，获取缓存序列中的最后一个缓存关键帧作为文档关键帧对应的参考关键帧，并利用上述第一方面提供的相似性判断方法确定文档关键帧与参考关键帧的相似性；在文档关键帧与参考关键帧不相似时，在缓存序列中选择目标关键帧加入关键帧序列，并在清空缓存序列后，将文档关键帧加入缓存序列；在文档关键帧与参考关键帧相似时，将文档关键帧加入缓存序列；第二处理模块，用于在视频帧序列中获取下一关键帧，并继续对下一关键帧进行文档关键帧提取处理，直至视频结束且视频帧序列为空，输出关键帧序列。

根据本公开的第五方面，提供一种计算机可读介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的方法。

根据本公开的第六方面，提供一种电子设备，其特征在于，包括：处理器；以及存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的方法。

本公开的一种实施例所提供的相似性判断方法，通过计算第一文档图像和第二文档图像之间的交并比参数，可以得到第一文档图像和第二文档图像的重合程度，进而可以基于交并比参数和预设相似条件确定第一文档图像和第二文档图像的相似性。通过计算表征第一文档图像和第二文档图像重合程度的交并比参数，可以有针对性的对文档图像进行相似性判断，避免了基于设计特征无法对文档图像进行相似性判断的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的一种示例性系统架构的示意图；

图2示意性示出了两个文档图像；

图3示意性示出了对图2所示的两个文档图像进行尺寸归一化后的结果；

图4示意性示出了对图3所示尺寸归一化后的文档图像进行离散傅里叶变换后的结果；

图5示意性示出了两个PPT文档图像；

图6示意性示出本公开示例性实施例中一种相似性判断方法的流程图；

图7示意性示出本公开示例性实施例中一种计算交并比参数的方法的流程图；

图8示意性示出本公开示例性实施例中两个PPT文档图像；

图9示意性示出本公开示例性实施例中对图8所示的两个PPT文档图像进行二值化处理后得到的二值化图像；

图10示意性示出本公开示例性实施例中一种按位与处理的方法的流程图；

图11示意性示出本公开示例性实施例中两个PPT文档图像；

图12示意性示出本公开示例性实施例中对图11所示的两个PPT文档图像进行二值化处理和按位与处理得到的二值化图像和交集图像；

图13示意性示出本公开示例性实施例中对图8所示的两个PPT文档图像进行二值化处理和按位与处理得到的二值化图像和交集图像；

图14示意性示出本公开示例性实施例中另外两个文档图像；

图15示意性示出本公开示例性实施例中对图14所示的两个文档图像进行边缘检测得到的边缘检测结果图；

图16示意性示出本公开示例性实施例中一种计算特征匹配参数的方法的流程图；

图17示意性示出本公开示例性实施例中一种关键帧提取方法的流程图；

图18示意性示出本公开示例性实施例中对图8所示的两个缓存关键帧进行边缘检测得到的边缘检测结果图；

图19示意性示出本公开示例性实施例中另一种关键帧提取方法的流程图；

图20示意性示出本公开示例性实施例中相似性判断装置的组成示意图；

图21示意性示出本公开示例性实施例中关键帧提取装置的组成示意图；

图22示出了可以应用本公开实施例的一种电子设备的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了系统架构的示意图，该系统架构100可以包括终端110 与服务器120。其中，终端110可以是智能手机、平板电脑、台式电脑、笔记本电脑等终端设备，服务器120泛指提供本示例性实施方式中相似性判断或关键帧提取的相关服务的后台系统，可以是一台服务器或多台服务器形成的集群。终端110与服务器120之间可以通过有线或无线的通信链路形成连接，以进行数据交互。

在一种实施方式中，可以由终端110执行上述相似性判断方法或关键帧提取方法。例如，用户使用终端110拍摄文档图像，或者在终端110 的相册中选取文档图像后，由终端110对文档图像的相似性进行判断；再如，用户使用终端110拍摄视频，或者在终端110的相册中选取视频后，由终端110对视频进行关键帧提取。

在一种实施方式中，可以由服务器120可以执行上述相似性判断方法或关键帧提取方法。例如，用户使用终端110拍摄文档图像，或者在终端110的相册中选取文档图像后，终端110将文档图像上传至服务器 120，由服务器120对文档图像的相似性进行判断，并向终端110返回判断结果；再如，用户使用终端110拍摄视频，或者在终端110的相册中选取视频后，终端110将视频上传至服务器120，由服务器120对视频进行关键帧提取处理，并向终端110返回提取的关键帧。

由上可知，本示例性实施方式中的相似性判断方法或关键帧提取方法的执行主体可以是上述终端110或服务器120，本公开对此不做限定。

线上会议因其可以远程进行，可以无线下接触等优点成为人们工作、学习的必要选项。线上会议通常需要演讲者放映文档并进行讲解，以便其他与会人员理解。为了便于与会人员记录或者回顾会议，可以通过提取放映的文档并去除其中的重复部分，从而自动生成会议摘要。为了实现上述自动生成会议摘要目的，往往需要对视频帧进行重复帧识别。

相关依赖于人工设计特征计算两张图像间的相似性来判断是否相似的技术方案通常针对常规图像进行重复识别，针对同一文档视频中不同帧的文档图像这种差距较小的视频帧，往往无法得到正确的判断结果。

例如，参照图2、图3和图4所示，在通过感知哈希距离对如图2 所示两个存在较大区别的文档图像进行相似度判断时，在将尺寸归一化到32像素×32像素后(感知哈希距离算法的中间步骤)，差距已经较小 (如图3所示)；在进行离散傅里叶变换后已经变得完全相同(如图4所示)，因此它们的感知哈希距离为0，即两个文档图像的是相似的，但这显然是错误的。

再如，在针对动画类的幻灯片演示文稿(PowerPoint，PPT)对应的图像进行相似性判断时，常规的判断方式一般会认为图5所示的两张PPT 图像不相似，但在PPT演讲场景中，更合理的处理是人为两张PPT图像相似，并保留包含元素较多的PPT图像。

基于上述一个或多个问题，本示例实施方式提供了一种相似性判断方法，该相似性判断方法可以应用于文档图像的相似性判断场景中。参照图6所示，该相似性判断方法可以包括以下步骤S610至S630：

在步骤S610中，获取第一文档图像和第二文档图像。

其中，文档图像通常指包含较多文字、符号等相似性较高元素的图像。例如，电子书图像、文献图像、包含较多文字的网页图像、幻灯片演示文稿等。

在一示例性实施例中，第一文档图像和第二文档图像可以是用户通过终端设备带有的摄像头拍摄的文档图像；第一文档图像和第二文档图像也可以是用户在终端设备的相册中选择的文档图像；还可以是一个文档图像是用户通过终端设备带有的摄像头拍摄得到的，另一个文档图像是用户在终端设备的相册中选择得到的，本公开对此不做特殊限定。

在步骤S620中，基于第一文档图像和第二文档图像计算相似参数。

其中，相似参数包括交并比参数。交并比参数可以包括用于表示第一文档图像和第二文档图像的重合程度的参数。例如，第一文档图像和第二文档图像的交集和并集的比值；再如，第一文档图像和第二文档图像的交集占第一文档图像或第二文档图像比例。

在步骤S630中，根据相似参数和对应的预设相似条件确定第一文档图像与第二文档图像的相似性。

其中，相似性参数与预设相似条件相互对应。即针对每种相似性参数，可以设置对应的预设相似性条件，以确定第一文档图像和第二文档图像的相似性。

在一示例性实施例中，在基于第一文档图像和第二文档图像计算交并比参数时，参照图7所示，可以包括步骤S710至步骤S730：

在步骤S710中，基于灰度阈值对第一文档图像进行二值化处理得到第一二值图像，并基于灰度阈值对第二文档图像进行二值化处理得到第二二值图像。

由于文档图像中最主要的内容通常为文字或符号等元素所表征意思，对于文字或符号等元素的颜色等属性的关注度不高，因此可以通过二值化处理去除元素的颜色等属性信息。为了保证对第一文档图像和第二文档图像中灰度相同的像素做同样的处理，以更好的比较第一文档图像和第二文档图像，可以采用相同的灰度阈值进行二值化处理，分别得的第一二值图像和第二二值图像。例如，针对如图8所示的两个PPT文档图像进行二值化处理后，可以分别得到如图9所示的两个二值化图像。

在步骤S720中，分别对第一二值图像和第二二值图像进行尺寸归一化，并对尺寸归一化后的第一二值图像和尺寸归一化后的第二二值图像进行按位与处理，得到交集图像。

由于按位与处理需要两个图像中像素能够一一对应，因此在机械能按位与处理之前，可以先对第一二值图像和第二二值图像进行尺寸归一化。其中，尺寸归一化处理是指将第一二值图像和第二二值图像转换为相同尺寸(像素) 的图像。例如，可以将第一二值图像的尺寸转换为与第二二值图像的尺寸一致；又如，可以将第二二值图像的尺寸转换为与第一二值图像的尺寸一致；再如，还可以将第一二值图像和第二二值图像转换至相同的尺寸，本公开对此不做特殊限定。需要说明的是，在进行尺寸归一化时，可以采用插值等方式进行尺寸变换，例如可以采用最邻近采样的插值算法。

在一示例性实施例中，在对尺寸归一化后的第一二值图像和尺寸归一化后的第二二值图像进行按位与处理，得到交集图像时，参照图10所示，可以包括步骤S1010至S1030：

步骤1010，获取第一二值图像中目标像素坐标对应的第一灰度值和第二二值图像中目标像素坐标对应的第二灰度值。

步骤S1020，在第一灰度值与第二灰度值均等于第一预设值时，确定交集图像中目标像素坐标对应的取值为第一预设值。

步骤S1030，在第一灰度值与第二灰度值不相等，或者第一灰度值与第二灰度值均等于第二预设值时，确定交集图像中目标像素坐标的取值为第二预设值。

其中，第一预设值和第二预设值分别为二值化后各像素可能出现的两种取值；第一预设值表征的灰度相对第二预设值表征的灰度更高。

在一示例性实施例中，在进行按位与处理时，可以先获取第一二值图像和第二二值图像中像素坐标相同的目标像素坐标对应的第一灰度值和第二灰度值，然后判断第一灰度值和第二灰度值是否均与第一预设值相等。

在第一灰度值和第二灰度值均等于第一预设值时，由于第一预设值表征的灰度相对第二预设值表征的灰度更高，可以表征目标像素坐标对应的目标像素均存在元素，因此可以设置交集图像中像素坐标对应的取值为第一预设值，表征目标像素坐标对应的目标像素相似，即为交集像素；在第一灰度值与第二灰度值不相等时，可以表征目标像素坐标对应的目标像素一个存在元素，一个不存在元素，因此可以设置交集图像中目标像素坐标对应的取值为第二预设值，表征目标像素坐标对应的目标像素不相似，即不是交集像素；在第一灰度值与第二灰度值均等于第二预设值时，可以表征目标像素坐标对应的目标像素均不存在元素，因此可以设置交集图像中像素坐标对应的取值为第二预设值，表征无需比较是否相似，不在计算交集的范围内。

例如，假设对第一文档图像F1和第二文档图像F2进行二值化处理过时，将灰度值大于灰度阈值的像素被设置为1，灰度值小于灰度阈值的像素被设置为0，得到第一二值图像B1和第二二值图像B2。此时，针对目标像素坐标为(i，j)的目标像素，若B1(i，j)＝B2(i，j)＝1，则确定交集图像M对应的M(i，j)＝1；否则确定交集图像M对应的M(i，j)＝0。例如，针对如图11的两个PPT文档图像进行二值化处理后和按位与处理后，可以得到如图12所示的二值化图像和交集图像。

在步骤S730中，基于第一二值图像、第二二值图像和交集图像计算交并比参数。

在一示例性实施例中，在交并比参数为表征第一文档图像和第二文档图像的交集和并集的比值的第一交并比参数时，可以先分别统计第一二值图像和第二二值图像中取值为第一预设值的像素总数，得到第一像素数量和第二像素数量，并统计交集图像中像素值等于第一预设值的交集像素数量，然后基于第一像素数量、第二像素数量和交集像素数量计算并集像素数量，之后直接计算交集像素数量与并集像素数量的比值，得到第一交并比参数。

其中，基于交集和并集的定义可知，并集像素数量可以通过以下方式计算：先计算第一像素数量和第二像素数量之和，然后用第一像素数量和第二像素数量之和扣除交集像素数量即可。

对应的，在交并比参数为表征第一文档图像和第二文档图像的交集和并集的比值的第一交并比参数时，预设相似条件可以包括第一交并比阈值。此时，可以根据第一交并比参数与第一交并比阈值之间的大小关系判断第一文档图像和第二文档图像的相似性。

具体的，在第一交并比参数大于第一交并比阈值时，确定第一文档图像和第二文档图像相似。其中，第一交并比阈值可以根据不同的文档图像的类型以及具体的应用场景进行设置，例如可以设置为0.93、0.95、0.96等，本公开对此不做特殊限定。优选的，可以将第一交并比阈值设置为0.95，以保证确定文档图像相似性的结果的准确性。

通过第一交并比参数可以表征第一文档图像和第二文档图像的交集和并集的比值，此时第一交并比参数越大，表征第一文档图像和第二文档图像的重合程度越高，因此可以通过设置第一交并比阈值，确定重合程度较高的第一文档图像和第二文档图像相似。

在一示例性实施例中，在交并比参数为表征第一文档图像和第二文档图像的交集占第一文档图像比例的第二交并比参数时，或者在交并比参数为表征第一文档图像和第二文档图像的交集占第二文档图像比例的第二交并比参数时，可以先统计交集图像中像素值等于第一预设值的交集像素数量；然后计算交集像素数量与总像数量的比值，得到第二交并比参数。其中，总像素数量为第一二值图像包含的像素数量或第二二值图像包含的像素数量。

对应的，在交并比参数为表征第一文档图像和第二文档图像的交集占第一文档图像比例的第二交并比参数时，或者在交并比参数为表征第一文档图像和第二文档图像的交集占第二文档图像比例的第二交并比参数时，预设相似条件可以包括第二交并比阈值。此时，可以根据第二交并比参数与第二交并比阈值之间的大小关系判断第一文档图像和第二文档图像的相似性。

具体的，在第二交并比参数大于第二交并比阈值时，确定第一文档图像和第二文档图像相似。其中，第二交并比阈值也可以根据不同的文档图像的类型以及具体的应用场景进行设置，例如可以设置为0.93、0.95、0.96等，本公开对此不做特殊限定。优选的，可以将第二交并比阈值设置为0.95，以保证确定文档图像相似性的结果的准确性。

通过第二交并比参数可以表征第一文档图像和第二文档图像的交集占第一文档图像或第二文档图像比例，此时第二交并比参数越大，表征第一文档图像和第二文档图像的重合部分与第一文档图像或第二文档图像的一致性越高，即可以说明第一文档图像和第二文档图像之间存在一个图像是在另一图像的基础上增加元素的关系，如图8所示。基于文档图像的特性，这种一个图像是在另一图像的基础上增加元素的关系应判断为相似。因此可以通过设置第二交并比阈值，确定一致性较高的第一文档图像和第二文档图像相似。例如，针对如图8的两个PPT文档图像进行二值化处理后和按位与处理后，可以得到如图13所示的二值化图像和交集图像，基于第二交并比参数可以确定图8所示的两个PPT文档图像为相似图像。

在一示例性实施例中，可以根据文档图像的尺寸是否相似来确定第一文档图像和第二文档图像的相似性。具体的，在线上会议等场景中，通常视频包含的每一帧视频的尺寸基本一致，因此还可以通过尺寸是否一致来确定文档图像的相似性。

基于此，在一示例性实施例中，相似参数还可以包括尺寸比参数。具体的，可以先计算第一文档图像对应的第一长宽比，以及第二文档图像对应的第二长宽比，之后比较第一长宽比和第二长宽比的大小关系，将较大者确定为最大长宽比，较小者确定为最小长宽比，然后计算最小长宽比和最大长宽比的比值，确定为尺寸比参数。

对应的，在相似参数包括尺寸比参数时，可以针对尺寸比参数设置预设相似条件，即尺寸比阈值。此时，在尺寸比参数小于或等于尺寸比阈值时，确定第一文档图像和第二文档图像不相似。需要说明的是，在线上会议等场景中，通常视频包含的每一帧视频的尺寸基本一致，因此当尺寸比参数小于或等于尺寸比阈值时，可以确定第一文档图像和第二文档图像不相似；但是当尺寸比参数大于尺寸比阈值时，第一文档图像和第二文档图像未必相似。其中，尺寸比阈值也可以根据不同的文档图像的类型以及具体的应用场景进行设置，例如可以设置为0.75、0.8、0.85等，本公开对此不做特殊限定。优选的，可以将尺寸比阈值设置为0.8，以保证确定文档图像相似性的结果的准确性。

此外，在一些实施例中，针对尺寸是否相似还可以设置其它的参数，以判断第一文档图像和第二文档图像是否相似，本公开对此不做特殊限制。例如，可以分别针对文档图像的长和宽设置对应的阈值，在第一文档图像的长和第二文档图像的长的差值小于或等于对应阈值，且第一文档图像的宽和第二文档图像的宽的差值小于或等于对应阈值时，确定第一文档图像和第二文档图像不相似。

在一示例性实施例中，可以根据文档图像的哈希距离来确定第一文档图像和第二文档图像的相似性。具体的，针对常规图像，哈希算法可以针对每张图像生成一个对应的字符串，计算对应字符串之间的距离，即可得到图像是否相似。但是如上述文档图像的特殊性，哈希算法计算得到的距离越小，并不能表征文档图像相似，但是显而易见的，当通过哈希算法计算得到的距离较大时，可以表征文档图像不相似。其中，哈希算法可以包括平均哈希算法、感知哈希算法、差异哈希算法等，本公开对此不做特殊限定。

基于此，在一示例性实施例中，相似参数还可以包括哈希距离参数，对应的，预设相似条件可以包括哈希距离阈值。此时，在哈希距离参数大于哈希距离阈值时，可以确定第一文档图像和第二文档图像不相似。其中，哈希距离阈值可以根据不同哈希算法、不同的文档图像的类型以及具体的应用场景进行设置。例如，针对感知哈希算法，可以将哈希距离阈值设置为 14、15、16等，本公开对此不做特殊限定。优选的，在采用感知哈希算法时，可以将哈希距离阈值设置为15，以保证确定文档图像相似性的结果的准确性。

在一示例性实施例中，可以根据文档图像中前景分布的分布差异是否一致来确定第一文档图像和第二文档图像的相似性。具体的，在文档图像中，通常背景都为纯色背景，例如文献的背景通常为白色。因此，可以通过前景分布的差异来确定文档图像的相似性。其中，前景可以包括纯色背景以外的所有内容。

基于此，在一示例性实施例中，相似参数还可以包括边缘检测参数。具体的，可以先分别对第一文档图像和第二文档图像进行边缘检测，对应得到第一边缘检测结果图和第二边缘检测结果图，然后分别计算第一边缘检测结果图对应的第一标准差和第二边缘检测结果图对应的第二标准差，之后将第一标准差和第二标准差之间差值的绝对值作为边缘检测参数。其中，对第一文档图像和第二文档图像进行边缘检测时，可以采用各种边缘检测算法进行边缘检测，例如拉普拉斯算法、基于小波的图像边缘检测算法等，本公开对此不做特殊限定。例如，对图14的文档图像进行边缘检测，可以分别得到如图15所示的边缘检测结果图。

对应的，在相似参数包括边缘检测参数时，预设相似条件可以包括边缘检测参数阈值。此时，在边缘检测参数大于边缘检测参数阈值时，确定第一文档图像和第二文档图像不相似。由于边缘检测结果图对应的标准差之差，可以表征图像前景分布的差异程度，因此在边缘检测参数大于边缘检测参数阈值时，可以确定第一文档图像和第二文档图像不相似。其中，边缘检测参数阈值可以根据不同的边缘检测算法、不同的文档图像的类型以及具体的应用场景进行设置，例如可以设置为14、15、16等，本公开对此不做特殊限定。优选的，在采用拉普拉斯算法进行边缘检测时，可以将边缘检测参数阈值设置为15，以保证确定文档图像相似性的结果的准确性。

在一示例性实施例中，还可以根据文档图像中的关键点的一致程度确定第一文档图像和第二文档图像的相似性。因此相似参数还可以包括特征匹配参数。

在一示例性实施例中，在基于第一文档图像和第二文档图像计算特征匹配参数时，参照图16所示，可以包括步骤S1610至步骤S1630：

步骤S1610，在第一文档图像中提取第一图像关键点，并在第二文档图像中提取第二图像关键点；

步骤S1620，对第一图像关键点和第二图像关键点进行特征点匹配，得到匹配点对；

步骤S1630，基于匹配点对计算特征匹配参数。

在一示例性实施例中，关键点的一致程度可以根据关键点是否匹配进行判断。基于此，可以分别提取第一文档图像和第二文档图对应的第一图像关键点和第二图像关键点，然后对第一图像关键点和第二图像关键点进行特征点配，得到相互匹配的匹配点对，然后基于匹配点对去确定关键点的一致程度。其中，在进行关键点提取时，可以通过各种关键点提取算法进行提取，本公开对此不做特殊限定。例如可以采用ORB(Oriented FAST andRotated BRIEF)算法进行关键点提取。

在一示例性实施例中，在特征匹配参数包括表征匹配成功率的匹配点占比时，可以先分别统计第一图像关键点对应的第一关键点数量、第二图像关键点对应的第二关键点数量，以及匹配点对对应的匹配点对数量，然后比较第一关键点数量和第二关键点数量的大小，取其中较小者作为最小关键点数量，并计算匹配点对数量和最小关键点数量的比值，得到匹配点占比。

对应的，在特征匹配参数为表征匹配成功率的匹配点占比时，预设相似条件可以包括匹配点占比阈值。此时可以根据匹配点占比与匹配点占比阈值的大小关系判断第一文档图像和第二文档图像的相似性。具体的，在匹配点占比小于匹配点占比阈值时，确定第一文档图像和第二文档图像不相似。其中，匹配点占比阈值可以根据不同关键点提取算法、不同的文档图像的类型以及具体的应用场景进行设置，例如可以设置为0.4、0.45、0.5等，本公开对此不做特殊限定。优选的，在采用ORB算法进行关键点提取时，可以将匹配点占比阈值设置为0.45，以保证确定文档图像相似性的结果的准确性。

通过匹配点占比可以表征第一文档图像和第二文档图像中关键点的匹配成功率，此时匹配成功率越低，表征第一文档图像和第二文档图像的关键点越不匹配，因此可以通过设置匹配点占比阈值，确定匹配成功率较低的第一文档图像和第二文档图像不相似。

在一示例性实施例中，在特征匹配参数包括表征匹配点对中有效匹配点对的有效匹配占比时，可以先基于匹配角聚类的方式在匹配点对中确定匹配角总数，即有效匹配点对数量，然后计算匹配角总数和匹配点对数量的比值，得到有效匹配占比。具体的，可以针对每个匹配点对计算对应的匹配角，并对匹配角进行聚类得到N个聚类集合，之后按照聚类集合中包括的匹配角数量由大到小的顺序对N个聚类集合进行排序，并统计前K个聚类集合中包含的匹配角的匹配角总数；统计匹配点对的总对数，即匹配点对数量，并计算匹配角总数和匹配点对数量的比值，得到有效匹配占比。

其中，计算匹配角是可以通过以下公式(1)至公式(4)进行计算：

x＝x2-x1 公式(1)

y＝y2-y1 公式(2)

其中，(x1，y1)和(x2，y2)分别表示一对匹配点对中的第一图像关键点和第二图像关键点。

对应的，在特征匹配参数为表征匹配点对中有效匹配点对的有效匹配占比时，预设相似条件可以包括有效匹配占比阈值。此时可以根据有效匹配占比和有效匹配占比阈值的大小关系判断第一文档图像和第二文档图像的相似性。具体的，在有效匹配占比小于有效匹配占比阈值时，确定第一文档图像和第二文档图像不相似。

其中，K的取值和有效匹配占比阈值也可以根据不同关键点提取算法、聚类算法、不同的文档图像的类型以及具体的应用场景进行设置，例如可以设置K的取值为2、3、4等，可以设置有效匹配占比阈值为0.4、0.45、0.5 等，本公开对此不做特殊限定。优选的，在采用ORB算法进行关键点提取，采用DBSCAN(Density-Based Spatial Clustering ofApplications with Noise) 算法进行聚类时，可以将K的取值设置为3，将有效匹配占比阈值设置为 0.45，以保证确定文档图像相似性的结果的准确性。

由于文档图像中通常包含较多的文字、字母、字符等元素，而文字、字母、字符等元素的相似性通常比较高，因此出现无效的错误匹配的情况很多。此时有效匹配占比越低，表明匹配对中无效的错误匹配越多，即表征第一文档图像和第二文档图像的关键点越不匹配，因此可以通过设置有效匹配占比阈值，确定有效匹配占比较低的第一文档图像和第二文档图像不相似。

需要说明的是，若相似参数包含多种类型的相似参数，则在输出第一文档图像和第二文档图像的相似性时，只有在基于各个相似参数确定的相似性结果不矛盾时，才可以输出第一文档图像和第二文档图像相似的结果，否则将输出第一文档图像和第二文档图像不相似的结果。例如，在相似参数同时包括交并比参数和尺寸比参数，若基于交并比参数确定第一文档图像和第二文档图像相似，但基于尺寸比参数确定第一文档图像和第二文档图像不相似，即基于交并比参数和尺寸比参数确定的相似性结果矛盾，则需输出第一文档图像和第二文档图像不相似的结果；反之，若基于交并比参数确定第一文档图像和第二文档图像相似，且基于尺寸比参数无法确定第一文档图像和第二文档图像不相似，则可以输出第一文档图像和第二文档图像相似的结果。

此外，由于文档图像的特殊性，使得每个相似参数只能可靠的确定一个结果。例如，针对第一交并比参数，在第一交并比参数大于第一交并比阈值时，只能可靠的确定第一文档图像和第二文档图像相似，但无法可靠的确定第一交并比参数小于或等于第一交并比阈值时，第一文档图像和第二文档图像不相似。

基于此，在一示例性实施例中，可能出现基于多种相似参数无法确定第一文档图像和第二文档图像相似性的情况。由于通常情况下计算代价越高的参数往往可靠性更高，因此可以提前根据各相似参数的计算代价进行排序，并输出与计算代价最高的相似参数能够可靠确定结果相反的结果。例如，在相似参数同时包括交并比参数和尺寸比参数，且基于计算代价确定交并比参数的计算代价最高。此时，若根据尺寸比参数无法确定第一文档图像和第二文档图像不相似，且基于交并比参数无法确定第一文档图像和第二文档图像相似时，由于交并比参数的计算代价最高，因此需要输出不相似的结果(在交并比参数只能可靠确定相似这一个结果的情况下)。

以下以相似参数同时包括第一交并比参数、第二交并比参数、尺寸比参数、哈希距离参数、边缘检测参数、匹配点占比参数和有效匹配占比参数为例，对本公开的实施例进行详细阐述。

假设根据计算代价由低到高确定相似参数的排序为：尺寸比参数、哈希距离参数、边缘检测参数、第一交并比参数、第二交并比参数、匹配点占比参数、有效匹配占比参数，为了降低确定相似性的计算代价，以及便于在基于多种相似参数无法确定第一文档图像和第二文档图像相似性的情况下输出结果，可以按照计算代价由低到高的顺序，依次根据相似参数确定第一文档图像和第二文档图像的相似性。

具体的，针对第一文档图像A和第二文档图像B进行相似性判断时，先计算尺寸比参数，在尺寸比参数小于或等于尺寸比阈值时，确定第一文档图像和第二文档图像不相似；否则，计算哈希距离参数，在哈希距离参数大于哈希距离阈值，确定第一文档图像和第二文档图像不相似；否则，计算边缘检测参数，在边缘检测参数大于边缘检测参数阈值时，确定第一文档图像和第二文档图像不相似；否则，计算第一交并比参数，在第一交并比参数大于第一交并比阈值时，确定第一文档图像和第二文档图像相似；否则，计算第二交并比参数，在第二交并比参数大于第二交并比阈值时，确定第一文档图像和第二文档图像相似；否则，计算匹配点占比参数，在匹配点占比小于匹配点占比阈值时，确定第一文档图像和第二文档图像不相似；否则，计算有效匹配占比，在有效匹配占比小于有效匹配占比阈值时，确定第一文档图像和第二文档图像不相似；否则，确定第一文档图像和第二文档图像相似。

综上，本示例性实施方式中，基于多种相似参数串行的判断方法，能够有效的识别出相似的文档图像。一方面，将常规场景中用于判断相似的哈希距离参数变更为针对文档图像用于判断不相似的度量，并加入边缘加测参数作为辅助判断；另一方面，通过二值图像的交并比参数计算、匹配点占比参数和有效匹配占比参数逐级判断，大大增强了对相似文档帧的识别效果。

本示例实施方式还提供了一种关键帧提取方法，该关键帧提取方法可以应用于对视频中包含的文档帧进行关键帧提取的场景中。参照图17 所示，该关键帧提取方法可以包括以下步骤S1710和S1720：

在步骤S1710中，在视频对应的视频帧序列中获取当前关键帧，对当前关键帧进行文档关键帧提取处理。

在步骤S1720中，在视频帧序列中获取下一关键帧，并继续对下一关键帧进行文档关键帧提取处理，直至视频结束且视频帧序列为空，输出关键帧序列。

其中，视频对应的视频帧序列可以是基于预先设定的抽帧规则在视频中进行抽帧得到的序列。其中，抽帧规则可以包括抽帧间隔M。具体的，可以每隔M秒在视频中抽取一帧加入视频帧序列，然后按照视频帧序列中的顺序依次获取当前关键帧和下一关键帧，直至视频结束无法继续抽帧，且视频帧序列为空无法继续获取关键帧。

其中，文档关键帧提取处理可以包括以下步骤：在当前关键帧为文档帧时，确定当前关键帧为文档关键帧；获取视频帧序列对应的缓存序列，并在缓存序列为空序列时，将文档关键帧加入缓存序列；在缓存序列为非空序列时，获取缓存序列中的最后一个缓存关键帧作为文档关键帧对应的参考关键帧，并利用上述相似性判断方法确定文档关键帧与参考关键帧的相似性；在文档关键帧与参考关键帧不相似时，在缓存序列中选择目标关键帧加入关键帧序列，并在清空缓存序列后，将文档关键帧加入缓存序列；在文档关键帧与参考关键帧相似时，将文档关键帧加入缓存序列。

其中，在进行相似性判断时，可以将文档关键帧与参考关键帧分别作为上述相似性判断方法中的第一文档图像和第二文档图像进行相思象判断即可。

需要说明的是，上述视频帧序列、缓存序列和关键帧序列均为有次序的序列，在将视频帧、文档关键帧或目标关键帧加入序列时，因按照加入序列的时间对视频帧、文档关键帧或目标关键帧进行排序，以保证视频帧、文档关键帧或目标关键帧是按照在视频中的前后顺序排列的。

在一示例性实施例中，在进行文档关键帧提取处理的过程中，经过相似性判断并加入缓存序列中的缓存关键帧，在该缓存序列被清空之前，这个缓存序列中的缓存关键帧之间均是相似关系。此时，基于文档图像的特殊性，需要在具有相似关系的缓存关键帧中选择画面最清晰，且画面包含的元素最丰富的缓存关键帧作为目标关键帧。

因此可以基于能够表征画面清晰程度和画面包含元素丰富程度的边缘检测结果图对应的方差确定目标关键帧。具体的，可以针对缓存序列中的每一个缓存关键帧进行边缘检测得到对应的边缘检测结果图，然后针对每个边缘检测结果图进行方差计算，并将方差最大的边缘检测结果图对应的缓存关键帧确定为目标关键帧。例如，对图8所示的两个缓存关键帧进行边缘检测，可以得到如图18所示的边缘检测结果图，对其进行方差计算，可以得到对应的方差分别为21.0和29.6，即应确定29.6对应的缓存关键帧为目标关键帧，并将该帧加入关键帧序列中。

其中，对缓存序列中的缓存关键帧进行边缘检测时，可以采用各种边缘检测算法进行边缘检测，例如拉普拉斯算法、基于小波的图像边缘检测算法等，本公开对此不做特殊限定。

通过计算边缘检测结果图对应的方差，可以表征缓存关键帧中边缘的数量和清晰度。具体的，边缘检测结果图对应的方差越大，说明缓存关键帧中的边缘越多，图像越清晰，即缓存关键帧越清晰或越锐利，且元素越丰富，因此可以通过边缘检测结果图对应的方差，针对文档图像的特殊性，选择画面最清晰，元素最丰富的文档图像作为目标关键帧加入关键帧序列。

以下参照图19所示，对本公开实施例的技术方案进行详细阐述：

步骤S1901，初始化关键帧序列和缓存序列；

步骤S1903，获取视频对应的视频流数据；

步骤S1905，判断视频是否结束；

步骤S1907，在视频结束时，输出关键帧序列；

步骤S1909，每隔M秒抽取一帧作为当前关键帧(下一关键帧)；

步骤S1911，对当前关键帧进行文档检测，判断当前关键帧是否为文档帧；在当前关键帧不是文档帧时，返回步骤S1905；

具体的，判断当前关键帧中是否包含文档，在当前关键帧包含文档时，确定当前关键帧为文档帧；否则，当前关键帧不是文档帧；

步骤S1913，在当前关键帧是文档帧时，确定当前关键帧为文档关键帧，并判断缓存序列是否为空；

步骤S1915，在缓存序列为非空序列时，获取缓存序列中的最后一个缓存关键帧作为该文档关键帧对应的参考关键帧；

步骤S1917，确定文档关键帧与参考关键帧的相似性；

步骤S1919，在文档关键帧与参考关键帧不相似时，在缓存序列中选择目标关键帧加入关键帧序列；

步骤S1921，清空缓存序列；

步骤S1923，在缓存序列为空时，或者在文档关键帧与参考关键帧相似时，或者在清空缓存序列之后，将文档关键帧加入缓存序列中，并并返回步骤S1905。

上述方法中确定文档关键帧与参考关键帧的相似性的步骤在相似性判断方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

综上，本示例性实施方式中，在判断文档图像相似的基础上，可以有效识别视频中的相似文档图像(缓存序列)，并基于边缘检测结果图的方差在相似文档图像中提取最清晰、元素最丰富的代表帧(目标关键帧)，针对线上视频会议等视频中包含大量文档图像的场景中，能够自动分析视频数据，结合文档检测技术，可以实现在视频数据中提取关键帧，智能化的生成会议摘要(关键帧序列)的目的，提升了用户体验。

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图20所示，本公开的示例性实施方式中提供一种相似性判断装置2000，包括图像获取模块2010、参数计算模块2020和相似性判断模块2030。其中：

图像获取模块2010可以用于获取第一文档图像和第二文档图像。

参数计算模块2020可以用于基于第一文档图像和第二文档图像计算相似参数；相似参数包括交并比参数。

相似性判断模块2030可以用于根据相似参数和对应的预设相似条件确定第一文档图像与第二文档图像的相似性。

在一示例性实施例中，参数计算模块2020可以用于基于灰度阈值对第一文档图像进行二值化处理得到第一二值图像，并基于灰度阈值对第二文档图像进行二值化处理得到第二二值图像；分别对第一二值图像和第二二值图像进行尺寸归一化，并对尺寸归一化后的第一二值图像和尺寸归一化后的第二二值图像进行按位与处理，得到交集图像；基于第一二值图像、第二二值图像和交集图像计算交并比参数。

在一示例性实施例中，参数计算模块2020可以用于获取第一二值图像中目标像素坐标对应的第一灰度值和第二二值图像中目标像素坐标对应的第二灰度值；在第一灰度值与第二灰度值均等于第一预设值时，确定交集图像中目标像素坐标对应的取值为第一预设值；在第一灰度值与第二灰度值不相等，或者第一灰度值与第二灰度值均等于第二预设值时，确定交集图像中目标像素坐标的取值为第二预设值。

在一示例性实施例中，参数计算模块2020可以用于统计第一二值图像中像素值等于第一预设值的第一像素数量，第二二值图像中像素值等于第一预设值的第二像素数量，和交集图像中像素值等于第一预设值的交集像素数量；基于第一像素数量、第二像素数量和交集像素数量计算并集像素数量；计算交集像素数量与并集像素数量的比值，得到第一交并比参数。

对应的，相似性判断模块2030可以用于在第一交并比参数大于第一交并比阈值时，确定第一文档图像和第二文档图像相似。

在一示例性实施例中，参数计算模块2020可以用于统计交集图像中像素值等于第一预设值的交集像素数量；计算交集像素数量与总像数量的比值，得到第二交并比参数；总像素数量为第一二值图像包含的像素数量或第二二值图像包含的像素数量。

对应的，相似性判断模块2030可以用于在第二交并比参数大于第二交并比阈值时，确定第一文档图像和第二文档图像相似。

在一示例性实施例中，参数计算模块2020可以用于计算第一文档图像对应的第一长宽比和第二文档图像对应的第二长宽比；在第一长宽比和第二长宽比中确定最大长宽比和最小长宽比，并计算最小长宽比和最大长宽比的比值，得到尺寸比参数。

对应的，相似性判断模块2030可以用于在尺寸比参数小于或等于尺寸比阈值时，确定第一文档图像和第二文档图像不相似。

在一示例性实施例中，相似性判断模块2030可以用于在哈希距离参数大于哈希距离阈值，确定第一文档图像和第二文档图像不相似。

在一示例性实施例中，参数计算模块2020可以用于对第一文档图像进行边缘检测得到第一边缘检测结果图，并对第二文档图像进行边缘检测得到第二边缘检测结果图；计算第一边缘检测结果图对应的第一标准差和第二边缘检测结果图对应的第二标准差；计算第一标准差和第二标准差差值的绝对值，得到边缘检测参数。

对应的，相似性判断模块2030可以用于在边缘检测参数大于边缘检测参数阈值时，确定第一文档图像和第二文档图像不相似。

在一示例性实施例中，参数计算模块2020可以用于在第一文档图像中提取第一图像关键点，并在第二文档图像中提取第二图像关键点；对第一图像关键点和第二图像关键点进行特征点匹配，得到匹配点对；基于匹配点对计算特征匹配参数。

在一示例性实施例中，参数计算模块2020可以用于统计第一图像关键点对应的第一关键点数量、第二图像关键点对应的第二关键点数量和匹配点对对应的匹配点对数量；在第一关键点数量和第二关键点数量中确定最小关键点数量，并计算匹配点对数量和最小关键点数量的比值，得到匹配点占比。

对应的，相似性判断模块2030可以用于在匹配点占比小于匹配点占比阈值时，确定第一文档图像和第二文档图像不相似。

在一示例性实施例中，参数计算模块2020可以用于计算各匹配点对对应的匹配角，并对匹配角进行聚类得到N个聚类集合；其中，N取正整数；按照包含匹配角的数量由大到小的顺序对N个聚类集合进行排序，并统计前K个聚类集合包含的匹配角总数；其中，K取小于N的正整数；统计匹配点对对应的匹配点对数量，并计算匹配角总数和匹配点对数量的比值，得到有效匹配占比

对应的，相似性判断模块2030可以用于在有效匹配占比小于有效匹配占比阈值时，确定第一文档图像和第二文档图像不相似。

进一步的，参考图21所示，本公开的示例性实施方式中提供一种关键帧提取装置2100，包括第一处理模块2110和第二处理模块2120。其中：

第一处理模块2110可以用于在视频对应的视频帧序列中获取当前关键帧，对当前关键帧进行文档关键帧提取处理；其中，文档关键帧提取处理包括：在当前关键帧为文档帧时，确定当前关键帧为文档关键帧；获取视频帧序列对应的缓存序列，并在缓存序列为空序列时，将文档关键帧加入缓存序列；在缓存序列为非空序列时，获取缓存序列中的最后一个缓存关键帧作为文档关键帧对应的参考关键帧，并利用上述相似性判断方法确定文档关键帧与参考关键帧的相似性；在文档关键帧与参考关键帧不相似时，在缓存序列中选择目标关键帧加入关键帧序列，并在清空缓存序列后，将文档关键帧加入缓存序列；在文档关键帧与参考关键帧相似时，将文档关键帧加入缓存序列。

第二处理模块2120可以用于在视频帧序列中获取下一关键帧，并继续对下一关键帧进行文档关键帧提取处理，直至视频结束且视频帧序列为空，输出关键帧序列。

上述装置中各模块的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本公开的示例性实施方式中还提供一种用于实现相似性判断方法或关键帧提取方法的电子设备，该电子设备可以是上述终端110或服务器 120。一般的，该电子设备可以包括处理器与存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行上述相似性判断方法或关键帧提取方法。

下面以图22中的移动终端2200为例，对本公开实施例中的电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图22中的构造也能够应用于固定类型的设备。在另一些实施方式中，移动终端2200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。各部件间的接口连接关系只是示意性示出，并不构成对移动终端2200的结构限定。在另一些实施方式中，移动终端2200也可以采用与图22不同的接口连接方式，或多种接口连接方式的组合。

如图22所示，移动终端2200具体可以包括：处理器2210、内部存储器2221、外部存储器接口2222、通用串行总线(Universal Serial Bus， USB)接口2230、充电管理模块2240、电源管理模块2241、电池2242、天线1、天线2、移动通信模块2250、无线通信模块2260、音频模块2270、扬声器2271、受话器2272、麦克风2273、耳机接口2274、传感器模块 2280、显示屏2290、摄像模组2291、指示器2292、马达2293、按键2294 以及用户标识模块(subscriber identification module，SIM)卡接口2295等。其中传感器模块2280可以包括深度传感器22801、压力传感器22802、陀螺仪传感器22803等。

处理器2210可以包括一个或多个处理单元，例如：处理器2210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-Network Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器2210中设置有存储器。存储器可以存储用于实现六个模块化功能的指令：检测指令、连接指令、信息管理指令、分析指令、数据传输指令和通知指令，并由处理器2210来控制执行。

移动终端2200通过GPU、显示屏2290及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏2290和应用处理器。GPU 用于执行数学和几何计算，用于图形渲染。处理器2210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。在一些实施例中，可以通过GPU、显示屏2290及应用处理器显示线上会议视频，并对视频进行关键帧采集。

移动终端2200可以通过ISP、摄像模组2291、视频编解码器、GPU、显示屏2290及应用处理器等实现拍摄功能。其中，ISP用于处理摄像模组2291反馈的数据；摄像模组2291用于捕获静态图像或视频；数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号；视频编解码器用于对数字视频压缩或解压缩，移动终端 2200还可以支持一种或多种视频编解码器。在一些实施例中，可以ISP、摄像模组2291、视频编解码器、GPU、显示屏2290及应用处理器采集视频，并对视频进行关键帧提取。

深度传感器22801用于获取景物的深度信息。压力传感器228022用于感受压力信号，可以将压力信号转换成电信号。陀螺仪传感器22803 可以用于确定移动终端2200的运动姿态。此外，还可以根据实际需要在传感器模块2280中设置其他功能的传感器，例如气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器、骨传导传感器等。

移动终端2200中还可包括其它提供辅助功能的设备。例如，按键 2294包括开机键，音量键等，用户可以通过按键输入，产生与移动终端 2200的用户设置以及功能控制有关的键信号输入。再如，指示器2292、马达2293、SIM卡接口2295等。

此外，本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，例如可以执行图6、图7、图10、图16、图17以及图 19中任意一个或多个步骤。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

此外，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种关键帧提取方法，其特征在于，包括：

在视频对应的视频帧序列中获取当前关键帧，对所述当前关键帧进行文档关键帧提取处理；

其中，所述文档关键帧提取处理包括：

在所述当前关键帧为文档帧时，确定所述当前关键帧为文档关键帧；

获取所述视频帧序列对应的缓存序列，并在所述缓存序列为空序列时，将所述文档关键帧加入所述缓存序列；

在所述缓存序列为非空序列时，获取所述缓存序列中的最后一个缓存关键帧作为所述文档关键帧对应的参考关键帧，并确定所述文档关键帧与所述参考关键帧的相似性；

在所述文档关键帧与所述参考关键帧不相似时，在所述缓存序列中选择目标关键帧加入关键帧序列，并在清空所述缓存序列后，将所述文档关键帧加入所述缓存序列；

在所述文档关键帧与所述参考关键帧相似时，将所述文档关键帧加入所述缓存序列；

在所述视频帧序列中获取下一关键帧，并继续对所述下一关键帧进行文档关键帧提取处理，直至所述视频结束且所述视频帧序列为空，输出所述关键帧序列；

其中，所述确定所述文档关键帧与所述参考关键帧的相似性包括：

将所述文档关键帧与所述参考关键帧分别作为第一文档图像和第二文档图像，获取所述第一文档图像和所述第二文档图像；

基于所述第一文档图像和所述第二文档图像计算相似参数，所述相似参数包括交并比参数；

根据所述相似参数和对应的预设相似条件确定所述第一文档图像与所述第二文档图像的相似性。

2.根据权利要求1所述的方法，其特征在于，所述在所述缓存序列中选择目标关键帧加入关键帧序列，包括：

针对所述缓存序列中的每一个所述缓存关键帧进行边缘检测得到对应的边缘检测结果图；

计算各所述边缘检测结果图对应的方差，并将所述方差最大的边缘检测结果图对应的缓存序列作为目标关键帧加入关键帧序列。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一文档图像和所述第二文档图像计算相似参数，包括：

基于灰度阈值对所述第一文档图像进行二值化处理得到第一二值图像，并基于所述灰度阈值对所述第二文档图像进行二值化处理得到第二二值图像；

分别对所述第一二值图像和所述第二二值图像进行尺寸归一化，并对尺寸归一化后的所述第一二值图像和尺寸归一化后的所述第二二值图像进行按位与处理，得到交集图像；

基于所述第一二值图像、所述第二二值图像和所述交集图像计算交并比参数。

4.根据权利要求3所述的方法，其特征在于，所述对尺寸归一化后的所述第一二值图像和尺寸归一化后的所述第二二值图像进行按位与处理，得到交集图像，包括：

获取所述第一二值图像中目标像素坐标对应的第一灰度值和所述第二二值图像中所述目标像素坐标对应的第二灰度值；

在所述第一灰度值与所述第二灰度值均等于第一预设值时，确定所述交集图像中所述目标像素坐标对应的取值为所述第一预设值；

在所述第一灰度值与所述第二灰度值不相等，或者所述第一灰度值与所述第二灰度值均等于第二预设值时，确定所述交集图像中所述目标像素坐标的取值为所述第二预设值。

5.根据权利要求3所述的方法，其特征在于，所述交并比参数包括第一交并比参数；所述预设相似条件包括第一交并比阈值；

所述基于所述第一二值图像、所述第二二值图像和所述交集图像计算交并比参数，包括：

统计所述第一二值图像中像素值等于第一预设值的第一像素数量，所述第二二值图像中像素值等于第一预设值的第二像素数量，和所述交集图像中像素值等于第一预设值的交集像素数量；

基于所述第一像素数量、所述第二像素数量和所述交集像素数量计算并集像素数量；

计算所述交集像素数量与所述并集像素数量的比值，得到所述第一交并比参数；

所述根据所述相似参数和对应的预设相似条件确定所述第一文档图像与所述第二文档图像的相似性，包括：

在所述第一交并比参数大于所述第一交并比阈值时，确定所述第一文档图像和所述第二文档图像相似。

6.根据权利要求3所述的方法，其特征在于，所述交并比参数包括第二交并比参数；所述预设相似条件包括第二交并比阈值；

统计所述交集图像中像素值等于第一预设值的交集像素数量；

计算所述交集像素数量与总像素数量的比值，得到所述第二交并比参数；所述总像素数量为第一二值图像包含的像素数量或所述第二二值图像包含的像素数量；

在所述第二交并比参数大于所述第二交并比阈值时，确定所述第一文档图像和所述第二文档图像相似。

7.根据权利要求1所述的方法，其特征在于，所述相似参数还包括尺寸比参数；所述预设相似条件包括尺寸比阈值；

所述基于所述第一文档图像和所述第二文档图像计算相似参数，包括：

计算所述第一文档图像对应的第一长宽比和所述第二文档图像对应的第二长宽比；

在所述第一长宽比和所述第二长宽比中确定最大长宽比和最小长宽比，并计算所述最小长宽比和最大长宽比的比值，得到尺寸比参数；

在所述尺寸比参数小于或等于所述尺寸比阈值时，确定所述第一文档图像和所述第二文档图像不相似。

8.根据权利要求1所述的方法，其特征在于，所述相似参数还包括哈希距离参数；所述预设相似条件包括哈希距离阈值；

在所述哈希距离参数大于所述哈希距离阈值，确定所述第一文档图像和所述第二文档图像不相似。

9.根据权利要求1所述的方法，其特征在于，所述相似参数包括边缘检测参数；所述预设相似条件包括边缘检测参数阈值；

对所述第一文档图像进行边缘检测得到第一边缘检测结果图，并对所述第二文档图像进行边缘检测得到第二边缘检测结果图；

计算所述第一边缘检测结果图对应的第一标准差和所述第二边缘检测结果图对应的第二标准差；

计算所述第一标准差和所述第二标准差的差值的绝对值，得到所述边缘检测参数；

在所述边缘检测参数大于所述边缘检测参数阈值时，确定所述第一文档图像和所述第二文档图像不相似。

10.根据权利要求1所述的方法，其特征在于，所述相似参数包括特征匹配参数，所述基于所述第一文档图像和所述第二文档图像计算相似参数，包括：

在所述第一文档图像中提取第一图像关键点，并在所述第二文档图像中提取第二图像关键点；

对所述第一图像关键点和所述第二图像关键点进行特征点匹配，得到匹配点对；

基于所述匹配点对计算所述特征匹配参数。

11.根据权利要求10所述的方法，其特征在于，所述特征匹配参数包括匹配点占比；所述预设相似条件包括匹配点占比阈值；

所述基于所述匹配点对计算所述特征匹配参数，包括：

统计所述第一图像关键点对应的第一关键点数量、所述第二图像关键点对应的第二关键点数量和所述匹配点对对应的匹配点对数量；

在所述第一关键点数量和所述第二关键点数量中确定最小关键点数量，并计算所述匹配点对数量和所述最小关键点数量的比值，得到匹配点占比；

在所述匹配点占比小于所述匹配点占比阈值时，确定所述第一文档图像和所述第二文档图像不相似。

12.根据权利要求10所述的方法，其特征在于，所述特征匹配参数包括有效匹配占比；所述预设相似条件包括有效匹配占比阈值；

所述基于所述匹配点对计算所述特征匹配参数，包括：

计算各所述匹配点对对应的匹配角，并对所述匹配角进行聚类得到N个聚类集合；其中，N取正整数；

按照包含所述匹配角的数量由大到小的顺序对所述N个聚类集合进行排序，并统计前K个所述聚类集合包含的匹配角总数；其中，K取小于N的正整数；

统计所述匹配点对对应的匹配点对数量，并计算所述匹配角总数和所述匹配点对数量的比值，得到有效匹配占比；

在所述有效匹配占比小于有效匹配占比阈值时，确定所述第一文档图像和所述第二文档图像不相似。

13.一种关键帧提取装置，其特征在于，包括：

第一处理模块，用于在视频对应的视频帧序列中获取当前关键帧，对所述当前关键帧进行文档关键帧提取处理；

其中，所述文档关键帧提取处理包括：

第二处理模块，用于在所述视频帧序列中获取下一关键帧，并继续对所述下一关键帧进行文档关键帧提取处理，直至所述视频结束且所述视频帧序列为空，输出所述关键帧序列；

其中，基于相似性判断装置确定所述文档关键帧与所述参考关键帧的相似性，所述相似性判断装置包括：

图像获取模块，用于将所述文档关键帧与所述参考关键帧分别作为第一文档图像和第二文档图像，获取第一文档图像和第二文档图像；

参数计算模块，用于基于所述第一文档图像和所述第二文档图像计算相似参数，所述相似参数包括交并比参数；

相似性判断模块，用于根据所述相似参数和对应的预设相似条件确定所述第一文档图像与所述第二文档图像的相似性。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任一项所述的方法。