CN111078940B

CN111078940B - 图像处理方法、装置、计算机存储介质及电子设备

Info

Publication number: CN111078940B
Application number: CN201911296261.1A
Authority: CN
Inventors: 庄涵; 闫晗; 姚丹; 汤光辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2023-05-23
Anticipated expiration: 2039-12-16
Also published as: CN111078940A

Abstract

本公开提供了图像处理方法、装置、计算机存储介质及电子设备，涉及人工智能领域。方法包括：获取原始图像，对原始图像进行特征提取，以获取与原始图像对应的特征图；对特征图进行第一池化处理，以获取与特征图对应的具有不同空间尺度的特征向量；对具有不同空间尺度的特征向量进行第二池化处理，通过对具有不同空间尺度的特征向量进行融合和归一化处理，以获取与原始图像对应的图像指纹，并根据图像指纹确定与原始图像对应的相似图像。本公开在兼顾图像全局信息描述的同时加强对图像局部特征的挖掘，更好地理解图像的关键信息，并且通过数据驱动的方式挖掘图像的核心内容，抑制噪声内容，提高了图像处理的效率、精准度和图像匹配的准确度。

Description

图像处理方法、装置、计算机存储介质及电子设备

技术领域

本公开涉及人工智能技术领域，具体而言，涉及一种图像处理方法、图像处理装置、计算机存储介质及电子设备。

背景技术

随着网络技术的快速发展，产生了大量的网络用户，不同的网络用户有不同的喜好，因此各个平台针对不同用户的喜好会为用户推送相关信息，这样能够提高用户体验，进一步提升用户粘度。

在为用户进行信息推荐时通常根据两条信息之间的相似度进行推荐，例如在为用户推荐视频时，可以根据用户喜爱视频和待推荐视频的相似度进行推荐，当存在与用户喜爱视频相似度较高的待推荐视频时，则向用户进行推送；在为用户推荐图片时，可以根据用户喜爱图片和待推荐图片的相似度进行推荐，等等。目前主要是按照时间排序对两个信息进行相似度计算的，但是当其中一个信息被处理过的话，即使两个信息是相同或相似的，也会被判断为不相似，因此判断相似度时存在准确度低、误判率高的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的实施例提供了一种图像处理方法、图像处理装置、计算机存储介质及电子设备，进而至少在一定程度上可以提高图像处理的效率和精准度，进而提高图像匹配的精准度。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面，提供了一种图像处理方法，包括：获取原始图像，对所述原始图像进行特征提取，以获取与所述原始图像对应的特征图；对所述特征图进行第一池化处理，以获取与所述特征图对应的具有不同空间尺度的特征向量；对所述具有不同空间尺度的特征向量进行第二池化处理，通过对所述具有不同空间尺度的特征向量进行融合和归一化处理，以获取与所述原始图像对应的图像指纹，并根据所述图像指纹确定与所述原始图像对应的相似图像。

根据本公开实施例的一个方面，提供了一种图像处理装置，包括：特征提取模块，用于获取原始图像，对所述原始图像进行特征提取，以获取与所述原始图像对应的特征图；第一池化模块，用于对所述特征图进行第一池化处理，以获取与所述特征图对应的具有不同空间尺度的特征向量；第二池化模块，用于对所述具有不同空间尺度的特征向量进行第二池化处理，通过对所述具有不同空间尺度的特征向量进行融合和归一化处理，以获取与所述原始图像对应的图像指纹，并根据所述图像指纹确定与所述原始图像对应的相似图像。

在本公开的一些实施例中，基于前述方案，所述特征提取模块配置为：获取视频，根据预设时长将所述视频分割为多个视频分片；从各所述视频分片中获取关键图像帧，并将所述关键图像帧作为所述原始图像。

在本公开的一些实施例中，基于前述方案，所述特征提取模块配置为：将所述原始图像输入至卷积神经网络模型，通过所述卷积神经网络模型对所述原始图像进行特征提取，以获取所述特征图。

在本公开的一些实施例中，基于前述方案，所述第一池化模块配置为：将所述特征图输入至空间金字塔池化模型，所述空间金字塔池化模型包括多个大小不同的特征提取窗口；通过各所述特征提取窗口对所述特征图进行特征提取，以获取所述具有不同空间尺度的特征向量。

在本公开的一些实施例中，基于前述方案，所述第二池化模块包括：输入单元，用于将所述不同空间尺度的特征向量输入至第一池化模型，所述第一池化模型包括权重计算单元、特征向量融合单元、归一化单元和后处理单元；权重获取单元，用于通过所述权重计算单元对所述具有不同空间尺度的特征向量进行特征提取和归一化处理，以获取与所述具有不同空间尺度的特征向量对应的权重值；融合单元，用于通过所述特征向量融合单元根据所述不同空间尺度的特征向量和与所述具有不同空间尺度的特征向量对应的权重值对所述具有不同空间尺度的特征向量进行融合，以获取融合特征；归一化单元，用于通过所述归一化单元对所述融合特征进行归一化处理，以获取归一化特征；降维单元，用于通过所述后处理单元对所述归一化特征进行降维处理，以获取图像表示特征作为所述图像指纹。

在本公开的一些实施例中，所述原始图像包括从视频中获取的多个关键图像帧；所述图像表示特征包括与各所述关键图像帧对应的多个图像表示特征；基于前述方案，所述图像处理装置配置为：将所述多个图像表示特征按照时间维度依次输入至第二池化模型；通过所述第二池化模型对所述多个图像表示特征进行第三池化处理，以获取视频指纹。

在本公开的一些实施例中，基于前述方案，所述第二池化模块还配置为：将所述图像指纹与素材库中的待匹配图像指纹进行匹配，以获取所述图像指纹与所述待匹配图像指纹之间的图像相似度；将最大图像相似度对应的待匹配图像指纹确定为目标待匹配图像指纹，并将与所述目标待匹配图像指纹对应的图像作为所述相似图像。

在本公开的一些实施例中，基于前述方案，所述图像处理装置还包括：采样模块，用于提取所述视频中的音频信息，并根据预设频率对所述音频信息进行采样以获取多个采样点；匹配模块，用于根据所述采样点获取音频指纹，并根据所述视频指纹和所述音频指纹获取与所述视频对应的相似视频。

在本公开的一些实施例中，基于前述方案，所述采样模块包括：分段单元，用于根据所述采样点确定多个连续的数据帧，并对各所述数据帧进行数据处理，以获取目标数据帧；滤波单元，用于根据预设帧数量将所述目标数据帧划分为多个处理单元，并对各所述处理单元进行滤波处理，以获取所述音频指纹。

在本公开的一些实施例中，基于前述方案，所述分段单元配置为：对各所述数据帧中的数据进行傅立叶变换，并将傅立叶变换后的数据帧转换为预设数量的频率段；对各所述频率段的音频强度进行归一化处理，以获取所述目标数据帧。

在本公开的一些实施例中，基于前述方案，所述匹配模块包括：第一匹配单元，用于将所述视频指纹与素材库中的待匹配视频指纹进行匹配，以获取所述视频指纹与所述待匹配视频指纹之间的图像相似度；第二匹配单元，用于将所述音频指纹与所述素材库中的待匹配音频指纹进行匹配，以获取所述音频指纹与所述待匹配音频指纹之间的音频相似度；相似视频获取单元，用于根据所述视频相似度和所述音频相似度确定所述相似视频。

在本公开的一些实施例中，基于前述方案，所述相似视频获取单元配置为：当所述视频相似度在第一相似度区间时，将所述素材库中与所述视频相似度对应的视频作为所述相似视频；当所述视频相似度在第二相似度区间且所述音频相似度在第三相似度区间时，将所述素材库中与所述视频相似度和所述音频相似度对应的视频作为所述相似视频；当所述视频相似度在第四相似度区间且所述音频相似度在第五相似度区间时，将所述素材库中与所述视频相似度和所述音频相似度对应的视频作为所述相似视频；其中，所述第一相似度区间、所述第二相似度区间、所述第三相似度区间、所述第四相似度区间和所述第五相似度区间互不相同。

根据本公开实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例所述的图像处理方法。

根据本公开实施例的一个方面，提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上述实施例所述的图像处理方法。

在本公开的实施例所提供的技术方案中，首先对原始图像进行特征提取以获取特征图，接着对特征图分别进行第一池化处理和第二池化处理，以获取与原始图像对应的图像指纹，最后根据图像指纹确定与原始图像对应的目标图像。本公开的技术方案能够在兼顾图像全局信息描述的同时加强对图像局部特征的挖掘，更好地理解图像的关键信息，并且能够通过数据驱动的方式挖掘图像的核心内容，抑制必要的噪声内容，进而提高了图像处理的效率和精准度，在进行图像匹配时也能够提高图像匹配的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图；

图2示意性示出了根据本公开的一个实施例的图像处理方法的流程示意图；

图3示意性示出了根据本公开的一个实施例的获取原始图像的界面示意图；

图4示意性示出了根据本公开的一个实施例的用于获取视频指纹的图像处理系统的架构示意图；

图5示意性示出了根据本公开的一个实施例的空间金字塔池化模型的结构示意图；

图6示意性示出了根据本公开的一个实施例的第一池化模型的结构示意图；

图7示意性示出了根据本公开的一个实施例的第一池化模型的结构示意图；

图8示意性示出了根据本公开的一个实施例的获取视频指纹的流程示意图；

图9示意性示出了根据本公开的一个实施例的根据视频指纹和音频指纹获取相似视频的流程示意图；

图10示意性示出了根据本公开的一个实施例的根据采样点获取音频指纹的流程示意图；

图11示意性示出了根据本公开的一个实施例的获取待投放广告视频的效果报表的交互流程图；

图12示意性示出了根据本公开的一个实施例的图像处理装置的框图；

图13示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实际需要，可以具有任意数目的终端设备、网络和服务器。比如服务器103可以是多个服务器组成的服务器集群等。终端设备101可以是诸如笔记本、便携式电脑、台式电脑等终端设备。

在本公开的一个实施例中，终端设备101获取原始图像后，通过网络102将原始图像发送至服务器103。服务器103接收到原始图像后，首先可以对原始图像进行特征提取，获取描述原始图像的整体特征的特征图；接着可以对特征图进行第一池化处理，具体地可以采用包含多个大小不同的特征提取窗口的空间金字塔池化模型对特征图进行池化处理，以获取具有不同空间尺度的特征向量；然后对具有不同空间尺度的特征向量进行第二池化处理，具体地可以采用池化模型对不同空间尺度的特征向量进行融合和归一化，以获取与原始图像对应的图像指纹；最后将图像指纹与素材库中的图像指纹进行匹配，根据图像指纹和素材库中的图像指纹的相似度确定与原始图像对应的相似图像，该相似图像可以是与原始图像相似的图像，也可以是与原始图像相同的图像。进一步地，当原始图像为从视频中获取的多个关键图像帧时，可以通过第一池化模型和第二池化模型依次对各个原始图像进行池化处理，第一池化模型可以对各个原始图像经空间金字塔池化模型处理后的特征向量进行池化，以获取与各个原始图像对应的多个图像表示特征，然后将多个图像表示特征按照时间维度依次输入第二池化模型中，通过第二池化模型对多个图像表示特征进行第三池化处理，即对各图像表示特征进行融合和归一化，得到与视频对应的视频指纹。本公开实施例的技术方案能够在兼顾图像全局信息描述的同时加强对图像局部特征的挖掘，更好地理解图像的关键信息，并且能够通过数据驱动的方式挖掘图像的核心内容，抑制必要的噪声内容，进而提高了图像处理的效率和精准度，在进行图像匹配时也能够提高图像匹配的准确度。

需要说明的是，本公开实施例所提供的图像处理方法可由服务器执行，相应地，图像处理装置可设置于服务器中。但是，在本公开的其它实施例中，也可以由终端设备执行本公开实施例所提供的图像处理方法。

在本领域的相关技术中，图像源有图集、视频等，以视频为例，为了获取与原始视频相似的视频，主要通过对原始视频和其它视频进行镜头分割以获得镜头内的帧图片，并获取帧图片的BOF(Bag of Feature)特征，基于BOF特征可以得到原始视频与其它视频之间的相似度，进一步地根据相似度可以获得与原始视频相似的视频。

但是相关技术中的方法存在以下缺陷，(1)对图像的纹理敏感，只描述局部特征，并不具备区域描述能力；(2)对视频的变化和长度较为敏感，如果视频的时长、帧率稍微不同，容易出现相同时间点的关键图像帧取值不一致，识别不出相似视频；(3)用SIFT图像处理算法获取图像的特征，需要图像有足够多的纹理，对于模糊或者边缘平滑的图像，检出的特征点过少，难以作为图像相似的评判依据。

鉴于相关技术中存在的问题，本公开实施例提供了一种图像处理方法，该方法是基于人工智能实现的，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本公开实施例提供的方案涉及人工智能的图像处理技术，具体通过如下实施例进行说明：

本公开实施例首先提供了一种图像处理方法，图2示意性示出了根据本公开的一个实施例的图像处理方法的流程图，该图像处理方法可以由服务器来执行，该服务器可以是图1中所示的服务器103。参照图2所示，该图像处理方法至少包括步骤S210至步骤S230，详细介绍如下：

在步骤S210中，获取原始图像，对所述原始图像进行特征提取，以获取与所述原始图像对应的特征图。

在本公开的一个实施例中，该原始图像可以是从图像集、视频中获取的图像，并且该原始图像的数量可以是一个，也可以是多个。图像集、视频可以是终端设备本地存储的图像集、视频，也可以是用户上传至终端设备中或通过终端设备从网络上获取的图像集、视频，本公开实施例对此不作具体限定。为了使本公开的技术方案更清晰，下面将以获取与原始视频对应的相似视频为例对本公开的技术方案进行说明。

在本公开的一个实施例中，由于一段视频所包含的图像帧的数量巨大，以时长5min的视频为例，若每秒25帧图像，那么共计有7500帧图像，如果对每一帧图像都进行处理，会产生较大的资源消耗，也会降低图像处理效率，所以为了提高图像处理效率，可以从视频中选择一部分图像帧进行处理。具体地，可以根据预设时长将原始视频分割为多个视频分片，然后从各个视频分片中获取关键图像帧，并将该些关键图像帧作为原始图像。其中预设时长可以根据实际需要进行设置，例如可以将预设时长设置为1s、3s、5s等等，本公开实施例对此不作具体限定，关键图像帧可以是视频分片中的任意一帧图像，也可以是预设时间点或预设编号对应的图像帧。以1s的预设时长为例，可以将时长5min的视频分割为300个视频分片，然后可以从300个视频分片中分别确定一个关键图像帧，并将所获取的300个关键图像帧作为原始图像，通过对该些原始图像进行图像处理以获取与原始视频对应的相似视频。图3示出了获取原始图像的界面示意图，如图3所示，原始视频记录了一个人在绿色的草地上踢足球的场景，通过对原始视频进行分割，可以获取多个关键图像帧，该些关键图像帧即为用于后续图像处理的原始图像。

在本公开的一个实施例中，在获取原始图像后，可以对原始图像进行处理，以获取与原始图像对应的图像指纹，进一步，当原始图像为从原始视频中提取的多个关键图像帧时，通过本公开实施例中的图像处理方法对原始图像进行处理，可以获取与原始视频对应的视频指纹。图4示出了用于获取视频指纹的图像处理系统的架构示意图，如图4所示，图像处理系统400包括卷积神经网络模型401、空间金字塔池化模型402、第一池化模型403和第二池化模型404，其中卷积神经网络模型401用于对原始图像进行特征提取，以获取与原始图像对应的特征图；空间金字塔池化模型402用于对特征图进行第一池化处理，以获取具有不同空间尺度的特征向量；第一池化模型403用于对具有不同空间尺度的特征向量进行第二池化处理，通过对具有不同空间尺度的特征向量进行融合和归一化处理，以获取与原始图像对应的图像表示特征；第二池化模型404用于对与原始图像对应的图像表示特征进行第三池化处理，以获取与原始视频对应的视频指纹。

在本公开的一个实施例中，卷积神经网络模型401可以包括预设数量的卷积层、池化层和全连接层，卷积层中卷积核的大小、数量可以根据实际需要进行设定，在本公开实施例中，可以通过卷积神经网络模型401对各原始图像进行特征提取，生成8×8×2048的特征图。卷积神经网络模型401主要提取原始图像的整体特征，例如图4中所示的输入图像，其中有大片绿色的草地和踢足球的人，那么获取的特征图主要描述草地的特征，而踢足球的人这个关键信息会相对被弱化。

值得说明的是，若原始图像的数量为一个，则图像处理系统400中的第二池化模型404可以缺省，由第一池化模型403输出的图像表示特征即为图像指纹。

在步骤S220中，对所述特征图进行第一池化处理，以获取与所述特征图对应的具有不同空间尺度的特征向量。

在本公开的一个实施例中，在卷积神经网络模型401对原始图像进行特征提取获取特征图后，可以将特征图输入至空间金字塔池化模型，以对特征图进行第一池化处理。空间金字塔池化的意义在于可以将任意大小的特征图都转换成固定大小的特征向量，其能够挖掘图像在空间维度的不同尺度的主要区域信息，增强空间语义信息。空间金字塔池化模型包括多个大小不同的特征提取窗口，该些特征提取窗口可以将特征图划分为多个图像块，图像块的数量与特征提取窗口的大小相同，例如特征提取窗口的大小为3×3，那么特征图可以被划分为9个图像块；特征提取窗口的大小为2×2，那么特征图可以被划分为4个图像块，等等，通过对该些图像块进行池化处理，可以获取多个与特征图对应的特征向量，并且该些特征向量具有不同的空间尺度。通过在特征图的基础上进行细分切割，可以将区域占比较小的主要信息部分区分出来，继续以图4中的输入图像为例，通过空间金字塔池化模型对与输入图像对应的特征图进行第一池化处理，可以获取在卷积神经网络模型进行特征提取时弱化了的踢足球的人的信息。

图5示出了空间金字塔池化模型的结构示意图，如图5所示，空间金字塔池化模型402包括特征提取窗口501、特征提取窗口502和特征提取窗口503，其中特征提取窗口501的大小为1×1，特征提取窗口502的大小为2×2，特征提取窗口503的大小为3×3，通过特征提取窗口501、特征提取窗口502和特征提取窗口503分别对8×8×2048的特征图进行特征提取，可以获取14个2048维的特征向量。

在本公开的一个实施例中，空间金字塔池化可以是空间金字塔最大池化，即获取每个图像块中的最大值，也可以是空间金字塔平均池化，即获取每个图像块中的平均值，当然也可以是其它的池化类型，本公开实施例对此不作具体限定。

在步骤S230中，对所述具有不同空间尺度的特征向量进行第二池化处理，通过对所述具有不同空间尺度的特征向量进行融合和归一化处理，以获取与所述原始图像对应的图像指纹，并根据所述图像指纹确定与所述原始图像对应的相似图像。

在本公开的一个实施例中，在获取具有不同空间尺度的特征向量后，需要对多个特征向量进行融合以提取出代表关键信息的特征向量。具体地，可以采用第一池化模型403对具有不同空间尺度的特征向量进行第二池化处理，以将具有不同空间尺度的特征向量进行融合并归一化。

图6示出了第一池化模型的结构示意图，如图6所示，第一池化模型403包括权重计算单元601、特征向量融合单元602、归一化单元603和后处理单元604，其中，权重计算单元601可以对具有不同空间尺度的特征向量进行特征提取和归一化处理，以获取与各特征向量对应的权重值；特征向量融合单元602可以根据具有不同空间尺度的特征向量和与其对应的权重值对具有不同空间尺度的特征向量进行融合，以获取融合特征；归一化单元603可以对融合特征进行归一化处理，以获取归一化特征；后处理单元604可以对归一化特征进行降维处理，以获取图像表示特征，根据该图像表示特征可以获取图像指纹。

在本公开的一个实施例中，第一池化模型403具体可以是NetVLAD模型，图7示出了第一池化模型的结构示意图，如图7所示，第一池化模型403包含卷积层701、Soft-max层702、局部聚合向量(VLAD)中心703、内部归一化层704、L2归一化层705和降维层706。其中，卷积层701和Soft-max层702构成权重计算单元601，VLAD中心703即为特征向量融合单元602，内部归一化层704和L2归一化层705构成归一化单元603，降维层706构成后处理单元604，并且卷积层701的大小可以设置为1×1×D×K，其中D为输入至第一池化模型中的特征向量的维度，K为聚类中心的数量。

在本公开的一个实施例中，输入至第一池化模型中的大小为W×H×D的特征向量可以看作是(W×H)个D维的特征向量，(W×H)个D维的特征向量可以看作是原始图像的多个局部特征，在进行第二池化时，首先通过卷积层701对每一个局部特征与K个聚类中心之间的距离进行判断，获取各局部特征与各聚类中心之间的残差，接着通过Soft-max层702获取与各个残差对应的权重值，然后根据获取的权重值，可以在VLAD中心703中对具有不同空间尺度的特征向量进行融合，以获取各局部特征与各聚类中心之间的残差和，再然后通过内部归一化层704和L2归一化层705分别对每一个D维的特征向量和K×D维的特征向量进行归一化，以获取归一化特征，最后通过降维层706对归一化特征进行降维处理，以获取图像表示特征，根据该图像表示特征可以确定图像指纹。继续以图5所示的空间金字塔池化模型输出的14个2048维特征向量为例，通过第一池化模型对其进行第二池化处理后，即可获取能够表达图像中主要区域的1024维特征向量。

在本公开的一个实施例中，当原始图像的数量为一个时，第一池化模型输出的图像表示特征即为与原始图像对应的图像指纹；当原始图像为从视频中选取的多个关键图像帧时，通过图像处理系统对各原始图像进行处理后，可以获取与各原始图像对应的图像表示特征，为了将时间信息也融合进图像指纹(视频指纹)中，可以采用第二池化模型404对与各原始图像对应的图像表示特征进行融合和归一化以获取视频指纹。

图8示出了获取视频指纹的流程示意图，如图8所示，将多个原始图像按照时间维度依次输入至图像处理系统，通过图像处理系统中的卷积神经网络模型、空间金字塔池化模型SPP和第一池化模型(Space VLAD)对各原始图像进行处理，获取与各原始图像对应的图像表示特征之后，可以将各原始图像对应的图像表示特征按照时间维度依次输入至第二池化模型(Time VLAD)，通过第二池化模型对图像表示特征进行第三池化处理，以对图像表示特征进行融合和归一化，进而获取融合视频整体信息的视频指纹。该第二池化模型与第一池化模型的结构可以相同，进而第二池化模型对图像表示特征的处理流程与第一池化模型对具有不同空间尺度的特征向量的处理流程类似，首先通过卷积层对每一个图像表示特征与多个聚类中心之间的距离进行判断，获取各图像表示特征与各聚类中心之间的残差，接着通过Soft-max层确定与各个残差对应的权重值，然后根据获取的权重值，可以在VLAD中心对各图像表示特征进行融合，以获取各图像表示特征与各聚类中心之间的残差和，再然后通过内部归一化层和L2归一化层依次对残差和对应的向量进行归一化，以获取归一化特征，最后通过降维层对归一化特征进行降维处理，以获取视频指纹。

本公开实施例是通过基于学习的方法挖掘图像的关键信息，并基于学习的方法实现帧融合，能够更好地应对各式各样的视频场景，即使在视频画面纹理不明显的情况下依旧能够准确捕获视频的主要区域，并且在图像处理过程中，将视频视为一个整体，减少了对时长、帧率的敏感度，使得视频更加易于对比，另外通过数据驱动的方式挖掘视频中的核心内容，抑制必要的噪声内容，因此能更好地识别视频。

在本公开的一个实施例中，在获取图像指纹后，可以根据图像指纹确定与原始图像对应的相似图像，具体地，可以将图像指纹与素材库中的待匹配指纹进行匹配，以获取图像指纹与待匹配图像指纹之间的图像相似度；将最大图像相似度对应的待匹配图像指纹可以确定为目标待匹配图像指纹，该目标待匹配图像指纹对应的图像即为与原始图像对应的相似图像。同样地，在获取视频指纹后，也可以根据视频指纹确定与原始视频对应的相似视频，具体地可以将视频指纹与素材库中的待匹配视频指纹进行匹配，以获取视频指纹与待匹配视频指纹之间的视频相似度，具有最大视频相似度的待匹配视频指纹所对应的视频即为与原始视频对应的相似视频。

在本公开的一个实施例中，素材库中可以包含任意数量的图像和/或视频，以及与图像对应的图像指纹和/或与视频对应的视频指纹，素材库中图像指纹和/或视频指纹可以根据本公开实施例中的图像处理方法获得。

在本公开的一个实施例中，视频可以分为无声视频和有声视频，当原始视频为无声视频时，可以根据原始视频的视频指纹与素材库中的视频指纹进行匹配，确定与原始视频对应的相似视频；当原始视频为有声视频时，其包含视频图像和音频，虽然也可以只根据视频指纹确定与原始视频对应的相似视频，但是在视频中的图像纹理极度不清晰的情况下，视频指纹无法判断原始视频与素材库中的视频是否存在相似的区间，因此需要通过其它信息加强判断。在本公开的实施例中，可以通过获取视频的音频指纹，辅助识别与原始视频对应的相似视频，其中根据视频指纹获取相似视频具有强泛化能力，而通过音频指纹辅助获取相似视频则具有精准细节判断能力，进而能够将错误数据更精准地剔除，获取与原始视频最相似的视频。

图9示出了根据视频指纹和音频指纹获取相似视频的流程示意图，如图9所示，在步骤S901中，解析视频，以获取视频中的序列图像帧；在步骤S902中，提取序列图像帧的特征图；在步骤S903中，通过空间金字塔池化模型对特征图进行第一池化处理以获取具有不同空间尺度的特征向量；在步骤S904中，通过第一池化模型对具有不同空间尺度的特征向量进行第二池化处理，以获取图像表示特征；在步骤S905中，通过第二池化模型对图像表示特征进行第三池化处理，以获取视频指纹；在步骤S906中，根据视频指纹计算视频相似度；在步骤S907中，解析视频中的音频，以获得音频分段信息；在步骤S908中，根据音频分段信息生成音频指纹；在步骤S909中，根据音频指纹计算音频相似度；在步骤S910中，结合视频相似度和音频相似度判断视频是否相似。

在本公开的一个实施例中，从原始视频中提取音频信息后，首先可以根据预设频率对音频信息进行采样以获取多个采样点，该预设频率可以是根据实际需要设定的频率值，例如可以采用11025的频率对音频信息进行采样，当然也可以采用其它的频率对音频信息进行采样，本公开实施例对此不作具体限定；然后根据采样点获取音频指纹；最后根据图像指纹和音频指纹获取与视频对应的相似视频。

在本公开的一个实施例中，图10示出了根据采样点获取音频指纹的流程示意图，如图10所示，该流程至少包括步骤S1001-S1002，具体为：

在步骤S1001中，根据采样点确定多个连续的数据帧，并对各数据帧进行数据处理，以获取目标数据帧。

在本公开的一个实施例中，获取大量的采样点后，可以将采样点分为多个连续的数据帧，具体地，可以将4096个采样点作为一帧，即以371ms的时长将音频分段形成多个数据帧，并且相邻的两个数据帧中，后一数据帧叠加了2/3个前一数据帧的数据，以保证数据帧与数据帧之间的连续性。

在本公开的一个实施例中，将音频信息分割为多个数据帧后，可以对各个数据帧中的数据进行傅立叶变换，并将傅立叶变换后的数据帧的频率转化为预设数量的音符，即转换为预设数量的频率段，并且对各频率段的音频强度进行归一化处理，以获取目标数据帧。例如可以将频率转化为12音符，即12个频率段，当然也可以为其它数量的频率段，本公开实施例对此不作具体限定。

在步骤S1002中，根据预设帧数量将目标数据帧划分为多个处理单元，并对各处理单元进行滤波处理，以获取音频指纹。

在本公开的一个实施例中，为了提高数据处理效率，可以根据预设帧数量将目标数据帧划分为多个处理单元，例如可以将16帧数据帧作为一个处理单元，形成大小为12×16的音频特征图。

在本公开的一个实施例中，在将所有的目标数据帧划分为多个处理单元，即形成多个音频特征图后，可以采用滤波器对各个音频特征图进行滤波处理，其中滤波器是根据大量音频数据训练产生的，并且滤波器的大小与音频特征图的大小相关，以大小为12×16的音频特征图为例，用于进行滤波处理的滤波器的大小则为16×12。每个音频特征图通过滤波器滤波后可以生成2比特的数据，当采用N个滤波器对音频特征图进行滤波处理后即可生成2N比特的数据，例如与16个滤波器进行滤波处理后可以得到32比特的数据。通过对各个处理单元进行滤波处理，即可获取与视频对应的音频指纹。

在本公开的一个实施例中，素材库中还可以包含视频对应的视频指纹和音频指纹，获取原始视频的视频指纹和音频指纹后，可以将视频指纹与素材库中的待匹配视频指纹进行匹配，以获取视频指纹与待匹配视频指纹之间的视频相似度，同时将音频指纹与素材库中的待匹配音频指纹进行匹配，以获取音频指纹与待匹配音频指纹之间的音频相似度，根据该视频相似度和音频相似度即可确定与原始视频对应的相似视频。

在本公开的一个实施例中，在根据视频相似度和音频相似度确定与原始视频对应的相似视频时，可以根据视频相似度及音频相似度对应的相似度区间进行判断，具体地，当视频相似度在第一相似度区间时，将素材库中与该视频相似度对应的视频作为相似视频；当视频相似度在第二相似度区间且音频相似度在第三相似度区间时，将素材库中与该视频相似度和音频相似度对应的视频作为相似视频；当视频相似度在第四相似度区间且音频相似度在第五相似度区间时，将素材库中与该视频相似度和音频相似度对应的视频作为相似视频；其中，第一相似度区间、第二相似度区间、第三相似度区间、第四相似度区间和第五相似度区间互不相同。具体地，当视频相似度在[0,0.1)中时，无需判断音频相似度，即可将与原始视频具有该视频相似度的视频作为相似视频；当视频相似度在[0.1,0.2)中，音频相似度在[0.1,0.3)中时，即可将与原始视频具有该视频相似度和音频相似度的视频作为相似视频；当视频相似度在[0.2,0.25)中，音频相似度在[0,0.1)中时，即可将与原始视频具有该视频相似度和音频相似度的视频作为相似视频。

在本公开的一个实施例中，由于视频具有强泛化能力，而音频可以提供精准的细节判别，因此结合视频指纹和音频指纹进行视频相似度的判断能够提高相似度判别的精准度，进而可以获取与原始视频最相似的相似视频。

本公开实施例中的图像处理方法可以应用于多个场景，例如在投放广告之前，可以通过本公开实施例的方法获取与待投放广告相似的广告所对应的广告数据，帮助广告主了解待投放广告可能的投放效果；也可以通过本公开实施例的方法为用户推荐与用户的历史感兴趣图像或历史感兴趣视频相似的图像或视频，等等，以提高用户体验和用户粘性。

接下来，以广告视频的投放为例对本公开实施例的技术方案进行详细说明。图11示出了获取待投放广告视频的效果报表的交互流程图，如图11所示，在步骤S1101中，广告主向视频定制平台发送广告视频定制请求；在步骤S1102中，视频定制平台响应广告视频定制请求制作待投放广告视频；在步骤S1103中，视频定制平台将制作好的待投放广告视频发送至视频检索系统，视频检索系统对待投放广告视频进行处理获取对应的目标视频指纹和目标音频指纹；在步骤S1104中，将该目标视频指纹和目标音频指纹分别与素材库中的待匹配视频指纹和待匹配音频指纹进行匹配，获取视频相似度和音频相似度；在步骤S1105中，将视频相似度和音频相似度发送至视频定制平台；在步骤S1106中，根据视频相似度和音频相似度确定相似广告视频，并将相似广告视频的广告ID发送至广告系统，以获取相似广告视频的广告数据；在步骤S1107中，向视频定制平台返回广告数据；在步骤S1108中，根据广告数据生成视频效果报表；在步骤S1109中，将视频效果报表发送至广告主。其中，在步骤S1103中，视频检索系统可以根据本公开实施例中的图像处理方法获取待投放广告视频的目标视频指纹和目标音频指纹，并且视频检索系统还可以根据广告主之前投放到广告系统中的广告视频生成视频指纹和音频指纹，并根据广告视频和对应的视频指纹及音频指纹形成素材库，值得注意的是，广告主从视频定制平台获取到制作好的广告视频后，可能会根据广告位的限制对广告视频的分辨率、时长、尺寸等属性进行更改，然后再投放到广告系统中；在步骤S1106中，所获取的广告数据可以是相似广告视频的播放广告位、播放时段、播放次数、资金消耗、点击率等信息，根据该些广告数据可以生成视频效果报表，帮助广告主了解待投放广告视频的投放效果。

类似地，在根据用户的历史感兴趣图像或历史感兴趣视频进行图像或视频推荐时，也可以获取历史感兴趣图像对应的图像指纹、历史感兴趣视频对应的视频指纹或者视频指纹和音频指纹，再获取待推荐图像的图像指纹、待推荐视频的视频指纹或者视频指纹和音频指纹；然后将待推荐图像的图像指纹与历史感兴趣图像对应的图像指纹进行匹配，以获取图像相似度，或者将待推荐视频的视频指纹或者视频指纹和音频指纹与历史感兴趣视频对应的视频指纹或者视频指纹和音频指纹进行匹配，以获取视频相似度；最后根据图像相似度或者视频相似度确定目标待推荐图像或目标待推荐视频，并将目标待推荐图像或目标待推荐视频推荐给用户。

本公开实施例中的图像处理方法可以挖掘图像或视频中不同尺度的主要区域信息生成图像指纹或视频指纹，有效解决了图像、视频被修改、画面大部分区域颜色相近等导致无法识别的问题；并且也可以挖掘视频中不同尺度的主要区域信息和融合时间轴挖掘视频主要内容生成强泛化能力的视频指纹，并根据广告视频声音区别明显的特点生成能够实现精准细节判断的音频指纹，在视频指纹无法准确判断的情况下，加上音频进行判断，能够将错误数据更精准地剔除，精准、高效的获取与原始视频对应的相似视频。

以下介绍本公开的装置实施例，可以用于执行本公开上述实施例中的图像处理方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的图像处理方法。

图12示意性示出了根据本公开的一个实施例的图像处理装置的框图。

参照图12所示，根据本公开的一个实施例的图像处理装置1200，包括：特征提取模块1201、第一池化模型1202和第二池化模块1203。

其中，特征提取模块1201，用于获取原始图像，对所述原始图像进行特征提取，以获取与所述原始图像对应的特征图；第一池化模块1202，用于对所述特征图进行第一池化处理，以获取与所述特征图对应的具有不同空间尺度的特征向量；第二池化模块1203，用于对所述具有不同空间尺度的特征向量进行第二池化处理，通过对所述具有不同空间尺度的特征向量进行融合和归一化处理，以获取与所述原始图像对应的图像指纹，并根据所述图像指纹确定与所述原始图像对应的相似图像。

在本公开的一个实施例中，所述特征提取模块1201配置为：获取视频，根据预设时长将所述视频分割为多个视频分片；从各所述视频分片中获取关键图像帧，并将所述关键图像帧作为所述原始图像。

在本公开的一个实施例中，所述特征提取模块1201配置为：将所述原始图像输入至卷积神经网络模型，通过所述卷积神经网络模型对所述原始图像进行特征提取，以获取所述特征图。

在本公开的一个实施例中，所述第一池化模块1202配置为：将所述特征图输入至空间金字塔池化模型，所述空间金字塔池化模型包括多个大小不同的特征提取窗口；通过各所述特征提取窗口对所述特征图进行特征提取，以获取所述具有不同空间尺度的特征向量。

在本公开的一个实施例中，所述第二池化模块1203包括：输入单元，用于将所述不同空间尺度的特征向量输入至第一池化模型，所述第一池化模型包括权重计算单元、特征向量融合单元、归一化单元和后处理单元；权重获取单元，用于通过所述权重计算单元对所述具有不同空间尺度的特征向量进行特征提取和归一化处理，以获取与所述具有不同空间尺度的特征向量对应的权重值；融合单元，用于通过所述特征向量融合单元根据所述不同空间尺度的特征向量和与所述具有不同空间尺度的特征向量对应的权重值对所述具有不同空间尺度的特征向量进行融合，以获取融合特征；归一化单元，用于通过所述归一化单元对所述融合特征进行归一化处理，以获取归一化特征；降维单元，用于通过所述后处理单元对所述归一化特征进行降维处理，以获取图像表示特征作为所述图像指纹。

在本公开的一个实施例中，所述原始图像包括从视频中获取的多个关键图像帧；所述图像表示特征包括与各所述关键图像帧对应的多个图像表示特征；所述图像处理装置配置为：将所述多个图像表示特征按照时间维度依次输入至第二池化模型；通过所述第二池化模型对所述多个图像表示特征进行第三池化处理，以获取视频指纹。

在本公开的一个实施例中，所述第二池化模块1203还配置为：将所述图像指纹与素材库中的待匹配图像指纹进行匹配，以获取所述图像指纹与所述待匹配图像指纹之间的图像相似度；将最大图像相似度对应的待匹配图像指纹确定为目标待匹配图像指纹，并将与所述目标待匹配图像指纹对应的图像作为所述相似图像。

在本公开的一个实施例中，所述图像处理装置1200还包括：采样模块，用于提取所述视频中的音频信息，并根据预设频率对所述音频信息进行采样以获取多个采样点；匹配模块，用于根据所述采样点获取音频指纹，并根据所述视频指纹和所述音频指纹获取与所述视频对应的相似视频。

在本公开的一个实施例中，所述采样模块包括：分段单元，用于根据所述采样点确定多个连续的数据帧，并对各所述数据帧进行数据处理，以获取目标数据帧；滤波单元，用于根据预设帧数量将所述目标数据帧划分为多个处理单元，并对各所述处理单元进行滤波处理，以获取所述音频指纹。

在本公开的一个实施例中，所述分段单元配置为：对各所述数据帧中的数据进行傅立叶变换，并将傅立叶变换后的数据帧转换为预设数量的频率段；对各所述频率段的音频强度进行归一化处理，以获取所述目标数据帧。

在本公开的一个实施例中，所述匹配模块包括：第一匹配单元，用于将所述视频指纹与素材库中的待匹配视频指纹进行匹配，以获取所述视频指纹与所述待匹配视频指纹之间的视频相似度；第二匹配单元，用于将所述音频指纹与所述素材库中的待匹配音频指纹进行匹配，以获取所述音频指纹与所述待匹配音频指纹之间的音频相似度；相似视频获取单元，用于根据所述视频相似度和所述音频相似度确定所述相似视频。

在本公开的一个实施例中，所述相似视频获取单元配置为：当所述视频相似度在第一相似度区间时，将所述素材库中与所述视频相似度对应的视频作为所述相似视频；当所述视频相似度在第二相似度区间且所述音频相似度在第三相似度区间时，将所述素材库中与所述视频相似度和所述音频相似度对应的视频作为所述相似视频；当所述视频相似度在第四相似度区间且所述音频相似度在第五相似度区间时，将所述素材库中与所述视频相似度和所述音频相似度对应的视频作为所述相似视频；其中，所述第一相似度区间、所述第二相似度区间、所述第三相似度区间、所述第四相似度区间和所述第五相似度区间互不相同。

需要说明的是，图13示出的电子设备的计算机系统1300仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图13所示，计算机系统1300包括中央处理单元(Central Processing Unit，CPU)1301，其可以根据存储在只读存储器(Read-Only Memory，ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(Random Access Memory，RAM)1303中的程序而执行各种适当的动作和处理，实现上述实施例中所述的图像标注方法。在RAM 1303中，还存储有系统操作所需的各种程序和数据。CPU 1301、ROM 1302以及RAM1303通过总线1304彼此相连。输入/输出(Input/Output，I/O)接口1305也连接至总线1304。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入存储部分1308。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(CPU)1301执行时，执行本公开的系统中限定的各种功能。

需要说明的是，本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的图像处理装置中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像处理方法，其特征在于，包括：

获取原始图像，将所述原始图像输入至卷积神经网络模型进行特征提取，以获取与所述原始图像对应的特征图；

将所述特征图输入至空间金字塔池化模型进行第一池化处理，以获取与所述特征图对应的具有不同空间尺度的特征向量；

将所述不同空间尺度的特征向量输入至第一池化模型进行第二池化处理，通过对所述具有不同空间尺度的特征向量进行融合和归一化处理，以获取与所述原始图像对应的图像指纹，并根据所述图像指纹确定与所述原始图像对应的相似图像。

2.根据权利要求1所述的图像处理方法，其特征在于，所述获取原始图像，包括：

获取视频，根据预设时长将所述视频分割为多个视频分片；

从各所述视频分片中获取关键图像帧，并将所述关键图像帧作为所述原始图像。

3.根据权利要求1或2所述的图像处理方法，其特征在于，所述空间金字塔池化模型包括多个大小不同的特征提取窗口；

将所述特征图输入至空间金字塔池化模型进行第一池化处理，以获取与所述特征图对应的具有不同空间尺度的特征向量，包括：

通过各所述特征提取窗口对所述特征图进行特征提取，以获取所述具有不同空间尺度的特征向量。

4.根据权利要求1或2所述的图像处理方法，其特征在于，所述第一池化模型包括权重计算单元、特征向量融合单元、归一化单元和后处理单元；

将所述不同空间尺度的特征向量输入至第一池化模型进行第二池化处理，通过对所述具有不同空间尺度的特征向量进行融合和归一化处理，以获取与所述原始图像对应的图像指纹，包括：

通过所述权重计算单元对所述具有不同空间尺度的特征向量进行特征提取和归一化处理，以获取与所述具有不同空间尺度的特征向量对应的权重值；

通过所述特征向量融合单元根据所述不同空间尺度的特征向量和与所述具有不同空间尺度的特征向量对应的权重值对所述具有不同空间尺度的特征向量进行融合，以获取融合特征；

通过所述归一化单元对所述融合特征进行归一化处理，以获取归一化特征；

通过所述后处理单元对所述归一化特征进行降维处理，以获取图像表示特征作为所述图像指纹。

5.根据权利要求4所述的图像处理方法，其特征在于，所述原始图像包括从视频中获取的多个关键图像帧；所述图像表示特征包括与各所述关键图像帧对应的多个图像表示特征；

所述方法还包括：

将所述多个图像表示特征按照时间维度依次输入至第二池化模型；

通过所述第二池化模型对所述多个图像表示特征进行第三池化处理，以获取视频指纹。

6.根据权利要求1所述的图像处理方法，其特征在于，所述根据所述图像指纹确定与所述原始图像对应的相似图像，包括：

将所述图像指纹与素材库中的待匹配图像指纹进行匹配，以获取所述图像指纹与所述待匹配图像指纹之间的图像相似度；

将最大图像相似度对应的待匹配图像指纹确定为目标待匹配图像指纹，并将与所述目标待匹配图像指纹对应的图像作为所述相似图像。

7.根据权利要求5所述的图像处理方法，其特征在于，所述方法还包括：

提取所述视频中的音频信息，并根据预设频率对所述音频信息进行采样以获取多个采样点；

根据所述采样点获取音频指纹，并根据所述视频指纹和所述音频指纹获取与所述视频对应的相似视频。

8.根据权利要求7所述的图像处理方法，其特征在于，所述根据所述采样点获取音频指纹，包括：

根据所述采样点确定多个连续的数据帧，并对各所述数据帧进行数据处理，以获取目标数据帧；

根据预设帧数量将所述目标数据帧划分为多个处理单元，并对各所述处理单元进行滤波处理，以获取所述音频指纹。

9.根据权利要求8所述的图像处理方法，其特征在于，所述对各所述数据帧进行数据处理，以获取目标数据帧，包括：

对各所述数据帧中的数据进行傅立叶变换，并将傅立叶变换后的数据帧转换为预设数量的频率段；

对各所述频率段的音频强度进行归一化处理，以获取所述目标数据帧。

10.根据权利要求7所述的图像处理方法，其特征在于，所述根据所述视频指纹和所述音频指纹获取与所述视频对应的相似视频，包括：

将所述视频指纹与素材库中的待匹配视频指纹进行匹配，以获取所述视频指纹与所述待匹配视频指纹之间的视频相似度；

将所述音频指纹与所述素材库中的待匹配音频指纹进行匹配，以获取所述音频指纹与所述待匹配音频指纹之间的音频相似度；

根据所述视频相似度和所述音频相似度确定所述相似视频。

11.根据权利要求10所述的图像处理方法，其特征在于，所述根据所述视频相似度和所述音频相似度确定所述相似视频，包括：

当所述视频相似度在第一相似度区间时，将所述素材库中与所述视频相似度对应的视频作为所述相似视频；

当所述视频相似度在第二相似度区间且所述音频相似度在第三相似度区间时，将所述素材库中与所述视频相似度和所述音频相似度对应的视频作为所述相似视频；

当所述视频相似度在第四相似度区间且所述音频相似度在第五相似度区间时，将所述素材库中与所述视频相似度和所述音频相似度对应的视频作为所述相似视频；

其中，所述第一相似度区间、所述第二相似度区间、所述第三相似度区间、所述第四相似度区间和所述第五相似度区间互不相同。

12.一种图像处理装置，其特征在于，包括：

特征提取模块，用于获取原始图像，将所述原始图像输入至卷积神经网络模型进行特征提取，以获取与所述原始图像对应的特征图；

第一池化模块，用于将所述特征图输入至空间金字塔池化模型进行第一池化处理，以获取与所述特征图对应的具有不同空间尺度的特征向量；

第二池化模块，用于将所述不同空间尺度的特征向量输入至第一池化模型进行第二池化处理，通过对所述具有不同空间尺度的特征向量进行融合和归一化处理，以获取与所述原始图像对应的图像指纹，并根据所述图像指纹确定与所述原始图像对应的相似图像。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-11中任一项所述的图像处理方法。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-11中任一项所述的图像处理方法。