CN114548218A

CN114548218A - 图像匹配方法、装置、存储介质和电子装置

Info

Publication number: CN114548218A
Application number: CN202210032407.7A
Authority: CN
Inventors: 丁超凡; 徐博磊; 侯雪晴; 崔蓓蕾; 吴迪; 叶均杰
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-05-27

Abstract

本发明公开了一种图像匹配方法、装置、存储介质和电子装置。该方法包括：获取第一图像和第二图像，其中，第一图像为待匹配图像，第二图像为待匹配图像对应的参照图像；从第一图像中提取出第一特征，且从第二图像中提取出第二特征；获取第一特征和第二特征之间的第一目标相关系数，其中，第一目标相关系数用于表示第一特征和第二特征之间的相关程度；基于第一目标相关系数在第二图像中确定与第一图像相匹配的第一目标区域。本发明解决了图像匹配的效率低的技术问题。

Description

图像匹配方法、装置、存储介质和电子装置

技术领域

本发明涉及图像处理领域，具体而言，涉及一种图像匹配方法、装置、存储介质和电子装置。

背景技术

目前，在进行图像匹配时，可以采用基于有监督学习的图像匹配方法来进行。该方法需要预先制造一定规模的数据集，通过数据集来训练模型，基于该模型来实现图像匹配。但是，该方法前期需求大量的人力及时间成本，并且模型泛化性能难以预估，难以产出通用模型，从而存在图像匹配的效率低的技术问题。

针对上述的图像匹配的效率低的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明至少部分实施例提供了一种图像匹配方法、装置、存储介质和电子装置，以至少解决图像匹配的效率低的技术问题。

根据本发明其中一实施例，提供了一种图像匹配方法。该方法可以包括：获取第一图像和第二图像，其中，第一图像为待匹配图像，第二图像为待匹配图像对应的参照图像；从第一图像中提取出第一特征，且从第二图像中提取出第二特征；获取第一特征和第二特征之间的第一目标相关系数，其中，第一目标相关系数用于表示第一特征和第二特征之间的相关程度；基于第一目标相关系数在第二图像中确定与第一图像相匹配的第一目标区域。

可选地，从第一图像中提取出第一特征，包括：基于特征提取模型从第一图像中提取出第一目标特征图，其中，特征提取模型基于卷积神经网络训练得到，且第一目标特征图包括：第一图像的形状特征。

可选地，该方法还包括：基于特征提取模型的特征输出层输出第一目标特征图，其中，特征输出层为基于第一图像的尺寸确定。

可选地，从第二图像中提取出第二特征，包括：基于特征提取模型从第二图像中提取出第二目标特征图，其中，第二目标特征图包括：第二图像的形状特征。

可选地，该方法还包括：基于特征提取模型的特征输出层输出第二目标特征图，其中，特征输出层为基于第一图像的尺寸确定。

可选地，获取第一特征和第二特征之间的第一目标相关系数，包括：将第一目标特征图从时域变换至频域，得到第三目标特征图；将第二目标特征图从时域变换至频域，得到第四目标特征图；对第三目标特征图和第四目标特征图进行归一化交叉相关处理，得到第一目标相关系数。

可选地，对第三目标特征图和第四目标特征图进行归一化交叉相关处理，得到第一目标相关系数，包括：确定第三目标特征图对应的第一复共轭值和第四目标特征图对应的第二复共轭值；对第一复共轭值和第二复共轭值二者之间的积进行傅里叶逆变换，得到第一目标相关系数。

可选地，第一目标特征图为多通道的第一目标特征图，第二目标特征图为多通道的第二目标特征图，获取第一特征和第二特征之间的第一目标相关系数，包括：获取每个通道的第一目标特征图和每个通道的第二目标特征图之间的第一目标相关系数，得到多个第一目标相关系数；基于第一目标相关系数在第二图像中确定与第一图像相匹配的第一目标区域，包括：基于多个第一目标相关系数在第二图像中确定第一目标区域。

可选地，基于多个第一目标相关系数在第二图像中确定第一目标区域，包括：获取多个第一目标相关系数中的最大第一目标相关系数；基于目标调整参数对最大第一目标相关系数进行调整；将多个第一目标相关系数中大于等于调整后的最大第一目标相关系数的相关系数，确定为第二目标相关系数；基于第二目标相关系数在第二图像中确定第一目标区域。

可选地，基于第二目标相关系数在第二图像中确定第一目标区域，包括：确定第二目标相关系数对应的第一位置信息；基于第一位置信息在第二图像中确定第二位置信息；基于第二位置信息确定第一目标区域。

可选地，基于第一位置信息在第二图像中确定第二位置信息，包括：基于第一目标特征图的宽度和高度、第二目标特征图的宽度和高度、第二图像到第二目标特征图的缩放比例，将第一位置信息转换为第二位置信息。

可选地，基于第二位置信息确定第一目标区域，包括：将第二位置信息确定为第一目标区域的中心的位置信息；基于中心的位置信息确定第一目标区域的边界框，以得到第一目标区域。

可选地，在第二目标相关系数的数量为多个的情况下，边界框的数量为多个，基于中心的位置信息确定第一目标区域的边界框，以得到第一目标区域，包括：基于多个边界框之间的交并比，从多个边界框中选取目标边界框；确定目标边界框的数量为多个，则基于第二图像中的目标点从多个目标边界框中选取第一目标边界框；将第一目标边界框在第二图像中的区域，确定为第一目标区域。

可选地，特征提取模型的网络层的感受野尺寸不超过第二图像的尺寸。

可选地，该方法还包括：确定第一图像中包括第一文本信息，则从第一图像中提取出第一文本信息，且从第二图像中提取出第二文本信息；对第一文本信息和第二文本信息进行模糊匹配；确定对第一文本信息和第二文本信息进行模糊匹配成功，则在第二图像中确定与第一文本信息相匹配的第二目标区域。

可选地，在第二图像中确定与第一文本信息相匹配的第二目标区域，包括：确定第一文本信息在第二图像中的第三位置信息；基于第三位置信息确定第二目标区域。

可选地，从第一图像中提取出第一特征，且从第二图像中提取出第二特征，包括：确定第一图像中未包括第一文本信息，或者，确定对第一文本信息和第二文本信息进行模糊匹配失败，则从第一图像中提取出第一特征，且从第二图像中提取出第二特征。

可选地，该方法还包括：获取第一目标区域对应的图像和第一图像二者之间的相似度；确定相似度大于目标阈值，则输出提示信息，其中，提示信息用于表示第一图像与第二图像匹配成功。

根据本发明其中一实施例，还提供了一种图像匹配装置。该装置可以包括：第一获取单元，用于获取第一图像和第二图像，其中，第一图像为待匹配图像，第二图像为待匹配图像对应的参照图像；提取单元，用于从第一图像中提取出第一特征，且从第二图像中提取出第二特征；第二获取单元，用于获取第一特征和第二特征之间的第一目标相关系数，其中，第一目标相关系数用于表示第一特征和第二特征之间的相关程度；确定单元，用于基于第一目标相关系数在第二图像中确定与第一图像相匹配的第一目标区域。

根据本发明其中一实施例，还提供了一种非易失性存储介质，该计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为被处理器运行时执行本发明实施例的图像匹配方法。

根据本发明其中一实施例，还提供了一种处理器，处理器用于运行程序，其中，程序被设置为运行时执行上述任一项中的图像匹配方法。

根据本发明其中一实施例，还提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行本发明实施例的图像匹配方法。

在本发明至少部分实施例中，采用获取第一图像和第二图像，其中，第一图像为待匹配图像，第二图像为待匹配图像对应的参照图像；从第一图像中提取出第一特征，且从第二图像中提取出第二特征；获取第一特征和第二特征之间的第一目标相关系数，其中，第一目标相关系数用于表示第一特征和第二特征之间的相关程度；基于第一目标相关系数在第二图像中确定与第一图像相匹配的第一目标区域。也就是说，本申请利用待匹配图像的特征和待匹配图像对应的参照图像的特征确定第一目标相关系数，进而基于该第一目标相关系数来在待匹配图像对应的参照图像中找到与给定的待匹配图像进行匹配的区域，该方法满足自动化测试场景下通用性的条件，避免了基于有监督学习的图像匹配方法需要预先制造一定规模的数据集，难以产出通用模型，从而解决了图像匹配的效率低的技术问题，达到了提高图像匹配的效率的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种图像匹配方法的移动终端的硬件结构框图；

图2是根据本发明其中一实施例的一种图像匹配方法的流程图；

图3是根据本发明其中一实施例的一种模板匹配的示意图；

图4是根据本发明其中一实施例的一种图像匹配的方法的流程图；

图5是根据本发明其中一实施例的一种基于OCR的文本匹配效果的示意图；

图6是根据本发明其中一实施例的一种互相关系数的确定的示意图；

图7是根据本发明其中一实施例的特征图的示意图；

图8是根据本发明其中一实施例的一种模板图像和原图像的边界框的示意图；

图9是根据本发明其中一实施例的一种对原图像的边界框进行后处理的示意图；

图10是根据本发明其中一实施例的一种对多个边界框筛选后的结果的示意图；

图11是根据本发明其中一实施例的另一种对多个边界框筛选后的结果的示意图；

图12是根据本发明其中一实施例的一种图像匹配装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明其中一实施例，提供了一种图像匹配方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

该方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，该移动终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，简称为MID)、PAD、游戏机等终端设备。图1是本发明实施例的一种图像匹配方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于中央处理器(CPU)、图形处理器(GPU)、数字信号处理(DSP)芯片、微处理器(MCU)、可编程逻辑器件(FPGA)、神经网络处理器(NPU)、张量处理器(TPU)、人工智能(AI)类型处理器等的处理装置)和用于存储数据的存储器104。可选地，上述移动终端还可以包括用于通信功能的传输设备106、输入输出设备108以及显示设备110。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的图像匹配方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的图像匹配方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

输入输出设备108中的输入可以来自多个人体学接口设备(Human InterfaceDevice，简称为HID)。例如：键盘和鼠标、游戏手柄、其他专用游戏控制器(如：方向盘、鱼竿、跳舞毯、遥控器等)。部分人体学接口设备除了提供输入功能之外，还可以提供输出功能，例如：游戏手柄的力反馈与震动、控制器的音频输出等。

显示设备110可以例如平视显示器(HUD)、触摸屏式的液晶显示器(LCD)和触摸显示器(也被称为“触摸屏”或“触摸显示屏”)。该液晶显示器可使得用户能够与移动终端的用户界面进行交互。在一些实施例中，上述移动终端具有图形用户界面(GUI)，用户可以通过触摸触敏表面上的手指接触和/或手势来与GUI进行人机交互，此处的人机交互功能可选的包括如下交互：创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或可读存储介质中。

在一种可能的实施方式中，本发明实施例提供了一种图像匹配方法。图2是根据本发明其中一实施例的一种图像匹配方法的流程图。如图2所示，该方法可以包括如下步骤：

步骤S202，获取第一图像和第二图像，其中，第一图像为待匹配图像，第二图像为待匹配图像对应的参照图像。

在本发明上述步骤S202提供的技术方案中，可以是输入第一图像，该第一图像可以为待匹配图像，比如，可以为模板匹配(template matching)中给定的待进行匹配的模板图像(template)。该实施例还输入第二图像，该第二图像可以为与待匹配图像相对应的参照图像，比如，可以为模板匹配中的原图像(source)。该实施例的上述第一图像待在第二图像中确定与其匹配的区域。

步骤S204，从第一图像中提取出第一特征，且从第二图像中提取出第二特征。

在本发明上述步骤S204提供的技术方案中，在获取第一图像和第二图像之后，可以从第一图像中提取出第一特征，且从第二图像中提取出第二特征。

在该实施例中，可以对第一图像进行特征提取操作，从第一图像中提取出第一特征(feature)，该第一特征也可以称为模板图特征(template features)，可以为特征图(feature maps)，该从第一图像中提取出第一特征的方法可以消除第一图像的背景变化影响。该实施例还可以对第二图像进行特征提取操作，从第二图像中提取出第二特征，该第二特征可以称为原图像特征(source features)，可以为特征图，该从第二图像中提取出第二特征的方法可以消除第二图像的背景变化影响。

步骤S206，获取第一特征和第二特征之间的第一目标相关系数，其中，第一目标相关系数用于表示第一特征和第二特征之间的相关程度。

在本发明上述步骤S206提供的技术方案中，在从第一图像中提取出第一特征，且从第二图像中提取出第二特征之后，可以获取第一特征和第二特征之间的第一目标相关系数，该第一目标相关系数用于表示第一特征和第二特征之间的相关程度。

在该实施例中，可以对第一特征和第二特征进行特征匹配，可以获取第一特征和第二特征之间的第一目标相关系数，该第一目标相关系数也可以称为互相关系数、相关度，用于表示第一特征和第二特征之间的相关程度，其可以是基于快速傅里叶变化(FastFourier Transform，简称为FFT)对第一特征和第二特征进行计算，比如，基于快速傅里叶变换将第一特征和第二特征从时域转换为频域，以计算第一特征和第二特征之间的第一目标相关系数，这样可以在保持处理精度的同时，极大地提升处理速度。

步骤S208，基于第一目标相关系数在第二图像中确定与第一图像相匹配的第一目标区域。

在本发明上述步骤S208提供的技术方案中，在获取第一特征和第二特征之间的第一目标相关系数之后，可以基于第一目标相关系数在第二图像中确定与第一图像相匹配的第一目标区域，该第一目标区域可以为在第二图像中对第一图像匹配到的小块区域，可以为感兴趣区域Region of Interest，简称为ROI)。

可选地，该实施例可以输出第一目标区域的边界框和中心点的位置信息，该位置信息可以为中心点的坐标信息。

该实施例的上述方法可以应用于计算机视觉中的自动化测试场景中，比如，应用于一机多控自动化测试场景下，以实现目标检测、跟踪。其中，一机多控自动化测试场景可以是指操作一台终端设备进行对象录制，在录制完对象后，在其他N台终端设备上对录制的对象进行回放操作。

通过上述步骤S202至步骤S208，获取第一图像和第二图像，其中，第一图像为待匹配图像，第二图像为待匹配图像对应的参照图像；从第一图像中提取出第一特征，且从第二图像中提取出第二特征；获取第一特征和第二特征之间的第一目标相关系数，其中，第一目标相关系数用于表示第一特征和第二特征之间的相关程度；基于第一目标相关系数在第二图像中确定与第一图像相匹配的第一目标区域。也就是说，该实施例利用待匹配图像的特征和待匹配图像对应的参照图像的特征确定第一目标相关系数，进而基于该第一目标相关系数来在待匹配图像对应的参照图像中找到与给定的待匹配图像进行匹配的区域，该方法满足自动化测试场景下通用性的条件，避免了基于有监督学习的图像匹配方法需要预先制造一定规模的数据集，难以产出通用模型，从而解决了图像匹配的效率低的技术问题，达到了提高图像匹配的效率的技术效果。

下面对该实施例的上述方法进行进一步地介绍。

作为一种可选的实施方式，步骤S204，从第一图像中提取出第一特征，包括：基于特征提取模型从第一图像中提取出第一目标特征图，其中，特征提取模型基于卷积神经网络训练得到，且第一目标特征图包括：第一图像的形状特征。

在该实施例中，在实现从第一图像中提取出第一特征时，可以是调用特征提取模型，将第一图像输入至特征提取模型中，通过该特征提取模型对第一图像进行处理，从而得到第一目标特征图，上述第一特征包括该第一目标特征图。可选地，该实施例的特征提取模型可以为深度特征提取器，其可以为具备形状偏向性，且通过无监督方法来训练得到的预训练模型，这样上述第一目标特征图可以包括第一图像的形状特征，以消除背景变化影响，其可以基于卷积神经网络(Convolutional Neural Network，简称为CNN)训练得到，从而该实施例的特征提取模型可以为预训练CNN模型。

可选地，该实施例可以对风格化的数据集(Stylized-ImageNet，简称为SIN)与图像识别最大数据库(ImageNet，简称为IN)的数据集进行混合训练，得到基于形状表征的上述特征提取模型，也即，该特征提取模型增加了图像形状偏置。可选地，该特征提取模型可以为视觉组(Visual Geometry Group，简称为VGG)，其为一种新的深度卷积神经网络模型，比如，为VGG-19，其也可以称为VGG19_SIN_IN(通过SIN&IN数据集混合训练)，以通过其从第一图像中提取出第一目标特征图。

在相关技术中，卷积神经网络更倾向于利用颜色及纹理进行预测，但这与人类通过形状辨别物体的方式不同。而在该实施例中，采用的是增加了图像形状偏置的特征提取模型来从第一图像中提取出第一目标特征图，从而能更好地提取出第一图像中的形状特征，使得对于图像内容能进行更精准地刻画。

作为一种可选的实施方式，该方法还包括：基于特征提取模型的特征输出层输出第一目标特征图，其中，特征输出层为基于第一图像的尺寸确定。

在该实施例中，特征提取模型可以包括特征输出层，该特征输出层可以是基于第一图像的尺寸来进行确定的，从而实现了自适应调整特征输出层，实现尺度自适应的目的，其中，该第一图像的尺寸可以是CNN特征输出层，从而基于其输出第一目标特征图，将其作为后续特征匹配算法的输入。

第一图像的尺寸与第二图像的尺寸之间的差异可以较大，而在相关技术中，通常是对第一图像的尺寸和第二图像的尺寸进行图像尺寸变换(resize)后，以统一大小作为CNN输入，这样会导致信息丢失以及特征匹配失败，而该实施例的特征提取模型的特征输出层是基于第一图像的尺寸确定的，实现了自适应调整特征输出层，从而避免信息丢失以及特征匹配失败。

作为一种可选的实施方式，步骤S204，从第二图像中提取出第二特征，包括：基于特征提取模型从第二图像中提取出第二目标特征图，其中，第二目标特征图包括：第二图像的形状特征。

在该实施例中，在实现从第二图像中提取出第二特征时，可以是调用上述已经训练好的特征提取模型，将第二图像输入至特征提取模型中，通过该特征提取模型对第二图像进行处理，从而得到第二目标特征图，上述第二特征包括该第二目标特征图。由于该实施例的特征提取模型可以为具备形状偏向性的预训练模型，这样上述第二目标特征图可以包括第二图像的形状特征，以消除背景变化影响。

作为一种可选的实施方式，该方法还包括：基于特征提取模型的特征输出层输出第二目标特征图，其中，特征输出层为基于第一图像的尺寸确定。

在该实施例中，特征提取模型的特征输出层可以是基于第一图像的尺寸来进行确定的，从而实现了自适应调整特征输出层，实现尺度自适应的目的，该实施例可以基于特征输出层输出第二目标特征图，将其作为后续特征匹配算法的输入，避免信息丢失以及特征匹配失败。

作为一种可选的实施方式，步骤S206，获取第一特征和第二特征之间的第一目标相关系数，包括：将第一目标特征图从时域变换至频域，得到第三目标特征图；将第二目标特征图从时域变换至频域，得到第四目标特征图；对第三目标特征图和第四目标特征图进行归一化交叉相关处理，得到第一目标相关系数。

在该实施例中，在实现获取第一特征和第二特征之间的第一目标相关系数时，可以是将第一目标特征图从时域变换至频域，比如，对时域中的第一目标特征图进行快速傅里叶变换，得到频域的第三目标特征图。可选地，该实施例还将第二目标特征图从时域变换至频域，得到第四目标特征图，比如，对时域的第二目标特征图进行快速傅里叶变换，得到频域的第四目标特征图。在得到频域中的第三目标特征图和第四目标特征图之后，可以对频域中的第三目标特征图和第四目标特征图进行归一化交叉相关处理(NormalizedCross-Correlation，简称为NCC)，得到第一目标相关系数。

可选地，如果第一图像通过t进行表示，其大小可以为N_x×N_y，第二图像通过f进行表示，其大小可以为M_x×M_y，对第一图像和第二图像采用NCC进行处理，可以是利用第一图像在第二图像上滑窗的方式(pixel-by-pixel)，来计算在每一个点(u,v)下第一图像f与第二图像t之间的相关系数，则可以得到相关系数矩阵γ_u,v，可以以相关系数矩阵γ_u,v中的最大值γ_max作为最佳匹配位置。

其中，u∈{0，1，2，...，M_x-N_x}，v∈{0，1，2，...，M_y-N_y}。

用于表示第一图像在第二图像f(x，y)移动区域内的像素均值，

的定义可以如下：

但是，上述NCC具备极高的计算代价，其计算复杂度为N_xN_y(M_x-N_x)(M_y-N_y)，并且随着图像尺度的增大而指数上升。另外，基于逐像素滑窗进行相似性度量的方式，当第一图像和第二图像的背景杂乱，或在发生复杂形变的情况下，匹配性能较差，并且计算量庞大，无法满足图像匹配的实时推理的要求。

然而，在该实施例中，采用基于快速傅里叶变换的NCC计算方法，对与第一图像对应的频域中的第三目标特征图和与第二图像对应的频域中的第四目标特征图进行归一化交叉相关处理，得到第一目标相关系数，可以极大地降低了匹配时长，且时域与频域之间互相转换无信息丢失，匹配的精度可以与NCC保持一致。

可选地，该实施例针对上述公式(1)，可对其由时域等价转换为频域进行计算，得到如(3)式所示的频域下傅里叶相关系数：

r(u，v)＝∑_x，yf(x，y)·t(x-u，y+v)

R(u，v)＝F(u，v)·T(u，v) (3)

作为一种可选的实施方式，对第三目标特征图和第四目标特征图进行归一化交叉相关处理，得到第一目标相关系数，包括：确定第三目标特征图对应的第一复共轭值和第四目标特征图对应的第二复共轭值；对第一复共轭值和第二复共轭值二者之间的积进行傅里叶逆变换，得到第一目标相关系数。

在该实施例中，在将第一目标特征图从时域变换至频域，得到第三目标特征图；将第二目标特征图从时域变换至频域，得到第四目标特征图之后，由(3)式可知，可以是先对第三目标特征图求复共轭，得到第一复共轭值T(u，v)，并且对第四目标特征图求复共轭，得到第二复共轭值F(u，v)，然后对第一复共轭值和第二复共轭值进行相乘，得到二者之间的乘积R(u，v)＝F(u，v)·T(u，v)，然后对其进行傅里叶逆变换(inverse FFT)，得到第一目标相关系数，如下式所示：

在该实施例中，经过FFT变换后的NCC计算复杂度为M_xM_ylog₂(M_xM_y)，从而达到了大大降低了相关系数计算的复杂度的效果。

作为一种可选的实施方式，第一目标特征图为多通道的第一目标特征图，第二目标特征图为多通道的第二目标特征图，步骤S206，获取第一特征和第二特征之间的第一目标相关系数，包括：获取每个通道的第一目标特征图和每个通道的第二目标特征图之间的第一目标相关系数，得到多个第一目标相关系数；步骤S208，基于第一目标相关系数在第二图像中确定与第一图像相匹配的第一目标区域，包括：基于多个第一目标相关系数在第二图像中确定第一目标区域。

在该实施例中，第一目标特征图可以为多通道(维度)的第一目标特征图，比如，可以为C个通道的第一目标特征图，该第一目标特征图可以通过F_t进行表示，其可以为灰度图，其中，C可以为512，此处不做具体限制。该实施例的第二目标特征图可以为多通道的第二目标特征图，比如，可以为C个通道的第二目标特征图，该第二目标特征图可以通过F_f进行表示，其可以为灰度图。该实施例可以对多通道的第一目标特征图和对应的多通道的第二目标特征图进行遍历，分别计算每个通道的第一目标特征图和对应的每个通道的第二目标特征图之间的第一目标相关系数，从而可以得到多个第一目标相关系数，可以通过该多个第一目标相关系数确定相关系数矩阵，该相关系数矩阵可以称为互相关矩阵，进而通过其在第二图像中确定第一目标区域。

作为一种可选的实施方式，基于多个第一目标相关系数在第二图像中确定第一目标区域，包括：获取多个第一目标相关系数中的最大第一目标相关系数；基于目标调整参数对最大第一目标相关系数进行调整；将多个第一目标相关系数中大于等于调整后的最大第一目标相关系数的相关系数，确定为第二目标相关系数；基于第二目标相关系数在第二图像中确定第一目标区域。

在该实施例中，可以获取相关系数矩阵中的最大第一目标相关系数，比如，为γ_max，然后基于目标调整参数对最大第一目标相关系数进行调整，比如，目标调整参数可以为thr，其可以取值0.98，该取值可以是在经过大量测试之后所确定出来的固定值。该实施例可以对目标调整参数和最大第一目标相关系数进行相乘，从而得到调整后的最大第一目标相关系数，该实施例可以将多个第一目标相关系数中大于等于调整后的第一目标相关系数的相关系数，确定为第二目标相关系数，也即，该第二目标相关系数可以为：

r_u,v≥thr*r_max (5)

该实施例可以保留所有的第二目标相关系数γ_u,v，进而可以基于所有的第二目标相关系数来在第二图像中确定第一目标区域。

需要说明的是，由于第一图像和第二图像存在背景变化的差异性，如果仅仅获取相关系数矩阵中的最大值γ_max，则可能会导致图像匹配不准确，甚至图像匹配失败的问题，而该实施例基于目标调整参数对最大第一目标相关系数进行调整，进而基于调整后的最大第一目标相关系数来在在第二图像中确定第一目标区域，实现图像匹配的目的，提高了图像匹配的准确性，保证了图像匹配的成功率。

作为一种可选的实施方式，基于第二目标相关系数在第二图像中确定第一目标区域，包括：确定第二目标相关系数对应的第一位置信息；基于第一位置信息在第二图像中确定第二位置信息；基于第二位置信息确定第一目标区域。

在该实施例中，在实现基于第二目标相关系数在第二图像中确定第一目标区域时，可以是先确定第二目标相关系数对应的第一位置信息，该第一位置信息可以是与第二目标相关系数对应的坐标值(u,v)，也即，满足条件的输出坐标值(u,v)。该实施例可以基于上述第一位置信息在第二图像中确定出对应的第二位置信息，该第二位置信息可以为第一目标区域的中心(center)的位置信息，进而基于该第二位置信息在第二图像中确定出第一目标区域。

作为一种可选的实施方式，基于第一位置信息在第二图像中确定第二位置信息，包括：基于第一目标特征图的宽度和高度、第二目标特征图的宽度和高度、第二图像到第二目标特征图的缩放比例，将第一位置信息转换为第二位置信息。

在该实施例中，在实现基于第一位置信息在第二图像中确定第二位置信息时，可以是先确定第一目标特征图的宽度，其可以通过F_t,width进行表示，还可以确定第一目标特征图的高度，其可以通过F_t,hight进行表示。该实施例还可以确定第二目标特征图的宽度，其可以通过F_f,width进行表示，还可以确定第二目标特征图的高度，其可以通过F_f,hight进行表示。该实施例还可以获取第二图像到第二目标特征图的缩放比例，比如，第二图像的尺寸为M_x×M_y，则该缩放比例可以为

从而该实施例基于第一目标特征图的宽度和高度、第二目标特征图的宽度和高度、第二图像到第二目标特征图的缩放比例，将第一位置信息转换为第二位置信息。

可选地，该实施例的第一位置信息可以为坐标值(u,v)，可以将其转换至第二图像中的第二位置信息，该第二位置信息可以为第二图像中的中心点的坐标(x_center,y_center)，则可以通过下述公式来基于第一目标特征图的宽度和高度、第二目标特征图的宽度和高度、第二图像到第二目标特征图的缩放比例，将第一位置信息转换为第二位置信息：

作为一种可选的实施方式，基于第二位置信息确定第一目标区域，包括：将第二位置信息确定为第一目标区域的中心的位置信息；基于中心的位置信息确定第一目标区域的边界框，以得到第一目标区域。

在该实施例中，在实现基于第二位置信息确定第一目标区域时，可以是将第二位置信息确定为第一目标区域的中心的位置信息，比如，该中心的位置新可以为上述中心点的坐标(x_center,y_center)，进而可以根据其生成边界框，进而通过该边界框和中心的位置信息来在第二图像中确定第一目标区域。

作为一种可选的实施方式，在第二目标相关系数的数量为多个的情况下，边界框的数量为多个，基于中心的位置信息确定第一目标区域的边界框，以得到第一目标区域，包括：基于多个边界框之间的交并比，从多个边界框中选取目标边界框；确定目标边界框的数量为多个，则基于第二图像中的目标点从多个目标边界框中选取第一目标边界框；将第一目标边界框在第二图像中的区域，确定为第一目标区域。

在该实施例中，由于第二目标相关系数r_u,v≥thr*r_max，其数量可以为多个，因而，其对应的坐标值(u,v)的数量也可以为多个，由其确定的第一目标区域的中心的位置信息也可以为多个，进行生成多个边界框，该多个边界框可以为第二图像上的同一位置上的多个冗余边界框。该实施例可以基于多个边界框之间的交并比，从多个边界框中选取目标边界框，可选地，该实施例可以采用非极大值抑制(Non-Maximum Suppression，简称为NMS)来实现基于多个边界框之间的交并比，从多个边界框中选取目标边界框，其目的可以是消除同一位置上的大量冗余边界框。在该实施例中，在采用NMS从多个边界框(候选框)中进行筛选时，可以是以边界框内一定范围内的γ_u,v总和，作为对多个边界框进行排序的排序依据，并以排序后的多个边界框的交并比(IoU大)于目标值作为剔除标准，比如，目标值可以为0.5，对多个边界框重复剔除，直到边界框列表为空，输出目标边界框。

可选地，在该实施例中，在从多个边界框中选取目标边界框之后，可以仍保留多个目标边界框(极大值框，多目标问题)，则可以进一步基于第二图像中的目标点从多个目标边界框中选取唯一的第一目标边界框。可选地，该实施例可以经基准点坐标抑制方法来从多个目标边界框中选取出唯一边界框，进而出输出该唯一边界框，利用其在第二图像中确定第一目标区域，其中，基准点坐标抑制方法是以用户点击屏幕坐标点作为基准点，舍弃归一化距离确定范围外的算法输出结果。可选地，该实施例的第二图像中的目标点可以为通过在设备的屏幕上进行触控操作，而得到的坐标点，可以将其作为基准点A，通过模型输出对应的中心点为B，其默认可以满足一机多控时多台设备真实匹配区域的中心点坐标与基准点坐标相距不远的前提条件。当A与B满足下式时，即归一化距离小于0.1，则可以输出B：

norm(|A_i-B_i|)<0.1 (7)

其中，i用于表示第i个基准点A和对应的中线点B。

作为一种可选的实施方式，特征提取模型的网络层的感受野尺寸不超过第二图像的尺寸。

在该实施例中，特征提取模型需要一定的感受野尺寸(Receptive field size)限制，比如，特征提取模型为CNN，则通过一定感受野的大小限制可以保证性能。可选地，该实施例的特征提取模型的网络层的感受野尺寸RF不超过第二图像的尺寸S，如下式所示：

RF≤S (8)

其中，特征提取模型的第i层网络输出的特征图(第一目标特征图或第二目标特征图)的感受野大小RF的计算可以如下式所示：

RF_i＝RF_i-1+(k-1)j_i-1 (9)

其中，k可以用于表示特征提取模型的i层卷积核尺寸(kernel size)，j可以用于表示输出的特征图的特征间的间隔，其等于上一层的间隔值乘以卷积的步长。

该实施例可以通过上述公式(9)计算特征提取模型的每层感受野的大小。可选地，该实施例可以默认第一图像的尺寸可以第二图像的尺寸的1/10(尺寸可被调节，但基本不会剧烈变化)，其可以处于216～256区间内。因而，该实施例经过自适应特征选择，多数可以以conv5_n层网络作为特征输出层，该层数较深可满足提取丰富语义信息的前置条件。

作为一种可选的实施方式，该方法还包括：确定第一图像中包括第一文本信息，则从第一图像中提取出第一文本信息，且从第二图像中提取出第二文本信息；对第一文本信息和第二文本信息进行模糊匹配；确定对第一文本信息和第二文本信息进行模糊匹配成功，则在第二图像中确定与第一文本信息相匹配的第二目标区域。

在该实施例中，可以先判断第一图像中是否包括第一文本信息，可选地，该实施例可以对第一图像进行光学字符识别(Optical Character Recognition，简称为OCR)文字识别，以确定第一图像中是否包括第一文本信息，如果第一图像包括第一文本信息，比如，第一图像为文字类模板图，包括模板文本(template words)，则还可以对第二图像进行OCR识别，得到第二文本信息，比如，该第二文本信息可以为原图像文本(source words)。可选地，该实施例可以对第一图像进行用文字检测(DBnet)以及文字识别(CRNN)，以推理得到第一图像所包含的第一文本信息和第二图像所包含的第二文本信息。在从第一图像中提取出第一文本信息，且从第二图像中提取出第二文本信息之后，可以对第一文本信息和第二文本信息进行文本模糊匹配，如果对第一文本信息和第二文本信息进行模糊匹配成功，则可以在第二图像中确定与第一文本信息相匹配的第二目标区域。

作为一种可选的实施方式，在第二图像中确定与第一文本信息相匹配的第二目标区域，包括：确定第一文本信息在第二图像中的第三位置信息；基于第三位置信息确定第二目标区域。

在该实施例中，在实现在第二图像中确定与第一文本信息相匹配的第二目标区域时，可以是先确定第一文本信息在第二图像中的第三位置信息，进而基于该第三位置信息确定第二目标区域，可以是基于第三位置信息在第二图像中确定文本检测框以及中心点的位置信息，进而输出该文本检测框以及中心点的位置信息。

作为一种可选的实施方式，步骤S204，从第一图像中提取出第一特征，且从第二图像中提取出第二特征，包括：确定第一图像中未包括第一文本信息，或者，确定对第一文本信息和第二文本信息进行模糊匹配失败，则从第一图像中提取出第一特征，且从第二图像中提取出第二特征。

在该实施例中，如果通过对第一图像进行OCR识别，确定第一图像中未包括第一文本信息，则可以从第一图像中提取出第一特征，且从第二图像中提取出第二特征。可选地，如果确定对第一文本信息和第二文本信息进行模糊匹配失败了，则也可以从第一图像中提取出第一特征，且从第二图像中提取出第二特征，以基于第一特征和第二特征之间的第一目标相关系数在第二图像中确定与第一图像相匹配的第一目标区域。

作为一种可选的实施方式，该方法还包括：获取第一目标区域对应的图像和第一图像二者之间的相似度；确定相似度大于目标阈值，则输出提示信息，其中，提示信息用于表示第一图像与第二图像匹配成功。

在该实施例中，在基于第一目标相关系数在第二图像中确定与第一图像相匹配的第一目标区域之后，可以对第一目标区域对应的图像和第一图像计算相似度，然后判断该相似度是否大于目标阈值，该目标阈值为用于衡量第一目标区域对应的图像和第一图像二者之间的相似程度的临界阈值，可以为余弦相似度的阈值，该实施例的第一目标区域对应的图像和第一图像之间的相似度的计算结果，以某个目标阈值为标准，比如，目标阈值为0.9，如果相似度大于0.9，则表示第一目标区域对应的图像和第一图像之间是相似的，否则，则表示第一目标区域对应的图像和第一图像之间是不相似的。

如果确定上述相似度大于目标阈值，则可以输出提示信息，确定第一图像与第二图像匹配成功，可以输出第一图像在第二图像中匹配到的第一目标区域。

可选地，在第一图像中存在第一文本信息的情况下，可以对第二目标区域对应的图像和第一图像计算相似度，然后判断该相似度是否大于目标阈值。如果确定上述相似度大于目标阈值，则同样可以输出提示信息，确定第一图像与第二图像匹配成功，可以输出第一图像在第二图像中匹配到的第二目标区域。

可选地，如果确定相似度不大于目标阈值，则可以输出空值(None)，进行人工干预，比如，在一机多控自动化测试场景下测试游戏应用，现在需要选择A地图，其中某一台终端设备在图像匹配失败后则会停下来，需要用户手动去点击下A地图，以进行人工干预。

可选地，如果错误地进入了B地图，则出现假成功(false positive)问题，则测试人员需要进行退出游戏应用重新选择地图等一系列重置/回退负担。为了避免该假成功问题，该实施例可以对第一目标区域对应的图像和第一图像计算相似度，在该相似度不大于目标阈值时输出None，进而进行人工干预。

可选地，该实施例在计算第一目标区域对应的图像和第一图像二者之间的相似度时，可以是输入第一目标区域对应的图像的特征F_b与第一图像的第一目标特征图F_t，则相似度结果confidence可以由下式计算：

其中，flatten用于表示将多通道(比如，C通道)的F_b和F_t展平至一维。

该实施例以具备尺度自适应特性、与形状偏向性的预训练CNN模型作为特征提取模块，结合基于快速傅里叶变换的快速NCC作为核心匹配算法，其在背景变化的等复杂情况下依然具备强鲁棒性。针对第一图像中有文本的情况，可以引入OCR文字识别进行字符模糊匹配。此外，为避免自动化测试过程中出现假成功情况，加入非极大值抑制、基准点坐标抑制与相似度计算等后处理方案，可以产出具有高鲁棒性、实时推理且能够有效避免假成功的图像匹配系统。

下面对该实施例的上述技术方案进行进一步地举例说明，具体以上述第一图像为模板图像，上述第二图像为原图像进行举例说明。

在该实施例中，模板匹配算法是计算机视觉中的基础任务之一，可以应用于目标检测、跟踪等领域。图3是根据本发明其中一实施例的一种模板匹配的示意图。如图3所示，可以在原图像b中找到与给定的模板图像a匹配的小块区域位置c，粗线框即为匹配到的小块区域位置c。在自动化测试中，模板匹配算法也扮演着定位感兴趣区域的重要角色。

在相关技术中，模板匹配算法可以包括以下方法：以物体识别算法(SIFT/SURF)等传统算子为代表，可以进行局部不变特征点数量的匹配，并以随机抽样一致算法(RandomSample Consensus，简称为RANSAC)、模式匹配算法(BF)等算法来剔除误匹配点；(2)可以通过滑窗的方式对模板图和原图的子窗口作逐像素相似性度量，可以将三通道图像转为灰度图进行计算，以绝对误差和算法(Sum of Absolute Differences，简称SAD算法)、统计与数据分析(CSAD)、NCC等算法作为相似性度量方式；(3)可以以深度学习作为局部图像匹配方案，主流体系结构为用于训练求解相似度函数的网络(Siamese)和三元组抽象数据(triplet)网络，比如，可以为双分支权重共享网络(MatchNet)、局部块描述子(L2-Net)等算法，其可以被分为有度量层、无度量层两类。

由于需要满足在自动化场景下通用性的条件，相关技术还在各种不适应性，比如，上述方法(1)以SIFT/SURF为代表的局部特征点匹配方案，过于依靠先验知识，从而导致在不同场景下图像匹配的鲁棒性较差，尤其是在模板图或原图像的尺度变化、平滑区域情况下，图像匹配的性能骤降；上述方法(2)基于逐像素滑窗进行相似性度量的方式，当模板图或原图像背景杂乱，或者模板图或原图像在发生复杂形变的情况下性能较差，并且计算量庞大，无法满足图像匹配的实时推理的要求；上述方法(3)基于有监督学习的图像匹配方案，其匹配精度可以远高于以上方案，但由于需要一定规模的数据集进行训练，因而前期需求大量人力及时间成本，且泛化性也能难以预估。

另外，在一机多控自动化测试场景下，图像匹配难点主要集中在图像几何变化、模板背景纹理变化、平滑区域多、假成功匹配、实时推理等问题；基于监督学习的图像匹配算法在不同场景下鲁棒性较强，但需要事先制造大量训练集且存在泛化性问题，难以产出通用模型；由于不同匹配算法最终都会输出置信度最高的值，但不一定是实际最优解，在自动化测试中若出现假成功问题会对测试人员造成极大的重置/回退负担。

因而，针对上述问题，该实施例以具备尺度自适应特性、与形状偏向性的预训练CNN模型作为深度特征提取器，结合基于快速傅里叶变换FFT的NCC作为核心匹配算法，其在背景变化的等复杂情况下依然具备强鲁棒性。而针对模板图的前景为文本的情况，引入OCR文字识别进行字符模糊匹配。此外，为避免自动化测试过程中出现假成功情况，可以加入非极大值抑制、基准点坐标抑制与相似度计算等后处理方案，从而产出具有高鲁棒性、实时推理且能够有效避免假成功的图像匹配系统。

下面对该实施例的上述方法进行进一步地介绍。

图4是根据本发明其中一实施例的一种图像匹配的方法的流程图。如图4所示，该方法可以包括以下步骤：

步骤S401，获取模板图。

步骤S402，获取原图像。

步骤S403，对模板图进行OCR识别。

步骤S404，进入对模板图和原图像进行OCR文字匹配的流程。

该实施例可以在对模板图进行OCR识别，从输入的模板图像中提取出文本信息，则进入对模板图和原图像进行OCR文字匹配的流程。

步骤S405，从模板图像中提取出模板图文本。

步骤S406，从原图像中提取出原图像文本。

步骤S407，对模板图文本和原图像文本进行文本模糊匹配。

步骤S408，输出匹配到的文本的检测框和中心点坐标。

该实施例在对模板图文本和原图像文本进行文本模糊匹配成功的情况下，可以直接输出模板图像在原图像中对应的文本边界框及中心点坐标。

步骤S409，进入模板图和原图像进行CNN特征匹配的流程。

该实施例可以在对模板图进行OCR识别，确定模板图中不存在文本信息的情况下，或者确定对模板图文本和原图像文本进行文本模糊匹配失败的情况下，进入模板图和原图像进行CNN特征匹配的流程。

步骤S410，从模板图像中提取出模板图特征。

步骤S411，从原图像中提取出原图像特征。

步骤S412，基于FFT计算模板图像特征和原图像特征之间的互相关系数。

步骤S413，基于互相关系数在原图像中确定模板图像对应的区域。

该实施例基于互相关系数在原图像中确定模板图像对应的区域，对该区域对应的多个边界框经后处理输出唯一边界框，进而在原图像中显示出来。

该实施例可以利用CNN特征匹配确定最终ROI区域及其中心点位置。

下面对该实施例的基于OCR文字识别的模板匹配算法进行介绍。

在该实施例中，在基于OCR的模板匹配方法中，可以采用文字检测(DBnet)+文字识别(CRNN)的经典两阶段算法，以推理得到文本信息进行模糊匹配，确定模板图中的文字在原图像中对应的位置，进而输出文字检测框的坐标以及中心点坐标。

举例而言，对于手游中艺术字体较多的场景，可以针对性制造训练样本，对OCR识别模型作微调，以改善算法识别效果。基于OCR的文本匹配效果如图5所示，比如，模板图为包括文字“进入”的模板图像，可以在原图像和模板图像中识别出“进入”，以在原图像中确定与包括文字“进入”的模板图像相匹配的区域d。其中，图5是根据本发明其中一实施例的一种基于OCR的文本匹配效果的示意图。

需要说明的是，上述实施例中的基于OCR的文本匹配效果仅为本发明实施例的一种举例说明，并不对本发明实施例的基于OCR的文本匹配效果进行限制。

下面对该实施例的基于预训练CNN的无监督模板匹配算法进行介绍。

在该实施例中，CNN特征匹配可分为特征提取和相关度计算这两大模块。

在特征提取部分，可以采用具备形状偏向性的预训练模型以消除背景变化影响，并以自适应调整特征输出层的方式保证相同的(模板图像与原图像)的深度特征表征；

在相关度计算部分，可以基于快速傅里叶变换将模板图像的特征图和原图像的特征图从时域转为频域，以计算互相关系数，在保持精度的同时极大地提升图像匹配时的推理速度。

下面对该实施例的特征提取部分进行介绍。

在该实施例中，可以对Stylized-ImageNet(SIN)与ImageNet(IN)数据集进行混合训练，得到基于形状表征的预训练模型VGG19_SIN_IN，也即，具备形状偏向性的预训练模型CNN，其用于实现特征提取。在相关技术中，卷积神经网络更倾向于利用颜色及纹理进行预测，这与人类通过形状来辨别物体方式不同。而在该实施例中，可以利用通过SIN&IN数据集混合训练得到的VGG19_SIN_IN模型增加图像形状偏置，可以对模板图像和原图像提取出更好的形状特征，以对模板图像和原图像内容进行更精准的刻画。

在该实施例中，在模板匹配中，模板图像的尺寸与原图像的尺寸通常差异较大，相关技术中，对模板图像和原图像进行resize后，可以以统一大小作为CNN输入，该方法会导致信息丢失及特征匹配失败。然而，在该实施例中，可以基于模板图像的尺寸来确定CNN的特征输出层，从而实现输入尺度自适应，输出模板图像的特征图(feature maps)及原图像的特征图，以将其作为后续特征匹配算法输入。

对于CNN而言，需要一定的感受野尺寸的限制，从而保证性能。可选地，CNN的最高层感受野尺寸不应该超过原图像的尺寸S：

RF≤S (11)

其中，CNN的第i层网络输出特征图的感受野尺寸RF计算如下式：

RF_i＝RF_i-1+(k-1)j_i-1 (12)

其中，k可以用于表示CNN的第i层的卷积核尺寸(kernel size)；j可以用于表示输出特征图的特征间的间隔，其等于上一层的间隔值乘以卷积的步长。

该实施例可以通过上述公式(12)计算CNN的每层感受野尺寸。在该实施例中，可以默认模板图像的大小尺寸为原图像尺寸的1/10(尺寸可被调节，但基本不会有剧烈变化)，其可以处于216～256区间内。因此，该实施例在经过自适应特征选择之后可以卷积层conv5_n层网络作为特征输出层，该层数较深可以满足提取丰富语义信息的前置条件。

下面对该实施例的相关度计算部分进行进一步介绍。

NCC是一种图像匹配方法，比如，两幅进行匹配计算的图像中的模板图像为t，大小为N_x×N_y，原图像可以为f，大小可以为M_x×M_y，其利用模板图像在原图像上滑窗的方式(pixel-by-pixel)，计算每一个点(u,v)下f与t之间的相关系数，得到相关系数矩阵γ_u,v，并以γ_u,v中的最大值γ_max作为最佳匹配位置。

其中，u∈{0，1，2，...，M_x-N_x}，v∈{0，1，2，...，M_y-N_y}。

可以用于表示模板图像在原图像f(x，y)的移动区域内的像素均值，

的定义可以如下：

然而，上述NCC具备极高的计算代价，其计算复杂度为N_xN_y(M_x-N_x)(M_y-N_y)，且随着模板图像和原图像的尺度的增大而指数上升。

而在该实施例中，可以采用基于快速傅里叶变换的NCC的计算方式，经测试可以极大地降低图像匹配的时长，且时域与频域之间互相转换理论上无信息丢失，精度测试与NCC保持一致。针对上述公式(13)，可由时域等价转换为频域进行计算，如下述公式(15)，可得频域下傅里叶互相关系数：

r(u，v)＝∑x，yf(x，y)·t(x-u，y+v)

R(u，v)＝F(u，v)·T(u，v) (15)

图6是根据本发明其中一实施例的一种互相关系数的确定的示意图。如图6所示，可以对模板图像的特征图进行快速傅里叶变换，将其由时域转到频域中，可以对原图像的特征图进行快速傅里叶变化，将其由时域转到频域中，然后对模板图像的频域中的特征图和原图像的频域中的特征图求复共轭值，得到T(u，v)和F(u，v)，然后对其相乘，对得到的乘积R(u，v)＝F(u，v)·T(u，v)进行傅里叶逆变换，如下式所示，最终得到互相关系数：

在该实施例中，在对模板图像的特征图进行快速傅里叶变换，将其由时域转到频域中，对原图像的特征图进行快速傅里叶变化，将其由时域转到频域中，再进行NCC计算，其复杂度为M_xM_ylog₂(M_xM_y)，从而该实施例通过基于FFT的NCC来获取互相关系数大大降低了计算的复杂度。

下面对该实施例的相关系数矩阵进行进一步地介绍。

在该实施例中，模板图像与原图像输出C个通道的特征图，可以分别记为F_t与F_f，则遍历C个通道分别计算对应特征图之间的互相关系数，其中，每个通道的特征图像可以被视为灰度图，最终累加结果，得到最终相关系数矩阵。图7是根据本发明其中一实施例的特征图的示意图。如图7所示，左侧图可以为原图像，中间图为单一通道的特征图的可视化结果，右侧图可以为512通道的特征图的均值结果的可视化结果，其表现力更强。

由于存在背景变化的差异性，如果仅仅获取相关系数矩阵中的最大值γ_max，可能会导致图像匹配不准确，甚至匹配失败的问题。因此，该实施例可以设定阈值，该阈值可以为经过大量测试后确定的固定值。当thr＝0.98且满足式(17)时，可以保留满足条件的所有γ_u,v，及其对应坐标值(u,v)。

r_u,v≥thr*r_max (17)

下面对该实施例的生成中心点坐标及边界框的方法进行进一步地介绍。

在该实施例中，可以将满足条件的输出坐标值(u,v)转换为原图像中的中心点坐标(x_center,y_center)，由式下式得到：

其中，F_t,width、F_t,hight可以用于表示模板图像的特征图中的宽度与高度，F_f,width、F_f,hight可以用于表示原图像的特征图中的宽度与高度，

可以用于表示原图像到至原图像的特征图的缩放比例。

图8是根据本发明其中一实施例的一种模板图像和原图像的边界框的示意图。如图8所示，左侧为待匹配的模板图e，右侧的原图像中的线条框为根据中心点坐标所生成的与模板图e相对应的所有边界框。由于γ_u,v的选择存在thr*γ_max的限制，其数量可以为多个，其对应的坐标值(u,v)可以为多个，因而，原图像中的中心点坐标可以为多个，对应的边界框的数量也可以为多个。

为了避免假成功对自动化测试流程造成的严重影响，该实施例可以加入了多种后处理方案，比如，通过非极大值抑制，可以剔除同一位置上的多个边界框的冗余边界框；可以基于基准点坐标抑制，以用户点击屏幕坐标点作为基准点，舍弃归一化距离确定范围外的算法输出结果；可以计算模板图像与原图像的ROI区域之间的相似度，仅保留大于给定阈值的输出结果。下面对其进行进一步介绍。

图9是根据本发明其中一实施例的一种对原图像的边界框进行后处理的示意图。如图9所示，在该实施例中，在基于CNN的算法对模板图像和原图像进行匹配之后，可以对匹配结果进行进一步地后处理。非极大值抑制(NMS)是目标检测等图像处理领域常用的边界框后处理方法，作为YOLO、faster rcnn、SSD等算法的重要组件，其目的在于消除同一位置上的大量冗余边界框。如图10所示，可以采用NMS对多个边界框进行筛选，其中以边界框内一定范围内γ_u,v总和作为排序依据，并以排序后的多个边界框的交并比IoU大于0.5作为剔除标准，重复剔除过程直到边界框列表为空，输出最终结果。其中，图10是根据本发明其中一实施例的一种对多个边界框筛选后的结果的示意图，对多个边界框经过NMS筛选后，可以将边界框的数量缩减为边界框f和边界框g。

在该实施例中，在部分情况下，在经过NMS处理仍保留多个边界框(多个极大值框，多目标问题)，则会进一步经基准点坐标抑制流程从筛选后的边界框中输出唯一边界框。可选地，该实施例可以令用户点击设备屏幕坐标作为基准点A，模型输出中心点为A，其默认满足一机多控时多台设备真实匹配区域中心点坐标与基准点坐标相距不远的前提条件。当A与B满足下式时，即归一化距离小于0.1，则可以输出B：

norm(|A_i-B_i|)<0.1 (19)

图11是根据本发明其中一实施例的另一种对多个边界框筛选后的结果的示意图。如图11所示，经基准点坐标抑制流程从筛选后的边界框f和边界框g中输出唯一边界框g。

可选地，如果在经过NMS处理仍保留一个边界框，则可以不用对该边界框执行基准点坐标抑制流程。

在该实施例中，为了避免假成功问题，可以对模板图像与原图像的目标区域对应的图像作相似度计算，当计算结果不大于给定阈值时输出None，进行人工干预。而当计算结果大于给定阈值时，则可以输出原图像中与模板图像相匹配的区域R。

可选地，在该实施例中，相似度计算的输入可以为模板图像的特征F_t与目标区域对应的图像的特征F_b，则相似度结果confidence可以由下式计算：

其中，flatten可以用于表示将C通道特征图展平至一维。

该实施例以具备尺度自适应特性、与形状偏向性的预训练CNN模型作为深度特征提取器，结合基于快速傅里叶变换FFT的NCC作为核心匹配算法，其在背景变化的等复杂情况下依然具备强鲁棒性。而针对模板图的前景为文本的情况，引入OCR文字识别进行字符模糊匹配。此外，为避免自动化测试过程中出现假成功情况，可以加入非极大值抑制、基准点坐标抑制与相似度计算等后处理方案，从而产出具有高鲁棒性、实时推理且能够有效避免假成功的图像匹配系统，实现了具备通用性，且高精度、实时推理的模板匹配算法，在实际针对数十台手机进行统一自动化测试时，可以有效提高了图像匹配准确率，并且提升了自动化测试效率，并减少人工干预次数。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

本发明其中之一实施例还提供了一种图像匹配装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图12是根据本发明其中一实施例的一种图像匹配装置的结构框图。如图12所示，图像匹配装置120可以包括：第一获取单元121、提取单元122、第二获取单元123和确定单元124。

第一获取单元121，用于获取第一图像和第二图像，其中，第一图像为待匹配图像，第二图像为待匹配图像对应的参照图像。

提取单元122，用于从第一图像中提取出第一特征，且从第二图像中提取出第二特征。

第二获取单元123，用于获取第一特征和第二特征之间的第一目标相关系数，其中，第一目标相关系数用于表示第一特征和第二特征之间的相关程度。

确定单元124，用于基于第一目标相关系数在第二图像中确定与第一图像相匹配的第一目标区域。

在该实施例的图像匹配装置中，利用待匹配图像的特征和待匹配图像对应的参照图像的特征确定第一目标相关系数，进而基于该第一目标相关系数来在待匹配图像对应的参照图像中找到与给定的待匹配图像进行匹配的区域，该方法满足自动化测试场景下通用性的条件，避免了基于有监督学习的图像匹配方法需要预先制造一定规模的数据集，难以产出通用模型，从而解决了图像匹配的效率低的技术问题，达到了提高图像匹配的效率的技术效果。

需要说明的是，上述各个单元是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述单元均位于同一处理器中；或者，上述各个单元以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种非易失性存储介质，该非易失性存储介质中存储有计算机程序，其中，该计算机程序被设置为被处理器运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取第一图像和第二图像，其中，第一图像为待匹配图像，第二图像为待匹配图像对应的参照图像；

S2，从第一图像中提取出第一特征，且从第二图像中提取出第二特征；

S3，获取第一特征和第二特征之间的第一目标相关系数，其中，第一目标相关系数用于表示第一特征和第二特征之间的相关程度；

S4，基于第一目标相关系数在第二图像中确定与第一图像相匹配的第一目标区域。

可选地，在本实施例中，上述非易失性存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为被处理器运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像匹配方法，其特征在于，包括：

获取第一图像和第二图像，其中，所述第一图像为待匹配图像，所述第二图像为所述待匹配图像对应的参照图像；

从所述第一图像中提取出第一特征，且从所述第二图像中提取出第二特征；

获取所述第一特征和所述第二特征之间的第一目标相关系数，其中，所述第一目标相关系数用于表示所述第一特征和所述第二特征之间的相关程度；

基于所述第一目标相关系数在所述第二图像中确定与所述第一图像相匹配的第一目标区域。

2.根据权利要求1所述的方法，其特征在于，从所述第一图像中提取出第一特征，包括：

基于特征提取模型从所述第一图像中提取出第一目标特征图，其中，所述特征提取模型基于卷积神经网络训练得到，且所述第一目标特征图包括：所述第一图像的形状特征。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于所述特征提取模型的特征输出层输出所述第一目标特征图，其中，所述特征输出层为基于所述第一图像的尺寸确定。

4.根据权利要求2所述的方法，其特征在于，从所述第二图像中提取出第二特征，包括：

基于所述特征提取模型从所述第二图像中提取出第二目标特征图，其中，所述第二目标特征图包括：所述第二图像的形状特征。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

基于所述特征提取模型的特征输出层输出所述第二目标特征图，其中，所述特征输出层为基于所述第一图像的尺寸确定。

6.根据权利要求4所述的方法，其特征在于，获取所述第一特征和所述第二特征之间的第一目标相关系数，包括：

将所述第一目标特征图从时域变换至频域，得到第三目标特征图；

将所述第二目标特征图从所述时域变换至所述频域，得到第四目标特征图；

对所述第三目标特征图和所述第四目标特征图进行归一化交叉相关处理，得到所述第一目标相关系数。

7.根据权利要求6所述的方法，其特征在于，对所述第三目标特征图和所述第四目标特征图进行归一化交叉相关处理，得到所述第一目标相关系数，包括：

确定所述第三目标特征图对应的第一复共轭值和所述第四目标特征图对应的第二复共轭值；

对所述第一复共轭值和所述第二复共轭值二者之间的积进行傅里叶逆变换，得到所述第一目标相关系数。

8.根据权利要求4所述的方法，其特征在于，所述第一目标特征图为多通道的第一目标特征图，所述第二目标特征图为多通道的第二目标特征图，

获取所述第一特征和所述第二特征之间的第一目标相关系数，包括：获取每个所述通道的第一目标特征图和每个所述通道的第二目标特征图之间的所述第一目标相关系数，得到多个所述第一目标相关系数；

基于所述第一目标相关系数在所述第二图像中确定与所述第一图像相匹配的第一目标区域，包括：基于多个所述第一目标相关系数在所述第二图像中确定所述第一目标区域。

9.根据权利要求8所述的方法，其特征在于，基于多个所述第一目标相关系数在所述第二图像中确定所述第一目标区域，包括：

获取多个所述第一目标相关系数中的最大第一目标相关系数；

基于目标调整参数对所述最大第一目标相关系数进行调整；

将多个所述第一目标相关系数中大于等于调整后的所述最大第一目标相关系数的相关系数，确定为第二目标相关系数；

基于所述第二目标相关系数在所述第二图像中确定所述第一目标区域。

10.根据权利要求9所述的方法，其特征在于，基于所述第二目标相关系数在所述第二图像中确定所述第一目标区域，包括：

确定所述第二目标相关系数对应的第一位置信息；

基于所述第一位置信息在所述第二图像中确定第二位置信息；

基于所述第二位置信息确定所述第一目标区域。

11.根据权利要求10所述的方法，其特征在于，基于所述第一位置信息在所述第二图像中确定第二位置信息，包括：

基于所述第一目标特征图的宽度和高度、所述第二目标特征图的宽度和高度、所述第二图像到所述第二目标特征图的缩放比例，将所述第一位置信息转换为所述第二位置信息。

12.根据权利要求10所述的方法，其特征在于，基于所述第二位置信息确定所述第一目标区域，包括：

将所述第二位置信息确定为所述第一目标区域的中心的位置信息；

基于所述中心的位置信息确定所述第一目标区域的边界框，以得到所述第一目标区域。

13.根据权利要求12所述的方法，其特征在于，在所述第二目标相关系数的数量为多个的情况下，所述边界框的数量为多个，基于所述中心的位置信息确定所述第一目标区域的边界框，以得到所述第一目标区域，包括：

基于多个所述边界框之间的交并比，从多个所述边界框中选取目标边界框；

确定所述目标边界框的数量为多个，则基于所述第二图像中的目标点从多个所述目标边界框中选取第一目标边界框；

将所述第一目标边界框在所述第二图像中的区域，确定为所述第一目标区域。

14.根据权利要求2所述的方法，其特征在于，所述特征提取模型的网络层的感受野尺寸不超过所述第二图像的尺寸。

15.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述第一图像中包括第一文本信息，则从所述第一图像中提取出所述第一文本信息，且从所述第二图像中提取出第二文本信息；

对所述第一文本信息和所述第二文本信息进行模糊匹配；

确定对所述第一文本信息和所述第二文本信息进行模糊匹配成功，则在所述第二图像中确定与所述第一文本信息相匹配的第二目标区域。

16.根据权利要求15所述的方法，其特征在于，在所述第二图像中确定与所述第一文本信息相匹配的第二目标区域，包括：

确定所述第一文本信息在所述第二图像中的第三位置信息；

基于所述第三位置信息确定所述第二目标区域。

17.根据权利要求15所述的方法，其特征在于，从所述第一图像中提取出第一特征，且从所述第二图像中提取出第二特征，包括：

确定所述第一图像中未包括所述第一文本信息，或者，确定对所述第一文本信息和所述第二文本信息进行模糊匹配失败，则从所述第一图像中提取出所述第一特征，且从所述第二图像中提取出所述第二特征。

18.根据权利要求1至17中任意一项所述的方法，其特征在于，所述方法还包括：

获取所述第一目标区域对应的图像和所述第一图像二者之间的相似度；

确定所述相似度大于目标阈值，则输出提示信息，其中，所述提示信息用于表示所述第一图像与所述第二图像匹配成功。

19.一种图像匹配装置，其特征在于，包括：

第一获取单元，用于获取第一图像和第二图像，其中，所述第一图像为待匹配图像，所述第二图像为所述待匹配图像对应的参照图像；

提取单元，用于从所述第一图像中提取出第一特征，且从所述第二图像中提取出第二特征；

第二获取单元，用于获取所述第一特征和所述第二特征之间的第一目标相关系数，其中，所述第一目标相关系数用于表示所述第一特征和所述第二特征之间的相关程度；

确定单元，用于基于所述第一目标相关系数在所述第二图像中确定与所述第一图像相匹配的第一目标区域。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为被处理器运行时执行所述权利要求1至18中任一项中所述的方法。

21.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至18中任一项中所述的方法。