CN112926616B

CN112926616B - 图像匹配方法和装置、电子设备、计算机可读存储介质

Info

Publication number: CN112926616B
Application number: CN201911245092.9A
Authority: CN
Inventors: 楚梦蝶
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2024-03-05
Anticipated expiration: 2039-12-06
Also published as: CN112926616A

Abstract

本申请涉及一种图像匹配方法和装置、电子设备、计算机可读存储介质，包括：通过注意力机制和目标卷积神经网络模型进行计算得到待匹配图像帧的目标文字特征，然后将待匹配图像帧的全局特征和待匹配图像帧的目标文字特征进行融合，得到待匹配图像帧的融合特征。如此，融合特征能够从两个方面更加全面地体现待匹配图像帧的特征。最后，通过将待匹配图像帧的融合特征与数据库中的相关图像帧的融合特征进行比较，就得到了匹配结果。如此，提高了图像匹配的准确性。

Description

图像匹配方法和装置、电子设备、计算机可读存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像匹配方法和装置、电子设备、计算机可读存储介质。

背景技术

随着城市化发展的不断深化，人们生活的节奏越来越快，网络的高速发展活跃了外卖和快递市场，人们享受着网上购物和送餐给生活带来的便利。快递人员可以参考的地图就在快递人员送货或送餐的过程中发挥着重要的作用。例如，可以通过安装在快递人员车上的摄像头结合其他传感器，获取沿街店铺的信息并对其进行分析，判断店铺是否为新增，从而实时更新地图。然而，通过快递人员车上的摄像头结合其他传感器所获取的沿街店铺的图像质量较差。因此，采用传统的图像匹配方式不能较好的进行图像匹配，不能对地图进行准确地更新，确保地图的准确性，以便快递人员通过该地图能够快捷、准确地进行送货或送餐。因此，亟需提供一种图像匹配方法来改善这种情况。

发明内容

本申请实施例提供一种图像匹配方法、装置、电子设备、计算机可读存储介质，可以提高图像匹配的准确性。

一种图像匹配方法，包括：获取待匹配图像帧，对所述待匹配图像帧处理得到所述待匹配图像帧的全局特征和初始文字特征，将所述全局特征和所述初始文字特征通过注意力机制和目标卷积神经网络模型进行计算得到所述待匹配图像帧的目标文字特征；

将所述待匹配图像帧的全局特征和所述待匹配图像帧的目标文字特征进行融合，得到所述待匹配图像帧的融合特征；

将所述待匹配图像帧的融合特征与数据库中的相关图像帧的融合特征进行匹配，得到所述待匹配图像帧与所述相关图像帧之间的匹配结果，所述相关图像帧是与所述待匹配图像帧相关的图像帧。

在其中一个实施例中，所述目标卷积神经网络模型的生成过程包括：

获取训练集中每个图像帧的全局特征；

获取所述图像帧的初始文字特征；

将所述图像帧的全局特征和所述图像帧的初始文字特征通过注意力机制和预设卷积神经网络模型进行计算得到所述图像帧的目标文字特征；

将所述图像帧的全局特征和所述图像帧的目标文字特征进行融合，得到所述图像帧的融合特征；

将所述训练集中的每个图像帧作为锚样本，根据所述锚样本的融合特征从所述训练集中获取与所述锚样本对应的正样本和负样本；

将所述锚样本、所述正样本和所述负样本输入至损失函数，根据所述损失函数调整预设卷积神经网络模型的参数，得到目标卷积神经网络模型。

在其中一个实施例中，所述获取训练集中每个图像帧的全局特征，包括：

通过深度残差网络ResNet50获取训练集中每个图像帧的全局特征。

在其中一个实施例中，所述获取所述图像帧的初始文字特征，包括：

通过East网络对图像帧进行检测得到文本区域，通过深度神经网络与CTC网络对所述文本区域进行识别得到所述图像帧的初始文字特征。

在其中一个实施例中，所述将所述图像帧的全局特征与所述图像帧的初始文字特征通过注意力机制和预设卷积神经网络模型进行计算出所述图像帧的目标文字特征，包括：

根据所述图像帧的全局特征、所述图像帧的初始文字特征通过双线性函数计算出所述图像帧中每个初始文字特征的权重；

将所述图像帧中每个初始文字特征与所述图像帧中每个初始文字特征的权重的加权和，作为所述图像帧的中间文字特征；

将所述图像帧的中间文字特征输入至预设卷积神经网络模型进行计算出所述图像帧的目标文字特征。

在其中一个实施例中，所述根据所述锚样本的融合特征从所述训练集中获取与所述锚样本对应的正样本和负样本，包括：

根据所述锚样本的融合特征从所述训练集中获取与所述锚样本处于相同类别且相似性小于第一预设阈值的图像帧，作为所述锚样本对应的正样本；

根据所述锚样本的融合特征从所述训练集中获取与所述锚样本处于不同类别且相似性大于第二预设阈值的图像帧，作为所述锚样本对应的负样本。

在其中一个实施例中，所述将所述待匹配图像帧的融合特征与数据库中的相关图像帧的融合特征进行匹配，得到所述待匹配图像帧与所述相关图像帧之间的匹配结果，所述相关图像帧是与所述待匹配图像帧相关的图像帧，包括：

从所述数据库中获取相关图像帧，所述相关图像帧为与所述待匹配图像帧的拍摄位置相关的图像帧；

计算所述待匹配图像帧的融合特征与所述数据库中与所述待匹配图像帧相关的图像帧的融合特征之间的欧式距离；

根据所述欧式距离得到所述待匹配图像帧与所述数据库中与所述待匹配图像帧相关的图像帧之间的匹配结果。

在其中一个实施例中，所述方法还包括：

将所述匹配结果符合预设匹配结果的待匹配图像帧，存储至数据库中以对地图进行更新。

一种图像匹配装置，包括：

待匹配图像帧的目标文字特征获取模块，用于获取待匹配图像帧，对所述待匹配图像帧处理得到所述待匹配图像帧的全局特征和初始文字特征，将所述全局特征和所述初始文字特征通过注意力机制和目标卷积神经网络进行计算得到所述待匹配图像帧的目标文字特征；

待匹配图像帧的融合特征获取模块，用于将所述待匹配图像帧的全局特征和所述待匹配图像帧的目标文字特征进行融合，得到所述待匹配图像帧的融合特征；

特征匹配模块，用于将所述待匹配图像帧的融合特征与数据库中的相关图像帧的融合特征进行匹配，得到所述待匹配图像帧与所述相关图像帧之间的匹配结果，所述相关图像帧是与所述待匹配图像帧相关的图像帧。

一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上方法的步骤。

上述图像匹配方法、装置、电子设备、计算机可读存储介质，获取待匹配图像帧，对待匹配图像帧处理得到待匹配图像帧的全局特征和初始文字特征，将全局特征和初始文字特征通过注意力机制和目标卷积神经网络模型进行计算得到待匹配图像帧的目标文字特征。将待匹配图像帧的全局特征和待匹配图像帧的目标文字特征进行融合，得到待匹配图像帧的融合特征。将待匹配图像帧的融合特征与数据库中的相关图像帧的融合特征进行匹配，得到待匹配图像帧与相关图像帧之间的匹配结果，相关图像帧是与待匹配图像帧相关的图像帧。本申请中通过注意力机制和目标卷积神经网络模型进行计算得到待匹配图像帧的目标文字特征，然后将待匹配图像帧的全局特征和待匹配图像帧的目标文字特征进行融合，得到待匹配图像帧的融合特征。如此，融合特征能够从两个方面更加全面地体现待匹配图像帧的特征。最后，通过将待匹配图像帧的融合特征与数据库中与待匹配图像帧相关的图像帧的融合特征进行比较，就得到了匹配结果。如此，提高了图像匹配的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中沿街店铺相似店面的示意图；

图2为一个实施例中图像匹配方法的流程图；

图3为一个实施例中图像匹配方法的整体网络结构图；

图4为一个实施例中目标神经网络模型的生成过程的流程图；

图5为图4中计算出图像帧的目标文字特征方法的流程图；

图6为一个实施例中计算出中间文字特征的网络结构图；

图7为另一个实施例中图像匹配方法的流程图；

图8为一个实施例中图像匹配装置的结构框图；

图9为另一个实施例中图像匹配装置的结构框图；

图10为一个实施例中电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。

如图1所示，为沿街店铺相似店面的示意图。这些店面具有相同或近似的底色背景，且店面上的店名的字体及大小相同或近似。加上通过快递人员车上的摄像头结合其他传感器所获取的沿街店铺的图像质量较差。因此，在店面相似性极高的情况下，外加所采集的图像质量较差，这就为图像匹配带来了极大的困难，采用传统的图像匹配算法非常难准确地分辨出图1中所示为不同的店铺。因此，针对亟需提供一种新的图像匹配方法。

图2为一个实施例中图像匹配方法的流程图，如图2所示，提供了一种图像匹配方法，应用于电子设备或服务器，包括步骤220至步骤260。

步骤220，获取待匹配图像帧，对待匹配图像帧处理得到待匹配图像帧的全局特征和初始文字特征，将全局特征和初始文字特征通过注意力机制和目标卷积神经网络模型进行计算得到待匹配图像帧的目标文字特征。

在通过快递人员车上的摄像头结合其他传感器所获取的沿街店铺的图像，来对地图进行更新时，待匹配图像帧即为新拍摄的图像帧。提取待匹配图像帧的全局特征，并提取待匹配图像帧的初始文字特征。其中，全局特征是指图像的整体属性，常见的全局特征包括颜色特征、纹理特征和形状特征，比如强度直方图等。由于像素级的低层可视特征，因此，全局特征具有良好的不变性、计算简单、表示直观等特点。其中，文字特征指的是从图像帧中所提取出的文字部分的特征。

将全局特征和初始文字特征通过注意力机制和目标卷积神经网络模型进行计算得到待匹配图像帧的目标文字特征。其中，注意力机制从命名方式看，很明显其借鉴了人类的注意力机制。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段，是人类在长期进化中形成的一种生存机制，人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。

其中，目标卷积神经网络模型为由训练集对预设卷积神经网络模型进行训练所得到的模型。目标卷积神经网络模型可以对输入的特征进一步优化，得到目标文字特征。

步骤240，将待匹配图像帧的全局特征和待匹配图像帧的目标文字特征进行融合，得到待匹配图像帧的融合特征。

将待匹配图像帧的全局特征和目标文字特征进行融合，得到待匹配图像帧的融合特征。例如，待匹配图像帧的全局特征为1024维全局特征，待匹配图像帧的目标文字特征为1536维文字特征，则将文字特征与全局特征按照1：3的比例进行融合，得到融合特征。

步骤260，将待匹配图像帧的融合特征与数据库中的相关图像帧的融合特征进行匹配，得到待匹配图像帧与相关图像帧之间的匹配结果，相关图像帧是与待匹配图像帧相关的图像帧。

其中，本申请所涉及到的数据库中的相关图像帧指的是数据库中与待匹配图像帧的所有图像特征相同或相似，或位置信息相同或两者的位置间隔在一定范围内的图像帧，简称相关图像帧。例如，数据库中的某个图像帧的所有图像特征与待匹配图像帧的所有图像特征相同或相似，则数据库中的该图像帧就是该待匹配图像帧的相关图像帧。其中，数据库中的某个图像帧的所有图像特征与待匹配图像帧的所有图像特征相同或相似，指的是将数据库中的某个图像帧的所有图像特征与待匹配图像帧的所有图像特征进行一一比对，所得到的相似度均高于阈值，则认为数据库中的该图像帧就是该待匹配图像帧的相关图像帧。数据库中的相关图像帧的融合特征是预先已经计算出来并且存储在数据库中。

在从数据库中获取了相关图像帧的融合特征之后，将待匹配图像帧的融合特征与相关图像帧的融合特征进行匹配，得到待匹配图像帧与相关图像帧之间的匹配结果。若待匹配图像帧的融合特征与相关图像帧的融合特征之间的相似度高于阈值，则得出待匹配图像帧与相关图像帧相互匹配，认为待匹配图像帧所对应的店铺在数据库中已经存在，不需要对地图进行更新。若待匹配图像帧的融合特征与相关图像帧的融合特征之间的相似度小于或等于阈值，则得出待匹配图像帧与相关图像帧相互之间不匹配，认为待匹配图像帧所对应的店铺在数据库中未存在，待匹配图像帧所对应的店铺为新增店铺，就需要对地图进行更新。

本申请实施例中，获取待匹配图像帧，对待匹配图像帧处理得到待匹配图像帧的全局特征和初始文字特征，将全局特征和初始文字特征通过注意力机制和目标卷积神经网络模型进行计算得到待匹配图像帧的目标文字特征。将待匹配图像帧的全局特征和待匹配图像帧的目标文字特征进行融合，得到待匹配图像帧的融合特征。将待匹配图像帧的融合特征与数据库中的相关图像帧的融合特征进行匹配，得到待匹配图像帧与数据库中的相关图像帧之间的匹配结果。本申请中通过注意力机制和目标卷积神经网络模型进行计算得到待匹配图像帧的目标文字特征，然后将待匹配图像帧的全局特征和待匹配图像帧的目标文字特征进行融合，得到待匹配图像帧的融合特征。如此，融合特征能够从两个方面更加全面地体现待匹配图像帧的特征。最后，通过将待匹配图像帧的融合特征与数据库中与待匹配图像帧相关的图像帧的融合特征进行比较，就得到了匹配结果。如此，提高了图像匹配的准确性。

在一个实施例中，如图3所示，提供了一种图像匹配方法的整体网络结构图。

具体的，从所拍摄的图像帧中提取出店面部分，将店面部分输入至深度残差网络ResNet-50生成1024维的全局特征f_g。并将店面部分输入至East网络对图像帧进行检测得到文本区域，再将文本区域输入至Densenet网络进行文本识别，将识别结果再输入至CTC网络继续识别，得到图像帧的初始文字特征f_wi。

进一步，将图像帧的全局特征f_g、图像帧的初始文字特征f_wi通过双线性函数计算出图像帧中每个初始文字特征的权重w_i。将图像帧中每个初始文字特征f_wi与图像帧中每个初始文字特征的权重w_i的加权和，作为图像帧的中间文字特征f_wa。

进一步，将图像帧的中间文字特征f_wa输入至目标卷积神经网络进行卷积计算，得到图像帧的目标文字特征f_wb。将该图像帧的1024维的全局特征f_g与该图像帧的1536维目标文字特征f_wb进行融合，得到待匹配图像帧的融合特征f_m。

本申请实施例中，获取待匹配图像帧，对待匹配图像帧处理得到待匹配图像帧的全局特征和初始文字特征，将全局特征和初始文字特征通过注意力机制和目标卷积神经网络模型进行计算得到待匹配图像帧的目标文字特征。将待匹配图像帧的全局特征和图像帧的目标文字特征进行融合，得到待匹配图像帧的融合特征。经过上述方法计算出了待匹配图像帧的融合特征之后，就可以将待匹配图像帧的融合特征与数据库中与待匹配图像帧相关的图像帧的融合特征进行匹配，得到待匹配图像帧与数据库中与待匹配图像帧相关的图像帧之间的匹配结果。如此就能够根据匹配结果对地图进行准确地更新，确保地图的准确性，以便快递人员通过该地图能够快捷、准确地进行送货或送餐。

在一个实施例中，如图4所示，目标神经网络模型的生成过程包括：

步骤402，获取训练集中每个图像帧的全局特征。

具体的，预先收集数据成立训练集，训练集中收集了同一店面在不同角度下所拍摄的图像帧，用于训练出目标卷积神经网络模型。例如，训练集中包括P类店面，每个店面的类别下包括K张不同角度所拍摄的图像帧。这样则训练集一共包括P×K张图像帧。可以采用卷积神经网络来计算出训练集中每个图像帧的全局特征f_g。

步骤404，获取图像帧的初始文字特征。

计算训练集中每个图像帧的初始文字特征f_wi，通过深度神经网络先检测出文字区域，再对文字区域进一步识别出图像帧的初始文字特征f_wi。

步骤406，将图像帧的全局特征和图像帧的初始文字特征通过注意力机制和预设卷积神经网络模型进行计算得到图像帧的目标文字特征。

通过注意力机制计算出图像帧的初始文字特征f_wi的权重w_i，为图像帧的初始文字特征分配不同的注意力。再将添加了注意力之后的初始文字特征(中间文字特征f_wa)输入至预设卷积神经网络模型进行卷积计算，得到图像帧的目标文字特征f_wb。

步骤408，将图像帧的全局特征和图像帧的目标文字特征进行融合，得到图像帧的融合特征。

将图像帧的全局特征f_g和该图像帧的目标文字特征f_wb进行融合，得到该图像帧的融合特征f_m。

步骤410，将训练集中的每个图像帧作为锚样本，根据锚样本的融合特征从训练集中获取与锚样本对应的正样本和负样本。

将训练集中的每个图像帧作为锚样本anchor(a)，获取每个锚样本的融合特征f_m。其中，正样本(p)指的是与锚样本属于相同类别但相似性较小的图像帧，负样本(n)指的是与锚样本属于不同类别但相似性较大的图像帧。比较相似性大小是通过各个样本的融合特征来进行比较的。

步骤412，将锚样本、正样本和负样本输入至损失函数，根据损失函数调整预设卷积神经网络模型的参数，得到目标卷积神经网络模型。

在确定了每个锚样本所对应的正样本和负样本之后，将每一组锚样本及所对应的正样本和负样本输入至损失函数，计算出损失值。本申请所采用的损失函数为hardtriplet loss函数，公式如下：

损失函数最终的优化目的是拉近a、p的距离，拉远a、n的距离，其中margin是边距超参数，用来控制类内与类间距离的阈值。根据损失值L_BH调整预设卷积神经网络模型的参数，得到目标卷积神经网络模型。预设卷积神经网络模型的参数一般指的是初始参数，根据损失值调整预设卷积神经网络模型的初始参数，得到目标卷积神经网络模型。

本申请实施例中，将训练集中的每个图像帧作为锚样本anchor(a)，正样本(p)指的是与锚样本属于相同类别但相似性较小的图像帧，负样本(n)指的是与锚样本属于不同类别但相似性较大的图像帧。如果是随机选择正负样本，则可能会出现很简单的样本组合，比如很像的正样本和差异很大负样本，这样，会限制网络的泛化能力。而本申请中针对性的选择与锚样本属于相同类别但相似性较小的图像帧作为正样本，选择与锚样本属于不同类别但相似性较大的图像帧作为负样本。这样，就会增强所训练出的网络的泛化能力。

在一个实施例中，获取训练集中每个图像帧的全局特征，包括：通过深度残差网络ResNet50获取训练集中每个图像帧的全局特征。

选取图像帧经过深度残差网络ResNet50第三个残差块之后所输出的最后一层特征，分别进行2*3和1*1的自适应最大池化，并将池化后的特征进行concat连接，生成1024维的全局特征。

本申请实施例中，使用两种不同尺寸的卷积核进行池化，采用2*3尺寸的卷积核，能够更好的学习整体特征，采用1*1尺寸的卷积核，可保留更多细节特征。如此，通过深度残差网络ResNet50获取训练集中每个图像帧的全局特征，既保留了较好的整体特征，也兼具更多细节特征。

在一个实施例中，获取图像帧的初始文字特征，包括：

通过East网络对图像帧进行检测得到文本区域，通过深度神经网络与CTC网络对文本区域进行识别得到图像帧的初始文字特征。

其中，East(Efficient and Accuracy Scene Text)网络算法，是一个高效和准确的场景文本检测算法。首先，将图像送到FCN网络结构中并且生成单通道像素级的文本分数特征图和多通道几何图形特征图。文本区域采用了两种几何形状：旋转框(RBOX)和水平(QUAD)，并为每个几何形状设计了不同的损失函数；然后，将阈值应用于每个预测区域，其中评分超过预定阈值的几何形状被认为是有效的，并且保存以用于随后的非极大抑制。NMS之后的结果被认为是East网络算法的最终结果。

将图像帧输入至East网络进行检测得到文本区域，将文本区域输入至深度神经网络进行识别，将识别结果再输入至CTC网络继续识别，得到图像帧的初始文字特征f_wi。此处所使用的神经网络可以是任意的神经网络，此处的CTC(Connectionist temporalclassification)网络，可以理解为基于神经网络的时序类分类。

本申请实施例中，将图像帧输入至East网络进行检测得到文本区域，将文本区域输入至深度神经网络进行识别，将识别结果再输入至CTC网络继续识别，得到图像帧的初始文字特征f_wi。经过三次运算，所得出的初始文字特征f_wi的准确性较高。

在一个实施例中，如图5所示，步骤406，将图像帧的全局特征与图像帧的初始文字特征通过注意力机制和预设卷积神经网络模型进行计算出图像帧的目标文字特征，包括：

步骤406a，根据图像帧的全局特征、图像帧的初始文字特征通过双线性函数计算出图像帧中每个初始文字特征的权重。

步骤406b，将图像帧中每个初始文字特征与图像帧中每个初始文字特征的权重的加权和，作为图像帧的中间文字特征；

本申请在注意力机制中，使用一个双线性函数预估图像帧上店面中每个字对店面的影响，并赋予每个字不同的权重，公式如下：

其中，w_i为每个字权重，是一个1024*256的双线性矩阵参数，256为每个字的特征维数，为了满足大多数店名的长度，本申请选取文字个数为6，作为最终的特征长度，对于个数不足6的店名，使用0进行补全，对于个数超过6个字的店名，本申请选取识别置信度高的前6个字。/>为resnet-50网络提取的1024维全局特征，f_wi为每个字的文字特征，根据得到的权重w_i，则图像帧的中间文字特征f_wa为：

如图6所示，将识别出的文字特征“字1feature、字2feature、字3feature、……字nfeature”进行拼接后，得到初始文字特征f_wi。由公式1-2计算出每个文字特征的权重，由公式1-3计算出图像帧的中间文字特征f_wa。再将中间文字特征f_wa输入至卷积神经网络计算出图像帧的目标文字特征f_wb。例如，考虑到店名中，某些字对店铺本身相关性不大，如“XX店”，“XX银行”，“XX超市”等中的“店”、“银行”、“超市”等字，对整个店面的相关性不高，为了增加店面本身的名字的权重，较少这些无关后缀的字比重，本申请加入注意力机制，使得经过注意力机制之后所得的特征更注重有意义的店面信息。

步骤406c，将图像帧的中间文字特征输入至预设卷积神经网络模型进行计算出图像帧的目标文字特征。

将添加了注意力之后的初始文字特征(中间文字特征f_wa)输入至预设卷积神经网络模型进行卷积计算，得到图像帧的目标文字特征f_wb。

本申请实施例中，根据图像帧的全局特征、图像帧的初始文字特征通过双线性函数计算出图像帧中每个初始文字特征的权重。将图像帧中每个初始文字特征与图像帧中每个初始文字特征的权重的加权和，作为图像帧的中间文字特征。将图像帧的中间文字特征输入至预设卷积神经网络模型进行计算出图像帧的目标文字特征。加入了注意力机制，为初始文字特征配置权重，从而能够突出重点特征，忽略次要特征。可以对一些背景底色相似，仅由全局特征难以区分的店面，加入文字特征后可准确区分，提高了最终图像匹配准确性。

在一个实施例中，根据锚样本的融合特征从训练集中获取与锚样本对应的正样本和负样本，包括：

根据锚样本的融合特征从训练集中获取与锚样本处于相同类别且相似性小于第一预设阈值的图像帧，作为锚样本对应的正样本；

根据锚样本的融合特征从训练集中获取与锚样本处于不同类别且相似性大于第二预设阈值的图像帧，作为锚样本对应的负样本。

具体的，将训练集中的每个图像帧作为锚样本anchor(a)，获取每个锚样本的融合特征f_m。对与该锚样本的处于相同类别中的图像帧，计算锚样本与这些相同类别中的图像帧之间的相似性。例如，可以采用计算锚样本的融合特征f_m与这些相同类别中的图像帧的融合特征f_m之间的距离，距离越大则相似性越小。获取距离大于第一预设距离所对应的相同类别中的图像帧，则这些相同类别中的图像帧与锚样本的相似性小于第一预设阈值，将这些相同类别中的图像帧作为该锚样本对应的正样本。这里所计算的距离可以是欧式距离，当然，还可以是其他类型的距离，本申请对此不做限定。

同理，可以采用计算锚样本的融合特征f_m与这些不同类别中的图像帧的融合特征f_m之间的距离，距离越小则相似性越大。获取距离小于第二预设距离所对应的不同类别中的图像帧，则这些不同类别中的图像帧与锚样本的相似性大于第二预设阈值，将这些不同类别中的图像帧作为该锚样本对应的负样本。

本申请实施例中针对性的选择与锚样本属于相同类别但相似性较小的图像帧作为正样本，选择与锚样本属于不同类别但相似性较大的图像帧作为负样本。这样，正样本与锚样本的相似性较低，而负样本与锚样本的相似性较高，就会增强所训练出的网络的泛化能力。

在一个实施例中，将待匹配图像帧的融合特征与数据库中的相关图像帧的融合特征进行匹配，得到待匹配图像帧与相关图像帧之间的匹配结果，相关图像帧是与待匹配图像帧相关的图像帧，包括：

从数据库中获取相关图像帧，相关图像帧为与待匹配图像帧的拍摄位置相关的图像帧；

计算待匹配图像帧的融合特征与相关图像帧的融合特征之间的欧式距离；

根据欧式距离得到待匹配图像帧与相关图像帧之间的匹配结果。

具体的，其中，本申请所涉及到的数据库中的相关图像帧指的是数据库中与待匹配图像帧的位置信息相同或两者的位置间隔在一定范围内的图像帧，简称相关图像帧。

数据库中的相关图像帧的融合特征是预先已经计算出来并且存储在数据库中。数据库中所有的图像帧都是每次获取待匹配图像帧，然后经过上方法计算出全局特征、初始文字特征、目标文字特征直至计算出融合特征，并与数据库中与待匹配图像帧的相关图像帧的融合特征进行匹配，若该待匹配图像帧与数据库中的相关图像帧相互匹配，则就不需要将该待匹配图像帧存储在数据库中。若该待匹配图像帧与数据库中的相关图像帧不相互匹配，则就需要将该待匹配图像帧存储在数据库中。所以，数据库中所有的图像帧都预先计算出了融合特征。

在从数据库中获取了相关图像帧的融合特征之后，将待匹配图像帧的融合特征与相关图像帧的融合特征进行匹配，得到待匹配图像帧与相关图像帧之间的匹配结果。具体为：计算待匹配图像帧的融合特征与数据库中与待匹配图像帧相关的图像帧的融合特征之间的欧式距离。其中，欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

所计算出的欧式距离越大，则得出待匹配图像帧与相关图像帧的相似性越小，即待匹配图像帧与相关图像帧的匹配度越小。假设设置欧式距离的阈值为A，当所计算出的欧式距离小于A，则认为待匹配图像帧与相关图像帧的相似性符合要求，待匹配图像帧与相关图像帧的匹配度也符合要求，得出得出待匹配图像帧与相关图像帧相互匹配，认为待匹配图像帧所对应的店铺在数据库中已经存在，不需要对地图进行更新。当所计算出的欧式距离大于或等于A，则认为待匹配图像帧与相关图像帧的相似性不符合要求，待匹配图像帧与相关图像帧的匹配度也不符合要求，得出待匹配图像帧与相关图像帧相互之间不匹配，认为待匹配图像帧所对应的店铺在数据库中未存在，待匹配图像帧所对应的店铺为新增店铺，就需要对地图进行更新。

本申请实施例中，数据库中所有的图像帧都预先计算出了融合特征，当出现待匹配图像帧的时候，就可以直接计算待匹配图像帧的融合特征与数据库中的相关图像帧的融合特征之间的欧式距离。根据欧式距离得到待匹配图像帧与相关图像帧之间的匹配结果。这样，就能够准确的进行图像匹配，并根据图形匹配结果对地图进行更新。

在一个实施例中，如图7所示，方法还包括：

步骤280，将匹配结果符合预设匹配结果的待匹配图像帧，存储至数据库中以对地图进行更新。

本申请实施例中，当得出待匹配图像帧与相关图像帧相互匹配，认为待匹配图像帧所对应的店铺在数据库中已经存在，不需要对地图进行更新。当得出待匹配图像帧与相关图像帧相互之间不匹配，认为待匹配图像帧所对应的店铺在数据库中未存在，待匹配图像帧所对应的店铺为新增店铺，就需要对地图进行更新。如此能够对地图进行准确地更新，确保地图的准确性，以便快递人员通过该地图能够快捷、准确地进行送货或送餐。

在一个实施例中，如图8所示，提供了一种图像匹配装置800，包括：

待匹配图像帧的目标文字特征获取模块820，用于获取待匹配图像帧，对待匹配图像帧处理得到待匹配图像帧的全局特征和初始文字特征，将全局特征和初始文字特征通过注意力机制和目标卷积神经网络进行计算得到待匹配图像帧的目标文字特征；

待匹配图像帧的融合特征获取模块840，用于将待匹配图像帧的全局特征和待匹配图像帧的目标文字特征进行融合，得到待匹配图像帧的融合特征；

特征匹配模块860，用于将待匹配图像帧的融合特征与数据库中的相关图像帧的融合特征进行匹配，得到待匹配图像帧与相关图像帧之间的匹配结果，相关图像帧是与待匹配图像帧相关的图像帧。

在一个实施例中，如图9所示，提供了一种图像匹配装置，还包括目标卷积神经网络模型生成模块880，包括：

全局特征获取单元，用于获取训练集中每个图像帧的全局特征；

初始文字特征获取单元，用于获取图像帧的初始文字特征；

目标文字特征计算单元，用于将图像帧的全局特征和图像帧的初始文字特征通过注意力机制和预设卷积神经网络模型进行计算得到图像帧的目标文字特征；

融合特征计算单元，用于将图像帧的全局特征和图像帧的目标文字特征进行融合，得到图像帧的融合特征；

样本获取单元，用于将训练集中的每个图像帧作为锚样本，根据锚样本的融合特征从训练集中获取与锚样本对应的正样本和负样本；

目标卷积神经网络模型参数确定单元，用于将锚样本、正样本和负样本输入至损失函数，根据损失函数调整预设卷积神经网络模型的参数，得到目标卷积神经网络模型。

在一个实施例中，全局特征获取单元，还用于通过深度残差网络ResNet50获取训练集中每个图像帧的全局特征。

在一个实施例中，初始文字特征获取单元，用于通过East网络对图像帧进行检测得到文本区域，通过深度神经网络与CTC网络对文本区域进行识别得到图像帧的初始文字特征。

在一个实施例中，目标文字特征计算单元，还用于根据图像帧的全局特征、图像帧的初始文字特征通过双线性函数计算出图像帧中每个初始文字特征的权重；将图像帧中每个初始文字特征与图像帧中每个初始文字特征的权重的加权和，作为图像帧的中间文字特征；将图像帧的中间文字特征输入至预设卷积神经网络模型进行计算出图像帧的目标文字特征。

在一个实施例中，样本获取单元，用于根据锚样本的融合特征从训练集中获取与锚样本处于相同类别且相似性小于第一预设阈值的图像帧，作为锚样本对应的正样本；根据锚样本的融合特征从训练集中获取与锚样本处于不同类别且相似性大于第二预设阈值的图像帧，作为锚样本对应的负样本。

在一个实施例中，特征匹配模块860，还用于从数据库中获取相关图像帧，相关图像帧为与待匹配图像帧的拍摄位置相关的图像帧；计算待匹配图像帧的融合特征与数据库中与待匹配图像帧相关的图像帧的融合特征之间的欧式距离；根据欧式距离得到待匹配图像帧与数据库中与待匹配图像帧相关的图像帧之间的匹配结果。

在一个实施例中，提供了一种图像匹配装置，还包括地图更新模块，用于将匹配结果符合预设匹配结果的待匹配图像帧，存储至数据库中以对地图进行更新。

上述图像匹配装置中各个模块的划分仅用于举例说明，在其他实施例中，可将图像匹配装置按照需要划分为不同的模块，以完成上述图像匹配装置的全部或部分功能。

图10为一个实施例中电子设备的内部结构示意图。如图10所示，该电子设备包括通过系统总线连接的处理器和存储器。其中，该处理器用于提供计算和控制能力，支撑整个电子设备的运行。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种图像匹配方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。该电子设备可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

本申请实施例中提供的图像匹配装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的步骤。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当计算机可执行指令被一个或多个处理器执行时，使得处理器执行图像匹配方法的步骤。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行图像匹配方法。

本申请实施例所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像匹配方法，其特征在于，包括：

获取待匹配图像帧，对所述待匹配图像帧处理得到所述待匹配图像帧的全局特征和初始文字特征，将所述全局特征和所述初始文字特征通过注意力机制和目标卷积神经网络模型进行计算得到所述待匹配图像帧的目标文字特征；

将所述待匹配图像帧的融合特征与数据库中的相关图像帧的融合特征进行匹配，得到所述待匹配图像帧与所述相关图像帧之间的匹配结果，所述相关图像帧是与所述待匹配图像帧相关的图像帧；

所述目标卷积神经网络模型的生成过程包括：

获取训练集中每个图像帧的全局特征；获取所述图像帧的初始文字特征；将所述图像帧的全局特征和所述图像帧的初始文字特征通过注意力机制和预设卷积神经网络模型进行计算得到所述图像帧的目标文字特征；将所述图像帧的全局特征和所述图像帧的目标文字特征进行融合，得到所述图像帧的融合特征；将所述训练集中的每个图像帧作为锚样本，根据所述锚样本的融合特征从所述训练集中获取与所述锚样本对应的正样本和负样本；将所述锚样本、所述正样本和所述负样本输入至损失函数，根据所述损失函数调整预设卷积神经网络模型的参数，得到目标卷积神经网络模型；

所述将所述图像帧的全局特征与所述图像帧的初始文字特征通过注意力机制和预设卷积神经网络模型进行计算出所述图像帧的目标文字特征，包括：

根据所述图像帧的全局特征、所述图像帧的初始文字特征通过双线性函数计算出所述图像帧中每个初始文字特征的权重；将所述图像帧中每个初始文字特征与所述图像帧中每个初始文字特征的权重的加权和，作为所述图像帧的中间文字特征；将所述图像帧的中间文字特征输入至预设卷积神经网络模型进行计算出所述图像帧的目标文字特征。

2.根据权利要求1所述的方法，其特征在于，所述获取训练集中每个图像帧的全局特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取所述图像帧的初始文字特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述锚样本的融合特征从所述训练集中获取与所述锚样本对应的正样本和负样本，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述待匹配图像帧的融合特征与数据库中的相关图像帧的融合特征进行匹配，得到所述待匹配图像帧与所述相关图像帧之间的匹配结果，所述相关图像帧是与所述待匹配图像帧相关的图像帧，包括：

计算所述待匹配图像帧的融合特征与所述相关图像帧的融合特征之间的欧式距离；

根据所述欧式距离得到所述待匹配图像帧与所述相关图像帧之间的匹配结果。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种图像匹配装置，其特征在于，包括：

特征匹配模块，用于将所述待匹配图像帧的融合特征与数据库中的相关图像帧的融合特征进行匹配，得到所述待匹配图像帧与所述相关图像帧之间的匹配结果，所述相关图像帧是与所述待匹配图像帧相关的图像帧；

还包括目标卷积神经网络模型生成模块，包括：

初始文字特征获取单元，用于获取所述图像帧的初始文字特征；

目标文字特征计算单元，用于将所述图像帧的全局特征和所述图像帧的初始文字特征通过注意力机制和预设卷积神经网络模型进行计算得到所述图像帧的目标文字特征；

融合特征计算单元，用于将所述图像帧的全局特征和所述图像帧的目标文字特征进行融合，得到所述图像帧的融合特征；

样本获取单元，用于将所述训练集中的每个图像帧作为锚样本，根据所述锚样本的融合特征从所述训练集中获取与所述锚样本对应的正样本和负样本；

目标卷积神经网络模型参数确定单元，用于将所述锚样本、所述正样本和所述负样本输入至损失函数，根据所述损失函数调整预设卷积神经网络模型的参数，得到目标卷积神经网络模型；

所述目标文字特征计算单元，还用于：根据所述图像帧的全局特征、所述图像帧的初始文字特征通过双线性函数计算出所述图像帧中每个初始文字特征的权重；将所述图像帧中每个初始文字特征与所述图像帧中每个初始文字特征的权重的加权和，作为所述图像帧的中间文字特征；将所述图像帧的中间文字特征输入至预设卷积神经网络模型进行计算出所述图像帧的目标文字特征。

8.根据权利要求7所述的装置，其特征在于，所述样本获取单元，还用于：

根据所述锚样本的融合特征从所述训练集中获取与所述锚样本处于相同类别且相似性小于第一预设阈值的图像帧，作为所述锚样本对应的正样本；根据所述锚样本的融合特征从所述训练集中获取与所述锚样本处于不同类别且相似性大于第二预设阈值的图像帧，作为所述锚样本对应的负样本。

9.一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述的图像匹配方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的图像匹配方法的步骤。