CN112883827B

CN112883827B - 图像中指定目标的识别方法、装置、电子设备和存储介质

Info

Publication number: CN112883827B
Application number: CN202110119166.5A
Authority: CN
Inventors: 李津; 屠子睿; 陈晓
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2024-03-29
Anticipated expiration: 2041-01-28
Also published as: CN112883827A

Abstract

本发明公开了图像中指定目标的识别方法、装置、电子设备和存储介质，可确定出待检测图像中目标图像元素的候选区域，分别提取目标图像元素的模板图像的模板图像特征和候选区域的候选区域图像特征；获取对应的模板图像特征和候选区域图像特征之间的特征相似度，删除该相似度低于预设相似度阈值的候选区域，得到第一候选区域；确定对应的模板图像和第一候选区域的图像颜色差异值；删除图像颜色差异值大于预设颜色差异阈值的第一候选区域，得到第二候选区域；再确定目标图像元素的目标检测区域。由此，无需采用大量样本进行大量训练，可以节约资源，不采用端到端模型，使得候选区域的确定和筛选等可设置在不同的模块上进行，有利于提升检测速度。

Description

图像中指定目标的识别方法、装置、电子设备和存储介质

技术领域

本申请涉及图像处理技术领域，具体涉及图像中指定目标的识别方法、装置、电子设备和存储介质。

背景技术

目前，随着计算机技术的发展，人工智能的应用越来越广泛。通过依托于人工智能的机器学习手段进行的目标检测技术也日渐成为了一种主流的目标检测的研究方向。目标检测的任务是从图像中找出感兴趣的目标，确定它们的类别和位置，例如从图像中检测出人脸、车辆或建筑等。

在相关技术中，可以通过端到端的深度神经网络模型来进行目标检测，但这种端到端的深度神经网络模型的训练不但需要大量的标注数据，而且对于存在多个检测阶段的目标检测任务而言，端到端的神经网络模型据具有较高的不可控性，并且复杂的神经网络结构，使得检测速度不能得到有效提升。

发明内容

本发明实施例提供了图像中指定目标的识别方法、装置、电子设备和存储介质，可以提高目标检测方案的可控性，有利于提升目标检测的速度。

本发明实施例提供一种图像中指定目标的识别方法，该方法包括：

对待检测的目标图像元素的模板图像，与待检测图像基于至少两种图像匹配方式进行图像匹配，确定出待检测图像中目标图像元素的候选区域，其中，目标图像元素的数量为至少一个；

针对每个目标图像元素，对对应的模板图像和候选区域分别进行图像特征提取，得到模板图像特征和候选区域图像特征；

获取同一目标图像元素对应的模板图像特征和候选区域图像特征之间的特征相似度，从目标图像元素的候选区域中删除特征相似度低于预设相似度阈值的候选区域，得到每个目标图像元素的第一候选区域；

针对每个目标图像元素，确定对应的模板图像和第一候选区域的图像颜色差异值；

从每个目标图像元素的第一候选区域中删除图像颜色差异值大于预设颜色差异阈值的候选区域，得到每个目标图像元素的第二候选区域；

根据每个目标图像元素的第二候选区域确定目标图像元素的目标检测区域。

本实施例还提供一种图像中指定目标的识别装置，该装置包括：

候选区域确定单元，用于对待检测的目标图像元素的模板图像，与待检测图像基于至少两种图像匹配方式进行图像匹配，确定出待检测图像中目标图像元素的候选区域，其中，目标图像元素的数量为至少一个；

特征提取单元，用于针对每个目标图像元素，对对应的模板图像和候选区域分别进行图像特征提取，得到模板图像特征和候选区域图像特征；

第一筛选单元，用于获取同一目标图像元素对应的模板图像特征和候选区域图像特征之间的特征相似度，从目标图像元素的候选区域中删除特征相似度低于预设相似度阈值的候选区域，得到每个目标图像元素的第一候选区域；

颜色比较单元，用于针对每个目标图像元素，确定对应的模板图像和第一候选区域的图像颜色差异值；

第二筛选单元，用于从每个目标图像元素的第一候选区域中删除图像颜色差异值大于预设颜色差异阈值的候选区域，得到每个目标图像元素的第二候选区域；

目标检测区域确定单元，用于根据每个目标图像元素的第二候选区域确定目标图像元素的目标检测区域。

在一个可选的示例中，候选区域确定单元，包括：

文本匹配子单元，用于对待检测的目标图像元素的模板图像，与待检测图像进行文本匹配，确定待检测图像中各目标图像元素的文本匹配成功的图像区域，作为各目标图像元素的候选区域；

模板匹配子单元，用于对待检测的目标图像元素的模板图像，与待检测图像进行模板匹配，确定待检测图像中各目标图像元素的模板匹配成功的图像区域，作为各目标图像元素的候选区域；

特征匹配子单元，用于对待检测的目标图像元素的模板图像，与待检测图像进行特征点匹配，确定待检测图像中各目标图像元素的特征点匹配成功的图像区域，作为各目标图像元素的候选区域。

在一个可选的示例中，装置还包括：

标识检测单元，用于针对待检测的目标图像元素的模板图像，获取模板图像的图像内容形式标识；若图像内容形式标识为预设的非文本内容标识，针对目标图像元素的模板图像，控制文本匹配子单元不执行对待检测的目标图像元素的模板图像，与待检测图像进行文本匹配，确定待检测图像中各目标图像元素的文本匹配成功的图像区域，作为各目标图像元素的候选区域的步骤。

在一个可选的示例中，模板匹配子单元，用于：

对待检测的目标图像元素的模板图像，与待检测图像分别进行图像二值分割；

对分割后的模板图像，与分割后的待检测图像进行模板匹配，根据匹配结果确定待检测图像中各目标图像元素的候选区域。

在一个可选的示例中，特征提取单元，用于：

针对各目标图像元素，对对应的模板图像进行卷积操作，得到模板图像的卷积特征作为模板图像特征；

针对各目标图像元素，对其对应的候选区域进行卷积操作，得到候选区域的卷积特征作为候选区域图像特征。

在一个可选的示例中，颜色比较单元，用于：

针对每个目标图像元素，确定对应的模板图像的第一像素均值，以及对应的第一候选区域中图像的第二像素均值；

计算第一像素均值和第二像素均值的差值，得到目标图像元素的模板图像和第一候选区域的图像颜色差异值。

在一个可选的示例中，颜色比较单元，用于：

若目标图像元素的模板图像或对应的第一候选区域的尺寸小于预设尺寸，将模板图像和第一候选区域按照相同的分割方式分割成数量相等的图像块，得到模板图像的模板子图像和第一候选区域的第一候选子区域；

计算各个模板子图像的第一像素均值，以及各个第一候选子区域的第二像素均值；

基于第一像素均值和第二像素均值，计算模板图像和候选区域中对应位置的模板子图像和第一候选子区域的像素均值差值；

第二筛选单元，用于从每个目标图像元素的第一候选区域中，删除至少存在一个像素均值差值大于预设差值阈值的候选区域，得到每个目标图像元素的第二候选区域。

在一个可选的示例中，目标检测区域确定单元，用于：

若第二候选区域与其他第二候选区域不存在重叠，确定第二候选区域为对应的目标图像元素的目标检测区域；

若第二候选区域与其他第二候选区域存在重叠，从待检测图像中确定包含重叠的第二候选区域的最小矩形区域，以及确定最小矩形区域对应的目标图像元素的模板图像；

将最小矩形区域，与最小矩形区域对应的目标图像元素的模板图像进行匹配；

根据匹配结果，确定最小矩形区域最终对应的一个目标图像元素，以及目标图像元素在最小矩形区域中的目标检测区域。

在一个可选的示例中，目标检测区域确定单元，用于：

若最小矩形区域对应的目标图像元素的数量为至少两个，将最小矩形区域，与各对应的目标图像元素的模板图像分别进行模板匹配，得到最小矩形区域中与各模板图像进行匹配的模板匹配区域，以及模板图像与模板匹配区域的第一模板匹配得分，其中，第一模板匹配得分用于表征模板图像和模板匹配区域的匹配程度；

根据第一模板匹配得分，确定匹配程度最高的模板图像与模板匹配区域，分别作为最小矩形区域最终对应的一个目标图像元素，以及目标图像元素在最小矩形区域中的目标检测区域。

在一个可选的示例中，第二筛选单元还用于：

针对每个目标图像元素，对对应的模板图像和第二候选区域进行模板匹配，确定每个第二候选区域的第二模板匹配得分，其中，第二模板匹配得分用于表征模板图像和第二候选区域的匹配程度；

从第二候选区域中删除第二模板匹配得分低于预设模板匹配分数阈值的候选区域，得到更新后的第二候选区域。

在本发明的一些实施例中，还可以提供一种存储介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现如上方法的步骤。

在本发明的一些实施例中，还可以提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现如上方法的步骤。

采用本发明实施例，可以对待检测的目标图像元素的模板图像，与待检测图像基于至少两种图像匹配方式进行图像匹配，确定出待检测图像中目标图像元素的候选区域，其中，目标图像元素的数量为至少一个；针对每个目标图像元素，对对应的模板图像和候选区域分别进行图像特征提取，得到模板图像特征和候选区域图像特征；获取同一目标图像元素对应的模板图像特征和候选区域图像特征之间的特征相似度，从目标图像元素的候选区域中删除特征相似度低于预设相似度阈值的候选区域，得到每个目标图像元素的第一候选区域；针对每个目标图像元素，确定对应的模板图像和第一候选区域的图像颜色差异值；从每个目标图像元素的第一候选区域中删除图像颜色差异值大于预设颜色差异阈值的候选区域，得到每个目标图像元素的第二候选区域；根据每个目标图像元素的第二候选区域确定目标图像元素的目标检测区域。由此，无需采用大量样本进行大量训练，可以节约资源，并且本申请的目标检测方案对新数据的适应性较强，提升了目标检测的可控性，而不采用端到端的神经网络结构，使得候选区域的确定、第一候选区域和第二候选区域的筛选等检测单元可以设置在不同的模块上进行，有利于提升检测速度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的图像中指定目标的识别系统的结构示意图；

图2a是本发明实施例提供的图像中指定目标的识别方法的流程图；

图2b是本发明实施例提供的图像中指定目标的识别方法的原理示意图；

图2c是本发明实施例提供的图像中指定目标的示意图；

图3是本发明实施例提供的图像中指定目标的识别装置的结构示意图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种图像中指定目标的识别方法、装置、电子设备和存储介质。

具体的，本发明实施例的电子设备可以是终端，终端可以包括移动终端和固定终端。其中，移动终端包括但不限于智能手机、智能手表、平板电脑、笔记本电脑、智能车载等，其中，固定终端包括但不限于台式电脑，智能电视等。

本实施例中提到的电子设备还可以是服务器，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

可以理解的是，本实施例的图像中指定目标的识别方法可以是在终端上执行的，也可以是在服务器上执行，还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

参考图1，本实施例提供的图像中指定目标的识别系统包括终端10和服务器20，终端10和服务器20之间通过网络连接，比如，通过有线或无线网络连接等。

其中，服务器20，可以用于对待检测的目标图像元素的模板图像，与待检测图像基于至少两种图像匹配方式进行图像匹配，确定出待检测图像中目标图像元素的候选区域，其中，目标图像元素的数量为至少一个；针对每个目标图像元素，对对应的模板图像和候选区域分别进行图像特征提取，得到模板图像特征和候选区域图像特征；获取同一目标图像元素对应的模板图像特征和候选区域图像特征之间的特征相似度，从目标图像元素的候选区域中删除特征相似度低于预设相似度阈值的候选区域，得到每个目标图像元素的第一候选区域；针对每个目标图像元素，确定对应的模板图像和第一候选区域的图像颜色差异值；从每个目标图像元素的第一候选区域中删除图像颜色差异值大于预设颜色差异阈值的候选区域，得到每个目标图像元素的第二候选区域；根据每个目标图像元素的第二候选区域确定目标图像元素的目标检测区域。

终端10，可以确定待检测图像，待检测图像对应的待检测的目标图像元素，将该待检测图像和目标图像元素的标识信息发送给服务器20，便于服务器20基于标识信息获取目标图像元素的模板图像，进而执行上述的识别方法。

可以理解的是，上述服务器20执行的步骤，也可以由终端10执行，本实施例对此没有限制。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本发明实施例提供的一种图像中指定目标的识别方法，该方法可以由终端的处理器或服务器的处理器执行，如图2a所示，该图像中指定目标的识别方法的流程可以如下：

201、对待检测的目标图像元素的模板图像，与待检测图像基于至少两种图像匹配方式进行图像匹配，确定出待检测图像中目标图像元素的候选区域，其中，目标图像元素的数量为至少一个；

本申请实施例提供的图像中指定目标的识别方法，涉及人工智能领域中的计算机视觉技术。本申请实施例可以适应对图像中的指定目标的检测场景，提高目标检测的准确度和速度。

其中，人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。

其中，计算机视觉技术(CV，Computer Vision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、物体检测与定位、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本实施例中可以利用计算机视觉技术实现目标检测区域的确定。

本实施例的目标图像元素的类型、尺寸等不限，目标图像元素的类型可以是控件、特定图标、特定对象如虚拟人、动物、植物等等，本实施例对此没有任何限定，目标图像元素的内容形式包括但不限于图案和文字，或者图案以及文字的组合等等。

其中，步骤201中，待检测的目标图像元素的类型可以相同，例如，都是控件元素，或者待检测的目标图像元素的类型可以有至少两种，例如包括控件元素，虚拟人物元素，虚拟道具元素、虚拟房屋元素等等元素类型。

本实施例中，待检测图像的来源和数量不限，待检测图像的来源可以相同或不同，例如待检测图像包从至少两个视频中提取的图像等等。

在一个示例中，待检测图像可以是从游戏视频中提取的图像，目标图像元素可以是游戏视频中的控件元素等。

可选的，步骤“对待检测的目标图像元素的模板图像，与待检测图像基于至少两种图像匹配方式进行图像匹配”前，还可以包括：

获取待检测图像；

确定待检测图像对应的待检测的目标图像元素，获取目标图像元素的模板图像。

可选的，获取待检测图像可以包括：从终端接收待检测图像。

可选的，获取待检测图像可以包括：从待检测视频中提取待检测图像。

其中，可以按照预设采样频率从待检测视频中提取待检测图像，或者将待检测视频中的每一帧图像作为待检测图像，本实施例对此没有限制。

在一个示例中，目标图像元素可以是默认的，即所有的待检测图像都设置同样的待检测的目标图像元素。

在另一个示例中，目标图像元素可以由用户设置，例如，在从终端接收待检测图像的方案中，终端还可以发送待检测图像对应的待检测的目标图像元素的元素标识，服务器根据标识信息获取目标图像元素的模板图像。

在又一个示例中，目标图像元素还可以是针对视频设置的，可选的，确定待检测图像对应的待检测的目标图像元素可以包括：获取提取出待检测图像的原始视频的视频属性标识，根据视频属性标识与预设的目标图像元素的元素标识的对应关系，确定原始视频对应的目标图像元素的元素标识。对应的，获取模板图像可以包括根据元素标识获取目标图像元素的模板图像。

其中，视频属性标识包括但不限于视频的名称，视频的类型，视频的时长、视频的风格等等。

在一个示例中，本实施例对步骤201中匹配方法的数量和具体算法没有限定，匹配方法的数量可以包括两种、三种、四种、五种等等。

本实施例的一个可选示例中，可以采用三种匹配方案选择出目标图像元素的候选区域。该三种匹配方案可以包括文本匹配、模板匹配和特征点匹配。其中，三种匹配方案可以由三个不同的模块负责，例如参见图2b，三个模板分别为文本匹配模块、模板匹配模块和特征匹配模块。

可选的，步骤“对待检测的目标图像元素的模板图像，与待检测图像基于至少两种图像匹配方式进行图像匹配，确定出待检测图像中目标图像元素的候选区域”，可以包括：

对待检测的目标图像元素的模板图像，与待检测图像进行文本匹配，确定待检测图像中各目标图像元素的文本匹配成功的图像区域，作为各目标图像元素的候选区域；

对待检测的目标图像元素的模板图像，与待检测图像进行模板匹配，确定待检测图像中各目标图像元素的模板匹配成功的图像区域，作为各目标图像元素的候选区域；

对待检测的目标图像元素的模板图像，与待检测图像进行特征点匹配，确定待检测图像中各目标图像元素的特征点匹配成功的图像区域，作为各目标图像元素的候选区域。

其中，在文本匹配模块中，步骤“对待检测的目标图像元素的模板图像，与待检测图像进行文本匹配，确定待检测图像中各目标图像元素的文本匹配成功的图像区域，作为各目标图像元素的候选区域”，可以包括：

对待检测图像进行文本识别，确定待检测图像中的文本框，以及文本框中的第一文本内容；

针对每个待检测的目标图像元素，对对应的模板图像进行文本识别，得到模板图像中的第二文本内容；

对第一文本内容和第二文本内容进行匹配，若匹配成功，则确定第一文本内容对应的文本框为第二文本内容对应的目标图像元素的候选区域，得到待检测图像中各目标图像元素的候选区域。

其中，文本识别可以基于OCR(Optical Character Recognition，光学字符识别)技术实现，

可选的，若第一文本内容和第二文本内容相同，则两者匹配成功。

在一个示例中，为了进一步提升文本匹配的速度，还可以对包含文本内容的模板图像预先设置其对应的文本内容，例如，可以预先设置图像元素的元素标识和模板图像中的文本内容的对应关系。在设置有该对应关系的场景下，针对每个待检测的目标图像元素，对对应的模板图像进行文本识别，得到模板图像中的第二文本内容的步骤，可以被替换为根据模板图像对应的目标图像元素的元素标识，以及图像元素的元素标识和模板图像中的文本内容的预设对应关系，确定目标图像元素的模板图像中的文本内容。

其中，考虑到没有文本的图像，其实无需进行文本识别，为了避免资源浪费，可以针对模板图像设置图像内容形式标识，图像内容形式标识可以用于表示图像中的图像内容的形式，如图像内容是图案还是文字等形式的内容。

在一个可选的示例中图像内容形式标识包括文本内容标识和非文本内容标识，文本内容标识用于表示对应的模板图像中包括文本，非文本内容标识用于表示对应的模板图像中不包括文本。

可选的，本实施例在对每个模板图像进行文本匹配前，还可以包括：针对待检测的目标图像元素的模板图像，获取模板图像的图像内容形式标识。

对应的，若某个模板图像的图像内容形式标识为预设的非文本内容标识，则针对该目标图像元素的模板图像，不执行对待检测的目标图像元素的模板图像，与待检测图像进行文本匹配，确定待检测图像中各目标图像元素的文本匹配成功的图像区域，作为各目标图像元素的候选区域的步骤。

可以理解的是，针对一张待检测图像，只进行一次文本识别，即可基于识别出的文本框与模板图像进行文本匹配。而无需针对每个模板图像，都对待检测图像进行一次文本识别。

在一个示例中，模板匹配可以通过在待检测图像中滑动窗口选择模板匹配区域与模板图像进行图像匹配实现。

可选的，在模板匹配模块中，步骤“对待检测的目标图像元素的模板图像，与待检测图像进行模板匹配，确定待检测图像中各目标图像元素的模板匹配成功的图像区域，作为各目标图像元素的候选区域”包括：

在待检测图像中按照特定步长滑动检测窗口，将每个检测窗口的图像区域作为模板匹配区域，对模板匹配区域与待检测的目标图像元素的模板图像进行图像匹配；

若图像匹配成功，将图像匹配成功的模板匹配区域作为对应的的目标图像元素的候选区域。

其中，特定步长可以是基于像素点数量设置的，例如特定步长为一个像素点的长度，即每次滑动检测窗口时，在滑动方向上滑动一个像素点的距离。

例如，检测窗口最开始位于待检测图像的左上角，则滑动方可以为向左，即检测窗口依次向左滑动一个像素点的距离来确定模板匹配区域。

其中，检测窗口的尺寸不限，在一个示例中，检测窗口的尺寸可以与模板图像的尺寸一致。

考虑到实际场景中，很多时候会设置半透明的图像元素，例如半透明的控件等等，本实施例中，在进行模板匹配时，可以对图像进行处理，提升图像中前景和背景的差异，从而增强半透明控件与背景的差异，提升半透明图像元素的识别准确度。

可选的，步骤“对待检测的目标图像元素的模板图像，与待检测图像进行模板匹配，确定待检测图像中各目标图像元素的模板匹配成功的图像区域，作为各目标图像元素的候选区域”，可以包括：

其中，可以先对待检测的目标图像元素的模板图像，与待检测图像分别进行图像灰度处理，然后对灰度处理后的模板图像，与待检测图像分别进行图像二值分割。

其中，图像二值分割中将图像分割为前景区域和背景区域，前景区域可以为白色即RGB(0,0,0)，背景可以为黑色即RGB(255,255,255)。即，在分割后的模板图像和待检测图像中，前景区域为白色，后景区域为黑色。

一个示例中，对灰度处理后的模板图像，与待检测图像分别进行图像二值分割可以包括：

获取灰度值阈值；

针对灰度处理后的模板图像，若像素点的灰度值小于灰度值阈值，则像素点为前景区域的像素点，将其灰度值设置为0，若像素点的灰度值不小于灰度值阈值，则像素点为背景区域的像素点，将其灰度值设置为255。

其中，灰度值阈值的获取方案不限，在一个可选的示例中，可以通过大津法确定，例如：对于图像I(x,y)，前景(即目标)和背景的灰度值阈值记作T，属于前景的像素点数占整幅图像的比例记为ω0，其平均灰度μ0；属于背景像素点数占整幅图像的比例为ω1，其平均灰度为μ1。图像的总平均灰度记为μ，类间方差记为g。

假设图像的背景较暗，并且图像的大小为M×N，图像中像素点的灰度值小于阈值T的像素个数记作N0，像素点的灰度大于阈值T的像素个数记作N1，则有：

ω0＝N0/M×N (1)

ω1＝N1/M×N (2)

N0+N1＝M×N (3)

ω0+ω1＝1 (4)

μ＝ω0*μ0+ω1*μ1 (5)

g＝ω0(μ0-μ)^2+ω1(μ1-μ)^2 (6)

其中，将上式(5)代入式(6),可以得到等价公式:

g＝ω0ω1(μ0-μ1)^2 (7)

公式(7)就是类间方差g的表达式，可以采用遍历的方法得到使类间方差g最大的阈值T,即为所求。

可选的，在特征匹配模块中，步骤“对待检测的目标图像元素的模板图像，与待检测图像进行特征点匹配，确定待检测图像中各目标图像元素的特征点匹配成功的图像区域，作为各目标图像元素的候选区域”，可以包括：

对待检测图像进行特征点识别，得到待检测图像中的第一特征点；

对待检测的目标图像元素的模板图像进行特征点识别，得到模板图像的第二特征点；

对第一特征点和第二特征点进行匹配，若模板图像中匹配成功的第二特征点的数量超过预设数量阈值，确定模板图像匹配成功的第一特征点，基于该匹配成功的第一特征点确定模板图像对应的目标图像元素的候选区域。

其中，可以基于匹配成功的第一特征点在待检测图像中的位置，设置包括于匹配成功的第一特征点的矩形区域作为目标图像元素的候选区域。或者，一个示例中，候选区域的形状还可以根据目标图像元素的形状设置，本实施例地此没有限制。

其中，本实施例中的特征点可以是计算机视觉的研究者们设计的具有稳定性的特征点，具体的，这些特征点不会随着相机的移动，旋转或者光照的变化而变化。本实施例的特征点识别算法包括但不限于：SIFT(Scale-invariant feature transform，尺度不变特征变换)、ORB(Oriented Fast and Rotated Brief)等算法。

其中，一个图像的特征点由两部分构成：关键点(Keypoint)和描述子(Descriptor)，关键点指的是该特征点在图像中的位置，在一些示例中还包括图像中的方向、尺度信息；描述子通常是一个向量，按照人为的设计的方式，描述关键点周围像素的信息。

可选的，本实施例中，对第一特征点和第二特征点进行匹配时，可以根据特征点的描述子进行匹配，若描述子相似度高于预设相似度阈值，则确定第一特征点和第二特征点匹配成功。

参见图2b可知，本实施例中，三个匹配模块可以是相互独立，且并行运行的，所以针对待检测图像和模板图像的三种匹配方案可以同时进行，在通过多种匹配方案尽可能多地检测出有效区域的同时，还能有效节约时间。

前述内容中通过多种匹配方案得到了所有目标图像元素的候选区域，很多时候一个目标图像元素对应的候选区域的数量不止一个，为了使得候选区域的结果更加精确，后续内容中将对这些图像区域进行多级过滤。

202、针对每个目标图像元素，对对应的模板图像和候选区域分别进行图像特征提取，得到模板图像特征和候选区域图像特征；

其中，步骤202-203可以视为对候选区域的初级过滤。

其中，图像特征提取的方式不限，可以是现有的任意图像特征提取方案，其中，图像特征包括但不限于颜色特征、纹理特征、形状特征等等，以及通过神经网络提取出的图像特征如卷积特征等。

203、获取同一目标图像元素对应的模板图像特征和候选区域图像特征之间的特征相似度，从目标图像元素的候选区域中删除特征相似度低于预设相似度阈值的候选区域，得到每个目标图像元素的第一候选区域；

其中，特征相似度的计算方式根据202中提取出的图像特征的类型不同而不同。

可选的，一个示例中，步骤202可以包括：针对每个目标图像元素，对对应的模板图像和候选区域分别进行颜色直方图获取，将模板图像的颜色直方图作为模板图像特征，将候选区域的颜色直方图作为候选区域图像特征。对应的，步骤203中，特征相似度为颜色直方图的相似度。

当然，在颜色特征维度，除了颜色直方图，还可以由颜色矩、颜色聚合向量等作为图像特征。

在一个可选的示例中，步骤202可以包括：针对各目标图像元素，对对应的模板图像进行卷积操作，得到模板图像的卷积特征作为模板图像特征；针对各目标图像元素，对其对应的候选区域进行卷积操作，得到候选区域的卷积特征作为候选区域图像特征。

其中，参见图2b，步骤202-203可以通过图2b中的一级过滤器实现，该一级过滤器包括图像匹配模型，图像匹配模型包括两个并列的卷积模块，以及与两个卷积模块连接的匹配模块，其中一个卷积模块用于对模板图像进行卷积，另一个用于对候选区域的图像进行卷积。

步骤202中，可以将模板图像以及其对应的候选区域的图像输入两个并列的卷积模块分别进行卷积，两个并列的卷积模块将得到的卷积特征输入到匹配模块中，匹配模块对输入的两个卷积特征进行特征相似度计算，得到计算出的特征相似度值。

在一个示例中，预设相似度阈值可以根据需要进行设置，不同的模板图像的预设相似度阈值可以不同。

其中，卷积模块可以基于现有的任意可以实现卷积操作的神经网络的结构设置，例如，CNN(Convolutional Neural Networks,卷积神经网络)、CNNs(deep convolutionalneural networks,深度卷积神经网络)等等。

204、针对每个目标图像元素，确定对应的模板图像和第一候选区域的图像颜色差异值；

其中，图像的颜色差异值，可以基于灰度差值，像素差值等来进行表示，本实施例对此没有限制，其中，灰度差值，可以理解为两张灰度图像中相同位置的像素点的灰度值之差，像素差值，可以理解为两张彩图如RGB图像中相同位置的像素点的像素值(如RGB值)之差。

具体的，图像颜色差异值可以是两张图像的灰度值均值的差，或者像素均值之差。

可选的，一个示例中，步骤“针对每个目标图像元素，确定对应的模板图像和第一候选区域的图像颜色差异值”，可以包括：

其中，像素均值，可以由像素的RGB分量均值组成即由红色分量均值、绿色分量均值、蓝色分量均值组成。

针对每个目标图像元素，确定将对应的模板图像转换为第一灰度图，确定第一灰度图的第一灰度均值，将对应的第一候选区域中图像转换为第二灰度图，确定第二灰度图的第二灰度均值；

计算第一灰度均值和第二灰度均值的差值，得到目标图像元素的模板图像和第一候选区域的图像颜色差异值。

205、从每个目标图像元素的第一候选区域中删除图像颜色差异值大于预设颜色差异阈值的候选区域，得到每个目标图像元素的第二候选区域；

其中，步骤204-205可以视为图2b中的二级过滤器实现的基于图像颜色差异的候选区域过滤。

其中，颜色差异阈值可以根据实际需要设置，本实施例对此没有限制。

在实际中，存在很多尺寸较小的图像，这些图像在进行步骤204-205的图像差异比较时，需要更为精细地比较颜色差异。

可选的，步骤“针对每个目标图像元素，确定对应的模板图像的第一像素均值，以及对应的候选区域中图像的第二像素均值”，包括：

若目标图像元素的模板图像或对应的第一候选区域的尺寸小于预设尺寸，将模板图像和第一候选区域按照相同的分割方式，分割成数量相等的图像块，得到模板图像的模板子图像和第一候选区域的第一候选子区域；

可选的，步骤“计算第一像素均值和第二像素均值的差值，得到目标图像元素的模板图像和第一候选区域的图像颜色差异值”，包括：

可选的，步骤“从每个目标图像元素的第一候选区域中删除图像颜色差异值大于预设颜色差异阈值的候选区域，得到每个目标图像元素的第二候选区域”，包括：

从每个目标图像元素的第一候选区域中，删除至少存在一个像素均值差值大于预设差值阈值的候选区域，得到每个目标图像元素的第二候选区域。

其中，预设尺寸可以由发送待检测图像的用户设置，或预先存储在服务器中，在此不进行限制。

可选的，对模板图像和第一候选区域按照相同的分割方式进行分割时，可以是对模板图像和第一候选区域分别按照水平和竖直方向中线分割成四块(左上、右上、左下、右下)，得到四个模板子图像和四个第一候选子区域。

在计算出每个模板子图像的第一像素均值和每个第一候选子区域的第二像素均值后，是对相同位置的模板子图像和第一候选子区域进行像素均值求差。

例如，对左上(或右上、左下、右下)的模板子图像和第一候选子区域，计算第一像素均值和第二像素均值的差。

本实施例中，只要有一块第一候选子区域的图像颜色差异值大于预设差值阈值，则该第一候选子区域所属的第一候选图像会被删除。

由此，对不同尺寸的图像元素和模板图像，都可以进行很好的二级过滤。

其中，二级过滤器还可以基于模板匹配进一步过滤第二候选区域。

可选的，步骤205之后，还可以包括：

其中，模板匹配的具体做法可以参见前述示例的叙述，在此不再赘述。

在第二候选区域更新后，步骤206中基于更新后的第二候选区域确定目标检测区域。

其中，模板匹配时，可以将第二候选区域中的模板匹配区域与对应的模板图像进行相似度计算，以相似度值来表示第二模板匹配得分。

其中，模板匹配区域与对应的模板图像的相似度计算方式，可以是先提取图像特征，然后计算图像特征的相似度等方式，本实施例对此没有限制。

可选的，预设模板匹配分数阈值的大小不限，可以根据实际需要设置。

206、根据每个目标图像元素的第二候选区域确定目标图像元素的目标检测区域。

在实际中可以就将每个目标元素对应的第二候选区域确定为其目标检测区域。

但是考虑到本实施例步骤201采用了多种匹配方案，步骤206中，每个目标图像元素的第二候选区域的数量可能不止一个，且相同或不同的图像元素的第二候选区域可能存在重叠，为了进一步提升检测区域的识别准确性，本实施例中，还采用图2b中的去除重复区域的模块进行重复区域的去除。

可选的，步骤“根据每个目标图像元素的第二候选区域确定目标图像元素的目标检测区域”，可以包括：

其中，针对同一个目标图像元素，第二候选区域与其他第二候选区域不存在重叠包括：目标图像元素具有至少一个第二候选区域，每一个第二候选区域都与其他第二候选区域不重叠，这种情况下第二候选区域就是目标图像元素的目标检测区域。

其中，第二候选区域与其他第二候选区域存在重叠包括两种情况：重叠的第二候选区域属于同一个目标图像元素，重叠的第二候选区域属于至少两个目标图像元素。

对于前一种情况，根据匹配结果，最小矩形区域最终对应的目标图像元素时，就是重叠的第二候选区域对应的目标图像元素。

对于后一种情况，需要从多个目标图像元素中选择一个作为最小矩形区域最终对应的目标图像元素。

可选的，步骤“将最小矩形区域，与最小矩形区域对应的目标图像元素的模板图像进行匹配”，可以包括：

根据匹配结果，确定最小矩形区域最终对应的一个目标图像元素，以及目标图像元素在最小矩形区域中的目标检测区域，包括：

其中，第一模板匹配得分的计算方式可以参考前述的描述，在此不再赘述，

下面举例对最小矩形区域对应的目标图像元素的数量为至少两个的场景下，如何去除重复候选区域进行说明。

假设第二候选区域a1、a2和b1、b2重叠，a1、a2为目标图像元素A的候选区域，b1、b2为目标图元素B的候选区域。

先从待检测图像中确定包含a1、a2和b1、b2的最小矩形区域C；

在最小矩形区域C中滑动检测窗口，得到多个模板匹配区域C11-C1k，对模板匹配区域C11-C1k与A的模板图像进行相似度计算，得到模板匹配区域C11-C1k的多个相似度；

在最小矩形区域C中滑动检测窗口，得到多个模板匹配区域C21-C2n,对模板匹配区域C21-C2n与B的模板图像进行相似度计算，得到模板匹配区域C21-C2n的多个相似度；

比较C11-C1k和C21-C2n的相似度，确定相似度最高的模板匹配区域(假设为c13)，以及该模板匹配区域对应的模板图像的目标图像元素A。

则目标图像元素A为重叠的第二候选区域a1、a2和b1、b2所在的最小矩形最终对应的唯一的一个图像元素。c13为目标图像元素A的目标检测区域。

其中，基于本实施例得到的目标检测区域参见图2c所示，图2c中虚线框指示的区域为目标检测区域。

当然，一个示例中，还可以将最小矩形区域作为确定出的目标图像元素的目标检测区域。

采用本实施例，建立了一套基于计算机视觉算法的自动检测图像中指定元素的系统流程。流程分为两大部分：第一部分通过图像特征匹配、图像模板匹配和光学文字识别技术，分别独立地召回图像中可能是指定的图像元素的候选区域，第二部分通过CNN、图像灰度值匹配和多尺度图像模板匹配的方法逐级筛除错误的候选区域。最终得到准确和完备的检测结果。本实施例中，各个检测和筛选的模块独立性好，大部分模块可以并行计算，因此处理速度非常快，可以有效提升识别速度。

并且，本实施例中，召回候选区和删除误检区域的操作是独立的，每个模块之间也没有耦合，因此各模块可以分开设置阈值调优，而且每个模块都可以方便的用其他算法替换，可支持多人同时优化系统，具有更强的实用性。

为了更好地实施以上方法，相应的，本发明实施例还提供一种图像中指定目标的识别装置，该装置具体可以集成在终端中。

参见图3，该图像中指定目标的识别装置包括：

候选区域确定单元301，用于对待检测的目标图像元素的模板图像，与待检测图像基于至少两种图像匹配方式进行图像匹配，确定出待检测图像中目标图像元素的候选区域，其中，目标图像元素的数量为至少一个；

特征提取单元302，用于针对每个目标图像元素，对对应的模板图像和候选区域分别进行图像特征提取，得到模板图像特征和候选区域图像特征；

第一筛选单元303，用于获取同一目标图像元素对应的模板图像特征和候选区域图像特征之间的特征相似度，从目标图像元素的候选区域中删除特征相似度低于预设相似度阈值的候选区域，得到每个目标图像元素的第一候选区域；

颜色比较单元304，用于针对每个目标图像元素，确定对应的模板图像和第一候选区域的图像颜色差异值；

第二筛选单元305，用于从每个目标图像元素的第一候选区域中删除图像颜色差异值大于预设颜色差异阈值的候选区域，得到每个目标图像元素的第二候选区域；

目标检测区域确定单元306，用于根据每个目标图像元素的第二候选区域确定目标图像元素的目标检测区域。

在一个可选的示例中，候选区域确定单元，包括：

可选的，模板匹配子单元，用于对待检测的目标图像元素的模板图像，与待检测图像分别进行图像二值分割；

在一个可选的示例中，装置还包括：

在一个可选的示例中，特征提取单元，用于：

在一个可选的示例中，颜色比较单元，用于：

在一个可选的示例中，目标检测区域确定单元，用于：

在一个可选的示例中，第二筛选单元还用于：

采用本实施例，可以通过图像特征匹配、图像模板匹配和光学文字识别技术，分别独立地召回图像中可能是指定的图像元素的候选区域，通过CNN、图像灰度值匹配和多尺度图像模板匹配的方法逐级筛除错误的候选区域。最终得到准确和完备的检测结果。本实施例中，各个检测和筛选的模块独立性好，大部分模块可以并行计算，因此处理速度非常快，可以有效提升识别速度。

此外，本发明实施例还提供一种电子设备，该电子设备可以为终端或者服务器，如图4所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体检测。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

根据每个目标图像元素的第二候选区域，确定目标图像元素的目标检测区域。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例还提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的图像中指定目标的识别方法。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的图像中指定目标的识别方法中的步骤，因此，可以实现本发明实施例所提供的图像中指定目标的识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述实施例中的各种可选实现方式中提供的方法。

以上对本发明实施例所提供的一种图像中指定目标的识别方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像中指定目标的识别方法，其特征在于，包括：

对待检测的目标图像元素的模板图像，与待检测图像基于至少两种图像匹配方式进行图像匹配，确定出所述待检测图像中所述目标图像元素的候选区域，包括以下至少两种匹配方式：对待检测的目标图像元素的模板图像，与所述待检测图像进行文本匹配，确定所述待检测图像中各目标图像元素的文本匹配成功的图像区域，作为各目标图像元素的候选区域；对所述待检测的目标图像元素的模板图像，与所述待检测图像进行模板匹配，确定所述待检测图像中各目标图像元素的模板匹配成功的图像区域，作为各目标图像元素的候选区域；对所述待检测的目标图像元素的模板图像，与所述待检测图像进行特征点匹配，确定所述待检测图像中各目标图像元素的特征点匹配成功的图像区域，作为各目标图像元素的候选区域；其中，所述目标图像元素的数量为至少一个；

获取同一目标图像元素对应的模板图像特征和候选区域图像特征之间的特征相似度，从所述目标图像元素的候选区域中删除所述特征相似度低于预设相似度阈值的候选区域，得到每个所述目标图像元素的第一候选区域；

从每个目标图像元素的第一候选区域中删除所述图像颜色差异值大于预设颜色差异阈值的候选区域，得到每个所述目标图像元素的第二候选区域；

根据每个目标图像元素的第二候选区域，确定所述目标图像元素的目标检测区域，包括：若第二候选区域与其他第二候选区域不存在重叠，确定所述第二候选区域为对应的目标图像元素的目标检测区域。

2.根据权利要求1所述的图像中指定目标的识别方法，其特征在于，所述对待检测的目标图像元素的模板图像，与所述待检测图像进行文本匹配，确定所述待检测图像中各目标图像元素的文本匹配成功的图像区域，作为各目标图像元素的候选区域前，还包括：

针对待检测的目标图像元素的模板图像，获取所述模板图像的图像内容形式标识；

若所述图像内容形式标识为预设的非文本内容标识，针对所述目标图像元素的模板图像，不执行所述对待检测的目标图像元素的模板图像，与所述待检测图像进行文本匹配的步骤。

3.根据权利要求1所述的图像中指定目标的识别方法，其特征在于，所述对所述待检测的目标图像元素的模板图像，与所述待检测图像进行模板匹配，确定所述待检测图像中各目标图像元素的模板匹配成功的图像区域，作为各目标图像元素的候选区域，包括：

对所述待检测的目标图像元素的模板图像，与所述待检测图像分别进行图像二值分割；

对分割后的模板图像，与分割后的待检测图像进行模板匹配，根据匹配结果确定所述待检测图像中各目标图像元素的候选区域。

4.根据权利要求1所述的图像中指定目标的识别方法，其特征在于，所述针对每个目标图像元素，对对应的模板图像和候选区域分别进行图像特征提取，得到模板图像特征和候选区域图像特征，包括：

针对各目标图像元素，对对应的模板图像进行卷积操作，得到所述模板图像的卷积特征作为模板图像特征；

针对各目标图像元素，对其对应的候选区域进行卷积操作，得到所述候选区域的卷积特征作为候选区域图像特征。

5.根据权利要求1所述的图像中指定目标的识别方法，其特征在于，所述针对每个目标图像元素，确定对应的模板图像和第一候选区域的图像颜色差异值，包括：

计算所述第一像素均值和第二像素均值的差值，得到所述目标图像元素的模板图像和第一候选区域的图像颜色差异值。

6.根据权利要求5所述的图像中指定目标的识别方法，其特征在于，所述针对每个目标图像元素，确定对应的模板图像的第一像素均值，以及对应的候选区域中图像的第二像素均值，包括：

若目标图像元素的模板图像或对应的第一候选区域的尺寸小于预设尺寸，将所述模板图像和第一候选区域按照相同的分割方式，分割成数量相等的图像块，得到模板图像的模板子图像和第一候选区域的第一候选子区域；

计算各个所述模板子图像的第一像素均值，以及各个第一候选子区域的第二像素均值；

所述计算所述第一像素均值和第二像素均值的差值，得到所述目标图像元素的模板图像和第一候选区域的图像颜色差异值，包括：

基于所述第一像素均值和第二像素均值，计算所述模板图像和候选区域中对应位置的模板子图像和第一候选子区域的像素均值差值；

所述从每个目标图像元素的第一候选区域中删除所述图像颜色差异值大于预设颜色差异阈值的候选区域，得到每个所述目标图像元素的第二候选区域，包括：

从每个目标图像元素的第一候选区域中，删除至少存在一个所述像素均值差值大于预设差值阈值的候选区域，得到每个所述目标图像元素的第二候选区域。

7.根据权利要求1-6任一项所述的图像中指定目标的识别方法，其特征在于，所述根据每个目标图像元素的第二候选区域，确定所述目标图像元素的目标检测区域，还包括：

若第二候选区域与其他第二候选区域存在重叠，从所述待检测图像中确定包含重叠的第二候选区域的最小矩形区域，以及确定所述最小矩形区域对应的目标图像元素的模板图像；

将所述最小矩形区域，与所述最小矩形区域对应的目标图像元素的模板图像进行匹配；

根据匹配结果，确定所述最小矩形区域最终对应的一个目标图像元素，以及所述目标图像元素在所述最小矩形区域中的目标检测区域。

8.根据权利要求7所述的图像中指定目标的识别方法，其特征在于，所述将所述最小矩形区域，与所述最小矩形区域对应的目标图像元素的模板图像进行匹配，包括：

若所述最小矩形区域对应的目标图像元素的数量为至少两个，将所述最小矩形区域，与各对应的目标图像元素的模板图像分别进行模板匹配，得到最小矩形区域中与各模板图像进行匹配的模板匹配区域，以及所述模板图像与模板匹配区域的第一模板匹配得分，其中，所述第一模板匹配得分用于表征模板图像和模板匹配区域的匹配程度；

所述根据匹配结果，确定所述最小矩形区域最终对应的一个目标图像元素，以及所述目标图像元素在所述最小矩形区域中的目标检测区域，包括：

根据所述第一模板匹配得分，确定匹配程度最高的模板图像与模板匹配区域，分别作为所述最小矩形区域最终对应的一个目标图像元素，以及所述目标图像元素在所述最小矩形区域中的目标检测区域。

9.根据权利要求1-6任一项所述的图像中指定目标的识别方法，其特征在于，所述根据每个目标图像元素的第二候选区域，确定所述目标图像元素的目标检测区域前，还包括：

从第二候选区域中删除所述第二模板匹配得分低于预设模板匹配分数阈值的候选区域，得到更新后的第二候选区域。

10.一种图像中指定目标的识别装置，其特征在于，包括：

候选区域确定单元，用于对待检测的目标图像元素的模板图像，与待检测图像基于至少两种图像匹配方式进行图像匹配，确定出所述待检测图像中所述目标图像元素的候选区域，包括以下至少两种匹配方式：对待检测的目标图像元素的模板图像，与所述待检测图像进行文本匹配，确定所述待检测图像中各目标图像元素的文本匹配成功的图像区域，作为各目标图像元素的候选区域；对所述待检测的目标图像元素的模板图像，与所述待检测图像进行模板匹配，确定所述待检测图像中各目标图像元素的模板匹配成功的图像区域，作为各目标图像元素的候选区域；对所述待检测的目标图像元素的模板图像，与所述待检测图像进行特征点匹配，确定所述待检测图像中各目标图像元素的特征点匹配成功的图像区域，作为各目标图像元素的候选区域；其中，所述目标图像元素的数量为至少一个；

第一筛选单元，用于获取同一目标图像元素对应的模板图像特征和候选区域图像特征之间的特征相似度，从所述目标图像元素的候选区域中删除所述特征相似度低于预设相似度阈值的候选区域，得到每个所述目标图像元素的第一候选区域；

第二筛选单元，用于从每个目标图像元素的第一候选区域中删除所述图像颜色差异值大于预设颜色差异阈值的候选区域，得到每个所述目标图像元素的第二候选区域；

目标检测区域确定单元，用于根据每个目标图像元素的第二候选区域，确定所述目标图像元素的目标检测区域，包括：若第二候选区域与其他第二候选区域不存在重叠，确定所述第二候选区域为对应的目标图像元素的目标检测区域。

11.一种电子设备，其特征在于，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现如权利要求1-9任一项方法的步骤。

12.一种存储介质，其特征在于，其上存储有计算机程序，其中，计算机程序被处理器执行时实现如权利要求1-9任一项方法的步骤。