CN112381104A - 一种图像识别方法、装置、计算机设备及存储介质 - Google Patents

一种图像识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112381104A
CN112381104A CN202011276848.9A CN202011276848A CN112381104A CN 112381104 A CN112381104 A CN 112381104A CN 202011276848 A CN202011276848 A CN 202011276848A CN 112381104 A CN112381104 A CN 112381104A
Authority
CN
China
Prior art keywords
image
difference
template image
template
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011276848.9A
Other languages
English (en)
Inventor
屠子睿
李津
陈晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011276848.9A priority Critical patent/CN112381104A/zh
Publication of CN112381104A publication Critical patent/CN112381104A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种图像识别方法、装置、计算机设备及存储介质,本申请实施例获取待识别图像和包含目标对象的模板图像;通过差值孪生卷积神经网络的孪生网络通道分别获取第一特征向量;对待识别图像和模板图像的进行像素做差处理,得到差值图像;通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对待识别图像和模板图像,生成第二特征向量;通过差值卷积网络通道将差值图像进行单通道化处理,以获取第三特征向量;将第一特征向量、第二特征向量和第三特征向量进行拼接处理,得到拼接后特征向量;将拼接后特征向量通过差值孪生卷积神经网络的线性二分类网络通道以识别得到目标对象在待识别图像中的位置。提高了识别的准确性。

Description

一种图像识别方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种图像识别方法、装置、计算机设备及存储介质。
背景技术
图像包含有丰富的信息,这些信息对于在复杂环境中检测、识别和跟踪目标具有重要的意义。例如,以游戏画面为例,游戏画面中包含丰富的游戏控件,可以根据实际需求对游戏画面中的游戏控件进行检测,以提示用户可操作的游戏控件所在的位置,方便用户进行操作。
现有技术中,在对游戏控件进行检测的过程中,可以截取当前游戏画面的图像,通过模板匹配等匹配算法,将该图像与目标控件模板进行匹配,以匹配出目标控件在该图像中分位置。该匹配算法要求图像中的目标控件和目标控件模板要严格类似,而由于游戏界面有较大的差异性,因此不能保证检测准确性。并且由于受外界因素(例如光线或分辨率等)的影响,可能导致匹配的图像不清晰,而出现图像匹配的可靠性低及精度不高等问题。
发明内容
本申请实施例提供一种图像识别方法、装置、计算机设备及存储介质,可以提高对图像识别准确性。
为解决上述技术问题,本申请实施例提供以下技术方案:
本申请实施例提供了一种图像识别方法,包括:
获取待识别图像和包含目标对象的模板图像;
通过差值孪生卷积神经网络的孪生网络通道分别获取所述待识别图像和所述模板图像之间相似度对应的第一特征向量;
对所述待识别图像和所述模板图像的进行像素做差处理,得到所述待识别图像和所述模板图像对应的差值图像;
通过所述差值孪生卷积神经网络的差值卷积网络通道,基于所述差值图像对所述待识别图像和所述模板图像进行相似度衡量,以生成第二特征向量;
通过所述差值卷积网络通道将所述差值图像进行单通道化处理,以获取所述差值图像对应的第三特征向量;
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行拼接处理,得到拼接后特征向量;
将所述拼接后特征向量通过所述差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到所述目标对象在所述待识别图像中的位置。
根据本申请的一个方面,还提供了一种图像识别装置,包括:
第一获取单元,用于获取待识别图像和包含目标对象的模板图像;
第二获取单元,用于通过差值孪生卷积神经网络的孪生网络通道分别获取所述待识别图像和所述模板图像之间相似度对应的第一特征向量;
处理单元,用于对所述待识别图像和所述模板图像的进行像素做差处理,得到所述待识别图像和所述模板图像对应的差值图像;
生成单元,用于通过所述差值孪生卷积神经网络的差值卷积网络通道,基于所述差值图像对所述待识别图像和所述模板图像进行相似度衡量,以生成第二特征向量;
第三获取单元,用于通过所述差值卷积网络通道将所述差值图像进行单通道化处理,以获取所述差值图像对应的第三特征向量;
拼接单元,用于将所述第一特征向量、所述第二特征向量和所述第三特征向量进行拼接处理,得到拼接后特征向量;
识别单元,用于将所述拼接后特征向量通过所述差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到所述目标对象在所述待识别图像中的位置。
根据本申请的一个方面,还提供了一种计算机设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种图像识别方法。
根据本申请的一个方面,还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载,以执行本申请实施例提供的任一种图像识别方法。
本申请实施例可以获取待识别图像和包含目标对象的模板图像,通过差值孪生卷积神经网络的孪生网络通道分别获取待识别图像和模板图像之间相似度对应的第一特征向量;以及可以对待识别图像和模板图像的进行像素做差处理,得到待识别图像和模板图像对应的差值图像,通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对待识别图像和模板图像进行相似度衡量,以生成第二特征向量;通过差值卷积网络通道将差值图像进行单通道化处理,以获取差值图像对应的第三特征向量;然后可以将第一特征向量、第二特征向量和第三特征向量进行拼接处理,得到拼接后特征向量,此时可以将拼接后特征向量通过差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到目标对象在待识别图像中的位置。该方案可以获取待识别图像和模板图像之间相似度对应的第一特征向量、基于差值图像获取第二特征向量、以及对差值图像进行单通道化处理得到第三特征向量,并将这三个特征向量进行拼接,以基于拼接后特征向量识别目标对象在待识别图像中的位置,提高了对待识别图像中目标对象进行识别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的图像识别方法应用的场景示意图;
图2是本申请实施例提供的图像识别方法的流程示意图;
图3是本申请实施例提供的图像识别方法的另一流程示意图;
图4是本申请实施例提供的差值孪生卷积神经网络的示意图;
图5是本申请实施例提供的卷积模块的结构示意图;
图6是本申请实施例提供的对图像模糊化的示意图;
图7是本申请实施例提供的对图像亮度增强的示意图;
图8是本申请实施例提供的对图像截取即放大的示意图;
图9是本申请实施例提供的识别待识别图像中目标对象的示意图;
图10是本申请实施例提供的识别待识别图像中目标对象的另一示意图;
图11是本申请实施例提供的基于图像块与模板图像识别目标对象的示意图;
图12是本申请实施例提供的图像识别方法的另一流程示意图
图13是本申请实施例提供的图像识别装置的示意图;
图14是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种图像识别方法、装置、计算机设备及存储介质。
请参阅图1,图1为本申请实施例所提供的图像识别方法应用的场景示意图,该图像识别方法应用可以包括图像识别装置,该图像识别装置具体可以集成在服务器或终端中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、或者可穿戴设备等。
其中,计算机设置可以用于获取待识别图像和包含目标对象的模板图像,通过差值孪生卷积神经网络的孪生网络通道分别获取待识别图像和模板图像之间相似度对应的第一特征向量;以及可以对待识别图像和模板图像的进行像素做差处理,得到待识别图像和模板图像对应的差值图像,通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对待识别图像和模板图像进行相似度衡量,以生成第二特征向量;通过差值卷积网络通道将差值图像进行单通道化处理,以获取差值图像对应的第三特征向量;然后可以将第一特征向量、第二特征向量和第三特征向量进行拼接处理,得到拼接后特征向量,此时可以将拼接后特征向量通过差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到目标对象在待识别图像中的位置。该方案可以获取待识别图像和模板图像之间相似度对应的第一特征向量、基于差值图像获取第二特征向量、以及对差值图像进行单通道化处理得到第三特征向量,并将这三个特征向量进行拼接,以基于拼接后特征向量识别目标对象在待识别图像中的位置,提高了对待识别图像中目标对象进行识别的准确性。
需要说明的是,图1所示的图像识别方法应用的场景示意图仅仅是一个示例,本申请实施例描述的图像识别方法应用以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着图像识别方法应用的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例提供的图像识别方法可以涉及人工智能中的机器学习技术等技术,下面先对人工智能技术和机器学习技术进行说明。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、以及机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、以及算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、以及式教学习等技术。
在本实施例中,将从图像识别装置的角度进行描述,该图像识别装置具体可以集成在服务器等计算机设备中。
请参阅图2,图2是本申请一实施例提供的图像识别方法的流程示意图。该图像识别方法可以包括:
S101、获取待识别图像和包含目标对象的模板图像。
其中,目标对象可以根据实际需要进行灵活设置,例如,当待识别图像为游戏画面对应的图像时,该目标对象可以是游戏控件,该游戏控件可以是游戏画面中的关键元素,如经常出现的图标或可以点击的按钮等控件;又例如,当待识别图像为人脸图像时,该目标对象可以是人脸;又例如,当待识别图像为包含动物(例如狗或猫等)的图像时,该目标对象可以是动物;又例如,当待识别图像为包含车辆的图像时,该目标对象可以是车辆;等等。
计算机设备可以从本地数据库或服务器上获取待识别图像和模板图像,或者可以通过预设的摄像头或相机等采集待识别图像和模板图像等。其中,模板图像可以包括多张,每张模板图像中可以包括至少一个目标对象,每张模板图像中的目标对象可以相同或不同,例如,待识别图像可以是截取游戏画面得到的图像,模板图像可以包括游戏控件a、游戏控件b、游戏控件c、游戏控件d、游戏控件e以及游戏控件f等。
在一实施方式中,获取待识别图像和包含目标对象的模板图像可以包括:获取待识别图像和多张原始模板图像;将待识别图像分别与每张原始模板图像进行模板匹配,并筛选出匹配分值大于第一阈值的模板图像,得到第一候选模板图像;将待识别图像分别与每张原始模板图像进行特征匹配,并筛选出匹配分值大于第二阈值的模板图像,得到第二候选模板图像;将第一候选模板图像和第二候选模板图像的并集作为模板图像。
由于获取到的原始模板图像较多,因此为了提高后续识别的效率和可靠性,可以对原始模板图像进行粗筛,以基于得到的模板图像进行识别。具体地,如图3所示,可以获取待识别图像和多张包含目标对象的原始模板图像,将待识别图像分别与每张原始模板图像进行模板匹配,得到每张原始模板图像与待识别图像之间的匹配分值,即得到多个匹配分值。其中,模板匹配可以是通过目标对象的原始模板图像计算待识别图像中是否有该目标对象,并确定该目标对象在待识别图像中的位置,模板匹配的方式可以根据实际需要进行灵活设置,例如,模板匹配的方式可以包括平方差匹配法(TM_SQDIFF)、相关匹配法(TM_CCORR)、相关系数匹配法(TM_CCOEFF)、归一化平方差匹配法(TM_SQDIFF_NORMED,也可以称为标准平方差匹配法)、归一化相关匹配法(TM_CCORR_NORMED,也可以称为标准相关匹配法)、以及归一化相关系数匹配法(TM_CCOEFF_NORMED,也可以称为标准相关系数匹配)等。
然后可以筛选出匹配分值大于第一阈值的模板图像,得到第一候选模板图像,该第一候选模板图像可以包括一张或多张,该第一阈值可以根据实际需要进行灵活设置,若匹配分值大于第一阈值,则说明该模板图像与待识别图像之间的相似度较大,反之,若匹配分值小于或等于第一阈值,则说明该模板图像与待识别图像之间的相似度较小。
以及,如图3所示,可以将待识别图像分别与每张原始模板图像进行特征匹配,得到每张原始模板图像与待识别图像之间的匹配分值,即得到多个匹配分值。其中,特征匹配可以是通过特征点计算待识别图像中是否有该原始模板图像中目标对象相应的特征点,并确定该目标对象在待识别图像中的位置,特征匹配的方式可以根据实际需要进行灵活设置,例如,特征匹配的方式可以包括尺度不变特征变换法(Scale-invariant featuretransform,SIFT)、加速稳健特征匹配法(Speeded Up Robust Features,SURF)、以及特征提取并检测算法(Oriented Fast and Rotated Brief,ORB)等。
然后可以筛选出匹配分值大于第二阈值的模板图像,得到第二候选模板图像,该第二候选模板图像可以包括一张或多张,该第二阈值可以根据实际需要进行灵活设置,若匹配分值大于第二阈值,则说明该模板图像与待识别图像之间的相似度较大,反之,若匹配分值小于或等于第二阈值,则说明该模板图像与待识别图像之间的相似度较小。
由于进行模板匹配的原始模板图像与进行特征匹配的原始模板图像相同,因此,筛选得到的第一候选模板图像和第二候选模板图像可能存在相同的原始模板图像,可以取第一候选模板图像和第二候选模板图像的并集作为模板图像。例如,若筛选得到的第一候选模板图像包括原始模板图像A、原始模板图像B、原始模板图像C、以及原始模板图像D,筛选得到的第二候选模板图像包括原始模板图像A、原始模板图像B、原始模板图像E、原始模板图像F和原始模板图像G,则取第一候选模板图像和第二候选模板图像的并集得到的模板图像可以包括原始模板图像A、原始模板图像B、原始模板图像C、原始模板图像D、原始模板图像E、原始模板图像F和原始模板图像G。
S102、通过差值孪生卷积神经网络的孪生网络通道分别获取待识别图像和模板图像之间相似度对应的第一特征向量。
其中,差值孪生卷积神经网络的具体结构可以根据实际需要进行灵活设置,该差值孪生卷积神经网络可以是一种卷积神经网络,该差值孪生卷积神经网络可以是通过对图像进行卷积操作来获取特征向量,以基于特征向量识别图像中的目标对象。例如,如图4所示,差值孪生卷积神经网络可以包括孪生网络通道、差值卷积网络通道、以及线性二分类网络通道等,孪生网络通道可以包括第一分支网络、第二分支网络、以及度量网络等,差值卷积网络通道可以包括卷积支路和伪灰度支路等,第一分支网络、第二分支网络、度量网络卷积支路和伪灰度支路等可以包括卷积模块,如图5所示,该卷积模块可以包括卷积层(Conv)、批归一化层(Batch Normalization,BN)、激活层(ReLu)和池化层(Plooing)等,多个卷积模块可以构成卷积组,差值孪生卷积神经网络的各个通道以及支路等作用在下文中将进行详细说明。
在一实施方式中,图像识别方法还可以包括:获取标注有对象位置的样本图像和包含对象的样本模板图像;对样本模板图像进行增强处理,得到增强后模板图像;通过初始的差值孪生卷积神经网络,根据样本图像和增强后模板图像对对象在样本图像中的位置进行预测,得到预测位置;将预测位置和对象位置进行收敛,以对初始的差值孪生卷积神经网络进行训练,得到差值孪生卷积神经网络。
首先需要对差值孪生卷积神经网络进行训练,以提高差值孪生卷积神经网络对目标对象识别的准确性。具体地,获取标注有对象位置的样本图像,以及获取包含对象的样本模板图像,例如,可以从本地数据库或服务器上获取样本图像和样本模板图像,样本图像中可以通过人工标注或自动标注对象对应的对象位置,该对象可以包括游戏控件、人脸、人物、动物、植物或车辆等,该对象位置可以是坐标位置(x,y)。例如,当样本图像为游戏画面对应的图像时,该对象可以是游戏控件,该样本模板图像可以是游戏控件对应的图像;又例如,当样本图像为包含车辆在道路上行驶的图像时,该对象可以是车辆,该样本模板图像可以是车辆对应的图像;等等。
在得到样本模板图像后,为了提升样本多样化以及扩增样本数量,可以对样本模板图像进行增强处理,得到增强后模板图像,以便基于增强后模板图像对差值孪生卷积神经网络进行训练,提高对差值孪生卷积神经网络训练的可靠性以及性能的稳定性。其中,增强处理可以包括对样本模板图像进行模糊处理、亮度调节、放大、缩小、剪裁、以及旋转等,使得样本模板图像满足训练需求。
在一实施方式中,样本模板图像包括正样本模板图像和负样本模板图像,其中,正样本模板图像可以是包括目标对象的图像,负样本模板图像可以是不包括目标对象的图像,例如,当需要对样本图像中游戏控件A进行识别时,正样本模板图像可以是游戏控件A对应的模板图像,负样本模板图像可以是非游戏控件A对应的模板图像。对样本模板图像进行增强处理,得到增强后模板图像可以包括:对正样本模板图像进行高斯模糊处理,得到模糊后的正样本模板图像;对负样本模板图像进行亮度通道的调节,得到亮度增强后的负样本模板图像;对正样本模板图像进行预设范围的随机截取,并将截取得到的图像放大至正样本模板图像的尺寸,得到放大后的正样本模板图像;将正样本模板图像、负样本模板图像、模糊后的正样本模板图像、亮度增强后的负样本模板图像、以及放大后的正样本模板图像,设置为增强后模板图像,从而可以丰富用于训练差值孪生卷积神经网络的样本模板图像,提高了样本模板图像的多样化。
具体地,由于清晰度较低时可能会导致正样本模板图像无法判别,因此为了可以将清晰度较低的正样本进行准确识别,可以通过对部分或全部的正样本模板图像进行高斯模糊处理,以通过对正样本模板图像的进行像素均值化来模拟模糊效果,扩充正样本模板图像的数量。例如,如图6所示,可以通过高斯模糊滤波器对正样本模板图像进行高斯模糊处理,得到模糊后的正样本模板图像,当然还可以通过其他滤波器对正样本模板图像进行模糊处理,得到模糊后的正样本模板图像。
以及,由于游戏中或者其他场景中经常会出现前景和后景的现象,后景通常为无法点击的对象,其中,前景可以是图像中离图像拍摄镜头最近的人或物(即主体部分,例如可操作的游戏控件),后景可以是图像拍摄镜头中位于主体后面或靠近后边的人或物(例如不可操作的游戏控件),因此为了使得后景无法识别出来而将后景作为负样本,可以对部分或全部负样本模板图像进行颜色模型(Hue Saturation Value,HSV)通道中亮度通道的调节。其中,在景深镜头采集到的图像中,离视点较近的称为前景,位于离视点较远的称为后景,在一般情况下,景深越大,前景和后景之间的距离越远,图像中画面的纵深感就越强,越能增加图像中环境的多层次和整体感。例如,如图7所示,可以对负样本模板图像进行亮度通道的调节,如增加亮度,得到亮度增强后的负样本模板图像。
以及,由于图像显示比例和分辨率等参数的差异,为了能够对尺度变化的正样本进行准确识别,可以对正样本进行了预设范围的随机截取,再放缩至原尺寸,以此来模拟由于尺度变化而导致截取偏移和比例不一致的情况。例如,如图8所示,可以对正样本模板图像进行预设范围的随机截取(该预设范围可以根据实际需要进行灵活设置),并将截取得到的图像放大至正样本模板图像的尺寸,得到放大后的正样本模板图像。
此时,得到的增强后模板图像可以包括正样本模板图像、负样本模板图像、模糊后的正样本模板图像、亮度增强后的负样本模板图像、以及放大后的正样本模板图像等。即正样本模板图像和负样本模板图像可以作为样本图像集,模糊后的正样本模板图像、亮度增强后的负样本模板图像、以及放大后的正样本模板图像等可以作为增强图像集。
需要说明的是,还可以按照上述对样本模板图像进行增强处理的方式,对样本图像进行增强处理,得到增强后样本图像,以便通过增强后模板图像和增强后样本图像对差值孪生卷积神经网络进行训练。
在得到增强后模板图像后,可以通过初始的差值孪生卷积神经网络(即训练前的差值孪生卷积神经网络),根据样本图像和增强后模板图像对该对象在样本图像中的位置进行预测,得到预测位置。例如,可以通过初始的差值孪生卷积神经网络的孪生网络通道分别获取样本图像和增强后模板图像之间相似度对应的第一样本特征向量,以及对样本图像和增强后模板图像的进行像素做差处理,得到样本图像和增强后模板图像对应的样本差值图像,然后可以通过初始的差值孪生卷积神经网络的差值卷积网络通道,基于样本差值图像对样本图像和增强后模板图像进行相似度衡量,以生成第二样本特征向量,通过初始的差值卷积网络通道将差值图像进行单通道化处理,以获取样本差值图像对应的第三样本特征向量,此时可以将第一样本特征向量、第二样本特征向量和第三样本特征向量进行拼接处理,得到拼接后样本特征向量,通过初始的差值孪生卷积神经网络的线性二分类网络通道基于拼接后样本特征向量识别对象在样本图像中的位置,得到预测位置。
然后,可以将预测位置与样本图像中标注的对象位置进行收敛,以调整初始的差值孪生卷积神经网络的参数,实现对初始的差值孪生卷积神经网络进行训练,得到差值孪生卷积神经网络(即训练后的差值孪生卷积神经网络)。需要说明的是,差值孪生卷积神经网络可以为轻量化的网络,可以部署在移动终端等资源有限的终端上以对待识别图像中的目标对象进行识别。
在训练得到差值孪生卷积神经网络后,如图3所示,可以基于差值孪生卷积神经网络对模板图像进行精筛,具体地,可以通过差值孪生卷积神经网络的孪生网络通道分别获取待识别图像和模板图像之间相似度对应的第一特征向量。在一实施方式中,孪生网络通道包括第一分支网络、第二分支网络和度量网络,通过差值孪生卷积神经网络的孪生网络通道分别获取待识别图像和模板图像之间相似度对应的第一特征向量可以包括:通过第一分支网络对待识别图像进行卷积操作,以提取待识别图像的第一特征信息;通过第二分支网络对模板图像进行卷积操作,以提取模板图像的第二特征信息;通过度量网络基于第一特征信息和第二特征信息,对待识别图像和模板图像进行相似度衡量,以得到待识别图像和模板图像之间相似度对应的第一特征向量。
例如,如图4所示,可以通过孪生网络通道的第一分支网络对待识别图像进行卷积操作,以提取待识别图像的第一特征信息,以及通过孪生网络通道的第二分支网络对模板图像进行卷积操作,以提取模板图像的第二特征信息,其中,第一分支网络和第一分支网络的网络参数可以设置为一致,以使得第一分支网络和第一分支网络可以分别对待识别图像和模板图像提取相同特征视角的特性信息,第一特征信息和第二特征信息的提取可以是同时进行的,或者是先提取第一特征信息后提取第二特征信息,或者是先提取第二特征信息后提取第一特征信息等,具体在此处不做限定。然后可以通过孪生网络通道的度量网络基于第一特征信息和第二特征信息,对待识别图像和模板图像进行相似度衡量(即进行相似度计算,以判定待识别图像和模板图像之间的相似程度),例如可以对第一特征信息和第二特征信息进行拼接,通过拼接后的第一特征信息和第二特征信息对待识别图像和模板图像进行相似度衡量,得到待识别图像和模板图像之间相似度对应的第一特征向量,该第一特征向量可以包括用于表征待识别图像和模板图像之间相似度分值的特征向量。
S103、对待识别图像和模板图像的进行像素做差处理,得到待识别图像和模板图像对应的差值图像。
例如,可以通过差值运算器(Minus)对待识别图像和模板图像之间对应位置像素点的像素值进行做差处理(即待识别图像和模板图像之间同像素同通道进行相减),可以基于得到的差值生成待识别图像和模板图像对应的差值图像。
S104、通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对待识别图像和模板图像进行相似度衡量,以生成第二特征向量。
在一实施方式中,通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对待识别图像和模板图像进行相似度衡量,以生成第二特征向量可以包括:基于卷积层、批归一化层、激活层和池化层构建差值卷积网络通道的由多个卷积模块构成的卷积支路;通过卷积支路基于差值图像,对待识别图像和模板图像进行相似度衡量,以生成第二特征向量。
例如,如图4所示,由于卷积支路可以由多个卷积模块构成,每个卷积模块可以由卷积层、批归一化层、激活层和池化层等构成,因此可以通过卷积支路中的多个卷积模块对差值图像进行卷积操作,以从差值角度对待识别图像和模板图像进行相似度衡量,生成第二特征向量,该第二特征向量可以包括用于表征待识别图像和模板图像之间相似度分值的特征向量。
S105、通过差值卷积网络通道将差值图像进行单通道化处理,以获取差值图像对应的第三特征向量。
在一实施方式中,差值卷积网络通道包括伪灰度支路,通过差值卷积网络通道将差值图像进行单通道化处理,以获取差值图像对应的第三特征向量可以包括:通过伪灰度支路将差值图像的彩色三通道进行单通道化处理,得到单通道的灰度图像;基于灰度图像获取差值图像对应的第三特征向量。其中,单通道化处理可以是将彩色三通道(包括R通道、G通道、以及B通道)转化为一个通道,例如可以转化为R通道、G通道、以及B通道中的任一通道等。
例如,如图4所示,可以通过差值卷积网络通道的伪灰度支路将差值图像的彩色三通道(RGB)进行单通道化处理(例如进行卷积操作),得到单通道的灰度图像,此时可以基于灰度图像提取差值图像对应的第三特征向量,以从灰度图像对待识别图像和模板图像进行相似度衡量,以便对于待识别图像和模板图像的轮廓进行了强约束,该第三特征向量可以包括用于表征待识别图像和模板图像之间相似度分值的特征向量,其中,该第三特征向量是从灰度图像的角度确定待识别图像和模板图像之间相似度对应的第三特征向量。
需要说明的是,孪生网络通道和差值卷积网络通道可以高速并行处理,即,孪生网络通道获取第一特征向量,与差值卷积网络通道获取第二特征向量和第三特征向量可以同时执行,而无需等待孪生网络通道获取得到第一特征向量后差值卷积网络通道才执行获取第二特征向量和第三特征向量的操作,提高了第一特征向量、第二特征向量和第三特征向量获取的效率,从而提高了对图像识别的效率。
S106、将第一特征向量、第二特征向量和第三特征向量进行拼接处理,得到拼接后特征向量。
在得到待识别图像和模板图像之间的第一特征向量、第二特征向量和第三特征向量后,可以将第一特征向量、第二特征向量和第三特征向量进行首尾拼接处理,得到拼接后特征向量,例如,拼接后特征向量可以为:[第一特征向量][第二特征向量][第三特征向量],或者拼接后特征向量可以为:[第三特征向量][第二特征向量][第一特征向量],或者拼接后特征向量可以为:[第一特征向量][第三特征向量][第二特征向量],或者拼接后特征向量可以为:[第二特征向量][第一特征向量][第三特征向量],或者拼接后特征向量可以为:[第二特征向量][第三特征向量][第一特征向量],或者拼接后特征向量可以为:[第三特征向量][第一特征向量][第二特征向量],等等。
S107、将拼接后特征向量通过差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到目标对象在待识别图像中的位置。
其中,线性二分类网络通道可以用于基于拼接后特征向量对待识别图像和模板图像进行分类结果预测,该分类结果预测可以包括待识别图像和模板图像匹配成功和待识别图像和模板图像匹配不成功等预测结果,例如,当待识别图像和模板图像匹配成功时,线性二分类网络通道可以输出匹配成功的标识“1”,当待识别图像和模板图像匹配不成功时,线性二分类网络通道可以输出匹配不成功的标识“0”等。例如,如图4所示,在得到拼接后特征向量后,可以通过差值孪生卷积神经网络的线性二分类网络通道基于拼接后特征向量对目标对象在待识别图像中的位置进行识别,还可以将模板图像中目标对象的类型作为待识别图像中识别到的目标对象的类型,从而可以识别出待识别图像中目标对象的位置和类型等,即如图3中得到的识别结果可以包括识别出待识别图像中目标对象的位置和类型等,其中,当目标对象为游戏控件时,目标对象的类型可以包括游戏控件的类型,例如“任务”控件和“战斗录像”控件等。
例如,如图9所示,当待识别图像为游戏画面时,目标对象可以包括多个,例如目标对象可以包括“玩家队伍”“任务”“社交聊天”以及“战斗录像”等游戏控件,可以将游戏控件对应的多张模板图像分别与待识别图像进行匹配,以通过差值孪生卷积神经网络识别出每个游戏控件在待识别图像中的位置。又例如,如图10所示,当待识别图像为包含用户的图像时,目标对象可以为人脸,此时可以将人脸模板图像与待识别图像进行匹配,以通过差值孪生卷积神经网络识别出人脸在待识别图像中的位置。
在一实施方式中,将拼接后特征向量通过差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到目标对象在待识别图像中的位置可以包括:通过线性二分类网络通道基于拼接后特征向量,对待识别图像和模板图像进行分类结果预测;当分类结果预测为待识别图像和模板图像匹配成功时,识别目标对象在待识别图像中的位置。
例如,可以通过线性二分类网络通道基于拼接后特征向量对待识别图像和模板图像进行分类结果预测,该分类结果预测可以包括待识别图像和模板图像匹配成功和待识别图像和模板图像匹配不成功等预测结果,例如,当待识别图像和模板图像匹配成功时,线性二分类网络通道可以输出匹配成功的标识“1”,当待识别图像和模板图像匹配不成功时,线性二分类网络通道可以输出匹配不成功的标识“0”等。当分类结果预测为待识别图像和模板图像匹配成功时,可以识别目标对象在待识别图像中的位置,例如,可以将待识别图像中与模板图像匹配成功的区域对应的位置,设置为目标对象在待识别图像中的位置;当分类结果预测为待识别图像和模板图像匹配不成功时,无法识别出目标对象在待识别图像中的位置。
在一实施方式中,将拼接后特征向量通过差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到目标对象在待识别图像中的位置之后,图像识别方法还可以包括:在待识别图像中目标对象对应的位置,输出提示标识,以提示用户目标对象所在的区域;响应用户基于输出的提示标识对目标对象所在的区域内输入的触发操作,显示目标对象对应的信息。
为了方便用户查看,在识别到目标对象在待识别图像中的位置后,可以在待识别图像中目标对象对应的位置输出提示标识,该提示标识可以根据实际需要进行灵活设置,例如,如图9所示,可以基于目标对象对应的位置对目标对象所在区域的背景颜色设置为指定颜色(例如红色、黄色或灰色等),以通过背景颜色的提示标识提示用户目标对象所在的区域。又例如,如图10所示,可以基于目标对象对应的位置为目标对象设置多边形区域框(例如四边形区域框)作为提示标识,以通过包围目标对象的多边形区域框提示用户目标对象所在的区域。
在确定目标对象所在的区域后,可以接收用户在目标对象所在的区域内输入的触发操作,该触发操作可以包括点击操作以及滑动操作等,此时可以响应用户基于输出的提示标识对目标对象所在的区域内输入的触发操作,显示目标对象对应的信息。例如,可以响应用户基于对“任务”控件所在的区域内输入的点击操作,显示“任务”对应的任务信息。又例如,可以响应用户基于对“战斗录像”控件所在的区域内输入的点击操作,播放“战斗录像”对应的音视频录像信息。
在一实施方式中,通过差值孪生卷积神经网络的孪生网络通道分别获取待识别图像和模板图像之间相似度对应的第一特征向量,对待识别图像和模板图像的进行像素做差处理,得到待识别图像和模板图像对应的差值图像,通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对待识别图像和模板图像进行相似度衡量,以生成第二特征向量可以包括:获取模板图像的大小;基于模板图像的大小设置滑动窗口,根据滑动窗口从待识别图像中的不同位置截取图像块,得到至少一张图像块;通过差值孪生卷积神经网络的孪生网络通道分别获取图像块和模板图像之间相似度对应的第一特征向量;对图像块和模板图像的进行像素做差处理,得到图像块和模板图像对应的差值图像;通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对图像块和模板图像进行相似度衡量,以生成第二特征向量。
由于在实际应用中,待识别图像可能远大于目标对象的模板图像,因此为了能够从待识别图像准确识别出目标对象,可以对待识别图像进行图像块的截取来与模板图像进行匹配。具体地,例如,如图11所示,获取模板图像的大小(即尺寸大小),基于模板图像的大小设置滑动窗口,使得滑动窗口的大小与模板图像的大小一致,其中,滑动窗口可以是圆形或多边形区域等,具体类型在此处不做限定,该滑动窗口可以用于置于待识别图像中,以在滑动窗口所在的位置截取与该滑动窗口大小一致的图像块,还可以对滑动窗口进行移动,以调整滑动窗口在待识别图像中的位置并截取与该滑动窗口大小一致的图像块。然后可以根据滑动窗口从待识别图像中的不同位置截取图像块,得到至少一张图像块。例如,可以根据滑动窗口从待识别图像的左上方的位置开始截取图像块,然后按照预设步长(预设步长可以根据实际需要进行灵活设置)移动滑动窗口依次截取至待识别图像的右下方的位置,得到多张图像块,每张图像块之间可以存在部分重叠的区域,或者每张图像块之间可以不存在重叠的区域。
在得到图像块后,可以按照上述方式通过差值孪生卷积神经网络的孪生网络通道分别获取图像块和模板图像之间相似度对应的第一特征向量,以及对图像块和模板图像的进行像素做差处理,得到图像块和模板图像对应的差值图像。然后可以通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对图像块和模板图像进行相似度衡量,以生成第二特征向量,以及通过差值卷积网络通道将差值图像进行单通道化处理,以获取差值图像对应的第三特征向量。此时可以将第一特征向量、第二特征向量和第三特征向量进行拼接处理,得到拼接后特征向量,将拼接后特征向量通过差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到目标对象在待识别图像中的位置。
需要说明的是,当图像块包括多张时,可以是每得到一张图像块时,即可按照上述方式基于该张图像块与模板图像对目标对象进行识别,直至得到最后一张图像块,基于最后张图像块与模板图像对目标对象进行识别。或者是,可以是在得到多张图像块后,即可按照上述方式依次基于每张图像块与模板图像对目标对象进行识别,直至识别到最后一张图像块。
本申请实施例可以获取待识别图像和包含目标对象的模板图像,通过差值孪生卷积神经网络的孪生网络通道分别获取待识别图像和模板图像之间相似度对应的第一特征向量;以及可以对待识别图像和模板图像的进行像素做差处理,得到待识别图像和模板图像对应的差值图像,通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对待识别图像和模板图像进行相似度衡量,以生成第二特征向量;通过差值卷积网络通道将差值图像进行单通道化处理,以获取差值图像对应的第三特征向量;然后可以将第一特征向量、第二特征向量和第三特征向量进行拼接处理,得到拼接后特征向量,此时可以将拼接后特征向量通过差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到目标对象在待识别图像中的位置。该方案可以获取待识别图像和模板图像之间相似度对应的第一特征向量、基于差值图像获取第二特征向量、以及对差值图像进行单通道化处理得到第三特征向量,并将这三个特征向量进行拼接,以基于拼接后特征向量识别目标对象在待识别图像中的位置,提高了对待识别图像中目标对象进行识别的准确性。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
本实施例以图像识别装置集成在终端为例,以终端对游戏场景中当前显示的游戏图像南内的游戏控件进行识别为例,请参阅图12,图12为本申请实施例提供的图像识别方法的流程示意图。该方法流程可以包括:
S201、获取游戏图像、包含游戏控件的模板图像、以及模板图像的大小。
其中,游戏图像可以是游戏场景中游戏画面对应的图像,例如,如图9所示,游戏控件可以包括“任务”控件、“玩家队伍”控件、“战斗录像”控件、以及“社交聊天”控件等可操作的控件。模板图像可以是游戏控件的图像,模板图像的大小可以与游戏控件的大小一致。
S202、基于模板图像的大小设置滑动窗口,根据滑动窗口从游戏图像中的不同位置截取图像块,得到至少一张图像块。
例如,如图11所示,可以基于模板图像的大小设置滑动窗口,使得滑动窗口的大小与模板图像的大小一致,其中,滑动窗口可以是圆形或多边形区域等,具体类型在此处不做限定,该滑动窗口可以用于置于游戏图像中,以在滑动窗口所在的位置截取与该滑动窗口大小一致的图像块,还可以对滑动窗口进行移动,以调整滑动窗口在游戏图像中的位置并截取与该滑动窗口大小一致的图像块。此时可以根据滑动窗口从游戏图像中的不同位置截取图像块,得到至少一张图像块。例如,可以根据滑动窗口从游戏图像的左上方的位置开始截取图像块,然后按照预设步长(预设步长可以根据实际需要进行灵活设置)移动滑动窗口依次截取至游戏图像的右下方的位置,得到多张图像块,每张图像块之间可以存在部分重叠的区域,或者每张图像块之间可以不存在重叠的区域。
S203、通过差值孪生卷积神经网络的孪生网络通道获取图像块和模板图像之间相似度对应的第一特征向量。
在得到图像块后,可以按照上述方式通过差值孪生卷积神经网络的孪生网络通道分别获取图像块和模板图像之间相似度对应的第一特征向量。例如,可以通过孪生网络通道的第一分支网络对图像块进行卷积操作,以提取图像块的第一特征信息,以及通过孪生网络通道的第二分支网络对模板图像进行卷积操作,以提取模板图像的第二特征信息,其中,第一分支网络和第一分支网络的网络参数可以设置为一致,以使得第一分支网络和第一分支网络可以分别对图像块和模板图像提取相同特征视角的特性信息,第一特征信息和第二特征信息的提取可以是同时进行的,或者是先提取第一特征信息后提取第二特征信息,或者是先提取第二特征信息后提取第一特征信息等,具体在此处不做限定。然后可以通过孪生网络通道的度量网络基于第一特征信息和第二特征信息,对图像块和模板图像进行相似度衡量,得到图像块和模板图像之间相似度对应的第一特征向量。
S204、对图像块和模板图像的进行像素做差处理,得到图像块和模板图像对应的差值图像。
例如,可以通过差值运算器(Minus)对图像块和模板图像之间对应位置像素点的像素值进行做差处理(即图像块和模板图像之间同像素同通道进行相减),可以基于得到的差值生成图像块和模板图像对应的差值图像。
S205、通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对图像块和模板图像进行相似度衡量,以生成第二特征向量。
例如,可以按照上述方式通过差值卷积网络通道的卷积支路中的多个卷积模块对差值图像进行卷积操作,以从差值角度对图像块和模板图像进行相似度衡量,生成第二特征向量。
S206、通过差值卷积网络通道的伪灰度支路将差值图像进行单通道化处理,以获取差值图像对应的第三特征向量。
例如,可以通过伪灰度支路将差值图像的彩色三通道进行单通道化处理,得到单通道的灰度图像,此时可以基于灰度图像提取差值图像对应的第三特征向量,以从灰度图像对待识别图像和模板图像进行相似度衡量。
S207、将第一特征向量、第二特征向量和第三特征向量进行拼接处理,得到拼接后特征向量。
例如,在得到图像块和模板图像之间的第一特征向量、第二特征向量和第三特征向量后,可以将第一特征向量、第二特征向量和第三特征向量进行首尾拼接处理,得到拼接后特征向量。
S208、将拼接后特征向量通过差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到游戏控件在游戏图像中的位置。
其中,线性二分类网络通道可以用于基于拼接后特征向量对图像块和模板图像进行分类结果预测,该分类结果预测可以包括图像块和模板图像匹配成功和图像块和模板图像匹配不成功等预测结果,例如,当图像块和模板图像匹配成功时,线性二分类网络通道可以输出匹配成功的标识“1”,当图像块和模板图像匹配不成功时,线性二分类网络通道可以输出匹配不成功的标识“0”等。当图像块和模板图像匹配成功时,可以将游戏图像中该图像块所在的位置作为游戏控件在游戏图像中的位置。
需要说明的是,当图像块包括多张时,可以按照上述识别方式分别对每个图像块与模板图像进行匹配,以筛选出与模板图像匹配成功的图像块,将匹配成功的该图像块在游戏图像中所的位置作为游戏控件在游戏图像中的位置。
S209、在游戏图像中游戏控件对应的位置输出提示标识,以提示用户游戏控件所在的区域。
例如,如图9所示,可以基于游戏控件对应的位置对游戏控件所在区域的背景颜色设置为指定颜色(例如红色、黄色或灰色等),以通过背景颜色的提示标识提示用户游戏控件所在的区域。
S210、响应用户基于输出的提示标识对游戏控件所在的区域内输入的触发操作,显示游戏控件对应的信息。
在确定游戏控件所在的区域后,可以接收用户在游戏控件所在的区域内输入的触发操作,该触发操作可以包括点击操作以及滑动操作等,此时可以响应用户基于输出的提示标识对游戏控件所在的区域内输入的触发操作,显示游戏控件对应的信息。例如,可以响应用户基于对“任务”控件所在的区域内输入的点击操作,显示“任务”对应的任务信息。又例如,可以响应用户基于对“战斗录像”控件所在的区域内输入的点击操作,播放“战斗录像”对应的音视频录像信息。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对图像识别方法的详细描述,此处不再赘述。
本申请实施例可以通过差值孪生卷积神经网络获取游戏图像和模板图像之间相似度对应的第一特征向量、基于游戏图像和模板图像之间的差值图像获取第二特征向量、以及对差值图像进行单通道化处理得到第三特征向量,并将这三个特征向量进行拼接,以基于拼接后特征向量识别游戏控件在游戏图像中的位置,提高了对游戏图像中游戏控件进行识别的准确性。
为便于更好的实施本申请实施例提供的图像识别方法,本申请实施例还提供一种基于上述图像识别方法的装置。其中名词的含义与上述图像识别方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图13,图13为本申请实施例提供的图像识别装置的结构示意图,其中该图像识别装置可以包括第一获取单元301、第二获取单元302、处理单元303、生成单元304、第三获取单元305、拼接单元306以及识别单元307等。
其中,第一获取单元301,用于获取待识别图像和包含目标对象的模板图像。
第二获取单元302,用于通过差值孪生卷积神经网络的孪生网络通道分别获取待识别图像和模板图像之间相似度对应的第一特征向量。
处理单元303,用于对待识别图像和模板图像的进行像素做差处理,得到待识别图像和模板图像对应的差值图像。
生成单元304,用于通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对待识别图像和模板图像进行相似度衡量,以生成第二特征向量。
第三获取单元305,用于通过差值卷积网络通道将差值图像进行单通道化处理,以获取差值图像对应的第三特征向量。
拼接单元306,用于将第一特征向量、第二特征向量和第三特征向量进行拼接处理,得到拼接后特征向量。
识别单元307,用于将拼接后特征向量通过差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到目标对象在待识别图像中的位置。
在一实施方式中,孪生网络通道包括第一分支网络、第二分支网络和度量网络,第二获取单元302具体可以用于:通过第一分支网络对待识别图像进行卷积操作,以提取待识别图像的第一特征信息;通过第二分支网络对模板图像进行卷积操作,以提取模板图像的第二特征信息;通过度量网络基于第一特征信息和第二特征信息,对待识别图像和模板图像进行相似度衡量,以得到待识别图像和模板图像之间相似度对应的第一特征向量。
在一实施方式中,生成单元304具体可以用于:基于卷积层、批归一化层、激活层和池化层构建差值卷积网络通道的由多个卷积模块构成的卷积支路;通过卷积支路基于差值图像,对待识别图像和模板图像进行相似度衡量,以生成第二特征向量。
在一实施方式中,第三获取单元305具体可以用于:通过伪灰度支路将差值图像的彩色三通道进行单通道化处理,得到单通道的灰度图像;基于灰度图像获取差值图像对应的第三特征向量。
在一实施方式中,识别单元307具体可以用于:通过线性二分类网络通道基于拼接后特征向量,对待识别图像和模板图像进行分类结果预测;当分类结果预测为待识别图像和模板图像匹配成功时,识别目标对象在待识别图像中的位置。
在一实施方式中,第二获取单元302具体可以用于:获取模板图像的大小;基于模板图像的大小设置滑动窗口,根据滑动窗口从待识别图像中的不同位置截取图像块,得到至少一张图像块;通过差值孪生卷积神经网络的孪生网络通道分别获取图像块和模板图像之间相似度对应的第一特征向量;处理单元303具体可以用于:对图像块和模板图像的进行像素做差处理,得到图像块和模板图像对应的差值图像;生成单元304具体可以用于:通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对图像块和模板图像进行相似度衡量,以生成第二特征向量。
在一实施方式中,第一获取单元301具体可以用于:获取待识别图像和多张原始模板图像;将待识别图像分别与每张原始模板图像进行模板匹配,并筛选出匹配分值大于第一阈值的模板图像,得到第一候选模板图像;将待识别图像分别与每张原始模板图像进行特征匹配,并筛选出匹配分值大于第二阈值的模板图像,得到第二候选模板图像;将第一候选模板图像和第二候选模板图像的并集作为模板图像。
在一实施方式中,图像识别装置还可以包括:
输出单元,用于在待识别图像中目标对象对应的位置,输出提示标识,以提示用户目标对象所在的区域;
响应单元,用于响应用户基于输出的提示标识对目标对象所在的区域内输入的触发操作,显示目标对象对应的信息。
在一实施方式中,图像识别装置还可以包括:
第四获取单元,用于获取标注有对象位置的样本图像和包含对象的样本模板图像;
增强单元,用于对样本模板图像进行增强处理,得到增强后模板图像;
预测单元,用于通过初始的差值孪生卷积神经网络,根据样本图像和增强后模板图像对对象在样本图像中的位置进行预测,得到预测位置;
训练单元,用于将预测位置和对象位置进行收敛,以对初始的差值孪生卷积神经网络进行训练,得到差值孪生卷积神经网络。
在一实施方式中,增强单元具体可以用于:对正样本模板图像进行高斯模糊处理,得到模糊后的正样本模板图像;对负样本模板图像进行亮度通道的调节,得到亮度增强后的负样本模板图像;对正样本模板图像进行预设范围的随机截取,并将截取得到的图像放大至正样本模板图像的尺寸,得到放大后的正样本模板图像;将正样本模板图像、负样本模板图像、模糊后的正样本模板图像、亮度增强后的负样本模板图像、以及放大后的正样本模板图像,设置为增强后模板图像。
本申请实施例可以由第一获取单元301获取待识别图像和包含目标对象的模板图像,由第二获取单元302通过差值孪生卷积神经网络的孪生网络通道分别获取待识别图像和模板图像之间相似度对应的第一特征向量;以及可以由处理单元303对待识别图像和模板图像的进行像素做差处理,得到待识别图像和模板图像对应的差值图像,由生成单元304通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对待识别图像和模板图像进行相似度衡量,以生成第二特征向量;由第三获取单元305通过差值卷积网络通道将差值图像进行单通道化处理,以获取差值图像对应的第三特征向量;然后可以由拼接单元306将第一特征向量、第二特征向量和第三特征向量进行拼接处理,得到拼接后特征向量,此时可以由识别单元307将拼接后特征向量通过差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到目标对象在待识别图像中的位置。该方案可以获取待识别图像和模板图像之间相似度对应的第一特征向量、基于差值图像获取第二特征向量、以及对差值图像进行单通道化处理得到第三特征向量,并将这三个特征向量进行拼接,以基于拼接后特征向量识别目标对象在待识别图像中的位置,提高了对待识别图像中目标对象进行识别的准确性。
本申请实施例还提供一种计算机设备,该计算机设备可以是终端或服务器等,如图14所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图14中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待识别图像和包含目标对象的模板图像;通过差值孪生卷积神经网络的孪生网络通道分别获取待识别图像和模板图像之间相似度对应的第一特征向量;对待识别图像和模板图像的进行像素做差处理,得到待识别图像和模板图像对应的差值图像;通过差值孪生卷积神经网络的差值卷积网络通道,基于差值图像对待识别图像和模板图像进行相似度衡量,以生成第二特征向量;通过差值卷积网络通道将差值图像进行单通道化处理,以获取差值图像对应的第三特征向量;将第一特征向量、第二特征向量和第三特征向量进行拼接处理,得到拼接后特征向量;将拼接后特征向量通过差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到目标对象在待识别图像中的位置。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对图像识别方法的详细描述,此处不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机指令来完成,或通过计算机指令控制相关的硬件来完成,该计算机指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。为此,本申请实施例提供一种存储介质,其中存储有计算机程序,计算机程序可以包括计算机指令,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种图像识别方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种图像识别方法中的步骤,因此,可以实现本申请实施例所提供的任一种图像识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种图像识别方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种图像识别方法,其特征在于,包括:
获取待识别图像和包含目标对象的模板图像;
通过差值孪生卷积神经网络的孪生网络通道分别获取所述待识别图像和所述模板图像之间相似度对应的第一特征向量;
对所述待识别图像和所述模板图像的进行像素做差处理,得到所述待识别图像和所述模板图像对应的差值图像;
通过所述差值孪生卷积神经网络的差值卷积网络通道,基于所述差值图像对所述待识别图像和所述模板图像进行相似度衡量,以生成第二特征向量;
通过所述差值卷积网络通道将所述差值图像进行单通道化处理,以获取所述差值图像对应的第三特征向量;
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行拼接处理,得到拼接后特征向量;
将所述拼接后特征向量通过所述差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到所述目标对象在所述待识别图像中的位置。
2.根据权利要求1所述的图像识别方法,其特征在于,所述孪生网络通道包括第一分支网络、第二分支网络和度量网络,所述通过差值孪生卷积神经网络的孪生网络通道分别获取所述待识别图像和所述模板图像之间相似度对应的第一特征向量包括:
通过所述第一分支网络对所述待识别图像进行卷积操作,以提取所述待识别图像的第一特征信息;
通过所述第二分支网络对所述模板图像进行卷积操作,以提取所述模板图像的第二特征信息;
通过所述度量网络基于所述第一特征信息和所述第二特征信息,对所述待识别图像和所述模板图像进行相似度衡量,以得到所述待识别图像和所述模板图像之间相似度对应的第一特征向量。
3.根据权利要求1所述的图像识别方法,其特征在于,所述通过所述差值孪生卷积神经网络的差值卷积网络通道,基于所述差值图像对所述待识别图像和所述模板图像进行相似度衡量,以生成第二特征向量包括:
基于卷积层、批归一化层、激活层和池化层构建所述差值卷积网络通道的由多个卷积模块构成的卷积支路;
通过所述卷积支路基于所述差值图像,对所述待识别图像和所述模板图像进行相似度衡量,以生成第二特征向量。
4.根据权利要求1所述的图像识别方法,其特征在于,所述差值卷积网络通道包括伪灰度支路,所述通过所述差值卷积网络通道将所述差值图像进行单通道化处理,以获取所述差值图像对应的第三特征向量包括:
通过所述伪灰度支路将所述差值图像的彩色三通道进行单通道化处理,得到单通道的灰度图像;
基于所述灰度图像获取所述差值图像对应的第三特征向量。
5.根据权利要求1所述的图像识别方法,其特征在于,所述将所述拼接后特征向量通过所述差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到所述目标对象在所述待识别图像中的位置包括:
通过所述线性二分类网络通道基于所述拼接后特征向量,对所述待识别图像和所述模板图像进行分类结果预测;
当所述分类结果预测为所述待识别图像和所述模板图像匹配成功时,识别所述目标对象在所述待识别图像中的位置。
6.根据权利要求1所述的图像识别方法,其特征在于,所述通过差值孪生卷积神经网络的孪生网络通道分别获取所述待识别图像和所述模板图像之间相似度对应的第一特征向量,对所述待识别图像和所述模板图像的进行像素做差处理,得到所述待识别图像和所述模板图像对应的差值图像,通过所述差值孪生卷积神经网络的差值卷积网络通道,基于所述差值图像对所述待识别图像和所述模板图像进行相似度衡量,以生成第二特征向量包括:
获取所述模板图像的大小;
基于模板图像的大小设置滑动窗口,根据所述滑动窗口从待识别图像中的不同位置截取图像块,得到至少一张图像块;
通过差值孪生卷积神经网络的孪生网络通道分别获取所述图像块和所述模板图像之间相似度对应的第一特征向量;
对所述图像块和所述模板图像的进行像素做差处理,得到所述图像块和所述模板图像对应的差值图像;
通过所述差值孪生卷积神经网络的差值卷积网络通道,基于所述差值图像对所述图像块和所述模板图像进行相似度衡量,以生成第二特征向量。
7.根据权利要求1所述的图像识别方法,其特征在于,所述获取待识别图像和包含目标对象的模板图像包括:
获取待识别图像和多张原始模板图像;
将所述待识别图像分别与每张原始模板图像进行模板匹配,并筛选出匹配分值大于第一阈值的模板图像,得到第一候选模板图像;
将所述待识别图像分别与每张原始模板图像进行特征匹配,并筛选出匹配分值大于第二阈值的模板图像,得到第二候选模板图像;
将所述第一候选模板图像和所述第二候选模板图像的并集作为所述模板图像。
8.根据权利要求1至7任一项所述的图像识别方法,其特征在于,所述将所述拼接后特征向量通过所述差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到所述目标对象在所述待识别图像中的位置之后,所述图像识别方法还包括:
在所述待识别图像中所述目标对象对应的位置,输出提示标识,以提示用户所述目标对象所在的区域;
响应所述用户基于输出的所述提示标识对所述目标对象所在的区域内输入的触发操作,显示所述目标对象对应的信息。
9.根据权利要求1至7任一项所述的图像识别方法,其特征在于,所述图像识别方法还包括:
获取标注有对象位置的样本图像和包含对象的样本模板图像;
对所述样本模板图像进行增强处理,得到增强后模板图像;
通过初始的差值孪生卷积神经网络,根据所述样本图像和所述增强后模板图像对所述对象在所述样本图像中的位置进行预测,得到预测位置;
将所述预测位置和对象位置进行收敛,以对初始的差值孪生卷积神经网络进行训练,得到所述差值孪生卷积神经网络。
10.根据权利要求9所述的图像识别方法,其特征在于,所述样本模板图像包括正样本模板图像和负样本模板图像,所述对所述样本模板图像进行增强处理,得到增强后模板图像包括:
对所述正样本模板图像进行高斯模糊处理,得到模糊后的正样本模板图像;
对所述负样本模板图像进行亮度通道的调节,得到亮度增强后的负样本模板图像;
对所述正样本模板图像进行预设范围的随机截取,并将截取得到的图像放大至所述正样本模板图像的尺寸,得到放大后的正样本模板图像;
将所述正样本模板图像、负样本模板图像、所述模糊后的正样本模板图像、亮度增强后的负样本模板图像、以及放大后的正样本模板图像,设置为增强后模板图像。
11.一种图像识别装置,其特征在于,包括:
第一获取单元,用于获取待识别图像和包含目标对象的模板图像;
第二获取单元,用于通过差值孪生卷积神经网络的孪生网络通道分别获取所述待识别图像和所述模板图像之间相似度对应的第一特征向量;
处理单元,用于对所述待识别图像和所述模板图像的进行像素做差处理,得到所述待识别图像和所述模板图像对应的差值图像;
生成单元,用于通过所述差值孪生卷积神经网络的差值卷积网络通道,基于所述差值图像对所述待识别图像和所述模板图像进行相似度衡量,以生成第二特征向量;
第三获取单元,用于通过所述差值卷积网络通道将所述差值图像进行单通道化处理,以获取所述差值图像对应的第三特征向量;
拼接单元,用于将所述第一特征向量、所述第二特征向量和所述第三特征向量进行拼接处理,得到拼接后特征向量;
识别单元,用于将所述拼接后特征向量通过所述差值孪生卷积神经网络的线性二分类网络通道进行位置识别,以得到所述目标对象在所述待识别图像中的位置。
12.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至10任一项所述的图像识别方法。
13.一种存储介质,其特征在于,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行权利要求1至10任一项所述的图像识别方法。
CN202011276848.9A 2020-11-16 2020-11-16 一种图像识别方法、装置、计算机设备及存储介质 Pending CN112381104A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011276848.9A CN112381104A (zh) 2020-11-16 2020-11-16 一种图像识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011276848.9A CN112381104A (zh) 2020-11-16 2020-11-16 一种图像识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112381104A true CN112381104A (zh) 2021-02-19

Family

ID=74585458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011276848.9A Pending CN112381104A (zh) 2020-11-16 2020-11-16 一种图像识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112381104A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361966A (zh) * 2021-07-02 2021-09-07 广东电网有限责任公司 一种配电房在线检测方法、装置、电子设备及存储介质
CN113537309A (zh) * 2021-06-30 2021-10-22 北京百度网讯科技有限公司 一种对象识别方法、装置及电子设备
CN113688746A (zh) * 2021-08-27 2021-11-23 广东博媒广告传播有限公司 一种基于神经网络的户外广告画面识别系统及方法
CN113837970A (zh) * 2021-09-30 2021-12-24 北京地平线信息技术有限公司 图像数据的脱敏方法和装置
CN114267038A (zh) * 2022-03-03 2022-04-01 南京甄视智能科技有限公司 铭牌的类型识别方法、装置、存储介质及设备
CN114549985A (zh) * 2022-02-23 2022-05-27 清华大学 一种基于自监督对比学习的目标检测方法及系统
CN115564829A (zh) * 2022-09-20 2023-01-03 深圳市拓普智造科技有限公司 对象识别定位方法、装置、电子设备及存储介质
CN117036665A (zh) * 2023-09-04 2023-11-10 南京航空航天大学 一种基于孪生神经网络的旋钮开关状态识别方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537309A (zh) * 2021-06-30 2021-10-22 北京百度网讯科技有限公司 一种对象识别方法、装置及电子设备
CN113537309B (zh) * 2021-06-30 2023-07-28 北京百度网讯科技有限公司 一种对象识别方法、装置及电子设备
CN113361966A (zh) * 2021-07-02 2021-09-07 广东电网有限责任公司 一种配电房在线检测方法、装置、电子设备及存储介质
CN113688746A (zh) * 2021-08-27 2021-11-23 广东博媒广告传播有限公司 一种基于神经网络的户外广告画面识别系统及方法
CN113837970A (zh) * 2021-09-30 2021-12-24 北京地平线信息技术有限公司 图像数据的脱敏方法和装置
CN113837970B (zh) * 2021-09-30 2024-04-26 北京地平线信息技术有限公司 图像数据的脱敏方法和装置
CN114549985A (zh) * 2022-02-23 2022-05-27 清华大学 一种基于自监督对比学习的目标检测方法及系统
CN114267038A (zh) * 2022-03-03 2022-04-01 南京甄视智能科技有限公司 铭牌的类型识别方法、装置、存储介质及设备
CN115564829A (zh) * 2022-09-20 2023-01-03 深圳市拓普智造科技有限公司 对象识别定位方法、装置、电子设备及存储介质
CN117036665A (zh) * 2023-09-04 2023-11-10 南京航空航天大学 一种基于孪生神经网络的旋钮开关状态识别方法
CN117036665B (zh) * 2023-09-04 2024-03-08 南京航空航天大学 一种基于孪生神经网络的旋钮开关状态识别方法

Similar Documents

Publication Publication Date Title
CN112381104A (zh) 一种图像识别方法、装置、计算机设备及存储介质
US20200356818A1 (en) Logo detection
CN112052186B (zh) 目标检测方法、装置、设备以及存储介质
CN109376256B (zh) 图像搜索方法及装置
CN113395542B (zh) 基于人工智能的视频生成方法、装置、计算机设备及介质
CN111667001B (zh) 目标重识别方法、装置、计算机设备和存储介质
CN111209897B (zh) 视频处理的方法、装置和存储介质
CN109344864B (zh) 用于密集物体的图像处理方法及装置
CN112270745B (zh) 一种图像生成方法、装置、设备以及存储介质
CN111444826A (zh) 视频检测方法、装置、存储介质及计算机设备
EP3989158A1 (en) Method, apparatus and device for video similarity detection
CN112954450A (zh) 视频处理方法、装置、电子设备和存储介质
CN112329851A (zh) 一种图标检测方法、装置及计算机可读存储介质
CN112883827B (zh) 图像中指定目标的识别方法、装置、电子设备和存储介质
CN108921138B (zh) 用于生成信息的方法和装置
CN112257729B (zh) 图像识别方法、装置、设备及存储介质
CN112488072A (zh) 一种人脸样本集获取方法、系统及设备
CN115393755A (zh) 视觉目标跟踪方法、装置、设备以及存储介质
CN115379290A (zh) 视频处理方法、装置、设备及存储介质
CN111160265B (zh) 文件转换方法、装置、存储介质及电子设备
CN114283087A (zh) 一种图像去噪方法及相关设备
CN112989869B (zh) 人脸质量检测模型的优化方法、装置、设备及存储介质
CN114332599A (zh) 图像识别方法、装置、计算机设备、存储介质和产品
CN115004245A (zh) 目标检测方法、装置、电子设备和计算机存储介质
CN114067394A (zh) 人脸活体检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40038243

Country of ref document: HK