CN111639667B - 图像识别方法、装置、电子设备及计算机可读存储介质 - Google Patents

图像识别方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111639667B
CN111639667B CN202010293294.7A CN202010293294A CN111639667B CN 111639667 B CN111639667 B CN 111639667B CN 202010293294 A CN202010293294 A CN 202010293294A CN 111639667 B CN111639667 B CN 111639667B
Authority
CN
China
Prior art keywords
image
distance
target
identified
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010293294.7A
Other languages
English (en)
Other versions
CN111639667A (zh
Inventor
王亚可
王塑
刘宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN202010293294.7A priority Critical patent/CN111639667B/zh
Publication of CN111639667A publication Critical patent/CN111639667A/zh
Priority to PCT/CN2020/119613 priority patent/WO2021208373A1/zh
Application granted granted Critical
Publication of CN111639667B publication Critical patent/CN111639667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图像识别方法、装置、电子设备及计算机可读存储介质,涉及图像处理技术领域,在进行图像识别时,首先提取待识别目标物图像的特征;然后计算待识别目标物图像的特征与底库图像的特征之间的第一特征距离,并根据第一特征距离和目标伸缩参数,得到待识别目标物图像与底库图像之间的第二特征距离;其中,目标伸缩参数与待识别目标物图像的特征有关;进而根据第二特征距离,确定待识别目标物图像中的目标物识别结果。这样通过对第一特征距离进行目标伸缩参数下的距离伸缩变换拉近了待识别目标物图像到底库图像的特征距离,从而在不增加误识率的情况下,提高了对诸如暗光、顶光或大角度下拍摄的图像的图像识别的通过率。

Description

图像识别方法、装置、电子设备及计算机可读存储介质
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种图像识别方法、装置、电子设备及计算机可读存储介质。
背景技术
图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。通常在进行图像识别前,需要先在图像识别系统中录入目标物的目标物图像作为底库中的底库图像,然后基于待识别目标物图像与底库图像之间的相似度进行图像识别,例如计算待识别目标物图像与底库图像之间的特征距离(相似度越高,特征距离越小),通过比对该特征距离与预设的距离阈值的大小关系进行图像识别。
然而暗光、顶光或大角度下拍摄的图像与对应的底库图像之间的相似度较低,也即这类图像到对应的底库图像的特征距离普遍较大,导致这些图像无法被正确识别出来。因此,现有的图像识别方法的通过率较低。
发明内容
本发明的目的在于提供一种图像识别方法、装置、电子设备及计算机可读存储介质,以提高图像识别的通过率,从而提升用户体验。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种图像识别方法,包括:
提取待识别目标物图像的特征;
计算所述待识别目标物图像的特征与底库图像的特征之间的第一特征距离;
根据所述第一特征距离和目标伸缩参数,得到所述待识别目标物图像与所述底库图像之间的第二特征距离;其中,所述目标伸缩参数与所述待识别目标物图像的特征有关;
根据所述第二特征距离,确定所述待识别目标物图像中的目标物识别结果。
进一步,计算所述待识别目标物图像的特征与底库图像的特征之间的第一特征距离的步骤,包括:
通过以下公式计算得到所述待识别目标物图像的特征与所述底库图像的特征之间的第一特征距离d12
Figure BDA0002450604670000021
其中,f1,i表示所述底库图像的特征的第i个元素,f2,i表示所述待识别目标物图像的特征的第i个元素。
进一步,根据所述第一特征距离和目标伸缩参数,得到所述待识别目标物图像与所述底库图像之间的第二特征距离的步骤,包括:
将所述待识别目标物图像的特征输入神经网络模型,得到所述待识别目标物图像对应的目标伸缩参数;
利用所述目标伸缩参数对所述第一特征距离进行数值变换,得到所述待识别目标物图像与所述底库图像之间的第二特征距离。
进一步,所述目标伸缩参数包括目标伸缩系数或目标伸缩值;利用所述目标伸缩参数对所述第一特征距离进行数值变换,得到所述待识别目标物图像与所述底库图像之间的第二特征距离的步骤,包括:
对所述第一特征距离和所述目标伸缩系数进行乘法运算,得到所述待识别目标物图像与所述底库图像之间的第二特征距离;所述目标伸缩系数大于0且小于1;
或者,对所述第一特征距离和所述目标伸缩值进行减法运算,得到所述待识别目标物图像与所述底库图像之间的第二特征距离。
进一步,根据所述第二特征距离,确定所述待识别目标物图像中的目标物识别结果的步骤,包括:
判断所述第二特征距离是否小于或等于距离阈值;
如果是,将所述底库图像中的目标物确定为所述待识别目标物图像中的目标物识别结果。
进一步,所述底库图像为多个,每个所述底库图像对应一个所述第二特征距离;根据所述第二特征距离,确定所述待识别目标物图像中的目标物识别结果的步骤,包括:
判断各所述第二特征距离与距离阈值之间的数值大小关系;
当各所述第二特征距离中存在小于所述距离阈值的目标第二特征距离时,将所述目标第二特征距离对应的底库图像中的目标物确定为所述目标物识别结果。
进一步,判断各所述第二特征距离与距离阈值之间的数值大小关系的步骤,包括:
判断各所述第二特征距离中的最小值是否小于或等于所述距离阈值;
如果是,将各所述第二特征距离中的最小值确定为所述目标第二特征距离。
进一步,通过神经网络模型确定所述目标伸缩参数,所述神经网络模型通过以下步骤训练得到:
提取样本图像的特征;
将所述样本图像的特征输入初始神经网络模型,得到预测伸缩参数;
根据所述样本图像的特征与目标图像集中各图像的特征之间的第三特征距离,确定所述样本图像对应的标签伸缩参数;
根据所述预测伸缩参数和所述标签伸缩参数,确定所述初始神经网络模型的损失值;
根据所述损失值对所述初始神经网络模型中的参数进行更新,以得到训练后的所述神经网络模型。
进一步,根据所述样本图像的特征与目标图像集中各图像的特征之间的第三特征距离,确定所述样本图像对应的标签伸缩参数的步骤,包括:
判断目标特征距离是否为各所述第三特征距离中的最小值;所述目标特征距离为所述样本图像的特征与所述目标图像集中所述样本图像对应的标准图像的特征之间的第三特征距离;
当所述目标特征距离是各所述第三特征距离中的最小值时,判断所述目标特征距离是否大于距离阈值;
当所述目标特征距离大于所述距离阈值时,根据所述目标特征距离和所述距离阈值,确定标签伸缩参数。
进一步,所述标签伸缩参数包括标签伸缩系数;根据所述目标特征距离和所述距离阈值,确定标签伸缩参数的步骤,包括:
确定所述标签伸缩系数为与所述目标特征距离和所述距离阈值有关的第一数值,所述第一数值大于0且小于1。
进一步,确定所述标签伸缩系数为与所述目标特征距离和所述距离阈值有关的第一数值的步骤,包括:
根据所述距离阈值与所述目标特征距离的比值和预设系数确定所述第一数值,并将所述第一数值作为所述标签伸缩系数;其中,所述预设系数大于0且小于1。
进一步,所述标签伸缩参数包括标签伸缩系数;所述方法还包括:
当所述目标特征距离不是各所述第三特征距离中的最小值时,确定所述标签伸缩系数为第二数值,所述第二数值大于或等于1。
进一步,所述标签伸缩参数包括标签伸缩系数;所述方法还包括:
当所述目标特征距离不大于所述距离阈值时,确定所述标签伸缩系数为1。
第二方面,本发明实施例还提供了一种图像识别装置,包括:
提取模块,用于提取待识别目标物图像的特征;
计算模块,用于计算所述待识别目标物图像的特征与底库图像的特征之间的第一特征距离;
变换模块,用于根据所述第一特征距离和目标伸缩参数,得到所述待识别目标物图像与所述底库图像之间的第二特征距离;其中,所述目标伸缩参数与所述待识别目标物图像的特征有关;
确定模块,用于根据所述第二特征距离,确定所述待识别目标物图像中的目标物识别结果。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面的图像识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面的图像识别方法。
本发明实施例提供了一种图像识别方法、装置、电子设备及计算机可读存储介质,在对待识别目标物图像进行图像识别时,首先提取待识别目标物图像的特征;然后计算待识别目标物图像的特征与底库图像的特征之间的第一特征距离,并根据第一特征距离和目标伸缩参数,得到待识别目标物图像与底库图像之间的第二特征距离;其中,目标伸缩参数与待识别目标物图像的特征有关;进而根据第二特征距离,确定待识别目标物图像中的目标物识别结果。这样通过对第一特征距离进行目标伸缩参数下的距离伸缩变换拉近了待识别目标物图像到底库图像的特征距离,且目标伸缩系数与待识别目标物图像的特征有关,从而在不增加误识率的情况下,提高了对诸如暗光、顶光或大角度下拍摄的图像的图像识别的准确率和通过率,减少了误拒率,从而提升了识别效果和用户体验。
本发明实施例的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明实施例的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种电子设备的结构示意图;
图2示出了本发明实施例所提供的一种图像识别方法的流程图;
图3示出了本发明实施例所提供的一种图像识别方法中距离伸缩变换的原理示意图;
图4示出了本发明实施例所提供的另一种图像识别方法的流程图;
图5示出了本发明实施例所提供的一种图像识别装置的结构框图;
图6示出了本发明实施例所提供的另一种图像识别装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
在进行图像识别时,可以先计算待识别目标物图像到底库图像的特征距离,然后比对该特征距离与预设的距离阈值,如果该特征距离小于或等于该距离阈值,则确定识别结果为底库图像中的目标物。在当前的图像识别系统中,需要根据给定的误识率确定比对的距离阈值,然而一些难样本(如暗光、顶光或大角度下拍摄的图像)到对应的底库图像的特征距离可能大于距离阈值,导致这些难样本无法被正确识别出来。基于此,本发明实施例提供的一种图像识别方法、装置、电子设备及计算机可读存储介质,可以在不增加误识率的情况下,提高对难样本的图像识别的通过率,从而提升用户体验。
实施例一:
首先,参照图1来描述用于实现本发明实施例的一种图像识别方法及装置的示例电子设备100。
如图1所示的一种电子设备的结构示意图,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备可以具有图1示出的部分组件,也可以具有图1未示出的其他组件和结构。
所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现,所述处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,文字、图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的图像识别方法的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机等智能终端。
实施例二:
参见图2所示的一种图像识别方法的流程图,该方法主要包括如下步骤S202~步骤S208:
步骤S202,提取待识别目标物图像的特征。
待识别目标物可以是人脸、人体、动物或交通工具(如汽车、轮船或自行车等)等,待识别目标物图像可以是暗光、顶光或大角度下拍摄的图像,本申请特别适用于对这类图像进行图像识别。可以通过预先训练后的相应神经网络模型来提取待识别目标物图像的特征,特征的具体提取过程可以参照相关现有技术,这里不再赘述。
步骤S204,计算待识别目标物图像的特征与底库图像的特征之间的第一特征距离。
用于执行该方法的电子设备内预先存储有底库图像,底库图像可以为一个或多个,每个底库图像中存在一个目标物,也即一个底库图像对应一个目标物。第一特征距离为在特征空间上待识别目标物图像到底库图像的特征距离,第一特征距离与底库图像一一对应,若该电子设备内存储有多个底库图像,则得到的第一特征距离也为多个。
上述底库图像的特征,可以是在执行步骤S204之前对底库图像进行特征提取得到的,也可以是预先提取好并存储在电子设备内的。提取底库图像的特征的方法与提取待识别目标物图像的特征的方法相同。待识别目标物图像的特征和底库图像的特征均可以为矩阵形式,由于矩阵通常包含多个元素,因此待识别目标物图像的特征和底库图像的特征也均包含多个元素。
为了便于理解,以待识别目标物图像的特征和底库图像的特征均为一维矩阵为例,本实施例还提供了上述步骤S204的一种具体实现方式,如下:
通过以下公式计算得到待识别目标物图像的特征与底库图像的特征之间的第一特征距离d12
Figure BDA0002450604670000091
其中,f1,i表示底库图像的特征的第i个元素,f2,i表示待识别目标物图像的特征的第i个元素。
步骤S206,根据上述第一特征距离和目标伸缩参数,得到待识别目标物图像与底库图像之间的第二特征距离;其中,目标伸缩参数与待识别目标物图像的特征有关。
考虑到待识别目标物图像属于上述难样本时,通过上述步骤S204得到的第一特征距离可能大于预设的距离阈值,此时待识别目标物图像会无法被正确识别出来,而难样本也存在一定的可区分性,可以通过对第一特征距离进行距离伸缩变换将难样本拉近底库图像,从而提高对难样本的图像识别的通过率,避免将包含目标对象的图像识别为不包含目标对象的图像,减少误拒率。进行距离伸缩变换时的目标伸缩参数与待识别目标物图像的特征有关,这样可以保证拉近过程没有把不含目标物的图像拉近超过距离阈值,从而不会产生误识别,也即不会增加误识率。
参见图3所示的一种图像识别方法中距离伸缩变换的原理示意图,base表示底库图像,简单query表示简单样本(也即容易被正确识别出的图像),难query表示难样本,圆点和三角形表示对应两个不同的目标物的图像(包括底库图像、简单样本和难样本)在特征空间中的位置,圆圈对应距离阈值(圆圈内的样本可以被正确识别出来,圆圈外的样本无法被正确识别出来)。如图3所示,距离伸缩变换前,难样本均位于圆圈外,使得难样本无法被正确识别出来;而距离伸缩变换后,位于圆圈外的难样本被拉进圆圈内,难样本到相应底库图像的特征距离变小,从而使得难样本能够被正确识别出来。
可选地,上述步骤S206可以通过如下过程实现:将待识别目标物图像的特征输入神经网络模型,得到待识别目标物图像对应的目标伸缩参数;利用目标伸缩参数对第一特征距离进行数值变换,得到待识别目标物图像与底库图像之间的第二特征距离。
上述神经网络模型是预先训练后的,神经网络模型可以为一层全连接的神经网络,神经网络模型的输入是待识别目标物图像的特征,神经网络模型的输出是实数值(即目标伸缩参数),后续会对该神经网络模型的训练过程进行详细介绍。
上述目标伸缩参数可以包括目标伸缩系数或目标伸缩值,基于此,可以通过如下过程得到第二特征距离:对第一特征距离和目标伸缩系数进行乘法运算,得到待识别目标物图像与底库图像之间的第二特征距离,该目标伸缩系数大于0且小于1;或者,对第一特征距离和目标伸缩值进行减法运算,得到待识别目标物图像与底库图像之间的第二特征距离。
步骤S208,根据上述第二特征距离,确定待识别目标物图像中的目标物识别结果。
可以通过比对第二特征距离和预设的距离阈值来确定待识别目标物图像中的目标物识别结果。该距离阈值可以根据所需的误识率设置,这里不做限定。
在一些可能的实施例中,底库图像为一个,因此第二特征距离也为一个,在此情况下,上述步骤S208可以通过如下过程实现:判断第二特征距离是否小于或等于距离阈值;如果是,将底库图像中的目标物确定为待识别目标物图像中的目标物识别结果。
在另一些可能的实施例中,底库图像为多个,每个底库图像对应一个第二特征距离,因此第二特征距离也为多个,在此情况下,上述步骤S208可以通过如下过程实现:判断各第二特征距离与距离阈值之间的数值大小关系;当各第二特征距离中存在小于距离阈值的目标第二特征距离时,将目标第二特征距离对应的底库图像中的目标物确定为待识别目标物图像中的目标物识别结果。
在一种可选的实现方式中,上述判断各第二特征距离与距离阈值之间的数值大小关系的步骤可以为:判断各第二特征距离中的最小值是否小于或等于距离阈值;如果是,将各第二特征距离中的最小值确定为目标第二特征距离。
这样通过上述步骤S202~步骤S208就实现了对待识别目标物图像的图像识别。
本实施例的上述图像识别方法,充分利用了难样本的可区分性,在对待识别目标物图像进行图像识别时,通过对第一特征距离进行目标伸缩参数下的距离伸缩变换拉近了待识别目标物图像到底库图像的特征距离,且目标伸缩参数与待识别目标物图像的特征有关,从而在不增加误识率的情况下,提高了对诸如暗光、顶光或大角度下拍摄的图像的图像识别的准确率和通过率,减少了误拒率,从而提升了用户体验。
对于上述步骤S204和步骤S206,以目标伸缩参数为目标伸缩系数为例,具体实现时,可以通过如下公式计算得到第二特征距离d″12
Figure BDA0002450604670000121
其中,h(f2)表示目标伸缩系数。
另外,本发明实施例还提供了一种神经网络模型的训练过程,主要包括如下步骤302~步骤310:
步骤302,提取样本图像的特征。
在获取训练集中的样本图像时,可以选取暗光、顶光或大角度下拍摄的图像。提取样本图像的特征的过程可以参照相关现有技术,这里不再赘述。
步骤304,将上述样本图像的特征输入初始神经网络模型,得到预测伸缩参数。该预测伸缩参数可以包括预测伸缩系数或预测伸缩值。
步骤306,根据上述样本图像的特征与目标图像集中各图像的特征之间的第三特征距离,确定样本图像对应的标签伸缩参数。
在一实施例中,目标图像集中各图像可以是上述的底库图像。标签伸缩参数与上述预测伸缩参数相对应,即若预测伸缩参数为预测伸缩系数,则标签伸缩参数为标签伸缩系数;若预测伸缩参数为预测伸缩值,则标签伸缩参数为标签伸缩值。
在确定样本图像对应的标签伸缩参数时,可以先计算样本图像的特征与目标图像集中各图像的特征之间的第三特征距离,然后根据各第三特征距离和距离阈值,确定样本图像对应的标签伸缩参数。这里的距离阈值与上述步骤S208中具体实现时采用的距离阈值相同。
上述根据各第三特征距离和距离阈值,确定样本图像对应的标签伸缩参数的步骤,可以通过如下过程实现:判断目标特征距离是否为各第三特征距离中的最小值,目标特征距离为样本图像的特征与目标图像集中样本图像对应的标准图像的特征之间的第三特征距离;当目标特征距离是各第三特征距离中的最小值时,判断目标特征距离是否大于距离阈值;当目标特征距离大于距离阈值时,根据目标特征距离和距离阈值,确定标签伸缩参数。
可选地,当标签伸缩参数为标签伸缩系数,目标特征距离是各第三特征距离中的最小值,且目标特征距离大于距离阈值时(此时为对应难样本的情况),确定标签伸缩系数为与目标特征距离和距离阈值有关的第一数值,第一数值大于0且小于1。进一步,在一种可能的实现方式中,可以根据距离阈值与目标特征距离的比值和预设系数确定第一数值,并将第一数值作为标签伸缩系数;其中,预设系数大于0且小于1。
具体实现时,上述第一数值可以根据以下式子确定:
Figure BDA0002450604670000131
其中,h(f)表示第一数值,d表示距离阈值,
Figure BDA0002450604670000132
表示目标特征距离,k表示预设系数,且0<k<1。
为了不增加误识率,以标签伸缩参数为标签伸缩系数为例,上述步骤306还包括:当目标特征距离不是各第三特征距离中的最小值时(此时为误识别的情况),确定标签伸缩系数为第二数值,第二数值大于或等于1;当目标特征距离不大于距离阈值时(此时为正确识别的情况),确定标签伸缩系数为1。这样,在本身为误识别的情况下,将标签伸缩系数设置为大于或等于1的第二数值,不会进一步造成误识率的升高;在本身为可以正确识别的情况下,将标签伸缩系数设置为1,不会对识别结果造成影响。
具体实现时,标签伸缩系数记为h(f),按照目标特征距离与各第三特征距离和距离阈值的关系可以分为以下三种情况:
1.
Figure BDA0002450604670000141
2.
Figure BDA0002450604670000142
3.
Figure BDA0002450604670000143
其中,
Figure BDA0002450604670000144
表示样本图像qi到目标图像集中对应的标准图像bi的特征距离(即目标特征距离);/>
Figure BDA0002450604670000145
表示样本图像qi到目标图像集中各图像b的第三特征距离中的最小值;d表示距离阈值。
对于第1种可以正确识别的情况,设置h(f)=1,这样不会对识别结果造成影响;
对于第3种误识别的情况,设置h(f)≥1,这样不会造成误识率升高;
对于第2种对应难样本的情况,可以设置
Figure BDA0002450604670000146
(即上述的预设系数k为0.99),这样/>
Figure BDA0002450604670000147
可以正确识别。
步骤308,根据上述预测伸缩参数和标签伸缩参数,确定初始神经网络模型的损失值。
可以将预测伸缩参数和标签伸缩参数带入初始神经网络模型的损失函数中,得到该初始神经网络模型的损失值。
步骤310,根据上述损失值对初始神经网络模型中的参数进行更新,以得到训练后的神经网络模型。
需要说明的是,上述步骤304和步骤306之间无先后执行顺序;上述步骤302~步骤310中未详细描述的步骤可以参见前述实施例的相应内容或相关现有技术,这里不再赘述。
实施例三:
在前述实施例的基础上,本实施例提供了一种应用前述图像识别方法的具体示例,该示例中的待识别目标物为人脸,即上述待识别目标物图像为待识别人脸图像,底库图像为多个,目标伸缩参数为目标伸缩系数。参见图4所示的另一种图像识别方法的流程图,该方法主要包括如下步骤S402~步骤S412:
步骤S402,提取待识别人脸图像的特征。
步骤S404,计算待识别人脸图像的特征与每个底库图像的特征之间的第一特征距离。
步骤S406,将待识别人脸图像的特征输入神经网络模型,得到待识别人脸图像对应的目标伸缩系数。
步骤S408,对每个第一特征距离和目标伸缩系数进行乘法运算,得到待识别人脸图像与底库图像之间的第二特征距离,该目标伸缩系数大于0且小于1。
步骤S410,判断各第二特征距离与距离阈值之间的数值大小关系。
步骤S412,当各第二特征距离中存在小于距离阈值的目标第二特征距离时,将目标第二特征距离对应的底库图像中的人脸确定为待识别人脸图像的人脸识别结果。
本实施例提供的上述图像识别方法,在对待识别人脸图像进行人脸识别时,通过对第一特征距离进行目标伸缩系数下的距离伸缩变换拉近了待识别人脸图像到底库图像的特征距离,且目标伸缩系数与待识别人脸图像的特征有关,从而在不增加误识率的情况下,提高了对诸如暗光、顶光或大角度下拍摄的图像的人脸识别的准确率和通过率,减少了误拒率,从而提升了用户体验。
实施例四:
对应于实施例二中所提供的图像识别方法,本发明实施例提供了一种图像识别装置,参见图5所示的一种图像识别装置的结构框图,该装置包括以下模块:
提取模块52,用于提取待识别目标物图像的特征;
计算模块54,用于计算待识别目标物图像的特征与底库图像的特征之间的第一特征距离;
变换模块56,用于根据第一特征距离和目标伸缩参数,得到待识别目标物图像与底库图像之间的第二特征距离;其中,目标伸缩参数与待识别目标物图像的特征有关;
确定模块58,用于根据第二特征距离,确定待识别目标物图像中的目标物识别结果。
本实施例提供的上述图像识别装置,充分利用了难样本的可区分性,在对待识别目标物图像进行图像识别时,通过对第一特征距离进行目标伸缩参数下的距离伸缩变换拉近了待识别目标物图像到底库图像的特征距离,且目标伸缩参数与待识别目标物图像的特征有关,从而在不增加误识率的情况下,提高了对诸如暗光、顶光或大角度下拍摄的图像的图像识别的准确率和通过率,减少了误拒率,从而提升了用户体验。
进一步,上述计算模块54具体用于:
通过以下公式计算得到待识别目标物图像的特征与底库图像的特征之间的第一特征距离d12
Figure BDA0002450604670000161
其中,f1,i表示底库图像的特征的第i个元素,f2,i表示待识别目标物图像的特征的第i个元素。
进一步,上述变换模块56具体用于:
将待识别目标物图像的特征输入神经网络模型,得到待识别目标物图像对应的目标伸缩参数;
利用目标伸缩参数对第一特征距离进行数值变换,得到待识别目标物图像与底库图像之间的第二特征距离。
进一步,上述目标伸缩参数包括目标伸缩系数或目标伸缩值;上述变换模块56还用于:
对第一特征距离和目标伸缩系数进行乘法运算,得到待识别目标物图像与底库图像之间的第二特征距离;目标伸缩系数大于0且小于1;
或者,对第一特征距离和目标伸缩值进行减法运算,得到待识别目标物图像与底库图像之间的第二特征距离。
在一种可选的实现方式中,上述确定模块58具体用于:
判断第二特征距离是否小于或等于距离阈值;
如果是,将底库图像中的目标物确定为待识别目标物图像中的目标物识别结果。
在另一种可选的实现方式中,上述底库图像为多个,每个底库图像对应一个第二特征距离;上述确定模块58具体用于:
判断各第二特征距离与距离阈值之间的数值大小关系;
当各第二特征距离中存在小于距离阈值的目标第二特征距离时,将目标第二特征距离对应的底库图像中的目标物确定为目标物识别结果。
进一步,上述确定模块58还用于:
判断各第二特征距离中的最小值是否小于或等于距离阈值;
如果是,将各第二特征距离中的最小值确定为目标第二特征距离。
在一种实施方式中,通过神经网络模型确定上述目标伸缩参数,参见图6所示的另一种图像识别装置的结构框图,在图5的基础上,上述装置还包括训练模块62,用于:
提取样本图像的特征;
将样本图像的特征输入初始神经网络模型,得到预测伸缩参数;
根据样本图像的特征与目标图像集中各图像的特征之间的第三特征距离,确定样本图像对应的标签伸缩参数;
根据预测伸缩参数和标签伸缩参数,确定初始神经网络模型的损失值;
根据损失值对初始神经网络模型中的参数进行更新,以得到训练后的神经网络模型。
进一步,上述训练模块62具体用于:
判断目标特征距离是否为各第三特征距离中的最小值;目标特征距离为样本图像的特征与目标图像集中样本图像对应的标准图像的特征之间的第三特征距离;
当目标特征距离是各第三特征距离中的最小值时,判断目标特征距离是否大于距离阈值;
当目标特征距离大于距离阈值时,根据目标特征距离和距离阈值,确定标签伸缩参数。
进一步,上述标签伸缩参数包括标签伸缩系数;上述训练模块62还用于:
确定标签伸缩系数为与目标特征距离和距离阈值有关的第一数值,第一数值大于0且小于1。
进一步,上述训练模块62还用于:
根据距离阈值与目标特征距离的比值和预设系数确定第一数值,并将第一数值作为标签伸缩系数;其中,预设系数大于0且小于1。
进一步,上述标签伸缩参数包括标签伸缩系数;上述训练模块62还用于:
当目标特征距离不是各第三特征距离中的最小值时,确定标签伸缩系数为第二数值,第二数值大于或等于1。
进一步,上述标签伸缩参数包括标签伸缩系数;上述训练模块62还用于:
当目标特征距离不大于距离阈值时,确定标签伸缩系数为1。
本实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
另外,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前面方法实施例中所述的图像识别方法。
本发明实施例所提供的图像识别方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (15)

1.一种图像识别方法,其特征在于,包括:
提取待识别目标物图像的特征;
计算所述待识别目标物图像的特征与底库图像的特征之间的第一特征距离;
根据所述第一特征距离和目标伸缩参数,得到所述待识别目标物图像与所述底库图像之间的第二特征距离;其中,所述目标伸缩参数与所述待识别目标物图像的特征有关;
根据所述第二特征距离,确定所述待识别目标物图像中的目标物识别结果;
根据所述第一特征距离和目标伸缩参数,得到所述待识别目标物图像与所述底库图像之间的第二特征距离的步骤,包括:
将所述待识别目标物图像的特征输入神经网络模型,得到所述待识别目标物图像对应的目标伸缩参数;
利用所述目标伸缩参数对所述第一特征距离进行数值变换,得到所述待识别目标物图像与所述底库图像之间的第二特征距离。
2.根据权利要求1所述的方法,其特征在于,计算所述待识别目标物图像的特征与底库图像的特征之间的第一特征距离的步骤,包括:
通过以下公式计算得到所述待识别目标物图像的特征与所述底库图像的特征之间的第一特征距离d12
Figure FDA0004107245000000011
其中,f1,i表示所述底库图像的特征的第i个元素,f2,i表示所述待识别目标物图像的特征的第i个元素。
3.根据权利要求1所述的方法,其特征在于,所述目标伸缩参数包括目标伸缩系数或目标伸缩值;利用所述目标伸缩参数对所述第一特征距离进行数值变换,得到所述待识别目标物图像与所述底库图像之间的第二特征距离的步骤,包括:
对所述第一特征距离和所述目标伸缩系数进行乘法运算,得到所述待识别目标物图像与所述底库图像之间的第二特征距离;所述目标伸缩系数大于0且小于1;
或者,对所述第一特征距离和所述目标伸缩值进行减法运算,得到所述待识别目标物图像与所述底库图像之间的第二特征距离。
4.根据权利要求1-3任一项所述的方法,其特征在于,根据所述第二特征距离,确定所述待识别目标物图像中的目标物识别结果的步骤,包括:
判断所述第二特征距离是否小于或等于距离阈值;
如果是,将所述底库图像中的目标物确定为所述待识别目标物图像中的目标物识别结果。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述底库图像为多个,每个所述底库图像对应一个所述第二特征距离;根据所述第二特征距离,确定所述待识别目标物图像中的目标物识别结果的步骤,包括:
判断各所述第二特征距离与距离阈值之间的数值大小关系;
当各所述第二特征距离中存在小于所述距离阈值的目标第二特征距离时,将所述目标第二特征距离对应的底库图像中的目标物确定为所述目标物识别结果。
6.根据权利要求5所述的方法,其特征在于,判断各所述第二特征距离与距离阈值之间的数值大小关系的步骤,包括:
判断各所述第二特征距离中的最小值是否小于或等于所述距离阈值;
如果是,将各所述第二特征距离中的最小值确定为所述目标第二特征距离。
7.根据权利要求1所述的方法,其特征在于,通过神经网络模型确定所述目标伸缩参数,所述神经网络模型通过以下步骤训练得到:
提取样本图像的特征;
将所述样本图像的特征输入初始神经网络模型,得到预测伸缩参数;
根据所述样本图像的特征与目标图像集中各图像的特征之间的第三特征距离,确定所述样本图像对应的标签伸缩参数;
根据所述预测伸缩参数和所述标签伸缩参数,确定所述初始神经网络模型的损失值;
根据所述损失值对所述初始神经网络模型中的参数进行更新,以得到训练后的所述神经网络模型。
8.根据权利要求7所述的方法,其特征在于,根据所述样本图像的特征与目标图像集中各图像的特征之间的第三特征距离,确定所述样本图像对应的标签伸缩参数的步骤,包括:
判断目标特征距离是否为各所述第三特征距离中的最小值;所述目标特征距离为所述样本图像的特征与所述目标图像集中所述样本图像对应的标准图像的特征之间的第三特征距离;
当所述目标特征距离是各所述第三特征距离中的最小值时,判断所述目标特征距离是否大于距离阈值;
当所述目标特征距离大于所述距离阈值时,根据所述目标特征距离和所述距离阈值,确定标签伸缩参数。
9.根据权利要求8所述的方法,其特征在于,所述标签伸缩参数包括标签伸缩系数;根据所述目标特征距离和所述距离阈值,确定标签伸缩参数的步骤,包括:
确定所述标签伸缩系数为与所述目标特征距离和所述距离阈值有关的第一数值,所述第一数值大于0且小于1。
10.根据权利要求9所述的方法,其特征在于,确定所述标签伸缩系数为与所述目标特征距离和所述距离阈值有关的第一数值的步骤,包括:
根据所述距离阈值与所述目标特征距离的比值和预设系数确定所述第一数值,并将所述第一数值作为所述标签伸缩系数;其中,所述预设系数大于0且小于1。
11.根据权利要求8所述的方法,其特征在于,所述标签伸缩参数包括标签伸缩系数;所述方法还包括:
当所述目标特征距离不是各所述第三特征距离中的最小值时,确定所述标签伸缩系数为第二数值,所述第二数值大于或等于1。
12.根据权利要求8所述的方法,其特征在于,所述标签伸缩参数包括标签伸缩系数;所述方法还包括:
当所述目标特征距离不大于所述距离阈值时,确定所述标签伸缩系数为1。
13.一种图像识别装置,其特征在于,包括:
提取模块,用于提取待识别目标物图像的特征;
计算模块,用于计算所述待识别目标物图像的特征与底库图像的特征之间的第一特征距离;
变换模块,用于根据所述第一特征距离和目标伸缩参数,得到所述待识别目标物图像与所述底库图像之间的第二特征距离;其中,所述目标伸缩参数与所述待识别目标物图像的特征有关;
确定模块,用于根据所述第二特征距离,确定所述待识别目标物图像中的目标物识别结果;
所述变换模块具体用于:
将所述待识别目标物图像的特征输入神经网络模型,得到所述待识别目标物图像对应的目标伸缩参数;
利用所述目标伸缩参数对所述第一特征距离进行数值变换,得到所述待识别目标物图像与所述底库图像之间的第二特征距离。
14.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-12中任一项所述的方法。
15.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-12中任一项所述的方法。
CN202010293294.7A 2020-04-14 2020-04-14 图像识别方法、装置、电子设备及计算机可读存储介质 Active CN111639667B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010293294.7A CN111639667B (zh) 2020-04-14 2020-04-14 图像识别方法、装置、电子设备及计算机可读存储介质
PCT/CN2020/119613 WO2021208373A1 (zh) 2020-04-14 2020-09-30 图像识别方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010293294.7A CN111639667B (zh) 2020-04-14 2020-04-14 图像识别方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111639667A CN111639667A (zh) 2020-09-08
CN111639667B true CN111639667B (zh) 2023-06-16

Family

ID=72331390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010293294.7A Active CN111639667B (zh) 2020-04-14 2020-04-14 图像识别方法、装置、电子设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN111639667B (zh)
WO (1) WO2021208373A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639667B (zh) * 2020-04-14 2023-06-16 北京迈格威科技有限公司 图像识别方法、装置、电子设备及计算机可读存储介质
CN112579803B (zh) * 2020-11-16 2024-04-02 北京迈格威科技有限公司 一种图像数据清洗方法、装置、电子设备及存储介质
CN113822296A (zh) * 2021-08-23 2021-12-21 北京迈格威科技有限公司 识别方法、装置、电子设备及介质
CN114429663B (zh) * 2022-01-28 2023-10-20 北京百度网讯科技有限公司 人脸底库的更新方法、人脸识别方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153475A (ja) * 1997-08-04 1999-02-26 Omron Corp 画像認識装置、画像認識方法および記録媒体
JP2005173995A (ja) * 2003-12-11 2005-06-30 Nippon Telegr & Teleph Corp <Ntt> 奥行き算出装置、奥行き算出方法、および、プログラム
WO2012114464A1 (ja) * 2011-02-23 2012-08-30 富士通株式会社 撮像装置、プログラム及び撮像支援方法
CN107766864A (zh) * 2016-08-23 2018-03-06 阿里巴巴集团控股有限公司 提取特征的方法和装置、物体识别的方法和装置
CN109102020A (zh) * 2018-08-10 2018-12-28 新华三技术有限公司 一种图像对比方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7359576B1 (en) * 2004-02-27 2008-04-15 Adobe Systems Incorporated Using difference kernels for image filtering
CN104424483A (zh) * 2013-08-21 2015-03-18 中移电子商务有限公司 一种人脸图像的光照预处理方法、装置及终端
CN107895166B (zh) * 2017-04-24 2021-05-25 长春工业大学 基于特征描述子的几何哈希法实现目标鲁棒识别的方法
CN108596110A (zh) * 2018-04-26 2018-09-28 北京京东金融科技控股有限公司 图像识别方法及装置、电子设备、存储介质
CN110874921A (zh) * 2018-08-31 2020-03-10 百度在线网络技术(北京)有限公司 智能路侧单元及其信息处理方法
CN110188641B (zh) * 2019-05-20 2022-02-01 北京迈格威科技有限公司 图像识别和神经网络模型的训练方法、装置和系统
CN111639667B (zh) * 2020-04-14 2023-06-16 北京迈格威科技有限公司 图像识别方法、装置、电子设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153475A (ja) * 1997-08-04 1999-02-26 Omron Corp 画像認識装置、画像認識方法および記録媒体
JP2005173995A (ja) * 2003-12-11 2005-06-30 Nippon Telegr & Teleph Corp <Ntt> 奥行き算出装置、奥行き算出方法、および、プログラム
WO2012114464A1 (ja) * 2011-02-23 2012-08-30 富士通株式会社 撮像装置、プログラム及び撮像支援方法
CN107766864A (zh) * 2016-08-23 2018-03-06 阿里巴巴集团控股有限公司 提取特征的方法和装置、物体识别的方法和装置
CN109102020A (zh) * 2018-08-10 2018-12-28 新华三技术有限公司 一种图像对比方法及装置

Also Published As

Publication number Publication date
CN111639667A (zh) 2020-09-08
WO2021208373A1 (zh) 2021-10-21

Similar Documents

Publication Publication Date Title
CN111639667B (zh) 图像识别方法、装置、电子设备及计算机可读存储介质
CN108710847B (zh) 场景识别方法、装置及电子设备
CN109816009B (zh) 基于图卷积的多标签图像分类方法、装置及设备
CN108960189B (zh) 图像再识别方法、装置及电子设备
CN109214366B (zh) 局部目标重识别方法、装置及系统
CN109671020B (zh) 图像处理方法、装置、电子设备和计算机存储介质
CN108875534B (zh) 人脸识别的方法、装置、系统及计算机存储介质
CN113469088B (zh) 一种无源干扰场景下的sar图像舰船目标检测方法及系统
KR20200118076A (ko) 생체 검출 방법 및 장치, 전자 기기 및 저장 매체
CN109522970B (zh) 图像分类方法、装置及系统
CN111597884A (zh) 面部动作单元识别方法、装置、电子设备及存储介质
CN109063776B (zh) 图像再识别网络训练方法、装置和图像再识别方法及装置
CN111401521B (zh) 神经网络模型训练方法及装置、图像识别方法及装置
CN109816694B (zh) 目标跟踪方法、装置及电子设备
CN110765843B (zh) 人脸验证方法、装置、计算机设备及存储介质
JP6756406B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN110210480B (zh) 文字识别方法、装置、电子设备和计算机可读存储介质
CN111105017A (zh) 神经网络量化方法、装置及电子设备
CN112232140A (zh) 人群计数方法、装置、电子设备及计算机存储介质
CN113919497A (zh) 针对连续学习能力系统的基于特征操纵的攻击和防御方法
CN112232506A (zh) 网络模型训练方法、图像目标识别方法、装置和电子设备
CN111126254A (zh) 图像识别方法、装置、设备及存储介质
CN111382791B (zh) 深度学习任务处理方法、图像识别任务处理方法和装置
CN110490058B (zh) 行人检测模型的训练方法、装置、系统和计算机可读介质
CN110070017B (zh) 一种人脸假眼图像生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant