CN108171244A - 对象识别方法和系统 - Google Patents

对象识别方法和系统 Download PDF

Info

Publication number
CN108171244A
CN108171244A CN201611115803.7A CN201611115803A CN108171244A CN 108171244 A CN108171244 A CN 108171244A CN 201611115803 A CN201611115803 A CN 201611115803A CN 108171244 A CN108171244 A CN 108171244A
Authority
CN
China
Prior art keywords
subject area
key point
area image
image
frame buffer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611115803.7A
Other languages
English (en)
Inventor
姚颂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xilinx Technology Beijing Ltd
Original Assignee
Beijing Insight Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Insight Technology Co Ltd filed Critical Beijing Insight Technology Co Ltd
Priority to CN201611115803.7A priority Critical patent/CN108171244A/zh
Publication of CN108171244A publication Critical patent/CN108171244A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/14Transformations for image registration, e.g. adjusting or mapping for alignment of images
    • G06T3/147Transformations for image registration, e.g. adjusting or mapping for alignment of images using affine transformations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种对象识别方法和系统,用于从输入图像中识别对象。所述方法包括:使用对象识别模型从输入图像中截取对象区域图像;使用关键点识别模型获取对象区域图像上的多个关键点位置;获取将多个关键点位置映射到与其对应的多个关键点标准位置的仿射变换矩阵;以及使用仿射变换矩阵对对象区域图像进行仿射变换,得到对象标准化图像。由此,本发明将对象检测和对象关键点检测结合起来,可以提高检测速度和准确度。

Description

对象识别方法和系统
技术领域
本发明涉及图像识别检测领域,特别是涉及一种用于从图像中识别对象的对象识别方法和系统。
背景技术
神经网络是一种基于仿生设计的数学模型,近年来被广泛应用于图像识别,语音识别等任务。
神经元的积累的刺激是由其他神经元传递过来的刺激量和对应的权重之和,用Xj表示这种积累,Yi表示某个神经元传递过来的刺激量,Wi表示链接某个神经元刺激的权重,得到公式:Xj=(y1*W1)+(y2*W2)+...+(yi*Wi)+...+(yn*Wn),而当Xj完成积累后,完成积累的神经元本身对周围的一些神经元传播刺激,将其表示为yj得到如下所示:yj=f(Xj),神经元根据积累后Xj的结果进行处理后,对外传递刺激yj。用f函数映射来表示这种处理,将它称之为激活函数。
卷积神经网络是将人工神经网络和深度学习技术相结合而产生的新型人工神经网络方法,是为了识别二维形状而设计的多层感知器,具有局部感知区域、层次结构化、特征抽取和分类过程结合的全局训练的特点。Fukushima提出的基于神经元之间的局部连接型和层次结构组织的Neocogition模型是卷积神经网络的第一个实现网络。LeCun等人设计并采用基于误差梯度的算法训练了卷积神经网络,在一些模式识别领域取得非常好的性能,并且给出了卷积神经网络公式的推导和证明。
卷积神经网络已经成功地应用到了文档分析、人脸检测、语音检测、车牌识别、手写数字识别、视频中的人体动作识别等各个方面。
发明内容
本发明主要的目的是提供一种将对象检测和对象关键点检测结合起来的对象识别方法和系统,以提高对象检测的速度和准确度。
根据本发明的一个方面,提供了一种对象识别方法,用于从输入图像中识别对象,该方法包括:使用对象识别模型从输入图像中截取对象区域图像;使用关键点识别模型获取对象区域图像上的多个关键点位置;获取将多个关键点位置映射到与其对应的多个关键点标准位置的仿射变换矩阵;以及使用仿射变换矩阵对对象区域图像进行仿射变换,得到对象标准化图像。
优选地,使用对象识别模型从输入图像中截取对象区域图像的步骤可以包括:使用对象识别模型分析输入图像,以获取其中的对象区域范围;以及从输入图像中截取对象区域图像。
优选地,在获取仿射变换矩阵之前,该方法还可以包括:基于对象区域图像上的关键点位置和对象的固有几何属性重新计算对象区域范围,并重新截取对象区域图像。
优选地,在获取仿射变换矩阵之前,该方法还可以包括:对对象区域图像进行拉伸或压缩,以使其具有预定形状和尺寸,其中,关键点标准位置是具有预定形状和尺寸的标准对象图像上的关键点位置。
优选地,对对象区域图像进行仿射变换的步骤可以包括:对第一帧缓冲存储器中保存的对象区域图像逐列进行行变换,在行变换中,使用仿射变换矩阵对对象区域图像中具有相同原始列坐标的一列原始像素进行行变换,得到中间图像中具有相同原始列坐标和各个目标行坐标的各中间像素的像素值,并将其写入第二帧缓冲存储器中;清空第一帧缓冲存储器;对第二帧缓冲存储器中保存的对象区域图像逐行进行列变换,在列变换中,从第一帧缓冲存储器读取对象区域图像的一行原始像素,使用仿射变换矩阵对中间图像中具有相同目标行坐标的一行中间像素进行列变换,得到对象标准化图像中具有相同目标行坐标和各个目标列坐标的各目标像素的像素值,并将其写入第一帧缓冲存储器中;以及清空第二帧缓冲存储器。
优选地,对象识别模型和关键点识别模型可以均为卷积神经网络模型。
优选地,上文述及的对象识别方法中的对象为人脸。
根据本发明的另一个方面,还提供了一种对象识别系统,用于从输入图像中识别对象,该系统包括:存储器,用于存储输入图像;FPGA模块,用于在其上实现对象识别模型和关键点识别模型,对象识别模型用于从输入图像中识别对象区域范围,以便于从输入图像中截取对象区域图像,关键点识别模型用于获取对象区域图像上的多个关键点位置;CPU模块,用于控制FPGA模块,并且计算将多个关键点位置映射到与其对应的多个关键点标准位置的仿射变换矩阵;几何变换模块,使用仿射变换矩阵对对象区域图像进行仿射变换,得到对象标准化图像。
优选地,CPU模块基于对象区域图像上的关键点位置和对象的固有几何属性重新计算对象区域范围,并重新截取对象区域图像,CPU模块控制FPGA模块上的关键点识别模型从重新截取的对象区域图像中重新获取多个关键点位置,CPU模块使用重新获取的多个关键点位置计算仿射变换矩阵。
优选地,CPU模块对对象区域图像进行拉伸或压缩,以使其具有预定形状和尺寸,其中,关键点标准位置是具有预定形状和尺寸的标准对象图像上的关键点位置。
优选地,几何变换模块可以包括:第一帧缓冲存储器和第二帧缓冲存储器,分别用于保存一帧图像;一维行变形模块,对第一帧缓冲存储器中保存的对象区域图像逐列进行行变换,在行变换中,使用仿射变换矩阵对对象区域图像中具有相同原始列坐标的一列原始像素进行行变换,得到中间图像中具有相同原始列坐标和各个目标行坐标的各中间像素的像素值,并将其写入第二帧缓冲存储器中;以及一维列变形模块,对第二帧缓冲存储器中保存的对象区域图像逐行进行列变换,在列变换中,从第一帧缓冲存储器读取对象区域图像的一行原始像素,使用仿射变换矩阵对中间图像中具有相同目标行坐标的一行中间像素进行列变换,得到对象标准化图像中具有相同目标行坐标和各个目标列坐标的各目标像素的像素值,并将其写入第一帧缓冲存储器中,其中,在开始向第二帧缓冲存储器中写入中间像素的像素值之前,清空第二帧缓冲存储器,在开始向第一帧缓冲存储器中写入目标像素的像素值之前,清空第一帧缓冲存储器。
优选地,对象识别模型和关键点识别模型均为卷积神经网络模型,CPU模块还用于执行卷积神经网络模型的全连接层运算。
优选地,上文述及的对象识别系统中的对象为人脸。
综上,本发明的对象识别方法和系统将对象检测和对象关键点检测结合起来,通过对象识别模型从输入图像中截取对象区域图像,然后使用关键点识别模型从对象区域图像中获取多个关键点位置,基于关键点获取关键点位置映射到关键点标准位置的仿射变换矩阵,对识别出的对象区域图像进行仿射变换。由此基于本发明可以从待检测图像中识别出标准化的对象图像。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本发明一实施例的对象识别方法的示意性流程图。
图2示出了根据本发明一实施例的对象识别系统的结构的示意性方框图。
图3示出了几何变换模块可以具有的功能模块的示意性方框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1示出了根据本发明一实施例的对象识别方法的示意性流程图。
参见图1,在步骤S110,使用对象识别模型从输入图像中截取对象区域图像。
这里的输入图像为待识别图像,对象识别模型可以是预先训练得到的卷积神经网络模型。可以根据要识别的对象,选取相应的对象识别模型。例如,在要识别的对象是人脸时,所使用的对象识别模型可以是基于卷积神经网络的人脸识别模型。
利用对象识别模型可以计算输入图像的对象分布概率矩阵,矩阵中每一元素代表原输入图像中一个区域为对象的概率,然后可以将概率值高于特定阈值的区域作为对象区域。
由此可以使用对象识别模型分析输入图像,以获取其中可能是对象的对象区域范围,然后从输入图像中截取对象区域图像。
由于截取到的对象区域图像和对象的实际尺寸和形状的差别可能较大,因此在获取了对象区域图像后,可以优选地对对象区域图像进行拉伸或压缩处理,以使其具有预定形状和尺寸。
这里,可以根据对象的一般尺寸对对象区域图像进行拉伸或压缩,例如,在对象是人脸时,可以根据“普通脸”(可以基于大量人脸数据得到)的尺寸对对象区域图像进行拉伸或压缩,以使得处理后的对象区域图像的尺寸和形状与“普通脸”基本相同。
在步骤S120,使用关键点识别模型获取对象区域图像上的多个关键点位置。
这里的关键点识别模型也可以是预先训练得到的卷积神经网络模型。可以利用关键点识别模型识别出对象区域图像上可能是关键点的位置的概率,将概率值大于特定阈值的区域确定为关键点位置。以人脸为例,对应的关键点识别模型可以识别出人脸区域图像中如眉毛、眼睛、鼻子、嘴巴等关键点位置。
在获取了多个关键点位置后,还可以基于获取的关键点的位置,反过来对对象区域图像进行调节,以提高识别的准确度。
例如,可以基于对象区域图像上的关键点位置和对象的固有几何属性重新计算对象区域范围,并重新截取对象区域图像。
这里的固有几何属性重点体现的是比例关系。以对象为人脸为例,在确定了人脸区域图像上的多个关键点(例如眉毛、眼睛、鼻子、嘴巴)后,就可以基于关键点的位置和人脸的几何属性(例如普通脸的眉毛、眼睛、鼻子、嘴巴的大小以及其位置和人脸轮廓的关系),重新计算人脸区域范围,然后重新截取所计算的人脸区域范围,作为新的人脸区域图像。
其中,可以从输入图像中重新截取所计算的人脸区域范围,或者,在原先截取的对象区域图像较大的情况下,也可以直接在原对象区域图像上截取新对象区域图像。
由于输入图像可能是在不同角度拍摄得到的,因此从输入图像中截取到的对象区域图像可能与标准图像差别较大。例如,在输入图像是从侧面拍摄或斜向拍摄得到的人脸图像时,基于该输入图像识别出的对象区域图像是侧部人脸,不便于识别。因此可以执行步骤S130、步骤S140,对对象区域图像进行仿射变换,以得到对象校准化图像。
具体地,在步骤S130,获取将多个关键点位置映射到与其对应的多个关键点标准位置的仿射变换矩阵。
本发明的获取仿射变换矩阵的数学原理为,设获取的N个关键点坐标矩阵表示为X,即一个N行2列的矩阵。设根据大量对象获取的关键点坐标的平均值(即关键点标准位置)的坐标矩阵为Y,同样是一个N行2列的矩阵。通过最小二乘法可以得到将多个关键点位置映射到对应的多个关键点标准位置的仿射变换矩阵W,即一个3行2列的矩阵,其中一行是对象坐标空间的偏置项。
由此,可以根据多个关键点的位置和多个关键点标准位置,得到将多个关键点位置映射到与其对应的多个关键点标准位置的仿射变换矩阵。其中,关键点标准位置是具有预定形状和尺寸的标准对象图像上的关键点位置,标准对象图像可以通过对大量的对象图像进行统计得出。
在步骤S140,使用仿射变换矩阵对对象区域图像进行仿射变换,得到对象标准化图像。
设经过仿射变换后的对象区域图像(以下简称目标图像)为Q,原始对象区域图像(以下简称原图像)为I,仿射变换过程的数据表达式为Q[u(x,y),v(x,y)]=I[x,y],其中x,y为原图像的地址,u,v为目标图像的地址,且u(x,y)=a*x+b*y+c,v(x,y)=d*x+e*y+f,其中a,b,c,d,e,f均为W矩阵中的对应元素。
因此,可以根据仿射变换矩阵对原图像中的原始行坐标和原始列坐标进行计算,即计算u(x,y)=a*x+b*y+c,得到目标图像的目标行坐标,将原始像素的像素值写入第二缓冲存储器中,作为中间图像中以目标行坐标为行坐标且以原始列坐标为列坐标的中间像素的像素值。
然后对第二缓冲存储器中存储的中间图像中的每个中间像素,根据仿射变换矩阵对其目标行坐标和原始列坐标进行计算,即计算v(u,y)=d*u+e*y+f,得到目标图像的目标列坐标,并将中间像素的像素值写入第一缓冲存储器中作为目标图像中以目标行坐标为行坐标且以目标列坐标为列坐标的目标像素的像素值。由此,就可以计算得到经过仿射变换后的对象标准化图像的像素分布。
使用上面的方法进行仿射变换时,由于目标图像的每一个像素可能依赖于原图像中的多个像素,并且原图像的每一个像素可能影响到目标图像中的多个像素,这些像素难以在一个行缓冲中全部存储。并且得出的目标行坐标、目标列坐标有可能不是整数,还需要进行插值计算。针对于此,本发明提出了两步变形方案。
具体地,可以对第一帧缓冲存储器中保存的对象区域图像逐列进行行变换,在行变换中,使用仿射变换矩阵对对象区域图像中具有相同原始列坐标的一列原始像素进行行变换,得到中间图像中具有相同原始列坐标和各个目标行坐标的各中间像素的像素值,并将其写入第二帧缓冲存储器中,然后清空第一帧缓冲存储器。至此,完成了两步变形方案中的第一步,行变换。
对第二帧缓冲存储器中保存的对象区域图像逐行进行列变换,在列变换中,从第一帧缓冲存储器读取对象区域图像的一行原始像素,使用仿射变换矩阵对中间图像中具有相同目标行坐标的一行中间像素进行列变换,得到目标对象标准化图像中具有相同目标行坐标和各个目标列坐标的各目标像素的像素值,并将其写入第一帧缓冲存储器中,清空第二帧缓冲存储器。
由此,本发明将仿射变换步骤划分为行变换和列变换两步计算。行变形部分,数学表达式为T[u(x,y),y]=I[x,y],列变形部分,数学表达式为Q[u,v]=P[u,v(u,y)]=T[u(x,y),y],其中P,T为中间计算结果,本发明中的两步变形框架很好地避免了生成目标图像时被迫多次读取内存的带宽瓶颈。
其中,本发明的行变换中的一行可以是具有同一横坐标的行,也可以是具有同一纵坐标的列。相应地,本发明的列变换中的一列可以是具有同一纵坐标的列,也可以是具有同一横坐标的行。
至此,结合图1详细说明了本发明的对象识别方法。由上可知,本发明通过从目标图像获取对象区域图像以及对象区域图像中的关键点位置,并基于关键点位置映射到关键点标准位置的仿射变换矩阵,对识别出的对象区域进行仿射变换,以得到标准化的对象图像。由此,通过将对象检测和对象关键点检测结合起来,可以更为准确地识别出目标图像中的对象区域图像,并且通过对对象区域图像进行仿射变换,可以得到更加容易辨认的对象标准化图像。
作为一种可选方案,对于输入图像,可以对其进行多尺度缩放,得到不同尺度的输入图像,然后可以对得到的一系列图像执行图1所示的对象识别方法,这样可以检测不同尺度的对象,提高检测成功率。
图2示出了根据本发明一实施例的对象识别系统的结构的示意性方框图。其中,图2所示的对象识别系统可以实现上文述及的对象识别方法,下面仅就对象识别系统的基本结构及功能进行说明,对于其中涉及的细节部分可以参见上文相关描述。
参见图2,本发明的对象识别系统200可以包括存储器210、FPGA模块220、CPU模块230以及几何变换模块240。
存储器210用于存储输入图像,即待检测图像。
FPGA模块220用于在其上实现对象识别模型和关键点识别模型。其中,对象识别模型用于从输入图像中识别对象区域范围,以便于从输入图像中截取对象区域图像,关键点识别模型用于获取对象区域图像上的多个关键点位置。
对象识别模型和关键点识别模型可以都是卷积神经网络模型,其可以预先通过训练得到。其中,卷积神经网络模型可以包括卷积器阵列、非线性函数单元、降采样单元。每个卷积器可以包括一个矩形乘法器阵列,用于计算输入图像的非线性特征。
对象识别模型可以根据输入图像计算对象分布概率矩阵,矩阵中每一元素代表原输入图像中一个区域为对象的概率,然后可以将概率值高于特定阈值的区域作为对象区域。相应地,关键点识别模型可以识别出对象区域图像上可能是关键点的位置的概率,将概率值大于特定阈值的位置确定为关键点位置。
CPU模块230可以控制FPGA模块220,并且计算将多个关键点位置映射到与其对应的多个关键点标准位置的仿射变换矩阵。其中,CPU模块230还可以执行卷积神经网络模型(对象识别模型和关键点识别模型)的全连接层运算。
其中,获取仿射变化矩阵的原理可以参见上文相关描述,这里不再赘述。需要说明的是,关键点标准位置指的是具有预定形状和尺寸的标准对象图像上的关键点位置。以对象为人脸为例,关键点可以是眉毛、眼睛、鼻子、嘴巴等,关键点标准位置就可以是基于大数据得到的“普通脸”上的眉毛、眼睛、鼻子、嘴巴等关键点的位置。
几何变换模块240用于使用仿射变换矩阵对对象区域图像进行仿射变换,得到对象标准化图像。
图3示出了几何变换模块240可以具有的功能模块的示意性方框图。
参见图3,几何变换模块240可以包括第一帧缓冲存储器241、一维行变形模块243、第二帧缓冲存储器245以及一维列变形模块247。
第一帧缓冲存储器241和第二帧缓冲存储器245分别用于保存一帧图像。
一维行变形模块243用于对第一帧缓冲存储器241中保存的对象区域图像逐列进行行变换,在行变换中,使用仿射变换矩阵对对象区域图像中具有相同原始列坐标的一列原始像素进行行变换,得到中间图像中具有相同原始列坐标和各个目标行坐标的各中间像素的像素值,并将其写入第二帧缓冲存储器245中。
一维列变形模块247用于对第二帧缓冲存储器245中保存的对象区域图像逐行进行列变换,在列变换中,从第一帧缓冲存储器241读取对象区域图像的一行原始像素,使用仿射变换矩阵对中间图像中具有相同目标行坐标的一行中间像素进行列变换,得到对象标准化图像中具有相同目标行坐标和各个目标列坐标的各目标像素的像素值,并将其写入第一帧缓冲存储器241中,
其中,在开始向第二帧缓冲存储器245中写入中间像素的像素值之前,清空第二帧缓冲存储器245,在开始向第一帧缓冲存储器241中写入目标像素的像素值之前,清空第一帧缓冲存储器241。
由此,本发明将几何变换模块240中的地址变换函数分为两阶段完成,其中第一阶段单独变换每一行,使此行的像素位于正确的列,可以由一维行变形模块243完成,第二阶段对每一列单独进行操作,使得每个像素位于正确的行,可以由一维列变形模块247完成。这样,可以很好地避免了生成目标图像时被迫多次读取内存的带宽瓶颈。
由于截取到的对象区域图像和对象的实际尺寸和形状的差别可能较大,因此作为一种优选实施例,在获取了对象区域图像后,可以优选地由CPU模块230对对象区域图像进行简单的拉伸或压缩处理,以使其具有预定形状和尺寸。这里,可以根据对象的一般尺寸对对象区域图像进行拉伸或压缩,例如,在对象是人脸时,可以根据“普通脸”的尺寸对对象区域图像进行拉伸或压缩,以使得处理后的对象区域图像的尺寸和形状与“普通脸”基本相同。
作为另一种优选实施例,在获取了多个关键点位置后,还可以基于关键点的位置,由CPU模块230对对象区域图像进行微调,以提高识别的准确度。
例如,CPU模块230可以基于对象区域图像上的关键点位置和对象的固有几何属性重新计算对象区域范围,并重新截取对象区域图像。
这里的固有几何属性重点体现的是比例关系。以对象为人脸为例,在确定了人脸区域图像上的多个关键点(例眉毛、眼睛、鼻子、嘴巴)后,就可以基于关键点的位置和人脸的几何属性(例如普通人脸的眉毛、眼睛、鼻子、嘴巴的位置和人脸轮廓的关系),重新计算人脸区域范围,然后重新截取所计算的人脸区域范围,作为新的人脸区域图像。其中,可以从输入图像中重新截取所计算的人脸区域范围,或者,原对象区域图像截取的较大的情况下,也可以直接在原对象区域图像上截取新对象区域图像。
上文中已经参考附图详细描述了根据本发明的对象识别方法和系统。
此外,根据本发明的方法还可以实现为一种计算机程序,该计算机程序包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者,根据本发明的方法还可以实现为一种计算机程序产品,该计算机程序产品包括计算机可读介质,在该计算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (13)

1.一种对象识别方法,用于从输入图像中识别对象,该方法包括:
使用对象识别模型从所述输入图像中截取对象区域图像;
使用关键点识别模型获取所述对象区域图像上的多个关键点位置;
获取将所述多个关键点位置映射到与其对应的多个关键点标准位置的仿射变换矩阵;以及
使用所述仿射变换矩阵对所述对象区域图像进行仿射变换,得到对象标准化图像。
2.根据权利要求1所述的对象识别方法,其中,所述使用对象识别模型从所述输入图像中截取对象区域图像的步骤包括:
使用对象识别模型分析输入图像,以获取其中的对象区域范围;以及
从所述输入图像中截取对象区域图像。
3.根据权利要求1所述的对象识别方法,其中,在获取所述仿射变换矩阵之前,该方法还包括:
基于所述对象区域图像上的关键点位置和所述对象的固有几何属性重新计算对象区域范围,并重新截取对象区域图像。
4.根据权利要求1所述的对象识别方法,其中,在获取所述仿射变换矩阵之前,该方法还包括:
对所述对象区域图像进行拉伸或压缩,以使其具有预定形状和尺寸,其中,所述关键点标准位置是具有所述预定形状和尺寸的标准对象图像上的关键点位置。
5.根据权利要求1所述的对象识别方法,其中,所述对对象区域图像进行仿射变换的步骤包括:
对第一帧缓冲存储器中保存的所述对象区域图像逐列进行行变换,在所述行变换中,使用所述仿射变换矩阵对所述对象区域图像中具有相同原始列坐标的一列原始像素进行行变换,得到中间图像中具有所述相同原始列坐标和各个目标行坐标的各中间像素的像素值,并将其写入第二帧缓冲存储器中;
清空所述第一帧缓冲存储器;
对第二帧缓冲存储器中保存的所述对象区域图像逐行进行列变换,在所述列变换中,从所述第一帧缓冲存储器读取所述对象区域图像的一行原始像素,使用所述仿射变换矩阵对所述中间图像中具有相同目标行坐标的一行中间像素进行列变换,得到所述对象标准化图像中具有所述相同目标行坐标和各个目标列坐标的各目标像素的像素值,并将其写入第一帧缓冲存储器中;以及
清空所述第二帧缓冲存储器。
6.根据权利要求1-5中任何一项所述的对象识别方法,其中,所述对象识别模型和所述关键点识别模型均为卷积神经网络模型。
7.根据权利要求1-5中任何一项所述的对象识别方法,其中,所述对象为人脸。
8.一种对象识别系统,用于从输入图像中识别对象,该系统包括:
存储器,用于存储所述输入图像;
FPGA模块,用于在其上实现对象识别模型和关键点识别模型,所述对象识别模型用于从所述输入图像中识别对象区域范围,以便于从所述输入图像中截取对象区域图像,所述关键点识别模型用于获取所述对象区域图像上的多个关键点位置;
CPU模块,用于控制所述FPGA模块,并且计算将所述多个关键点位置映射到与其对应的多个关键点标准位置的仿射变换矩阵;
几何变换模块,使用所述仿射变换矩阵对所述对象区域图像进行仿射变换,得到对象标准化图像。
9.根据权利要求8所述的对象识别系统,其中,
所述CPU模块基于所述对象区域图像上的关键点位置和所述对象的固有几何属性重新计算对象区域范围,并重新截取对象区域图像,
所述CPU模块控制所述FPGA模块上的关键点识别模型从重新截取的对象区域图像中重新获取多个关键点位置,所述CPU模块使用重新获取的所述多个关键点位置计算所述仿射变换矩阵。
10.根据权利要求8所述的对象识别系统,其中,
所述CPU模块对所述对象区域图像进行拉伸或压缩,以使其具有预定形状和尺寸,其中,所述关键点标准位置是具有所述预定形状和尺寸的标准对象图像上的关键点位置。
11.根据权利要求8所述的对象识别系统,其中,所述几何变换模块包括:
第一帧缓冲存储器和第二帧缓冲存储器,分别用于保存一帧图像;
一维行变形模块,对第一帧缓冲存储器中保存的所述对象区域图像逐列进行行变换,在所述行变换中,使用所述仿射变换矩阵对所述对象区域图像中具有相同原始列坐标的一列原始像素进行行变换,得到中间图像中具有所述相同原始列坐标和各个目标行坐标的各中间像素的像素值,并将其写入第二帧缓冲存储器中;以及
一维列变形模块,对第二帧缓冲存储器中保存的所述对象区域图像逐行进行列变换,在所述列变换中,从所述第一帧缓冲存储器读取所述对象区域图像的一行原始像素,使用所述仿射变换矩阵对所述中间图像中具有相同目标行坐标的一行中间像素进行列变换,得到所述对象标准化图像中具有所述相同目标行坐标和各个目标列坐标的各目标像素的像素值,并将其写入第一帧缓冲存储器中,
其中,在开始向所述第二帧缓冲存储器中写入所述中间像素的像素值之前,清空第二帧缓冲存储器,在开始向所述第一帧缓冲存储器中写入所述目标像素的像素值之前,清空所述第一帧缓冲存储器。
12.根据权利要求8-11中任何一项所述的对象识别系统,其中,所述对象识别模型和所述关键点识别模型均为卷积神经网络模型,
所述CPU模块还用于执行所述卷积神经网络模型的全连接层运算。
13.根据权利要求8-11中任何一项所述的对象识别系统,其中,所述对象为人脸。
CN201611115803.7A 2016-12-07 2016-12-07 对象识别方法和系统 Pending CN108171244A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611115803.7A CN108171244A (zh) 2016-12-07 2016-12-07 对象识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611115803.7A CN108171244A (zh) 2016-12-07 2016-12-07 对象识别方法和系统

Publications (1)

Publication Number Publication Date
CN108171244A true CN108171244A (zh) 2018-06-15

Family

ID=62526122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611115803.7A Pending CN108171244A (zh) 2016-12-07 2016-12-07 对象识别方法和系统

Country Status (1)

Country Link
CN (1) CN108171244A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109379509A (zh) * 2018-12-10 2019-02-22 盎锐(上海)信息科技有限公司 点云加密压缩引擎
CN109389072A (zh) * 2018-09-29 2019-02-26 北京字节跳动网络技术有限公司 数据处理方法和装置
CN109636785A (zh) * 2018-12-07 2019-04-16 南京埃斯顿机器人工程有限公司 一种识别金刚砂颗粒的视觉处理方法
CN109685740A (zh) * 2018-12-25 2019-04-26 努比亚技术有限公司 人脸校正的方法及装置、移动终端及计算机可读存储介质
CN109697408A (zh) * 2018-11-22 2019-04-30 哈尔滨理工大学 一种基于fpga的人脸识别系统
CN109855739A (zh) * 2019-01-04 2019-06-07 三峡大学 基于仿射变换的电力设备红外测温方法及装置
CN110555796A (zh) * 2019-07-24 2019-12-10 广州视源电子科技股份有限公司 图像调整方法、装置、存储介质以及设备
CN110717486A (zh) * 2018-07-13 2020-01-21 杭州海康威视数字技术股份有限公司 文本检测方法、装置、电子设备和存储介质
WO2020108366A1 (zh) * 2018-11-27 2020-06-04 腾讯科技(深圳)有限公司 图像分割方法、装置、计算机设备及存储介质
CN111241887A (zh) * 2018-11-29 2020-06-05 北京市商汤科技开发有限公司 目标对象关键点识别方法及装置、电子设备和存储介质
CN111435544A (zh) * 2019-01-14 2020-07-21 珠海格力电器股份有限公司 图片处理方法和装置
CN111753847A (zh) * 2020-06-28 2020-10-09 浙江大华技术股份有限公司 图像预处理方法及装置、存储介质、电子装置
CN111832369A (zh) * 2019-04-23 2020-10-27 中国移动通信有限公司研究院 一种图像识别方法、装置及电子设备
CN114399502A (zh) * 2022-03-24 2022-04-26 视睿(杭州)信息科技有限公司 一种适用于led芯片的外观缺陷检测方法、系统及存储介质
CN114938425A (zh) * 2021-06-15 2022-08-23 义隆电子股份有限公司 摄影装置及其使用人工智能的物件识别方法
CN115240122A (zh) * 2022-09-22 2022-10-25 南昌工程学院 一种基于深度强化学习的空气预热器区域识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8275204B1 (en) * 2003-11-05 2012-09-25 Shahar Kovalsky Estimation of joint radiometric and geometric image deformations
CN103577815A (zh) * 2013-11-29 2014-02-12 中国科学院计算技术研究所 一种人脸对齐方法和系统
CN104036276A (zh) * 2014-05-29 2014-09-10 无锡天脉聚源传媒科技有限公司 人脸识别方法及装置
CN105354531A (zh) * 2015-09-22 2016-02-24 成都通甲优博科技有限责任公司 一种面部关键点的标注方法
CN105389549A (zh) * 2015-10-28 2016-03-09 北京旷视科技有限公司 基于人体动作特征的对象识别方法及装置
CN105631406A (zh) * 2015-12-18 2016-06-01 小米科技有限责任公司 图像识别处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8275204B1 (en) * 2003-11-05 2012-09-25 Shahar Kovalsky Estimation of joint radiometric and geometric image deformations
CN103577815A (zh) * 2013-11-29 2014-02-12 中国科学院计算技术研究所 一种人脸对齐方法和系统
CN104036276A (zh) * 2014-05-29 2014-09-10 无锡天脉聚源传媒科技有限公司 人脸识别方法及装置
CN105354531A (zh) * 2015-09-22 2016-02-24 成都通甲优博科技有限责任公司 一种面部关键点的标注方法
CN105389549A (zh) * 2015-10-28 2016-03-09 北京旷视科技有限公司 基于人体动作特征的对象识别方法及装置
CN105631406A (zh) * 2015-12-18 2016-06-01 小米科技有限责任公司 图像识别处理方法和装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717486A (zh) * 2018-07-13 2020-01-21 杭州海康威视数字技术股份有限公司 文本检测方法、装置、电子设备和存储介质
CN110717486B (zh) * 2018-07-13 2022-08-05 杭州海康威视数字技术股份有限公司 文本检测方法、装置、电子设备和存储介质
CN109389072A (zh) * 2018-09-29 2019-02-26 北京字节跳动网络技术有限公司 数据处理方法和装置
CN109697408A (zh) * 2018-11-22 2019-04-30 哈尔滨理工大学 一种基于fpga的人脸识别系统
US11734826B2 (en) 2018-11-27 2023-08-22 Tencent Technologv (Chenzhen) Company Limited Image segmentation method and apparatus, computer device, and storage medium
WO2020108366A1 (zh) * 2018-11-27 2020-06-04 腾讯科技(深圳)有限公司 图像分割方法、装置、计算机设备及存储介质
CN111241887A (zh) * 2018-11-29 2020-06-05 北京市商汤科技开发有限公司 目标对象关键点识别方法及装置、电子设备和存储介质
CN111241887B (zh) * 2018-11-29 2024-04-16 北京市商汤科技开发有限公司 目标对象关键点识别方法及装置、电子设备和存储介质
CN109636785A (zh) * 2018-12-07 2019-04-16 南京埃斯顿机器人工程有限公司 一种识别金刚砂颗粒的视觉处理方法
CN109379509A (zh) * 2018-12-10 2019-02-22 盎锐(上海)信息科技有限公司 点云加密压缩引擎
CN109685740A (zh) * 2018-12-25 2019-04-26 努比亚技术有限公司 人脸校正的方法及装置、移动终端及计算机可读存储介质
CN109685740B (zh) * 2018-12-25 2023-08-11 努比亚技术有限公司 人脸校正的方法及装置、移动终端及计算机可读存储介质
CN109855739A (zh) * 2019-01-04 2019-06-07 三峡大学 基于仿射变换的电力设备红外测温方法及装置
CN111435544A (zh) * 2019-01-14 2020-07-21 珠海格力电器股份有限公司 图片处理方法和装置
CN111832369A (zh) * 2019-04-23 2020-10-27 中国移动通信有限公司研究院 一种图像识别方法、装置及电子设备
CN110555796A (zh) * 2019-07-24 2019-12-10 广州视源电子科技股份有限公司 图像调整方法、装置、存储介质以及设备
CN111753847A (zh) * 2020-06-28 2020-10-09 浙江大华技术股份有限公司 图像预处理方法及装置、存储介质、电子装置
CN114938425A (zh) * 2021-06-15 2022-08-23 义隆电子股份有限公司 摄影装置及其使用人工智能的物件识别方法
CN114399502A (zh) * 2022-03-24 2022-04-26 视睿(杭州)信息科技有限公司 一种适用于led芯片的外观缺陷检测方法、系统及存储介质
CN115240122A (zh) * 2022-09-22 2022-10-25 南昌工程学院 一种基于深度强化学习的空气预热器区域识别方法

Similar Documents

Publication Publication Date Title
CN108171244A (zh) 对象识别方法和系统
Chen et al. Fsrnet: End-to-end learning face super-resolution with facial priors
CN109448090B (zh) 图像处理方法、装置、电子设备及存储介质
CN107239727A (zh) 手势识别方法和系统
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
WO2019213459A1 (en) System and method for generating image landmarks
US11232286B2 (en) Method and apparatus for generating face rotation image
WO2020119458A1 (zh) 脸部关键点检测方法、装置、计算机设备和存储介质
CN110765860B (zh) 摔倒判定方法、装置、计算机设备及存储介质
US11928893B2 (en) Action recognition method and apparatus, computer storage medium, and computer device
WO2019223080A1 (zh) Bmi预测方法、装置、计算机设备和存储介质
CN112052886A (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN111860398B (zh) 遥感图像目标检测方法、系统及终端设备
CN112052839A (zh) 图像数据处理方法、装置、设备以及介质
CN109584327B (zh) 人脸老化模拟方法、装置以及设备
CN109816098B (zh) 神经网络的处理方法及评估方法、数据分析方法及装置
EP4322056A1 (en) Model training method and apparatus
CN111783748A (zh) 人脸识别方法、装置、电子设备及存储介质
CN110147708B (zh) 一种图像数据处理方法和相关装置
CN114596290A (zh) 缺陷检测方法及其装置、存储介质、程序产品
CN110210426A (zh) 基于注意力机制从单幅彩色图像进行手部姿态估计的方法
CN113205017A (zh) 跨年龄人脸识别方法及设备
US20220215617A1 (en) Viewpoint image processing method and related device
Liu et al. Facial image inpainting using attention-based multi-level generative network
WO2020105146A1 (ja) 情報処理装置、制御方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180605

Address after: 100083, 17 floor, four building four, 1 Wang Zhuang Road, Haidian District, Beijing.

Applicant after: BEIJING DEEPHI INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 100083, 8 floor, 807 building, four building, 1 Wang Zhuang Road, Haidian District, Beijing.

Applicant before: BEIJING DEEPHI INTELLIGENCE TECHNOLOGY Co.,Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200903

Address after: Unit 01-19, 10 / F, 101, 6 / F, building 5, yard 5, Anding Road, Chaoyang District, Beijing 100029

Applicant after: Xilinx Electronic Technology (Beijing) Co.,Ltd.

Address before: 100083, 17 floor, four building four, 1 Wang Zhuang Road, Haidian District, Beijing.

Applicant before: BEIJING DEEPHI INTELLIGENT TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180615