CN110555338A - 对象识别方法和装置、神经网络生成方法和装置 - Google Patents
对象识别方法和装置、神经网络生成方法和装置 Download PDFInfo
- Publication number
- CN110555338A CN110555338A CN201810543947.5A CN201810543947A CN110555338A CN 110555338 A CN110555338 A CN 110555338A CN 201810543947 A CN201810543947 A CN 201810543947A CN 110555338 A CN110555338 A CN 110555338A
- Authority
- CN
- China
- Prior art keywords
- neural network
- prototype
- training
- prototypes
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例提供了一种对象识别方法、对象识别装置、神经网络生成方法、神经网络生成装置、电子设备和计算机可读存储介质。所述对象识别方法包括:从输入图像中提取特征;以及通过对所提取的特征进行分类来执行对象识别;其中,基于一个或多个对象原型对提取的特征进行分类。
Description
技术领域
本公开实施例涉及图像处理,尤其涉及一种对象识别方法、对象识别装置、神经网络生成方法、神经网络生成装置、电子设备和计算机可读存储介质。
背景技术
例如图像识别系统的对象识别系统是一种从数字图像或来自视频源的视频帧中识别或验证对象的类别的技术。对象识别系统的一个关键优势在于:该系统在进行识别时并不需要测试对象的刻意配合。例如,在机场、马路和其他公共场所的人脸识别系统可以识别人群中的个人,行人甚至察觉不到系统的存在。对象识别系统中往往要灵活应对拍摄时的多变环境,如光照、角度、表情以及噪声等因素的变化都对系统的识别能力提出的要求。
随着深度学习技术的发展,对象识别技术在实时性和准确性方面,较以往传统技术已经取得了长足的进长。通常的识别技术依据例如深度学习卷积神经网络来提取例如人脸图像的特征,结合设计的损失度量函数,从大量的样本数据中学习得到网络的参数,然后再应用到实际系统中。简言之,是一种端到端的解决方案,利用已经获取的网络作为识别内核,进而完成应用。
然而,收集海量训练样本的要求、无法兼具拒识功能及增量类别识别费时费力是亟待解决的技术问题。
发明内容
根据本公开实施例的一个方面,提供了一种对象识别方法,包括:从输入图像中提取特征;以及
通过对所提取的特征进行分类来执行对象识别;
其中,基于一个或多个对象原型对提取的特征进行分类。
根据本公开实施例的另一方面,提供了一种神经网络模型的生成方法,包括:
根据损失度量,训练样本得到深度学习神经网络模型;
其中,所述深度学习神经网络模型包括与类别对应的一个或多个对象原型,以便根据所述一个或多个对象原型对待识别对象进行分类。
根据本公开实施例的另一方面,提供了一种对象识别装置,包括:
用于从输入图像中提取特征的提取模块;以及
用于通过对所提取的特征进行分类来执行对象识别的分类模块;
其中,所述分类模块基于一个或多个对象原型对提取的特征进行分类,
根据本公开实施例的另一方面,提供了一种神经网络模型的生成装置,包括:
用于根据损失度量训练样本得到深度学习神经网络模型的训练模块;
其中,所述深度学习神经网络模型包括与类别对应的一个或多个对象原型,以便根据所述一个或多个对象原型对待识别对象进行分类。
根据本公开实施例的另一方面,提供了一种电子设备,包括:
一个或多个处理器;
一个或多个存储器,
其中所述存储器存储了计算机可读代码,所述计算机可读代码当由所述一个或多个处理器运行时,使得所述处理器执行根据本公开实施例的对象识别方法和/或神经网络模型的生成方法。
根据本公开实施例的另一方面,提供了一种非暂态计算机可读存储介质,其中,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行根据本公开实施例的对象识别方法和/或神经网络模型的生成方法。
根据本公开实施例的技术方案,通过使用对象原型来训练神经网络模型并将该神经网络模型用于对提取的对象特征进行分类,不仅可以有效提高识别性能、降低识别网络对大量样本训练的依赖,而且能够有效拒绝识别系统中不包含对应类别的对象,提供系统并不包含该类别的提示。此外,根据本公开实施例的技术方案,对于系统需要增量识别的新对象类别,只需采用少量的样本,利用这少量的样本结合已有网络学习得到对应特征,然后计算平均对象原型,即可对新的对象类别进行识别。由此,根据本公开实施例的技术方案不仅能提高对象识别系统的性能,而且能够实现拒识功能并为增量识别提供有效方案。
附图说明
图1示出了一种对象识别方法的示意流程图;
图2示出了一种根据本公开实施例的对象识别方法的示意流程图;
图3示出了根据本公开实施例的神经网络模型的生成方法的示例流程图;
图4示出了根据本公开实施例的对象识别装置的示例方框图;
图5示出了根据本公开实施例的神经网络模型生成装置的示例方框图;以及
图6示出了根据本公开实施例的电子设备的示例方框图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚明白,以下结合附图对本申请做进一步详细说明。应注意,以下描述只用于举例说明,并不用于限制本公开。在以下描述中,为了提供对本公开的透彻理解,阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本公开。在其他实例中,为了避免混淆本公开,未具体描述公知的电路、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本公开至少一个实施例中。因此,在整个说明书的各个地方出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和/或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
典型的对象识别方法可以包括训练过程和识别应用过程。训练过程可以包括图像预处理、对象检测、特征提取和分类器的设计与学习,通常为离线计算过程。测试应用过程是对图像进行预处理后,再对图像进行人脸检测与识别,最后输出识别结果。图1示出了一种对象识别方法的示意流程图。应注意,图1中虚线左侧为离线学习过程,右侧为测试过程。如图1所示,对象识别方法10可以包括以下步骤。为了便于描述,图1中以人脸识别为例进行描述。
在步骤S101,获取训练数据。例如,可以通过数码照相机、手机摄像头等输入设备,从图像序列(视频)和静止图像中获取人脸图像。
在步骤S102,对获取的训练数据进行图像预处理。图像预处理用于为后续处理提供高质量的输入图像。通常图像预处理可以包括图像降噪等。
在步骤S103,执行人脸检测。在该步骤中,分析经过预处理的图像,确定其中是否包括人脸。如果有,则找出人脸的位置并利用例如图像分割技术将人脸图像从背景图像中分离。
在步骤S104,针对检测到的人脸图像执行神经网络特征提取。对于检测到的人脸图像,按照特定策略抽取出用于识别的特征,对所提取的特征与类别进行函数映射。相关技术的人脸系统一般将两种操作统一到一个框架下,即卷积神经网络,其中底层网络结构进行特征提取,最高层的网络进行识别。
在步骤S105,执行分类训练。通常,分类训练可以包括在已有的样本训练集中,按照损失规则来指导网络参数的学习优化,使所得到系统的错误识别率最小。
类似地,在测试过程中的步骤S111,获取输入图像数据。例如,可以通过数码照相机、手机摄像头等输入设备,从图像序列(视频)和静止图像中获取人脸图像。
在步骤S112,对获取的图像数据进行图像预处理。图像预处理用于为后续处理提供高质量的输入图像。通常图像预处理可以包括图像降噪等。
在步骤S113,执行人脸检测。在该步骤中,分析经过预处理的图像,确定其中是否包括人脸。如果有,则找出人脸的位置并利用例如图像分割技术将人脸图像从背景图像中分离。
在步骤S114,针对检测到的人脸图像执行卷积神经网络特征提取。对于检测到的人脸图像,按照特定策略抽取出用于识别的特征,对所提取的特征与类别进行函数映射。相关技术的人脸系统一般将两种操作统一到一个框架下,例如卷积神经网络,其中底层网络结构进行特征提取,最高层的网络进行识别。
在步骤S115,执行分类训练并利用已学到参数的网络确定待识别样本所属的类别。通常,分类训练可以包括在已有的样本训练集中,按照损失规则来指导网络参数的学习优化,使所得到系统的错误识别率最小
然而,上述对象识别方法难以执行大规模、长期稳定有效的自动识别应用。以人脸为例,首先,图1中的识别方法需要大量对象图像样本数据来保证分类器的准确性。其次,对于新输入的人脸图像,如果系统数据库中并未包含人脸图像所对应的正确类别,无法像人类智能所能给出的“不认识”回答,即,不具有“拒识功能”。此外,当系统对新的类别的人脸进行识别时,往往需要先增加神经网络的输出结点(即调整网络结构),并用新类别的人脸图像与原训练集一起组成新的训练集,以重新训练新的神经网络来达到识别功能,这个过程术语称为“增量类别的识别”,而此操作往往费时费力,需要付出很大代价。
据此,本公开实施例提出了一种新的识别度量方法,用来监督神经网络的学习过程,从而可以学习得到神经网络的参数,同时还可以学习得到若干对象原型。这里的术语“对象原型”可以是代表一种特定类别的典型对象图像,数量上可以是一个或多个。利用对象原型,不仅可以有效提高识别性能,降低网络对大量对象样本训练的依赖,而且能够有效拒绝识别系统中不包含对应类别的对象,给出系统并不包含该类别的提示。同时,对于系统需要增量识别的新类别的对象,只需采用少量的样本,利用这若干新输入的对象图像结合已有网络学得对应特征,然后计算例如平均对象图像作为对象原型,就可以识别新的对象类别。由此,根据本公开实施例不仅能提高对象识别的性能,而且能够实现拒识功能和增量识别功能。
图2示出了一种根据本公开实施例的对象识别方法的示意流程图。应注意,应注意,以下方法中各个步骤的序号仅作为该步骤的表示以便描述,而不应被看作表示该各个步骤的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。如图2所示,根据本公开实施例的对象识别方法20可以包括以下步骤。
在步骤S201,从输入图像中提取特征。
在步骤S202,通过对所提取的特征进行分类来执行对象识别。其中,基于一个或多个对象原型对提取的特征进行分类。
根据本公开实施例,基于一个或多个对象原型对提取的特征进行分类。对象原型中的每一个可以代表一种特定类别。例如,可以针对某一种特定类别,获取属于该类别的若干个对象图像并利用神经网络学习得到对应特征,然后计算平均特征作为针对该类别的对象原型。针对一种类别可以具有一个或多个对象原型。本领域技术人员可以理解,根据本公开实施例的对象原型可以是特征集的形式。
本领域技术人员可以理解,本公开实施例中的术语“对象”可以是人脸、指纹、掌纹、虹膜等具有个人唯一性特征的多种图像。此外,根据本公开实施例的对象识别方法还可以包括获取输入图像以及在获取输入图像之后对输入图像进行预处理等操作,例如降噪、图像归一化等处理,为了简明,本公开实施例不再赘述。
本领域技术人员可以理解,根据本公开实施例,步骤S204中从输入图像中提取特征可以包括检测输入图像的步骤,例如可以包括人脸检测和关键点检测等,为了简明,本公开实施例不再赘述。
根据本公开实施例,在步骤S202,通过对所提取的特征进行分类可以包括:基于提取的特征,从获取的一个或多个对象原型中得到与待识别对象最相似的对象原型;计算待识别对象与最相似的对象原型之间的相似度;以及响应于所述相似度与第一阈值的比较结果,确定所述待识别对象具有与最相似的对象原型相对应的类别。例如,如果计算的待识别对象与最相似的对象原型之间的相似度大于等于预定的第一阈值T1,则可以确定待识别对象具有与最相似的对象原型相对应的类别。第一阈值T1可以为超参数,可以根据经验性获得,也可以在神经网络的训练过程中学得。关于相似度,例如可以利用神经网络提取待识别对象的相应特征,并计算相应特征之间的欧氏距离或余弦距离。在以余弦距离来计算相似度的情况下,可以将第一阈值T1设为0.5。此外,也可以在神经网络的训练完成后,计算所有分类正确的训练样本与其对应原型的距离,然后取平均值作为第一阈值。本领域技术人员可以理解,也可以使用其他相似度计算方法和第一阈值设置准则,本公开实施例并不局限于上述示例。
根据本公开实施例,如果计算的待识别对象与最相似的对象原型之间的相似度小于第一阈值T1,则可以分别计算提取的特征与所有对象原型的距离,获取候选对象原型。然后根据所述候选对象原型与待识别对象的相似度,获取待识别对象与未知类别之间的关联度,并根据关联度与第二阈值T2的比较结果,确定识别结果。例如,可以计算得到最新的多个(例如10个)对象原型,分别计算待识别对象与所有原型的相似度并得到归一化因子。然后,通过用1分别减去该归一化因子得到该待识别对象属于未知类的概率值,作为该待识别对象与未知类别之间的关联度。然后,将得到的关联度分别与第二阈值T2进行比较,例如,如果关联度大于等于第二阈值T2,则认为该待识别对象属于未知类别,从而实现了“拒识功能”。例如,可以将第二阈值T2设置为0.9或0.8等,本领域技术人员可以理解,可以根据实际应用设置第二阈值T2的数值,本公开实施例并不局限于以上示例。利用上述技术方案,在对象识别过程中,当输入的待识别对象不属于已有的任意类别时,可以提示不存在与该待识别对象相对应的类别。
此外,根据本公开实施例,步骤S202还可以包括通过深度学习神经网络从输入图像中提取特征。深度学习神经网络的网络参数是通过损失度量训练得到的,该损失度量使得第一距离与第二距离之间的差尽可能大,其中,第一距离为训练集与所对应的正确类别的对象原型之间的距离,第二距离为训练集与最易混淆类别的对象原型之间的距离。
传统的对象识别方法中,训练神经网络是使用的损失度量的原则在于使得分类准确度量更高。根据本公开实施例,基于对象原型的损失度量不仅要求分类准确度要尽可能高,同时保证得到的对象原型具有可区分性。接下来将详细描述根据本公开实施例的基于对象原型的损失度量准则。
在分类层面,一种常见的损失度量为:
其中,N为训练样本的数目,xi表示第i个训练样本,y为该训练样本对应的类别,σ为sigmoid函数,f为经过深度学习神经网络所提取的对象的特征,u为分类面线性判别函数,wy和by为线性判别函数的参数。式(1)的准则在于最小化所有训练样本的分类误差,等价于最大化它们的分类正确概率,这种损失度量关注在分类边界。
根据本公开实施例,通过引入对象原型pij,表示第i类的第i个原型,假设每个类别具有K个原型脸,关注点在于让xi所属的正确类别与最易引起混淆的类别之间具有足够的可区别度,由此可以将损失度量设计为:
其中,N为训练样本的数目,xi表示第i个训练样本,pym为该训练样本对应的正确类别y的第m个原型,pcn为最易混淆类别c的第n个原型,|| ||表示欧氏距离。由此,不仅使得学习得到网络的参数使分类性能好,还要使得学得的对象原型与最易混淆类别的对象原型之间有足够的区分性。即,使得第一距离与第二距离之间的差尽可能大,第一距离为训练样本集和所对应的正确类别的对象原型之间的距离,第二距离为训练样本集合和最易混淆类别的对象原型之间的距离。
此外,可以通过余弦距离来衡量人脸之间的相似度,同时引入软阈值(“margin”,一种截断操作))的概念来使得准则更加地具有泛化性能,可以将损失度量设计为:
其中,[]+表示若值小于t时则取0,大于t时则为当前值,即截断操作,N为训练样本的数目,xi表示第i个待识别对象,y为第i个待识别对象对应的正确类别,f为待识别对象经过深度学习神经网络提取的特征,pym为正确类别y的第m个原型,pcn为与最易混淆类别c的第n个原型,t为常量。
关于“最易混淆类别”,在神经网络的训练初始阶段,对象原型为随机选择,随后通过计算相似度即可得到非正确类别中最接近的对象原型,可以将最接近的对象原型所属的类型作为“最易混淆类别”,即,最容易与正确的类别相混淆的类别。随着训练不断进行,可以不断重复以上操作并更新和优化“最易混淆类别”。
此外,步骤S202还可以包括通过深度学习神经网络从输入图像中提取特征。
根据本公开实施例的对象识别方法还可以包括:根据新的对象原型识别新的类别;其中,所述新的对象原型是所述深度学习神经网络根据对象新的训练集获取的。例如,可以获取与代表另一种特定类别的对象原型相对应的多个新训练图像。可以利用神经网络从所述多个新训练图像中分别提取新特征,计算提取的新特征的平均特征值,并根据所述平均特征值获取一个或多个新对象原型。此外,还可以利用高斯混合分布估计,将计算出来的特征值作为数据点,利用高斯混合模型来进行拟合,即可得到带权值组合的一系列高斯分布。然后利用权值与高斯分布的均值进行线性组合,可计算得到对象原型中新特征的线性加权值。本领域技术人员可以理解,根据本公开实施例的技术方案,可以使用其他方式来利用对象新的训练集训练深度学习神经网络以获取新的对象原型。
根据本公开实施例的另一方面,还提供了一种神经网络模型的生成方法。图3示出了根据本公开实施例的神经网络模型的生成方法的示例流程图。如图3所示,根据本公开实施例的神经网络模型的生成方法30可以包括以下步骤。
在步骤S301,根据损失度量,通过训练样本得到神经网络模型。
其中,神经网络模型可以包括与类别对应的一个或多个对象原型,以便根据所述一个或多个对象原型对待识别对象进行分类。
根据本公开实施例,该损失度量设计为使得第一距离与第二距离之间的差尽可能大;其中,第一距离为训练集与所对应的正确类别的对象原型的距离,第二距离为训练集与最易混淆类别的对象原型的距离。此外,还可以根据新的训练集,得到新的对象原型。
例如,利用上文中的公式(3)计算所述神经网络模型的损失度量minL:
其中,[]+表示若值小于t时则取0,大于t时则为当前值,即截断操作,N为训练样本的数目,xi表示第i个训练样本,y为第i个训练样本对应的正确类别,f为训练样本经过神经网络模型提取的特征,pym为与正确类别y相对应的第m个对象原型,pcn为最易混淆类别c的第n个对象原型,t为常量。
根据本公开实施例的技术方案,以引入对象原型为核心重新定义了神经网络的训练过程,并相应改进了利用该神经网络的对象识别过程。根据本公开实施例,可以在执行对象识别之前、执行对象识别期间等执行神经网络模型的生成,并在对象识别期间不断地使用新的训练样本训练神经网络,并利用经过训练的神经网络进行对象识别操作,从而不断优化对象识别的准确度和效率。
根据本公开的另一方面,提供了一种对象识别装置。图4示出了根据本公开一个实施例的对象识别装置的示例方框图。如图4所示,对象识别装置40可以包括用于从输入图像中提取特征的提取模块401;以及用于通过对所提取的特征进行分类来执行对象识别的分类模块402。分类模块402基于一个或多个对象原型对提取的特征进行分类。
关于提取模块401和分类模块402的具体操作,可以参考关于根据本公开实施例的对象识别方法的详细描述,此处不再赘述。
根据本公开实施例的另一方面,提供了一种神经网络模型生成装置。图5示出了根据本公开实施例的神经网络模型生成装置50的示例方框图。如图5所示,神经网络模型生成装置50可以包括用于根据损失度量训练样本得到神经网络模型的训练模块501。其中,神经网络模型包括与类别对应的一个或多个对象原型,以便根据一个或多个对象原型对待识别对象进行分类。
关于训练模块501的具体操作,可以参考关于根据本公开实施例的神经网络模块的生成方法的详细描述,此处不再赘述。
应注意,仅为了便于描述将本公开的对象识别装置划分为包括提取模块和分类模块,将神经网络模型生成装置划分为包括训练模块。该提取模块、分类模块和训练模块可以实现为分离的模块也可以集成在一起,只需能够实现相应的功能即可。本公开的对象识别装置和神经网络模型生成装置可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、或其他集成格式来实现。也可以在整体上或部分地可以等同地实现在集成电路中,实现为在一台或多台计算机上运行的一个或多个计算机程序,实现为在一个或多个处理器上运行的一个或多个程序,实现为固件,或者实质上实现为上述方式的任意组合,并且本领域技术人员根据本公开,将具备设计电路和/或写入软件和/或固件代码的能力。
根据本公开实施例的另一方面,提供了一种电子设备。图6示出了根据本公开实施例的电子设备60的示例方框图。如图6所示,电子设备60可以包括:一个或多个处理器601和一个或多个存储器602。存储器602存储了计算机可读代码,计算机可读代码当由一个或多个处理器601运行时,使得处理器601执行对象识别方法和/或神经网络模型生成方法。
本公开实施例还提供了一种非暂态计算机可读存储介质,其中,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行根据本公开实施例的对象识别方法和/或神经网络模型生成方法。
本技术领域技术人员可以理解,本公开实施例包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-OnlyMemory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(ErasableProgrammable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(ElectricallyErasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本公开中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本公开中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本公开实施例的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本公开实施例的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本公开的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本公开实施例的范围。
Claims (13)
1.一种对象识别方法,包括:
从输入图像中提取特征;以及
通过对所提取的特征进行分类来执行对象识别;
其中,基于一个或多个对象原型对提取的特征进行分类。
2.根据权利要求1所述的方法,其中,所述通过对所提取的特征进行分类来执行人脸识别包括:
基于提取的特征,从获取的一个或多个对象原型中得到与待识别对象最相似的对象原型;
计算所述待识别对象与所述最相似的对象原型之间的相似度;以及
响应于所述相似度与第一阈值的比较结果,确定所述待识别对象具有与最相似的对象原型相对应的类别。
3.根据权利要求2所述的方法,还包括:
分别计算所述提取的特征与所有对象原型的距离,获取候选对象原型;
根据所述候选对象原型与待识别对象的相似度,获取待识别对象与未知类别之间的关联度;
根据关联度与第二阈值的比较结果,确定识别结果。
4.根据权利要求1所述的方法,其中,所述从输入图像中提取特征包括:
通过深度学习神经网络从输入图像中提取特征;
其中,所述深度学习神经网络的网络参数是通过损失度量训练得到的;
其中,所述损失度量使得第一距离与第二距离之间的差尽可能大,其中,第一距离为训练集与所对应的正确类别的对象原型之间的距离,第二距离为训练集与最易混淆类别的对象原型之间的距离。
5.根据权利要求1所述的方法,其中,所述从输入图像中提取特征包括:通过深度学习神经网络从输入图像中提取特征;
所述方法还包括:根据新的对象原型识别新的类别;其中,所述新的对象原型是所述深度学习神经网络根据对象新的训练集获取的。
6.一种神经网络模型的生成方法,包括:
根据损失度量,通过训练样本得到深度学习神经网络模型;
其中,所述深度学习神经网络模型包括与类别对应的一个或多个对象原型,以便根据所述一个或多个对象原型对待识别对象进行分类。
7.根据权利要求6所述的方法,其中,所述损失度量使得第一距离与第二距离之间的差尽可能大;
其中,第一距离为训练集与所对应的正确类别的对象原型的距离,第二距离为训练集与最易混淆的类别的对象原型的距离。
8.根据权利要求6所述的方法,还包括:
根据新的训练集,得到新的对象原型。
9.根据权利要求6所述的方法,其中,利用以下公式计算所述深度学习神经网络模型的损失度量minL:
其中,[]+表示若值小于t时则取0,大于t时则为当前值,N为训练样本的数目,xi表示第i个训练样本,y为第i个训练样本对应的正确类别,f为训练样本经过深度学习神经网络模型提取的特征,pym为与正确类别y相对应的第m个对象原型,pcn为最易混淆类别c的第n个对象原型,t为常量。
10.一种对象识别装置,包括:
用于从输入图像中提取特征的提取模块;以及
用于通过对所提取的特征进行分类来执行对象识别的分类模块;
其中,所述分类模块基于一个或多个对象原型对提取的特征进行分类。
11.一种神经网络模型的生成装置,包括:
用于根据损失度量训练样本得到深度学习神经网络模型的训练模块;
其中,所述深度学习神经网络模型包括与类别对应的一个或多个对象原型,以便根据所述一个或多个对象原型对待识别对象进行分类。
12.一种电子设备,包括:
一个或多个处理器;
一个或多个存储器,
其中所述存储器存储了计算机可读代码,所述计算机可读代码当由所述一个或多个处理器运行时,使得所述处理器执行权利要求1-9任一所述的方法。
13.一种非暂态计算机可读存储介质,其中,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810543947.5A CN110555338A (zh) | 2018-05-30 | 2018-05-30 | 对象识别方法和装置、神经网络生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810543947.5A CN110555338A (zh) | 2018-05-30 | 2018-05-30 | 对象识别方法和装置、神经网络生成方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110555338A true CN110555338A (zh) | 2019-12-10 |
Family
ID=68734604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810543947.5A Pending CN110555338A (zh) | 2018-05-30 | 2018-05-30 | 对象识别方法和装置、神经网络生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110555338A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539456A (zh) * | 2020-04-02 | 2020-08-14 | 浙江华睿科技有限公司 | 一种目标识别方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110052068A1 (en) * | 2009-08-31 | 2011-03-03 | Wesley Kenneth Cobb | Identifying anomalous object types during classification |
CN102915435A (zh) * | 2012-10-23 | 2013-02-06 | 哈尔滨工程大学 | 一种基于人脸能量图的多姿态人脸识别方法 |
CN103902961A (zh) * | 2012-12-28 | 2014-07-02 | 汉王科技股份有限公司 | 一种人脸识别方法及装置 |
CN105590107A (zh) * | 2016-02-04 | 2016-05-18 | 山东理工大学 | 一种人脸底层特征构建方法 |
CN106845357A (zh) * | 2016-12-26 | 2017-06-13 | 银江股份有限公司 | 一种基于多通道网络的视频人脸检测和识别方法 |
WO2017215240A1 (zh) * | 2016-06-14 | 2017-12-21 | 广州视源电子科技股份有限公司 | 基于神经网络的人脸特征提取建模、人脸识别方法及装置 |
-
2018
- 2018-05-30 CN CN201810543947.5A patent/CN110555338A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110052068A1 (en) * | 2009-08-31 | 2011-03-03 | Wesley Kenneth Cobb | Identifying anomalous object types during classification |
CN102915435A (zh) * | 2012-10-23 | 2013-02-06 | 哈尔滨工程大学 | 一种基于人脸能量图的多姿态人脸识别方法 |
CN103902961A (zh) * | 2012-12-28 | 2014-07-02 | 汉王科技股份有限公司 | 一种人脸识别方法及装置 |
CN105590107A (zh) * | 2016-02-04 | 2016-05-18 | 山东理工大学 | 一种人脸底层特征构建方法 |
WO2017215240A1 (zh) * | 2016-06-14 | 2017-12-21 | 广州视源电子科技股份有限公司 | 基于神经网络的人脸特征提取建模、人脸识别方法及装置 |
CN106845357A (zh) * | 2016-12-26 | 2017-06-13 | 银江股份有限公司 | 一种基于多通道网络的视频人脸检测和识别方法 |
Non-Patent Citations (2)
Title |
---|
HONG-MING YANG 等: "Robust Classification with Convolutional Prototype Learning", 《ARXIV》, vol. 2018, pages 3 - 4 * |
邹国峰: "基于能量图与非线性耦合度量的人脸识别方法研究", 《中国博士学位论文全文数据库信息科技辑》, vol. 2014, no. 4, pages 138 - 42 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539456A (zh) * | 2020-04-02 | 2020-08-14 | 浙江华睿科技有限公司 | 一种目标识别方法及设备 |
CN111539456B (zh) * | 2020-04-02 | 2024-03-01 | 浙江华睿科技股份有限公司 | 一种目标识别方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109583332B (zh) | 人脸识别方法、人脸识别系统、介质及电子设备 | |
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN110738247B (zh) | 一种基于选择性稀疏采样的细粒度图像分类方法 | |
CN110135505B (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN116596875B (zh) | 晶圆缺陷检测方法、装置、电子设备及存储介质 | |
CN112560829B (zh) | 人群数量确定方法、装置、设备及存储介质 | |
CN112633382A (zh) | 一种基于互近邻的少样本图像分类方法及系统 | |
CN112766218B (zh) | 基于非对称联合教学网络的跨域行人重识别方法和装置 | |
CN113158777B (zh) | 质量评分方法、质量评分模型的训练方法及相关装置 | |
CN115034315B (zh) | 基于人工智能的业务处理方法、装置、计算机设备及介质 | |
CN109376736A (zh) | 一种基于深度卷积神经网络的视频小目标检测方法 | |
KR101545809B1 (ko) | 차량 번호판 이중 검출 방법 및 장치 | |
CN110766075A (zh) | 轮胎区域图像比对方法、装置、计算机设备和存储介质 | |
CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
CN114722958A (zh) | 网络训练及目标检测方法、装置、电子设备和存储介质 | |
CN112115996A (zh) | 图像数据的处理方法、装置、设备及存储介质 | |
CN112446428B (zh) | 一种图像数据处理方法及装置 | |
CN112348011B (zh) | 一种车辆定损方法、装置及存储介质 | |
CN111786999B (zh) | 一种入侵行为的检测方法、装置、设备和存储介质 | |
CN111414952B (zh) | 行人重识别的噪声样本识别方法、装置、设备和存储介质 | |
CN111401440B (zh) | 目标分类识别方法、装置、计算机设备及存储介质 | |
CN110555338A (zh) | 对象识别方法和装置、神经网络生成方法和装置 | |
CN110163106A (zh) | 一体式纹身检测与识别方法和系统 | |
Warman et al. | Face recognition for smart attendance system using deep learning | |
CN113032776B (zh) | 面向特征嵌入中毒攻击的检测方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |