CN110163369A - 图像识别与神经网络模型的训练方法、装置和系统 - Google Patents
图像识别与神经网络模型的训练方法、装置和系统 Download PDFInfo
- Publication number
- CN110163369A CN110163369A CN201910423901.4A CN201910423901A CN110163369A CN 110163369 A CN110163369 A CN 110163369A CN 201910423901 A CN201910423901 A CN 201910423901A CN 110163369 A CN110163369 A CN 110163369A
- Authority
- CN
- China
- Prior art keywords
- potential energy
- category feature
- charge
- image
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种图像识别与神经网络模型的训练方法、装置和系统。该方法包括:获取待识别图像;将待识别图像输入神经网络模型进行特征提取处理,输出待识别图像在特征空间上的目标图像特征;神经网络模型是基于包括电荷相互作用势能在内的损失函数训练得到的,电荷相互作用势能与特征空间内不同图像特征之间的距离相关,电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;对目标图像特征进行图像识别处理,得到待识别图像的图像识别结果。采用本方法能够降低图像误识率。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像识别与神经网络模型的训练方法、装置、系统和可读存储介质。
背景技术
目前人脸识别任务分为三类,人脸验证(验证多张人脸图像是否对应同一人)、人脸搜索(在多张底库人脸图像中查找与待识别人脸图像最相近的图像)和人脸图像聚类(将多张待识别人脸图像进行分类)。目前,流行的方法是通过训练深度网络模型将人脸图像转化为特征空间(feature空间)中的点后进行不同类型的人脸识别任务。在此基础上,人脸识别任务等价于训练一个好的深度网络模型,将待识别的人脸图像转化为特征空间中的点,即提取待识别的人脸图像的图像特征,依赖于所提取的图像特征进行人脸识别。
现在普遍使用的人脸识别模型为分类模型,以softmax loss(损失)分类模型为例,该分类模型包括前端的特征提取网络和后端的softmax层,则该分类模型的训练过程包括:采用特征提取网络对各人脸训练图像进行特征提取处理,得到人脸训练图像的图像特征;将各人脸训练图像的图像特征输入softmax层,得到各人脸训练图像的预测分类概率,即人脸训练图像属于不同人的预测概率;计算各人脸训练图像的预测分类概率和分类标签之间的cross entropy(交叉熵损失),作为损失函数的值,并根据损失函数的值对初始分类模型进行训练,得到训练后的分类模型。
然而,基于上述分类模型提取出的图像特征进行人脸识别,存在容易误判的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够降低误识率的图像识别与神经网络模型的训练方法、装置和系统。
第一方面,一种图像识别方法,所述方法包括:
获取待识别图像;
将所述待识别图像输入神经网络模型进行特征提取处理,输出所述待识别图像在特征空间上的目标图像特征;所述神经网络模型是基于包括电荷相互作用势能在内的损失函数训练得到的,所述电荷相互作用势能与所述特征空间内不同图像特征之间的距离相关,所述电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
对所述目标图像特征进行图像识别处理,得到所述待识别图像的图像识别结果。
在其中一个实施例中,所述方法还包括:
获取各训练样本图像,并将各所述训练样本图像输入初始神经网络模型中,输出各所述训练样本图像的样本图像特征;每个训练样本图像的样本图像特征在特征空间上具有一个对应的A类特征点,所述A类特征点具有与对应训练样本图像相同的对象标签;
根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离;
根据不同特征点之间的距离和不同特征点所属的对象,计算所述电荷相互作用势能;并基于所述电荷相互作用势能,计算所述初始神经网络模型的损失函数的值;
根据所述损失函数的值,对所述初始神经网络模型的待训练参数进行调整,得到所述神经网络模型。
在其中一个实施例中,所述特征空间上存在A类特征点和B类特征点,所述B类特征点为各个预设参考对象的对象图像特征对应在特征空间上的特征点;所述电荷相互作用势能包括A-B类电荷势能;所述A-B类电荷势能包括:属于同一对象的A类特征点和B类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点和B类特征点之间的电荷排斥势能。
在其中一个实施例中,所述初始神经网络模型的待训练参数包括:各B类特征点对应的各个预设参考对象的对象图像特征的参数;
所述根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离,包括:
根据不同A类特征点在特征空间上的位置和不同B类特征点在特征空间上的位置,获取特征空间上A类特征点和B类特征点之间的距离;
相应地,所述根据不同特征点之间的距离和不同特征点所属的对象,计算所述电荷相互作用势能,包括:
根据A类特征点和B类特征点之间的距离、不同A类特征点所属的对象、不同B类特征点所属的对象,计算属于同一对象的A类特征点和B类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点和B类特征点之间的电荷排斥势能。
在其中一个实施例中,所述根据A类特征点和B类特征点之间的距离、不同A类特征点所属的对象、不同B类特征点所属的对象,计算属于同一对象的A类特征点和B类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点和B类特征点之间的电荷排斥势能,包括:
采用包括的关系式,计算所述电荷相互作用势能;
其中,针对第i个A类特征点和第a个B类特征点,当所述A类特征点和所述B类特征点属于同一对象时,Wi,a取值为-1,为属于同一对象的所述A类特征点和所述B类特征点之间的电荷吸引势能;当所述A类特征点和所述B类特征点属于不同对象时,Wi,a取值为+1,为属于不同对象的所述A类特征点和所述B类特征点之间的电荷排斥势能;R为所述A类特征点和所述B类特征点之间的距离,R0为第一预设距离阈值。
在其中一个实施例中,所述电荷相互作用势能包括A类电荷势能;所述A类电荷势能包括:属于同一对象的A类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点之间的电荷排斥势能。
在其中一个实施例中,所述根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离,包括:
根据不同A类特征点在特征空间上的位置,获取特征空间上不同A类特征点之间的距离;
相应地,所述根据不同特征点之间的距离和不同特征点所属的对象,计算所述电荷相互作用势能,包括:
根据不同A类特征点之间的距离、不同A类特征点所属的对象,计算属于同一对象的A类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点之间的电荷排斥势能。
在其中一个实施例中,所述根据不同A类特征点之间的距离、不同A类特征点所属的对象,计算属于同一对象的A类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点之间的电荷排斥势能,包括:
采用包括的关系式,计算所述电荷相互作用势能;
其中,针对第i个A类特征点和第j个A类特征点,当所述两个A类特征点属于同一对象时,Qi,j取值为-1,为属于同一对象的所述两个A类特征点之间的电荷吸引势能;当所述两个A类特征点属于不同对象时,Qi,j取值为+1,为属于不同对象的所述两个A类特征点之间的电荷排斥势能;P为所述两个A类特征点之间的距离,P0为第二预设距离阈值。
在其中一个实施例中,所述电荷相互作用势能还包括:背景势能,所述背景势能为所述样本图像特征的背景函数,所述背景函数具有周期性的极小值。
在其中一个实施例中,所述背景势能采用包括∑i,ucosxi,u的关系式计算得到;其中,针对第i个样本图像特征,xi,u为所述样本图像特征在特征空间中第u个方向的位置。
在其中一个实施例中,所述电荷相互作用势能包括:所述A-B类电荷势能、所述A类电荷势能和所述背景势能的线性组合。
第二方面,一种神经网络模型的训练方法,包括:
获取各训练样本图像,并将各所述训练样本图像输入初始神经网络模型中,输出各所述训练样本图像的样本图像特征;每个训练样本图像的样本图像特征在特征空间上具有一个对应的A类特征点,所述A类特征点具有与对应训练样本图像相同的对象标签;
根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离;
根据不同特征点之间的距离和不同特征点所属的对象,计算所述电荷相互作用势能;并基于所述电荷相互作用势能,计算所述初始神经网络模型的损失函数的值;所述电荷相互作用势能与所述特征空间内不同图像特征之间的距离相关,所述电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
根据所述损失函数的值,对所述初始神经网络模型的待训练参数进行调整,得到神经网络模型。
第三方面,一种图像识别装置,所述装置包括:
图像获取模块,用于获取待识别图像;
特征提取模块,用于将所述待识别图像输入神经网络模型进行特征提取处理,输出所述待识别图像在特征空间上的目标图像特征;所述神经网络模型是基于包括电荷相互作用势能在内的损失函数训练得到的,所述电荷相互作用势能与所述特征空间内不同图像特征之间的距离相关,所述电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
图像识别模块,用于对所述目标图像特征进行图像识别处理,得到所述待识别图像的图像识别结果。
第四方面,一种神经网络模型的训练装置,包括:
样本特征获取模块,用于获取各训练样本图像,并将各所述训练样本图像输入初始神经网络模型中,输出各所述训练样本图像的样本图像特征;每个训练样本图像的样本图像特征在特征空间上具有一个对应的A类特征点,所述A类特征点具有与对应训练样本图像相同的对象标签;
特征距离获取模块,用于根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离;
损失函数计算模块,用于根据不同特征点之间的距离和不同特征点所属的对象,计算所述电荷相互作用势能;并基于所述电荷相互作用势能,计算所述初始神经网络模型的损失函数的值;所述电荷相互作用势能与所述特征空间内不同图像特征之间的距离相关,所述电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
神经网络训练模块,用于根据所述损失函数的值,对所述初始神经网络模型的待训练参数进行调整,得到神经网络模型。
第五方面,一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的图像识别方法,也可以实现第二方面提供的神经网络模型的训练方法。
第六方面,一种图像识别系统,包括拍摄装置和计算机设备;所述拍摄装置用于拍摄获取待识别图像,并将所述待识别图像发送给所述计算机设备进行图像识别;所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面提供的图像识别方法,也可以实现第二方面提供的神经网络模型的训练方法。
上述图像识别与神经网络模型的训练方法、装置和系统,基于提出的一个新的损失函数,该损失函数可以包括电荷相互作用势能,具体包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;而且电荷相互作用势能与特征空间内不同图像特征之间的距离相关;对于多个待识别图像而言,宏观的表现为:属于一个对象的多个待识别图像的多个目标图像特征在特征空间中的对应点趋于聚集,属于不同对象的多个待识别图像的多个目标图像特征在特征空间中的对应点趋于分散;从另一角度来说,对于任一待识别图像和该待识别图像的目标图像特征而言,本实施例提高了目标图像特征与待识别图像所关联的对象的相关性,而降低了与其它对象的相关性,从而降低了图像识别的误识率,提高了图像识别的准确性。
附图说明
图1为一个实施例中图像识别方法的应用环境图;
图2为一个实施例中图像识别方法的流程示意图;
图3为一个实施例中神经网络模型的训练方法的流程示意图;
图4为一个实施例中神经网络模型的训练示意图;
图5为一个实施例中神经网络模型的训练方法的流程示意图;
图6为一个实施例中图像识别装置的结构框图;
图7为一个实施例中神经网络模型的训练装置的结构框图;
图8为一个实施例中图像识别系统的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的图像识别方法,可以但不限于应用于如图1所示的应用环境中。其中,拍摄装置12可以获取待识别图像,并将待识别图像发送给计算机设备11;计算机设备11可以对从所述待识别图像中提取出目标图像特征,并将待识别图像的图像特征和底库图像组中底库图像的图像特征进行比对,得到比对结果,以进行图像比对、身份识别等,例如可以识别出待识别图像关联的对象是否为底库图像组中某一底库图像对应的合法对象。其中,计算机设备11可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、服务器等。
在一个实施例中,如图2所示,提供了一种图像识别方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:
S201,获取待识别图像。
上述待识别图像可以是计算机设备接收到的其它设备发送的待识别图像,如拍摄装置、其它计算机设备等,也可以是计算机设备本地存储的待识别图像,或者是其它来源的待识别图像;总之,计算机设备需要对从该待识别图像中提取出图像特征,然后基于该图像特征对该待识别图像进行识别,应用场景可以但不限于是身份认证、刷脸支付、图像相似度比对等图像识别任务的场景。
其中,图像识别任务可以包括但不限于:图像验证(验证多张目标人脸图片是否对应同一对象)、图像搜索(在多张目标图像中查找与查询图像最相近的图像)和图像聚类(将多张目标图像进行分类)。待识别图像关联的对象可以但不限于是:人、花卉、场景、物品等。示例性地,图像识别任务可以为人脸图像识别任务,待识别图像为人脸图像;图像识别任务可以为花卉图像识别任务,待识别图像为花卉图像;图像识别任务可以为场景图像识别任务,待识别图像为场景图像等,本实施例对此并不限制。
当然,在S201之后,本实施例还可以对待识别图像进行各种类型的预处理,然后才将预处理后的待识别图像输入神经网络模型中;各种类型的预处理包括但不限于以下内容中的至少一种:图像减去均值的处理、对感兴趣区域的图像提取(例如通过人脸识别从待识别图像中提取出脸部图像,甚至进一步地提取出脸部图像中的关键点区域的图像,如眼睛图像、鼻子图像等)、批归一化处理等;本实施例对此并不限制。
S202,将待识别图像输入神经网络模型进行特征提取处理,输出待识别图像在特征空间上的目标图像特征;神经网络模型是基于包括电荷相互作用势能在内的损失函数训练得到的,电荷相互作用势能与特征空间内不同图像特征之间的距离相关,电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能。
其中,神经网络模型可以对待识别图像进行特征提取处理,提取出目标图像特征;该神经网络模型可以为任意能够进行特征提取处理的神经网络,如VGG(Visual GeometryGroup Network,视觉几何组网络),Res Net(残差神经网络),Mobile Net(一种基于深度可分离卷积的轻量化卷积神经网络),MobileNet_v2(针对Mobile Net的改进的轻量化卷积神经网络),Shuffle Net(洗牌网络)等。
图像识别的原理在于图像经过神经网络模型处理后,会映射到特征空间(feature空间)中的点,通过比对这些点的距离远近进行图像识别。所以,在训练过程中,需要将属于同一对象的不同图像提取出的不同图像特征在特征空间中的对应点之间距离压缩得越近越好,将属于不同对象的不同图像提取出的不同图像特征在特征空间中的对应点的距离拉得越远越好。
本申请的技术方案仿照物理学中电荷势能的形式,将每一个图像特征在特征空间中的对应点当做一个虚拟的电荷,假定属于同一对象的各电荷之间存在电荷吸引势能,使得属于同一对象的各电荷之间相互吸引并聚集;假定属于不同对象的各电荷之间存在电荷排斥势能,使得属于不同对象的各电荷之间相互排斥并分散。总的来说,本申请提出一个监督的损失函数(loss function),该损失函数可以包括电荷相互作用势能,包括:属于同一对象的图像特征之间的电荷吸引势能(对应于异性电荷吸引的势函数),以及属于不同对象的图像特征之间的电荷排斥势能(对应于同性电荷排斥的势函数);而且电荷相互作用势能与特征空间内不同图像特征之间的距离相关(对应于电荷之间的势能的大小与电荷之间的距离负相关)。
参照物理学中电荷势能的形式,本实施例中的电荷相互作用势能可以与特征空间内不同图像特征之间的距离负相关;即距离越远,电荷相互作用势能越小,距离越近,电荷相互作用势能越大。
示例性地,电荷相互作用势能可以包括:上述电荷排斥势能与上述电荷吸引势能的差值。同样地,电荷排斥势能与特征空间内属于不同对象的图像特征之间的距离负相关,电荷吸引势能与特征空间内属于同一对象的图像特征之间的距离负相关。可以理解的是,当损失函数降低时,意味着电荷相互作用势能趋于减小,则电荷排斥势能趋于减小,电荷吸引势能趋于增大;即特征空间内属于不同对象的图像特征之间的距离趋于增大,特征空间内属于同一对象的图像特征之间的距离趋于减小;也就是说,属于同一对象的图像特征在特征空间中的对应点聚集,属于不同对象的图像特征在特征空间中的对应点分散。
因此当优化上述损失函数,使得损失函数极小时,神经网络模型的模型参数会随之优化,因此对于多个待识别图像而言,训练后的神经网络模型宏观表现为:属于一个对象的多个待识别图像的多个目标图像特征在特征空间中的对应点趋于聚集,属于不同对象的多个待识别图像的多个目标图像特征在特征空间中的对应点趋于分散。从另一角度来说,对于任一待识别图像和该待识别图像的目标图像特征而言,提高了目标图像特征与待识别图像所关联的对象的相关性,而降低了与其它对象的相关性。
S203,对目标图像特征进行图像识别处理,得到待识别图像的图像识别结果。
示例性性,不同类型的图像识别处理任务均可以根据提取出的目标图像特征进行。图像验证任务等价于计算特征空间中多张图像在特征空间中的对应点之间的距离是否小于阈值,例如待识别图像的目标图像特征与底库图像特征之间的距离是否小于阈值;图像识别任务等价于在特征空间中从多张图像的对应点中寻找与查询图像对应点距离最近的点,例如从多张底库图像的图像特征中查找与待识别图像的目标图像特征距离最近的图像特征对应的底库图像;图像聚类任务则等价于使用诸如k-means方法的聚类算法来对特征空间中的点进行聚类,例如对多个待识别图像对应的多个目标图像特征进行聚类,待识别图像的分类类别为该待识别图像的目标图像特征的分类类别。当然,上述图像的图像特征均可以采用本实施例所述的神经网络模型从该图像中提取得到。
总的来说,本申请提出了一个新的损失函数,该损失函数可以包括电荷相互作用势能,具体包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;而且电荷相互作用势能与特征空间内不同图像特征之间的距离相关;对于多个待识别图像而言,宏观的表现为:属于一个对象的多个待识别图像的多个目标图像特征在特征空间中的对应点趋于聚集,属于不同对象的多个待识别图像的多个目标图像特征在特征空间中的对应点趋于分散;从另一角度来说,对于任一待识别图像和该待识别图像的目标图像特征而言,本实施例提高了目标图像特征与待识别图像所关联的对象的相关性,而降低了与其它对象的相关性,从而降低了图像识别的误识率,提高了图像识别的准确性。
参照图3所示,本实施例涉及的是上述神经网络模型的训练方法,具体可以包括:
S301,获取各训练样本图像,并将各训练样本图像输入初始神经网络模型中,输出各训练样本图像的样本图像特征;每个训练样本图像的样本图像特征在特征空间上具有一个对应的A类特征点,A类特征点具有与对应训练样本图像相同的对象标签。
需要说明的是,各训练样本图像与待识别图像需要为同一对象类型,例如均为人、或均为花卉等对象类型。其中,样本图像特征一般为矩阵(可以转换为多维向量)或者多维向量的形式,可以对应多维的特征空间中的点,即A类特征点。
S302,根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离。
可以理解的是,A类特征点在特征空间上的位置,体现为A类特征点对应的图像特征;相应地,特征空间上不同特征点之间的距离,可以为各特征点对应的图像特征之间的距离。
S303,根据不同特征点之间的距离和不同特征点所属的对象,计算电荷相互作用势能;并基于电荷相互作用势能,计算初始神经网络模型的损失函数的值。
特征空间上可以存在A类特征点和B类特征点,B类特征点为各个预设参考对象的对象图像特征对应在特征空间上的特征点;则电荷相互作用势能可以包括以下内容中的至少一种:(1)A-B类电荷势能;(2)A类电荷势能;其中,A-B类电荷势能包括:属于同一对象的A类特征点和B类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点和B类特征点之间的电荷排斥势能;A类电荷势能包括:属于同一对象的A类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点之间的电荷排斥势能。
(1)对于A-B类电荷势能,假定训练样本图像为M个,所属的对象的个数为N个;相应地,特征空间中还可以存在K个B类特征点(相当于B类电荷点),K个B类特征点为假定的K个预设参考对象的对象图像特征,相当于各预设参考对象的标准特征,各预设参考对象为假定的各训练样本图像所属的各对象,因此B类特征点相当于属于同一对象的各A类特征点在特征空间中的聚集中心。
一般地,K可以与各训练样本图像所属的对象的个数相同,即K=N,当然,K也可以为与N邻近的自然数。可以理解的是,与B类特征点为同一对象的A类特征点趋向于聚集在该B类特征点周围,与B类特征点为不同对象的A类特征点趋向于与该B类特征点分散开。
可以理解的是,改变神经网络模型中的特征提取相关的参数可以改变A类特征点的位置,同时可直接改变B类特征点对应的对象图像特征的参数以改变B类特征点的位置。A类特征点和B类特征点都有相应的对象标签(类似于+/-电荷),A-B类电荷势能由A类特征点与B类特征点电荷的相互作用势决定。这里只有A类特征点和B类特征点存在相互作用,A类特征点自身或者B类特征点自身不存在相互作用。A类特征点和B类特征点之间在对象相同时存在吸引势,在对象不同时存在排斥势。
B类特征点所对应的对象图像特征的参数需要在训练神经网络模型的过程中不断优化得到,其初始值可以任意设置;当然为了训练过程更快收敛,可以在第一次训练过程中对各A类特征点进行聚类,将各A类特征点聚类为K类,将K类的中心点分别作为K个B类特征点的初始值。
另一种生成B类特征点的方法是以0,1,2,3这样的数作为输入到一个生成网络,输出每一个数对应的一个对象图像特征(向量),对应特征空间中的一个B类特征点。而这个生成网络可以通过与上述神经网络模型相同的损失函数通过梯度下降方法进行训练,可以使得输出的向量改变,也就是B类特征点在特征空间中的位置改变。示例性地,生成网络可以是逆卷积网络。例如B类特征点为N个,则可以输入诸如0,1,2,……,N-1,使得上述生成网络生成N个B类特征点;因为N可能很大,同时B类特征点对应的对象图像特征的维数Q可能很大,如果采用之前的方式得到B类特征点,则B类特征点至少对应NQ个维度的数据,其存储需要很大存储量,对内存需求很高;而在本实施例中,B类特征点是由生成网络生成的,B类特征点的存储相当于是上述生成网络的参数的存储,从而降低对内存的需求。当然,上述B类特征点并不限定于一定根据上述整数的输入得到,也可以采用其它生成多个多维向量(或矩阵)的方式生成。
相应地,若电荷相互作用势能为A-B类电荷势能;初始神经网络模型的待训练参数可以包括:各B类特征点对应的各个预设参考对象的对象图像特征的参数;则S302可以包括:根据不同A类特征点在特征空间上的位置和不同B类特征点在特征空间上的位置,获取特征空间上A类特征点和B类特征点之间的距离;S303可以包括:根据A类特征点和B类特征点之间的距离、不同A类特征点所属的对象、不同B类特征点所属的对象,计算属于同一对象的A类特征点和B类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点和B类特征点之间的电荷排斥势能。
具体地,采用包括的关系式,可以计算上述A-B类电荷势能。
其中,针对第i个A类特征点和第a个B类特征点,当上述A类特征点和上述B类特征点属于同一对象时,Wi,a取值为-1,为属于同一对象的上述A类特征点和上述B类特征点之间的电荷吸引势能;当上述A类特征点和上述B类特征点属于不同对象时,Wi,a取值为+1,为属于不同对象的上述A类特征点和上述B类特征点之间的电荷排斥势能;R为上述A类特征点和上述B类特征点之间的距离,R0为第一预设距离阈值。
以对象类型为人来示例说明,参照图4所示,三个训练样本图像(实际需要大量训练样本图像)为不同人的人脸图像:Y1、Y2、Y3,每个训练样本图像均标记有相应的人的编号(每个编号对应一个人),分别对应:N1、N2、N1,即Y1、Y3所属对象为N1(如张三),Y2所属对象为N2(如王五)。相应地,这三个训练样本图像的样本图像特征为T1、T2、T3,所对应的A类特征点分别为:A1、A2、A3,分别的对象标签为:N1、N2、N1;在特征空间中还存在B1和B2两个特征点,分别对应N1和N2,B1特征点和B2特征点分别对应的对象图像特征为X1、X2。
示例性地,对于A1特征点和B1特征点而言,A1所属对象为N1,B1所属对象为N1,则Wi,a取值为-1,A1与B1之间存在电荷吸引势能;A1特征点和B1特征点之间的距离可以为T1与X1之间的范数,可以为L1范数,L2范数,或其它范数。对于A1特征点和B2特征点而言,A1所属对象为N1,B2所属对象为N2,则Wi,a取值为+1,A1与B2之间存在电荷排斥势能;A1特征点和B2特征点之间的距离可以为T1与X2之间的范数。在计算A-B类电荷势能过程中,需要遍历一个A类特征点和一个B类特征点的所有组合。
其中,R0为第一预设距离阈值,避免当第i个A类特征点和第a个B类特征点之间距离过近时,导致发散的情况。R0可以为一个大于零的值;为降低R0的影响,当A类特征点和B类特征点之间距离的尺度为D时,R0可以取值为0.1D、0.2D等相对尺度D的小量。
(2)对于A类电荷势能,可以参照A-B类电荷势能,但只考虑A类特征点之间的吸引势和排斥势;A类特征点存在对象标签,A类电荷势能由A类特征点之间的相互作用势决定,相同对象的特征点之间存在吸引势,不同对象的特征点之间存在排斥势。
相应地,若电荷相互作用势能为A类电荷势能;则S302可以包括:根据不同A类特征点在特征空间上的位置,获取特征空间上不同A类特征点之间的距离;S303可以包括:根据不同A类特征点之间的距离、不同A类特征点所属的对象,计算属于同一对象的A类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点之间的电荷排斥势能。
具体地,采用包括的关系式,可以计算上述A类电荷势能。
其中,针对第i个A类特征点和第j个A类特征点,当上述两个A类特征点属于同一对象时,Qi,j取值为-1,为属于同一对象的上述两个A类特征点之间的电荷吸引势能;当上述两个A类特征点属于不同对象时,Qi,j取值为+1,为属于不同对象的上述两个A类特征点之间的电荷排斥势能;P为上述两个A类特征点之间的距离,P0为第二预设距离阈值。
同样以上述五个训练样本图像为例,对于A1特征点和A3特征点而言,A1所属对象为N1,A3所属对象为N1,则Qi,j取值为-1,A1与A3之间存在电荷吸引势能;A1特征点和A3特征点之间的距离可以为T1与T3之间的范数,可以为L1范数,L2范数,或其它范数。对于A1特征点和A2特征点而言,A1所属对象为N1,A2所属对象为N2,则Qi,j取值为+1,A1与A2之间存在电荷排斥势能;A1特征点和A2特征点之间的距离可以为T1与T2之间的范数。在计算A类电荷势能过程中,需要遍历两个A类特征点的所有组合。
其中,P0为第二预设距离阈值,避免当第i个A类特征点和第j个A类特征点之间距离过近时,导致发散的情况。同样地,P0可以为一个大于零的值;为降低P0的影响,当A类特征点之间距离的尺度为E时,R0可以取值为0.1E、0.2E等相对尺度E的小量。
需要说明的是,无论是上述A-B类电荷势能,还是A类电荷势能,其计算关系式可以为上述示例的关系式,也可以为其它类型的关系式,只要满足相同对象的特征点之间吸引,不同对象的特征点之间排斥即可。例如,A-B类电荷势能可以采用形如的关系式来计算,其中A为系数;A类电荷势能采用形如的关系式来计算,其中B为系数。
在一种实施方式中,电荷相互作用势能还可以包括:背景势能,背景势能为样本图像特征的背景函数,背景函数具有周期性的极小值。背景势能与对象标签无关,目的是加速训练过程中A类特征点的聚集速度,使得将A类特征点更容易聚集到背景函数的极小值点,加速聚集过程,提高训练效率。例如,背景势能采用包括∑i,uf(xi,u)的关系式计算得到,f(x)为背景函数。
示例性地,背景势能采用包括∑i,ucosxi,u的关系式计算得到;其中,针对第i个样本图像特征,xi,u为样本图像特征在特征空间中第u个方向的位置。例如,对于A1特征点而言,其对应的样本图像特征T1=[x11,x12,……,x1N],为N维特征空间上的向量,存在N个方向,每个方向的元素值代表在该方向上的位置。余弦函数具有以π为周期的极小值,因此可以加快收敛。此外,余弦函数的极小值在数学上较为稳定,一定程度上可以进一步加快收敛。
示例性地,背景势能也可以采用C∑i,usin xi,u的关系式计算得到,其中C为系数。
示例性地,背景势能也可以为环状势能,可以采用形如的关系式计算得到,其中,Rh为预设的环状势能对应的半径,其背景函数的极小值出现在一个半径为Rh的环状区域上。
在一种实施例方式,电荷相互作用势能可以包括:A-B类电荷势能、A类电荷势能和背景势能的线性组合。线性组合的系数三个系数k1、k2、k3,可以自行设置,如三者可以相等,如k2>k1>k3等,也可以为待训练系数,通过训练得到,本实施例对此并不限制。
S304,根据损失函数的值,对初始神经网络模型的待训练参数进行调整,得到神经网络模型。
本实施例的神经网络模型的损失函数为上述电荷相互作用势能,还可以包括其它损失,如基于分类的交叉熵损失、基于三元组损失等,然后依据诸如梯度下降法等对初始神经网络模型中的待训练参数进行训练,包括但不限于卷积层中的卷积核、全连接层中的权重,还可以对各个预设参考对象的对象图像特征的参数进行训练。
总之,采用本实施例的神经网络模型的训练方法得到的神经网络模型,提高了目标图像特征与待识别图像所关联的对象的相关性,而降低了与其它对象的相关性,从而降低了图像识别的误识率,提高了图像识别的准确性。
在一个实施例中,如图5所示,提供了一种神经网络模型的训练方法,可以包括:
S501,获取各训练样本图像,并将各训练样本图像输入初始神经网络模型中,输出各训练样本图像的样本图像特征;每个训练样本图像的样本图像特征在特征空间上具有一个对应的A类特征点,A类特征点具有与对应训练样本图像相同的对象标签;
S502,根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离;
S503,根据不同特征点之间的距离和不同特征点所属的对象,计算电荷相互作用势能;并基于电荷相互作用势能,计算初始神经网络模型的损失函数的值;电荷相互作用势能与特征空间内不同图像特征之间的距离相关,电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
S504,根据损失函数的值,对初始神经网络模型的待训练参数进行调整,得到神经网络模型。
关于神经网络模型的训练方法的具体限定可以参见上文中对于图像识别方法的限定,在此不再赘述。
应该理解的是,虽然图2,3,5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2,3,5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种图像识别装置,包括:图像获取模块61、特征提取模块62和图像识别模块63,其中:
图像获取模块61,用于获取待识别图像;
特征提取模块62,用于将待识别图像输入神经网络模型进行特征提取处理,输出待识别图像在特征空间上的目标图像特征;神经网络模型是基于包括电荷相互作用势能在内的损失函数训练得到的,电荷相互作用势能与特征空间内不同图像特征之间的距离相关,电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
图像识别模块63,用于对目标图像特征进行图像识别处理,得到待识别图像的图像识别结果。
可选地,上述装置还可以包括:神经网络模型训练模块,神经网络模型训练模块可以包括:
样本特征获取单元,用于获取各训练样本图像,并将各训练样本图像输入初始神经网络模型中,输出各训练样本图像的样本图像特征;每个训练样本图像的样本图像特征在特征空间上具有一个对应的A类特征点,A类特征点具有与对应训练样本图像相同的对象标签;
特征距离获取单元,用于根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离;
损失函数计算单元,用于根据不同特征点之间的距离和不同特征点所属的对象,计算电荷相互作用势能;并基于电荷相互作用势能,计算初始神经网络模型的损失函数的值;
神经网络训练单元,用于根据损失函数的值,对初始神经网络模型的待训练参数进行调整,得到神经网络模型。
可选地,特征空间上存在A类特征点和B类特征点,B类特征点为各个预设参考对象的对象图像特征对应在特征空间上的特征点;电荷相互作用势能包括A-B类电荷势能;A-B类电荷势能包括:属于同一对象的A类特征点和B类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点和B类特征点之间的电荷排斥势能。
可选地,若电荷相互作用势能为A-B类电荷势能;初始神经网络模型的待训练参数包括:各B类特征点对应的各个预设参考对象的对象图像特征的参数;特征距离获取单元具体用于根据不同A类特征点在特征空间上的位置和不同B类特征点在特征空间上的位置,获取特征空间上A类特征点和B类特征点之间的距离;相应地,损失函数计算单元具体用于根据A类特征点和B类特征点之间的距离、不同A类特征点所属的对象、不同B类特征点所属的对象,计算属于同一对象的A类特征点和B类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点和B类特征点之间的电荷排斥势能。
可选地,损失函数计算单元还用于采用包括的关系式,计算上述电荷相互作用势能;其中,针对第i个A类特征点和第a个B类特征点,当上述A类特征点和上述B类特征点属于同一对象时,Wi,a取值为-1,为属于同一对象的上述A类特征点和上述B类特征点之间的电荷吸引势能;当上述A类特征点和上述B类特征点属于不同对象时,Wi,a取值为+1,为属于不同对象的上述A类特征点和上述B类特征点之间的电荷排斥势能;R为上述A类特征点和上述B类特征点之间的距离,R0为第一预设距离阈值。
可选地,电荷相互作用势能包括A类电荷势能;A类电荷势能包括:属于同一对象的A类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点之间的电荷排斥势能。
可选地,若电荷相互作用势能为A类电荷势能;特征距离获取单元具体用于根据不同A类特征点在特征空间上的位置,获取特征空间上不同A类特征点之间的距离;相应地,损失函数计算单元具体用于根据不同A类特征点之间的距离、不同A类特征点所属的对象,计算属于同一对象的A类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点之间的电荷排斥势能。
可选地,损失函数计算单元还用于采用包括的关系式,计算上述电荷相互作用势能;其中,针对第i个A类特征点和第j个A类特征点,当上述两个A类特征点属于同一对象时,Qi,j取值为-1,为属于同一对象的上述两个A类特征点之间的电荷吸引势能;当上述两个A类特征点属于不同对象时,Qi,j取值为+1,为属于不同对象的上述两个A类特征点之间的电荷排斥势能;P为上述两个A类特征点之间的距离,P0为第二预设距离阈值。
可选地,电荷相互作用势能还包括:背景势能,背景势能为样本图像特征的背景函数,背景函数具有周期性的极小值。
可选地,背景势能采用包括∑i,ucosxi,u的关系式计算得到;其中,针对第i个样本图像特征,xi,u为样本图像特征在特征空间中第u个方向的位置。
可选地,电荷相互作用势能包括:A-B类电荷势能、A类电荷势能和背景势能的线性组合。
在一个实施例中,如图7所示,提供了一种神经网络模型的训练装置,包括:样本特征获取模块71、特征距离获取模块72、损失函数计算模块73和神经网络训练模块74,其中:
样本特征获取模块71,用于获取各训练样本图像,并将各训练样本图像输入初始神经网络模型中,输出各训练样本图像的样本图像特征;每个训练样本图像的样本图像特征在特征空间上具有一个对应的A类特征点,A类特征点具有与对应训练样本图像相同的对象标签;
特征距离获取模块72,用于根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离;
损失函数计算模块73,用于根据不同特征点之间的距离和不同特征点所属的对象,计算电荷相互作用势能;并基于电荷相互作用势能,计算初始神经网络模型的损失函数的值;电荷相互作用势能与特征空间内不同图像特征之间的距离相关,电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
神经网络训练模块74,用于根据损失函数的值,对初始神经网络模型的待训练参数进行调整,得到神经网络模型。
关于图像识别装置的具体限定可以参见上文中对于图像识别方法的限定,关于神经网络模型的训练装置的具体限定可以参见上文中对于神经网络模型的训练方法的限定,在此不再赘述。上述图像识别装置和神经网络模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时一方面可以实现以下步骤:
获取待识别图像;
将所述待识别图像输入神经网络模型进行特征提取处理,输出所述待识别图像在特征空间上的目标图像特征;所述神经网络模型是基于包括电荷相互作用势能在内的损失函数训练得到的,所述电荷相互作用势能与所述特征空间内不同图像特征之间的距离相关,所述电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
对所述目标图像特征进行图像识别处理,得到所述待识别图像的图像识别结果。
另一方面也可以实现以下步骤:
获取各训练样本图像,并将各训练样本图像输入初始神经网络模型中,输出各训练样本图像的样本图像特征;每个训练样本图像的样本图像特征在特征空间上具有一个对应的A类特征点,A类特征点具有与对应训练样本图像相同的对象标签;
根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离;
根据不同特征点之间的距离和不同特征点所属的对象,计算电荷相互作用势能;并基于电荷相互作用势能,计算初始神经网络模型的损失函数的值;电荷相互作用势能与特征空间内不同图像特征之间的距离相关,电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
根据损失函数的值,对初始神经网络模型的待训练参数进行调整,得到神经网络模型。
参照图8所示,本实施例提出了一种图像识别系统,包括拍摄装置81和计算机设备82;所述拍摄装置81用于拍摄获取待识别图像,并将所述待识别图像发送给所述计算机设备82进行图像识别;所述计算机设备82包括存储器和处理器,所述存储器存储有计算机程序,该处理器执行计算机程序时一方面可以实现以下步骤:
获取待识别图像;
将所述待识别图像输入神经网络模型进行特征提取处理,输出所述待识别图像在特征空间上的目标图像特征;所述神经网络模型是基于包括电荷相互作用势能在内的损失函数训练得到的,所述电荷相互作用势能与所述特征空间内不同图像特征之间的距离相关,所述电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
对所述目标图像特征进行图像识别处理,得到所述待识别图像的图像识别结果。
另一方面也可以实现以下步骤:
获取各训练样本图像,并将各训练样本图像输入初始神经网络模型中,输出各训练样本图像的样本图像特征;每个训练样本图像的样本图像特征在特征空间上具有一个对应的A类特征点,A类特征点具有与对应训练样本图像相同的对象标签;
根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离;
根据不同特征点之间的距离和不同特征点所属的对象,计算电荷相互作用势能;并基于电荷相互作用势能,计算初始神经网络模型的损失函数的值;电荷相互作用势能与特征空间内不同图像特征之间的距离相关,电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
根据损失函数的值,对初始神经网络模型的待训练参数进行调整,得到神经网络模型。
该计算机设备可以但不限于是终端、服务器等,以终端为例,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像识别方法和神经网络模型的训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (16)
1.一种图像识别方法,其特征在于,包括:
获取待识别图像;
将所述待识别图像输入神经网络模型进行特征提取处理,输出所述待识别图像在特征空间上的目标图像特征;所述神经网络模型是基于包括电荷相互作用势能在内的损失函数训练得到的,所述电荷相互作用势能与所述特征空间内不同图像特征之间的距离相关,所述电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
对所述目标图像特征进行图像识别处理,得到所述待识别图像的图像识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取各训练样本图像,并将各所述训练样本图像输入初始神经网络模型中,输出各所述训练样本图像的样本图像特征;每个训练样本图像的样本图像特征在特征空间上具有一个对应的A类特征点,所述A类特征点具有与对应训练样本图像相同的对象标签;
根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离;
根据不同特征点之间的距离和不同特征点所属的对象,计算所述电荷相互作用势能;并基于所述电荷相互作用势能,计算所述初始神经网络模型的损失函数的值;
根据所述损失函数的值,对所述初始神经网络模型的待训练参数进行调整,得到所述神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述特征空间上存在A类特征点和B类特征点,所述B类特征点为各个预设参考对象的对象图像特征对应在特征空间上的特征点;所述电荷相互作用势能包括A-B类电荷势能;所述A-B类电荷势能包括:属于同一对象的A类特征点和B类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点和B类特征点之间的电荷排斥势能。
4.根据权利要求3所述的方法,其特征在于,所述初始神经网络模型的待训练参数包括:各B类特征点对应的各个预设参考对象的对象图像特征的参数;
所述根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离,包括:
根据不同A类特征点在特征空间上的位置和不同B类特征点在特征空间上的位置,获取特征空间上A类特征点和B类特征点之间的距离;
相应地,所述根据不同特征点之间的距离和不同特征点所属的对象,计算所述电荷相互作用势能,包括:
根据A类特征点和B类特征点之间的距离、不同A类特征点所属的对象、不同B类特征点所属的对象,计算属于同一对象的A类特征点和B类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点和B类特征点之间的电荷排斥势能。
5.根据权利要求4所述的方法,其特征在于,所述根据A类特征点和B类特征点之间的距离、不同A类特征点所属的对象、不同B类特征点所属的对象,计算属于同一对象的A类特征点和B类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点和B类特征点之间的电荷排斥势能,包括:
采用包括的关系式,计算所述电荷相互作用势能;
其中,针对第i个A类特征点和第a个B类特征点,当所述A类特征点和所述B类特征点属于同一对象时,Wi,a取值为-1,为属于同一对象的所述A类特征点和所述B类特征点之间的电荷吸引势能;当所述A类特征点和所述B类特征点属于不同对象时,Wi,a取值为+1,为属于不同对象的所述A类特征点和所述B类特征点之间的电荷排斥势能;R为所述A类特征点和所述B类特征点之间的距离,R0为第一预设距离阈值。
6.根据权利要求2所述的方法,其特征在于,所述电荷相互作用势能包括A类电荷势能;所述A类电荷势能包括:属于同一对象的A类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点之间的电荷排斥势能。
7.根据权利要求6所述的方法,其特征在于,所述根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离,包括:
根据不同A类特征点在特征空间上的位置,获取特征空间上不同A类特征点之间的距离;
相应地,所述根据不同特征点之间的距离和不同特征点所属的对象,计算所述电荷相互作用势能,包括:
根据不同A类特征点之间的距离、不同A类特征点所属的对象,计算属于同一对象的A类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点之间的电荷排斥势能。
8.根据权利要求7所述的方法,其特征在于,所述根据不同A类特征点之间的距离、不同A类特征点所属的对象,计算属于同一对象的A类特征点之间的电荷吸引势能,以及属于不同对象的A类特征点之间的电荷排斥势能,包括:
采用包括的关系式,计算所述电荷相互作用势能;
其中,针对第i个A类特征点和第j个A类特征点,当所述两个A类特征点属于同一对象时,Qi,j取值为-1,为属于同一对象的所述两个A类特征点之间的电荷吸引势能;当所述两个A类特征点属于不同对象时,Qi,j取值为+1,为属于不同对象的所述两个A类特征点之间的电荷排斥势能;P为所述两个A类特征点之间的距离,P0为第二预设距离阈值。
9.根据权利要求3或6所述的方法,其特征在于,所述电荷相互作用势能还包括:背景势能,所述背景势能为所述样本图像特征的背景函数,所述背景函数具有周期性的极小值。
10.根据权利要求9所述的方法,其特征在于,所述背景势能采用包括∑i,ucosxi,u的关系式计算得到;其中,针对第i个样本图像特征,xi,u为所述样本图像特征在特征空间中第u个方向的位置。
11.根据权利要求9所述的方法,其特征在于,所述电荷相互作用势能包括:A-B类电荷势能、A类电荷势能和所述背景势能的线性组合。
12.一种神经网络模型的训练方法,其特征在于,包括:
获取各训练样本图像,并将各所述训练样本图像输入初始神经网络模型中,输出各所述训练样本图像的样本图像特征;每个训练样本图像的样本图像特征在特征空间上具有一个对应的A类特征点,所述A类特征点具有与对应训练样本图像相同的对象标签;
根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离;
根据不同特征点之间的距离和不同特征点所属的对象,计算所述电荷相互作用势能;并基于所述电荷相互作用势能,计算所述初始神经网络模型的损失函数的值;所述电荷相互作用势能与所述特征空间内不同图像特征之间的距离相关,所述电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
根据所述损失函数的值,对所述初始神经网络模型的待训练参数进行调整,得到神经网络模型。
13.一种图像识别装置,其特征在于,包括:
图像获取模块,用于获取待识别图像;
特征提取模块,用于将所述待识别图像输入神经网络模型进行特征提取处理,输出所述待识别图像在特征空间上的目标图像特征;所述神经网络模型是基于包括电荷相互作用势能在内的损失函数训练得到的,所述电荷相互作用势能与所述特征空间内不同图像特征之间的距离相关,所述电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
图像识别模块,用于对所述目标图像特征进行图像识别处理,得到所述待识别图像的图像识别结果。
14.一种神经网络模型的训练装置,其特征在于,包括:
样本特征获取模块,用于获取各训练样本图像,并将各所述训练样本图像输入初始神经网络模型中,输出各所述训练样本图像的样本图像特征;每个训练样本图像的样本图像特征在特征空间上具有一个对应的A类特征点,所述A类特征点具有与对应训练样本图像相同的对象标签;
特征距离获取模块,用于根据不同A类特征点在特征空间上的位置,获取特征空间上不同特征点之间的距离;
损失函数计算模块,用于根据不同特征点之间的距离和不同特征点所属的对象,计算所述电荷相互作用势能;并基于所述电荷相互作用势能,计算所述初始神经网络模型的损失函数的值;所述电荷相互作用势能与所述特征空间内不同图像特征之间的距离相关,所述电荷相互作用势能包括:属于同一对象的图像特征之间的电荷吸引势能,以及属于不同对象的图像特征之间的电荷排斥势能;
神经网络训练模块,用于根据所述损失函数的值,对所述初始神经网络模型的待训练参数进行调整,得到神经网络模型。
15.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
16.一种图像识别系统,其特征在于,包括拍摄装置和计算机设备;所述拍摄装置用于拍摄获取待识别图像,并将所述待识别图像发送给所述计算机设备进行图像识别;所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910423901.4A CN110163369B (zh) | 2019-05-21 | 2019-05-21 | 图像识别与神经网络模型的训练方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910423901.4A CN110163369B (zh) | 2019-05-21 | 2019-05-21 | 图像识别与神经网络模型的训练方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110163369A true CN110163369A (zh) | 2019-08-23 |
CN110163369B CN110163369B (zh) | 2021-05-11 |
Family
ID=67631755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910423901.4A Active CN110163369B (zh) | 2019-05-21 | 2019-05-21 | 图像识别与神经网络模型的训练方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163369B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191535A (zh) * | 2019-12-18 | 2020-05-22 | 南京理工大学 | 基于深度学习的行人检测模型构建方法及行人检测方法 |
CN112613508A (zh) * | 2020-12-24 | 2021-04-06 | 深圳市杉川机器人有限公司 | 一种物体识别方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101294954A (zh) * | 2007-04-25 | 2008-10-29 | 中国科学院自动化研究所 | 一种基于信息势的图像配准方法 |
CN107609597A (zh) * | 2017-09-26 | 2018-01-19 | 嘉世达电梯有限公司 | 一种电梯轿厢人数检测系统及其检测方法 |
CN108140131A (zh) * | 2015-10-04 | 2018-06-08 | 艾腾怀斯股份有限公司 | 用于将卷积网络应用于空间数据的系统和方法 |
CN109492666A (zh) * | 2018-09-30 | 2019-03-19 | 北京百卓网络技术有限公司 | 图像识别模型训练方法、装置及存储介质 |
CN109558814A (zh) * | 2018-11-14 | 2019-04-02 | 常州大学 | 一种三维矫正和加权相似性度量学习的无约束人脸验证方法 |
-
2019
- 2019-05-21 CN CN201910423901.4A patent/CN110163369B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101294954A (zh) * | 2007-04-25 | 2008-10-29 | 中国科学院自动化研究所 | 一种基于信息势的图像配准方法 |
CN108140131A (zh) * | 2015-10-04 | 2018-06-08 | 艾腾怀斯股份有限公司 | 用于将卷积网络应用于空间数据的系统和方法 |
CN107609597A (zh) * | 2017-09-26 | 2018-01-19 | 嘉世达电梯有限公司 | 一种电梯轿厢人数检测系统及其检测方法 |
CN109492666A (zh) * | 2018-09-30 | 2019-03-19 | 北京百卓网络技术有限公司 | 图像识别模型训练方法、装置及存储介质 |
CN109558814A (zh) * | 2018-11-14 | 2019-04-02 | 常州大学 | 一种三维矫正和加权相似性度量学习的无约束人脸验证方法 |
Non-Patent Citations (1)
Title |
---|
RAIA HADSELL ET AL.: "Dimensionality Reduction by Learning an Invariant Mapping", 《IEEE》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191535A (zh) * | 2019-12-18 | 2020-05-22 | 南京理工大学 | 基于深度学习的行人检测模型构建方法及行人检测方法 |
CN111191535B (zh) * | 2019-12-18 | 2022-08-09 | 南京理工大学 | 基于深度学习的行人检测模型构建方法及行人检测方法 |
CN112613508A (zh) * | 2020-12-24 | 2021-04-06 | 深圳市杉川机器人有限公司 | 一种物体识别方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110163369B (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Neural factorization machines for sparse predictive analytics | |
Zhu et al. | S3vae: Self-supervised sequential vae for representation disentanglement and data generation | |
Shen et al. | BBAS: Towards large scale effective ensemble adversarial attacks against deep neural network learning | |
Wu et al. | A comprehensive study on cross-view gait based human identification with deep cnns | |
Wang et al. | View-based discriminative probabilistic modeling for 3D object retrieval and recognition | |
Chen et al. | A frank-wolfe framework for efficient and effective adversarial attacks | |
CN110070030A (zh) | 图像识别与神经网络模型的训练方法、装置和系统 | |
US20130155063A1 (en) | Face Feature Vector Construction | |
CN110399799A (zh) | 图像识别和神经网络模型的训练方法、装置和系统 | |
EP3542319A1 (en) | Training neural networks using a clustering loss | |
CN106803054B (zh) | 人脸模型矩阵训练方法和装置 | |
Dumont et al. | Robustness of rotation-equivariant networks to adversarial perturbations | |
Zhang | Deep generative model for multi-class imbalanced learning | |
CN110163369A (zh) | 图像识别与神经网络模型的训练方法、装置和系统 | |
Zhu et al. | Object reidentification via joint quadruple decorrelation directional deep networks in smart transportation | |
CN112200147A (zh) | 一种人脸识别方法、装置、计算机设备以及可存储介质 | |
Puri et al. | Few shot learning for point cloud data using model agnostic meta learning | |
Huttunen | Deep neural networks: A signal processing perspective | |
Sadek et al. | Human action recognition via affine moment invariants | |
WO2021011062A1 (en) | System and method for continual learning using experience replay | |
Xu et al. | Multi‐pyramid image spatial structure based on coarse‐to‐fine pyramid and scale space | |
Rahimpour et al. | Class-discriminative feature embedding for meta-learning based few-shot classification | |
Sahbi et al. | Active learning for interactive satellite image change detection | |
Wang et al. | An empirical study: ELM in face matching | |
Ran et al. | Learning optimal inter-class margin adaptively for few-shot class-incremental learning via neural collapse-based meta-learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |