CN116935471A - 一种基于双字典学习的人脸识别方法、装置、芯片及终端 - Google Patents
一种基于双字典学习的人脸识别方法、装置、芯片及终端 Download PDFInfo
- Publication number
- CN116935471A CN116935471A CN202310911342.8A CN202310911342A CN116935471A CN 116935471 A CN116935471 A CN 116935471A CN 202310911342 A CN202310911342 A CN 202310911342A CN 116935471 A CN116935471 A CN 116935471A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- specific
- training
- feature
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 108
- 239000011159 matrix material Substances 0.000 claims abstract description 91
- 230000009977 dual effect Effects 0.000 claims abstract description 16
- 238000005457 optimization Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000354 decomposition reaction Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种基于双字典学习的人脸识别方法、装置、芯片及终端,通过低秩约束将训练图像分解为特定于类部分、非特定于类部分和噪声部分,并基于所述特定于类部分训练生成特定字典,基于所述非特定于类部分训练生成非特定字典,基于所述噪声部分训练生成误差矩阵,初始化所述特定字典和所述非特定字典,基于交替优化训练,获得学习完毕的第n+1非特定字典及其密集系数和误差矩阵和第k+1特定字典,基于所述平凡特征字典、所述关键特征字典以及基于所述平凡特征字典的误差矩阵构成所述双字典学习模型,使用改进的双字典学习模型处理待识别图像,在待识别图像被遮挡或腐蚀的情况下,也能提高识别准确率。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种基于双字典学习的人脸识别方法、装置、芯片及存储介质。
背景技术
人脸识别,即识别图像中的人脸,根据人脸信息库获取人物的身份信息,进而对检测到的人脸进行脸部的一系列相关技术。在人脸识别领域中,通常使用深度学习实现人脸识别,但是当样本数量过少并且类别存在较大差异时,深度学习的效果便不尽人意,一旦样本存在污染,例如人脸被腐蚀、遮挡的情况下,现有的人脸识别方法准确率将严重下降。
发明内容
基于此,本发明提供一种基于双字典学习的人脸识别方法、装置、芯片及存储介质,通过改进的双字典学习模型,在待识别图像被遮挡或腐蚀的情况下,也能提高识别准确率。
第一方面,提供一种基于双字典学习的人脸识别方法,其特征在于,包括:
获取待识别图像;
将所述待识别图像输入双字典学习模型获取人脸信息;
所述双字典学习模型的训练包括:
通过低秩约束将训练图像分解为特定于类部分、非特定于类部分和噪声部分,并基于所述特定于类部分训练生成特定字典,基于所述非特定于类部分训练生成非特定字典,基于所述噪声部分训练生成误差矩阵;
初始化所述特定字典和所述非特定字典;
交替优化训练第n非特定字典,获得学习完毕的第n+1非特定字典及其密集系数和误差矩阵,n=1,2,3...,N;通过所述第n+1非特定字典及其密集系数和误差矩阵,交替优化训练第k特定字典,获得第k+1特定字典,k=1,2,3,...,K;
其中,n等于1时k等于1,第一非特定字典为初始化后的非特定字典,第一特定字典为初始化后的特定字典;第n非特定字典和第n特定字典中的原子分为特征矩阵和权重矩阵,所述特征矩阵包括特征子矩阵和权重子矩阵;交替优化训练第n非特定字典时,通过约束项选择密集系数;交替优化训练第k特定字典时,通过约束项选择稀疏系数;
当n和k达到预设数值时,将所述第n+1非特定字典作为平凡特征字典,对所述第k+1特定字典进行具有识别力的重建误差后获得关键特征字典;
所述平凡特征字典、所述关键特征字典以及基于所述平凡特征字典的误差矩阵构成所述双字典学习模型,基于所述平凡特征字典的误差矩阵用于将捕捉的类特征信息转移到所述关键特征字典中。
可选地,所述训练图像为已分类的人脸图像,将所有训练图像通过矩阵表示。
可选地,所述初始化所述特定字典和所述非特定字典,包括:
通过奇异值分解处理所述特定字典和所述非特定字典,并获取所述特定字典的奇异值分解结果中的最大奇异值,以所述最大奇异值表示所述特定字典;
所述非特定字典表示为所述训练图像与以最大奇异值表示的特定字典之差。
可选地,交替优化训练第n非特定字典时,以F范数作为约束项选择密集系数。
可选地,通过所述第n+1非特定字典及其密集系数和误差矩阵,交替优化训练第k特定字典之前,包括:
重置基于所述第n+1非特定字典的误差矩阵中的权重系数
可选地,对所述第k+1特定字典进行具有识别力的重建误差,包括:
对所述第k+1特定字典添加非相关类干扰约束和不相关性约束。
可选地,所述预设数值为2或者3。
第二方面,提供一种基于字典学习的人脸识别装置,包括:
图像获取模块,用于获取待识别图像;
人脸识别模块,用于将所述待识别图像输入双字典学习模型获取人脸信息;
其中,所述双字典学习模型的训练包括:
通过低秩约束将训练图像分解为特定于类部分、非特定于类部分和噪声部分,并基于所述特定于类部分训练生成特定字典,基于所述非特定于类部分训练生成非特定字典,基于所述噪声部分训练生成误差矩阵;
初始化所述特定字典和所述非特定字典;
交替优化训练第n非特定字典,获得学习完毕的第n+1非特定字典及其密集系数和误差矩阵,n=1,2,3...,N;通过所述第n+1非特定字典及其密集系数和误差矩阵,交替优化训练第k特定字典,获得第k+1特定字典,k=1,2,3,...,K;
其中,n等于1时k等于1,第一非特定字典为初始化后的非特定字典,第一特定字典为初始化后的特定字典;第n非特定字典和第n特定字典中的原子分为特征矩阵和权重矩阵,所述特征矩阵包括特征子矩阵和权重子矩阵;交替优化训练第n非特定字典时,通过约束项选择密集系数;交替优化训练第k特定字典时,通过约束项选择稀疏系数;
当n和k达到预设数值时,将所述第n+1非特定字典作为平凡特征字典,对所述第k+1特定字典进行具有识别力的重建误差后获得关键特征字典;
所述平凡特征字典、所述关键特征字典以及基于所述平凡特征字典的误差矩阵构成所述双字典学习模型,基于所述平凡特征字典的误差矩阵用于将捕捉的类特征信息转移到所述关键特征字典中。
第三方面,提供一种芯片,包括处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如权利要求1至7任一项所述的基于字典学习的人脸识别方法的各个步骤。
第四方面,提供一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现如上介绍的基于字典学习的人脸识别方法的各个步骤。
上述人脸识别方法、装置、芯片及存储介质,使用改进的双字典学习模型处理待识别图像,在待识别图像被遮挡或腐蚀的情况下,也能提高识别准确率。其中,双字典学习模型以基于稀疏编码的双字典字典模型重建还原待识别图像,即通过平凡特征字典和关键特征字典两个字典联合表示待识别图像,实现稀疏密集混合表示,基于类间的独立性以及类内的依赖性,将关键特征字典限制为捕获类特定信息,将平凡特征字典限制为捕获非类特定信息,从而重建还原待识别图像时,平凡特征字典的密集特征和关键特征字典的稀疏特征共同参与分类结果的判断,使得还原图像与待识别图像中的类成员关系更加吻合,提高双字典学习模型的人脸识别准确率。并且,对于平凡特征字典和关键特征字典,放宽了关键特征字典的稀疏特征约束,同时通过基于平凡特征字典的误差矩阵用于将捕捉的类特征信息转移到关键特征字典中,使得双字典学习模型能够更充分的学习到类特征信息,因此,本发明实施例对于训练图像的正确性要求较低,训练图像并不限制为完全未污染的训练样本,进而待识别图像也可以为被遮挡或腐蚀的图像,并不影响本发明实施例提供的人脸识别方法的识别准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于字典学习的人脸识别方法的基本流程示意图;
图2为本发明实施例双字典学习模型的训练步骤示意图;
图3为本发明实施例对训练图像进行分解的分解结果示意图;
图4为本发明实施例基于字典学习的人脸识别装置的基本结构框图;
图5为本发明实施例提供的一种终端的基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(AI:Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
具体地请参阅图1,图1为本实施例人脸表情识别方法的基本流程示意图。
如图1所示,一种基于双字典学习的人脸识别方法,包括但不限如下步骤:
S101、获取待识别图像。
S102、将所述待识别图像输入双字典学习模型获取人脸信息。
需要说明的是,本发明实施例中所使用的双字典学习模型为基于稀疏编码理论的双字典模型。
在具体应用中,双字典学习模型获取人脸信息的原理为,通过稀疏编码理论,将待识别图像基于平凡特征字典和关键特征字典进行重建,获取对应的稀疏系数,进而还原待识别图像,再根据还原图像与待识别图像的残差来确定待识别图像在人脸信息库中所属的类别,输出待识别图像的人脸信息。
本发明实施例提供的双字典学习模型,使用平凡特征字典和关键特征字典两个字典联合表示待识别图像,能够更充分的学习到类特征信息,包括被污染的待识别图像中的类特征信息。如图2所示,本发明实施例还给出了双字典学习模型的训练步骤,包括:
S1、通过低秩约束将训练图像分解为特定于类部分、非特定于类部分和噪声部分,并基于所述特定于类部分训练生成特定字典,基于所述非特定于类部分训练生成非特定字典,基于所述噪声部分训练生成误差矩阵。
在上述步骤S1中,训练图像为已分类的人脸图像,示例性的,将所有训练图像通过矩阵表示,为:
D=[D1,D2,...,Di,...,DN]=[d11,d12,...,dij,...,dnk];
其中,DN表示具有相同人脸类型的训练图像,N表示所有训练图像中的人脸类型总数,di表示训练图像中的一列,i表示di列数据所属的人脸类型,j代表示di列数据在所有的人脸类型为i的数据中的位置。
在具体应用中,特定于类部分和非特定于类部分具有类间的独立性;特定于类部分和特定于类部分、非特定于类部分和非特定于类部分具有类内的依赖性。因此,上述步骤S1将已分类的人脸图像作为训练图像,并分别生成非特定字典和特定字典,而误差矩阵表示具有随机稀疏噪声或图像损坏的部分,最终转移到特定字典中。
如图3所示,本发明实施例还示出了对训练图像进行分解的分解结果示意图,原始的训练图像被分解为特定于类部分a、非特定于类部分b和噪声部分c。
S2、初始化所述特定字典和所述非特定字典。
在本发明实施例中,由于使用低秩约束将训练图像分解,因此,特定字典和非特定字典更新优化之前需要做同样的分解,以完成上述步骤S2的初始化步骤。
在一个实施例中,初始化所述特定字典和所述非特定字典,包括:
通过奇异值分解处理所述特定字典和所述非特定字典,并获取所述特定字典的奇异值分解结果中的最大奇异值,以所述最大奇异值表示所述特定字典;
所述非特定字典表示为所述训练图像与以最大奇异值表示的特定字典之差。
根据上述的矩阵表示的训练图像,应用奇异值分解,初始化非特定字典和特定字典后,可以获得以最大奇异值表示的特定字典,也即初始化后的特定字典为Ai=Ui(;,1)∑i(1,1)Vi(;,1)T,最终表示的非特定字典,也即初始化后的非特定字典为:B=D–A。
在具体应用中,上述的初始化步骤可以确保训练图像在整个初始化过程中没有任何的信息损失。
S3、交替优化训练第n非特定字典,获得学习完毕的第n+1非特定字典及其密集系数和误差矩阵,n=1,2,3...,N;通过所述第n+1非特定字典及其密集系数和误差矩阵,交替优化训练第k特定字典,获得第k+1特定字典,k=1,2,3,...,K;
其中,n等于1时k等于1,第一非特定字典为初始化后的非特定字典,第一特定字典为初始化后的特定字典;第n非特定字典和第n特定字典中的原子分为特征矩阵和权重矩阵,所述特征矩阵包括特征子矩阵和权重子矩阵;交替优化训练第n非特定字典时,通过约束项选择密集系数;交替优化训练第k特定字典时,通过约束项选择稀疏系数。
需要说明的是,在理想情况下,训练图像D应该是满秩的,但由于其中可能存在冗余信息与噪声腐蚀,真正的训练图像D应该是一个低秩字典。因此,本发明实施例使用低秩约束将训练图像分解,但同时,为保证非特定字典不丢失过多的信息,保持其密集性,交替优化训练第n非特定字典时,以F范数作为约束项选择密集系数。与之对应的是,为了保证特定字典的稀疏性,以10范数作为约束项选择稀疏系数。
示例性的,对于第n非特定字典和第n特定字典,设X为字典的其中一项,将它分解为特征矩阵Z1和权重矩阵D1两个矩阵,首先训练学习出第一层特征,表示为:
X=D1*Z1;
然后对特征矩阵Z1进行分解,求解特征子矩阵Z2和权重子矩阵D,表示为:
Z1=D2*Z2;
因此,在每一层字典学习的时候,本发明实施例可以通过添加约束项,选择密集系数或者是稀疏系数,如上所述,交替优化训练第n非特定字典时,通过约束项选择密集系数;交替优化训练第k特定字典时,通过约束项选择稀疏系数。
需要说明的是,迭代交替进行2至3次时,特定字典早巳包含大多数的类特征信息,在下一次的交替优化训练之前,需要将误差矩阵e所对应的权重置为一个较小的系数,以保证误差矩阵e能够捕获残余的类特征信息。因此,通过所述第n+1非特定字典及其密集系数和误差矩阵,交替优化训练第k特定字典之前,包括:
重置基于所述第n+1非特定字典的误差矩阵中的权重系数。
在上述步骤S3中,交替优化训练方式实际为交替的固定一个变量,优化其他的变量,示例性的,对于非特定字典的交替优化训练,以第一非特定字典为初始化后的非特定字典,也为交替优化训练中的初值,其交替优化训练过程如下:
输入:训练图像D,第k特定字典A以及,参数λ,γ,惩罚系数μ。
初始化:B=J=D-A,e=0,α=I,x=I,Y1=0,Y2=0,μ=10-6,μmax=106,ρ=1.2,ε=10-4。
输出:第n+1非特定字典B,第n+1非特定字典B的密集系数X,基于第n+1非特定字典B的误差矩阵e。
交替优化训练过程:
步骤111、固定其他参数,通过下述公式更新J:
步骤112、固定其它参数,通过下述公式更新B:
步骤113、固定其他参数,通过下述公式更新X:
步骤114、固定其他参数,通过如下的最小化公式更新e:
步骤115、通过下述公式更新拉格朗日乘子:
Y1=Y1+μ(D-Aα-Bx-e)Y2=Y2+μ(B-J);
步骤116、通过下述公式更新μ:
μ=min(μmax,ρμ);
步骤117、检查是否达到收敛条件,否则执行步骤111:
其中,参数λ,γ的大小将影响整体求解的稀疏性,初始化的ρε的目的也是为了保证结果的稀疏性,Y1,Y2为拉格朗日乘子,μ为对应的惩罚系数。输出的是已经完成学习的第n+1非特征字典及其对应的密集系数X,e为误差矩阵。
其中,第一步的求解可以通过奇异值阈值算法进,第四步的求解可以通过软阈值算法进行。
由于非特定字典表示为训练图像与以最大奇异值表示的特定字典之差,因此,非特定字典包含了所有非类特定的信息和除特定字典所包括之外的剩余的类特征信息,且在实际应用中,绝大多数的非特定字典都远大于特定字典。因此,本发明实施例对于特定字典的交替优化训练,建立在前一次训练完成的非特定字典及差异矩阵上,从而将剩余的类特征信息转移到特定字典中,详细地说,是基于所述平凡特征字典的误差矩阵将捕捉的类特征信息转移到所述关键特征字典中,以使最终的关键特征字典充分的学习到类特征信息。
示例性的,对于特定字典的交替优化训练,以第一特定字典为初始化后的特定字典,也为交替优化训练中的初值,其交替优化训练过程如下:
输入:A,B,X,e以及参数η,γ
初始化:Y1=0,Y2=0,μ=10-6,μmax=106,ρ=1.2,ε=10-4
输出:A,α
交替优化训练过程:
步骤131、固定其他参数,通过下述公式更新A:
A=(μ(D-Bx-e)αT+Y1αT-Y2+μB)*(μααT+μI)-1;
步骤132、固定其它参数,通过下述最小化公式更新P:
步骤133、固定其他参数,通过下述最小化公式更新α:
步骤134、固定其他参数,通过如下的最小化公式更新e:
步骤135、通过下述公式更新拉格朗日乘子:
Y1=Y1+μ(D-Aα-Bx-e)Y2=Y2+μ(A-P);
步骤136、通过下述公式更新μ:
μ=min(μmax,ρμ);
步骤137、检查是否达到收敛条件,否则执行步骤131:
其中,参数η,γ的大小将影响整体求解的稀疏性,初始化的ρε的目的也是为了保证结果的稀疏性,Y1,Y2为拉格朗日乘子,μ为对应的惩罚系数。输入的A,B,X,e均为第n+1非特定字典交替优化训练后的输出结果,输出的A为第n+1特定字典,α为第n+1特定字典所对应的稀疏系数。
其中,第二步可以通过奇异值阈值算法进行,第四步可以通过软阈值算法进行。
S4、当n和k达到预设数值时,将所述第n+1非特定字典作为平凡特征字典,对所述第k+1特定字典进行具有识别力的重建误差后获得关键特征字典。
在本发明实施例中,n和k数值的增长表示上述步骤S3中非特定字典和特定字典的迭代交替,在一个实施例中,预设数值为2或者3。也即,上述迭代交替进行2至3次,所获得的特定字典具有较好的性能,能够学习到充分的类特征信息。
在具体应用中,虽然上述步骤S4中的第k+1特定字典已经捕获了几乎所有的类特征信息,但是其还缺乏区分性,因此需要对第k+1特定字典进行进一步的训练,即具有识别力的重建误差。
在一个实施例中,对所述第k+1特定字典进行具有识别力的重建误差,包括:
对所述第k+1特定字典添加非相关类干扰约束和不相关性约束。
其中,为了使特定字典的稀疏系数尽可能集中在相关类的系数中,避免非相关类的干扰,本发明实施例增加了项的约束。为了增加类之间的不相关性,则添加垂直约束/>根据以上约束,最终具有识别力的重构误差表示为:
示例性的,重建误差的过程为:
输入:训练图像D,第k+1特定字典A
初始化:Y1=0,Y2=0,μ=10-6,μmax=106,ρ=1.2,e=10-4
输出:关键特征字典A
重建误差过程:
步骤S141、固定其他参数,通过下述公式更新A:
上述矩阵为XA+BX=C这种经典行驶,可以通过xx高效求解。
步骤S142、固定其它参数,通过下述最小化公式更新
步骤S143、固定其他参数,通过下述最小化公式更新
步骤S144、固定其他参数,通过如下的最小化公式更新J:
步骤S145、固定其他参数,通过如下的最小化公式更新E:
步骤S146、更新拉格朗日乘子:
步骤S147、通过如下公式更新μ:
μ=min(μmax,ρμ);
步骤S148、检查是否达到收敛条件,否则执行步骤S141:
S5、所述平凡特征字典、所述关键特征字典以及基于所述平凡特征字典的误差矩阵构成所述双字典学习模型,基于所述平凡特征字典的误差矩阵用于将捕捉的类特征信息转移到所述关键特征字典中。
基于上述步骤S1至步骤S5,本发明实施例提供的双字典学习模型以基于稀疏编码的双字典字典模型重建还原待识别图像,即通过平凡特征字典和关键特征字典两个字典联合表示待识别图像,实现稀疏密集混合表示,基于类间的独立性以及类内的依赖性,将关键特征字典限制为捕获类特定信息,将平凡特征字典限制为捕获非类特定信息,从而重建还原待识别图像时,平凡特征字典的稀疏特征和关键特征字典的稀疏特征共同参与分类结果的判断,使得还原图像与待识别图像中的类成员关系更加吻合,提高双字典学习模型的人脸识别准确率。并且,对于平凡特征字典和关键特征字典,放宽了关键特征字典的稀疏特征约束,同时通过基于平凡特征字典的误差矩阵用于将捕捉的类特征信息转移到关键特征字典中,使得双字典学习模型能够更充分的学习到类特征信息,因此,本发明实施例对于训练图像的正确性要求较低,训练图像并不限制为完全未污染的训练样本,进而,本发明实施例所提供的基于字典学习的人脸识别方法,待识别图像也可以为被遮挡或腐蚀的图像,并不影响本发明实施例提供的人脸识别方法的识别准确率。
为解决上述技术问题,本发明实施例还提供一种基于字典学习的人脸识别装置。具体请参阅图4,图4为本实施例中基于字典学习的人脸识别装置的基本结构框图,包括:
图像获取模块41,用于获取待识别图像;
人脸识别模块42,用于将所述待识别图像输入双字典学习模型获取人脸信息;
其中,所述双字典学习模型的训练包括:
通过低秩约束将训练图像分解为特定于类部分、非特定于类部分和噪声部分,并基于所述特定于类部分训练生成特定字典,基于所述非特定于类部分训练生成非特定字典,基于所述噪声部分训练生成误差矩阵;
初始化所述特定字典和所述非特定字典;
交替优化训练第n非特定字典,获得学习完毕的第n+1非特定字典及其密集系数和误差矩阵,n=1,2,3...,N;通过所述第n+1非特定字典及其密集系数和误差矩阵,交替优化训练第k特定字典,获得第k+1特定字典,k=1,2,3,...,K;
其中,n等于1时k等于1,第一非特定字典为初始化后的非特定字典,第一特定字典为初始化后的特定字典;第n非特定字典和第n特定字典中的原子分为特征矩阵和权重矩阵,所述特征矩阵包括特征子矩阵和权重子矩阵;交替优化训练第n非特定字典时,通过约束项选择密集系数;交替优化训练第k特定字典时,通过约束项选择稀疏系数;
当n和k达到预设数值时,将所述第n+1非特定字典作为平凡特征字典,对所述第k+1特定字典进行具有识别力的重建误差后获得关键特征字典;
所述平凡特征字典、所述关键特征字典以及基于所述平凡特征字典的误差矩阵构成所述双字典学习模型,基于所述平凡特征字典的误差矩阵用于将捕捉的类特征信息转移到所述关键特征字典中。
为解决上述技术问题,本发明实施例还提供一种芯片,该芯片可以为通用处理器,也可以为专用处理器。该芯片包括处理器,处理器用于支持终端执行上述相关步骤,例如从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行,以实现上述各个实施例中的基于字典学习的人脸识别方法。
可选的在一些示例下,该芯片还包括收发器,收发器用于接受处理器的控制,用于支持终端执行上述相关步骤,以实现上述各个实施例中的基于字典学习的人脸识别方法。
可选的,该芯片还可以包括存储介质。
需要说明的是,该芯片可以使用下述电路或者器件来实现:一个或多个现场可编程门阵列(field programmable gate array,FPGA)、可编程逻辑器件(programmablelogicdevice,PLD)、控制器、状态机、门逻辑、分立硬件部件、任何其他适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。
本发明还提供一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现如上介绍的基于字典学习的人脸识别方法的步骤。
具体请参阅图5,图5为示出的一种终端的基本结构框图,该终端包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该终端的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种基于双字典学习的人脸识别方法。该终端的处理器用于提供计算和控制能力,支撑整个终端的运行。该终端的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种基于双字典学习的人脸识别方法。该终端的网络接口用于与终端连接通信。本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的电子设备。这种电子设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal DigitalAssistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile InternetDevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述基于字典学习的人脸识别方法的步骤。
本实施例还提供了一种计算机程序,该计算机程序可以分布在计算机可读介质上,由可计算装置来执行,以实现上述介绍的基于字典学习的人脸识别方法的至少一个步骤;并且在某些情况下,可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。
本实施例还提供了一种计算机程序产品,包括计算机可读装置,该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于双字典学习的人脸识别方法,其特征在于,包括:
获取待识别图像;
将所述待识别图像输入双字典学习模型获取人脸信息;
所述双字典学习模型的训练包括:
通过低秩约束将训练图像分解为特定于类部分、非特定于类部分和噪声部分,并基于所述特定于类部分训练生成特定字典,基于所述非特定于类部分训练生成非特定字典,基于所述噪声部分训练生成误差矩阵;
初始化所述特定字典和所述非特定字典;
交替优化训练第n非特定字典,获得学习完毕的第n+1非特定字典及其密集系数和误差矩阵,n=1,2,3...,N;通过所述第n+1非特定字典及其密集系数和误差矩阵,交替优化训练第k特定字典,获得第k+1特定字典,k=1,2,3,...,K;
其中,n等于1时k等于1,第一非特定字典为初始化后的非特定字典,第一特定字典为初始化后的特定字典;第n非特定字典和第n特定字典中的原子分为特征矩阵和权重矩阵,所述特征矩阵包括特征子矩阵和权重子矩阵;交替优化训练第n非特定字典时,通过约束项选择密集系数;交替优化训练第k特定字典时,通过约束项选择稀疏系数;
当n和k达到预设数值时,将所述第n+1非特定字典作为平凡特征字典,对所述第k+1特定字典进行具有识别力的重建误差后获得关键特征字典;
所述平凡特征字典、所述关键特征字典以及基于所述平凡特征字典的误差矩阵构成所述双字典学习模型,基于所述平凡特征字典的误差矩阵用于将捕捉的类特征信息转移到所述关键特征字典中。
2.如权利要求1所述的基于字典学习的人脸识别方法,其特征在于,所述训练图像为已分类的人脸图像,将所有训练图像通过矩阵表示,为:
D=[D1,D2,...,Di,...,DN]=[d11,d12,...,dij,...,dnk];
其中,DN表示具有相同人脸类型的训练图像,N表示所有训练图像中的人脸类型总数,di表示训练图像中的一列,i表示di列数据所属的人脸类型,j代表示di列数据在所有的人脸类型为i的数据中的位置。
3.如权利要求1所述的基于字典学习的人脸识别方法,其特征在于,所述初始化所述特定字典和所述非特定字典,包括:
通过奇异值分解处理所述特定字典和所述非特定字典,并获取所述特定字典的奇异值分解结果中的最大奇异值,以所述最大奇异值表示所述特定字典;
所述非特定字典表示为所述训练图像与以最大奇异值表示的特定字典之差。
4.如权利要求1所述的基于字典学习的人脸识别方法,其特征在于,交替优化训练第n非特定字典时,以F范数作为约束项选择密集系数;
所述通过所述第n+1非特定字典及其密集系数和误差矩阵,交替优化训练第k特定字典之前,包括:
重置基于所述第n+1非特定字典的误差矩阵中的权重系数。
5.如权利要求4所述的基于字典学习的人脸识别方法,其特征在于,所述非特定字典的交替优化训练过程包括:
初始化参数:B=J=D-A,e=0,α=I,x=I,Y1=0,Y2=0,μ=10-6,μmax=106,ρ=1.2,ε=10-4,后执行:
步骤S111、固定其他参数,通过下述公式更新J:
步骤S112、固定其它参数,通过下述公式更新B:
步骤S113、固定其他参数,通过下述公式更新X:
步骤S114、固定其他参数,通过如下的最小化公式更新e:
步骤S115、通过下述公式更新拉格朗日乘子:
Y1=Y1+μ(D-Aα-Bx-e)Y2=Y2+μ(B-J);
步骤S116、通过下述公式更新μ:
μ=min(μmax,ρμ);
步骤S117、检查是否达到收敛条件,否则执行步骤S111:
其中,Y1,Y2为拉格朗日乘子,μ为对应的惩罚系数,交替优化训练输出:第n+1非特定字典B,第n+1非特定字典B的密集系数X,基于第n+1非特定字典B的误差矩阵e。
6.如权利要求1所述的基于字典学习的人脸识别方法,其特征在于,对所述第k+1特定字典进行具有识别力的重建误差,包括:
对所述第k+1特定字典添加非相关类干扰约束和不相关性约束。
7.如权利要求1所述的基于字典学习的人脸识别方法,其特征在于,所述重建误差的过程为:
输入:训练图像D,第k+1特定字典A;
初始化:Y1=0,Y2=0,μ=10-6,μmax=106,ρ=1.2,e=10-4;
输出:关键特征字典A;
重建误差具体步骤如下:
步骤S141、固定其他参数,通过下述公式更新A:
步骤S142、固定其它参数,通过下述最小化公式更新
步骤S143、固定其他参数,通过下述最小化公式更新
步骤S144、固定其他参数,通过如下的最小化公式更新J:
步骤S145、固定其他参数,通过如下的最小化公式更新E:
步骤S146、更新拉格朗日乘子:
步骤S147、通过如下公式更新μ:
μ=min(μmax,ρμ);
步骤S148、检查是否达到收敛条件,否则执行步骤S141:
8.一种基于字典学习的人脸识别装置,其特征在于,包括:
图像获取模块,用于获取待识别图像;
人脸识别模块,用于将所述待识别图像输入双字典学习模型获取人脸信息;
其中,所述双字典学习模型的训练包括:
通过低秩约束将训练图像分解为特定于类部分、非特定于类部分和噪声部分,并基于所述特定于类部分训练生成特定字典,基于所述非特定于类部分训练生成非特定字典,基于所述噪声部分训练生成误差矩阵;
初始化所述特定字典和所述非特定字典;
交替优化训练第n非特定字典,获得学习完毕的第n+1非特定字典及其密集系数和误差矩阵,n=1,2,3...,N;通过所述第n+1非特定字典及其密集系数和误差矩阵,交替优化训练第k特定字典,获得第k+1特定字典,k=1,2,3,...,K;
其中,n等于1时k等于1,第一非特定字典为初始化后的非特定字典,第一特定字典为初始化后的特定字典;第n非特定字典和第n特定字典中的原子分为特征矩阵和权重矩阵,所述特征矩阵包括特征子矩阵和权重子矩阵;交替优化训练第n非特定字典时,通过约束项选择密集系数;交替优化训练第k特定字典时,通过约束项选择稀疏系数;
当n和k达到预设数值时,将所述第n+1非特定字典作为平凡特征字典,对所述第k+1特定字典进行具有识别力的重建误差后获得关键特征字典;
所述平凡特征字典、所述关键特征字典以及基于所述平凡特征字典的误差矩阵构成所述双字典学习模型,基于所述平凡特征字典的误差矩阵用于将捕捉的类特征信息转移到所述关键特征字典中。
9.一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如权利要求1至7任一项所述的基于字典学习的人脸识别方法的各个步骤。
10.一种终端,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于字典学习的人脸识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310911342.8A CN116935471A (zh) | 2023-07-24 | 2023-07-24 | 一种基于双字典学习的人脸识别方法、装置、芯片及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310911342.8A CN116935471A (zh) | 2023-07-24 | 2023-07-24 | 一种基于双字典学习的人脸识别方法、装置、芯片及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116935471A true CN116935471A (zh) | 2023-10-24 |
Family
ID=88390554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310911342.8A Pending CN116935471A (zh) | 2023-07-24 | 2023-07-24 | 一种基于双字典学习的人脸识别方法、装置、芯片及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116935471A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105844223A (zh) * | 2016-03-18 | 2016-08-10 | 常州大学 | 一种类别特色字典和共享字典学习的人脸表示算法 |
CN107194378A (zh) * | 2017-06-28 | 2017-09-22 | 深圳大学 | 一种基于混合字典学习的人脸识别方法及装置 |
CN109711283A (zh) * | 2018-12-10 | 2019-05-03 | 广东工业大学 | 一种联合双字典和误差矩阵的遮挡表情识别算法 |
CN109886149A (zh) * | 2019-01-29 | 2019-06-14 | 中国人民解放军空军预警学院 | 一种基于稀疏表示的双字典和多特征融合决策人脸表情识别方法 |
CN111079715A (zh) * | 2020-01-02 | 2020-04-28 | 华南理工大学 | 一种基于双字典学习的遮挡鲁棒性人脸对齐方法 |
-
2023
- 2023-07-24 CN CN202310911342.8A patent/CN116935471A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105844223A (zh) * | 2016-03-18 | 2016-08-10 | 常州大学 | 一种类别特色字典和共享字典学习的人脸表示算法 |
CN107194378A (zh) * | 2017-06-28 | 2017-09-22 | 深圳大学 | 一种基于混合字典学习的人脸识别方法及装置 |
CN109711283A (zh) * | 2018-12-10 | 2019-05-03 | 广东工业大学 | 一种联合双字典和误差矩阵的遮挡表情识别算法 |
CN109886149A (zh) * | 2019-01-29 | 2019-06-14 | 中国人民解放军空军预警学院 | 一种基于稀疏表示的双字典和多特征融合决策人脸表情识别方法 |
CN111079715A (zh) * | 2020-01-02 | 2020-04-28 | 华南理工大学 | 一种基于双字典学习的遮挡鲁棒性人脸对齐方法 |
Non-Patent Citations (3)
Title |
---|
ALI MOEINI ET AL: "Facial expression recognition using dual dictionary learning", 《J. VIS. COMMUN. IMAGE R.》 * |
YU DU ET AL: "Class Specific Dictionary Learning with the Independence Between-class and Dependence Intra-class Coefficient’s Constraint", 《JOURNAL OF PHYSICS: CONFERENCE SERIES》 * |
杜宇: "基于稀疏编码理论的字典学习及人脸识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 43 - 60 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11875268B2 (en) | Object recognition with reduced neural network weight precision | |
US11494589B2 (en) | Systems and methods for unifying statistical models for different data modalities | |
US11544539B2 (en) | Hardware neural network conversion method, computing device, compiling method and neural network software and hardware collaboration system | |
Frey | Graphical models for machine learning and digital communication | |
Li et al. | A deep adversarial learning methodology for designing microstructural material systems | |
DeVries et al. | Enabling large‐scale viscoelastic calculations via neural network acceleration | |
CN108563782B (zh) | 商品信息格式处理方法、装置、计算机设备和存储介质 | |
Snoek et al. | Nonparametric guidance of autoencoder representations using label information | |
US20170293838A1 (en) | Deep high-order exemplar learning for hashing and fast information retrieval | |
Zheng et al. | Training data reduction in deep neural networks with partial mutual information based feature selection and correlation matching based active learning | |
CN111709493A (zh) | 对象分类方法、训练方法、装置、设备及存储介质 | |
US20230419075A1 (en) | Automated Variational Inference using Stochastic Models with Irregular Beliefs | |
CN112990454A (zh) | 基于集成dpu多核异构的神经网络计算加速方法及装置 | |
Peng et al. | Sparse kernel learning-based feature selection for anomaly detection | |
Stevenson et al. | Self-supervised machine learning based approach to orbit modelling applied to space traffic management | |
Dai et al. | Deep Learning Model Compression With Rank Reduction in Tensor Decomposition | |
Ling et al. | TaiJiNet: Towards partial binarized convolutional neural network for embedded systems | |
CN116935471A (zh) | 一种基于双字典学习的人脸识别方法、装置、芯片及终端 | |
Starzyk et al. | Software simulation of a self-organizing learning array system | |
KR102555027B1 (ko) | 시각화 오토인코더를 이용한 학습된 생성신경망의 잠재공간 조작 시스템 및 그 방법 | |
US20240152799A1 (en) | Generative graph modeling framework | |
Konstantinidis et al. | Bayesian Tensor Networks with Structured Posteriors | |
Hess | Advancing Neural Networks Towards Realistic Settings Using Few-Shot | |
Sánchez-Marono et al. | Self-organizing maps and functional networks for local dynamic modeling. | |
WO2023249068A1 (en) | Automated variational inference using stochastic models with irregular beliefs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |