CN112541502A - 一种图像处理方法、装置及计算机存储介质和电子设备 - Google Patents
一种图像处理方法、装置及计算机存储介质和电子设备 Download PDFInfo
- Publication number
- CN112541502A CN112541502A CN202011259035.9A CN202011259035A CN112541502A CN 112541502 A CN112541502 A CN 112541502A CN 202011259035 A CN202011259035 A CN 202011259035A CN 112541502 A CN112541502 A CN 112541502A
- Authority
- CN
- China
- Prior art keywords
- matrix
- target
- character image
- character
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Abstract
本发明公开了一种图像处理方法、装置及计算机存储介质和电子设备,方法包括:构建字符图像训练集和字符图像测试集;利用目标矩阵分解函数训练所述字符图像训练集,得到对应目标矩阵,所述目标矩阵至少包括目标基矩阵和目标系数矩阵;至少根据所述目标基矩阵计算对应于所述字符图像测试集的系数向量;根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果。本发明实施例所提供的图像处理方法、装置及计算机存储介质和电子设备能够有效解释字符图像中的隐藏语义和内在几何结构,使特征表达更具有表达力,大大提高了字符图像的识别效果。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像处理方法、装置及计算机存储介质和电子设备。
背景技术
笔记本表面贴附的标签种类较多,且样式比较相似,单纯对整个标签采用机器学习进行识别的方法,很难保证准确率。通过识别标签上的字符,可以有效对标签进行识别,而在图像识别领域中,挖掘高维图像数据内部潜在的结构特征是提高图像识别精度和减少图像识别复杂度的关键步骤。
非负矩阵分解(NMF,Nonnegative Matrix Factorization)将原始非负数据矩阵分解成两个非负矩阵(基矩阵和系数矩阵)的乘积,分解结果不含负值,具有明确的物理意义和可解释性,相对稀疏的表达方式在一定程度上抑制了外界环境给特征提取带来的不利影响,具有智能数据描述的特性,成功应用于模式识别、计算机视觉等多个领域。但这种矩阵分解方法特征描述的稀疏程度不理想,特征还不具备较强的代表性和通用性,且运算过程中容易陷入局部最优问题。因此,如何提高字符图像特征提取的准确率,进而提高字符图像识别效果成为当前亟待解决的技术问题。
发明内容
本发明实施例为了有效克服现有技术所存在的上述缺陷,创造性地提供一种图像处理方法,包括:构建字符图像训练集和字符图像测试集;利用目标矩阵分解函数训练所述字符图像训练集,得到对应目标矩阵,所述目标矩阵至少包括目标基矩阵和目标系数矩阵;至少根据所述目标基矩阵计算对应于所述字符图像测试集的系数向量;根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果。
在一可实施方式中,在利用目标矩阵分解函数训练所述字符图像训练集之前,所述方法还包括:对非平滑非负矩阵分解函数添加稀疏约束条件,得到目标矩阵分解函数。
在一可实施方式中,在所述非平滑非负矩阵分解函数上添加1-范数约束条件和/或2-范数约束条件,得到目标矩阵分解函数。
在一可实施方式中,至少根据所述目标基矩阵计算对应于所述字符图像测试集中每一个字符图像测试样本的系数向量;所述根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果包括:将所述系数向量与所述目标系数矩阵中的每一列数据进行分类计算,得到分类计算结果,所述列数据对应于所述字符图像训练集中的字符图像训练样本;将所述分类计算结果中满足第一条件的所述系数向量所对应的字符图像测试样本和所述列数据所对应的字符图像训练样本确定为同一类别字符。
在一可实施方式中,所述目标矩阵还包括目标平滑矩阵;所述至少根据所述目标基矩阵计算对应于所述字符图像测试集的系数向量包括:获取对应于所述字符图像训练样本的第一向量数据;将所述第一向量数据对所述目标基矩阵和所述目标平滑矩阵进行映射,得到所述系数向量。
在一可实施方式中,所述方法还包括:将所述系数向量与所述目标系数矩阵中的每一列数据进行欧氏距离计算,得到分类计算结果。
本发明实施例另一方面提供一种图像处理装置,包括:构建模块,用于构建字符图像训练集和字符图像测试集;训练模块,用于利用目标矩阵分解函数训练所述字符图像训练集,得到对应目标矩阵,所述目标矩阵至少包括目标基矩阵和目标系数矩阵;计算模块,用于至少根据所述目标基矩阵计算对应于所述字符图像测试集的系数向量;分类模块,用于根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果。
在一可实施方式中,所述装置还包括:约束模块,用于对非平滑非负矩阵分解函数添加稀疏约束条件,得到目标矩阵分解函数。
在一可实施方式中,所述计算模块还用于至少根据所述目标基矩阵计算对应于所述字符图像测试集中每一个字符图像测试样本的系数向量;所述分类模块包括:分类单元,用于将所述系数向量与所述目标系数矩阵中的每一列数据进行分类计算,得到分类计算结果,所述列数据对应于所述字符图像训练集中的字符图像训练样本;确定单元,用于将所述分类计算结果中满足第一条件的所述系数向量所对应的字符图像测试样本和所述列数据所对应的字符图像训练样本确定为同一类别字符。
本发明实施例另一方面提供一种计算机可读存储介质,所述计算机存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行上述中任一项所述的图像处理方法。
本发明实施例另一方面提供一种电子设备,包括存储器和处理器,所述存储器中储存有计算机程序指令,所述指令由所述处理器加载并执行以实现上述中任一项所述的图像处理方法。
本发明实施例所提供的图像处理方法、装置及计算机存储介质和电子设备克服了现有方法中对字符图像提取特征的稀疏程度有限,在处理字符图像识别问题时,不能正确描述数据内部的结构特征,提取的特征不准确造成图像识别率不高的问题,有效解释字符图像中的隐藏语义和内在几何结构,使特征表达更具有表达力,大大提高了字符图像的识别效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明一实施例所提供的一种图像处理方法的一种实现流程示意图;
图2为本发明一实施例所提供的一种图像处理方法的另一种实现流程示意图;
图3为本发明一实施例所提供的一种图像处理方法的又一种实现流程示意图;
图4为本发明一实施例所提供的一种图像处理装置的一种组成结构图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书中的一些方面相一致的方法、装置或设备的例子。
请参考图1,本发明实施例一方面提供一种图像处理方法,包括:
步骤101,构建字符图像训练集和字符图像测试集;
步骤102,利用目标矩阵分解函数训练字符图像训练集,得到对应目标矩阵,目标矩阵至少包括目标基矩阵和目标系数矩阵;
步骤103,至少根据目标基矩阵计算对应于字符图像测试集的系数向量;
步骤104,根据系数向量和目标系数矩阵对字符图像测试集进行字符分类,得到字符分类结果。
本发明实施例中,为提高字符图像特征提取的准确率,进而提高字符图像识别效果,先通过步骤101构建字符图像训练集和字符图像测试集,其中,字符图像至少包括A-Z、a-z、0-9共62种字符,还可以包括中文字符等其他字符,字符图像训练集中至少包含每种字符200张样本,字符图像测试集至少包含每种字符50张样本,通过对充足的样本进行分类训练能够提高字符分类的普适性和准确率。然后步骤102利用目标矩阵分解函数对字符图像训练集进行矩阵分解训练,目标矩阵分解函数具体可以通过在非平滑非负矩阵分解的函数上增加稀疏约束条件,如范数约束条件进行获取;利用添加了稀疏约束条件后的目标矩阵分解函数对字符图像训练集中的训练样本进行矩阵分解,能够得到稀疏度更高,也即数据表达能力更强的目标基矩阵和目标系数矩阵。步骤103中的系数向量具体可以通过将字符图像测试集中的字符图像测试样本数据在目标基矩阵上做投影得到;由于本发明实施例中的系数向量是根据特征描述稀疏度更高的目标基矩阵所计算得到的,因此步骤104中根据系数向量和目标系数矩阵对字符图像测试集进行字符分类所得到字符分类结果的相对误差能够有效减少,大大提高了字符图像的识别效果。
计算机视觉识别领域中涉及矩阵分解,也即将数据矩阵分解成两个矩阵的乘积来表达字符图像的隐藏语义和内在几何结构,其中,非负矩阵分解(NMF,Nonnegative MatrixFactorization)将原始非负数据矩阵分解成两个非负矩阵(基矩阵和系数矩阵)的乘积,分解结果不含负值,具有明确的物理意义和可解释性,相对稀疏的表达方式在一定程度上抑制了外界环境给特征提取带来的不利影响,具有智能数据描述的特性,成功应用于模式识别、计算机视觉等多个领域。在此基础上,非平滑非负矩阵分解(NSNMF,Non-smoothNonnegative Matrix Factorization)通过引入一个不变的平滑矩阵,同时控制分解矩阵的稀疏性,调和了分解结果稀疏性和数据描述力的矛盾,解决了NMF的零值问题,避免算法陷入局部最优问题。NMF可以无监督生成相对稀疏或局部化的特征,但特征描述的稀疏程度不理想,特征还不具备较强的代表性和通用性,且运算过程中容易陷入局部最优问题。NSNMF相对NMF方法,仅仅添加了参数在[0,1]区间的平滑因子约束,参数控制能力有限,稀疏值局限在一定范围内,制约了可应用性。由于NSNMF的提取特征的稀疏程度有限,在处理字符图像识别问题时,不能正确描述数据内部的结构特征,提取的特征不准确造成图像识别率不高。
而本发明实施例在非平滑非负矩阵分解方法基础之上,提出一种基于稀疏约束平滑非负矩阵分解方法(SSNMF,Smooth Nonnegative Matrix Factorization withSparseness Constraints),将矩阵V分解为基矩阵和系数矩阵之积,在一可实施方式中,在利用目标矩阵分解函数训练字符图像训练集之前,方法还包括:对非平滑非负矩阵分解函数添加稀疏约束条件,得到目标矩阵分解函数。通过在非平滑非负矩阵分解函数上给基矩阵和系数矩阵添加稀疏约束条件,如范数约束条件来使提取的特征更具有代表性,有效解释字符图像中的隐藏语义和内在几何结构,使特征表达更具有表达力,有效减小了分解误差,解决了高维数据特征提取时特征的稀疏性和表达力之间的矛盾。
在一具体实施例中,字符图像中包括A-Z、a-z、0-9共62种字符,字符图像训练集中包含每种字符200张样本,字符图像测试集包含每种字符50张样本,训练库中全部12400幅图像,本发明SSNMF和NSNMF方法取不同约束时得到的稀疏度和重构相对误差,稀疏度是描述用少数几个数据单元可以代表整个数据向量的刻度,也就是说数据向量的能量大多集中在少数几个单元上。一个向量的大多数元素都接近于零,只有少数几个元素是显著的非零值,这时向量的稀疏度就大。本发明实施例中向量的稀疏度用下式来度量:
其中,n为向量y的维数。若y中仅有一个元素非零,表示最稀疏的情况,sparse(y)为1;若y中所有元素的值相等,表示最不稀疏的情况,sparse(y)为0。本发明实施例中,分解维数r为100,
sparse(W)和sparse(H)分别为W和H的稀疏度。如下表所示,
可以看出,本发明实施例中SSNMF对于W和H的稀疏度分别能取到0.7230和0.6845,同样条件下,NSNMF的稀疏度可以取到0.5926和0.6107,由此可见,本发明实施例中SSNMF稀疏度的控制能力要好于NSNMF;本发明实施例中SSNMF将重构数据和原始数据的相对误差控制在3%内,NSNMF控制范围为1.89%-4.06%,可见本发明SSNMF数据表达能力亦得到了较大幅度提升。本发明实施例中SSNMF的字符识别率达到99.0%,而NSNMF最好的字符识别率为93.3%,可见本发明实施例在字符识别上有较好的应用效果。
在一可实施方式中,在非平滑非负矩阵分解函数上添加1-范数约束条件和/或2-范数约束条件,得到目标矩阵分解函数。
本发明实施例在原非平滑非负矩阵分解的函数上增加约束条件来获取尽可能稀疏的分解信息,在要求非负向量w元素之和等于1(即‖w‖1=∑iwi=1)的基础上最小化就可使得向量w获得较高的稀疏度,转换成矩阵的形式即为:在∑iWij=1限制下,为了使分解结果尽可能的稀疏以获得主要特征,应该最小化考虑对非负向量h加1-范数约束条件,即最小化‖h‖1=∑ihi,转换为矩阵的形式就是为了是系数矩阵H充分稀疏应最小化‖H‖1=∑i,jHi,j。构造得到的稀疏约束平滑非负矩阵分解的目标函数为:
其中,α、β为自定义约束参数。
然后转化为如下最优化求解问题:给定一个m×n的非负矩阵V,求解m×r维的目标基矩阵W、r×r维的目标平滑矩阵S和r×n维的目标系数矩阵H,本发明实施例目标矩阵还包括目标平滑矩阵S,以满足上式目标函数,W、S和H应满足下式条件,其中,分解维数r应满足条件r<mn/(m+n)
上述问题的优化迭代求解步骤如下:
输入:V≥0、r、α、β、迭代次数L
输出:W、S和H
步骤1、初始化。令W>0、S>0和H>0,循环变量k=1。
步骤2、计算目标基矩阵W,并对W列归一化
其中,p=1,2,…,m,q=1,2,…,r
步骤3、计算目标系数矩阵H
其中,x=1,2,…,r,y=1,2,…,n
步骤4、计算目标平滑矩阵S
其中,u,v=1,2,…,r
步骤5、若k=L,退出;否则转步骤2,k=k+1。
请参考图2,在一可实施方式中,至少根据目标基矩阵计算对应于字符图像测试集中每一个字符图像测试样本的系数向量;
根据系数向量和目标系数矩阵对字符图像测试集进行字符分类,得到字符分类结果包括:
步骤201,将系数向量与目标系数矩阵中的每一列数据进行分类计算,得到分类计算结果,列数据对应于字符图像训练集中的字符图像训练样本;
步骤202,将分类计算结果中满足第一条件的系数向量所对应的字符图像测试样本和列数据所对应的字符图像训练样本确定为同一类别字符。
本发明实施例中,通过将字符图像测试集中的字符图像测试样本数据在目标基矩阵上做投影得到系数向量h,在一具体实施例中,将字符图像训练集中每张图像展开成一个列向量,组合成矩阵,上述实施例中目标矩阵分解函数计算得W、S和H,其中,W表示字符图像的稀疏特征,H的每一列表示对应样本相对与稀疏特征的权值。将h和H中的每一列分别进行分类计算,h对应的测试样本与H中分类结果概率阈值最高的为同一类别字符,从而完成字符识别分类。
请参考图3,在一可实施方式中,目标矩阵还包括目标平滑矩阵,至少根据目标基矩阵计算对应于字符图像测试集的系数向量包括:
步骤301,获取对应于字符图像训练样本的第一向量数据;
步骤302,将第一向量数据对目标基矩阵和目标平滑矩阵进行映射,得到系数向量。
本发明实施例中,目标矩阵还包括目标平滑矩阵,在计算过程中不断迭代更新并作列归一化处理,有效减小了分解误差,解决了高维数据特征提取时特征的稀疏性和表达力之间的矛盾。具体的,将字符图像测试集中单张样本,即将字符图像训练样本的第一向量数据记为m×1的非负向量v,将第一向量数据对目标基矩阵和目标平滑矩阵进行映射,所得v的r×1系数向量h为:
h=((WS)T(WS))-1(WS)Tv
在一可实施方式中,将系数向量与目标系数矩阵中的每一列数据进行欧氏距离计算,得到分类计算结果。也即在上述实施例中,将h和H中的每一列分别计算欧式距离,h对应的测试样本与H中距离最近的那一列属于同一类别字符,从而完成字符识别分类。
请参考图4,本发明实施例另一方面提供一种图像处理装置,包括:
构建模块401,用于构建字符图像训练集和字符图像测试集;
训练模块402,用于利用目标矩阵分解函数训练字符图像训练集,得到对应目标矩阵,目标矩阵至少包括目标基矩阵和目标系数矩阵;
计算模块403,用于至少根据目标基矩阵计算对应于字符图像测试集的系数向量;
分类模块404,用于根据系数向量和目标系数矩阵对字符图像测试集进行字符分类,得到字符分类结果。
本发明实施例中,为提高字符图像特征提取的准确率,进而提高字符图像识别效果,先通过构建模块401构建字符图像训练集和字符图像测试集,其中,字符图像至少包括A-Z、a-z、0-9共62种字符,还可以包括中文字符等其他字符,字符图像训练集中至少包含每种字符200张样本,字符图像测试集至少包含每种字符50张样本,通过对充足的样本进行分类训练能够提高字符分类的普适性和准确率。然后训练模块402利用目标矩阵分解函数对字符图像训练集进行矩阵分解训练,目标矩阵分解函数具体可以通过在非平滑非负矩阵分解的函数上增加稀疏约束条件,如范数约束条件进行获取;利用添加了稀疏约束条件后的目标矩阵分解函数对字符图像训练集中的训练样本进行矩阵分解,能够得到稀疏度更高,也即数据表达能力更强的目标基矩阵和目标系数矩阵。计算模块403中的系数向量具体可以通过将字符图像测试集中的字符图像测试样本数据在目标基矩阵上做投影得到;由于本发明实施例中的系数向量是根据特征描述稀疏度更高的目标基矩阵所计算得到的,因此分类模块404中根据系数向量和目标系数矩阵对字符图像测试集进行字符分类所得到字符分类结果的相对误差能够有效减少,大大提高了字符图像的识别效果。
计算机视觉识别领域中涉及矩阵分解,也即将数据矩阵分解成两个矩阵的乘积来表达字符图像的隐藏语义和内在几何结构,其中,NMF将原始非负数据矩阵分解成两个非负矩阵(基矩阵和系数矩阵)的乘积,分解结果不含负值,具有明确的物理意义和可解释性,相对稀疏的表达方式在一定程度上抑制了外界环境给特征提取带来的不利影响,具有智能数据描述的特性,成功应用于模式识别、计算机视觉等多个领域。在此基础上,NSNMF通过引入一个不变的平滑矩阵,同时控制分解矩阵的稀疏性,调和了分解结果稀疏性和数据描述力的矛盾,解决了NMF的零值问题,避免算法陷入局部最优问题。NMF可以无监督生成相对稀疏或局部化的特征,但特征描述的稀疏程度不令人满意,特征还不具备较强的代表性和通用性,且运算过程中容易陷入局部最优问题。NSNMF相对NMF方法,仅仅添加了参数在[0,1]区间的平滑因子约束,参数控制能力有限,稀疏值局限在一定范围内,制约了可应用性。由于NSNMF的提取特征的稀疏程度有限,在处理字符图像识别问题时,不能正确描述数据内部的结构特征,提取的特征不准确造成图像识别率不高。
而本发明实施例在非平滑非负矩阵分解方法基础之上,提出一种基于稀疏约束平滑非负矩阵分解方法(SSNMF,Smooth Nonnegative Matrix Factorization withSparseness Constraints),将矩阵V分解为基矩阵和系数矩阵之积,在一可实施方式中,装置还包括:约束模块,用于对非平滑非负矩阵分解函数添加稀疏约束条件,得到目标矩阵分解函数。通过在非平滑非负矩阵分解函数上给基矩阵和系数矩阵添加稀疏约束条件,如范数约束条件来使提取的特征更具有代表性,有效解释字符图像中的隐藏语义和内在几何结构,使特征表达更具有表达力,有效减小了分解误差,解决了高维数据特征提取时特征的稀疏性和表达力之间的矛盾。
在一具体实施例中,字符图像中包括A-Z、a-z、0-9共62种字符,字符图像训练集中包含每种字符200张样本,字符图像测试集包含每种字符50张样本,训练库中全部12400幅图像,本发明SSNMF和NSNMF方法取不同约束时得到的稀疏度和重构相对误差,稀疏度是描述用少数几个数据单元可以代表整个数据向量的刻度,也就是说数据向量的能量大多集中在少数几个单元上。一个向量的大多数元素都接近于零,只有少数几个元素是显著的非零值,这时向量的稀疏度就大。本发明实施例中向量的稀疏度用下式来度量:
其中,n为向量y的维数。若y中仅有一个元素非零,表示最稀疏的情况,sparse(y)为1;若y中所有元素的值相等,表示最不稀疏的情况,sparse(y)为0。本发明实施例中,分解维数r为100,sparse(W)和sparse(H)分别为W和H的稀疏度。如下表所示,
可以看出,本发明实施例中SSNMF对于W和H的稀疏度分别能取到0.7230和0.6845,同样条件下,NSNMF的稀疏度可以取到0.5926和0.6107,由此可见,本发明实施例中SSNMF稀疏度的控制能力要好于NSNMF;本发明实施例中SSNMF将重构数据和原始数据的相对误差控制在3%内,NSNMF控制范围为1.89%-4.06%,可见本发明SSNMF数据表达能力亦得到了较大幅度提升。本发明实施例中SSNMF的字符识别率达到99.0%,而NSNMF最好的字符识别率为93.3%,可见本发明实施例在字符识别上有较好的应用效果。
在一可实施方式中,约束模块包括:
范数约束单元,用于在非平滑非负矩阵分解函数上添加1-范数约束条件和/或2-范数约束条件,得到目标矩阵分解函数。
本发明实施例在原非平滑非负矩阵分解的函数上增加约束条件来获取尽可能稀疏的分解信息,在要求非负向量w元素之和等于1(即‖w‖1=∑iwi=1)的基础上最小化就可使得向量w获得较高的稀疏度,转换成矩阵的形式即为:在∑iWij=1限制下,为了使分解结果尽可能的稀疏以获得主要特征,应该最小化考虑对非负向量h加1-范数约束条件,即最小化‖h‖1=∑ihi,转换为矩阵的形式就是为了是矩阵H充分稀疏应最小化‖H‖1=∑i,jHi,j。构造得到的稀疏约束平滑非负矩阵分解的目标函数为:
其中,α、β为自定义约束参数。
然后转化为如下最优化求解问题:给定一个m×n的非负矩阵V,求解m×r维的目标基矩阵W、r×r维的目标平滑矩阵S和r×n维的目标系数矩阵H,本发明实施例目标矩阵还包括目标平滑矩阵S,以满足上式目标函数,W、S和H应满足下式条件,其中,分解维数r应满足条件r<mn/(m+n)
上述问题的优化迭代求解步骤如下:
输入:V≥0、r、α、β、迭代次数L
输出:W、S和H
步骤1、初始化。令W>0、S>0和H>0,循环变量k=1。
步骤2、计算目标基矩阵W,并对W列归一化
其中,p=1,2,…,m,q=1,2,…,r
步骤3、计算目标系数矩阵H
其中,x=1,2,…,r,y=1,2,…,n
步骤4、计算目标平滑矩阵S
其中,u,v=1,2,…,r
步骤5、若k=L,退出;否则转步骤2,k=k+1。
在一可实施方式中,计算模块403还用于至少根据目标基矩阵计算对应于字符图像测试集中每一个字符图像测试样本的系数向量;
分类模块404包括:
分类单元,用于将系数向量与目标系数矩阵中的每一列数据进行分类计算,得到分类计算结果,列数据对应于字符图像训练集中的字符图像训练样本;
确定单元,用于将分类计算结果中满足第一条件的系数向量所对应的字符图像测试样本和列数据所对应的字符图像训练样本确定为同一类别字符。
本发明实施例中,目标矩阵还包括目标平滑矩阵,在计算过程中不断迭代更新并作列归一化处理,有效减小了分解误差,解决了高维数据特征提取时特征的稀疏性和表达力之间的矛盾。具体的,通过将字符图像测试集中的字符图像测试样本数据在目标基矩阵和目标平滑矩阵上做投影得到系数向量h,将字符图像测试集中单张样本,即将字符图像训练样本的第一向量数据记为m×1的非负向量v,将第一向量数据对目标基矩阵和目标平滑矩阵进行映射,所得v的r×1系数向量h为:
h=((WS)T(WS))-1(WS)Tv
在一具体实施例中,将字符图像训练集中每张图像展开成一个列向量,组合成矩阵,上述实施例中目标矩阵分解函数计算得W、S和H,其中,W表示字符图像的稀疏特征,H的每一列表示对应样本相对与稀疏特征的权值。将h和H中的每一列分别进行分类计算,h对应的测试样本与H中分类结果概率阈值最高的为同一类别字符,如将h和H中的每一列分别计算欧式距离,h对应的测试样本与H中距离最近的那一列属于同一类别字符,从而完成字符识别分类。
本发明实施例另一方面提供一种计算机可读存储介质,计算机存储介质中存储有计算机可执行指令,当指令被执行时用于执行上述中任一项的图像处理方法。
本发明实施例另一方面提供一种电子设备,包括存储器和处理器,存储器中储存有计算机程序指令,指令由处理器加载并执行以实现上述中任一项的图像处理方法。
这里需要指出的是:以上两实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,对于本发明实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解,为节约篇幅,因此不再赘述。
本发明实施例中,多个步骤之间的实现顺序在不影响实现目的的情况下可以替换。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (11)
1.一种图像处理方法,其特征在于,包括:
构建字符图像训练集和字符图像测试集;
利用目标矩阵分解函数训练所述字符图像训练集,得到对应目标矩阵,所述目标矩阵至少包括目标基矩阵和目标系数矩阵;
至少根据所述目标基矩阵计算对应于所述字符图像测试集的系数向量;
根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果。
2.根据权利要求1所述的方法,其特征在于,在利用目标矩阵分解函数训练所述字符图像训练集之前,所述方法还包括:
对非平滑非负矩阵分解函数添加稀疏约束条件,得到目标矩阵分解函数。
3.根据权利要求2所述的方法,其特征在于,在所述非平滑非负矩阵分解函数上添加1-范数约束条件和/或2-范数约束条件,得到目标矩阵分解函数。
4.根据权利要求1所述的方法,其特征在于,至少根据所述目标基矩阵计算对应于所述字符图像测试集中每一个字符图像测试样本的系数向量;
所述根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果包括:
将所述系数向量与所述目标系数矩阵中的每一列数据进行分类计算,得到分类计算结果,所述列数据对应于所述字符图像训练集中的字符图像训练样本;
将所述分类计算结果中满足第一条件的所述系数向量所对应的字符图像测试样本和所述列数据所对应的字符图像训练样本确定为同一类别字符。
5.根据权利要求4所述的方法,其特征在于,所述目标矩阵还包括目标平滑矩阵;
所述至少根据所述目标基矩阵计算对应于所述字符图像测试集的系数向量包括:
获取对应于所述字符图像训练样本的第一向量数据;
将所述第一向量数据对所述目标基矩阵和所述目标平滑矩阵进行映射,得到所述系数向量。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:将所述系数向量与所述目标系数矩阵中的每一列数据进行欧氏距离计算,得到分类计算结果。
7.一种图像处理装置,其特征在于,包括:
构建模块,用于构建字符图像训练集和字符图像测试集;
训练模块,用于利用目标矩阵分解函数训练所述字符图像训练集,得到对应目标矩阵,所述目标矩阵至少包括目标基矩阵和目标系数矩阵;
计算模块,用于至少根据所述目标基矩阵计算对应于所述字符图像测试集的系数向量;
分类模块,用于根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
约束模块,用于对非平滑非负矩阵分解函数添加稀疏约束条件,得到目标矩阵分解函数。
9.根据权利要求7所述的装置,其特征在于,所述计算模块还用于至少根据所述目标基矩阵计算对应于所述字符图像测试集中每一个字符图像测试样本的系数向量;
所述分类模块包括:
分类单元,用于将所述系数向量与所述目标系数矩阵中的每一列数据进行分类计算,得到分类计算结果,所述列数据对应于所述字符图像训练集中的字符图像训练样本;
确定单元,用于将所述分类计算结果中满足第一条件的所述系数向量所对应的字符图像测试样本和所述列数据所对应的字符图像训练样本确定为同一类别字符。
10.一种计算机可读存储介质,所述计算机存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行权利要求1-6中任一项所述的图像处理方法。
11.一种电子设备,包括存储器和处理器,所述存储器中储存有计算机程序指令,所述指令由所述处理器加载并执行以实现权利要求1-6中任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011259035.9A CN112541502B (zh) | 2020-11-12 | 2020-11-12 | 一种图像处理方法、装置及计算机存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011259035.9A CN112541502B (zh) | 2020-11-12 | 2020-11-12 | 一种图像处理方法、装置及计算机存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112541502A true CN112541502A (zh) | 2021-03-23 |
CN112541502B CN112541502B (zh) | 2022-06-10 |
Family
ID=75014003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011259035.9A Active CN112541502B (zh) | 2020-11-12 | 2020-11-12 | 一种图像处理方法、装置及计算机存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541502B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073871A (zh) * | 2011-01-12 | 2011-05-25 | 广州市伟时信息系统技术有限公司 | 一种基于非负矩阵分解的离线中文字符识别方法 |
CN103093184A (zh) * | 2011-11-03 | 2013-05-08 | 南京理工大学常熟研究院有限公司 | 一种基于列向量展开二维主成分分析的人脸识别方法 |
CN103679715A (zh) * | 2013-12-05 | 2014-03-26 | 宁波大学 | 一种基于非负矩阵分解的手机图像特征提取方法 |
CN104268510A (zh) * | 2014-09-17 | 2015-01-07 | 西安电子科技大学 | 基于稀疏约束的非负矩阵分解的sar图像目标识别方法 |
CN104463084A (zh) * | 2013-09-24 | 2015-03-25 | 江南大学 | 一种基于非负矩阵分解的离线手写签名识别 |
CN107122643A (zh) * | 2017-04-07 | 2017-09-01 | 西安电子科技大学 | 基于ppg信号和呼吸信号特征融合的身份识别方法 |
CN108416374A (zh) * | 2018-02-13 | 2018-08-17 | 中国科学院西安光学精密机械研究所 | 基于判别正交子空间约束的非负矩阵分解方法 |
WO2018149133A1 (zh) * | 2017-02-17 | 2018-08-23 | 深圳大学 | 基于核非负矩阵分解的字典学习和稀疏特征表示的人脸识别方法及系统 |
US20180307901A1 (en) * | 2016-03-30 | 2018-10-25 | Shenzhen University | Non-negative matrix factorization face recognition method and system based on kernel machine learning |
CN110334761A (zh) * | 2019-07-03 | 2019-10-15 | 北京林业大学 | 基于正交性约束增量非负矩阵分解的有监督图像识别方法 |
WO2020082315A2 (zh) * | 2018-10-23 | 2020-04-30 | 深圳大学 | 一种非负特征提取及人脸识别应用方法、系统及存储介质 |
-
2020
- 2020-11-12 CN CN202011259035.9A patent/CN112541502B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073871A (zh) * | 2011-01-12 | 2011-05-25 | 广州市伟时信息系统技术有限公司 | 一种基于非负矩阵分解的离线中文字符识别方法 |
CN103093184A (zh) * | 2011-11-03 | 2013-05-08 | 南京理工大学常熟研究院有限公司 | 一种基于列向量展开二维主成分分析的人脸识别方法 |
CN104463084A (zh) * | 2013-09-24 | 2015-03-25 | 江南大学 | 一种基于非负矩阵分解的离线手写签名识别 |
CN103679715A (zh) * | 2013-12-05 | 2014-03-26 | 宁波大学 | 一种基于非负矩阵分解的手机图像特征提取方法 |
CN104268510A (zh) * | 2014-09-17 | 2015-01-07 | 西安电子科技大学 | 基于稀疏约束的非负矩阵分解的sar图像目标识别方法 |
US20180307901A1 (en) * | 2016-03-30 | 2018-10-25 | Shenzhen University | Non-negative matrix factorization face recognition method and system based on kernel machine learning |
WO2018149133A1 (zh) * | 2017-02-17 | 2018-08-23 | 深圳大学 | 基于核非负矩阵分解的字典学习和稀疏特征表示的人脸识别方法及系统 |
CN107122643A (zh) * | 2017-04-07 | 2017-09-01 | 西安电子科技大学 | 基于ppg信号和呼吸信号特征融合的身份识别方法 |
CN108416374A (zh) * | 2018-02-13 | 2018-08-17 | 中国科学院西安光学精密机械研究所 | 基于判别正交子空间约束的非负矩阵分解方法 |
WO2020082315A2 (zh) * | 2018-10-23 | 2020-04-30 | 深圳大学 | 一种非负特征提取及人脸识别应用方法、系统及存储介质 |
CN110334761A (zh) * | 2019-07-03 | 2019-10-15 | 北京林业大学 | 基于正交性约束增量非负矩阵分解的有监督图像识别方法 |
Non-Patent Citations (2)
Title |
---|
TOLGA ENSARİ等: ""Character Recognition Analysis with Nonnegative Matrix Factorization"", 《IARAS,INTERNATIONAL JOURNAL OF COMPUTERS》 * |
姜伟等: ""基于流形正则化的非光滑非负矩阵分解"", 《计算机科学》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112541502B (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8849622B2 (en) | Method and system of data modelling | |
CN108415883B (zh) | 基于子空间聚类的凸非负矩阵分解方法 | |
US20140279777A1 (en) | Signal processing systems | |
US20210300390A1 (en) | Efficient computational inference using gaussian processes | |
CN111476100A (zh) | 基于主成分分析的数据处理方法、装置及存储介质 | |
Wang et al. | Time-weighted kernel-sparse-representation-based real-time nonlinear multimode process monitoring | |
Goldberger et al. | Simplifying mixture models using the unscented transform | |
CN111985336A (zh) | 人脸图像聚类方法、装置、计算机设备和存储介质 | |
CN113053395B (zh) | 发音纠错学习方法、装置、存储介质及电子设备 | |
CN113284000B (zh) | 用户用电数据异常检测方法、装置、计算机设备 | |
CN110781970A (zh) | 分类器的生成方法、装置、设备及存储介质 | |
US20170309004A1 (en) | Image recognition using descriptor pruning | |
CN114692809A (zh) | 基于神经集群的数据处理方法及装置、存储介质、处理器 | |
CN110288002B (zh) | 一种基于稀疏正交神经网络的图像分类方法 | |
US20230222392A1 (en) | Computer-readable recording medium storing detection program, detection method, and detection device | |
CN109902720B (zh) | 基于子空间分解进行深度特征估计的图像分类识别方法 | |
CN112541502B (zh) | 一种图像处理方法、装置及计算机存储介质和电子设备 | |
CN111695570A (zh) | 一种基于变分原型推理的小样本下语义分割方法 | |
Wang et al. | Conscience online learning: an efficient approach for robust kernel-based clustering | |
Liu et al. | Construction of deep ReLU nets for spatially sparse learning | |
Zare et al. | A Novel multiple kernel-based dictionary learning for distributive and collective sparse representation based classifiers | |
CN114462479A (zh) | 模型训练方法、检索方法以及模型、设备和介质 | |
CN109978066B (zh) | 基于多尺度数据结构的快速谱聚类方法 | |
CN113971737A (zh) | 用于机器人的物体识别方法、电子设备、介质和程序产品 | |
Arcolano et al. | Nyström approximation of Wishart matrices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |