CN112541502B - 一种图像处理方法、装置及计算机存储介质和电子设备 - Google Patents

一种图像处理方法、装置及计算机存储介质和电子设备 Download PDF

Info

Publication number
CN112541502B
CN112541502B CN202011259035.9A CN202011259035A CN112541502B CN 112541502 B CN112541502 B CN 112541502B CN 202011259035 A CN202011259035 A CN 202011259035A CN 112541502 B CN112541502 B CN 112541502B
Authority
CN
China
Prior art keywords
matrix
target
character image
character
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011259035.9A
Other languages
English (en)
Other versions
CN112541502A (zh
Inventor
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Lianbao Information Technology Co Ltd
Original Assignee
Hefei Lianbao Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Lianbao Information Technology Co Ltd filed Critical Hefei Lianbao Information Technology Co Ltd
Priority to CN202011259035.9A priority Critical patent/CN112541502B/zh
Publication of CN112541502A publication Critical patent/CN112541502A/zh
Application granted granted Critical
Publication of CN112541502B publication Critical patent/CN112541502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像处理方法、装置及计算机存储介质和电子设备,方法包括:构建字符图像训练集和字符图像测试集;利用目标矩阵分解函数训练所述字符图像训练集,得到对应目标矩阵,所述目标矩阵至少包括目标基矩阵和目标系数矩阵;至少根据所述目标基矩阵计算对应于所述字符图像测试集的系数向量;根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果。本发明实施例所提供的图像处理方法、装置及计算机存储介质和电子设备能够有效解释字符图像中的隐藏语义和内在几何结构,使特征表达更具有表达力,大大提高了字符图像的识别效果。

Description

一种图像处理方法、装置及计算机存储介质和电子设备
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像处理方法、装置及计算机存储介质和电子设备。
背景技术
笔记本表面贴附的标签种类较多,且样式比较相似,单纯对整个标签采用机器学习进行识别的方法,很难保证准确率。通过识别标签上的字符,可以有效对标签进行识别,而在图像识别领域中,挖掘高维图像数据内部潜在的结构特征是提高图像识别精度和减少图像识别复杂度的关键步骤。
非负矩阵分解(NMF,Nonnegative Matrix Factorization)将原始非负数据矩阵分解成两个非负矩阵(基矩阵和系数矩阵)的乘积,分解结果不含负值,具有明确的物理意义和可解释性,相对稀疏的表达方式在一定程度上抑制了外界环境给特征提取带来的不利影响,具有智能数据描述的特性,成功应用于模式识别、计算机视觉等多个领域。但这种矩阵分解方法特征描述的稀疏程度不理想,特征还不具备较强的代表性和通用性,且运算过程中容易陷入局部最优问题。因此,如何提高字符图像特征提取的准确率,进而提高字符图像识别效果成为当前亟待解决的技术问题。
发明内容
本发明实施例为了有效克服现有技术所存在的上述缺陷,创造性地提供一种图像处理方法,包括:构建字符图像训练集和字符图像测试集;利用目标矩阵分解函数训练所述字符图像训练集,得到对应目标矩阵,所述目标矩阵至少包括目标基矩阵和目标系数矩阵;至少根据所述目标基矩阵计算对应于所述字符图像测试集的系数向量;根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果。
在一可实施方式中,在利用目标矩阵分解函数训练所述字符图像训练集之前,所述方法还包括:对非平滑非负矩阵分解函数添加稀疏约束条件,得到目标矩阵分解函数。
在一可实施方式中,在所述非平滑非负矩阵分解函数上添加1-范数约束条件和/或2-范数约束条件,得到目标矩阵分解函数。
在一可实施方式中,至少根据所述目标基矩阵计算对应于所述字符图像测试集中每一个字符图像测试样本的系数向量;所述根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果包括:将所述系数向量与所述目标系数矩阵中的每一列数据进行分类计算,得到分类计算结果,所述列数据对应于所述字符图像训练集中的字符图像训练样本;将所述分类计算结果中满足第一条件的所述系数向量所对应的字符图像测试样本和所述列数据所对应的字符图像训练样本确定为同一类别字符。
在一可实施方式中,所述目标矩阵还包括目标平滑矩阵;所述至少根据所述目标基矩阵计算对应于所述字符图像测试集的系数向量包括:获取对应于所述字符图像训练样本的第一向量数据;将所述第一向量数据对所述目标基矩阵和所述目标平滑矩阵进行映射,得到所述系数向量。
在一可实施方式中,所述方法还包括:将所述系数向量与所述目标系数矩阵中的每一列数据进行欧氏距离计算,得到分类计算结果。
本发明实施例另一方面提供一种图像处理装置,包括:构建模块,用于构建字符图像训练集和字符图像测试集;训练模块,用于利用目标矩阵分解函数训练所述字符图像训练集,得到对应目标矩阵,所述目标矩阵至少包括目标基矩阵和目标系数矩阵;计算模块,用于至少根据所述目标基矩阵计算对应于所述字符图像测试集的系数向量;分类模块,用于根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果。
在一可实施方式中,所述装置还包括:约束模块,用于对非平滑非负矩阵分解函数添加稀疏约束条件,得到目标矩阵分解函数。
在一可实施方式中,所述计算模块还用于至少根据所述目标基矩阵计算对应于所述字符图像测试集中每一个字符图像测试样本的系数向量;所述分类模块包括:分类单元,用于将所述系数向量与所述目标系数矩阵中的每一列数据进行分类计算,得到分类计算结果,所述列数据对应于所述字符图像训练集中的字符图像训练样本;确定单元,用于将所述分类计算结果中满足第一条件的所述系数向量所对应的字符图像测试样本和所述列数据所对应的字符图像训练样本确定为同一类别字符。
本发明实施例另一方面提供一种计算机可读存储介质,所述计算机存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行上述中任一项所述的图像处理方法。
本发明实施例另一方面提供一种电子设备,包括存储器和处理器,所述存储器中储存有计算机程序指令,所述指令由所述处理器加载并执行以实现上述中任一项所述的图像处理方法。
本发明实施例所提供的图像处理方法、装置及计算机存储介质和电子设备克服了现有方法中对字符图像提取特征的稀疏程度有限,在处理字符图像识别问题时,不能正确描述数据内部的结构特征,提取的特征不准确造成图像识别率不高的问题,有效解释字符图像中的隐藏语义和内在几何结构,使特征表达更具有表达力,大大提高了字符图像的识别效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明一实施例所提供的一种图像处理方法的一种实现流程示意图;
图2为本发明一实施例所提供的一种图像处理方法的另一种实现流程示意图;
图3为本发明一实施例所提供的一种图像处理方法的又一种实现流程示意图;
图4为本发明一实施例所提供的一种图像处理装置的一种组成结构图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书中的一些方面相一致的方法、装置或设备的例子。
请参考图1,本发明实施例一方面提供一种图像处理方法,包括:
步骤101,构建字符图像训练集和字符图像测试集;
步骤102,利用目标矩阵分解函数训练字符图像训练集,得到对应目标矩阵,目标矩阵至少包括目标基矩阵和目标系数矩阵;
步骤103,至少根据目标基矩阵计算对应于字符图像测试集的系数向量;
步骤104,根据系数向量和目标系数矩阵对字符图像测试集进行字符分类,得到字符分类结果。
本发明实施例中,为提高字符图像特征提取的准确率,进而提高字符图像识别效果,先通过步骤101构建字符图像训练集和字符图像测试集,其中,字符图像至少包括A-Z、a-z、0-9共62种字符,还可以包括中文字符等其他字符,字符图像训练集中至少包含每种字符200张样本,字符图像测试集至少包含每种字符50张样本,通过对充足的样本进行分类训练能够提高字符分类的普适性和准确率。然后步骤102利用目标矩阵分解函数对字符图像训练集进行矩阵分解训练,目标矩阵分解函数具体可以通过在非平滑非负矩阵分解的函数上增加稀疏约束条件,如范数约束条件进行获取;利用添加了稀疏约束条件后的目标矩阵分解函数对字符图像训练集中的训练样本进行矩阵分解,能够得到稀疏度更高,也即数据表达能力更强的目标基矩阵和目标系数矩阵。步骤103中的系数向量具体可以通过将字符图像测试集中的字符图像测试样本数据在目标基矩阵上做投影得到;由于本发明实施例中的系数向量是根据特征描述稀疏度更高的目标基矩阵所计算得到的,因此步骤104中根据系数向量和目标系数矩阵对字符图像测试集进行字符分类所得到字符分类结果的相对误差能够有效减少,大大提高了字符图像的识别效果。
计算机视觉识别领域中涉及矩阵分解,也即将数据矩阵分解成两个矩阵的乘积来表达字符图像的隐藏语义和内在几何结构,其中,非负矩阵分解(NMF,Nonnegative MatrixFactorization)将原始非负数据矩阵分解成两个非负矩阵(基矩阵和系数矩阵)的乘积,分解结果不含负值,具有明确的物理意义和可解释性,相对稀疏的表达方式在一定程度上抑制了外界环境给特征提取带来的不利影响,具有智能数据描述的特性,成功应用于模式识别、计算机视觉等多个领域。在此基础上,非平滑非负矩阵分解(NSNMF,Non-smoothNonnegative Matrix Factorization)通过引入一个不变的平滑矩阵,同时控制分解矩阵的稀疏性,调和了分解结果稀疏性和数据描述力的矛盾,解决了NMF的零值问题,避免算法陷入局部最优问题。NMF可以无监督生成相对稀疏或局部化的特征,但特征描述的稀疏程度不理想,特征还不具备较强的代表性和通用性,且运算过程中容易陷入局部最优问题。NSNMF相对NMF方法,仅仅添加了参数在[0,1]区间的平滑因子约束,参数控制能力有限,稀疏值局限在一定范围内,制约了可应用性。由于NSNMF的提取特征的稀疏程度有限,在处理字符图像识别问题时,不能正确描述数据内部的结构特征,提取的特征不准确造成图像识别率不高。
而本发明实施例在非平滑非负矩阵分解方法基础之上,提出一种基于稀疏约束平滑非负矩阵分解方法(SSNMF,Smooth Nonnegative Matrix Factorization withSparseness Constraints),将矩阵
Figure DEST_PATH_IMAGE002
分解为基矩阵和系数矩阵之积,在一可实施方式中,在利用目标矩阵分解函数训练字符图像训练集之前,方法还包括:对非平滑非负矩阵分解函数添加稀疏约束条件,得到目标矩阵分解函数。通过在非平滑非负矩阵分解函数上给基矩阵和系数矩阵添加稀疏约束条件,如范数约束条件来使提取的特征更具有代表性,有效解释字符图像中的隐藏语义和内在几何结构,使特征表达更具有表达力,有效减小了分解误差,解决了高维数据特征提取时特征的稀疏性和表达力之间的矛盾。
在一具体实施例中,字符图像中包括A-Z、a-z、0-9共62种字符,字符图像训练集中包含每种字符200张样本,字符图像测试集包含每种字符50张样本,训练库中全部12400幅图像,本发明SSNMF和NSNMF方法取不同约束时得到的稀疏度和重构相对误差,稀疏度是描述用少数几个数据单元可以代表整个数据向量的刻度,也就是说数据向量的能量大多集中在少数几个单元上。一个向量的大多数元素都接近于零,只有少数几个元素是显著的非零值,这时向量的稀疏度就大。本发明实施例中向量的稀疏度用下式来度量:
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE008
为向量
Figure DEST_PATH_IMAGE010
的维数。若
Figure DEST_PATH_IMAGE010A
中仅有一个元素非零,表示最稀疏的情况,
Figure DEST_PATH_IMAGE012
为1;若
Figure DEST_PATH_IMAGE010AA
中所有元素的值相等,表示最不稀疏的情况,
Figure DEST_PATH_IMAGE012A
为0。本发明实施例中,分解维数r为100,
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
分别为
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
的稀疏度。如下表所示,
可以看出,本发明实施例中SSNMF对于
Figure DEST_PATH_IMAGE018A
Figure DEST_PATH_IMAGE020A
的稀疏度分别能取到0.7230和0.6845,同样条件下,NSNMF的稀疏度可以取到0.5926和0.6107,由此可见,本发明实施例中SSNMF稀疏度的控制能力要好于NSNMF;本发明实施例中SSNMF将重构数据和原始数据的相对误差控制在3%内,NSNMF控制范围为1.89%-4.06%,可见本发明SSNMF数据表达能力亦得到了较大幅度提升。本发明实施例中SSNMF的字符识别率达到99.0%,而NSNMF最好的字符识别率为93.3%,可见本发明实施例在字符识别上有较好的应用效果。
在一可实施方式中,所述非平滑非负矩阵分解函数包括基矩阵和系数矩阵,在所述非平滑非负矩阵分解函数上给所述基矩阵添加2-范数约束条件,给所述系数矩阵添加1-范数约束条件,得到所述目标矩阵分解函数。
本发明实施例在原非平滑非负矩阵分解的函数上增加约束条件来获取尽可能稀疏的分解信息,在要求非负向量
Figure DEST_PATH_IMAGE022
元素之和等于1(即
Figure DEST_PATH_IMAGE024
)的基础上最小化
Figure DEST_PATH_IMAGE026
,就可使得向量
Figure DEST_PATH_IMAGE022A
获得较高的稀疏度,转换成矩阵的形式即为:在
Figure DEST_PATH_IMAGE028
限制下,为了使分解结果尽可能的稀疏以获得主要特征,应该最小化
Figure DEST_PATH_IMAGE030
。考虑对非负向量
Figure DEST_PATH_IMAGE032
加1-范数约束条件,即最小化
Figure DEST_PATH_IMAGE034
,转换为矩阵的形式就是为了是系数矩阵
Figure DEST_PATH_IMAGE036
充分稀疏应最小化
Figure DEST_PATH_IMAGE038
。构造得到的稀疏约束平滑非负矩阵分解的目标函数为:
Figure DEST_PATH_IMAGE040
其中,
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE044
为自定义约束参数。
然后转化为如下最优化求解问题:给定一个
Figure DEST_PATH_IMAGE046
的非负矩阵
Figure DEST_PATH_IMAGE048
,求解
Figure DEST_PATH_IMAGE050
维的目标基矩阵
Figure DEST_PATH_IMAGE018AA
Figure DEST_PATH_IMAGE052
维的目标平滑矩阵
Figure DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE056
维的目标系数矩阵
Figure DEST_PATH_IMAGE020AA
,本发明实施例目标矩阵还包括目标平滑矩阵
Figure DEST_PATH_IMAGE054A
,以满足上式目标函数,
Figure DEST_PATH_IMAGE018AAA
Figure DEST_PATH_IMAGE054AA
Figure DEST_PATH_IMAGE020AAA
应满足下式条件,其中,分解维数
Figure DEST_PATH_IMAGE058
应满足条件
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE062
上述问题的优化迭代求解步骤如下:
输入:
Figure DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE058A
Figure DEST_PATH_IMAGE042A
Figure DEST_PATH_IMAGE044A
、迭代次数
Figure DEST_PATH_IMAGE066
输出:
Figure DEST_PATH_IMAGE018AAAA
Figure DEST_PATH_IMAGE054AAA
Figure DEST_PATH_IMAGE020AAAA
步骤1、初始化。令
Figure DEST_PATH_IMAGE068
Figure DEST_PATH_IMAGE070
Figure DEST_PATH_IMAGE020_5A
>0,循环变量
Figure DEST_PATH_IMAGE072
步骤2、计算目标基矩阵
Figure DEST_PATH_IMAGE018_5A
,并对
Figure DEST_PATH_IMAGE018_6A
列归一化
Figure DEST_PATH_IMAGE074
Figure DEST_PATH_IMAGE076
其中,
Figure DEST_PATH_IMAGE078
,
Figure DEST_PATH_IMAGE080
步骤3、计算目标系数矩阵
Figure DEST_PATH_IMAGE020_6A
Figure DEST_PATH_IMAGE082
其中,
Figure DEST_PATH_IMAGE084
,
Figure DEST_PATH_IMAGE086
步骤4、计算目标平滑矩阵
Figure DEST_PATH_IMAGE054AAAA
Figure DEST_PATH_IMAGE088
Figure DEST_PATH_IMAGE090
其中,
Figure DEST_PATH_IMAGE092
步骤5、若
Figure DEST_PATH_IMAGE094
,退出;否则转步骤2,
Figure DEST_PATH_IMAGE096
请参考图2,在一可实施方式中,至少根据目标基矩阵计算对应于字符图像测试集中每一个字符图像测试样本的系数向量;
根据系数向量和目标系数矩阵对字符图像测试集进行字符分类,得到字符分类结果包括:
步骤201,将系数向量与目标系数矩阵中的每一列数据进行分类计算,得到分类计算结果,列数据对应于字符图像训练集中的字符图像训练样本;
步骤202,将分类计算结果中满足第一条件的系数向量所对应的字符图像测试样本和列数据所对应的字符图像训练样本确定为同一类别字符。
本发明实施例中,通过将字符图像测试集中的字符图像测试样本数据在目标基矩阵上做投影得到系数向量
Figure DEST_PATH_IMAGE098
,在一具体实施例中,将字符图像训练集中每张图像展开成一个列向量,组合成矩阵,上述实施例中目标矩阵分解函数计算得
Figure DEST_PATH_IMAGE100
Figure DEST_PATH_IMAGE102
Figure DEST_PATH_IMAGE036A
,其中,
Figure DEST_PATH_IMAGE100A
表示字符图像的稀疏特征,
Figure DEST_PATH_IMAGE020_7A
的每一列表示对应样本相对与稀疏特征的权值。将
Figure DEST_PATH_IMAGE098A
Figure DEST_PATH_IMAGE020_8A
中的每一列分别进行分类计算,
Figure DEST_PATH_IMAGE098AA
对应的测试样本与
Figure DEST_PATH_IMAGE020_9A
中分类结果概率阈值最高的为同一类别字符,从而完成字符识别分类。
请参考图3,在一可实施方式中,目标矩阵还包括目标平滑矩阵,至少根据目标基矩阵计算对应于字符图像测试集的系数向量包括:
步骤301,获取对应于字符图像训练样本的第一向量数据;
步骤302,将第一向量数据对目标基矩阵和目标平滑矩阵进行映射,得到系数向量。
本发明实施例中,目标矩阵还包括目标平滑矩阵,在计算过程中不断迭代更新并作列归一化处理,有效减小了分解误差,解决了高维数据特征提取时特征的稀疏性和表达力之间的矛盾。具体的,将字符图像测试集中单张样本,即将字符图像训练样本的第一向量数据记为
Figure DEST_PATH_IMAGE104
的非负向量
Figure DEST_PATH_IMAGE106
,将第一向量数据对目标基矩阵和目标平滑矩阵进行映射,所得
Figure DEST_PATH_IMAGE106A
Figure DEST_PATH_IMAGE108
系数向量
Figure DEST_PATH_IMAGE098AAA
为:
Figure DEST_PATH_IMAGE110
在一可实施方式中,将系数向量与目标系数矩阵中的每一列数据进行欧氏距离计算,得到分类计算结果。也即在上述实施例中,将
Figure DEST_PATH_IMAGE098AAAA
Figure DEST_PATH_IMAGE020_10A
中的每一列分别计算欧式距离,
Figure DEST_PATH_IMAGE098_5A
对应的测试样本与
Figure DEST_PATH_IMAGE020_11A
中距离最近的那一列属于同一类别字符,从而完成字符识别分类。
请参考图4,本发明实施例另一方面提供一种图像处理装置,包括:
构建模块401,用于构建字符图像训练集和字符图像测试集;
训练模块402,用于利用目标矩阵分解函数训练字符图像训练集,得到对应目标矩阵,目标矩阵至少包括目标基矩阵和目标系数矩阵;
计算模块403,用于至少根据目标基矩阵计算对应于字符图像测试集的系数向量;
分类模块404,用于根据系数向量和目标系数矩阵对字符图像测试集进行字符分类,得到字符分类结果。
本发明实施例中,为提高字符图像特征提取的准确率,进而提高字符图像识别效果,先通过构建模块401构建字符图像训练集和字符图像测试集,其中,字符图像至少包括A-Z、a-z、0-9共62种字符,还可以包括中文字符等其他字符,字符图像训练集中至少包含每种字符200张样本,字符图像测试集至少包含每种字符50张样本,通过对充足的样本进行分类训练能够提高字符分类的普适性和准确率。然后训练模块402利用目标矩阵分解函数对字符图像训练集进行矩阵分解训练,目标矩阵分解函数具体可以通过在非平滑非负矩阵分解的函数上增加稀疏约束条件,如范数约束条件进行获取;利用添加了稀疏约束条件后的目标矩阵分解函数对字符图像训练集中的训练样本进行矩阵分解,能够得到稀疏度更高,也即数据表达能力更强的目标基矩阵和目标系数矩阵。计算模块403中的系数向量具体可以通过将字符图像测试集中的字符图像测试样本数据在目标基矩阵上做投影得到;由于本发明实施例中的系数向量是根据特征描述稀疏度更高的目标基矩阵所计算得到的,因此分类模块404中根据系数向量和目标系数矩阵对字符图像测试集进行字符分类所得到字符分类结果的相对误差能够有效减少,大大提高了字符图像的识别效果。
计算机视觉识别领域中涉及矩阵分解,也即将数据矩阵分解成两个矩阵的乘积来表达字符图像的隐藏语义和内在几何结构,其中,NMF将原始非负数据矩阵分解成两个非负矩阵(基矩阵和系数矩阵)的乘积,分解结果不含负值,具有明确的物理意义和可解释性,相对稀疏的表达方式在一定程度上抑制了外界环境给特征提取带来的不利影响,具有智能数据描述的特性,成功应用于模式识别、计算机视觉等多个领域。在此基础上,NSNMF通过引入一个不变的平滑矩阵,同时控制分解矩阵的稀疏性,调和了分解结果稀疏性和数据描述力的矛盾,解决了NMF的零值问题,避免算法陷入局部最优问题。NMF可以无监督生成相对稀疏或局部化的特征,但特征描述的稀疏程度不令人满意,特征还不具备较强的代表性和通用性,且运算过程中容易陷入局部最优问题。NSNMF相对NMF方法,仅仅添加了参数在[0,1]区间的平滑因子约束,参数控制能力有限,稀疏值局限在一定范围内,制约了可应用性。由于NSNMF的提取特征的稀疏程度有限,在处理字符图像识别问题时,不能正确描述数据内部的结构特征,提取的特征不准确造成图像识别率不高。
而本发明实施例在非平滑非负矩阵分解方法基础之上,提出一种基于稀疏约束平滑非负矩阵分解方法(SSNMF,Smooth Nonnegative Matrix Factorization withSparseness Constraints),将矩阵
Figure DEST_PATH_IMAGE112
分解为基矩阵和系数矩阵之积,在一可实施方式中,装置还包括:约束模块,用于对非平滑非负矩阵分解函数添加稀疏约束条件,得到目标矩阵分解函数。通过在非平滑非负矩阵分解函数上给基矩阵和系数矩阵添加稀疏约束条件,如范数约束条件来使提取的特征更具有代表性,有效解释字符图像中的隐藏语义和内在几何结构,使特征表达更具有表达力,有效减小了分解误差,解决了高维数据特征提取时特征的稀疏性和表达力之间的矛盾。
在一具体实施例中,字符图像中包括A-Z、a-z、0-9共62种字符,字符图像训练集中包含每种字符200张样本,字符图像测试集包含每种字符50张样本,训练库中全部12400幅图像,本发明SSNMF和NSNMF方法取不同约束时得到的稀疏度和重构相对误差,稀疏度是描述用少数几个数据单元可以代表整个数据向量的刻度,也就是说数据向量的能量大多集中在少数几个单元上。一个向量的大多数元素都接近于零,只有少数几个元素是显著的非零值,这时向量的稀疏度就大。本发明实施例中向量的稀疏度用下式来度量:
Figure DEST_PATH_IMAGE114
其中,
Figure DEST_PATH_IMAGE008A
为向量
Figure DEST_PATH_IMAGE010AAA
的维数。若
Figure DEST_PATH_IMAGE010AAAA
中仅有一个元素非零,表示最稀疏的情况,
Figure DEST_PATH_IMAGE012AA
为1;若
Figure DEST_PATH_IMAGE010_5A
中所有元素的值相等,表示最不稀疏的情况,
Figure DEST_PATH_IMAGE012AAA
为0。本发明实施例中,分解维数r为100,
Figure DEST_PATH_IMAGE014A
Figure DEST_PATH_IMAGE016A
分别为
Figure DEST_PATH_IMAGE018_7A
Figure DEST_PATH_IMAGE020_12A
的稀疏度。如下表所示,
Figure DEST_PATH_IMAGE116
可以看出,本发明实施例中SSNMF对于
Figure DEST_PATH_IMAGE018_8A
Figure DEST_PATH_IMAGE020_13A
的稀疏度分别能取到0.7230和0.6845,同样条件下,NSNMF的稀疏度可以取到0.5926和0.6107,由此可见,本发明实施例中SSNMF稀疏度的控制能力要好于NSNMF;本发明实施例中SSNMF将重构数据和原始数据的相对误差控制在3%内,NSNMF控制范围为1.89%-4.06%,可见本发明SSNMF数据表达能力亦得到了较大幅度提升。本发明实施例中SSNMF的字符识别率达到99.0%,而NSNMF最好的字符识别率为93.3%,可见本发明实施例在字符识别上有较好的应用效果。
在一可实施方式中,约束模块包括:
范数约束单元,用于在非平滑非负矩阵分解函数上添加1-范数约束条件和/或2-范数约束条件,得到目标矩阵分解函数。
本发明实施例在原非平滑非负矩阵分解的函数上增加约束条件来获取尽可能稀疏的分解信息,在要求非负向量
Figure DEST_PATH_IMAGE022AA
元素之和等于1(即
Figure DEST_PATH_IMAGE024A
)的基础上最小化
Figure DEST_PATH_IMAGE026A
,就可使得向量
Figure DEST_PATH_IMAGE022AAA
获得较高的稀疏度,转换成矩阵的形式即为:在
Figure DEST_PATH_IMAGE028A
限制下,为了使分解结果尽可能的稀疏以获得主要特征,应该最小化
Figure DEST_PATH_IMAGE030A
。考虑对非负向量
Figure DEST_PATH_IMAGE032A
加1-范数约束条件,即最小化
Figure DEST_PATH_IMAGE034A
,转换为矩阵的形式就是为了是矩阵
Figure DEST_PATH_IMAGE036AA
充分稀疏应最小化
Figure DEST_PATH_IMAGE038A
。构造得到的稀疏约束平滑非负矩阵分解的目标函数为:
Figure DEST_PATH_IMAGE040A
其中,
Figure DEST_PATH_IMAGE042AA
Figure DEST_PATH_IMAGE044AA
为自定义约束参数。
然后转化为如下最优化求解问题:给定一个
Figure DEST_PATH_IMAGE046A
的非负矩阵
Figure DEST_PATH_IMAGE048A
,求解
Figure DEST_PATH_IMAGE050A
维的目标基矩阵
Figure DEST_PATH_IMAGE018_9A
Figure DEST_PATH_IMAGE052A
维的目标平滑矩阵
Figure DEST_PATH_IMAGE054_5A
Figure DEST_PATH_IMAGE056A
维的目标系数矩阵
Figure DEST_PATH_IMAGE020_14A
,本发明实施例目标矩阵还包括目标平滑矩阵
Figure DEST_PATH_IMAGE054_6A
,以满足上式目标函数,
Figure DEST_PATH_IMAGE018_10A
Figure DEST_PATH_IMAGE054_7A
Figure DEST_PATH_IMAGE020_15A
应满足下式条件,其中,分解维数
Figure DEST_PATH_IMAGE058AA
应满足条件
Figure DEST_PATH_IMAGE060A
Figure DEST_PATH_IMAGE062A
上述问题的优化迭代求解步骤如下:
输入:
Figure DEST_PATH_IMAGE064A
Figure DEST_PATH_IMAGE058AAA
Figure DEST_PATH_IMAGE042AAA
Figure DEST_PATH_IMAGE044AAA
、迭代次数
Figure DEST_PATH_IMAGE066A
输出:
Figure DEST_PATH_IMAGE018_11A
Figure DEST_PATH_IMAGE054_8A
Figure DEST_PATH_IMAGE020_16A
步骤1、初始化。令
Figure DEST_PATH_IMAGE068A
Figure DEST_PATH_IMAGE070A
Figure DEST_PATH_IMAGE020_17A
>0,循环变量
Figure DEST_PATH_IMAGE072A
步骤2、计算目标基矩阵
Figure DEST_PATH_IMAGE018_12A
,并对
Figure DEST_PATH_IMAGE018_13A
列归一化
Figure DEST_PATH_IMAGE074A
Figure DEST_PATH_IMAGE076A
其中,
Figure DEST_PATH_IMAGE078A
,
Figure DEST_PATH_IMAGE080A
步骤3、计算目标系数矩阵
Figure DEST_PATH_IMAGE020_18A
Figure DEST_PATH_IMAGE082A
其中,
Figure DEST_PATH_IMAGE084A
,
Figure DEST_PATH_IMAGE086A
步骤4、计算目标平滑矩阵
Figure DEST_PATH_IMAGE054_9A
Figure DEST_PATH_IMAGE088A
Figure DEST_PATH_IMAGE090A
其中,
Figure DEST_PATH_IMAGE092A
步骤5、若
Figure DEST_PATH_IMAGE094A
,退出;否则转步骤2,
Figure DEST_PATH_IMAGE096A
在一可实施方式中,计算模块403还用于至少根据目标基矩阵计算对应于字符图像测试集中每一个字符图像测试样本的系数向量;
分类模块404包括:
分类单元,用于将系数向量与目标系数矩阵中的每一列数据进行分类计算,得到分类计算结果,列数据对应于字符图像训练集中的字符图像训练样本;
确定单元,用于将分类计算结果中满足第一条件的系数向量所对应的字符图像测试样本和列数据所对应的字符图像训练样本确定为同一类别字符。
本发明实施例中,目标矩阵还包括目标平滑矩阵,在计算过程中不断迭代更新并作列归一化处理,有效减小了分解误差,解决了高维数据特征提取时特征的稀疏性和表达力之间的矛盾。具体的,通过将字符图像测试集中的字符图像测试样本数据在目标基矩阵和目标平滑矩阵上做投影得到系数向量
Figure DEST_PATH_IMAGE098_6A
,将字符图像测试集中单张样本,即将字符图像训练样本的第一向量数据记为
Figure DEST_PATH_IMAGE104A
的非负向量
Figure DEST_PATH_IMAGE106AA
,将第一向量数据对目标基矩阵和目标平滑矩阵进行映射,所得
Figure DEST_PATH_IMAGE106AAA
Figure DEST_PATH_IMAGE108A
系数向量
Figure DEST_PATH_IMAGE098_7A
为:
Figure DEST_PATH_IMAGE110A
在一具体实施例中,将字符图像训练集中每张图像展开成一个列向量,组合成矩阵,上述实施例中目标矩阵分解函数计算得
Figure DEST_PATH_IMAGE100AA
Figure DEST_PATH_IMAGE102A
Figure DEST_PATH_IMAGE036AAA
,其中,
Figure DEST_PATH_IMAGE100AAA
表示字符图像的稀疏特征,
Figure DEST_PATH_IMAGE036AAAA
的每一列表示对应样本相对与稀疏特征的权值。将
Figure DEST_PATH_IMAGE032AA
Figure DEST_PATH_IMAGE036_5A
中的每一列分别进行分类计算,
Figure DEST_PATH_IMAGE032AAA
对应的测试样本与
Figure DEST_PATH_IMAGE036_6A
中分类结果概率阈值最高的为同一类别字符,如将
Figure DEST_PATH_IMAGE032AAAA
Figure DEST_PATH_IMAGE036_7A
中的每一列分别计算欧式距离,
Figure DEST_PATH_IMAGE032_5A
对应的测试样本与
Figure DEST_PATH_IMAGE036_8A
中距离最近的那一列属于同一类别字符,从而完成字符识别分类。
本发明实施例另一方面提供一种计算机可读存储介质,计算机存储介质中存储有计算机可执行指令,当指令被执行时用于执行上述中任一项的图像处理方法。
本发明实施例另一方面提供一种电子设备,包括存储器和处理器,存储器中储存有计算机程序指令,指令由处理器加载并执行以实现上述中任一项的图像处理方法。
这里需要指出的是:以上两实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,对于本发明实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解,为节约篇幅,因此不再赘述。
本发明实施例中,多个步骤之间的实现顺序在不影响实现目的的情况下可以替换。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种图像处理方法,其特征在于,包括:
构建字符图像训练集和字符图像测试集;
对非平滑非负矩阵分解函数添加稀疏约束条件,得到目标矩阵分解函数,其中,所述稀疏约束条件指范数约束条件;
利用所述目标矩阵分解函数训练所述字符图像训练集,得到对应目标矩阵,所述目标矩阵至少包括目标基矩阵和目标系数矩阵;
至少根据所述目标基矩阵计算对应于所述字符图像测试集中每一个字符图像测试样本的系数向量;
根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果;
所述目标矩阵还包括目标平滑矩阵,所述至少根据所述目标基矩阵计算对应于所述字符图像测试集中每一个字符图像测试样本的系数向量,包括:获取对应于所述字符图像测试集中的字符图像测试样本的第一向量数据;将所述第一向量数据对所述目标基矩阵和所述目标平滑矩阵进行映射,得到所述系数向量;
所述根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果包括:将所述系数向量与所述目标系数矩阵中的每一列数据进行分类计算,得到分类计算结果,所述每一列数据对应于所述字符图像训练集中的字符图像训练样本;将所述分类计算结果中满足第一条件的所述系数向量所对应的字符图像测试样本和所述每一列数据所对应的所述字符图像训练样本确定为同一类别字符。
2.根据权利要求1所述的方法, 所述非平滑非负矩阵分解函数包括基矩阵和系数矩阵,在所述非平滑非负矩阵分解函数上给所述基矩阵添加2-范数约束条件,给所述系数矩阵添加1-范数约束条件,得到所述目标矩阵分解函数。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述系数向量与所述目标系数矩阵中的每一列数据进行欧氏距离计算,得到分类计算结果。
4.一种图像处理装置,其特征在于,包括:
构建模块,用于构建字符图像训练集和字符图像测试集;
约束模块,用于对非平滑非负矩阵分解函数添加稀疏约束条件,得到目标矩阵分解函数,其中,所述稀疏约束条件指范数约束条件;
训练模块,用于利用所述目标矩阵分解函数训练所述字符图像训练集,得到对应目标矩阵,所述目标矩阵至少包括目标基矩阵和目标系数矩阵;
计算模块,用于至少根据所述目标基矩阵计算对应于所述字符图像测试集中每一个字符图像测试样本的系数向量;
分类模块,用于根据所述系数向量和所述目标系数矩阵对所述字符图像测试集进行字符分类,得到字符分类结果;
所述目标矩阵还包括目标平滑矩阵,所述计算模块,包括:获取单元,用于获取对应于所述字符图像测试集中的字符图像测试样本的第一向量数据;映射单元,用于将所述第一向量数据对所述目标基矩阵和所述目标平滑矩阵进行映射,得到所述系数向量;
所述分类模块,包括:计算单元,用于将所述系数向量与所述目标系数矩阵中的每一列数据进行分类计算,得到分类计算结果,所述每一列数据对应于所述字符图像训练集中的字符图像训练样本;确定单元,用于将所述分类计算结果中满足第一条件的所述系数向量所对应的字符图像测试样本和所述每一列数据所对应的所述字符图像训练样本确定为同一类别字符。
5.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行权利要求1-3中任一项所述的图像处理方法。
6.一种电子设备,包括存储器和处理器,所述存储器中储存有计算机程序指令,所述指令由所述处理器加载并执行以实现权利要求1-3中任一项所述的图像处理方法。
CN202011259035.9A 2020-11-12 2020-11-12 一种图像处理方法、装置及计算机存储介质和电子设备 Active CN112541502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011259035.9A CN112541502B (zh) 2020-11-12 2020-11-12 一种图像处理方法、装置及计算机存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011259035.9A CN112541502B (zh) 2020-11-12 2020-11-12 一种图像处理方法、装置及计算机存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN112541502A CN112541502A (zh) 2021-03-23
CN112541502B true CN112541502B (zh) 2022-06-10

Family

ID=75014003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011259035.9A Active CN112541502B (zh) 2020-11-12 2020-11-12 一种图像处理方法、装置及计算机存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN112541502B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073871A (zh) * 2011-01-12 2011-05-25 广州市伟时信息系统技术有限公司 一种基于非负矩阵分解的离线中文字符识别方法
CN103093184A (zh) * 2011-11-03 2013-05-08 南京理工大学常熟研究院有限公司 一种基于列向量展开二维主成分分析的人脸识别方法
CN103679715A (zh) * 2013-12-05 2014-03-26 宁波大学 一种基于非负矩阵分解的手机图像特征提取方法
CN104268510A (zh) * 2014-09-17 2015-01-07 西安电子科技大学 基于稀疏约束的非负矩阵分解的sar图像目标识别方法
CN104463084A (zh) * 2013-09-24 2015-03-25 江南大学 一种基于非负矩阵分解的离线手写签名识别
CN107122643A (zh) * 2017-04-07 2017-09-01 西安电子科技大学 基于ppg信号和呼吸信号特征融合的身份识别方法
CN108416374A (zh) * 2018-02-13 2018-08-17 中国科学院西安光学精密机械研究所 基于判别正交子空间约束的非负矩阵分解方法
WO2018149133A1 (zh) * 2017-02-17 2018-08-23 深圳大学 基于核非负矩阵分解的字典学习和稀疏特征表示的人脸识别方法及系统
CN110334761A (zh) * 2019-07-03 2019-10-15 北京林业大学 基于正交性约束增量非负矩阵分解的有监督图像识别方法
WO2020082315A2 (zh) * 2018-10-23 2020-04-30 深圳大学 一种非负特征提取及人脸识别应用方法、系统及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893954B (zh) * 2016-03-30 2019-04-23 深圳大学 一种基于核机器学习的非负矩阵分解人脸识别方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073871A (zh) * 2011-01-12 2011-05-25 广州市伟时信息系统技术有限公司 一种基于非负矩阵分解的离线中文字符识别方法
CN103093184A (zh) * 2011-11-03 2013-05-08 南京理工大学常熟研究院有限公司 一种基于列向量展开二维主成分分析的人脸识别方法
CN104463084A (zh) * 2013-09-24 2015-03-25 江南大学 一种基于非负矩阵分解的离线手写签名识别
CN103679715A (zh) * 2013-12-05 2014-03-26 宁波大学 一种基于非负矩阵分解的手机图像特征提取方法
CN104268510A (zh) * 2014-09-17 2015-01-07 西安电子科技大学 基于稀疏约束的非负矩阵分解的sar图像目标识别方法
WO2018149133A1 (zh) * 2017-02-17 2018-08-23 深圳大学 基于核非负矩阵分解的字典学习和稀疏特征表示的人脸识别方法及系统
CN107122643A (zh) * 2017-04-07 2017-09-01 西安电子科技大学 基于ppg信号和呼吸信号特征融合的身份识别方法
CN108416374A (zh) * 2018-02-13 2018-08-17 中国科学院西安光学精密机械研究所 基于判别正交子空间约束的非负矩阵分解方法
WO2020082315A2 (zh) * 2018-10-23 2020-04-30 深圳大学 一种非负特征提取及人脸识别应用方法、系统及存储介质
CN110334761A (zh) * 2019-07-03 2019-10-15 北京林业大学 基于正交性约束增量非负矩阵分解的有监督图像识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Character Recognition Analysis with Nonnegative Matrix Factorization";TOLGA ENSARİ等;《iaras,International Journal of Computers》;20160922;第2016年第1卷;第219-222页 *
"基于流形正则化的非光滑非负矩阵分解";姜伟等;《计算机科学》;20140331;第41卷(第3期);第272-275页 *

Also Published As

Publication number Publication date
CN112541502A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
US8849622B2 (en) Method and system of data modelling
CN104573729B (zh) 一种基于核主成分分析网络的图像分类方法
CN108415883B (zh) 基于子空间聚类的凸非负矩阵分解方法
CN107368807A (zh) 一种基于视觉词袋模型的监控视频车型分类方法
CN108121962B (zh) 基于非负自适应特征提取的人脸识别方法、装置及设备
CN109657611A (zh) 一种用于人脸识别的自适应图正则化非负矩阵分解方法
Salazar On Statistical Pattern Recognition in Independent Component Analysis Mixture Modelling
CN115995011B (zh) 基于图正则化的非线性正交非负矩阵分解图像聚类方法
CN111476100A (zh) 基于主成分分析的数据处理方法、装置及存储介质
EP4128094A1 (en) Efficient computational inference using gaussian processes
CN117236014A (zh) 基于深度非负矩阵分解的多视图聚类方法、设备和介质
CN112163114A (zh) 一种基于特征融合的图像检索方法
CN109034238A (zh) 一种基于信息熵的聚类划分方法
CN118397351A (zh) 一种小样本分类方法、系统、介质及设备
CN109657693B (zh) 一种基于相关熵和迁移学习的分类方法
CN114186620A (zh) 一种支持向量机的多维度训练方法及装置
CN112541502B (zh) 一种图像处理方法、装置及计算机存储介质和电子设备
CN110288002B (zh) 一种基于稀疏正交神经网络的图像分类方法
CN108009586B (zh) 封顶概念分解方法及图像聚类方法
Wang et al. Conscience online learning: an efficient approach for robust kernel-based clustering
Zhang Unsupervised learning algorithms in big data: an overview
CN113505838B (zh) 一种图像聚类方法、装置、电子设备及存储介质
CN111783816B (zh) 特征选择方法和装置、多媒体和网络数据降维方法和设备
Lu et al. Flower classification based on single petal image and machine learning methods
CN109711456B (zh) 一种具备鲁棒性的半监督图像聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant