CN114549928A - 图像增强处理方法、装置、计算机设备及存储介质 - Google Patents
图像增强处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114549928A CN114549928A CN202210156905.2A CN202210156905A CN114549928A CN 114549928 A CN114549928 A CN 114549928A CN 202210156905 A CN202210156905 A CN 202210156905A CN 114549928 A CN114549928 A CN 114549928A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- target image
- recognition model
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 156
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012216 screening Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013519 translation Methods 0.000 claims description 9
- 230000003321 amplification Effects 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 9
- 238000009826 distribution Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请为人工智能技术的神经网络技术领域,提供了一种图像增强处理方法、装置、计算机设备及存储介质,其中,该方法包括:利用数据增强算法对数据集的图像进行扩增,利用数字识别模型对目标图像进行分类,筛选出分类正确的第一目标图像及分类错误的第二目标图像;获取每种类别的第一目标图像的第一权重向量及特征向量,利用第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型;利用训练好的图像识别模型对第二目标图像进行预测,得到预测结果,根据预测结果生成第二权重向量,将第二权重向量与第二目标图像进行相乘后,得到质量增强的训练图像,从而可以抑制第二目标图像中存在的固有噪声,提高数据增强后的图像的质量。
Description
技术领域
本申请涉及人工智能技术的神经网络技术领域,具体而言,本申请涉及一种图像增强处理方法、装置、计算机设备及存储介质。
背景技术
当前,机器学习方法已经可以成熟地应用到各种高性能模型架构当中,但其泛化能力依然存在问题。就手写数字识别问题而言,在实际应用中获得的数据经常伴随着手写不规范、不同个体之间字迹存在差异以及存在不同程度的噪声等问题。
通过使用数据增强方法可以提高模型的泛化能力,减少过拟合,但现有的数据增强方法大多是通过简单的旋转、平移等来改变对目标的空间位置、大小等,数据增强后的图像还会存在连体、背景噪声等情况,质量较低。
发明内容
本申请的主要目的为提供一种图像增强处理方法、装置、计算机设备及存储介质,以提高数据增强后的图像的质量。
为了实现上述发明目的,本申请提供一种图像增强处理方法,其包括:
获取数据集;其中,所述数据集中包括多张手写数字的图像;
利用预设的数据增强算法对所述数据集的图像进行扩增,得到预设数量的目标图像;
利用预先训练好的数字识别模型对所述目标图像进行分类,得到所述目标图像的类别,并从所述目标图像中筛选出分类正确的第一目标图像及分类错误的第二目标图像;
获取每种类别的所述第一目标图像的第一权重向量及特征向量,根据所述第一权重向量及特征向量,利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型;
利用训练好的图像识别模型对所述第二目标图像进行预测,得到预测结果;
根据所述预测结果生成第二权重向量,将所述第二权重向量与所述第二目标图像进行相乘后,得到质量增强的训练图像。
优选地,所述获取每种类别的所述第一目标图像的第一权重向量及特征向量,包括:
根据所述第一目标图像的类别从预先构建的对照表中查询对应的权重向量,得到第一权重向量;其中,所述对照表记录了每种类别的图像对应的权重向量;
获取所述第一目标图像的特征信息,将所述特征信息转换为向量形式,得到所述第一目标图像的特征向量。
优选地,所述获取所述第一目标图像的特征信息,将所述特征信息转换为向量形式,得到所述第一目标图像的特征向量,包括:
当确定所述第一目标图像的数量为多张时,获取每张所述第一目标图像的所有特征信息;
计算每个所述特征信息在多张所述第一目标图像出现的频率;
从所有所述特征信息中筛选出频率最高的特征信息,得到目标特征信息;
将所述目标特征信息转换为向量形式,得到多张所述第一目标图像的特征向量。
优选地,所述根据所述预测结果生成第二权重向量,包括:
根据所述预测结果确定所述第二目标图像分类错误的错误信息,得到所述第二目标图像的参考错误信息;
根据所述参考错误信息对所述第二目标图像进行校准,得到校准信息;
将所述校准信息转换为词向量形式,得到所述第二权重向量。
优选地,所述利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型,包括:
利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练结果;
根据所述训练结果,利用交叉熵损失函数计算所述图像识别模型训练后的损失值;
判断所述损失值是否低于预设损失值;
当判定所述损失值低于预设损失值时,得到训练好的图像识别模型。
进一步地,所述判断所述损失值是否低于预设损失值之后,还包括:
当判定所述损失值不低于预设损失值时,根据所述损失值调整所述图像识别模型的参数;
利用所述第一目标图像对调整参数后的所述图像识别模型进行再次训练,直至所述损失值低于预设损失值时停止训练,得到训练好的图像识别模型。
优选地,所述利用预设的数据增强算法对所述数据集的图像进行扩增,得到预设数量的目标图像,包括:
对所述数据集的图像进行旋转、平移、缩放或翻转中的至少一项数据增强处理方式,得到预设数量的目标图像。
本申请还提供一种图像增强处理装置,其包括:
获取模块,用于获取数据集;其中,所述数据集中包括多张手写数字的图像;
扩增模块,用于利用预设的数据增强算法对所述数据集的图像进行扩增,得到预设数量的目标图像;
分类模块,用于利用预先训练好的数字识别模型对所述目标图像进行分类,得到所述目标图像的类别,并从所述目标图像中筛选出分类正确的第一目标图像及分类错误的第二目标图像;
训练模块,用于获取每种类别的所述第一目标图像的第一权重向量及特征向量,根据所述第一权重向量及特征向量,利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型;
预测模块,用于利用训练好的图像识别模型对所述第二目标图像进行预测,得到预测结果;
生成模块,用于根据所述预测结果生成第二权重向量,将所述第二权重向量与所述第二目标图像进行相乘后,得到质量增强的训练图像。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本申请所提供的一种图像增强处理方法、装置、计算机设备及存储介质,获取数据集,利用预设的数据增强算法对数据集的图像进行扩增,得到预设数量的目标图像;利用预先训练好的数字识别模型对目标图像进行分类,得到目标图像的类别,并从目标图像中筛选出分类正确的第一目标图像及分类错误的第二目标图像;获取每种类别的第一目标图像的第一权重向量及特征向量,根据第一权重向量及特征向量,利用第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型;利用训练好的图像识别模型对第二目标图像进行预测,得到预测结果,根据预测结果生成第二权重向量,将第二权重向量与第二目标图像进行相乘后,得到质量增强的训练图像,从而基于分类正确的第一目标图像训练得到训练好的图像识别模型,利用训练好的图像识别模型对分类错误的第二目标图像进行预测,基于预测结果调整分类错误的第二目标图像,以提高第二目标图像的分类质量;此外,通过将第二权重向量与第二目标图像进行相乘,可以抑制第二目标图像中存在的固有噪声,并消除对分类具有消极贡献的分量,减少因书写习惯和风格的不同而带来的分类误差,得到质量增强的训练图像;同时本申请通过人工智能的方式自动化增强图像质量,提高图像增强处理的效率。
附图说明
图1为本申请一实施例的图像增强处理方法的流程示意图;
图2为本申请一实施例的图像增强处理装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提出一种图像增强处理方法,本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请提出的一种图像增强处理方法,以服务器为执行主体,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
该图像增强处理方法用于提高数据增强后的图像的质量。参考图1,其中一个实施例中,该图像增强处理方法包括:
S11、获取数据集;其中,所述数据集中包括多张手写数字的图像;
S12、利用预设的数据增强算法对所述数据集的图像进行扩增,得到预设数量的目标图像;
S13、利用预先训练好的数字识别模型对所述目标图像进行分类,得到所述目标图像的类别,并从所述目标图像中筛选出分类正确的第一目标图像及分类错误的第二目标图像;
S14、获取每种类别的所述第一目标图像的第一权重向量及特征向量,根据所述第一权重向量及特征向量,利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型;
S15、利用训练好的图像识别模型对所述第二目标图像进行预测,得到预测结果;
S16、根据所述预测结果生成第二权重向量,将所述第二权重向量与所述第二目标图像进行相乘后,得到质量增强的训练图像。
在本实施例中,通过使用数据增强可以提高模型的泛化能力,减少过拟合,但现有的数据增强方法大多是通过简单的旋转、平移等来改变对目标的空间位置、大小等进行调整。然而我们所获得的数据集中,来自不同区域的人书写风格是不同的,同时还会存在连体、背景噪声等情况,这给模型的识别增加了难度,因此本申请可通过一定的技术方法来对数据进行微调和修饰可以提高图像的质量,以提高模型的分类精度。
具体的,如上述步骤S11所述,数据集中包括多张手写数字的图像,如手写的罗马数字,手写罗马数字虽然只有10个种类,但大多数应用场景下对识别的精度还是相当高的,因为它经常被应用于金融、财务等方面。
如上述步骤S12所述,在手写罗马数字的数据集中,每个数据集的图像的总数大概都在200张左右,因此通过人工方法对数据质量进行评价和修改将是费时费力的,也无法实现自动化线上应用。因此本实施例需要预设的数据增强算法对数据集的图像进行扩增,得到预设数量的目标图像。
数据增强方法可包括旋转、平移、镜像、缩放等等,可以采用其中一种数据增强方法,也可以多种数据增强方法进行组合,对数据集扩增到2000张,以提供足够的训练样本,避免网络在训练过程中出现过拟合。
如上述步骤S13所述,本实施例使用预先训练好的数字识别模型对数据增强处理后的目标图像进行分类,并可通过人工筛选或机器筛选的方式分别找出目标图像中分类正确的第一目标图像及分类错误的第二目标图像。
例如,手写罗马数字虽然有10个种类,因此可使用预先训练好的数字识别模型将目标图像按照这10个种类进行分类,并可通过人工筛选或机器筛选的方式分别找出目标图像中分类正确的第一目标图像及分类错误的第二目标图像。
如上述步骤S14所述,每种类别的第一目标图像对应唯一的第一权重向量,如数字为1的第一权重向量对应为a1,数字为2的第一权重向量对应为a2,以此类推;第一目标图像的特征向量则基于其特征信息进行生成,本实施例可获取每种类别的第一目标图像的第一权重向量及特征向量,根据第一权重向量及特征向量,利用第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型。图像识别模型在训练后,可采用交叉熵损失函数计算训练后的图像识别模型的损失值,在损失值满足要求后,则得到训练好的图像识别模型。
其中,交叉熵用于度量两个概率分布间的差异性,交叉熵损失函数用来测量最终的性能预测概率与真实性能之间的误差。图像识别模型的交叉熵损失函数越小,适应度越小,则性能预测方法的预测效果越好。
对于分类正确的数据,我们认为它们之间具有较好的分布一致性,因此我们首先使用这部分数据来训练图像识别模型,并获得每一类别的权重向量,寻找对分类结果有决定性影响的特征。其中,图像识别模型为卷积动态配准网络(Dynamic Alignment Network,DAU),由于卷积动态配准网络在训练时就会将权重与输入的特征向量进行对齐,因此我们通过可视化网络权重即可得到输入的特征向量。
如上述步骤S15-S16所述,本实施例可使用训练好的图像识别模型对分类错误的第二目标图像进行预测,得到预测结果,预测结果包括分类错误的图像位置及分类错误的原因等信息,根据预测结果生成第二权重向量,将第二权重向量与第二目标图像进行相乘后,得到质量增强的训练图像,从而抑制第二目标图像中存在的固有噪声,得到质量增强的第二目标图像。
而对于分类正确的第一目标图像,则直接使用镜像、缩放、旋转等方法扩增,使得扩增后的数据总数为原来的2倍,并将扩增后的第一目标图像添加至所述训练图像中,以得到质量较高的训练图像。
本申请所提供的一种图像增强处理方法,获取数据集,利用预设的数据增强算法对数据集的图像进行扩增,得到预设数量的目标图像;利用预先训练好的数字识别模型对目标图像进行分类,得到目标图像的类别,并从目标图像中筛选出分类正确的第一目标图像及分类错误的第二目标图像;获取每种类别的第一目标图像的第一权重向量及特征向量,根据第一权重向量及特征向量,利用第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型;利用训练好的图像识别模型对第二目标图像进行预测,得到预测结果,根据预测结果生成第二权重向量,将第二权重向量与第二目标图像进行相乘后,得到质量增强的训练图像,从而基于分类正确的第一目标图像训练得到训练好的图像识别模型,利用训练好的图像识别模型对分类错误的第二目标图像进行预测,基于预测结果调整分类错误的第二目标图像,以提高第二目标图像的分类质量;此外,通过将第二权重向量与第二目标图像进行相乘,可以抑制第二目标图像中存在的固有噪声,并消除对分类具有消极贡献的分量,减少因书写习惯和风格的不同而带来的分类误差,得到质量增强的训练图像;同时本申请通过人工智能的方式自动化增强图像质量,提高图像增强处理的效率。
在一实施例中,所述获取每种类别的所述第一目标图像的第一权重向量及特征向量,可具体包括:
根据所述第一目标图像的类别从预先构建的对照表中查询对应的权重向量,得到第一权重向量;其中,所述对照表记录了每种类别的图像对应的权重向量;
获取所述第一目标图像的特征信息,将所述特征信息转换为向量形式,得到所述第一目标图像的特征向量。
在本实施例中,可预先构建一个对照表,用于记录每种类别的图像对应的权重向量,如数字为1的权重向量对应为a1,数字为2的第一权重向量对应为a2,以此类推。然后根据第一目标图像的类别从预先构建的对照表中查询对应的权重向量,得到第一权重向量。
此外,本实施例可获取第一目标图像的特征信息,特征信息包括手写数字的外形、与标准数字的差异等等,将特征信息转换为向量形式,得到第一目标图像的特征向量,如对每一种特征信息按照预设规则赋予一定的数值作为特征值,多种特征信息的特征值组合起来得到第一目标图像的特征向量。
在一实施例中,所述获取所述第一目标图像的特征信息,将所述特征信息转换为向量形式,得到所述第一目标图像的特征向量,可具体包括:
当确定所述第一目标图像的数量为多张时,获取每张所述第一目标图像的所有特征信息;
计算每个所述特征信息在多张所述第一目标图像出现的频率;
从所有所述特征信息中筛选出频率最高的特征信息,得到目标特征信息;
将所述目标特征信息转换为向量形式,得到多张所述第一目标图像的特征向量。
本实施例通过寻找多张第一目标图像中最为频繁的特征向量来对结果进行解释。具体的,手写数字虽然会因为个人书写习惯不同而存在差异,但数字的形态是具有规范化的标准的,即人们不会将数字Ⅱ错认为Ⅴ。因此,本实施例将进一步探索不同类别数据之间的潜在一致性,即希望找到在多张第一目标图像中出现最为频繁的特征向量,并将其作为分类的依据。为此,本实施例可使用卷积动态配准网络(Dynamic Alignment Network,DAU)来实现不同类别的特征匹配。该网络的基本单元由一个线性操作和一个非线性的范数缩放模块组成,希望网络的输出在对应类别上最大化,类似于低阶矩阵近似问题,实现网络输出最大化的过程等价于寻找输入的特征向量。
因此,可将多张第一目标图像输入卷积动态配准网络中,在该卷积动态配准网络中,可获取每张第一目标图像的所有特征信息,计算每个特征信息在多张第一目标图像出现的频率,从所有特征信息中筛选出频率最高的特征信息,得到目标特征信息,将目标特征信息转换为向量形式,得到多张第一目标图像的特征向量。
在一实施例中,所述根据所述预测结果生成第二权重向量,可具体包括:
根据所述预测结果确定所述第二目标图像分类错误的错误信息,得到所述第二目标图像的参考错误信息;
根据所述参考错误信息对所述第二目标图像进行校准,得到校准信息;
将所述校准信息转换为词向量形式,得到所述第二权重向量。
本实施例根据预测结果确定第二目标图像分类错误的错误信息,得到第二目标图像的参考错误信息,如将数字1按照数字2进行分类,则将第二目标图像与数字2相似的信息作为参考错误信息,根据参考错误信息对第二目标图像进行校准,得到校准信息,将校准信息转换为词向量形式,得到第二权重向量,如将第二目标图像与数字2相似的信息进行调整,使其与数字1接近,得到校准信息,利用校准信息对第二目标图像进行调整,以提高第二目标图像的质量。
在一实施例中,所述利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型,可具体包括:
利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练结果;
根据所述训练结果,利用交叉熵损失函数计算所述图像识别模型训练后的损失值;
判断所述损失值是否低于预设损失值;
当判定所述损失值低于预设损失值时,得到训练好的图像识别模型。
在本实施例中,在对图像识别模型每次训练后,可利用预设的损失函数计算每次训练完成后的图像识别模型的损失值,并在损失值满足预设阈值或小于预设损失值时,即满足要求,则表明图像识别模型达到训练要求,完成所述图像识别模型的训练,以提高图像识别模型的识别效果。其中,损失函数用来评价图像识别模型的预测值和真实值不一样的程度,损失函数越好,通常图像识别模型的性能越好。
在一实施例中,所述判断所述损失值是否低于预设损失值之后,还可包括:
当判定所述损失值不低于预设损失值时,根据所述损失值调整所述图像识别模型的参数;
利用所述第一目标图像对调整参数后的所述图像识别模型进行再次训练,直至所述损失值低于预设损失值时停止训练,得到训练好的图像识别模型。
在本实施例中,当图像识别模型的损失值不小于预设损失值时,则可根据损失值在图像识别模型的神经网络结构中进行前向传递,调整图像识别模型的相关参数,基于重新设置的相关参数对调整后的图像识别模型进行重新训练,直至图像识别模型的损失值小于预设损失值为止,至此图像识别模型训练结束,得到训练结果满足要求的图像识别模型,进而得到训练好的图像识别模型。
在一实施例中,所述利用预设的数据增强算法对所述数据集的图像进行扩增,得到预设数量的目标图像,可具体包括:
对所述数据集的图像进行旋转、平移、缩放或翻转中的至少一项数据增强处理方式,得到预设数量的目标图像。
在本实施例中,数据增强处理方式可以是对数据集的图像进行旋转、平移、缩放或翻转中的一种,也可以是多种数据增强处理方式进行组合后,对数据集的图像进行数据扩增,得到预设数量的目标图像,例如,可首先对图像按照预设角度进行转动,然后对转动后的目标进行翻转,得到一张目标图像。
在一实施例中,当图像中的目标物的尺寸比例大于预设尺寸比例时,此时的数据增强处理方式一般为不对图像进行大规模调整的操作方式,一般仅对图像进行微调,如对所述图像按照小于预设缩放比例的缩放比例进行缩小、随机水平翻转、随机竖直翻转、随机调整图片亮度与对比度、按照小于预设角度的角度进行旋转或随机调整所述目标物的颜色中的任意至少一种策略。其中,该目标物可以是行人、人脸等等。
参照图2,本申请实施例中还提供一种图像增强处理装置,包括:
获取模块11,用于获取数据集;其中,所述数据集中包括多张手写数字的图像;
扩增模块12,用于利用预设的数据增强算法对所述数据集的图像进行扩增,得到预设数量的目标图像;
分类模块13,用于利用预先训练好的数字识别模型对所述目标图像进行分类,得到所述目标图像的类别,并从所述目标图像中筛选出分类正确的第一目标图像及分类错误的第二目标图像;
训练模块14,用于获取每种类别的所述第一目标图像的第一权重向量及特征向量,根据所述第一权重向量及特征向量,利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型;
预测模块15,用于利用训练好的图像识别模型对所述第二目标图像进行预测,得到预测结果;
生成模块16,用于根据所述预测结果生成第二权重向量,将所述第二权重向量与所述第二目标图像进行相乘后,得到质量增强的训练图像。
在本实施例中,通过使用数据增强可以提高模型的泛化能力,减少过拟合,但现有的数据增强方法大多是通过简单的旋转、平移等来改变对目标的空间位置、大小等进行调整。然而我们所获得的数据集中,来自不同区域的人书写风格是不同的,同时还会存在连体、背景噪声等情况,这给模型的识别增加了难度,因此本申请可通过一定的技术方法来对数据进行微调和修饰可以提高图像的质量,以提高模型的分类精度。
具体的,数据集中包括多张手写数字的图像,如手写的罗马数字,手写罗马数字虽然只有10个种类,但大多数应用场景下对识别的精度还是相当高的,因为它经常被应用于金融、财务等方面。
在手写罗马数字的数据集中,每个数据集的图像的总数大概都在200张左右,因此通过人工方法对数据质量进行评价和修改将是费时费力的,也无法实现自动化线上应用。因此本实施例需要预设的数据增强算法对数据集的图像进行扩增,得到预设数量的目标图像。
数据增强方法可包括旋转、平移、镜像、缩放等等,可以采用其中一种数据增强方法,也可以多种数据增强方法进行组合,对数据集扩增到2000张,以提供足够的训练样本,避免网络在训练过程中出现过拟合。
本实施例使用预先训练好的数字识别模型对数据增强处理后的目标图像进行分类,并可通过人工筛选或机器筛选的方式分别找出目标图像中分类正确的第一目标图像及分类错误的第二目标图像。
例如,手写罗马数字虽然有10个种类,因此可使用预先训练好的数字识别模型将目标图像按照这10个种类进行分类,并可通过人工筛选或机器筛选的方式分别找出目标图像中分类正确的第一目标图像及分类错误的第二目标图像。
每种类别的第一目标图像对应唯一的第一权重向量,如数字为1的第一权重向量对应为a1,数字为2的第一权重向量对应为a2,以此类推;第一目标图像的特征向量则基于其特征信息进行生成,本实施例可获取每种类别的第一目标图像的第一权重向量及特征向量,根据第一权重向量及特征向量,利用第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型。图像识别模型在训练后,可采用交叉熵损失函数计算训练后的图像识别模型的损失值,在损失值满足要求后,则得到训练好的图像识别模型。
其中,交叉熵用于度量两个概率分布间的差异性,交叉熵损失函数用来测量最终的性能预测概率与真实性能之间的误差。图像识别模型的交叉熵损失函数越小,适应度越小,则性能预测方法的预测效果越好。
对于分类正确的数据,我们认为它们之间具有较好的分布一致性,因此我们首先使用这部分数据来训练图像识别模型,并获得每一类别的权重向量,寻找对分类结果有决定性影响的特征。其中,图像识别模型为卷积动态配准网络(Dynamic Alignment Network,DAU),由于卷积动态配准网络在训练时就会将权重与输入的特征向量进行对齐,因此我们通过可视化网络权重即可得到输入的特征向量。
本实施例可使用训练好的图像识别模型对分类错误的第二目标图像进行预测,得到预测结果,预测结果包括分类错误的图像位置及分类错误的原因等信息,根据预测结果生成第二权重向量,将第二权重向量与第二目标图像进行相乘后,得到质量增强的训练图像,从而抑制第二目标图像中存在的固有噪声,得到质量增强的第二目标图像。
而对于分类正确的第一目标图像,则直接使用镜像、缩放、旋转等方法扩增,使得扩增后的数据总数为原来的2倍,并将扩增后的第一目标图像添加至所述训练图像中,以得到质量较高的训练图像。
如上所述,可以理解地,本申请中提出的所述图像增强处理装置的各组成部分可以实现如上所述图像增强处理方法任一项的功能,具体结构不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储所述图像增强处理方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像增强处理方法。
上述处理器执行上述的图像增强处理方法,包括:
获取数据集;其中,所述数据集中包括多张手写数字的图像;
利用预设的数据增强算法对所述数据集的图像进行扩增,得到预设数量的目标图像;
利用预先训练好的数字识别模型对所述目标图像进行分类,得到所述目标图像的类别,并从所述目标图像中筛选出分类正确的第一目标图像及分类错误的第二目标图像;
获取每种类别的所述第一目标图像的第一权重向量及特征向量,根据所述第一权重向量及特征向量,利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型;
利用训练好的图像识别模型对所述第二目标图像进行预测,得到预测结果;
根据所述预测结果生成第二权重向量,将所述第二权重向量与所述第二目标图像进行相乘后,得到质量增强的训练图像。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种图像增强处理方法,包括步骤:
获取数据集;其中,所述数据集中包括多张手写数字的图像;
利用预设的数据增强算法对所述数据集的图像进行扩增,得到预设数量的目标图像;
利用预先训练好的数字识别模型对所述目标图像进行分类,得到所述目标图像的类别,并从所述目标图像中筛选出分类正确的第一目标图像及分类错误的第二目标图像;
获取每种类别的所述第一目标图像的第一权重向量及特征向量,根据所述第一权重向量及特征向量,利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型;
利用训练好的图像识别模型对所述第二目标图像进行预测,得到预测结果;
根据所述预测结果生成第二权重向量,将所述第二权重向量与所述第二目标图像进行相乘后,得到质量增强的训练图像。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本申请的最大有益效果在于:
本申请所提供的一种图像增强处理方法、装置、计算机设备及存储介质,获取数据集,利用预设的数据增强算法对数据集的图像进行扩增,得到预设数量的目标图像;利用预先训练好的数字识别模型对目标图像进行分类,得到目标图像的类别,并从目标图像中筛选出分类正确的第一目标图像及分类错误的第二目标图像;获取每种类别的第一目标图像的第一权重向量及特征向量,根据第一权重向量及特征向量,利用第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型;利用训练好的图像识别模型对第二目标图像进行预测,得到预测结果,根据预测结果生成第二权重向量,将第二权重向量与第二目标图像进行相乘后,得到质量增强的训练图像,从而基于分类正确的第一目标图像训练得到训练好的图像识别模型,利用训练好的图像识别模型对分类错误的第二目标图像进行预测,基于预测结果调整分类错误的第二目标图像,以提高第二目标图像的分类质量;此外,通过将第二权重向量与第二目标图像进行相乘,可以抑制第二目标图像中存在的固有噪声,并消除对分类具有消极贡献的分量,减少因书写习惯和风格的不同而带来的分类误差,得到质量增强的训练图像;同时本申请通过人工智能的方式自动化增强图像质量,提高图像增强处理的效率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种图像增强处理方法,其特征在于,包括:
获取数据集;其中,所述数据集中包括多张手写数字的图像;
利用预设的数据增强算法对所述数据集的图像进行扩增,得到预设数量的目标图像;
利用预先训练好的数字识别模型对所述目标图像进行分类,得到所述目标图像的类别,并从所述目标图像中筛选出分类正确的第一目标图像及分类错误的第二目标图像;
获取每种类别的所述第一目标图像的第一权重向量及特征向量,根据所述第一权重向量及特征向量,利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型;
利用训练好的图像识别模型对所述第二目标图像进行预测,得到预测结果;
根据所述预测结果生成第二权重向量,将所述第二权重向量与所述第二目标图像进行相乘后,得到质量增强的训练图像。
2.根据权利要求1所述的方法,其特征在于,所述获取每种类别的所述第一目标图像的第一权重向量及特征向量,包括:
根据所述第一目标图像的类别从预先构建的对照表中查询对应的权重向量,得到第一权重向量;其中,所述对照表记录了每种类别的图像对应的权重向量;
获取所述第一目标图像的特征信息,将所述特征信息转换为向量形式,得到所述第一目标图像的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述获取所述第一目标图像的特征信息,将所述特征信息转换为向量形式,得到所述第一目标图像的特征向量,包括:
当确定所述第一目标图像的数量为多张时,获取每张所述第一目标图像的所有特征信息;
计算每个所述特征信息在多张所述第一目标图像出现的频率;
从所有所述特征信息中筛选出频率最高的特征信息,得到目标特征信息;
将所述目标特征信息转换为向量形式,得到多张所述第一目标图像的特征向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述预测结果生成第二权重向量,包括:
根据所述预测结果确定所述第二目标图像分类错误的错误信息,得到所述第二目标图像的参考错误信息;
根据所述参考错误信息对所述第二目标图像进行校准,得到校准信息;
将所述校准信息转换为词向量形式,得到所述第二权重向量。
5.根据权利要求1所述的方法,其特征在于,所述利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型,包括:
利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练结果;
根据所述训练结果,利用交叉熵损失函数计算所述图像识别模型训练后的损失值;
判断所述损失值是否低于预设损失值;
当判定所述损失值低于预设损失值时,得到训练好的图像识别模型。
6.根据权利要求5所述的方法,其特征在于,所述判断所述损失值是否低于预设损失值之后,还包括:
当判定所述损失值不低于预设损失值时,根据所述损失值调整所述图像识别模型的参数;
利用所述第一目标图像对调整参数后的所述图像识别模型进行再次训练,直至所述损失值低于预设损失值时停止训练,得到训练好的图像识别模型。
7.根据权利要求1所述的方法,其特征在于,所述利用预设的数据增强算法对所述数据集的图像进行扩增,得到预设数量的目标图像,包括:
对所述数据集的图像进行旋转、平移、缩放或翻转中的至少一项数据增强处理方式,得到预设数量的目标图像。
8.一种图像增强处理装置,其特征在于,包括:
获取模块,用于获取数据集;其中,所述数据集中包括多张手写数字的图像;
扩增模块,用于利用预设的数据增强算法对所述数据集的图像进行扩增,得到预设数量的目标图像;
分类模块,用于利用预先训练好的数字识别模型对所述目标图像进行分类,得到所述目标图像的类别,并从所述目标图像中筛选出分类正确的第一目标图像及分类错误的第二目标图像;
训练模块,用于获取每种类别的所述第一目标图像的第一权重向量及特征向量,根据所述第一权重向量及特征向量,利用所述第一目标图像对预先构建的图像识别模型进行训练,得到训练好的图像识别模型;
预测模块,用于利用训练好的图像识别模型对所述第二目标图像进行预测,得到预测结果;
生成模块,用于根据所述预测结果生成第二权重向量,将所述第二权重向量与所述第二目标图像进行相乘后,得到质量增强的训练图像。
9.一种计算机设备,其特征在于,包括:
处理器;
存储器;
其中,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的图像增强处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1-7任一项所述的图像增强处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210156905.2A CN114549928B (zh) | 2022-02-21 | 2022-02-21 | 图像增强处理方法、装置、计算机设备及存储介质 |
PCT/CN2022/090167 WO2023155299A1 (zh) | 2022-02-21 | 2022-04-29 | 图像增强处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210156905.2A CN114549928B (zh) | 2022-02-21 | 2022-02-21 | 图像增强处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114549928A true CN114549928A (zh) | 2022-05-27 |
CN114549928B CN114549928B (zh) | 2024-09-20 |
Family
ID=81675921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210156905.2A Active CN114549928B (zh) | 2022-02-21 | 2022-02-21 | 图像增强处理方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114549928B (zh) |
WO (1) | WO2023155299A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862022A (zh) * | 2023-01-31 | 2023-03-28 | 深圳前海环融联易信息科技服务有限公司 | 图像矫正方法及其装置、设备、存储介质、产品 |
CN116994019A (zh) * | 2022-09-30 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 模型训练方法、相关设备、存储介质及计算机产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060147107A1 (en) * | 2005-01-04 | 2006-07-06 | Microsoft Corporation | Method and system for learning-based quality assessment of images |
CN111291841A (zh) * | 2020-05-13 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置、计算机设备和存储介质 |
CN111914939A (zh) * | 2020-08-06 | 2020-11-10 | 平安科技(深圳)有限公司 | 识别模糊图像的方法、装置、设备及计算机可读存储介质 |
CN113283446A (zh) * | 2021-05-27 | 2021-08-20 | 平安科技(深圳)有限公司 | 图像中目标物识别方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555431B (zh) * | 2019-09-10 | 2022-12-13 | 杭州橙鹰数据技术有限公司 | 一种图像识别的方法和装置 |
US11232328B2 (en) * | 2020-01-31 | 2022-01-25 | Element Ai Inc. | Method of and system for joint data augmentation and classification learning |
CN112396005A (zh) * | 2020-11-23 | 2021-02-23 | 平安科技(深圳)有限公司 | 生物特征图像识别方法、装置、电子设备及可读存储介质 |
-
2022
- 2022-02-21 CN CN202210156905.2A patent/CN114549928B/zh active Active
- 2022-04-29 WO PCT/CN2022/090167 patent/WO2023155299A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060147107A1 (en) * | 2005-01-04 | 2006-07-06 | Microsoft Corporation | Method and system for learning-based quality assessment of images |
CN111291841A (zh) * | 2020-05-13 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置、计算机设备和存储介质 |
CN111914939A (zh) * | 2020-08-06 | 2020-11-10 | 平安科技(深圳)有限公司 | 识别模糊图像的方法、装置、设备及计算机可读存储介质 |
CN113283446A (zh) * | 2021-05-27 | 2021-08-20 | 平安科技(深圳)有限公司 | 图像中目标物识别方法、装置、电子设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994019A (zh) * | 2022-09-30 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 模型训练方法、相关设备、存储介质及计算机产品 |
CN115862022A (zh) * | 2023-01-31 | 2023-03-28 | 深圳前海环融联易信息科技服务有限公司 | 图像矫正方法及其装置、设备、存储介质、产品 |
CN115862022B (zh) * | 2023-01-31 | 2023-07-14 | 深圳前海环融联易信息科技服务有限公司 | 图像矫正方法及其装置、设备、存储介质、产品 |
Also Published As
Publication number | Publication date |
---|---|
WO2023155299A1 (zh) | 2023-08-24 |
CN114549928B (zh) | 2024-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860670B (zh) | 域自适应模型训练、图像检测方法、装置、设备及介质 | |
CN111860674A (zh) | 样本类别识别方法、装置、计算机设备及存储介质 | |
CN110705233B (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
CN114549928A (zh) | 图像增强处理方法、装置、计算机设备及存储介质 | |
CN110866530A (zh) | 一种字符图像识别方法、装置及电子设备 | |
CN111651992A (zh) | 命名实体标注方法、装置、计算机设备和存储介质 | |
US20200134382A1 (en) | Neural network training utilizing specialized loss functions | |
CN112614125B (zh) | 手机玻璃缺陷检测方法、装置、计算机设备及存储介质 | |
CN111652264B (zh) | 基于最大均值差异的负迁移样本筛选方法 | |
CN111666974B (zh) | 图像匹配方法、装置、计算机设备及存储介质 | |
CN112686255A (zh) | 基于霍夫变换的印章识别方法、装置、设备和存储介质 | |
CN112699941A (zh) | 植物病害严重程度图像分类方法、装置、计算机设备和存储介质 | |
CN114742520A (zh) | 岗位匹配方法、装置、设备及存储介质 | |
CN114743067A (zh) | 训练数据的增强方法、装置、计算机设备及存储介质 | |
CN114626524A (zh) | 目标业务网络确定方法、业务处理方法及装置 | |
CN113313179B (zh) | 一种基于l2p范数鲁棒最小二乘法的噪声图像分类方法 | |
CN113762005B (zh) | 特征选择模型的训练、对象分类方法、装置、设备及介质 | |
CN118037423A (zh) | 农业贷款后农户还款意愿评价方法及系统 | |
US20200134357A1 (en) | Neural-network-based optical character recognition using specialized confidence functions | |
CN112287662A (zh) | 基于多个机器学习模型的自然语言处理方法、装置和设备 | |
CN111461177A (zh) | 一种图像的识别方法及装置 | |
CN116523019A (zh) | 文本分类模型训练方法、装置、计算机设备及存储介质 | |
CN112801214B (zh) | 基于鼠类识别终端与云计算平台交互的老鼠数量预测方法 | |
KR20190078710A (ko) | 이미지 분류 시스템 및 방법 | |
CN114972792A (zh) | 基于双模态特征融合的问答方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |