CN113255433A - 模型训练方法、装置和计算机存储介质 - Google Patents
模型训练方法、装置和计算机存储介质 Download PDFInfo
- Publication number
- CN113255433A CN113255433A CN202110368823.XA CN202110368823A CN113255433A CN 113255433 A CN113255433 A CN 113255433A CN 202110368823 A CN202110368823 A CN 202110368823A CN 113255433 A CN113255433 A CN 113255433A
- Authority
- CN
- China
- Prior art keywords
- image
- frequency domain
- frequency
- model training
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000001131 transforming effect Effects 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 76
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 8
- 238000005315 distribution function Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种模型训练方法、装置和计算机存储介质,该模型训练方法包括:获取包含目标对象的第一图像;将所述第一图像从空域变换到频域,以得到第一频域图像;去除所述第一频域图像中的预设高频信息,以得到第二频域图像;将所述第二频域图像从频域逆变换到空域,以得到包含目标对象的第二图像;将第二图像作为训练样本,对用于识别目标对象的模型进行训练。该模型训练方法、装置和计算机存储介质在频域中去除了图像中的高频信息,不影响图像语义,利用处理后的图像训练得到的模型鲁棒性更高。
Description
技术领域
本发明涉及图像处理技术领域,更具体地涉及一种模型训练方法、装置和计算机存储介质。
背景技术
随着人工智能技术的发展与推进,基于深度学习的计算机视觉技术在人脸识别、自动驾驶、质量检测等方面的应用越来越广泛。计算机视觉有七类分类问题:不同的视角,不同的大小,物体的形变问题,物体的遮挡问题,光照条件,背景复杂的问题,每一类中有多种形态的问题。
深度学习模型的效果很大程度上依赖于训练数据集的规模和质量,以便模型学习到足够的特征来实现。然而,在实际应用中经常无法获取到足够规模或足够优质的图像作为训练样本,从而无法满足深度学习模型的训练需求。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
本发明实施例第一方面提供了一种模型训练方法,所述方法包括:
获取包含目标对象的第一图像;
将所述第一图像从空域变换到频域,以得到第一频域图像;
去除所述第一频域图像中的预设高频信息,以得到第二频域图像;
将所述第二频域图像从频域逆变换到空域,以得到包含所述目标对象的第二图像;
将所述第二图像作为训练样本,对用于识别所述目标对象的模型进行训练。
在一个实施例中,用于训练所述模型的训练样本还包括所述第一图像。
在一个实施例中,所述预设高频信息包括所述第一频域图像中高于预设数值的频域信息。
在一个实施例中,所述将所述第一图像从空域变换到频域,得到第一频域图像,包括:对所述第一图像的第一像素矩阵进行傅里叶变换,以得到所述第一频域图像的第一频域矩阵;
所述去除所述第一频域图像中高于预设数值的高频信息包括:降低所述第一频域矩阵中高于预设数值的频率分量所对应的幅值,以得到所述第二频域图像的第二频域矩阵。
在一个实施例中,所述降低所述第一频域矩阵中高于预设数值的频率分量所对应的幅值,包括:对所述第一频域矩阵中高于预设数值的频率分量所对应的幅值进行置零处理。
在一个实施例中,所述第一频域矩阵中高于预设数值的频率分量所对应的幅值包括:所述第一频域矩阵中高于第一预设数值的第一频率分量、和/或高于第二预设数值的第二频率分量所对应的幅值,所述第一预设数值与所述第二预设数值相等或不相等。
在一个实施例中,所述将所述第二频域图像从频域逆变换到空域,以得到第二图像,包括:对所述第二频域矩阵进行傅里叶逆变换,以得到所述第二图像的第二像素矩阵。
在一个实施例中,所述第一图像为灰度图像,所述第一频域图像表示所述第一图像的灰度变化程度;或者,所述第一图像为彩色图像,所述第一频域图像表示所述第一图像的色彩变化程度。
本发明实施例第二方面提供一种模型训练装置,所述模型训练装置包括存储装置和处理器,所述存储装置上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时执行如上所述的模型训练方法。
本发明实施例第三方面提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序在运行时执行如上所述的模型训练方法。
本发明实施例的模型训练方法、装置和计算机存储介质在频域中去除了图像中的高频信息,不影响图像语义,利用处理后的图像训练得到的模型鲁棒性更高。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出用于实现根据本发明实施例的模型训练方法的示例电子设备的示意性框图;
图2示出根据本发明一个实施例的模型训练方法的示意性流程图;
图3示出根据本发明一个实施例的模型训练方法中图像处理的示意性原理图;
图4示出根据本发明一实施例的模型训练装置的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
首先,参照图1来描述用于实现本发明实施例的模型训练方法的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像传感器110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像传感器110可以采集用户期望的图像(例如照片、视频等),并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像传感器110可以是摄像头。应当理解,图像传感器110仅是示例,电子设备100可以不包括图像传感器110。在这种情况下,可以利用具有图像采集能力的部件采集待处理图像,并将采集的待处理图像发送给电子设备100。
示例性地,用于实现根据本发明实施例的模型训练方法和装置的示例电子设备可以被实现诸如服务器,以及智能手机、平板电脑等移动终端。
需要注意的是,图1所示的电子设备100的组件和结构只是示例性的,尽管图1示出的电子设备100包括多个不同的装置,但是根据需要,其中的一些装置可以不是必须的,其中的一些装置的数量可以更多等等,本发明对此不限定。
下面,参考图2描述根据本发明实施例的模型训练方法200。如图2所示,模型训练方法200可以包括如下步骤:
在步骤S210,获取包含目标对象的第一图像;
在步骤S220,将所述第一图像从空域变换到频域,以得到第一频域图像;
在步骤S230,去除所述第一频域图像中的预设高频信息,以得到第二频域图像;
在步骤S240,将所述第二频域图像从频域逆变换到空域,以得到包含所述目标对象的第二图像;
在步骤S250,将所述第二图像作为训练样本,对用于识别所述目标对象的模型进行训练。
神经网络模型可以只通过图像的高频信息对图像进行识别、分类,这会导致模型训练时过度依赖图像的高频信息,而对图像的语义信息提取不足,导致模型不够鲁棒。本发明实施例的模型训练方法200通过将原始的第一图像转换到频域,并在频域去除预设高频信息的方式对第一图像进行处理,最终获得去除了高频信息的第二图像,且不会改变第一图像的语义,使得使用该第二图像训练所得的模型更多地依赖图像的语义信息而非频域信息,进而使得模型更加的鲁棒、性能更好。
具体地,首先在步骤S210,获取包含目标对象的第一图像。第一图像为空域上的图像,空域指代图像的二维平面所在空间域,空间域也可以称为图像空间,为图像像元组成的空间。空域也可以被称为像素域。
第一图像可以来自用于进行模型训练的样本集。第一图像可以为实时采集的图像,也可以为来自任何源的图像。示例性地,根据待训练的模型的功能,第一图像中可以包含模型用于识别的目标对象,目标对象包括但不限于人脸、人体、车辆、动物等需要识别的对象。例如,若目标对象为人脸,则后续训练得到的模型可以为人脸识别模型。当然,上述仅为示例,目标对象不限于人脸,模型也不限于人脸识别模型。
第一图像可以是灰度图像,也可以是彩色图像,例如RGB图像,即红(R)、绿(G)、蓝(B)三通道彩色图像。在一些实施例中,若所获得的原始图像为彩色图像,也可以将彩色图像转换成灰度图像,以作为第一图像。另外,第一图像可以是任意一种图片格式的图像,也可以是视频中提取的图像帧,本发明实施例对此不作限制。
示例性地,获取第一图像可以实现为获取第一图像的像素矩阵,此处表示为第一像素矩阵。数字图像数据可以用矩阵来表示,在计算机数字图像处理中,通常用二维数组来存放图像数据。若第一图像为灰度图像,则第一像素矩阵的行对应图像的高(单位为像素),第一像素矩阵的列对应图像的宽(单位为像素),矩阵的元素对应图像的像素,矩阵元素的值即为像素的灰度值。若第一图像为彩色图像,例如RGB图像,则矩阵元素的值为包含三通道色彩值的数组。
在步骤S220,将第一图像从空域变换到频域,以得到第一频域图像。其中,频域又可以被称为频率域,即任何一个波形都可以分解成多个正弦波之和,而每个正弦波都有自己的频率和振幅,因此任意一个波形信号有自己的频率和振幅的集合,频率域就是空间域经过傅立叶变换的信号。示例性地,第一频域图像为第一图像经过傅里叶变换后得到的。傅里叶变换可以将图像从空间域转换到频率域,其逆变换是将图像从频率域转换到空间域,也就是说,傅里叶变换的可以将图像的灰度分布函数或色彩分布函数变换为图像的频率分布函数,而傅里叶逆变换可以将图像的频率分布函数变换为灰度分布函数或色彩分布函数。
将第一图像转换为第一频域图像之后,其坐标代表第一频域图像的频率。图像的频率是表示图像中灰度或色彩变化剧烈程度的指标,是灰度或色彩在平面空间上的梯度。也就是说,若第一图像为灰度图像,则第一频域图像表示第一图像的灰度变化程度;若第一图像为彩色图像,则第一频域图像表示第一图像的色彩变化程度。若第一图像中某一部分区域颜色缓慢变化或灰度缓慢变化,即该部分对应的频率值较低;与之相反,若第一图像中某一部分区域颜色剧烈变化或灰度剧烈变化,即该部分频率值较高。示例性地,若第一图像为彩色图像,则针对每个色彩通道分别进行傅里叶变换。
如上所述,获取第一图像可以实现为获取第一图像的像素矩阵,因此将第一图像从空域变换到频域包括:对第一图像的第一像素矩阵进行傅里叶变换,以得到第一频域图像的第一频域矩阵。其中,第一像素矩阵与第一频域矩阵的大小相等,例如,参照图3,将第一图像的第一像素矩阵I1从空域变换到频域后,得到了与第一图像的第一像素矩阵I1大小一致的第一频域矩阵M1。第一像素矩阵I1的横纵坐标分别表示第一图像中像素点的行数和列数。第一频域矩阵M1的横纵坐标i,j分别表示频率分量,矩阵元素的值M(i,j)表示矩阵中第i行第j列表示的频率分量对应的幅值(也可称为频域值或幅度)。i越大代表横向频率的值越高,同理,j越大代表纵向频率的值越高。可以理解的是,图3中矩阵的大小仅作为示例,实际的矩阵大小取决于第一图像的分辨率。
在步骤S230,去除第一频域图像中的预设高频信息,以得到第二频域图像。其中,预设高频信息可以是高于预设数值的频域信息。由于第一频域图像中的高频信息反映像素信息的变化剧烈,对应于空域图像则为图像灰度或色彩变化较陡的部分,去除高频信息不会影响空域图像的语义,而是使得空域图像灰度或色彩变化减缓。去除预设高频信息后重新变换回空域可以在不影响图像语义的前提下减少图像中的高频信息,从而获得更有利于进行模型训练的图像。
继续参照图3,在获得第一频域矩阵M1之后,可以降低第一频域矩阵M1中高于预设数值的频率分量所对应的幅值,以得到第二频域矩阵M2,从而达到去除第一频域图像中的高频信息的目的。由于第一频域矩阵M1为二维矩阵,频率分量包括横坐标表示的第一频率分量和纵坐标表示的第二频率分量,则预设数值可以包括对应于第一频率分量的第一预设数值和对应于第二频率分量,因此高于预设数值的频率分量所对应的幅值可以包括:高于第一预设数值的第一频率分量所对应的幅值(即M(a,b),a>=m)、高于第二预设数值的第二频率分量所对应的幅值(即M(a,b),b>=n)、以及高于第一预设数值的第一频率分量以及高于第二预设数值的第一频率分量所对应的幅值(即M(a,b),a>=m,且b>=n)。其中,第一预设数值m与所述第二预设数值n可以相等,也可以不相等。
示例性地,降低第一频域矩阵M1中高于预设数值的频率分量所对应的幅值可以实现为降低第一频域矩阵M1中高于预设数值的所有频率分量所对应的幅值,也可以实现为降低其中高于预设数值的部分频率分量所对应的幅值。示例性地,第一预设数值m和第二预设数值n可以为变量,m和n越小,则代表删除越多的高频信息,可以根据具体需求设定m和n的大小。
在本发明实施例中,降低第一频域矩阵M1中高于预设数值的频率分量所对应的幅值,但不改变第一频域矩阵M1的大小,可以进一步避免影响图像的语义信息。
作为一种实现方式,降低所述第一频域矩阵中高于预设数值的频率分量所对应的幅值包括:对第一频域矩阵中高于预设数值的频率分量所对应的幅值进行置零处理。如图3所示,令第一频域矩阵M1中横坐标大于或等于m且纵坐标大于或等于n的频率分量对应的幅值等于零,即令M(a,b)=0,其中a>=m,b>=n。由此得到的第二频域矩阵M1与第一频域矩阵大小相同,但其中的预设高频分量所对应的幅值为0。在其他实现方式中,也可以在不同程度上降低高于预设数值的频率分量所对应的幅值包括,而不必将其全部置零,由此也可以去除一定的预设高频信息。例如,可以将高于预设数值的频率分量所对应的幅值乘以系数k,该系数k可以是范围在[0,1]的随机数,也可以是根据实际需要设定的固定值。并且,不同大小的频率分量所对应的系数k可以相同,也可以不同。
在一些实施例中,通过调整m、n和k等关于所去除的预设高频信息的相关参数的大小,可以通过对一个第一频域矩阵进行不同的处理而得到多个第二频域矩阵,由此,基于一张第一图像可以得到多张第二图像,进一步扩大了训练样本的规模,实现了训练样本的数据增广。
在步骤S240,将第二频域图像从频域逆变换到空域,以得到包含目标对象的第二图像。从频域逆变换回空域可以通过傅里叶逆变换实现,傅里叶逆变换可以将图像的频率分布函数变换为灰度分布函数或色彩分布函数。示例性地,可以通过IFFT完成该逆变换,IFFT为数字信号处理中的快速傅里叶逆变换,在此不再赘述。示例性地,在python中,傅里叶变换和傅里叶逆变换可以分别使用numpy包中的numpy.fft.fftn与numpy.fft.ifftn函数来实现,但本发明实施例对此不做限制。
继续参照图3,通过对第二频域矩阵M2进行傅里叶逆变换,可以得到第二图像的第二像素矩阵I2,从而实现将第二频域图像逆变换至空域、以得到第二图像的目的。示例性地,由于第二频域图像的第二频域矩阵M2的大小与第一频域图像的第一频域矩阵M1的大小相同,即第二频域图像的第二频域矩阵M2的大小与第一图像的第一像素矩阵I1的大小相同,将第二频域图像从频域逆变换到空域后,所得到的第二图像的第二像素矩阵I2的大小与第一图像的第一像素矩阵I1的大小相同。经过上述处理后,在不影响图片语义的情况下去除了图像的高频信息。
在一些实施例中,基于一张第一频域图像,可以通过去除不同的预设高频信息而得到多张第二频域图像,由此,基于一张第一图像可以得到多张第二图像,进一步扩大了训练样本的规模,实现了训练样本的数据增广。
获得第二图像之后,在步骤S250,将第二图像作为训练样本,对用于识别所述目标对象的模型进行训练。由于第二图像中的高频信息较少,利用第二图像训练模型可以避免模型过于依赖图像中的高频信息,使得训练得到的模型更加鲁棒。当样本数量不足时,使用模型训练方法200能够增加样本数量,避免出现过拟合的问题;在样本数量充足时,使用模型训练方法200能够提升训练所得的模型的性能。示例性地,为了扩大样本数量,用于训练所述模型的训练样本还包括第一图像。
需要指出,第二图像可以作为模型的训练样本,但并不表示该模型只能基于第二图像进行训练,模型的训练样本也可以包括其他图像。
示例性地,待训练的模型可以是深度学习神经网络模型,包括特征提取器和分类器。其中,特征提取器用于提取训练样本的特征向量;分类器用于基于特征提取器提取的特征向量进行目标对象识别,以生成分类结果。在训练过程中,通过大量训练样本,以降低总损失函数为目标,利用随机梯度下降、梯度回传、反向传播等优化算法来优化神经网络模型中的各个参数,当总损失函数收敛时,将相应的参数作为训练完成的神经网络模型的参数。但需要注意的是,本发明实施例对模型架构和训练方法不做限制。基于上面的描述,根据本发明实施例的模型训练方法200在频域中去除了图像中的高频信息,不影响图像语义,能够得到更有利于进行模型训练的图像。
以上示例性地描述了根据本发明实施例的模型训练方法。示例性地,根据本发明实施例的模型训练方法可以在具有存储器和处理器的设备、装置或者系统中实现。
此外,根据本发明实施例的模型训练方法可以方便地部署到智能手机、平板电脑、个人计算机等移动设备上。替代地,根据本发明实施例的模型训练方法还可以部署在服务器端(或云端)。替代地,根据本发明实施例的模型训练方法还可以分布地部署在服务器端(或云端)和个人终端处。
本发明实施例另一方面还提供一种模型训练装置,图4示出了根据本发明实施例的模型训练装置400的示意性框图。模型训练装置400包括存储装置410以及处理器420。其中,所述存储装置410用于存储程序代码;所述处理器420用于执行所述程序代码,当所述程序代码执行时,用于实现上文所述的模型训练方法200。
所述存储装置410为用于存储处理器可执行指令的存储器,例如用于存储用于实现根据本发明实施例的模型训练方法200中的相应步骤的处理器可执行的程序指令。存储装置410可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
处理器420可以运行存储装置410存储的所述程序指令,以实现本文所述的本发明实施例中(由处理器实现)的功能以及/或者其它期望的功能,例如以执行根据本发明实施例的模型训练方法200的相应步骤。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述处理器420可以是中央处理单元(CPU)、图像处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制模型训练装置400中的其它组件以执行期望的功能。所述处理器能够执行所述存储装置410中存储的所述指令,以执行本文描述的模型训练方法。例如,处理器420能够包括一个或多个嵌入式处理器、处理器核心、微型处理器、逻辑电路、硬件有限状态机(FSM)、数字信号处理器(DSP)或它们的组合。
在一个实施例中,存储装置410存储的程序指令被处理器420运行时使得模型训练装置400执行以下步骤:获取包含目标对象的第一图像;将所述第一图像从空域变换到频域,以得到第一频域图像;去除所述第一频域图像中的预设高频信息,以得到包含所述目标对象的第二频域图像;将所述第二频域图像从频域逆变换到空域,以得到第二图像;将所述第二图像作为训练样本,对用于识别所述目标对象的模型进行训练。
在一个实施例中,用于训练所述模型的训练样本还包括所述第一图像。
在一个实施例中,所述预设高频信息包括所述第一频域图像中高于预设数值的频域信息。
在一个实施例中,所述将所述第一图像从空域变换到频域,得到第一频域图像,包括:对所述第一图像的第一像素矩阵进行傅里叶变换,以得到所述第一频域图像的第一频域矩阵;所述去除所述第一频域图像中高于预设数值的高频信息包括:降低所述第一频域矩阵中高于预设数值的频率分量所对应的幅值,以得到所述第二频域图像的第二频域矩阵。
在一个实施例中,所述降低所述第一频域矩阵中高于预设数值的频率分量所对应的幅值,包括:对所述第一频域矩阵中高于预设数值的频率分量所对应的幅值进行置零处理。
在一个实施例中,所述第一频域矩阵中高于预设数值的频率分量所对应的幅值包括:所述第一频域矩阵中高于第一预设数值的第一频率分量、和/或高于第二预设数值的第二频率分量所对应的幅值,所述第一预设数值与所述第二预设数值相等或不相等。
在一个实施例中,所述将所述第二频域图像从频域逆变换到空域,以得到第二图像,包括:对所述第二频域矩阵进行傅里叶逆变换,以得到所述第二图像的第二像素矩阵。
在一个实施例中,所述第一图像为灰度图像,所述第一频域图像表示所述第一图像的灰度变化程度;或者,所述第一图像为彩色图像,所述第一频域图像表示所述第一图像的色彩变化程度。
基于上面的描述,根据本发明实施例的模型训练装置400在频域中去除了图像中的高频信息,不影响图像语义,利用处理后的图像训练得到的模型鲁棒性更高。
此外,根据本发明实施例,还提供了一种计算机存储介质,在所述计算机存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的模型训练方法200的相应步骤,其具体细节可以参见上文。所述计算机存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
本发明实施例的模型训练方法、装置和计算机存储介质在频域中去除了图像中的高频信息,不影响图像语义,能够得到更有利于进行模型训练的图像,利用处理后的图像作为训练样本训练得到的模型鲁棒性更高,性能更好。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者其他合适的处理器来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机存储介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种模型训练方法,其特征在于,所述方法包括:
获取包含目标对象的第一图像;
将所述第一图像从空域变换到频域,以得到第一频域图像;
去除所述第一频域图像中的预设高频信息,以得到第二频域图像;
将所述第二频域图像从频域逆变换到空域,以得到包含所述目标对象的第二图像;
将所述第二图像作为训练样本,对用于识别所述目标对象的模型进行训练。
2.根据权利要求1所述的模型训练方法,其特征在于,用于训练所述模型的训练样本还包括所述第一图像。
3.根据权利要求1或2所述的模型训练方法,其特征在于,所述预设高频信息包括所述第一频域图像中高于预设数值的频域信息。
4.根据权利要求1或2所述的模型训练方法,其特征在于,所述将所述第一图像从空域变换到频域,得到第一频域图像,包括:对所述第一图像的第一像素矩阵进行傅里叶变换,以得到所述第一频域图像的第一频域矩阵;
所述去除所述第一频域图像中高于预设数值的高频信息包括:降低所述第一频域矩阵中高于预设数值的频率分量所对应的幅值,以得到所述第二频域图像的第二频域矩阵。
5.根据权利要求4所述的模型训练方法,其特征在于,所述降低所述第一频域矩阵中高于预设数值的频率分量所对应的幅值,包括:
对所述第一频域矩阵中高于预设数值的频率分量所对应的幅值进行置零处理。
6.根据权利要求4所述的模型训练方法,其特征在于,所述第一频域矩阵中高于预设数值的频率分量所对应的幅值包括:
所述第一频域矩阵中高于第一预设数值的第一频率分量、和/或高于第二预设数值的第二频率分量所对应的幅值,所述第一预设数值与所述第二预设数值相等或不相等。
7.根据权利要求4-6中任一项所述的模型训练方法,其特征在于,所述将所述第二频域图像从频域逆变换到空域,以得到第二图像,包括:
对所述第二频域矩阵进行傅里叶逆变换,以得到所述第二图像的第二像素矩阵。
8.根据权利要求1或2所述的模型训练方法,其特征在于,所述第一图像为灰度图像,所述第一频域图像表示所述第一图像的灰度变化程度;
或者,所述第一图像为彩色图像,所述第一频域图像表示所述第一图像的色彩变化程度。
9.一种模型训练装置,其特征在于,所述模型训练装置包括存储装置和处理器,所述存储装置上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时执行如权利要求1-8中任一项所述的模型训练方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序在运行时执行如权利要1-8中任一项所述的模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110368823.XA CN113255433A (zh) | 2021-04-06 | 2021-04-06 | 模型训练方法、装置和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110368823.XA CN113255433A (zh) | 2021-04-06 | 2021-04-06 | 模型训练方法、装置和计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113255433A true CN113255433A (zh) | 2021-08-13 |
Family
ID=77220407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110368823.XA Pending CN113255433A (zh) | 2021-04-06 | 2021-04-06 | 模型训练方法、装置和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255433A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903075A (zh) * | 2021-12-10 | 2022-01-07 | 中科视语(北京)科技有限公司 | 类别估计方法、装置、电子设备及存储介质 |
CN114723590A (zh) * | 2022-03-30 | 2022-07-08 | 华南师范大学 | 面向群体的知识追踪方法、系统、装置及存储介质 |
CN115063673A (zh) * | 2022-07-29 | 2022-09-16 | 阿里巴巴(中国)有限公司 | 模型压缩方法、图像处理方法、装置和云设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198160A (zh) * | 2017-12-28 | 2018-06-22 | 深圳云天励飞技术有限公司 | 图像处理方法、装置、图像过滤方法、电子设备及介质 |
CN109058771A (zh) * | 2018-10-09 | 2018-12-21 | 东北大学 | 基于样本生成和间隔Markov特征的管道异常检测方法 |
CN110428364A (zh) * | 2019-08-06 | 2019-11-08 | 上海海事大学 | 帕金森声纹语谱图样本扩充方法、装置及计算机存储介质 |
CN110728188A (zh) * | 2019-09-11 | 2020-01-24 | 北京迈格威科技有限公司 | 图像处理方法、装置、系统和存储介质 |
WO2020063835A1 (zh) * | 2018-09-29 | 2020-04-02 | 北京三快在线科技有限公司 | 模型生成 |
CN111553877A (zh) * | 2020-03-20 | 2020-08-18 | 西安交通大学 | 基于太赫兹陶瓷基复合材料叶片损伤识别和寿命评估方法 |
-
2021
- 2021-04-06 CN CN202110368823.XA patent/CN113255433A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198160A (zh) * | 2017-12-28 | 2018-06-22 | 深圳云天励飞技术有限公司 | 图像处理方法、装置、图像过滤方法、电子设备及介质 |
WO2020063835A1 (zh) * | 2018-09-29 | 2020-04-02 | 北京三快在线科技有限公司 | 模型生成 |
CN109058771A (zh) * | 2018-10-09 | 2018-12-21 | 东北大学 | 基于样本生成和间隔Markov特征的管道异常检测方法 |
CN110428364A (zh) * | 2019-08-06 | 2019-11-08 | 上海海事大学 | 帕金森声纹语谱图样本扩充方法、装置及计算机存储介质 |
CN110728188A (zh) * | 2019-09-11 | 2020-01-24 | 北京迈格威科技有限公司 | 图像处理方法、装置、系统和存储介质 |
CN111553877A (zh) * | 2020-03-20 | 2020-08-18 | 西安交通大学 | 基于太赫兹陶瓷基复合材料叶片损伤识别和寿命评估方法 |
Non-Patent Citations (3)
Title |
---|
İDRIS KARAALI 等: "A convolutional neural network model for marble quality classification", SN APPLIED SCIENCE, 24 September 2020 (2020-09-24), pages 1 - 6 * |
于殿泓 编著: "图像检测与处理技术", 31 December 2006, 西安电子科技大学出版社, pages: 111 * |
黄法秀 等: "数据增广下的人脸识别研究", 计算机技术与发展, vol. 30, no. 3, 31 March 2020 (2020-03-31), pages 1 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903075A (zh) * | 2021-12-10 | 2022-01-07 | 中科视语(北京)科技有限公司 | 类别估计方法、装置、电子设备及存储介质 |
CN114723590A (zh) * | 2022-03-30 | 2022-07-08 | 华南师范大学 | 面向群体的知识追踪方法、系统、装置及存储介质 |
CN115063673A (zh) * | 2022-07-29 | 2022-09-16 | 阿里巴巴(中国)有限公司 | 模型压缩方法、图像处理方法、装置和云设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN113255433A (zh) | 模型训练方法、装置和计算机存储介质 | |
US8792722B2 (en) | Hand gesture detection | |
US8750573B2 (en) | Hand gesture detection | |
CN109657582B (zh) | 人脸情绪的识别方法、装置、计算机设备及存储介质 | |
WO2019033569A1 (zh) | 眼球动作分析方法、装置及存储介质 | |
CN110070115B (zh) | 一种单像素攻击样本生成方法、装置、设备及存储介质 | |
CN113191489B (zh) | 二值神经网络模型的训练方法、图像处理方法和装置 | |
CN110929805A (zh) | 神经网络的训练方法、目标检测方法及设备、电路和介质 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
US11893497B2 (en) | Method and apparatus for acquiring feature data from low-bit image | |
CN110766007A (zh) | 证件遮挡检测方法、装置、设备及可读存储介质 | |
CN114330565A (zh) | 一种人脸识别方法及装置 | |
CN110610131B (zh) | 人脸运动单元的检测方法、装置、电子设备及存储介质 | |
CN115578590A (zh) | 基于卷积神经网络模型的图像识别方法、装置及终端设备 | |
CN111144425A (zh) | 检测拍屏图片的方法、装置、电子设备及存储介质 | |
CN109784154B (zh) | 基于深度神经网络的情绪识别方法、装置、设备及介质 | |
CN111178398B (zh) | 检测身份证图像信息篡改的方法、系统、存储介质及装置 | |
CN110532971B (zh) | 图像处理及装置、训练方法以及计算机可读存储介质 | |
CN115346209A (zh) | 机动车三维目标检测方法、装置及计算机可读存储介质 | |
CN113822871A (zh) | 基于动态检测头的目标检测方法、装置、存储介质及设备 | |
CN113256556A (zh) | 一种图像选择方法及装置 | |
JP7107544B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN112487994A (zh) | 一种烟火检测方法及系统、存储介质及终端 | |
CN110956190A (zh) | 图像识别方法及装置、计算机装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |