CN111881920A - 一种大分辨率图像的网络适配方法及神经网络训练装置 - Google Patents
一种大分辨率图像的网络适配方法及神经网络训练装置 Download PDFInfo
- Publication number
- CN111881920A CN111881920A CN202010687492.1A CN202010687492A CN111881920A CN 111881920 A CN111881920 A CN 111881920A CN 202010687492 A CN202010687492 A CN 202010687492A CN 111881920 A CN111881920 A CN 111881920A
- Authority
- CN
- China
- Prior art keywords
- image
- characteristic
- feature
- dimension
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 32
- 230000006978 adaptation Effects 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 93
- 238000001514 detection method Methods 0.000 claims abstract description 55
- 230000009466 transformation Effects 0.000 claims abstract description 29
- 238000010586 diagram Methods 0.000 claims abstract description 17
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 3
- 230000007786 learning performance Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000000513 principal component analysis Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000009467 reduction Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
Abstract
一种大分辨率图像的网络适配方法及神经网络训练装置,其中网络适配方法包括:获取样本图像,对样本图像进行频域变换处理,得到对应的特征图像;通过主成分分析特征图像,降维得到对应的特征向量矩阵,转换特征向量矩阵以生成检测特征图;输出检测特征图以适配预设网络模型的输入尺度要求。本申请技术方案通过对样本图像的离散余弦变换(DCT)分析,在不减少图像信息的前提下,减小图像的输出尺度来适配网络模型的输入尺度要求,从而实现将神经网络的训练BGR数据转到基于离散余弦变换(DCT)的频域进行训练,增强模型训练时的学习性能。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种大分辨率图像的网络适配方法及神经网络训练装置。
背景技术
随着网络速率的提升、应用终端的逐步完善,家庭互联网已经率先实现了超高清化,移动互联网和产业互联网也在向高清化、超高清化快速演进,随着4K和8K的超高清视频的逐步成熟,对以超大参数、超大计算为基础的深度学习技术提出了新的挑战。
从高清到4K、8K分辨率的超高清,画面每帧分辨率从1920×1080(约207万像素)提升到3840×2160(约829万像素)、7680×4320(约3386万像素)。按照现在传统的处理方法,对图像进行尺度缩放,那么图像中的丰富信息会被丢弃,如此将失去了超高清的意义。如果直接将大尺度图像输入到神经网络中训练,由于有限的计算资源无法加载超大的数据量使得模型训练无法正常进行,比如常用的训练资源NVIDIA的GPU显存为16G、32G,将无法支持超高清图像的训练需求。以深度学习中语义分割为例,当输入图像是1080P时,构建基于anchor-free的目标检测网络(Fully Convolutional One-Stage Object,简称FCOS),采用当前最为普遍的NVIDIA GPU训练框架(如Facebook开发的Pytorch),在16G显卡内存条件下,一张卡一个批次只能支持1到2张的训练强度;如果8K超高清图像在无缩放的条件下进行模型训练,就需要更高的计算资源如64G显存的GPU计算卡或者更大资源计算设备,这将对计算设备提出更高的性能要求,增加应用成本。
发明内容
本发明主要解决的技术问题是如何克服大分辨率图像不适宜输入神经网络直接进行训练的问题。
根据第一方面,一种实施例中提供一种大分辨率图像的网络适配方法,其包括:获取样本图像,所述样本图像具有BGR三个颜色通道和高清以上标准的分辨率;对所述样本图像进行频域变换处理,得到对应的特征图像;所述特征图像具有第一维度的特征数据;通过主成分分析所述特征图像,降维得到对应的特征向量矩阵,转换所述特征向量矩阵以生成检测特征图;所述检测特征图具有第二维度的特征数据;输出所述检测特征图以适配预设网络模型的输入尺度要求。
所述对所述样本图像进行频域变换处理,得到对应的特征图像,包括:将所述样本图像分割成多个图像块,得到所述多个图像块分别在BGR三个颜色通道上的子图像块;对各颜色通道上的子图像块分别进行离散余弦变换处理,得到每个所述子图像块对应的频率系数矩阵;将各个所述子图像块分别对应的频率系数矩阵进行组合,生成具有第一维度的特征数据的特征图像。
所述将各个所述子图像块分别对应的频率系数矩阵进行组合,生成具有第一维度的特征数据的特征图像,包括:将每个颜色通道上的任意子图像块对应的频率系数矩阵进行展平,并作为所在颜色通道的维度;提取相同颜色通道上各子图像块中相同位置的频率分量,并组成特征子图;所述特征子图具有所对应颜色通道的维度;合并BGR三个颜色通道分别对应的特征子图,得到具有第一维度的特征数据的特征图像;所述第一维度是各颜色通道的维度之和。
所述通过主成分分析所述特征图像,降维得到对应的特征向量矩阵,转换所述特征向量矩阵以生成检测特征图,包括:根据所述特征图像构建特征数据集;根据所述特征数据集计算特征协方差矩阵,得到特征协方差矩阵的特征值和特征向量;利用所述特征协方差矩阵的特征值和特征向量组成所述特征图像对应的特征向量矩阵;根据所述特征向量矩阵将所述特征图像中第一维度的特征数据转换为第二维度的特征数据,转换后生成检测特征图;所述第二维度小于所述第一维度。
对于尺度为W/8×H/8×192的特征图像,W、H分别为所述样本图像在宽、高方向上的分辨率,数值8为所述样本图像的分割像素数目,数值192表示第一维度,则该特征图像的特征数据集表示为
D={x1,x2,...,xN};
其中,x表示所述子图像块的特征数据子集且维度为192,N表示各个所述子图像块的特征数据子集的数量。
计算特征协方差矩阵且表示为∑=(sij)192×192;
根据特征协方差矩阵组成特征图像对应的特征向量矩阵,所述特征向量矩阵表示为W=(μ1,μ2,...,μ64);其中,特征向量矩阵W的维度为196×64。
根据特征向量矩阵W转换生成检测特征图且表示为
其中,ij表示像素坐标,所述检测特征图的尺度为W/8×H/8×64,数值64表示第二维度。
根据第二方面,一种实施例中提供一种神经网络训练装置,其包括:存储器,用于存储至少一幅样本图像;处理器,与所述存储器连接,用于根据上述第一方面中所述的网络适配方法输出检测特征图,还用于利用所述检测特征图对预设网络模型进行训练学习。
所述处理器包括获取模块、变换模块、生成模块和输出模块;所述获取模块用于获取样本图像,所述样本图像具有BGR三个颜色通道和高清以上标准的分辨率;所述变换模块与所述获取模块连接,用于对所述样本图像进行频域变换处理,得到对应的特征图像;所述特征图像具有第一维度的特征数据;所述生成模块与所述变换模块连接,用于通过主成分分析所述特征图像,降维得到对应的特征向量矩阵,转换所述特征向量矩阵以生成检测特征图;所述检测特征图具有第二维度的特征数据;所述输出模块与所述生成模块连接,用于输出所述检测特征图以适配预设网络模型的输入尺度要求。
所述处理器还包括与所述输出模块连接的网络训练模块;网络训练模块中预设有网络模型,所述网络模型配置有图像输入层和多级图像训练层,所述图像输入层用于适配所述检测特征图的尺度;将所述检测特征图通过所述图像输入层输入至所述网络模型,以及利用所述多级图像训练层对所述网络模型进行训练,学习得到所述样本图像的特征信息。
所述变换模块将所述样本图像分割成多个图像块,得到所述多个图像块分别在BGR三个颜色通道上的子图像块,对各颜色通道上的子图像块分别进行离散余弦变换处理,得到每个所述子图像块对应的频率系数矩阵;所述变换模块还将各个所述子图像块分别对应的频率系数矩阵进行组合,生成具有第一维度的特征数据的特征图像;所述生成模块根据所述特征图像构建特征数据集,根据所述特征数据集计算特征协方差矩阵,得到特征协方差矩阵的特征值和特征向量;所述生成模块还利用所述特征协方差矩阵的特征值和特征向量组成所述特征图像对应的特征向量矩阵,根据所述特征向量矩阵将所述特征图像中第一维度的特征数据转换为第二维度的特征数据,转换后生成检测特征图;所述第二维度小于所述第一维度。
根据第三方面,一种实施例中提供一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现上述第一方面中所述的网络适配方法。
本申请的有益效果是:
依据上述实施例的一种大分辨率图像的网络适配方法及神经网络训练装置,其中网络适配方法包括:获取样本图像,对样本图像进行频域变换处理,得到对应的特征图像;通过主成分分析特征图像,降维得到对应的特征向量矩阵,转换特征向量矩阵以生成检测特征图;输出检测特征图以适配预设网络模型的输入尺度要求。第一方面,由于样本图像进行频域变换处理,而非图像压缩处理,利用在频域中分析图像的特征,从而保留样本图像的完整特征信息;第二方面,由于通过主成分分析特征图像,从而利用降维得到的特征向量矩阵转换生成检测特征图,不仅可以降低特征图像的维度,还可以消除冗余信息且不影响精度;第三方面,本申请技术方案通过对样本图像的离散余弦变换(DCT)分析,在不减少图像信息的前提下,减小图像的输出尺度来适配网络模型的输入尺度要求,从而实现将神经网络的训练BGR数据转到基于离散余弦变换(DCT)的频域进行训练,增强模型训练时的学习性能;第四方面,本申请请求保护的神经网络训练装置能够在不改变现有神经网络结构的条件下,支持输入大分辨率图像并进行训练学习,如此不用另外消耗训练的资源且能够提升神经网络的训练效果。
附图说明
图1为本申请中大分辨率图像的网络适配方法的流程图;
图2为频域变换处理得到对应的特征图像的流程图;
图3为主成分分析后生成检测特征图的流程图;
图4为频域变换处理的原理示意图;
图5为本申请中神经网络训练装置的结构示意图;
图6为处理器的结构示意图;
图7为训练FCOS网络的原理示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
实施例一、
请参考图1,本申请公开一种大分辨率图像的网络适配方法,该网络适配方法包括步骤S110-S140,下面分别说明。
步骤S110,获取样本图像,这里的样本图像具有BGR三个颜色通道和高清以上标准的分辨率。
需要说明的是,这里的样本图像可以是关于某一种实物的摄影图片,比如建筑物、自然环境、人、动植物等的图像,具体不做限定。
需要说明的是,RGB色彩模式是工业界的一种颜色标准,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,这个标准几乎包括了人类视力所能感知的所有颜色,所在在颜色系统中运用较广。具备RGB彩色模式的图像称为RGB图像,RGB图像由格式为W×H×3的三维数组组成,其中的“3”可以理解为三幅W×N的二维图像(灰度值图像),这三幅二维图像分别代表R、G、B分量,每个分量的像素点取值范围是[0,255]。在比如OpenCV的跨平台计算机视觉和机器学习软件库中,通常使用BGR格式来表示图像,由于Caffe(Convolutional Architecture for Fast FeatureEmbedding)的深度学习框架图像预处理基于OpenCV开发,所以跟着用BGR格式,致使某些神经网络参与的情形下,输入图像必须是BGR格式的。这只是人为定的一个标准,无论BGR格式和RGR格式的实质是一样的,应用中只需要将RBG格式的图像转换成BGR格式并作为样本图像即可。
需要说明的是,图像分辨率表示的是图像清晰度,通常将分辨率1280×720的图像称为标清图像,将分辨率1920×1080的图像称为高清图像,将分辨率2460×1440的图像称为超清图像,将4K分辨率3840×2160、8K分辨率7680×4320的图像称为超高清图像。由于高清以上标准的图像具有大分辨率的特性,不适宜直接输入至神经网络进行处理,所以需要将高清以上标准的图像进行适配处理后才能满足神经网络的图像输入要求。
步骤S120,对样本图像进行频域变换处理,得到对应的特征图像。这里的特征图像具有第一维度的特征数据。
需要说明的是,频域变换可以是数据或图像的压缩处理过程,通常使用离散余弦变换(Discrete Cosine Transform,简称DCT)来执行压缩处理,能够将空域的信号转换到频域上,具有良好的去相关性的性能。DCT变换本身是无损的,在图像编码等方面给接下来的量化、哈弗曼编码等创造了很好的条件。此外,离散余弦变换属于傅里叶变换的另外一种形式,只含有余弦项,处理过程中不会对BGR格式图像的信息造成损失。
步骤S130,通过主成分分析特征图像,降维得到对应的特征向量矩阵,转换特征向量矩阵以生成检测特征图。这里的检测特征图具有第二维度的特征数据。
需要说明的是,主成分分析法(Principal Component Analysis,简称PCA)是一种数据的统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。通常,可以用PCA进行数据降维,通过减少预测变量的个数确保这些变量是相互独立的,且提供一个框架来解释结果;更重要的是PCA不仅可以对高维图像进行降维,还可以经过降维去除噪声并发现了数据中的模式。在本实施例中,PCA主要用于对特征图像进行数据降维处理,通过这种无监督学习方法将可能存在相关性的原始属性转换成一组线性无关的新属性,并通过选择重要的新属性实现降维。
步骤S140,输出检测特征图以适配预设网络模型的输入尺度要求。
需要说明的是,检测特征图相比与样本图像具有较小的图像尺度,但图像信息并未并未因图像分辨率降低而损失,适宜在较小图像尺度的情况下适配输入至预设网络模型并对网络模型进行训练学习。
在本实施例中,参见图2,上述步骤S120主要涉及对样本图像进行频域变换处理得到对应的特征图像的过程,该步骤S120可以具体包括步骤S121-S123,分别说明如下。
步骤S121,将样本图像分割成多个图像块,得到多个图像块分别在BGR三个颜色通道上的子图像块。
比如图4,对于尺度W×H×3表示的样本图像,W×H为图像分辨率(W、H分别表示宽和高方向的分辨率),数值3表示图像的颜色通道数目(即BGR这三个颜色通道)。可以在空间域上分割样本图像,并分割成分辨率大小为8×8的图像块,那么可以获得W/8×H/8个图像块;由于每个图像块仍具有三个颜色通道,所以总共可以获得3×W/8×H/8个8×8的子图像块,即每个颜色通道(如B/G/R)上具有W/8×H/8个8×8的子图像块。
步骤S122,对各颜色通道上的子图像块分别进行离散余弦变换处理,得到每个子图像块对应的频率系数矩阵。
比如图4,在获得3×W/8×H/8个8×8的子图像块的情况下,对每个颜色通道上的子图像块进行DCT,则能够获得3×W/8×H/8个维数为8×8的频率系数矩阵,频率系数矩阵中存储的对子图像块中各个像素点的灰度值。
步骤S123,将各个子图像块分别对应的频率系数矩阵进行组合,生成具有第一维度的特征数据的特征图像。具体地,生成特征图像的过程具体说明为:(1)将每个颜色通道上的任意子图像块对应的频率系数矩阵进行展平,并作为所在颜色通道的维度;(2)提取相同颜色通道上各子图像块中相同位置的频率分量,并组成特征子图,该特征子图具有所对应颜色通道的维度;(3)合并BGR三个颜色通道分别对应的特征子图,得到具有第一维度的特征数据的特征图像,该第一维度是各颜色通道的维度之和。
例如图4,将颜色通道B上一个子图像块对应的维数8×8的频率系数矩阵进行展平并作为通道,则此时所在颜色通道B的维度为64;在颜色通道B上,提取各子图像块中相同位置的频率分量可以组成一个大小为W/8×H/8的特征子图,也可称为特征图片(featuremap),该特征子图的维度(通道数)为64,则该特征图像的尺度可以表示为W/8×H/8×64;参照颜色通道B,如果颜色通道G和R对应的特征子图均表示为W/8×H/8×64,那么三个颜色通道的特征子图就表示为3×W/8×H/8×64。最后将BGR三个颜色通道合并后就可以获得特征图像W/8×H/8×192,该特征图像的分辨率为W/8×H/8,特征的维度(通道数)为192,维度192即为特征数据的第一维度,表示各颜色通道BGR的维度之和。
在本实施例中,参见图3,上述步骤S130主要涉及对样本图像进行频域变换处理得到对应的特征图像的过程,该步骤S130可以具体包括步骤S131-S134,分别说明如下。
步骤S131,根据特征图像构建特征数据集。由于特征图像由各个子图像块分别对应的频率系数矩阵组合而成,所以容易依据特征图像构建特征数据集。
步骤S132,根据特征数据集计算特征协方差矩阵,得到特征协方差矩阵的特征值和特征向量。
需要说明的是,标准差和方差在描述一维数据时非常有效,但是对于多维数据,它们已经不能有效地表示数据之间的相关性,此时就要使用协方差来进行描述。协方差是统计学中的常见概念,协方差表示两个随机变量之间的线性相关性,那么协方差矩阵表示一组随机变量之间的两两线性相关性,并且协方差矩阵中的每个元素代表了两个随机变量之间的协方差。
步骤S133,利用特征协方差矩阵的特征值和特征向量组成特征图像对应的特征向量矩阵。
步骤S134,根据特征向量矩阵将特征图像中第一维度的特征数据转换为第二维度的特征数据,转换后生成检测特征图;这里的第二维度小于第一维度。
在一个具体实施例中,对于尺度为W/8×H/8×192的特征图像,W、H分别为样本图像在宽、高方向上的分辨率,数值8为样本图像的分割像素数目,数值192表示第一维度,则该特征图像的特征数据集表示为
D={x1,x2,...,xN};
其中,x表示任意子图像块的特征数据子集且维度为192,N表示各个子图像块的特征数据子集的数量。
计算特征协方差矩阵且表示为∑=(sij)192×192;
根据特征协方差矩阵组成特征图像对应的特征向量矩阵,该特征向量矩阵表示为W=(μ1,μ2,...,μ64);其中,特征向量矩阵W的维度为196×64。
根据特征向量矩阵W转换生成检测特征图且表示为
其中,ij表示像素坐标,生成的检测特征图的尺度为W/8×H/8×64,W/8×H/8表示图像分辨率,数值64表示第二维度。
可以理解,通过PCA可以将特征图像转化为特征向量矩阵W,且转为特征向量矩阵W的维度为196×64,那么就可以将特征图像中每个区域(总计W/8×H/8个)196维的通道数据降低到64维,即输出的图像特征为W/8×H/8×64。
本领域的技术人员可以理解,实施例一中提供的技术方案在应用时可以达到以下技术优势:(1)样本图像进行频域变换处理,而非图像压缩处理,利用在频域中分析图像的特征,从而保留样本图像的完整特征信息;(2)通过主成分分析特征图像,从而利用降维得到的特征向量矩阵转换生成检测特征图,不仅可以降低特征图像的维度,还可以消除冗余信息且不影响精度;(3)通过对样本图像的离散余弦变换(DCT)分析,在不减少图像信息的前提下,减小图像的输出尺度从而适配网络模型的输入尺度要求,从而实现将神经网络的训练BGR数据转到基于离散余弦变换(DCT)的频域进行训练,增强模型训练时的学习性能。
实施例二、
请参考图5,在实施例一中公开的网络适配方法的基础上,本实施例中公开一种神经网络训练装置,该神经网络训练装置2包括存储器21和处理器22,下面分别说明。
存储器21可以是硬盘、磁盘、光盘、闪存等具有数据存储功能的电子器件,其主要用于存储至少一幅样本图像。这里的样本图像可以是关于某一种实物的摄影图片,比如建筑物、自然环境、人、动植物等的图像,具体不做限定。此外,可以有很多副样本图像,并将这些样本图像存储在存储器21中以便调用。
处理器22与存储器21连接,可以是CPU、MCU、可编程逻辑器件等电子器件,处理器22主要用于根据实施例一中公开的网络适配方法输出检测特征图,此外,处理器22还用于利用检测特征图对预设网络模型进行训练学习。
在本实施例中,参见图5和图6,处理器22包括可以获取模块221、变换模块222、生成模块223和输出模块224,分别说明如下。
其中,获取模块221用于获取样本图像,这里的样本图像具有BGR三个颜色通道和高清以上标准的分辨率。
其中,变换模块222与获取模块连接,用于对样本图像进行频域变换处理,得到对应的特征图像;这里的特征图像具有第一维度的特征数据。具体地,变换模块222可以将样本图像分割成多个图像块,得到多个图像块分别在BGR三个颜色通道上的子图像块;对各颜色通道上的子图像块分别进行离散余弦变换处理,得到每个子图像块对应的频率系数矩阵;以及将各个子图像块分别对应的频率系数矩阵进行组合,生成具有第一维度的特征数据的特征图像。
其中,生成模块223与变换模块222连接,用于通过主成分分析特征图像,降维得到对应的特征向量矩阵,转换特征向量矩阵以生成检测特征图;这里的检测特征图具有第二维度的特征数据。具体地,生成模块223根据特征图像构建特征数据集;根据特征数据集计算特征协方差矩阵,得到特征协方差矩阵的特征值和特征向量;利用特征协方差矩阵的特征值和特征向量组成特征图像对应的特征向量矩阵;根据特征向量矩阵将特征图像中第一维度的特征数据转换为第二维度的特征数据,转换后生成检测特征图;这里的第二维度小于第一维度。
其中,输出模块224与生成模块223连接,用于输出检测特征图以适配预设网络模型的输入尺度要求。
需要说明的是,关于获取模块221、变换模块222、生成模块223和输出模块224的具体功能可以参考实施一中的步骤S110-S140,这里不再进行赘述。
参见图6,处理器22还包括与输出模块224连接的网络训练模块225。具体地,该网络训练模块225中预设有网络模型,网络模型配置有图像输入层和多级图像训练层,其中图像输入层用于适配检测特征图的尺度,多级图像训练层用于利用输入的检测特征图对网络模型本身进行训练。
在一个具体实施例中,处理器22可以将检测特征图通过网络训练模块225中配置的图像输入层输入至网络模型,以及利用多级图像训练层对网络模型进行训练,学习得到样本图像的特征信息。
参见图7,为了进一步地说明本实施例技术方案的实际可行性,这里将实施例一中请求保护的网络适配方法F1和现有的特征提取方法F2进行比较。
在网络适配方法F1中,对于尺度为800×1024×3的样本图像,通过DCT处理和PCA处理可以将样本图像的尺度降低为200×256×64,从而满足FCOS网络的图像尺度输入要求。这里的FCOS(Fully Convolutional One-Stage Object)网络是基于全卷积的单阶段目标检测网络,其通过一个主干网络进行特征提取,通过FPN网络进行多级预测,在FPN网络进行多级预测时对输入图像尺度有严格的要求,大分辨率图像则不适宜直接输入。
在特征提取方法F2中,现有技术是采用FCOS的主干网络对图像特征进行提取。对于尺度为800×1024×3的样本图像,经过基准网络(backbone)的第一个卷积运算(卷积的参数为:kernel_size=7、stride=2、output_channel=64)之后图像尺度转换为400×512×64,图像维度(通道数)变为64;再经过一个最大池化运算(maxpool,参数为:kernel_size=3,stride=2)之后,图像尺度降低为200×256×64,从而同样满足FCOS网络对输入图像的尺度要求。
那么可以理解,本申请提供了另外一种技术思路,可以使用请求保护的网络适配方法F1替代现有的特征提取方法F2,从而使得处理器22输出同样尺度的检测特征图,能够满足神经网络对输入图样的尺度要求,进而使得神经网络的训练和学习得以顺利进行。
本领域的技术人员可以理解,直接将高清以上的大分辨率图像输入到神经网络中训练,往往会由于有限的计算资源无法加载超大的数据量而使得网络模型训练无法正常进行,但是本实施例中的处理器22首先对样本图像进行了DCT和PCA处理,使得图像分辨率得以降低且完整保留图像特征数据,如此便能够使得处理后的检测特征图满足于网络模型中图像输入层的输入尺度要求,从而使得处理器在利用检测特征图训练网络模型中的多级图像训练层时,不必加载超大的数据量就可以顺利地进行模型训练的操作,为大分辨率图像训练神经网络提供技术支持。
此外,请求保护的神经网络训练装置能够在不改变现有神经网络结构的条件下,支持输入大分辨率图像并进行训练学习,如此不用另外消耗训练的资源且能够提升神经网络的训练效果,具有实用价值。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
Claims (10)
1.一种大分辨率图像的网络适配方法,其特征在于,包括:
获取样本图像,所述样本图像具有BGR三个颜色通道和高清以上标准的分辨率;
对所述样本图像进行频域变换处理,得到对应的特征图像;所述特征图像具有第一维度的特征数据;
通过主成分分析所述特征图像,降维得到对应的特征向量矩阵,转换所述特征向量矩阵以生成检测特征图;所述检测特征图具有第二维度的特征数据;
输出所述检测特征图以适配预设网络模型的输入尺度要求。
2.如权利要求1所述的网络适配方法,其特征在于,所述对所述样本图像进行频域变换处理,得到对应的特征图像,包括:
将所述样本图像分割成多个图像块,得到所述多个图像块分别在BGR三个颜色通道上的子图像块;
对各颜色通道上的子图像块分别进行离散余弦变换处理,得到每个所述子图像块对应的频率系数矩阵;
将各个所述子图像块分别对应的频率系数矩阵进行组合,生成具有第一维度的特征数据的特征图像。
3.如权利要求2所述的网络适配方法,其特征在于,所述将各个所述子图像块分别对应的频率系数矩阵进行组合,生成具有第一维度的特征数据的特征图像,包括:
将每个颜色通道上的任意子图像块对应的频率系数矩阵进行展平,并作为所在颜色通道的维度;
提取相同颜色通道上各子图像块中相同位置的频率分量,并组成特征子图;所述特征子图具有所对应颜色通道的维度;
合并BGR三个颜色通道分别对应的特征子图,得到具有第一维度的特征数据的特征图像;所述第一维度是各颜色通道的维度之和。
4.如权利要求3所述的网络适配方法,其特征在于,所述通过主成分分析所述特征图像,降维得到对应的特征向量矩阵,转换所述特征向量矩阵以生成检测特征图,包括:
根据所述特征图像构建特征数据集;
根据所述特征数据集计算特征协方差矩阵,得到特征协方差矩阵的特征值和特征向量;
利用所述特征协方差矩阵的特征值和特征向量组成所述特征图像对应的特征向量矩阵;
根据所述特征向量矩阵将所述特征图像中第一维度的特征数据转换为第二维度的特征数据,转换后生成检测特征图;所述第二维度小于所述第一维度。
5.如权利要求4所述的网络适配方法,其特征在于,对于尺度为W/8×H/8×192的特征图像,W、H分别为所述样本图像在宽、高方向上的分辨率,数值8为所述样本图像的分割像素数目,数值192表示第一维度,则该特征图像的特征数据集表示为
D={x1,x2,...,xN};
其中,x表示所述子图像块的特征数据子集且维度为192,N表示各个所述子图像块的特征数据子集的数量;
计算特征协方差矩阵且表示为∑=(sij)192×192;
根据特征协方差矩阵组成特征图像对应的特征向量矩阵,所述特征向量矩阵表示为W=(μ1,μ2,...,μ64);其中,特征向量矩阵W的维度为196×64;
根据特征向量矩阵W转换生成检测特征图且表示为
其中,ij表示像素坐标,所述检测特征图的尺度为W/8×H/8×64,数值64表示第二维度。
6.一种神经网络训练装置,其特征在于,包括:
存储器,用于存储至少一幅样本图像;
处理器,与所述存储器连接,用于根据如权利要求1-5中任一项所述的网络适配方法输出检测特征图,还用于利用所述检测特征图对预设网络模型进行训练学习。
7.如权利要求6所述的神经网络训练装置,其特征在于,所述处理器包括获取模块、变换模块、生成模块和输出模块;
所述获取模块用于获取样本图像,所述样本图像具有BGR三个颜色通道和高清以上标准的分辨率;
所述变换模块与所述获取模块连接,用于对所述样本图像进行频域变换处理,得到对应的特征图像;所述特征图像具有第一维度的特征数据;
所述生成模块与所述变换模块连接,用于通过主成分分析所述特征图像,降维得到对应的特征向量矩阵,转换所述特征向量矩阵以生成检测特征图;所述检测特征图具有第二维度的特征数据;
所述输出模块与所述生成模块连接,用于输出所述检测特征图以适配预设网络模型的输入尺度要求。
8.如权利要求7所述的神经网络训练装置,其特征在于,所述处理器还包括与所述输出模块连接的网络训练模块;
网络训练模块中预设有网络模型,所述网络模型配置有图像输入层和多级图像训练层,所述图像输入层用于适配所述检测特征图的尺度;
将所述检测特征图通过所述图像输入层输入至所述网络模型,以及利用所述多级图像训练层对所述网络模型进行训练,学习得到所述样本图像的特征信息。
9.如权利要求7所述的神经网络训练装置,其特征在于,
所述变换模块将所述样本图像分割成多个图像块,得到所述多个图像块分别在BGR三个颜色通道上的子图像块,对各颜色通道上的子图像块分别进行离散余弦变换处理,得到每个所述子图像块对应的频率系数矩阵;所述变换模块还将各个所述子图像块分别对应的频率系数矩阵进行组合,生成具有第一维度的特征数据的特征图像;
所述生成模块根据所述特征图像构建特征数据集,根据所述特征数据集计算特征协方差矩阵,得到特征协方差矩阵的特征值和特征向量;所述生成模块还利用所述特征协方差矩阵的特征值和特征向量组成所述特征图像对应的特征向量矩阵,根据所述特征向量矩阵将所述特征图像中第一维度的特征数据转换为第二维度的特征数据,转换后生成检测特征图;所述第二维度小于所述第一维度。
10.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1-5中任一项所述的网络适配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010687492.1A CN111881920B (zh) | 2020-07-16 | 2020-07-16 | 一种大分辨率图像的网络适配方法及神经网络训练装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010687492.1A CN111881920B (zh) | 2020-07-16 | 2020-07-16 | 一种大分辨率图像的网络适配方法及神经网络训练装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881920A true CN111881920A (zh) | 2020-11-03 |
CN111881920B CN111881920B (zh) | 2024-04-09 |
Family
ID=73156412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010687492.1A Active CN111881920B (zh) | 2020-07-16 | 2020-07-16 | 一种大分辨率图像的网络适配方法及神经网络训练装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881920B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749802A (zh) * | 2021-01-25 | 2021-05-04 | 深圳力维智联技术有限公司 | 神经网络模型的训练方法、装置以及计算机可读存储介质 |
CN114037702A (zh) * | 2022-01-10 | 2022-02-11 | 湖南品信生物工程有限公司 | 一种切片级宫颈癌筛查与分类的方法及装置 |
CN115357742A (zh) * | 2022-08-02 | 2022-11-18 | 广州市玄武无线科技股份有限公司 | 门店图像查重方法、系统、终端设备及存储介质 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999049414A1 (en) * | 1998-03-23 | 1999-09-30 | Matsushita Electronics Corporation | Image recognition method |
US20080196076A1 (en) * | 2005-02-09 | 2008-08-14 | Mobixell Networks | Image Adaptation With Target Size, Quality and Resolution Constraints |
CN105678697A (zh) * | 2015-12-30 | 2016-06-15 | 北京工业大学 | 一种基于dct域本征变换的人脸图像超分辨率重建方法 |
US20170076438A1 (en) * | 2015-08-31 | 2017-03-16 | Cape Analytics, Inc. | Systems and methods for analyzing remote sensing imagery |
JP2017097397A (ja) * | 2015-11-18 | 2017-06-01 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 画像処理方法、画像処理装置および画像処理プログラム |
CN106997581A (zh) * | 2017-03-01 | 2017-08-01 | 杭州电子科技大学 | 一种利用深度学习重建高光谱图像的方法 |
CN107689036A (zh) * | 2017-09-01 | 2018-02-13 | 深圳市唯特视科技有限公司 | 一种基于深度双边学习的实时图像增强方法 |
CN108319963A (zh) * | 2018-02-06 | 2018-07-24 | 太原理工大学 | 基于约束鲁棒主成分分析的城市道路地下病害识别方法 |
CN108830813A (zh) * | 2018-06-12 | 2018-11-16 | 福建帝视信息科技有限公司 | 一种基于知识蒸馏的图像超分辨率增强方法 |
CN109086777A (zh) * | 2018-07-09 | 2018-12-25 | 南京师范大学 | 一种基于全局像素特征的显著图精细化方法 |
CN109544457A (zh) * | 2018-12-04 | 2019-03-29 | 电子科技大学 | 基于致密链接神经网络的图像超分辨率方法、存储介质和终端 |
CN109829855A (zh) * | 2019-01-23 | 2019-05-31 | 南京航空航天大学 | 一种基于融合多层次特征图的超分辨率重建方法 |
CN110120011A (zh) * | 2019-05-07 | 2019-08-13 | 电子科技大学 | 一种基于卷积神经网络和混合分辨率的视频超分辨方法 |
CN110223273A (zh) * | 2019-05-16 | 2019-09-10 | 天津大学 | 一种结合离散余弦变换与神经网络的图像修复取证方法 |
CN110533100A (zh) * | 2019-07-22 | 2019-12-03 | 南京大学 | 一种基于机器学习进行cme检测和跟踪的方法 |
CN110674688A (zh) * | 2019-08-19 | 2020-01-10 | 深圳力维智联技术有限公司 | 用于视频监控场景的人脸识别模型获取方法、系统和介质 |
US20200043135A1 (en) * | 2018-08-06 | 2020-02-06 | Apple Inc. | Blended neural network for super-resolution image processing |
CN111028146A (zh) * | 2019-11-06 | 2020-04-17 | 武汉理工大学 | 基于双判别器的生成对抗网络的图像超分辨率方法 |
CN111192200A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于融合注意力机制残差网络的图像超分辨率重建方法 |
-
2020
- 2020-07-16 CN CN202010687492.1A patent/CN111881920B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999049414A1 (en) * | 1998-03-23 | 1999-09-30 | Matsushita Electronics Corporation | Image recognition method |
US20080196076A1 (en) * | 2005-02-09 | 2008-08-14 | Mobixell Networks | Image Adaptation With Target Size, Quality and Resolution Constraints |
US20170076438A1 (en) * | 2015-08-31 | 2017-03-16 | Cape Analytics, Inc. | Systems and methods for analyzing remote sensing imagery |
JP2017097397A (ja) * | 2015-11-18 | 2017-06-01 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 画像処理方法、画像処理装置および画像処理プログラム |
CN105678697A (zh) * | 2015-12-30 | 2016-06-15 | 北京工业大学 | 一种基于dct域本征变换的人脸图像超分辨率重建方法 |
CN106997581A (zh) * | 2017-03-01 | 2017-08-01 | 杭州电子科技大学 | 一种利用深度学习重建高光谱图像的方法 |
CN107689036A (zh) * | 2017-09-01 | 2018-02-13 | 深圳市唯特视科技有限公司 | 一种基于深度双边学习的实时图像增强方法 |
CN108319963A (zh) * | 2018-02-06 | 2018-07-24 | 太原理工大学 | 基于约束鲁棒主成分分析的城市道路地下病害识别方法 |
CN108830813A (zh) * | 2018-06-12 | 2018-11-16 | 福建帝视信息科技有限公司 | 一种基于知识蒸馏的图像超分辨率增强方法 |
CN109086777A (zh) * | 2018-07-09 | 2018-12-25 | 南京师范大学 | 一种基于全局像素特征的显著图精细化方法 |
US20200043135A1 (en) * | 2018-08-06 | 2020-02-06 | Apple Inc. | Blended neural network for super-resolution image processing |
CN109544457A (zh) * | 2018-12-04 | 2019-03-29 | 电子科技大学 | 基于致密链接神经网络的图像超分辨率方法、存储介质和终端 |
CN109829855A (zh) * | 2019-01-23 | 2019-05-31 | 南京航空航天大学 | 一种基于融合多层次特征图的超分辨率重建方法 |
CN110120011A (zh) * | 2019-05-07 | 2019-08-13 | 电子科技大学 | 一种基于卷积神经网络和混合分辨率的视频超分辨方法 |
CN110223273A (zh) * | 2019-05-16 | 2019-09-10 | 天津大学 | 一种结合离散余弦变换与神经网络的图像修复取证方法 |
CN110533100A (zh) * | 2019-07-22 | 2019-12-03 | 南京大学 | 一种基于机器学习进行cme检测和跟踪的方法 |
CN110674688A (zh) * | 2019-08-19 | 2020-01-10 | 深圳力维智联技术有限公司 | 用于视频监控场景的人脸识别模型获取方法、系统和介质 |
CN111028146A (zh) * | 2019-11-06 | 2020-04-17 | 武汉理工大学 | 基于双判别器的生成对抗网络的图像超分辨率方法 |
CN111192200A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于融合注意力机制残差网络的图像超分辨率重建方法 |
Non-Patent Citations (3)
Title |
---|
WANG X等: "Very low Resolution face image super-resolution based on DCT", JOURNAL OF INFORMATION AND COMPUTATIONAL SCIENCE, pages 3807 - 3813 * |
狄恩彪;徐光辉;: "基于部分离散余弦变换的卷积神经网络设计与分析", 通信技术, no. 07, pages 62 - 66 * |
莫才健 等: "基于加权小波分析的遥感图像融合算法", 吉林大学学报(理学报), vol. 56, no. 3, pages 617 - 624 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749802A (zh) * | 2021-01-25 | 2021-05-04 | 深圳力维智联技术有限公司 | 神经网络模型的训练方法、装置以及计算机可读存储介质 |
CN112749802B (zh) * | 2021-01-25 | 2024-02-09 | 深圳力维智联技术有限公司 | 神经网络模型的训练方法、装置以及计算机可读存储介质 |
CN114037702A (zh) * | 2022-01-10 | 2022-02-11 | 湖南品信生物工程有限公司 | 一种切片级宫颈癌筛查与分类的方法及装置 |
CN115357742A (zh) * | 2022-08-02 | 2022-11-18 | 广州市玄武无线科技股份有限公司 | 门店图像查重方法、系统、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111881920B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11272188B2 (en) | Compression for deep neural network | |
US11551333B2 (en) | Image reconstruction method and device | |
US11461639B2 (en) | Image processing method, image processing device, and training method of neural network | |
US10296813B2 (en) | Training method and apparatus for neural network for image recognition | |
CN111881920B (zh) | 一种大分辨率图像的网络适配方法及神经网络训练装置 | |
US20200057921A1 (en) | Image classification and conversion method and device, image processor and training method therefor, and medium | |
CN110636313B (zh) | 变换、二次变换矩阵训练方法、编码器及相关装置 | |
US20230336776A1 (en) | Method for chroma subsampled formats handling in machine-learning-based picture coding | |
Löhdefink et al. | On low-bitrate image compression for distributed automotive perception: Higher peak snr does not mean better semantic segmentation | |
Ahmed et al. | PIQI: perceptual image quality index based on ensemble of Gaussian process regression | |
Otair et al. | Improved near-lossless technique using the Huffman coding for enhancing the quality of image compression | |
Löhdefink et al. | GAN-vs. JPEG2000 image compression for distributed automotive perception: Higher peak SNR does not mean better semantic segmentation | |
Abadpour et al. | Color PCA eigenimages and their application to compression and watermarking | |
Yang et al. | No-reference image quality assessment based on sparse representation | |
CN116508320A (zh) | 基于机器学习的图像译码中的色度子采样格式处理方法 | |
US11403782B2 (en) | Static channel filtering in frequency domain | |
WO2020187029A1 (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN116894234A (zh) | 一种基于纹理和统计特征的鲁棒图像哈希认证方法 | |
Yeganli et al. | Super-resolution using multiple structured dictionaries based on the gradient operator and bicubic interpolation | |
CN115688234A (zh) | 一种基于条件卷积的建筑布局生成方法、装置及介质 | |
Minervini et al. | Unsupervised and supervised approaches to color space transformation for image coding | |
Chen et al. | Hyperspectral remote sensing IQA via learning multiple kernels from mid-level features | |
CN110930466A (zh) | 面向任意形状BOIs的高光谱自适应压缩传感方法 | |
WO2024032075A1 (zh) | 图像处理网络的训练、编解码方法及电子设备 | |
US11961267B2 (en) | Color conversion between color spaces using reduced dimension embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |