CN1262104C

CN1262104C - 采用神经网络技术对图像进行滤波的方法

Info

Publication number: CN1262104C
Application number: CN 03132639
Authority: CN
Inventors: 刘忠仁; 孙圣和
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2003-09-27
Filing date: 2003-09-27
Publication date: 2006-06-28
Anticipated expiration: 2023-09-27
Also published as: CN1529495A

Abstract

本发明涉及一种采用神经网络技术对图像进行滤波的方法，A、确定网络输入层和输出层的神经元个数；B、确定隐层层数和神经元个数；C、生成训练测试矢量集合，采用多幅性质不同、受污染程度不同的图像和其相应的干净图像一起构造训练测试矢量集合；D、构建代价函数，确定误差目标；E、采用优化算法来调整网络的权值和阈值。本发明提供一种在尽可能多的保持细节的前提下消除噪声，提高视频图像主观标准和客观标准。本发明给出了神经网络滤波方法的构建方法，研究了训练集合的生成、网络规模的大小对滤波方法性能的影响。实验表明，该滤波方法去除噪声和细节保持能力远优于秩排序滤波方法和形态滤波方法等传统滤波方法。

Description

采用神经网络技术对图像进行滤波的方法

技术领域：本发明涉及一种多媒体视频数据增强方法，特别是一种采用神经网络技术对图像进行滤波的方法。

背景技术：图像在采集、传送、处理过程中会产生脉冲噪声，在图像中引起黑白点，俗称椒盐噪声。脉冲噪声导致图像质量降低，图像特征提取和图像识别的困难以及不良的视觉效果。脉冲噪声是一类非线性噪声，很难用线性的方法消除。基于秩排序的层叠滤波、基于结构的广义形态滤波等非线性滤波方法对脉冲噪声具有较强的抑制能力，其中基于开关加权机制的滤波方法能够处理严重污染的图像。但这些滤波方法也存在适应性差，对于污染很少的图像的细节恢复能力不尽人意的缺点。原因在于：1、这些滤波方法多是基于选择机制的，当期望的输出不在观测样本集中时它们不可能输出最优解；2、利用的信息有限，通常只能使用若干人为预先设定的判别规则。采用模糊集合增强的滤波方法通常比相应的普通集合滤波方法性能好一点，但存在着模糊规则难以获得的困难。林荫等于1993年提出一种神经网络滤波方法，用神经网络来逼近最优的层叠滤波方法中的正布尔函数，并证明了神经层叠滤波方法优于层叠滤波方法。遗憾的是，复杂的算法和过长的计算时间使得该算法无法实时应用，甚至阻碍了对神经网络滤波方法的研究。

发明内容：本发明提供一种在尽可能多的保持细节的前提下消除噪声，提高视频图像主观标准和客观标准的采用神经网络技术对图像进行滤波的方法。本发明的目的是通过以下技术方案实现的：本发明为一种采用神经网络技术对图像进行滤波的方法，

A：确定网络输入层和输出层的神经元个数；

B：确定隐层层数和神经元个数；

隐层节点数目与输入和输出的信息量相关，并给出了一个快速估计公式：

N_{H} = \frac{N_{I} + {(N_{O}, N_{C})}_{MAX}}{2} - - - (6)

其中N_H，N_I，N_O，N_C分别为隐层节点数、输入矢量维数、输出节点数和目标分类数；

C：生成训练测试矢量集合，采用多幅性质不同、受污染程度不同的图像和其相应的干净图像一起构造训练测试矢量集合；

D：构建代价函数，确定误差目标；采用了客观评价标准和主观评价标准，代价函数为：

J＝αNMSE+βHVSNR (7)

其中α，β为权重因子，归一化均方误差NMSE定义如下：

NMSE = \frac{Σ_{k = 1}^{N} Σ_{j = 1}^{M} {(x (k, j) - \hat{x} (k, j))}^{2}}{Σ_{k = 1}^{N} Σ_{j = 1}^{M} {(x (k, j))}^{2}} - - - (8)

式中x(k，j)为原始图像中的点，HVSNR---视觉信噪比；PSNR---峰值信噪比，为处理过的图像中的点.常用的PSNR和NMSE具有以下关系：

PSNR = 10 \log \frac{1}{NMSE} - - - (9)

E：采用优化算法来调整网络的权值和阈值；

F：重复步骤D以及步骤E直至满足误差目标或迭代次数。

当前，计算机技术的发展已经消除了采用神经网络直接构建多值图像滤波方法的诸多限制因素。神经网络是一种结构连接主义的产物，是模仿人类大脑处理特定任务的机器。多层前向神经网络的典型结构由输入层、隐层、输出层组成，其中隐层的规模和层数可以根据需要进行调节。已经证明，多层前向神经网络具有稳定收敛、能逼近任意函数等特性。前向神经网络中是由众多神经元连接而成，其基本单元-神经元，具有三个基本要素：连接权，积分器和激活函数。神经元的数学表达为：

u_{k} = Σ_{j = 1}^{p} w_{kj} x_{j} \cdot - - - (3)

y_k＝(u_k-θ_k) (4)式中x₁，x₂，...，x_p是输入信号，W_k1，W_k2，...，W_kp是第k个神经元的树突权值，u_k是累加器的输出，θ_k是阈值，y_k是神经元的输出，激活函数为

其中T是一个伸缩因子.

由于神经网络很强的模式识别能力、任意函数逼近能力和自适应学习能力，从理论上讲，使用神经网络能够实现满足任意指标的最优图像滤波方法。适宜于用作滤波方法的神经网络有多层前向神经网络、径向基神经网络、反馈神经网络和细胞神经网络等，但研究不够充分，缺乏对实际应用的指导。本发明利用神经网络将视频数据进行滤波，采用遗传算法进行优化，并使用客观评价标准和主观评价标准相结合的方法作为优化指标。本发明给出了神经网络滤波方法的构建方法，研究了训练集合的生成、网络规模的大小对滤波方法性能的影响。实验表明，该滤波方法去除噪声和细节保持能力远优于秩排序滤波方法和形态滤波方法等传统滤波方法。视频数据可以是静态图像和动态图像，噪声可以是脉冲噪声、高斯噪声或者其他类型的噪声。滤波方法具有结构固定，并行度高等优点，适宜于采用CPLD或者DSP硬件实现。图像滤波就是根据图像中没有受到污染的数据估计替代受污染数据，从而达到去伪存真的目的。设X＝[x_i，j]_M×N为图像输入信号，则图像滤波的输出信号为：Y＝F(X)，其中F(X)是滤波函数.由于图像的维数很大，滤波方法的设计中常采用开窗操作，即在X中开滤波窗X_mn，维数为(2k+1)²，滤波窗中心元素为X(m，n)，则有Y(m，n)＝F(X_mn).滤波函数F(X)决定了滤波性能，对应于均值滤波方法有：

F (X_{mn}) = Σ_{i = - k}^{k} Σ_{j = - k}^{k} X (m + i, n + j) / {(2 k + 1)}^{2} - - - (1)

对应于中值滤波方法有：

F(X_mn)＝MED(X_mn) (2)

研究表明，当F(X_mn)中利用的图像中的信息，如极值点和形态学结构信息，制订的合理规则越多，获得滤波方法性能越好。但在图像滤波方法设计中，人工设计这些规则极其繁琐，而且很难取舍其中的矛盾规则，因而出现很多算法复杂、计算时间长而性能不佳的滤波方法。寻找一种结构整齐、能够让机器自动学习调整规则的方法是必要的。人工神经网络正好满足这些要求。本发明给出了多层前向神经网络滤波方法的一般方法及需要解决的问题，在尽可能多的保持细节的前提下消除噪声，提高视频图像主观标准和客观标准。将神经网络用作图像滤波方法，就是用神经网络来逼近最优的滤波方法传递函数F(X_mn)。由上文可知，神经网络滤波方法的输入层对应于滤波窗内的观测向量，输出层对应于滤波窗口中心的输出向量。不难看出，多层前向神经网络构建的滤波方法等价于FIR滤波方法，具有稳定收敛的特性。从各种实验结果可以看出，神经网络滤波方法恢复细节的能力远优于其它常用滤波方法.尤其是当图像受到污染程度较轻时，其他滤波方法在滤除噪声的同时模糊了原始的信息，所以已经不能增加信噪比，而图像受到少量污染实际上是工程实践中最常见的情形。

附图说明：

图1给出了滤波方法对不同程度噪声污染的图像恢复能力的对比结果

图2为Lena图的滤波效果，滤波窗口大小为3*3

图2a为原始图像

图2b为受到脉冲噪声(10％)污染的图像

图2c为的标准中值滤波方法的滤波结果

图2d为软阈值自适应滤波结果

图2e渐进开关中值滤波方法的滤波结果

图2f为本发明提出的神经网络滤波方法的滤波结果。

具体实施方式：

本发明为采用神经网络技术对图像进行滤波的方法，A：确定网络输入层和输出层的神经元个数；

B：确定隐层层数和神经元个数；

N_{H} = \frac{N_{I} + {(N_{O}, N_{C})}_{MAX}}{2} - - - (6)

J＝αNMSE+βHVSNR (7)

其中α，β为权重因子，归一化均方误差NMSE定义如下：

NMSE = \frac{Σ_{k = 1}^{N} Σ_{j = 1}^{M} {(x (k, j) - \hat{x} (k, j))}^{2}}{Σ_{k = 1}^{N} Σ_{j = 1}^{M} {(x (k, j))}^{2}} - - - (8)

式中x(k，j)为原始图像中的点，HVSNR---视觉信噪比；PSNR----峰值信噪比，为处理过的图像中的点.常用的PSNR和NMSE具有以下关系：

PSNR = 10 \log \frac{1}{NMSE} - - - (9)

E：采用优化算法来调整网络的权值和阈值；

F：重复步骤D以及步骤E直至满足误差目标或迭代次数。

下面首先给出构建本发明所述方法的主要步骤并作进一步说明：

A：确定网络输入层和输出层的神经元个数；

神经网络的输入层对应于滤波窗口内的像素，其节点个数根据图像的性质和受污染的程度来调整.根据经验，对于神经网络滤波方法，3×3窗口就能获得很不错的性能，大尺寸的输入窗口由于函数复杂、难以优化而需要太多的时间.在计算能力允许的情况下，5×5的窗口能够使得神经网络滤波方法获得更多的局部结构信息，也是可以接受的。

神经网络的输出层对应于滤波窗口的中心像素，对会读图像输出层神经的个数为1。

对多通道图像，比如RGB彩色图像，输入层和输出层的神经元个数和通道数成正比。

B：确定隐层层数和神经元个数；

N_{H} = \frac{N_{I} + {(N_{O}, N_{C})}_{MAX}}{2} - - - (6)

其中N_H，N_I，N_O，N_C分别为隐层节点数、输入矢量维数、输出节点数和目标分类数.研究表明，图像滤波方法的粗分类数目大致在20-50之间，更细的分类不能成比例地增加滤波效能.因此，隐层的数目在14-30之间。

对多通道图像，比如RGB彩色图像，隐层节点数目和通道数成正比。

C：生成训练测试矢量集合；

多层前向神经网络常采用有导师训练方法，需要构建训练测试矢量集合.在这里我们采用多幅性质不同、受污染程度不同的图像和其相应的干净图像一起构造训练测试矢量集合。这样做的目的是使得滤波方法能够具有较高的适应性.对于无法得到干净图像的应用场合，只要能判决滤波输出图像是否有利于应用，比如受提高了匹配精度，就可以用间接有导师训练法，遗传算法等，优化滤波方法。矢量集合的大小比较灵活，已能覆盖整个作用空间为佳。

D：构建代价函数，确定误差目标；

滤波输出图像是否有利于应用是一个广义概念，包括基于原图像和输出图像之差的客观评价标准(MSE、MAE、PSNR)、基于人类视觉的主观评价标准(HVSNR)以及具体应用的指标，如图像匹配的精度等.在这里我们综合采用了客观评价标准和主观评价标准，代价函数为：

J＝αNMSE+βHVSNR (7)

其中α，β为权重因子，归一化均方误差NMSE定义如下：

NMSE = \frac{Σ_{k = 1}^{N} Σ_{j = 1}^{M} {(x (k, j) - \hat{x} (k, j))}^{2}}{Σ_{k = 1}^{N} Σ_{j = 1}^{M} {(x (k, j))}^{2}} - - - (8)

式中x(k，j)为原始图像中的点，

为处理过的图像中的点.常用的PSNR和

NMSE具有以下关系：

PSNR = 10 \log \frac{1}{NMSE} - - - (9)

式7中HVSNR的定义采用了小波分解理论，使自动计算图像主观质量成为可能，由于其计算比较耗时，滤波方法设计中仅在对较优的参数组进一步优化时使用。

E：采用优化算法来调整网络的权值和阈值；

神经网络的权值和阈值的调整属于参数优化问题.为了便于重复实验，后文的数据是采用经典BP算法得到的结果，速度和性能都比较适中.实验中，我们还采用了改进的遗传优化方法，该算法不需要太多神经网络信息，收敛速度也很快。两者的结果是一致的。

F：重复步骤D 以及步骤E直至满足误差目标或迭代次数。

满足步骤D中的误差目标就是指使得代价函数在应用要求的精度下逼近最小值。在一些实时时变系统中，满足一定的迭代次数也是一个重要的指标。

按照上述方法，本发明对包含Lena林娜图、桥溪图和云图在内的各类标准图像进行了仿真实验.这些图像具有丰富的细节和平滑区.测试图像为256×256大小、256灰度级.实验方法和结果可以类推到彩色图像。

实验中采用的训练样本为受到20％脉冲噪声污染的部分Lena图，大小为200×200.迭代次数为450代，在PC机上耗时10分钟。

表1各种滤波器的性能对比(云图和桥溪图，PSNR)

遥感云图				桥溪图
遥感云图				桥溪图			1％	10％	20％	1％	10％	20％
噪声污染图像标准中值滤波软阈值自适应滤波渐进开关中值滤波多层神经网络滤波	25.9227.5527.0933.6640.06	15.6626.5626.8633.0935.54	12.5924.6226.5929.9232.07	24.7723.5422.8429.4631.05	15.1622.9322.5728.8529.06	12.1721.7622.3726.5127.02	1％	10％	20％	1％	10％	20％

表1给出了各种滤波方法对遥感云图和桥溪图的滤波结果。

表2各种滤波器的性能对比(Lena，PSNR)

	0	1％	2％	5％	10％	20％	30％	40％
	0	1％	2％	5％	10％	20％	30％	40％	标准中值滤波软阈值自适应滤波渐进开关中值滤波多层神经网络滤波	30.227.8435.4147.62	30.7527.7536.0544.84	30.7127.6236.8744.45	29.9827.4436.1541.38	28.9727.1433.2537.61	26.4126.730.3033.92	22.4126.5228.5830.52	17.9925.8926.8926.44

表2给出了各种滤波方法对林娜图的滤波结果。其中，标准中值滤波方法的滤波性能基本能够代表层叠滤波方法、形态滤波方法等，软阈值自适应滤波是文献[2]的方法，其基本思想是根据局部平均值设定阈值来进行滤波处理处理，渐进开关中值滤波是作者在极值开关中值滤波方法的增强型，能够根据图像污染程度进行滤波窗口调整，在计算时间和对高污染的图像处理两方面都很优越。多层神经网络滤波方法就是上文提到的算法，为9×18×9×1结构.可以看出，无论对细节丰富的桥溪图还是比较平滑的云图，神经滤波方法都有明显的效果。

表3神经网络的规模和滤波性能的关系(Lena，PSNR)

	0％	1％	2％	5％	10％	20％	30％	40％	处理时间
	0％	1％	2％	5％	10％	20％	30％	40％	处理时间	9-9-9-19-18-9-19-9-18-99-18-18-19-36-36-1	44.1547.4538.0147.6240.53	42.0445.3337.5844.8439.76	40.7443.337.2144.4539.24	38.1340.5135.8741.3835.87	34.9736.9833.9437.6135.884	30.6633.2230.7133.9233.04	26.8728.8727.1530.5229.22	23.5124.9623.6526.43625.96	0.821.231.121.613.78

表3给出了神经网络规模及隐层节点分配对滤波方法性能的影响。其中，优化迭代次数均为450代.可以看到9×18×9×1和9×18×18×1的网络结构性能比较好，9×36×36×1网络结构则需要更多地迭代次数才能收敛到最优解。

图1可以看到，随着噪声密度加大，各种滤波方法的性能都有所下降。而在噪声密度小的时候，其他滤波方法却依然不可避免地模糊图像。

图2为Lena图的滤波效果，滤波窗口大小为3*3，其中，图2a为原始图像，图2b为受到脉冲噪声(10％)污染的图像，图2c为的标准中值滤波方法的滤波结果，图2d为软阈值自适应滤波结果，图2e渐进开关中值滤波方法的滤波结果，图2f为本发明提出的神经网络滤波方法的滤波结果.实验中，当噪声密度小于10％时，肉眼很难分辨神经网络滤波方法的输出图像和原图之间的差别，却能明显感觉到其他滤波方法输出图像模糊。

从各种实验结果可以看出，神经网络滤波方法恢复细节的能力远优于其它常用滤波方法.尤其是当图像受到污染程度较轻时，其他滤波方法在滤除噪声的同时模糊了原始的信息，所以已经不能增加信噪比，而图像受到少量污染实际上是工程实践中最常见的情形。

神经网络滤波方法的计算复杂度和网络的规模成正比，为0(N_I*N_H*N_O)，而与图像受污染程度无关，因此计算时间可以精确确定。而且，神经网络的结构非常易于并行计算编程，也能够方便地在可编程器件上实现。

Claims

1、一种采用神经网络技术对图像进行滤波的方法，其特征是：A：确定网络输入层和输出层的神经元个数；

B：确定隐层层数和神经元个数；

N_{H} = \frac{N_{I} + {(N_{O}, N_{C})}_{MAX}}{2}

其中N_H，N_I，N_O，N_C，分别为隐层节点数、输入矢量维数、输出节点数和目标分类数；

J＝αNMSE+βHVSNR

其中α，β为权重因子，归一化均方误差NMSE定义如下：

NMSE = \frac{Σ_{k = 1}^{N} Σ_{j = 1}^{M} {(x (k, j) - \hat{x} (k, j))}^{2}}{Σ_{k = 1}^{N} Σ_{j = 1}^{M} {(x (x, k))}^{2}}

式中x(k，j)为原始图像中的点，为处理过的图像中的点，HVSNR---视觉信噪比；PSNR----峰值信噪比，常用的PSNR和NMSE具有以下关系：

PSNR = 10 \log \frac{1}{NMSE}

E：采用优化算法来调整网络的权值和阈值；

F：重复步骤D以及步骤E直至满足误差目标或迭代次数。