CN103956161A

CN103956161A - 一种改进的ifft图声转换方法

Info

Publication number: CN103956161A
Application number: CN201410152883.8A
Authority: CN
Inventors: 汪剑鸣; 原野; 王�琦
Original assignee: Tianjin Polytechnic University
Current assignee: Tianjin Polytechnic University
Priority date: 2014-04-17
Filing date: 2014-04-17
Publication date: 2014-07-30
Anticipated expiration: 2034-04-17
Also published as: CN103956161B

Abstract

本发明公开了一种改进的IFFT图声转换方法，属于助盲领域。本发明可以将图像转换为有效频率范围内的声音信号。本发明通过以下步骤得以实现：(1)设定图声转换后持续时间T，采样点数N_S；(2)将输入图像转换为灰度图像；(3)提取一列像素；(4)将图像像素映射为声音的频域幅值；(5)对提取的像素进行数据变换：首先拓宽频带提高声音信号的丰满度，然后对声音信号进行移频提高听觉舒适度，最后将数据进行对称变换；(6)对变化后的数据进行IFFT变换，将图像转换为成声音时域信号；(7)判断数据是否为图像的最后一列，若是则图声转换完成；若不是，则提取图像的下一列，重复步骤(3)到(6)，直到整幅图像转换成声音。

Description

一种改进的IFFT图声转换方法

技术领域

本发明属于助盲领域，涉及图声转换领域的信息技术，特别是一种改进的IFFT图声转换方法。

背景技术

图声转换是用非语言的声音表示图像信息，可用于电子行走辅助(electronictravel aid)系统和视觉替代(vision substitution)系统，为盲人和视觉损伤患者提供基于听觉通路的无损伤视觉补偿。

目前图声转换方法有vOICe系统和IFFT(Inverse fast Fourier transform)图声转换方法。Meijer1992年提出vOICe系统，它的内部工作方式是先将输入图像(M×N)转换为灰度图像，使像素值介于0-255之间。逐列扫描灰度图像，1秒一次，从左至右。如图1，每列图像的每一个像素转换为一个声音信号，声音的振幅用像素值表示，声音的频率与像素的位置有关，将图像顶部像素映射成高频，图像底部像素映射成低频，由图像顶部到底部，频率线性降低。图像第j列的像素由(1)式转换成声音：

x^{j} (n) = Σ_{i = 1}^{N} a_{i}^{j} \cos (ω_{i}^{j} n) - - - (1)

式中和分别为图像第j列第i行的像素转换成声音的振幅和频率，N为图像总行数，n为声音的持续时间。其中

ω_{i} = f_{\min} + \frac{f_{\max} - f_{\min}}{N} * i - - - (2)

声音信号的频率范围为f∈[f_min，f_max]Hz，根据采样定理，采样率f_s=2*f_maxHz，故又c=f_max-f_min，是一个常数，故公式(1)可以表示为

x^{j} (n) = Σ_{i = 1}^{N} α_{i}^{j} * \cos [(f_{\min} + \frac{f_{\max} - f_{\min}}{N} * i) * n] - - - (3)

这种方法计算量大，实时性较差。

张璇等在vOICe系统的基础上提出一种有效的基于IFFT图声转换的盲人视觉辅助方法(An Efficient Method of Image-Sound Conversion B ased on IFFT forVisionAid for the Blind)。通过对每列图像的每一个像素值进行IDFT(InverseDiscrete FourierTransform)，即可得到该列图像对应的声音信号。将图像从左至右逐列变换输出，最终将整幅图像转换为声音信号。

IDFT变换公式为

x (n) = \frac{1}{n} Σ_{m = 0}^{N - 1} X (m) e^{j 2 πmn / N} - - - (4)

由欧拉公式，只取IDFT的实部即可得到

x (n) = \frac{1}{n} Σ_{m = 0}^{N - 1} X (m) \cos (2 πmn / N) - - - (5)

故图像第j列的像素由(6)式转换成声音：

x^{j} (n) = \frac{1}{n} Σ_{i = 0}^{N - 1} X^{j} (i) \cos (\frac{2 π}{N} * i * n) - - - (6)

这里x^j(n)是第j列像素经过IDFT变换后的声音信号，X^j(i)为输入图像(M×N)第j列第i行的像素值，与式(1)中对应。由于系数为常数，在图声转换中不会影响数据变化的本质，只是在幅度上产生波动，因此可忽略不计。式(6)与vOICe系统转换公式(1)比较，结构一致，故可用IDFT方法拟合vOICe系统。文中用IFFT代替IDFT，可将计算复杂度由o(N²)降为o(N*logN)。

论文中设转换后的声音信号时间为T=1s，采样点数为N_S。采样率为最小频率间隔，即频率分辨率为经过IFFT变换后的声音信号的频率范围为f∈[0，f_N]=[0，N*Δf]=[0，N]Hz。

这种方法虽较vOICe系统有所改进，计算量有所降低，但没有考虑人耳最佳接受的频率范围，转换完的声音信号频带过窄、频率过低，声音的丰满度和听觉舒适度均较差。

发明内容

本方法要解决的技术问题是针对现有图声转换方法计算量大、实时性差，未能充分考虑人耳最佳接受的频率范围，声音表达的丰满度和听觉舒适度均较差的问题，提出一种改进的IFFT图声转换方法。

本发明采用如下的技术方案，如图2，步骤如下：

(1)设定参数，设定图声转换后声音信号持续时间为T，采样点数为N_S，采样频率为最小频率间隔，即频率分辨率为

(2)输入一幅M×N的图像，将其转换为灰度图像，使像素值介于0-255之间；

(3)提取(2)中的一列像素，该列像素的像素值为X^j(0)，X^j(1)，…，X^j(N-1)；

(4)根据vOICe系统的映射原理，将图像像素映射为声音信号的频域幅值；如图3，将X^j(0)和X^j(N-1)分别映射为声音信号中最高频与最低频对应的幅值，相邻像素对应的频率间隔为Δf；定义频带宽度为图声转换后声音信号的最高频率与最低频率之差，图像映射为声音后频带宽度为N*ΔfHz，声音信号频带宽度过窄，人耳不易分辨，因此需要进一步拓宽频带，以提高声音的丰满度；

(5)对(4)中提取的像素进行数据变换，如图4，具体步骤如下：

(a)拓宽频带提高声音信号的丰满度；设满足要求的声音信号的频带宽度为ΔFHz，其对应的频率分量个数为为拓宽频带，相邻像素间插入个幅值为“0”的频率分量，如图4②；此时声音信号的频率范围为f∈[0，f_max′]=[0，N′*Δf]=[0，ΔF]Hz，但声音信号中含有许多低频信息，影响声音的舒适度，因此需要进行移频；

(b)对声音信号进行移频，提高听觉舒适度；定义图声转换的有效频率范围为声音信号的能够满足人耳听觉舒适度的最低有效频率与最高有效频率之间的范围；根据采样定理，声音信号的最大频率为为了提高声音信号的听觉舒适度，将(a)中的数据频移至图声转换的有效频率范围f∈[f₁，f₂]=[f₁，f₁+ΔF]Hz内，其中f₂＜f_max；为了获得声音信号完整的频域响应，在f₁前补充

num_f_{1} = \frac{f_{1}}{Δf} - 1

个频率分量，f₂后补充

num_f_{2} = \frac{N_{S} + 2}{2} - N^{'} - num_f_{1}

个频率分量，幅值均设为“0”，如图4④；

(c)根据实数信号FFT结果的对称性，将(b)中进行对称变换，如图5；为了减少计算量，将对称部分(图5①)用“0”代替，如图4⑥；由IFFT转换原理，用“0”代替对称数据，对其进行IFFT变换后取实部，与传统IFFT变换取实部相比，得到的频率成分一致，幅值为一半，因此不影响声音的频带宽度以及声音表达的丰满度和听觉舒适度，即不影响转换后声音信号的最终结果；

(6)对数据变化后的(5)中的数据进行IFFT变换，将图像转换为成声音时域信号；

(7)判断(6)中的数据是否为图像的最后一列，若是则图声转换完成；若不是，则取图像的下一列，重复步骤(3)到(6)，直到整幅图像转换成声音；

本发明的有益结果是该方法考虑人耳的听力范围，通过拓宽频带和移频，使转换后的声音信号达到需要的频率范围f∈[f₁，f₂]Hz，提高了声音表达的丰满度和听觉舒适度；并用“0”代替对称数据，可大大减少计算量。

附图说明

图1为vOICe系统的原理图，其中①为一个像素，像素值为②为逐列扫描图像，③为第j列图像的每一个像素都转换为一个声音信号，声音的振幅用像素值表示，频率与像素的位置有关，将图像顶部像素映射成高频，图像底部像素映射成低频，由图像顶部到底部，频率线性降低，③为第j列像素转换的声音信号

x^{j} (n) = Σ_{i = 1}^{N} a_{i}^{j} \cos (ω_{i}^{j} n);

图2为改进的IFFT图声转换方法的算法流程；

图3为将图像中的一列像素映射为声音信号的频域幅值，其中①、②分别为声音信号中最高频与最低频对应的幅值；

图4是图2中的数据变换部分，其中①为拓宽频带，②为插入频率分量，每个频率分量对应幅值为“0”，③为移频，④为补充频率分量，并将其幅值设为“0”，⑤为对称变换，⑥为对称部分用“0”代替；

图5是图4中的对称变换部分，其中①为对称部分。

具体实施方式

本发明是考虑人耳听力范围的改进的IFFT图声转换方法，下面参照附图和实施例对本发明的具体实施方式进行说明。

该发明的步骤如下：

(1)设定参数。设定转换后声音信号的时间T=1s，采样点数N_S=40002。采样频率为最小的频率间隔，即频率分辨率为

(2)输入一幅501*501的图像，即M=N=501，将其转换为灰度图像，使像素值介于0-255之间。

(3)提取(2)中的一列像素，该列像素的像素值为X^j(0)，X^j(1)，…，X^j(N-1)。

(4)根据vOICe系统的映射原理，将图像像素映射为声音的频域幅值。将X^j(0)和X^j(N-1)分别映射为声音信号中最高频与最低频对应的幅值，相邻像素对应的频率间隔为Δf。定义频带宽度为图声转换后声音信号的最高频率与最低频率之差。图像映射为声音后频带宽度为N*Δf=501Hz，声音信号频带宽度过窄，人耳不易分辨，因此需要进一步拓宽频带，以提高声音的丰满度。

(5)对(4)中提取的像素进行数据变换，具体步骤如下：

(a)拓宽频带提高声音信号的丰满度。设满足要求的声音信号的频带宽度为ΔF=9001Hz，其对应的频率分量数为为拓宽频带，相邻像素间插入个频率分量，其幅值为“0”，如图4②。此时声音信号的频率范围为f∈[0，f_max′]=[0，ΔF]=[0，9001]Hz，声音信号中含有许多低频信息，影响声音的舒适度，因此需要进行移频。

(b)对声音信号进行移频，提高听觉舒适度。定义图声转换的有效频率范围为声音信号的能够满足人耳听觉舒适度的最低有效频率与最高有效频率之间的范围。根据采样定理，声音信号的最大频率为为了提高声音信号的听觉舒适度，将(a)中的数据频移至图声转换的有效频率范围f∈[f₁，f₂]=[f₁，f₁+ΔF]=[1000，10001]Hz内，满足f₂＜f_max。为了获得声音信号完整的频域响应，在f₁前补充个频率分量，f₂后补充

num_f_{2} = \frac{N_{S} + 2}{2} - N^{'} - num_f_{1} = 10000

个频率分量，将其幅值均设为“0”，如图4④。

(c)根据实数信号FFT结果的对称性，将(b)中进行对称变换，如图5。为了减少计算量，将对称部分(图5①)用“0”代替，如图4⑥。

(6)对数据变化后的(5)中的数据进行IFFT变换，将图像转换成声音信号。

(7)判断(6)中的数据是否为图像的最后一列，若是则图声转换完成；若不是，则取图像的下一列，重复步骤(3)到(6)，直到整幅图像转换成声音。

Claims

1.一种改进的IFFT图声转换方法，包括下列步骤：

(1)设定图声转换后持续时间T，采样点数N_S；采样频率为最小的频率间隔，即频率分辨率为

(4)根据vOICe系统的映射原理，将图像像素映射为声音的频域幅值；将X^j(0)和X^j(N-1)分别映射为声音信号中最高频与最低频对应的幅值，相邻像素对应的频率间隔为Δf；

(5)对(4)中提取的像素进行数据变换，具体步骤如下：

(a)设满足要求的声音信号的频带宽度为ΔFHz，其对应的频率分量数为为拓宽频带，相邻像素间插入个频率分量，其幅值为“0”；

(b)为了提高声音信号的听觉舒适度，将(a)中的数据频移至图声转换的有效频率范围f∈[f₁，f₂]=[f₁，f₁+ΔF]Hz内；为了获得声音信号完整的频域响应，在f₁前补充

num_f_{1} = \frac{f_{1}}{Δf} - 1

个频率分量，f₂后补充

num_f_{2} = \frac{N_{S} + 2}{2} - N^{'} -

num_f_{1}

个频率分量，将其幅值均设为“0”；

(c)根据实数信号FFT结果的对称性，将(b)中进行对称变换，为了减少计算量，将对称部分用“0”代替；