CN103956161B - 一种改进的ifft图声转换方法 - Google Patents
一种改进的ifft图声转换方法 Download PDFInfo
- Publication number
- CN103956161B CN103956161B CN201410152883.8A CN201410152883A CN103956161B CN 103956161 B CN103956161 B CN 103956161B CN 201410152883 A CN201410152883 A CN 201410152883A CN 103956161 B CN103956161 B CN 103956161B
- Authority
- CN
- China
- Prior art keywords
- image
- sound
- frequency
- conversion
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Abstract
本发明公开了一种改进的IFFT图声转换方法,属于助盲领域。本发明可以将图像转换为有效频率范围内的声音信号。本发明通过以下步骤得以实现:(1)设定图声转换后持续时间T,采样点数NS;(2)将输入图像转换为灰度图像;(3)提取一列像素;(4)将图像像素映射为声音的频域幅值;(5)对提取的像素进行数据变换:首先拓宽频带提高声音信号的丰满度,然后对声音信号进行移频提高听觉舒适度,最后将数据进行对称变换;(6)对变化后的数据进行IFFT变换,将图像转换为成声音时域信号;(7)判断数据是否为图像的最后一列,若是则图声转换完成;若不是,则提取图像的下一列,重复步骤(3)到(6),直到整幅图像转换成声音。
Description
技术领域
本发明属于助盲领域,涉及图声转换领域的信息技术,特别是一种改进的IFFT图声转换方法。
背景技术
图声转换是用非语言的声音表示图像信息,可用于电子行走辅助(electronictravel aid)系统和视觉替代(vision substitution)系统,为盲人和视觉损伤患者提供基于听觉通路的无损伤视觉补偿。
目前图声转换方法有vOICe系统和IFFT(Inverse fast Fourier transform)图声转换方法。Meijer1992年提出vOICe系统,它的内部工作方式是先将输入图像(M×N)转换为灰度图像,使像素值介于0-255之间。逐列扫描灰度图像,1秒一次,从左至右。如图1,每列图像的每一个像素转换为一个声音信号,声音的振幅用像素值表示,声音的频率与像素的位置有关,将图像顶部像素映射成高频,图像底部像素映射成低频,由图像顶部到底部,频率线性降低。图像第j列的像素由(1)式转换成声音:
式中和分别为图像第j列第i行的像素转换成声音的振幅和频率,N为图像总行数,n为声音的持续时间。其中
声音信号的频率范围为f∈[fmin,fmax]Hz,根据采样定理,采样率fs=2*fmaxHz,故又c=fmax-fmin,是一个常数,故公式(1)可以表示为
这种方法计算量大,实时性较差。
张璇等在vOICe系统的基础上提出一种有效的基于IFFT图声转换的盲人视觉辅助方法(An Efficient Method of Image-Sound Conversion B ased on IFFT forVisionAid for the Blind)。通过对每列图像的每一个像素值进行IDFT(InverseDiscrete Fourier Transform),即可得到该列图像对应的声音信号。将图像从左至右逐列变换输出,最终将整幅图像转换为声音信号。
IDFT变换公式为
由欧拉公式,只取IDFT的实部即可得到
故图像第j列的像素由(6)式转换成声音:
这里xj(n)是第j列像素经过IDFT变换后的声音信号,Xj(i)为输入图像(M×N)第j列第i行的像素值,与式(1)中对应。由于系数为常数,在图声转换中不会影响数据变化的本质,只是在幅度上产生波动,因此可忽略不计。式(6)与vOICe系统转换公式(1)比较,结构一致,故可用IDFT方法拟合vOICe系统。文中用IFFT代替IDFT,可将计算复杂度由o(N2)降为o(N*logN)。
论文中设转换后的声音信号时间为T=1s,采样点数为NS。采样率为最小频率间隔,即频率分辨率为经过IFFT变换后的声音信号的频率范围为f∈[0,fN]=[0,N*Δf]=[0,N]Hz。
这种方法虽较vOICe系统有所改进,计算量有所降低,但没有考虑人耳最佳接受的频率范围,转换完的声音信号频带过窄、频率过低,声音的丰满度和听觉舒适度均较差。
发明内容
本方法要解决的技术问题是针对现有图声转换方法计算量大、实时性差,未能充分考虑人耳最佳接受的频率范围,声音表达的丰满度和听觉舒适度均较差的问题,提出一种改进的IFFT图声转换方法。
本发明采用如下的技术方案,如图2,步骤如下:
(1)设定参数,设定图声转换后声音信号持续时间为T,采样点数为NS,采样频率为最小频率间隔,即频率分辨率为
(2)输入一幅M×N的图像,将其转换为灰度图像,使像素值介于0-255之间;
(3)提取(2)中的一列像素,该列像素的像素值为Xj(0),Xj(1),…,Xj(N-1),j为提取图像像素所在列序号;
(4)根据vOICe系统的映射原理,将图像像素映射为声音信号的频域幅值;如图3,将Xj(0)和Xj(N-1)分别映射为声音信号中最高频与最低频对应的幅值,相邻像素对应的频率分辨率为Δf;定义频带宽度为图声转换后声音信号的最高频率与最低频率之差,图像映射为声音后频带宽度为N*ΔfHz,声音信号频带宽度过窄,人耳不易分辨,因此需要进一步拓宽频带,以提高声音的丰满度;
(5)对(4)中提取的像素进行数据变换,如图4,具体步骤如下:
(a)拓宽频带提高声音信号的丰满度;设满足要求的声音信号的频带宽度为ΔFHz,其对应的频率分量个数为为拓宽频带,相邻像素间插入个幅值为“0”的频率分量,如图4②;此时声音信号的频率范围为f∈[0,fmax′]=[0,N′*Δf]=[0,ΔF]Hz,但声音信号中含有许多低频信息,影响声音的舒适度,因此需要进行移频;
(b)对声音信号进行移频,提高听觉舒适度;定义图声转换的有效频率范围为声音信号的能够满足人耳听觉舒适度的最低有效频率与最高有效频率之间的范围;根据采样定理,声音信号的最大频率为为了提高声音信号的听觉舒适度,将(a)中的数据频移至图声转换的有效频率范围f∈[f1,f2]=[f1,f1+ΔF]Hz内,其中f2<fmax;为了获得声音信号完整的频域响应,在f1前补充个频率分量,f2后补充个频率分量,幅值均设为“0”,如图4④;
(c)根据实数信号FFT结果的对称性,将(b)中进行对称变换,如图5;为了减少计算量,将对称部分(图5①)用“0”代替,如图4⑥;由IFFT转换原理,用“0”代替对称数据,对其进行IFFT变换后取实部,与传统IFFT变换取实部相比,得到的频率成分一致,幅值为一半,因此不影响声音的频带宽度以及声音表达的丰满度和听觉舒适度,即不影响转换后声音信号的最终结果;
(6)对数据变化后的(5)中的数据进行IFFT变换,将图像转换为成声音时域信号;
(7)判断(6)中的数据是否为图像的最后一列,若是则图声转换完成;若不是,则取图像的下一列,重复步骤(3)到(6),直到整幅图像转换成声音;
本发明的有益结果是该方法考虑人耳的听力范围,通过拓宽频带和移频,使转换后的声音信号达到需要的频率范围f∈[f1,f2]Hz,提高了声音表达的丰满度和听觉舒适度;并用“0”代替对称数据,可大大减少计算量。
附图说明
图1为vOICe系统的原理图,其中①为一个像素,像素值为②为逐列扫描图像,③为第j列图像的每一个像素都转换为一个声音信号,声音的振幅用像素值表示,频率与像素的位置有关,将图像顶部像素映射成高频,图像底部像素映射成低频,由图像顶部到底部,频率线性降低,③为第j列像素转换的声音信号
图2为改进的IFFT图声转换方法的算法流程;
图3为将图像中的一列像素映射为声音信号的频域幅值,其中①、②分别为声音信号中最高频与最低频对应的幅值;
图4是图2中的数据变换部分,其中①为拓宽频带,②为插入频率分量,每个频率分量对应幅值为“0”,③为移频,④为补充频率分量,并将其幅值设为“0”,⑤为对称变换,⑥为对称部分用“0”代替;
图5是图4中的对称变换部分,其中①为对称部分。
具体实施方式
本发明是考虑人耳听力范围的改进的IFFT图声转换方法,下面参照附图和实施例对本发明的具体实施方式进行说明。
该发明的步骤如下:
(1)设定参数。设定转换后声音信号的时间T=Is,采样点数NS=40002。采样频率为最小的频率间隔,即频率分辨率为
(2)输入一幅501*501的图像,即M=N=501,将其转换为灰度图像,使像素值介于0-255之间。
(3)提取(2)中的一列像素,该列像素的像素值为Xj(0),Xj(1),…,Xj(N-1),j为提取图像像素所在列序号。
(4)根据vOICe系统的映射原理,将图像像素映射为声音的频域幅值。将Xj(0)和Xj(N-1)分别映射为声音信号中最高频与最低频对应的幅值,相邻像素对应的频率分辨率为Δf。定义频带宽度为图声转换后声音信号的最高频率与最低频率之差。图像映射为声音后频带宽度为N*Δf=501Hz,声音信号频带宽度过窄,人耳不易分辨,因此需要进一步拓宽频带,以提高声音的丰满度。
(5)对(4)中提取的像素进行数据变换,具体步骤如下:
(a)拓宽频带提高声音信号的丰满度。设满足要求的声音信号的频带宽度为ΔF=9001Hz,其对应的频率分量数为为拓宽频带,相邻像素间插入个频率分量,其幅值为“0”,如图4②。此时声音信号的频率范围为f∈[0,fmax′]=[0,ΔF]=[0,9001]Hz,声音信号中含有许多低频信息,影响声音的舒适度,因此需要进行移频。
(b)对声音信号进行移频,提高听觉舒适度。定义图声转换的有效频率范围为声音信号的能够满足人耳听觉舒适度的最低有效频率与最高有效频率之间的范围。根据采样定理,声音信号的最大频率为为了提高声音信号的听觉舒适度,将(a)中的数据频移至图声转换的有效频率范围f∈[f1,f2]=[f1,f1+ΔF]=[1000,10001]Hz内,满足f2<fmax。为了获得声音信号完整的频域响应,在f1前补充个频率分量,f2后补充个频率分量,将其幅值均设为“0”,如图4④。
(c)根据实数信号FFT结果的对称性,将(b)中进行对称变换,如图5。为了减少计算量,将对称部分(图5①)用“0”代替,如图4⑥。
(6)对数据变化后的(5)中的数据进行IFFT变换,将图像转换成声音信号。
(7)判断(6)中的数据是否为图像的最后一列,若是则图声转换完成;若不是,则取图像的下一列,重复步骤(3)到(6),直到整幅图像转换成声音。
Claims (1)
1.一种改进的IFFT图声转换方法,包括下列步骤:
(1)设定图声转换后持续时间T,采样点数Ns;采样频率为最小的频率间隔,即频率分辨率为
(2)输入一幅M×N的图像,将其转换为灰度图像,使像素值介于0-255之间;
(3)提取(2)中的一列像素,该列像素的像素值为Xj(0),Xj(1),…,Xj(N-1),j为提取图像像素所在列序号;
(4)根据vOICe系统的映射原理,将图像像素映射为声音的频域幅值;将Xj(0)和Xj(N-1)分别映射为声音信号中最高频与最低频对应的幅值,相邻像素对应的频率分辨率为Δf;
(5)对(4)中提取的像素进行数据变换,具体步骤如下:
(a)设满足要求的声音信号的频带宽度为ΔFHz,其对应的频率分量数为为拓宽频带,相邻像素间插入个频率分量,其幅值为“0”;
(b)为了提高声音信号的听觉舒适度,将(a)中的数据频移至图声转换的有效频率范围f∈[f1,f2]=[f1,f1+ΔF]Hz内;为了获得声音信号完整的频域响应,在f1前补充个频率分量,f2后补充个频率分量,将其幅值均设为“0”;
(c)根据实数信号FFT结果的对称性,将(b)中进行对称变换,为了减少计算量,将对称部分用“0”代替;
(6)对数据变化后的(5)中的数据进行IFFT变换,将图像转换为成声音时域信号;
(7)判断(6)中的数据是否为图像的最后一列,若是则图声转换完成;若不是,则取图像的下一列,重复步骤(3)到(6),直到整幅图像转换成声音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410152883.8A CN103956161B (zh) | 2014-04-17 | 2014-04-17 | 一种改进的ifft图声转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410152883.8A CN103956161B (zh) | 2014-04-17 | 2014-04-17 | 一种改进的ifft图声转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103956161A CN103956161A (zh) | 2014-07-30 |
CN103956161B true CN103956161B (zh) | 2017-04-26 |
Family
ID=51333427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410152883.8A Expired - Fee Related CN103956161B (zh) | 2014-04-17 | 2014-04-17 | 一种改进的ifft图声转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103956161B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106108949B (zh) * | 2016-08-29 | 2019-09-17 | 深圳市理邦精密仪器股份有限公司 | 胎心音频信号处理装置以及胎儿监护设备 |
CN112101461B (zh) * | 2020-09-16 | 2022-02-25 | 北京邮电大学 | 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 |
CN114338622A (zh) * | 2021-12-28 | 2022-04-12 | 歌尔光学科技有限公司 | 一种音频传输方法、音频播放方法、存储介质及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101345054A (zh) * | 2008-08-25 | 2009-01-14 | 苏州大学 | 用于声频文件的数字水印制作及识别方法 |
CN103077388A (zh) * | 2012-10-31 | 2013-05-01 | 浙江大学 | 面向便携式计算设备的快速文本扫读方法 |
CN103717139A (zh) * | 2011-07-29 | 2014-04-09 | 富士胶片株式会社 | 光声图像生成装置及声波单元 |
CN103718396A (zh) * | 2011-07-29 | 2014-04-09 | 富士胶片株式会社 | 激光光源单元、激光光源单元的控制方法、光声图像生成装置及方法 |
-
2014
- 2014-04-17 CN CN201410152883.8A patent/CN103956161B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101345054A (zh) * | 2008-08-25 | 2009-01-14 | 苏州大学 | 用于声频文件的数字水印制作及识别方法 |
CN103717139A (zh) * | 2011-07-29 | 2014-04-09 | 富士胶片株式会社 | 光声图像生成装置及声波单元 |
CN103718396A (zh) * | 2011-07-29 | 2014-04-09 | 富士胶片株式会社 | 激光光源单元、激光光源单元的控制方法、光声图像生成装置及方法 |
CN103077388A (zh) * | 2012-10-31 | 2013-05-01 | 浙江大学 | 面向便携式计算设备的快速文本扫读方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103956161A (zh) | 2014-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107393542B (zh) | 一种基于双通道神经网络的鸟类物种识别方法 | |
CN103956161B (zh) | 一种改进的ifft图声转换方法 | |
EP3511942A3 (en) | Cross-domain image analysis and cross-domain image synthesis using deep image-to-image networks and adversarial networks | |
JP2014215461A (ja) | 音声処理装置および方法、並びにプログラム | |
CN101303764A (zh) | 基于非下采样轮廓波的多传感器图像自适应融合方法 | |
CN105678248A (zh) | 基于深度学习的人脸关键点对齐算法 | |
EP1884876A3 (en) | Systems and methods for time domain to frequency domain conversion using frequency shifting | |
CN108597505A (zh) | 语音识别方法、装置及终端设备 | |
CN105304092A (zh) | 一种基于智能终端的实时变声方法 | |
CN103514883A (zh) | 一种自适应实现男女声切换方法 | |
CN108847252B (zh) | 基于声信号语谱图纹理分布的声特征提取方法 | |
CN105845149A (zh) | 声音信号中主音高的获取方法及系统 | |
CN105741844A (zh) | 一种基于dwt-svd-ica的数字音频水印算法 | |
CN110163787A (zh) | 基于双树复小波变换的音频数字鲁棒盲水印嵌入方法 | |
EP2654226A3 (en) | Spectral shaping of multicarrier signals | |
CN108806721A (zh) | 信号处理器 | |
CN113435276A (zh) | 一种基于对抗残差网络的水声目标识别方法 | |
CN111695444B (zh) | 一种基于波原子变换的辐射源个体特征提取方法 | |
KR20180025153A (ko) | 화상 처리 회로, 화상 변환 장치, 화상 표시 장치 및 화상 처리 방법 | |
EP3241292B1 (en) | Data transmission between devices over audible sound | |
CN103714825A (zh) | 基于听觉感知模型的多通道语音增强方法 | |
CN107332642A (zh) | 基于海洋哺乳类动物信号合成的低截获概率波形设计方法 | |
CN109841232B (zh) | 音乐信号中音符位置的提取方法和装置及存储介质 | |
CN102820037A (zh) | 基于组合特征的汉语声韵母可视化方法 | |
CN109389052B (zh) | 基于聚类算法的全极化sar图像城市识别提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170426 Termination date: 20200417 |