CN103956161A - 一种改进的ifft图声转换方法 - Google Patents

一种改进的ifft图声转换方法 Download PDF

Info

Publication number
CN103956161A
CN103956161A CN201410152883.8A CN201410152883A CN103956161A CN 103956161 A CN103956161 A CN 103956161A CN 201410152883 A CN201410152883 A CN 201410152883A CN 103956161 A CN103956161 A CN 103956161A
Authority
CN
China
Prior art keywords
image
frequency
sound
conversion
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410152883.8A
Other languages
English (en)
Other versions
CN103956161B (zh
Inventor
汪剑鸣
原野
王�琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Polytechnic University
Original Assignee
Tianjin Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Polytechnic University filed Critical Tianjin Polytechnic University
Priority to CN201410152883.8A priority Critical patent/CN103956161B/zh
Publication of CN103956161A publication Critical patent/CN103956161A/zh
Application granted granted Critical
Publication of CN103956161B publication Critical patent/CN103956161B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Television Systems (AREA)

Abstract

本发明公开了一种改进的IFFT图声转换方法,属于助盲领域。本发明可以将图像转换为有效频率范围内的声音信号。本发明通过以下步骤得以实现:(1)设定图声转换后持续时间T,采样点数NS;(2)将输入图像转换为灰度图像;(3)提取一列像素;(4)将图像像素映射为声音的频域幅值;(5)对提取的像素进行数据变换:首先拓宽频带提高声音信号的丰满度,然后对声音信号进行移频提高听觉舒适度,最后将数据进行对称变换;(6)对变化后的数据进行IFFT变换,将图像转换为成声音时域信号;(7)判断数据是否为图像的最后一列,若是则图声转换完成;若不是,则提取图像的下一列,重复步骤(3)到(6),直到整幅图像转换成声音。

Description

一种改进的IFFT图声转换方法
技术领域
本发明属于助盲领域,涉及图声转换领域的信息技术,特别是一种改进的IFFT图声转换方法。
背景技术
图声转换是用非语言的声音表示图像信息,可用于电子行走辅助(electronictravel aid)系统和视觉替代(vision substitution)系统,为盲人和视觉损伤患者提供基于听觉通路的无损伤视觉补偿。
目前图声转换方法有vOICe系统和IFFT(Inverse fast Fourier transform)图声转换方法。Meijer1992年提出vOICe系统,它的内部工作方式是先将输入图像(M×N)转换为灰度图像,使像素值介于0-255之间。逐列扫描灰度图像,1秒一次,从左至右。如图1,每列图像的每一个像素转换为一个声音信号,声音的振幅用像素值表示,声音的频率与像素的位置有关,将图像顶部像素映射成高频,图像底部像素映射成低频,由图像顶部到底部,频率线性降低。图像第j列的像素由(1)式转换成声音:
x j ( n ) = Σ i = 1 N a i j cos ( ω i j n ) - - - ( 1 )
式中分别为图像第j列第i行的像素转换成声音的振幅和频率,N为图像总行数,n为声音的持续时间。其中
ω i = f min + f max - f min N * i - - - ( 2 )
声音信号的频率范围为f∈[fmin,fmax]Hz,根据采样定理,采样率fs=2*fmaxHz,故又c=fmax-fmin,是一个常数,故公式(1)可以表示为
x j ( n ) = Σ i = 1 N α i j * cos [ ( f min + f max - f min N * i ) * n ] - - - ( 3 )
这种方法计算量大,实时性较差。
张璇等在vOICe系统的基础上提出一种有效的基于IFFT图声转换的盲人视觉辅助方法(An Efficient Method of Image-Sound Conversion B ased on IFFT forVisionAid for the Blind)。通过对每列图像的每一个像素值进行IDFT(InverseDiscrete FourierTransform),即可得到该列图像对应的声音信号。将图像从左至右逐列变换输出,最终将整幅图像转换为声音信号。
IDFT变换公式为
x ( n ) = 1 n Σ m = 0 N - 1 X ( m ) e j 2 πmn / N - - - ( 4 )
由欧拉公式,只取IDFT的实部即可得到
x ( n ) = 1 n Σ m = 0 N - 1 X ( m ) cos ( 2 πmn / N ) - - - ( 5 )
故图像第j列的像素由(6)式转换成声音:
x j ( n ) = 1 n Σ i = 0 N - 1 X j ( i ) cos ( 2 π N * i * n ) - - - ( 6 )
这里xj(n)是第j列像素经过IDFT变换后的声音信号,Xj(i)为输入图像(M×N)第j列第i行的像素值,与式(1)中对应。由于系数为常数,在图声转换中不会影响数据变化的本质,只是在幅度上产生波动,因此可忽略不计。式(6)与vOICe系统转换公式(1)比较,结构一致,故可用IDFT方法拟合vOICe系统。文中用IFFT代替IDFT,可将计算复杂度由o(N2)降为o(N*logN)。
论文中设转换后的声音信号时间为T=1s,采样点数为NS。采样率为最小频率间隔,即频率分辨率为经过IFFT变换后的声音信号的频率范围为f∈[0,fN]=[0,N*Δf]=[0,N]Hz。
这种方法虽较vOICe系统有所改进,计算量有所降低,但没有考虑人耳最佳接受的频率范围,转换完的声音信号频带过窄、频率过低,声音的丰满度和听觉舒适度均较差。
发明内容
本方法要解决的技术问题是针对现有图声转换方法计算量大、实时性差,未能充分考虑人耳最佳接受的频率范围,声音表达的丰满度和听觉舒适度均较差的问题,提出一种改进的IFFT图声转换方法。
本发明采用如下的技术方案,如图2,步骤如下:
(1)设定参数,设定图声转换后声音信号持续时间为T,采样点数为NS,采样频率为最小频率间隔,即频率分辨率为
(2)输入一幅M×N的图像,将其转换为灰度图像,使像素值介于0-255之间;
(3)提取(2)中的一列像素,该列像素的像素值为Xj(0),Xj(1),…,Xj(N-1);
(4)根据vOICe系统的映射原理,将图像像素映射为声音信号的频域幅值;如图3,将Xj(0)和Xj(N-1)分别映射为声音信号中最高频与最低频对应的幅值,相邻像素对应的频率间隔为Δf;定义频带宽度为图声转换后声音信号的最高频率与最低频率之差,图像映射为声音后频带宽度为N*ΔfHz,声音信号频带宽度过窄,人耳不易分辨,因此需要进一步拓宽频带,以提高声音的丰满度;
(5)对(4)中提取的像素进行数据变换,如图4,具体步骤如下:
(a)拓宽频带提高声音信号的丰满度;设满足要求的声音信号的频带宽度为ΔFHz,其对应的频率分量个数为为拓宽频带,相邻像素间插入个幅值为“0”的频率分量,如图4②;此时声音信号的频率范围为f∈[0,fmax′]=[0,N′*Δf]=[0,ΔF]Hz,但声音信号中含有许多低频信息,影响声音的舒适度,因此需要进行移频;
(b)对声音信号进行移频,提高听觉舒适度;定义图声转换的有效频率范围为声音信号的能够满足人耳听觉舒适度的最低有效频率与最高有效频率之间的范围;根据采样定理,声音信号的最大频率为为了提高声音信号的听觉舒适度,将(a)中的数据频移至图声转换的有效频率范围f∈[f1,f2]=[f1,f1+ΔF]Hz内,其中f2<fmax;为了获得声音信号完整的频域响应,在f1前补充 num _ f 1 = f 1 Δf - 1 个频率分量,f2后补充 num _ f 2 = N S + 2 2 - N ′ - num _ f 1 个频率分量,幅值均设为“0”,如图4④;
(c)根据实数信号FFT结果的对称性,将(b)中进行对称变换,如图5;为了减少计算量,将对称部分(图5①)用“0”代替,如图4⑥;由IFFT转换原理,用“0”代替对称数据,对其进行IFFT变换后取实部,与传统IFFT变换取实部相比,得到的频率成分一致,幅值为一半,因此不影响声音的频带宽度以及声音表达的丰满度和听觉舒适度,即不影响转换后声音信号的最终结果;
(6)对数据变化后的(5)中的数据进行IFFT变换,将图像转换为成声音时域信号;
(7)判断(6)中的数据是否为图像的最后一列,若是则图声转换完成;若不是,则取图像的下一列,重复步骤(3)到(6),直到整幅图像转换成声音;
本发明的有益结果是该方法考虑人耳的听力范围,通过拓宽频带和移频,使转换后的声音信号达到需要的频率范围f∈[f1,f2]Hz,提高了声音表达的丰满度和听觉舒适度;并用“0”代替对称数据,可大大减少计算量。
附图说明
图1为vOICe系统的原理图,其中①为一个像素,像素值为②为逐列扫描图像,③为第j列图像的每一个像素都转换为一个声音信号,声音的振幅用像素值表示,频率与像素的位置有关,将图像顶部像素映射成高频,图像底部像素映射成低频,由图像顶部到底部,频率线性降低,③为第j列像素转换的声音信号 x j ( n ) = Σ i = 1 N a i j cos ( ω i j n ) ;
图2为改进的IFFT图声转换方法的算法流程;
图3为将图像中的一列像素映射为声音信号的频域幅值,其中①、②分别为声音信号中最高频与最低频对应的幅值;
图4是图2中的数据变换部分,其中①为拓宽频带,②为插入频率分量,每个频率分量对应幅值为“0”,③为移频,④为补充频率分量,并将其幅值设为“0”,⑤为对称变换,⑥为对称部分用“0”代替;
图5是图4中的对称变换部分,其中①为对称部分。
具体实施方式
本发明是考虑人耳听力范围的改进的IFFT图声转换方法,下面参照附图和实施例对本发明的具体实施方式进行说明。
该发明的步骤如下:
(1)设定参数。设定转换后声音信号的时间T=1s,采样点数NS=40002。采样频率为最小的频率间隔,即频率分辨率为
(2)输入一幅501*501的图像,即M=N=501,将其转换为灰度图像,使像素值介于0-255之间。
(3)提取(2)中的一列像素,该列像素的像素值为Xj(0),Xj(1),…,Xj(N-1)。
(4)根据vOICe系统的映射原理,将图像像素映射为声音的频域幅值。将Xj(0)和Xj(N-1)分别映射为声音信号中最高频与最低频对应的幅值,相邻像素对应的频率间隔为Δf。定义频带宽度为图声转换后声音信号的最高频率与最低频率之差。图像映射为声音后频带宽度为N*Δf=501Hz,声音信号频带宽度过窄,人耳不易分辨,因此需要进一步拓宽频带,以提高声音的丰满度。
(5)对(4)中提取的像素进行数据变换,具体步骤如下:
(a)拓宽频带提高声音信号的丰满度。设满足要求的声音信号的频带宽度为ΔF=9001Hz,其对应的频率分量数为为拓宽频带,相邻像素间插入个频率分量,其幅值为“0”,如图4②。此时声音信号的频率范围为f∈[0,fmax′]=[0,ΔF]=[0,9001]Hz,声音信号中含有许多低频信息,影响声音的舒适度,因此需要进行移频。
(b)对声音信号进行移频,提高听觉舒适度。定义图声转换的有效频率范围为声音信号的能够满足人耳听觉舒适度的最低有效频率与最高有效频率之间的范围。根据采样定理,声音信号的最大频率为为了提高声音信号的听觉舒适度,将(a)中的数据频移至图声转换的有效频率范围f∈[f1,f2]=[f1,f1+ΔF]=[1000,10001]Hz内,满足f2<fmax。为了获得声音信号完整的频域响应,在f1前补充个频率分量,f2后补充 num _ f 2 = N S + 2 2 - N ′ - num _ f 1 = 10000 个频率分量,将其幅值均设为“0”,如图4④。
(c)根据实数信号FFT结果的对称性,将(b)中进行对称变换,如图5。为了减少计算量,将对称部分(图5①)用“0”代替,如图4⑥。
(6)对数据变化后的(5)中的数据进行IFFT变换,将图像转换成声音信号。
(7)判断(6)中的数据是否为图像的最后一列,若是则图声转换完成;若不是,则取图像的下一列,重复步骤(3)到(6),直到整幅图像转换成声音。

Claims (1)

1.一种改进的IFFT图声转换方法,包括下列步骤:
(1)设定图声转换后持续时间T,采样点数NS;采样频率为最小的频率间隔,即频率分辨率为
(2)输入一幅M×N的图像,将其转换为灰度图像,使像素值介于0-255之间;
(3)提取(2)中的一列像素,该列像素的像素值为Xj(0),Xj(1),…,Xj(N-1);
(4)根据vOICe系统的映射原理,将图像像素映射为声音的频域幅值;将Xj(0)和Xj(N-1)分别映射为声音信号中最高频与最低频对应的幅值,相邻像素对应的频率间隔为Δf;
(5)对(4)中提取的像素进行数据变换,具体步骤如下:
(a)设满足要求的声音信号的频带宽度为ΔFHz,其对应的频率分量数为为拓宽频带,相邻像素间插入个频率分量,其幅值为“0”;
(b)为了提高声音信号的听觉舒适度,将(a)中的数据频移至图声转换的有效频率范围f∈[f1,f2]=[f1,f1+ΔF]Hz内;为了获得声音信号完整的频域响应,在f1前补充 num _ f 1 = f 1 Δf - 1 个频率分量,f2后补充 num _ f 2 = N S + 2 2 - N ′ - num _ f 1 个频率分量,将其幅值均设为“0”;
(c)根据实数信号FFT结果的对称性,将(b)中进行对称变换,为了减少计算量,将对称部分用“0”代替;
(6)对数据变化后的(5)中的数据进行IFFT变换,将图像转换为成声音时域信号;
(7)判断(6)中的数据是否为图像的最后一列,若是则图声转换完成;若不是,则取图像的下一列,重复步骤(3)到(6),直到整幅图像转换成声音。
CN201410152883.8A 2014-04-17 2014-04-17 一种改进的ifft图声转换方法 Expired - Fee Related CN103956161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410152883.8A CN103956161B (zh) 2014-04-17 2014-04-17 一种改进的ifft图声转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410152883.8A CN103956161B (zh) 2014-04-17 2014-04-17 一种改进的ifft图声转换方法

Publications (2)

Publication Number Publication Date
CN103956161A true CN103956161A (zh) 2014-07-30
CN103956161B CN103956161B (zh) 2017-04-26

Family

ID=51333427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410152883.8A Expired - Fee Related CN103956161B (zh) 2014-04-17 2014-04-17 一种改进的ifft图声转换方法

Country Status (1)

Country Link
CN (1) CN103956161B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106108949A (zh) * 2016-08-29 2016-11-16 深圳市理邦精密仪器股份有限公司 胎心音频信号处理装置以及胎儿监护设备
CN112101461A (zh) * 2020-09-16 2020-12-18 北京邮电大学 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法
CN114338622A (zh) * 2021-12-28 2022-04-12 歌尔光学科技有限公司 一种音频传输方法、音频播放方法、存储介质及相关设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101345054B (zh) * 2008-08-25 2011-11-23 苏州大学 用于声频文件的数字水印制作及识别方法
JP5681675B2 (ja) * 2011-07-29 2015-03-11 富士フイルム株式会社 光音響画像生成装置及び音響波ユニット
JP5662974B2 (ja) * 2011-07-29 2015-02-04 富士フイルム株式会社 レーザ光源ユニット、その制御方法、光音響画像生成装置及び方法
CN103077388B (zh) * 2012-10-31 2016-01-20 浙江大学 面向便携式计算设备的快速文本扫读方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106108949A (zh) * 2016-08-29 2016-11-16 深圳市理邦精密仪器股份有限公司 胎心音频信号处理装置以及胎儿监护设备
CN106108949B (zh) * 2016-08-29 2019-09-17 深圳市理邦精密仪器股份有限公司 胎心音频信号处理装置以及胎儿监护设备
CN112101461A (zh) * 2020-09-16 2020-12-18 北京邮电大学 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法
CN112101461B (zh) * 2020-09-16 2022-02-25 北京邮电大学 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法
CN114338622A (zh) * 2021-12-28 2022-04-12 歌尔光学科技有限公司 一种音频传输方法、音频播放方法、存储介质及相关设备

Also Published As

Publication number Publication date
CN103956161B (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN107122738B (zh) 基于深度学习模型的无线电信号识别方法及其实现系统
CN107393542B (zh) 一种基于双通道神经网络的鸟类物种识别方法
WO2010008705A3 (en) Providing and displaying video at multiple resolution and quality levels
TW200737944A (en) Picture displaying method, picture displaying apparatus, and imaging apparatus
MY163650A (en) Method for constructing a composite image incorporating a hidden authentication image
EP1884876A3 (en) Systems and methods for time domain to frequency domain conversion using frequency shifting
CN103956161B (zh) 一种改进的ifft图声转换方法
EP2728382A3 (en) Spatial expansion seismic data processing method and apparatus.
JP2014215461A (ja) 音声処理装置および方法、並びにプログラム
CN110544482B (zh) 一种单通道语音分离系统
ATE463807T1 (de) Verfahren und vorrichtung zur bilderweiterung
CN103514883A (zh) 一种自适应实现男女声切换方法
EP3575947A3 (en) Systems and methods for interactive image caricaturing by an electronic device
SA521431199B1 (ar) تصوير السمات الجوفية باستخدام استكمال تحويل فورييه للبيانات الزلزالية
EP2654226A3 (en) Spectral shaping of multicarrier signals
EP1686536A3 (en) Applying edge enhancement based on image characteristics
JP6452061B1 (ja) 学習データ生成方法、学習方法、及び評価装置
KR20180025153A (ko) 화상 처리 회로, 화상 변환 장치, 화상 표시 장치 및 화상 처리 방법
TW200718224A (en) Image-compensating device and the method
CN103714825A (zh) 基于听觉感知模型的多通道语音增强方法
CN102820037A (zh) 基于组合特征的汉语声韵母可视化方法
CN109389052B (zh) 基于聚类算法的全极化sar图像城市识别提取方法
CN108564580B (zh) 基于人类视觉系统的图像质量评价方法
Woolfe et al. Optimized extraction of coherent arrivals from ambient noise correlations in a rapidly fluctuating medium
Zhang et al. An efficient method of image-sound conversion based on IFFT for vision aid for the blind

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170426

Termination date: 20200417

CF01 Termination of patent right due to non-payment of annual fee