CN104662605A - 信号处理装置、拍摄装置及程序 - Google Patents
信号处理装置、拍摄装置及程序 Download PDFInfo
- Publication number
- CN104662605A CN104662605A CN201380049672.5A CN201380049672A CN104662605A CN 104662605 A CN104662605 A CN 104662605A CN 201380049672 A CN201380049672 A CN 201380049672A CN 104662605 A CN104662605 A CN 104662605A
- Authority
- CN
- China
- Prior art keywords
- signal
- frequency
- voice signal
- noise
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
- H04N5/911—Television signal processing therefor for the suppression of noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/765—Interface circuits between an apparatus for recording and another apparatus
- H04N5/77—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
- H04N5/772—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/804—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
- H04N9/806—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
Abstract
本发明提供一种信号处理装置,其能够适当地降低声音信号中含有的噪声。信号处理装置的特征在于,具有:转换部,其将声音信号转换为频域信号;减法运算部,其从在声音信号中含有规定噪声的期间的第1频域信号中,减去为了降低规定噪声而估算出的估算噪声的频域信号;校正信号生成部,其基于在声音信号中不含有规定噪声的期间的第2频域信号,生成第4频域信号,该第4频域信号用于对减法运算部从第1频域信号减去估算噪声的频域信号而得到的第3频域信号进行校正;以及加法运算部,其对第3频域信号加上第4频域信号。
Description
技术领域
本发明涉及信号处理装置、拍摄装置及程序。
背景技术
近年来,在使用相机拍摄动态图像时,声音信号所含有的AF音等噪声成为问题。具有降低这种声音信号中含有的噪声的技术。作为该噪声去除技术的代表技术,具有频谱相减算法(例如参照非专利文献1)。
非专利文献1所记载的技术是利用估算噪声来降低声音信号中含有的稳态噪声的技术,在人的说话声音的背景中叠加有相对稳态的噪声的情况下,降低背景的稳态噪声。
非专利文献1:BOLL,S.F.“Suppression of Acoustic Noise inSpeech Using Spectral Subtraction.”IEEE TRANSACTION ONACOUSTICS,SPEECH,AND SIGNAL PROCESSING,vol.ASSP-27,pp.113-120,APRIL,1979.
但是,在非专利文献1所记载的技术中,在要降低非稳态噪声(例如大小变化的噪声、间歇产生的噪声等)的情况下,在声音信号中实际混入的噪声与估算噪声之间产生差异,有时由于噪声的过度减去或过少减去而产生声音劣化或噪声残留。
即,在非专利文献1所记载的技术中,存在无法适当地降低声音信号中含有的噪声这一问题。
发明内容
本发明是鉴于这种情况而研发出的,其目的在于提供能够适当地降低声音信号中含有的噪声的信号处理装置、拍摄装置及程序。
本发明正是为了解决上述课题而研发出的,根据本发明的第1方式,提供一种信号处理装置,其特征在于,具有:转换部,其将声音信号转换为频域信号;减法运算部,其从在所述声音信号中含有规定噪声的期间的第1频域信号中,减去为了降低所述规定噪声而估算出的估算噪声的频域信号;校正信号生成部,其基于在所述声音信号中不含有所述规定噪声的期间的第2频域信号,生成第4频域信号,该第4频域信号用于对所述减法运算部从所述第1频域信号中减去所述估算噪声的频域信号而得到的第3频域信号进行校正;以及加法运算部,其对所述第3频域信号加上所述第4频域信号。
另外,根据本发明的第2方式,提供一种拍摄装置,其特征在于,具有上述所记载的信号处理装置。
另外,根据本发明的第3方式,提供一种程序,其用于使计算机执行下述步骤,即:将声音信号转换为频域信号的步骤;从在所述声音信号中含有规定噪声的期间的第1频域信号中,减去为了降低所述规定噪声而估算出的估算噪声的频域信号的步骤;基于在所述声音信号中不含有所述规定噪声的期间的第2频域信号,生成第4频域信号的步骤,其中,该第4频域信号用于对从所述第1频域信号中减去所述估算噪声的频域信号而得到的第3频域信号进行校正;以及对所述第3频域信号加上所述第4频域信号的步骤。
根据本发明的第4方式,提供一种信号处理装置,其特征在于,具有:频域转换部,其将输入的第1声音信号和第2声音信号转换为频域信号;信号处理部,其处理所述频域信号及所述第2声音信号的至少一方;相位信息生成部,其生成第3相位信息,将输入的所述第1声音信号的第1相位信息和输入的所述第2声音信号的第2相位信息之间的关系设为第1关系,以使得所述第3相位信息和所述第4相位信息之间的第2关系包含在含有所述第1关系的规定范围内的方式,生成所述第4相位信息;以及时域转换部,其至少基于由所述相位信息生成部生成的由频域转换部转换为频域信号的所述第1声音信号的第3相位信息和第4相位信息,将由所述信号处理部处理后的所述第1声音信号和所述第2声音信号转换为时域信号。
根据本发明的第5方式,提供一种信号处理装置,其特征在于,具有:减法运算处理部,其被输入第1声音信号和第2声音信号,从所述第1信号和所述第2信号中的至少一方,在含有规定噪声的期间,减去表示所述规定噪声的信号;以及生成部,其生成第3信号和第4信号,以使得所述第3信号和所述第4信号之间的关系即第2关系,包含在含有第1关系的规定范围内的方式,生成校正所述第1信号的第3信号和校正所述第2信号的第4信号,其中,所述第1关系是所述第1信号的不含有所述规定噪声的期间的信号和所述第2信号的不含有所述规定噪声的期间的信号之间的关系。
此外,根据本发明的第6方式,提供一种程序,其用于使计算机执行下述步骤,即:将输入的第1声音信号和第2声音信号转换为频域信号的频域转换步骤;对转换为所述频域信号的所述第1声音信号及所述第2声音信号的至少一方进行处理的信号处理步骤;生成第3相位信息,将输入的所述第1声音信号的第1相位信息和输入的所述第2声音信号的第2相位信息之间的关系设为第1关系,以使得所述第3相位信息和所述第4相位信息之间的第2关系包含在含有所述第1关系的规定范围内的方式,生成所述第4相位信息的相位信息生成步骤;以及至少基于由所述相位信息生成步骤生成的第3相位信息和第4相位信息,将由所述信号处理步骤处理后的所述第1声音信号和所述第2声音信号转换为时域信号的时域转换步骤。
根据本发明的第7方式,提供一种程序,其用于使计算机执行下述步骤,即:输入第1声音信号和第2声音信号,从所述第1信号和所述第2信号中的至少一方在含有规定噪声的期间减去表示所述规定噪声的信号的步骤;生成第3信号和第4信号,以使得所述第3信号和所述第4信号之间的关系即第2关系,包含在含有第1关系的规定范围内的方式,生成校正所述第1信号的第3信号和校正所述第2信号的第4信号的步骤,其中,所述第1关系是所述第1信号的不含有所述规定噪声的期间的信号和所述第2信号的不含有所述规定噪声的期间的信号之间的关系。
根据本发明的第8方式,提供一种信号处理装置,其特征在于,具有:转换部,其将声音信号转换为频率信号;减法运算部,其从所述声音信号中的含有规定噪声的至少一部分的第1频率信号中减去规定的频率信号;以及生成部,其基于所述声音信号中的不含有所述规定噪声的至少一部分的第2频率信号,生成对由所述减法运算部进行减法运算后的所述第1频率信号所加上的第3频率信号。
根据本发明的第9方式,提供一种程序,其用于使计算机执行下述步骤,即:将声音信号转换为频率信号的步骤;从所述声音信号中的含有规定噪声的至少一部分的第1频率信号中减去规定的频率信号的步骤;以及基于所述声音信号中的不含有所述规定噪声的至少一部分的第2频率信号,生成对由所述减法运算部进行减法运算后的所述第1频率信号所加上的第3频率信号的步骤。
根据本发明的第10方式,提供一种信号处理装置,其特征在于,具有:输入部,其输入声音信号;减法运算部,其从由所述输入部输入的所述声音信号中的含有规定噪声的至少一部分的第1声音信号中减去规定的信号;以及生成部,其基于所述声音信号中的不含有所述规定噪声的至少一部分的第2声音信号,生成对由所述减法运算部进行减法运算后的所述第1声音信号所加上的第3声音信号。
根据本发明的第11方式,提供一种程序,其用于使计算机执行下述步骤,即:输入声音信号的步骤;从由所述输入部输入的所述声音信号中的含有规定噪声的至少一部分的第1声音信号中减去规定信号的步骤;基于所述声音信号中的不含有所述规定噪声的至少一部分的第2声音信号,生成对由所述减法运算部进行减法运算后的所述第1声音信号所加上的第3声音信号的步骤。
发明的效果
根据本发明,能够适当地降低声音信号中含有的噪声。
附图说明
图1是表示本发明的第1实施方式所涉及的信号处理装置的结构的一个例子的概略框图。
图2是表示声音信号的一个例子的图。
图3是说明环境音特征频谱及估算噪声频谱的一个例子的图。
图4是说明降噪处理的一个例子的图。
图5是表示第1实施方式中的降噪处理的一个例子的流程图。
图6是表示具有拾音功能的拍摄装置的结构的一个例子的概略框图。
图7是表示第2实施方式所涉及的信号处理装置的结构的一个例子的概略框图。
图8是表示第3实施方式所涉及的信号处理装置的结构的一个例子的概略框图。
图9是表示第4实施方式所涉及的拍摄装置的结构的一个例子的概略框图。
图10是表示本发明的第5实施方式所涉及的信号处理装置的结构的一个例子的概略框图。
图11是表示由信号处理装置进行的包括白噪声校正的降噪处理的一个例子的说明图。
图12是表示降噪处理的一个例子的流程图。
图13是表示具有拾音功能的拍摄装置的结构的一个例子的概略框图。
具体实施方式
以下,参照附图来说明本发明的实施方式。
[第1实施方式]
图1是表示本发明的第1实施方式所涉及的信号处理装置100A的结构的一个例子的概略框图。首先说明信号处理装置100A的概要。
该图1所示的信号处理装置100A,对所输入的声音信号(附图标记500)执行信号处理,输出处理后的声音信号(附图标记510)。例如,信号处理装置100A获取记录在存储介质中的声音信号,对所获取的声音信号执行信号处理。
此外,并不限定于本实施方式,在以下说明的所有实施方式中,存储介质是例如闪速存储卡、磁盘、光盘等可移动介质。
此外,信号处理装置100A可以构成为在内部具有用于从存储介质读取声音信号的读取部,也可以构成为具有能够通过有线通信或无线通信等连接的外部装置(读取装置)。另外,在所有实施方式中,也可以取代存储介质而使用搭载闪速存储器并能够经由USB(Universal Serial Bus)连接器而连接的USB存储器或硬盘等存储装置。
在所有实施方式中,存储介质中存储有录音得到的声音的声音信号。例如,存储介质中存储有由至少具有录音功能的装置进行拾音而录音得到的声音的声音信号。另外,在存储介质中,将表示该拾音得到的(录音得到的)声音的声音信号中的含有规定噪声的期间、或不含有规定噪声的期间的信息(或者是能够判定是含有规定噪声的期间还是不含有规定噪声的期间的信息),与该声音信号相关联地进行记录。
在所有实施方式中,例如,拾音得到的声音的声音信号中的含有规定噪声的期间,可以是对该声音信号的声音进行拾音的装置所具有的动作部进行动作的期间。另一方面,拾音得到的声音的声音信号中的不含有规定噪声的期间,可以是对该声音信号的声音进行录音的装置所具有的动作部没有进行动作的期间。另外,表示拾音得到的声音的声音信号中的含有规定噪声的期间或不含有规定噪声的期间的信息,可以是表示对该声音信号的声音进行拾音的装置所具有的动作部进行动作的定时的信息。
在所有实施方式中,进行拾音的装置所具有的动作部是进行拾音的装置所具有的结构中的、通过进行动作或被进行动作而产生声音(或有可能产生声音)的结构。
在所有实施方式中,例如进行拾音的装置为拍摄装置的情况下,该拍摄装置所具有的变焦透镜、防抖透镜(以下称为VR(VibrationReduction)透镜)、调焦透镜(以下称为AF(Auto Focus)透镜)、操作部等可以为动作部。即,该情况下的规定噪声是指拍摄装置具有的变焦透镜、VR透镜、AF透镜、操作部等进行动作所产生的声音被拾音而出现的。
例如,在所有实施方式中,拍摄装置通过控制驱动控制信号,从而驱动分别对作为动作部的变焦透镜、VR透镜或AF透镜进行驱动的驱动部。即,拍摄装置利用控制驱动控制信号的定时而使上述动作部动作。例如,拍摄装置可以将表示对驱动控制信号进行控制的定时的信息,作为表示动作部进行动作的定时的信息而与录音得到的声音的声音信号相关联地存储在存储介质中。
此外,这种具有拾音功能的拍摄装置的结构将在后面详细记述。
信号处理装置100A对声音信号执行信号处理。例如,信号处理装置100A,基于上述那样的、录音得到的声音的声音信号、以及与该声音信号相关联的表示动作部进行动作的定时的信息,执行降低声音信号所含有的噪声的处理。
下面,详细说明图1所示的信号处理装置100的结构。信号处理装置100A具有信号处理部101和存储部160。
存储部160具有环境音特征频谱存储部161、噪声存储部162和降噪处理信息存储部163。
环境音特征频谱存储部161中存储有后述的环境音特征频谱。噪声存储部162中存储有后述的估算噪声(估算噪声频谱)。在降噪处理信息存储部163中,将表示在降噪处理中是否按声音信号的每个频率成分执行了使噪声成分降低的处理的信息,与各频率成分相关联地存储。
信号处理部101对从存储介质读出后所输入的声音信号执行例如降噪处理等的信号处理,并将执行了该信号处理后的声音信号输出(或者存储在存储介质中)。此外,信号处理部101也可以将对输入的声音信号执行了降噪处理后的声音信号、和输入的声音信号保持不变的信号进行切换并输出。
<信号处理部101的详细结构>
下面,使用图1、图2及图3,详细说明图1所示的信号处理部101。信号处理部101具有第1转换部111(转换部)、判定部112、环境音特征频谱估算部113、噪声估算部114、降噪部115(减法运算部)、逆转换部116及声音校正处理部120。
在这里,如图2所示,说明从存储介质读出声音信号(例如由拍摄装置进行拾音而录音的声音信号)、以及与该声音信号相关联的表示动作部(例如拍摄装置具有的动作部)进行动作的定时的信号,并输入到信号处理部101中的情况。此外,输入的声音信号是将拾音得到的声音转换为数字信号后的声音信号。在该图2中,从上至下示出(a)表示动作部进行动作的定时的信号、(b)时刻、(c)帧序号、以及(d)输入的声音信号的波形。
在该图2中,横轴是时间轴,纵轴是例如各信号的电压、时刻或帧序号。另外,如该图2的(d)所示,例如,在对音声进行拾音的情况下的声音信号中,大多是在几十毫秒左右的较短时间内比较重复的信号。
在该图2的例子中,帧与时刻之间的关系为,从时刻t0至t2与帧序号41对应,从时刻t1至t3与帧序号42对应,从时刻t2至t4与帧序号43对应,从时刻t3至t5与帧序号44对应,从时刻t4至t6与帧序号45对应,从时刻t5至t7与帧序号46对应,从时刻t6以后与帧序号47对应。此外,设为各帧的时间长度相同。
另外,在该图2的例子中,在时刻t4之后且时刻t5之前,(a)表示动作部进行动作的定时的信号从低电平跳转为高电平(参照图2的附图标记0)。此外,在这里,低电平表示动作部没有进行动作,高电平表示动作部正在进行动作。这样,在该图2的例子中,示出在时刻t4之后且在时刻t5之前,动作部从没有进行动作的状态转变为进行动作的状态这一情况。
并且,与这种动作部的动作对应地,在(d)输入的声音信号的波形中在帧序号44及45的中途及其之后,重叠有噪声。在这里,如果着眼于各帧和噪声产生区间之间的关系,则在帧序号44及45的中途,从(a)表示动作部进行动作的定时的信号上升开始,在帧序号44以后(44、45、46、47…)对噪声进行拾音。另外,从帧序号46以后(46、47…),在帧的全部区间中对噪声进行拾音。另一方面,在帧序号43之前(43、42、41…),完全没有对噪声进行拾音。
在这里,第1转换部111将输入的声音信号转换为频域信号。例如,第1转换部111将输入的声音信号分割为帧,将分割后的各帧的声音信号进行傅立叶变换,生成各帧中的声音信号的频谱。
另外,在将各帧的声音信号转换为频谱时,也可以是第1转换部111对各帧的声音信号乘以汉宁窗(Hanning window)等窗函数后,转换为频谱。另外,第1转换部111也可以利用快速傅立叶变换(FFT:Fast Fourier Transform)进行傅立叶变换。
此外,第1转换部111在生成所输入的声音信号的频谱时,得到声音信号的频率成分的振幅信息(附图标记SG1)及相位信息(附图标记SG2)。另外,针对由第1转换部111转换后的各个帧的声音信号的频谱,信号处理部101执行后述的降噪处理。然后,逆转换部116将降噪处理后的各帧的频谱(后述的加法运算部128的加法运算处理后的频谱)进行傅里叶逆变换并输出。
此外,信号处理部101也可以将进行傅里叶逆变换后输出的声音信号存储在存储介质中。
判定部112基于动作部进行动作的定时,判定声音信号的各帧是动作部正在进行动作的期间的帧还是动作部没有进行动作的期间的帧。即,判定部112基于动作部进行动作的定时,判定声音信号的各帧是含有规定噪声(例如由于动作部进行动作而产生的噪声)的期间的帧,还是不含有规定噪声的期间的帧。
此外,判定部112并不限定于独立结构,也可以是环境音特征频谱估算部113或噪声估算部114具有上述判定部112的功能的结构。
环境音特征频谱估算部113根据输入的声音信号的频谱估算环境音特征频谱。并且,环境音特征频谱估算部113将估算出的环境音特征频谱存储在环境音特征频谱存储部161中。在这里,环境音特征频谱是指对不含有规定噪声(例如由于动作部进行动作而产生的噪声)的期间的声音信号的频谱、即不含有规定噪声的周边环境音(周边音、目的音)拾音而得到的声音信号的频谱。
例如,环境音特征频谱估算部113将不含有规定噪声的期间的帧中的声音信号(环境音的声音信号)的频谱作为环境音特征频谱(第2频域信号)进行估算。即,环境音特征频谱估算部113将动作部没有进行动作的期间的帧中的声音信号的频谱作为环境音特征频谱进行估算。具体地说,例如,环境音特征频谱估算部113将由判定部112基于动作部进行动作的定时判定出的、不含有动作部进行动作的期间的前一帧中的声音信号的频谱,作为环境音特征频谱进行估算。
在图2所示的声音信号的例子的情况下,环境音特征频谱估算部113将例如帧序号43中的声音信号的频谱作为环境音特征频谱进行估算。并且,环境音特征频谱估算部113将该帧序号43中的声音信号的频谱作为环境音特征频谱存储在环境音特征频谱存储部161中。
下面,将帧序号43中的声音信号的频谱(=S43)称为环境音特征频谱FS而进行说明。另外,将环境音特征频谱FS的各频率槽(Frequency Bin)的强度(各频率成分的大小)以从低频至高频顺次称为F1、F2、F3、F4、F5而进行说明(参照图3的(a))。此外,频率槽的数量能够与降噪处理中所需的频谱的分辨率对应地设定。
噪声估算部114根据输入的声音信号,估算用于降低规定噪声(例如由于动作部进行动作而产生的噪声)的噪声。例如,噪声估算部114基于动作部进行动作的定时,根据输入的声音信号的频谱来估算噪声频谱。并且,噪声估算部114将估算出的噪声存储在噪声存储部162中。
例如,噪声估算部114基于含有规定噪声的期间的帧中的声音信号的频谱(第1频域信号)、和不含有规定噪声的期间的帧中的声音信号的频谱,估算噪声频谱。即,噪声估算部114基于动作部进行动作的期间的帧中的声音信号的频谱、和动作部没有进行动作的期间的帧中的声音信号的频谱,估算噪声频谱。
具体地说,例如,噪声估算部114将由判定部112基于动作部进行动作的定时判定出的、动作部开始动作的定时的后一帧(且在整个帧的期间动作部都进行动作的帧)中的声音信号的频谱、以及动作部开始动作的定时的前一帧(且在整个帧的期间动作部都不进行动作的帧)中的声音信号的频谱(例如环境音特征频谱FS)之差,估算为噪声频谱。
在图2所示的声音信号的例子的情况下,噪声估算部114从帧序号46中的声音信号的频谱S46(参照图3的(b)),按各个频率槽而减去帧序号43中的声音信号的频谱(即环境音特征频谱FS)(参照图3的(a))。
此外,将帧序号46中的声音信号的频谱称为频谱S46(参照图3的(b))进行说明。另外,将频谱S46的各频率槽的强度以从低频至高频顺次称为B1、B2、B3、B4、B5而进行说明(参照图3的(b))。
并且,噪声估算部114将通过减法运算而计算出的频谱估算为噪声频谱(参照图3的(d))。并且,噪声估算部114将估算出的噪声存储在噪声存储部162中。
下面,将由噪声估算部114估算出的噪声频谱称为估算噪声频谱NS而进行说明。另外,将估算噪声频谱NS的各频率槽的强度以从低频至高频顺次称为N1、N2、N3、N4、N5而进行说明(参照图3的(d))。
信号处理部101将如上所述得到的噪声频谱(估算噪声频谱NS)作为估算噪声,从含有噪声的帧(例如帧序号44、45、46、47…)的频谱中减去而能够降低(除去)含有噪声的帧的声音信号的频谱的噪声。
例如,降噪部115从含有噪声的帧(例如帧序号44、45、46、47…)的频谱(第1频域信号)中,按每个频率槽(每个频率成分)分别减去由噪声估算部114估算出的估算噪声频谱NS。
具体地说,例如,降噪部115基于以下关系式,计算出从帧序号46中的声音信号的频谱S46中减去估算噪声频谱NS而得到的降噪后的频谱(称为频谱SC)。在这里,频谱SC的各频率槽的强度从低频至高频顺次称为C1、C2、C3、C4、C5(参照图3的(e))。
计算频谱SC的各频率槽的强度的关系式,例如从低频至高频顺次表示为:C1=B1-N1,C2=B2-N2,C3=B3-N3,C4=B4-N4,C5=B5-N5。此外,也可以利用规定的减法系数而减去估算噪声频谱NS。即,上述关系式也可以例如使用系数m而以从低频至高频顺次为:C1=B1-(N1×m),C2=B2-(N2×m),C3=B3-(N3×m),C4=B4-(N4×m),C5=B5-(N5×m)。
此外,降噪部115也可以基于将含有噪声的帧的频谱和环境音特征频谱FS按各个频率槽进行比较的结果,选择是否按每个频率槽减去估算噪声频谱NS。例如,降噪部115对于含有噪声的帧的频谱强度(振幅)大于环境音特征频谱FS的强度的频率槽,可以进行从含有噪声的帧的频谱减去估算噪声频谱NS的处理。另一方面,降噪部115对于含有噪声的帧的频谱强度为环境音特征频谱FS的强度以下的频率槽,可以进行不从含有噪声的帧的频谱中减去估算噪声频谱NS的处理。
此外,降噪部115按各个频率槽选择是否减去估算噪声频谱NS的处理,并不限于基于按各个频率槽而对含有噪声的帧的频谱和环境音特征频谱FS进行比较得到的结果来进行选择的处理,也可以是基于其它条件进行选择的处理。例如,在降噪部115按各个频率槽而选择是否减去估算噪声频谱NS的情况下,可以基于按各个频率槽对含有噪声的帧的频谱和估算噪声频谱NS进行比较得到的结果来进行选择,也可以基于估算噪声频谱NS的按各个频率槽的大小来进行选择,还可以基于按各个频率槽而预先设定的是否相减的条件来进行选择。另外,降噪部115也可以只是按全部频率槽的各个频率槽而减去估算噪声频谱NS。
另外,降噪部115也可以将表示按各个频率槽是否减去估算噪声频谱NS的信息存储在降噪处理信息存储部163中。此外,降噪部115也可以仅将表示减去估算噪声频谱NS后的频率槽的信息存储在降噪处理信息存储部163中,还可以仅将表示未减去估算噪声频谱NS的频率槽的信息存储在降噪处理信息存储部163中。
如上所示,通过信号处理部101基于噪声频谱(估算噪声频谱NS)对声音信号进行谱减(Spectral Subtraction)处理,从而降低声音信号的噪声。
该谱减处理是首先将声音信号利用傅立叶变换而转换为频域,在频域下减去噪声后,进行傅里叶逆变换,由此降低声音信号的噪声的方法。此外,信号处理部101(逆转换部116)也可以利用快速傅立叶逆变换(IFFT:Inverse Fast Fourier Transform)而进行傅里叶逆变换。
返回图1的说明,继续对信号处理部101所具有的各结构进行说明。在以下的说明中,使用图2及图3说明的环境音特征频谱FS由环境音特征频谱估算部113估算并存储在环境音特征频谱存储部161中。此外,也可以将预先设定的环境音特征频谱存储在环境音特征频谱存储部161中。另外,使用图2及图3说明的估算噪声频谱NS由噪声估算部114估算并存储在噪声存储部162中。此外,也可以将预先设定的估算噪声存储在噪声存储部162中。
如上述所示,信号处理装置100A通过从含有噪声的声音信号的频谱减去例如基于动作部进行动作的定时而估算出的估算噪声频谱NS,从而能够对声音信号进行降噪处理。
但是,在上述降噪处理中,在估算噪声频谱NS中至少含有规定噪声(例如,由于动作部进行动作而产生的噪声)以外的声音信号的频谱的情况下,规定噪声以外的环境音的声音信号也会被减去,导致环境音劣化。另外,在要降低非稳态噪声(例如大小变化的噪声、间歇产生的噪声等)的情况下,有时会在实际混入到声音信号的噪声和估算噪声之间产生差异,由于噪声的过度减去而发生声音劣化。在此情况下,频谱强度越小的声音信号就越容易劣化,例如,如环境音所含有的白噪声(对于表示该场景的临场感很重要的声音)那样,频带较宽且频谱强度较小的声音信号容易发生劣化。
在这里,如果为了使环境音不发生劣化而降低估算噪声频谱NS的被减去量,则由于噪声被过少减去而导致噪声残留。因此,存在如下情况:越是为了不会导致过少减去规定噪声而增加减去量,越会导致环境音所含有的白噪声这类声音被过度减去(降低),从而会导致仅在进行了降噪处理的帧的期间,白噪声这类声音会发生中断而变为具有违和感的声音。
因此,本实施方式的信号处理装置100A在降噪处理中进行以下所示的校正处理。信号处理部101的声音校正处理部120对在降噪处理中可能产生劣化的环境音进行校正。例如,声音校正处理部120进行下述处理,即:生成对降噪处理中可能产生劣化的环境音所含有的白噪声(对于表示该场景的临场感很重要的声音)的信号进行校正的校正信号,将生成的校正信号与降噪处理后的声音信号相加的处理。
下面,详细说明该声音校正处理部120的结构的一个例子。声音校正处理部120具有校正信号生成部121及加法运算部128。
校正信号生成部121具有伪随机数信号生成部122、第2转换部123、均衡部124及频率提取部125。该校正信号生成部121基于伪随机数信号和环境音特征频谱FS(第2频域信号),生成校正信号的频谱(第4频域信号)。
伪随机数信号生成部122生成伪随机数信号列。例如,伪随机数信号生成部122利用线性同余法、使用了线性反馈移位寄存器的方法、使用了混沌随机数(CHAOS RANDOM NUMBER)的方法等,生成伪随机数信号列。此外,伪随机数信号生成部122也可以使用上述方法以外的方法生成伪随机数信号列。
第2转换部123将由伪随机数信号生成部122生成的伪随机数信号列转换为频域信号。例如,第2转换部123将伪随机数信号列分割为帧,将分割后的各帧的伪随机数信号进行傅立叶变换,生成各帧中的伪随机数信号的频谱。
另外,第2转换部123在将各帧的伪随机数信号转换为频谱的情况下,可以在将各帧的伪随机数信号乘以汉宁窗等窗函数后,转换为频谱。另外,第2转换部123也可以利用快速傅立叶变换(FFT:Fast Fourier Transform)进行傅立叶变换。此外,第2转换部123也可以为与第1转换部111相同的结构。
此外,第2转换部123在生成伪随机数信号的频谱时,得到伪随机数信号的频率成分的振幅信息(附图标记SG3)及相位信息(附图标记SG4)。
均衡部124基于伪随机数信号的频谱和环境音特征频谱FS,生成校正信号的频谱(第4频域信号)。例如,均衡部124通过使用环境音特征频谱FS对伪随机数信号的频谱进行均衡,从而生成校正信号的频谱。
具体地说,均衡部124例如通过将伪随机数信号的频谱和环境音特征频谱FS按各个频率槽相乘,以使得所有频率槽的频谱之和(所有频率成分的振幅之和或所有频率成分的强度之和)与环境音特征频谱FS之和(所有频率槽的频谱之和)大致相等的方式进行标准化(格式化、平均化),从而生成校正信号。
例如,均衡部124可以通过下述所示的算式1计算出校正信号。
【算式1】
SE_amp(k):校正信号的频谱
RN_amp(k):伪随机信号的频谱
FS(k):环境音特征频谱
k:频率槽序号(频率成分序号)
频率提取部125选择要在加法运算部128中进行加法运算的频率槽,提取出均衡部124生成的校正信号的频谱中的、所选择的频率槽的频谱。例如,频率提取部125基于按各个频率槽表示是否由降噪部115减去了估算噪声频谱NS的信息,而选择要在加法运算部128中进行加法运算的频率槽。即,频率提取部125基于按各个频率槽的表示是否由降噪部115减去了估算噪声频谱NS的信息,提取出要在加法运算部128中进行加法运算的频率槽的校正信号的频谱。
此外,频率提取部125也可以参照降噪处理信息存储部163,获取按各个频率槽表示是否减去了估算噪声频谱NS的信息。
另外,例如,频率提取部125对于减去了估算噪声频谱NS的频率槽,提取校正信号的频谱作为加法运算对象,对于未减去估算噪声频谱NS的频率槽,不提取该校正信号的频谱作为加法运算对象。
此外,频率提取部125基于按各个频率槽表示是否减去了估算噪声频谱NS的信息,可以对作为加法运算对象的频率槽的校正信号的频谱乘以系数“1”,也可以对不作为加法运算对象的频率槽的校正信号的频谱乘以系数“0”。此外,与作为加法运算对象的频率槽的校正信号的频谱相乘的系数也可以是“1”之外的值。另一方面,与不作为加法运算对象的频率槽的校正信号的频谱相乘的系数也可以是“0”之外的值。例如,只要作为加法运算对象的情况下的系数比不作为加法运算对象的情况下的系数大,则作为加法运算对象的情况下的系数可以是大于或小于“1”的系数,不作为加法运算对象的情况下的系数可以是大于“0”的系数。
加法运算部128在降噪部115减去估算噪声频谱NS后的声音信号的频谱(第3频域信号)中加上均衡部124生成的校正信号的频谱(第4频域信号)。
例如,加法运算部128将频率提取部125提取的作为加法运算对象的频率槽的校正信号的频谱加上。即,加法运算部128在降噪部115按各个频率槽从声音信号的频谱(第1频域信号)减去估算噪声频谱NS时没有进行减法运算的频率槽,对于减去估算噪声频谱NS后的声音信号的频谱(第3频域信号)加上校正信号的频谱(第4频域信号)。
另一方面,加法运算部128在降噪部115按各个频率槽从声音信号的频谱(第1频域信号)减去估算噪声频谱NS时没有进行减法运算的频率槽,降低对减去估算噪声频谱NS后的声音信号的频谱(第3频域信号)所加上的校正信号的频谱(第4频域信号)的相加量(例如将相加量设为“0”,即不加上)。
此外,加法运算部128在降噪部115按各个频率槽从声音信号的频谱(第1频域信号)减去估算噪声频谱NS时减去量较少的频率槽,也可以降低对减去估算噪声频谱NS后的声音信号的频谱(第3频域信号)所加上的校正信号的频谱(第4频域信号)的相加量。
例如,加法运算部128也可以与降噪部115中的按各个频率槽的减去量对应地,使校正信号的频谱(第4频域信号)的相加量按各个频率槽而不同。即,加法运算部128在降噪部115中的按各个频率槽的减去量较大的情况下,可以增加该频率槽的校正信号的频谱的相加量,在降噪部115中的按各个频率槽的减去量较小的情况下,可以减少该频率槽的校正信号的频谱的相加量。
图4是说明第1实施方式中的降噪处理的一个例子的图。下面,参照图4,说明包括上述的加上校正信号的校正处理在内的降噪处理的一个例子。该图4所示的频谱设为具有12个频率槽。另外,对与图2及图3的各部分对应的结构标注相同的附图标记。
图4的(a)所示的频谱SB是由第1转换部111转换后的声音信号的频谱,是含有规定噪声的期间的帧序号46中的频谱S46。该图所示的频谱SB的各频率槽的强度从低频至高频顺次称为B1、B2、B3、B4、B5、B6、B7、B8、B9、B10、B11、B12。
图4的(b)所示的频谱是环境音特征频谱FS,是不含有规定噪声的期间的帧序号43中的频谱S43。该图所示的环境音特征频谱FS的各频率槽的强度从低频至高频顺次称为F1、F2、F3、F4、F5、F6、F7、F8、F9、F10、F11、F12。
图4的(c)所示的频谱是将由伪随机数信号生成部122生成的伪随机数信号列由第2转换部123转换后的伪随机数信号的频谱RN。该图所示的伪随机数信号的频谱RN的各频率槽的强度从低频至高频顺次称为R1、R2、R3、R4、R5、R6、R7、R8、R9、R10、R11、R12。
均衡部124通过使用环境音特征频谱FS对伪随机数信号的频谱RN进行均衡而生成校正信号的频谱(以下称为校正信号的频谱SE)。该均衡部124生成的校正信号的频谱SE的一个例子在图4的(e)中示出。该图所示的校正信号的频谱SE的各频率槽的强度从低频至高频顺次称为E1、E2、E3、E4、E5、E6、E7、E8、E9、E10、E11、E12。
均衡部124通过使用环境音特征频谱FS对伪随机数信号的频谱RN进行均衡,从而计算出校正信号的频谱SE的各个频率槽的强度。此外,均衡部124使用例如前述算式1所示的关系式,计算出校正信号的频谱SE的各频率槽的强度。此外,算式1所示的“FS(k)”与图4的(a)所示的环境音特征频谱FS的各频率槽的强度F1、F2、F3、F4、F5、F6、F7、F8、F9、F10、F11、F12对应。另外,算式1所示的“RN_amp(k)”与图4的(c)所示的伪随机数信号的频谱RN的各频率槽的强度R1、R2、R3、R4、R5、R6、R7、R8、R9、R10、R11、R12对应。另外,算式1所示的“SE_amp(k)”与图4的(e)所示的校正信号的频谱SE的各频率槽的强度E1、E2、E3、E4、E5、E6、E7、E8、E9、E10、E11、E12对应。
另一方面,图4的(d)所示的频谱是降噪部115执行从图4的(a)所示的声音信号的频谱SB减去估算噪声频谱NS的处理后的声音信号的频谱SC。该图所示的频谱SC的各频率槽的强度从低频至高频顺次称为C1、C2、C3、C4、C5、C6、C7、C8、C9、C10、C11、C12。
降噪部115通过从图4的(a)所示的频谱SB减去估算噪声频谱NS而生成频谱SC。在这里,降噪部115按各个频率槽将频谱SB和环境音特征频谱FS进行比较,对于频谱SB的强度大于环境音特征频谱FS的强度的频率槽,进行不减去估算噪声频谱NS的处理。即,降噪部115仅对于频谱SB的强度小于或等于环境音特征频谱FS的强度的频率槽(在图4中为频率槽序号7、8、9、10、11)进行减去估算噪声频谱NS的处理。
例如,在将估算噪声频谱NS的各频率槽的强度从低频至高频顺次设为N1、N2、N3、N4、N5、N6、N7、N8、N9、N10、N11、N12的情况下,降噪部115对于估算噪声频谱NS的频率槽序号7、8、9、10、11,分别减去各频率槽的强度N7、N8、N9、N10、N11。
即,降噪部115计算频谱SC的各频率槽的强度的关系式,例如上述例子中,从低频至高频顺次表示为C1=B1,C2=B2,C3=B3,C4=B4,C5=B5,C6=B6,C7=B7-N7,C8=B8-N8,C9=B9-N9,C10=B10-N10,C11=B11-N11,C12=B12。
图4的(f)所示的频谱是图4的(e)所示的校正信号的频谱SE中的由频率提取部125作为在加法运算部128中的加法运算对象而提取出的频率槽的频谱SD。在该图4的(f)的例子中,频率提取部125仅将降噪部115进行了减法运算的频率槽(频率槽序号7、8、9、10、11)作为加法运算对象。作为该图所示的加法运算对象的校正信号的频谱SD的各频率槽的强度,按照频率槽序号7、8、9、10、11的顺序称为D7、D8、D9、D10、D11。
加法运算部128对图4的(d)所示的频谱SC加上图4的(f)所示的频谱SD。即,加法运算部128对于降噪部115从图4的(a)所示的声音信号的频谱SB减去估算噪声频谱NS而得到的频谱SC,加上作为用于对由于减法运算处理而劣化的声音信号进行校正的校正信号的频谱SD。并且,信号处理部101对频谱SC加上频谱SD,且在逆转换部116中进行傅里叶逆变换,从而生成降噪处理后的时域的声音信号。
如上所示,信号处理装置100A对声音信号的频谱减去估算噪声频谱NS,并且与使用环境音特征频谱FS对伪随机数信号的频谱RN进行均衡而生成的校正信号的频谱SE(频谱SD)进行相加。
由此,信号处理装置100A在从声音信号减去规定噪声时,即使在规定噪声以外的声音信号也被降低的情况下,也能够生成作为该规定噪声以外的声音的代替的声音信号并进行相加。例如,信号处理装置100A在从声音信号减去规定噪声时,即使在规定噪声以外的环境音所含有的白噪声这种声音信号也被降低的情况下,也能够根据伪随机数信号而生成作为该白噪声这种声音信号的代替的声音信号并进行相加。
由此,信号处理装置100A能够抑制由于规定噪声以外的声音信号也被降低(由于噪声过度减去)而发生的声音劣化。另外,信号处理装置100A由于抑制了为了避免规定噪声以外的声音信号也被降低而使得噪声过少减去的情况,所以能够抑制噪声发生残留。
即,信号处理装置100A能够适当地降低声音信号中含有的噪声。
另外,信号处理装置100A仅对声音信号的频谱中的减去了估算噪声频谱NS的频率槽的频谱,加上所生成的校正信号的频谱SE中的与该进行减法运算后的频率槽对应的频谱SD。由此,信号处理装置100A能够仅对从声音信号减去了规定噪声的频率槽(频率成分)生成校正信号(作为规定噪声以外的声音信号的代替的声音信号)并进行相加。由此,信号处理装置100A无需对不需要校正的频率槽加上校正信号,能够仅对需要校正的频率槽适当地加上校正信号。
以下,参照图1至图4,说明与上述第1实施方式不同的实施例。
(环境音特征频谱的估算方法)
在上述使用图2及图3的说明中,说明了环境音特征频谱估算部113将帧序号43中的声音信号的频谱作为环境音特征频谱FS进行估算的情况。但是,由环境音特征频谱估算部113进行的环境音特征频谱的估算方法并不限定于此。
例如,环境音特征频谱估算部113也可以基于动作部进行动作的定时,将动作部进行动作的定时之前的多个帧中的声音信号的频谱分别按各个频率槽进行平均的频谱,作为环境音特征频谱FS进行估算。
另外,环境音特征频谱估算部113在按各个频率槽对多个频谱进行平均的情况下,也可以赋予加权而计算出平均。该加权的值可以为随着离作为环境音特征处理的对象的声音信号的帧(起始帧)越远就变得越小。
另外,环境音特征频谱估算部113也可以基于动作部进行动作的定时,将动作部进行动作的定时之前的多个帧中的声音信号的频谱的分别成为按各个频率槽的最大值或最小值的频谱,作为环境音特征频谱FS进行估算。
另外,环境音特征频谱估算部113也可以基于动作部进行动作的定时,将动作部进行动作的定时之后的帧中的声音信号的频谱,作为环境音特征频谱FS进行估算。另外,环境音特征频谱估算部113还可以基于动作部进行动作的定时之后的多个帧中的声音信号的频谱,来估算环境音特征频谱FS。
此外,环境音特征频谱估算部113在估算环境音特征频谱FS的情况下,优选至少基于比动作部刚进行动作之前的定时靠后的帧,估算环境音特征频谱FS。这是由于,作为环境音特征频谱FS优选为关于动作部没有进行动作的帧中的声音信号的频谱。另外,也由于生成环境音特征频谱FS的声音信号的帧随着与作为环境音特征处理的对象的声音信号相比在时间上越远,作为关于该声音信号的环境音特征频谱FS的适当性就越低。
另外,也可以在环境音特征频谱存储部161中预先存储环境音特征频谱FS。例如,也可以在环境音特征频谱存储部161中与表示拾音的装置(例如拍摄装置)进行拾音(拍摄)时的周边声音的状况的环境信息、或者表示拍摄模式的拍摄模式信息相关联地预先存储与各个场合对应的环境音特征频谱FS。并且,信号处理部101可以从环境音特征频谱存储部161读取由用户选择的环境信息或拍摄模式信息所关联的环境音特征频谱FS,基于该读取的环境音特征频谱FS,执行上述图2、图3或图4的说明中所说明的降噪处理。
另外,在将进行降噪处理的信号存储在易失性存储器(未图示)等中的情况下,也可以基于所产生的噪声消失后的信息,计算出环境音特征频谱FS。
(对于图2的帧序号47以后的处理)
在上述使用图2至图4的说明中,说明了信号处理部101针对帧序号46的声音信号进行降噪处理的情况。该信号处理部101与帧序号46的声音信号的情况相同地,对帧序号46之后的声音信号即帧序号47以后的声音信号也能够进行降噪处理。
(关于噪声的估算)
另外,在上述使用图2至图4的说明中,说明了如下情况:噪声估算部114从帧序号46中的声音信号的频谱S46(参照图3的(b)),按各个频率槽减去帧序号43中的声音信号的频谱(即环境音特征频谱FS)(参照图3的(a))而估算噪声频谱。但是,噪声估算部114估算噪声频谱的方法并不限定于此。
首先,噪声估算部114能够代替帧序号43中的声音信号的频谱即环境音特征频谱FS,而使用通过上述说明的环境音特征频谱估算部113估算环境音特征频谱FS时的任意方法而估算出的环境音特征频谱FS。
另外,噪声估算部114也可以代替帧序号46中的声音信号的频谱S46,而使用基于由定时检测部91检测出的动作部进行动作的定时,将动作部正在进行动作的定时中的多个帧中的声音信号的频谱按各个频率槽进行平均而得到的频谱。例如,噪声估算部114也可以代替帧序号46中的声音信号的频谱S46而使用将帧46、47这多个帧中的声音信号的频谱按各个频率槽进行平均而得到的频谱。
另外,噪声估算部114也可以在按各个频率槽将多个频谱进行平均的情况下,赋予加权来计算平均。该加权的值可以为随着离作为环境音特征处理的对象的声音信号的帧(起始帧)越远就变得越小。另外,噪声估算部114也可以代替频谱S46,而使用动作部正在进行动作的定时中的多个帧的频谱的成为按各个频率槽的最大值或最小值的频谱。此外,与环境音特征频谱FS的情况相同地,噪声频谱也可以预先存储在噪声存储部162中。
(关于伪随机数信号的均衡)
另外,在上述的图4的说明中,说明了均衡部124使用帧序号43中的声音信号的频谱(即环境音特征频谱FS)对伪随机数信号的频谱RN进行均衡的情况。但是,均衡部124均衡伪随机数信号的频谱RN的方法并不限定于此。
例如,均衡部124也可以代替帧序号43中的声音信号的频谱即环境音特征频谱FS,使用通过上述说明的环境音特征频谱估算部113估算环境音特征频谱FS时的任意方法而估算出的环境音特征频谱FS。
即,均衡部124也可以使用作为动作部进行动作的定时之前的多个帧的频谱的按各个频率槽的平均值、最大值、或最小值的环境音特征频谱FS,对伪随机数信号的频谱RN进行均衡。另外,均衡部124也可以使用基于动作部进行动作的定时之后的帧的频谱而估算的环境音特征频谱FS,对伪随机数信号的频谱RN进行均衡。例如,均衡部124也可以使用作为动作部进行动作的定时之后的多个帧的频谱的按各个频率槽的平均值、最大值、或最小值的环境音特征频谱FS,对伪随机数信号的频谱RN进行均衡。另外,均衡部124也可以使用预先确定的环境音特征频谱FS,对伪随机数信号的频谱RN进行均衡。
(降噪处理的动作)
下面,参照图5,说明第1实施方式中的降噪处理的动作。图5是表示第1实施方式中的降噪处理的一个例子的流程图。
首先,信号处理部101从存储介质读取声音信号。所读取的声音信号输入到信号处理部101的第1转换部111(步骤S11)。
然后,第1转换部111将输入的声音信号转换为频域信号。例如,第1转换部111将输入的声音信号分割为帧,将分割后的各帧的声音信号进行傅立叶变换而生成各帧的声音信号的频谱(步骤S12)。
然后,判定部112基于动作部进行动作的定时,判定声音信号的各帧是动作部正在进行动作的期间的帧还是动作部没有进行动作的期间的帧。即,判定部112基于动作部进行动作的定时,判定声音信号的各帧是否为含有规定噪声(例如由于动作部进行动作而产生的噪声)的期间的帧(是否混入有规定噪声)(步骤S13)。
环境音特征频谱估算部113基于输入的声音信号的各帧中的判定为不含有规定噪声的期间的帧(步骤S13:否)的帧的声音信号的频谱,估算环境音特征频谱FS(环境音的频谱,参照图4的(b))(步骤S14)。
另一方面,噪声估算部114基于输入的声音信号的各帧中的判定为含有规定噪声的期间的帧(步骤S13:是)的帧的声音信号的频谱SB(参照图4的(a))、和环境音特征频谱FS,估算噪声频谱(估算噪声频谱NS)。例如,噪声估算部114通过按各个频率槽从含有规定噪声的期间的帧的声音信号的频谱SB减去环境音特征频谱FS,从而生成估算噪声频谱NS(步骤S15)。
然后,降噪部115按各个频率槽(各个频率成分)而从频谱SB减去由噪声估算部114估算出的估算噪声频谱NS(步骤S16)。例如,降噪部115按各个频率槽而对频谱SB和环境音特征频谱FS进行比较,仅对频谱SB的强度小于或等于环境音特征频谱FS的强度的频率槽,减去估算噪声频谱NS(参照图4的(d))。
另一方面,伪随机数信号生成部122生成伪随机数信号列(步骤S21)。然后,第2转换部123将由伪随机数信号生成部122生成的伪随机数信号列转换为频域信号。例如,第1转换部111将伪随机数信号列分割为帧,将分割后的各帧的伪随机数信号进行傅立叶变换,生成各帧中的伪随机数信号的频谱RN(参照图4的(c))(步骤S22)。
然后,均衡部124通过使用环境音特征频谱FS对伪随机数信号的频谱RN进行均衡,从而生成校正信号的频谱SE(参照图4的(e))(步骤S23)。
另外,频率提取部125从校正信号的频谱SE中提取在加法运算部128中作为加法运算对象的频率槽的频谱SD。即,频率提取部125从校正信号的频谱SE中提取作为加法运算对象的频率槽的校正信号的频谱SD(步骤S24)。例如,频率提取部125将步骤S16中由降噪部115减去了估算噪声频谱NS的频率槽选择为加法运算对象的频率槽,并提取出所选择的频率槽的频谱SD。
并且,加法运算部128对于在步骤S16中从频谱SB减去了估算噪声频谱NS的频谱SC(参照图4的(d)),加上在步骤S24中提取出的校正信号的频谱SD(步骤S25)。
然后,逆转换部116通过对频谱SC加上频谱SD而得到的频谱进行傅里叶逆变换,从而生成降噪处理后的时域的声音信号(步骤S26)。然后,信号处理部101将降噪处理后的时域的声音信号输出(步骤S27)。
<具有拾音功能的拍摄装置的构成例>
下面,说明上述的对存储在存储介质中的声音信号的声音进行拾音的拍摄装置的结构的一个例子。以下说明的拍摄装置的结构具有用于拾音的麦克风,还具有上述动作部,表示动作部进行动作的定时的信息与进行拾音而录音的声音信号相关联地存储在存储介质中。
图6是表示具有拾音功能的拍摄装置400的结构的一个例子的概略框图。该图6的拍摄装置400具有拍摄部10、CPU(Centralprocessing unit)90、操作部80、图像处理部40、显示部50、存储部60、缓冲存储器部30、通信部70、麦克风21、A/D(Analog/Digital)转换部22、声音信号处理部23和总线300。
拍摄部10包括光学系统11、拍摄元件19和A/D转换部20,根据所设定的拍摄条件(例如光圈值、曝光值等)由CPU 90进行控制,由光学系统11得到的光学像在拍摄元件19中成像,由A/D转换部20生成转换为数字信号的基于该光学像的图像数据。
光学系统11具有变焦透镜14、VR透镜13、AF透镜12、变焦编码器15、透镜驱动部16、AF编码器17和防抖控制部18。
该光学系统11将通过变焦透镜14、VR透镜13及AF透镜12后的光学像引导至拍摄元件19的受光面。
透镜驱动部16基于从后述的CPU 90输入的驱动控制信号,控制变焦透镜14或AF透镜12的位置。
防抖控制部18基于从后述的CPU 90输入的驱动控制信号,控制VR透镜13的位置。该防抖控制部18也可以检测VR透镜13的位置。
变焦编码器15检测表示变焦透镜14的位置的变焦位置,将检测到的变焦位置向CPU 90输出。
AF编码器17检测表示AF透镜12的位置的聚焦位置,将检测到的聚焦位置向CPU 90输出。
此外,上述光学系统11可以安装在拍摄装置400中而与拍摄装置400为一体,也可以可装卸地安装在拍摄装置400中。
拍摄元件19例如将在受光面上成像的光学像转换为电信号,并输出至A/D转换部20。
另外,拍摄元件19将经由操作部80接收到拍摄指示时得到的图像数据,作为所拍摄的静态图像的拍摄图像数据,经由A/D转换部20及图像处理部40存储在存储介质200中。
另一方面,拍摄元件19在例如未经由操作部80接收到拍摄指示的状态下,将连续得到的图像数据作为实时取景图像数据,经由A/D转换部20及图像处理部40向CPU 90及显示部50输出。
A/D转换部20将由拍摄元件19转换后的电信号进行模/数转换,输出该转换后的数字信号即图像数据。
操作部80包括例如电源开关、快门按钮及其它操作键,通过被用户操作而接收用户的操作输入,并向CPU 90输出。
图像处理部40参照存储在存储部160中的图像处理条件,对在缓冲存储器部30或存储介质200中记录的图像数据进行图像处理。
显示部50例如是液晶显示器,显示通过拍摄部10得到的图像数据或操作画面等。
存储部60存储由CPU 90进行场景判定时所参照的判定条件及拍摄条件等。
麦克风21对声音进行拾音,并转换为与所拾音得到的声音对应的声音信号。该声音信号是模拟信号。
A/D转换部22将由麦克风21转换后的作为模拟信号的声音信号转换为作为数字信号的声音信号。
声音信号处理部23执行用于将由A/D转换部22进行转换后的作为数字信号的声音信号存储在存储介质200中的信号处理。另外,声音信号处理部23将表示动作部进行动作的定时的信息与声音信号相关联地存储在存储介质200中。该表示动作部进行动作的定时的信息例如是后述的定时检测部91检测到的信息。
此外,由声音信号处理部23存储在存储介质200中的声音信号,例如是与动态图像相关联地存储的声音的声音信号、为了向存储在存储介质200中的静态图像添加声音而录音得到的声音的声音信号、作为录音器录音得到的声音的声音信号等。
缓冲存储器部30暂时存储由拍摄部10拍摄得到的图像数据、由声音信号处理部23进行信号处理后的声音信号或信息等。
通信部70与存储卡等可取下的存储介质200连接,向该存储介质200进行信息写入、读取或删除。
存储介质200是可装卸地与拍摄装置400连接的存储部,例如存储由拍摄部10生成的(拍摄得到的)图像数据、由声音信号处理部23进行信号处理后的声音信号或信息。
CPU90控制拍摄装置400整体,作为一个例子,基于由变焦编码器15输入的变焦位置及由AF编码器17输入的聚焦位置、以及从操作部80输入的操作输入,生成对变焦透镜14及AF透镜12的位置进行控制的驱动控制信号。CPU 90基于该驱动控制信号,经由透镜驱动部16控制变焦透镜14及AF透镜12的位置。
另外,该CPU 90具有定时检测部91。该定时检测部91对拍摄装置400所具有的动作部进行动作的定时进行检测。
这里所称的动作部,作为一个例子是指上述变焦透镜14、VR透镜13、AF透镜12或操作部80,是拍摄装置400所具有的结构中的通过动作或被进行动作而产生声音(或可能产生声音)的结构。
另外,该动作部是指拍摄装置400所具有的结构中的通过动作而产生的声音或通过被动作而产生的声音被麦克风21拾音(或能够被拾音)的结构。
该定时检测部91也可以基于使动作部动作的控制信号,对动作部进行动作的定时进行检测。该控制信号是指控制动作部的动作的控制信号、或对驱动该动作部(例如变焦透镜14、VR透镜13、AF透镜12等)的驱动部(例如透镜驱动部16、防抖控制部18)进行控制的驱动控制信号。
例如,定时检测部91也可以基于为了驱动变焦透镜14、VR透镜13、或AF透镜12而输入至透镜驱动部16或防抖控制部18的驱动控制信号,或者基于由CPU 90生成的驱动控制信号,检测动作部进行动作的定时。
另外,在CPU 90生成驱动控制信号的情况下,定时检测部91也可以基于在CPU 90内部执行的处理或指令,检测动作部进行动作的定时。
另外,定时检测部91也可以基于从操作部80输入的表示驱动变焦透镜14或AF透镜12的信号,检测动作部进行动作的定时。
另外,该定时检测部91也可以基于表示动作部进行了动作的信号,检测动作部进行动作的定时。
例如,定时检测部91也可以通过基于变焦编码器15或AF编码器17的输出而检测出变焦透镜14或AF透镜12进行了动作这一情况,从而检测动作部进行动作的定时。
另外,定时检测部91也可以通过基于来自防抖控制部18的输出而检测出VR透镜13进行了动作这一情况,从而检测动作部进行动作的定时。
另外,该定时检测部91也可以通过基于来自操作部80的输入而检测出对操作部80进行了操作这一情况,从而检测动作部进行动作的定时。
并且,定时检测部91检测拍摄装置400所具有的动作部进行动作的定时,将表示该检测出的定时的信号向声音信号处理部23输出。
总线300与拍摄部10、CPU 90、操作部80、图像处理部40、显示部50、存储部160、缓冲存储器部30、通信部70、声音信号处理部23连接,输送从各部分输出的数据或控制信号等。
[第2实施方式]
下面,说明第2实施方式所涉及的信号处理装置100B。
在第1实施方式中,说明了通过使用环境音特征频谱对生成的伪随机数信号的频谱进行均衡而生成校正信号的频谱的方法,在该第2实施方式中,说明不生成伪随机数信号地生成校正信号的频谱的方法。
在第1实施方式中,将伪随机数信号列转换为频域信号而生成的频谱SE的相位(参照图1的SG4)是与声音信号的频谱SC的相位(参照图1的SG2)不同的相位。即,信号处理装置100B生成相位与声音信号的频谱SC的相位不同且具有由环境音特征频谱FS进行了均衡的强度(振幅)的频谱,作为用于校正白噪声这种声音的声音信号的校正信号的频谱。因此,信号处理装置100B也可以不使用伪随机数信号列,而是通过将环境音特征频谱FS的相位变更为不同的相位而生成校正信号的频谱。
图7是表示第2实施方式所涉及的信号处理装置100B的结构的一个例子的概略框图。该图7所示的信号处理装置100B的结构中,校正信号生成部121的结构与图1所示的结构不同。此外,在该图7中,对于与图1的各部分对应的结构,标注相同的附图标记,省略其说明。
校正信号生成部121具有频率提取部125和相位变更部126。相位变更部126将输入的相位(相位信息)变更为与该输入的相位不同的相位,输出变更后的相位(相位信息)。例如,相位变更部126基于第1转换部111进行了转换后的频谱的相位信息(附图标记SG2),输出与相位信息(附图标记SG2)所示的相位不同相位的相位信息(附图标记SG5)。
频率提取部125从由环境音特征频谱估算部113估算出的环境音特征频谱FS中提取出作为加法运算对象的频率槽的频谱。即,频率提取部125从环境音特征频谱FS中提取作为加法运算对象的校正信号的频谱。
加法运算部128将频率提取部125提取出的频谱与降噪部115减去估算噪声NS后的声音信号的频谱FC相加。即,加法运算部128将变更为与声音信号的频谱SC的相位不同的相位后得到的环境音特征频谱FS,与频谱FC相加。
并且,逆转换部116对将相位彼此不同的声音信号的频谱SC和环境音特征频谱FS相加而得到的频谱进行傅里叶逆变换后输出。
如上所述,校正信号生成部121通过将环境音特征频谱FS的相位变更为不同的相位,从而生成校正信号的频谱SE。即,校正信号生成部121作为用于对从含有规定噪声的声音信号的频谱SB减去估算噪声频谱NS后的频谱FC进行校正的频谱(校正信号的频谱),而生成相对于频谱SB至少相位不同的频谱。
由此,信号处理装置100B在从声音信号中减去规定噪声时,即使在规定噪声以外的环境音所含有的白噪声这种声音信号也被降低的情况下,也能够将相对于输入的声音信号的频谱至少相位不同的频谱,生成作为该白噪声这种声音信号的代替的声音信号的频谱(校正信号的频谱)并进行相加。即,信号处理装置100B在从声音信号减去规定噪声时,即使在规定噪声以外的声音信号也被降低的情况下,也能够生成作为该规定噪声以外的声音的代替的声音信号并进行相加。由此,信号处理装置100B能够适当地降低声音信号中含有的噪声。
[第3实施方式]
下面,说明第3实施方式所涉及的信号处理装置100C。
该第3实施方式是在第2实施方式中说明的生成相对于输入的声音信号的频谱至少相位不同的频谱,来作为校正信号的频谱的结构的其它方式。
在第2实施方式中,通过将环境音特征频谱FS的相位变更为不同的相位,从而生成校正信号的频谱。在该第3实施方式中,生成将与输入的声音信号的频谱相位不同的相位作为伪随机数信号的频谱的相位而得到的校正信号的频谱。
图8是表示第3实施方式所涉及的信号处理装置100C的结构的一个例子的概略框图。该图8所示的信号处理装置100C的结构中,校正信号生成部121的结构与图1所示的结构不同。此外,在该图8中,对于与图1的各部分对应的结构,标注相同的附图标记,省略其说明。
校正信号生成部121具有伪随机数信号生成部122、第2转换部123、均衡部124、频率提取部125及相位变更部126。即,该图8的校正信号生成部121与图1的校正信号生成部121的结构相比,不同点在于具有相位变更部126。此外,相位变更部126也可以为与图7的相位变更部126相同的结构。
相位变更部126将输入的相位(相位信息)变更为与该输入的相位不同的相位,输出变更后的相位(相位信息)。例如,相位变更部126基于第1转换部111进行转换后的频谱的相位信息(附图标记SG2),输出与相位信息(附图标记SG2)所示的相位不同相位的相位信息(附图标记SG5)。
在该图8中,将在加法运算部128中所相加的校正信号的频谱的相位信息代替在图1的将伪随机数信号列转换为频谱RN时的相位信息(SG4),来作为相位变更部126输出的相位信息(附图标记SG5)。
由此,校正信号生成部121与第2实施方式相同地,能够生成相对于输入的声音信号的频谱至少相位不同的频谱,来作为校正信号的频谱。由此,信号处理装置100C在从声音信号减去规定噪声时,即使在规定噪声以外的环境音所含有的白噪声这种声音信号也被降低的情况下,也能够将相对于输入的声音信号的频谱至少相位不同的频谱,生成作为该白噪声这种声音信号的代替的声音信号的频谱(校正信号的频谱)并进行相加。
此外,在第1实施方式中所说明的根据伪随机数信号生成校正信号的频谱的方法的情况下,虽然存在极微小的概率,但可能生成相位与输入的声音信号相同的校正信号。与此相对,根据第2实施方式或第3实施方式的结构,能够生成相位确然与输入的声音信号的频谱的相位不同的校正信号的频谱。
此外,第1实施方式的信号处理装置100C也可以构成为具有相位判定部,其判定输入的声音信号的频谱的相位(相位信息SG2)和生成的伪随机数信号的频谱的相位(相位信息SG4)是否为彼此不同的相位。并且,第1实施方式的信号处理装置100C也可以在例如输入的声音信号的频谱的相位(相位信息SG2)和生成的伪随机数信号的频谱的相位(相位信息SG4)为彼此不同的相位的情况下,执行加上校正信号的频谱的处理。
[第4实施方式]
下面,说明第4实施方式。第4实施方式是具有第1实施方式、第2实施方式或第3实施方式的信号处理装置100A、100B、100C的拍摄装置1的例子。
图9是表示第4实施方式所涉及的拍摄装置1的结构的一个例子的概略框图。该图9所示的拍摄装置1的结构为图6所示的拍摄装置400还具有信号处理装置100A、100B、100C的结构。此外,在该图9中,对于与图1或图6的各部分对应的结构,标注相同的附图标记,省略其说明。
拍摄装置1具有拍摄部10、CPU 90、操作部80、图像处理部40、显示部50、存储部60、缓冲存储器部30、通信部70、麦克风21、A/D转换部22、声音信号处理部23、信号处理部101和总线300。在该拍摄装置1具有的结构中,信号处理部101和存储部60的一部分对应于信号处理装置100A、100B、100C。
存储部60存储由CPU 90进行场景判定时所参照的判定条件及拍摄条件等,其也可以具有例如图1、7、8中的存储部160所具有的环境音特征频谱存储部161、噪声存储部162、降噪处理信息存储部163。
如上所述构成的拍摄装置1能够对存储介质200中存储的声音信号,执行使用第1实施方式、第2实施方式或第3实施方式所说明的降噪处理。在这里,存储介质200中存储的声音信号可以是拍摄装置1进行拾音而记录的声音信号,也可以是其它拍摄装置进行拾音而记录的声音信号。
由此,拍摄装置1在从声音信号减去规定噪声时,即使在规定噪声以外的声音信号也被降低的情况下,也能够生成作为该规定噪声以外的声音的代替的声音信号并进行相加。例如,拍摄装置1在从声音信号减去规定噪声时,即使在规定噪声以外的环境音所含有的白噪声这种声音信号也被降低的情况下,也能够根据伪随机数信号而生成作为该白噪声这种声音信号的代替的声音信号并进行相加。
由此,拍摄装置1能够抑制由于规定噪声以外的声音信号也被降低(由于噪声过度减去)而发生的声音劣化。另外,拍摄装置1由于抑制了为了避免规定噪声以外的声音信号也被降低而使得噪声过少减去的情况,所以能够抑制噪声发生残留。
即,拍摄装置1能够适当地降低声音信号中含有的噪声。
此外,拍摄装置1并不限定于仅对存储在存储介质200中的声音信号执行由上述信号处理部101进行的降噪处理。例如,拍摄装置1也可以在对由麦克风21拾音而得到的声音信号,执行由信号处理部101进行的降噪后,将处理后的声音信号存储在存储介质200中。即,拍摄装置1也可以对由麦克风21拾音而得到的声音信号,实时地执行由信号处理部101进行的降噪。
此外,在由信号处理部101进行了信号处理后的声音信号存储在存储介质200中情况下,可以与由拍摄元件19拍摄得到的图像数据在时间上相关联地进行存储,也可以作为具有声音信号的动态图像进行存储。
以上,如使用第1~第4实施方式进行了说明所示,信号处理装置100A、100B、100C及拍摄装置1能够适当地降低声音信号中含有的噪声。
[第5实施方式]
以下,参照附图说明本发明的第5实施方式。
图10是表示本发明的第5实施方式所涉及的信号处理装置100D的结构的一个例子的概略框图。图11是包括由信号处理装置100D进行的白噪声校正的降噪处理的一个例子的说明图。图12是表示降噪处理的一个例子的流程图。
首先,说明信号处理装置100D的概要。
图10所示的信号处理装置100D是对例如由左右一对麦克风拾音得到的声音信号进行处理的立体声信号处理装置,对输入的左右的声音信号500L、500R分别执行信号处理,并输出处理后的左右的声音信号510L、510R。
此外,本发明并不限定于此,也可以构成为在信号处理装置100D中设置左右的声音信号输入部。声音信号输入部可以是用于从存储介质读取声音信号的读取部,也可以是通过有线通信或无线通信等从外部装置输入声音信号的部分。
信号处理装置100D对输入的左右的声音信号500L、500R执行信号处理,并输出处理后的声音信号(附图标记510L、510R)。左右的声音信号500L、500R例如存储在存储介质中。
信号处理装置100D对声音信号执行信号处理。例如,信号处理装置100D如上述所示的那样,基于录音得到的声音的声音信号、以及与该声音信号相关联的表示动作部进行动作的定时的信息,执行降低声音信号所含有的噪声的处理。
下面,详细说明图10所示的信号处理装置100D的结构。
信号处理装置100D具有信号处理主体110D和存储部160D。
第5实施方式的存储部160D的结构与第1实施方式的存储部160相同,因此,对相同的结构标注相同的附图标记,省略其说明。
信号处理主体110D对输入的声音信号500L、500R例如执行降噪处理等信号处理,并输出执行了该信号处理的声音信号510L、510R(或者存储在存储介质中)。
此外,信号处理主体110D也可以将对输入的声音信号执行了降噪处理后的声音信号510L、510R、以及输入的声音信号500L、500R保持不变的信号进行切换并输出。
<信号处理主体110D的详细结构>
下面,使用前述图2、图3、以及图10、图11,说明图10所示的信号处理主体110D的详细内容。
信号处理主体110D具有对从左侧输入的声音进行处理的左信号处理部110L、对从右侧输入的声音进行处理的右信号处理部110R、环境音校正部310、相位信息生成部410、左转换部111L、右转换部111R、左逆转换部116L和右逆转换部116R。
左信号处理部110L具有左判定部112L、左环境音特征频谱估算部113L、左噪声估算部114L和左降噪部115L。
右信号处理部110R具有右判定部112R、右环境音特征频谱估算部113R、右噪声估算部114R和右降噪部115R。
环境音校正部310具有左均衡部324L及右均衡部324R、左频率提取部325L及右频率提取部325R、左加法运算部328L及右加法运算部328R。
相位信息生成部410具有伪随机数信号生成部322、校正用转换部323和右相位调整部326。
在这里,关于信号处理主体110D,图2的(d)所示的声音信号(例如由拍摄装置拾音后录音的声音信号)、和图2的(a)所示的与该声音信号相关联的表示动作部(例如拍摄装置具有的动作部)进行动作的定时的信号从存储介质读出后输入的情况下的各信号的说明,与第1实施方式相同。
此外,在以后的说明中,关于左信号处理部110L进行说明,省略右信号处理部110R中的与左信号处理部110L相同的说明。另外,在图中,附图标记的末尾添加“L”的是左边的声音信号(Lch)的处理所涉及的构成要素,附图标记的末尾添加“R”的是右边的声音信号(Rch)的处理所涉及的构成要素。
在左转换部111L将所输入的声音信号500L转换为频域信号后,左信号处理部110L针对该各个帧的声音信号的频谱执行后述的降噪处理。然后,逆转换部116L将进行了降噪处理的各帧的频谱进行傅里叶逆变换后输出。此外,进行傅里叶逆变换后输出的声音信号可以存储在存储介质中。
以下,对于左转换部111L、左信号处理部110L及左逆转换部116L中的各构成要素的作用,参照图11顺序地进行详细说明。
左转换部(频域转换部)111L在输入了图2的(d)所示的声音信号(500L)后,将所输入的声音信号转换为频域信号(图11的(A))。
例如,左转换部111L将输入的声音信号分割为帧,将分割后的各帧的声音信号进行傅立叶变换而生成各帧的声音信号的频谱。在这里,左转换部111L在生成该输入的声音信号的频谱时,得到声音信号的频率成分的振幅信息(SA1)及相位信息(SP1)。
另外,左转换部111L在将各帧的声音信号转换为频谱的情况下,也可以在将各帧的声音信号乘以汉宁窗等窗函数后,转换为频谱。
此外,左转换部111L也可以利用快速傅立叶变换(FFT:FastFourier Transform)进行傅立叶变换。
左信号处理部110L中的左判定部112L基于动作部进行动作的定时,判定声音信号的各帧是动作部正在进行动作的期间的帧还是动作部没有进行动作的期间的帧(图11的(B))。
即,左判定部112L基于动作部进行动作的定时,判定声音信号的各帧是含有规定噪声(例如由于动作部进行动作而产生的噪声)的期间的帧还是不含有规定噪声的期间的帧。
此外,左判定部112L并不限定于独立结构,也可以是后述的左环境音特征频谱估算部113L或左噪声估算部114L具有上述功能的结构。
左环境音特征频谱估算部113L输入由左转换部111L转换后的声音信号的频谱,根据该输入的声音信号的频谱估算左环境音特征频谱(图11的(C))。
并且,左环境音特征频谱估算部113L将估算出的左环境音特征频谱作为左环境音特征频谱存储在环境音特征频谱存储部161D中。
在这里,左环境音特征频谱是指对不含有规定噪声(例如由于动作部进行动作而产生的噪声)的期间的声音信号的频谱、即不含有规定噪声的周边环境音(周边音、目的音)拾音而得到的声音信号的频谱。
例如,左环境音特征频谱估算部113L将不含有规定噪声的期间的帧中的声音信号(环境音的声音信号)的频谱作为环境音特征频谱进行估算。
即,左环境音特征频谱估算部113L将动作部没有进行动作的期间的帧中的声音信号的频谱作为环境音特征频谱进行估算。
具体地说,例如,左环境音特征频谱估算部113L将由左判定部112L基于动作部进行动作的定时判定出的、不含有动作部进行动作的期间的前一帧中的声音信号的频谱,作为环境音特征频谱进行估算。
在图2所示的声音信号的例子的情况下,左环境音特征频谱估算部113L将例如帧序号43中的声音信号的频谱作为环境音特征频谱进行估算。
并且,左环境音特征频谱估算部113L将该帧序号43中的声音信号的频谱作为环境音特征频谱存储在环境音特征频谱存储部161D中。
左噪声估算部114L根据输入的声音信号,估算用于降低规定噪声(例如由于动作部进行动作而产生的噪声)的噪声(图11的(D))。例如,噪声估算部114L基于动作部进行动作的定时,根据输入的声音信号的频谱估算噪声频谱。并且,左噪声估算部114L将估算出的噪声存储在噪声存储部162D中。
例如,左噪声估算部114L基于含有规定噪声的期间的帧中的声音信号的频谱、和不含有规定噪声的期间的帧中的声音信号的频谱,估算噪声频谱。
即,左噪声估算部114L基于动作部正在进行动作的期间的帧中的声音信号的频谱、和动作部没有进行动作的期间的帧中的声音信号的频谱,估算噪声频谱。
具体地说,例如,左噪声估算部114L将由左判定部112L基于动作部进行动作的定时判定出的、动作部开始进行动作的定时的后一帧(且在整个帧的期间动作部都进行动作的帧)中的声音信号的频谱(图3的(b)的S46)、以及动作部开始动作的定时的前一帧(且在整个帧的期间动作部都不进行动作的帧)中的声音信号的频谱(图3的(a)的S43=环境音特征频谱FS)之差,进行估算而作为噪声频谱(图3的(d)的NS)。
此外,左降噪部115L也可以基于按各个频率槽对含有噪声的帧的频谱和环境音特征频谱FS进行比较的结果,按各个频率槽选择是否减去估算噪声频谱NS。
例如,左降噪部115L可以对于含有噪声的帧的频谱强度(振幅)大于环境音特征频谱FS的强度的频率槽,进行从含有噪声的帧的频谱减去估算噪声频谱NS的处理。
另一方面,左降噪部115L可以对于含有噪声的帧的频谱强度为环境音特征频谱FS的强度以下的频率槽,进行不从含有噪声的帧的频谱中减去估算噪声频谱NS的处理。
图11的(E)所示的频率选择说明了该作用。此外,该功能为图10中的降噪部115L具有的功能。
左逆转换部116L对左降噪部115L从含有噪声的声音信号的频谱减去估算噪声频谱(图11的(F))的降噪后的频谱(图3的(e)、频谱SC)进行傅里叶逆变换(图11的(G))。由此,能够得到噪声降低的声音信号。
在该左逆转换部116L中进行傅里叶逆变换时,使用在左转换部111L中得到的输入声音信号的相位信息(SP1)。
此外,左逆转换部116L也可以利用快速傅立叶逆变换(IFFT:Inverse Fast Fourier Transform)进行傅里叶逆变换。
如上述所示,左信号处理部110L通过基于噪声频谱(估算噪声频谱NS)对声音信号进行谱减(Spectral Subtraction)处理,而降低声音信号的噪声。
即,谱减处理是首先将声音信号利用傅立叶变换转换为频域,在频域下减小噪声后,进行傅里叶逆变换,由此降低声音信号的噪声的方法。
此外,右信号处理部110R中的各构成要素的功能及谱减处理的内容与上述左信号处理部110L完全相同。
返回图10的说明,继续对信号处理主体110D所具有的各结构进行说明。在以下的说明中,使用图2及图3说明的环境音特征频谱FS由环境音特征频谱估算部113估算并存储在环境音特征频谱存储部161D中。
此外,也可以将预先设定的环境音特征频谱存储在环境音特征频谱存储部161D中。另外,使用图2及图3说明的估算噪声频谱NS由左噪声估算部114估算并存储在噪声存储部162D中。此外,也可以将预先设定的估算噪声存储在噪声存储部162D中。
如上述所示,信号处理装置100D通过从含有噪声的声音信号的频谱减去例如基于动作部进行动作的定时而估算出的估算噪声频谱NS,从而对声音信号进行降噪处理。
但是,在这种降噪处理中,在估算噪声频谱NS中至少含有规定噪声(例如,由于动作部进行动作而产生的噪声)以外的声音信号的频谱的情况下,规定噪声以外的环境音的声音信号也被减去,导致环境音发生劣化。
另外,在要降低非稳态噪声(例如大小变化的噪声、间歇产生的噪声等)的情况下,有时会在实际混入到声音信号的噪声和估算噪声之间产生差异,由于噪声的过度减去而声音发生劣化。
在此情况下,频谱强度越小的声音信号就越容易劣化,例如,如环境音所含有的白噪声(对于表示该场景的临场感很重要的声音)那样,频带较宽且频谱强度较小的声音信号容易发生劣化。
在这里,如果为了使环境音不发生劣化而降低估算噪声频谱NS的减去量,则由于噪声过少减去而导致噪声残留。另一方面,如果为了避免这样的噪声过少减去而增加减去量,则导致环境音所含有的白噪声那样的声音被进一步减去(降低),会导致仅在进行了降噪处理的帧的期间,白噪声这类声音中断而变为具有违和感的声音。
信号处理装置100D中的环境音校正部310对该降噪处理中有可能产生劣化的环境音进行校正。
下面,详细说明该环境音校正部310及相位信息生成部410的结构的一个例子。
如前述所示,环境音校正部310具有左均衡部324L及右均衡部324R、左频率提取部325L及右频率提取部325R、左加法运算部328L及右加法运算部328R。
此外,左均衡部324L和右均衡部324R、左频率提取部325L和右频率提取部325R分别具有相同的结构及功能,是与前述信号处理主体110D中的左信号处理部110L和右信号处理部110R对应而设置的。以下,除了特别需要的情况之外,对左均衡部324L及左频率提取部325L进行说明,对右均衡部324R及右频率提取部325R省略说明。
相位信息生成部410基于伪随机数信号和环境音特征频谱FS,生成校正信号的频谱。
伪随机数信号生成部322利用例如线性同余法、使用了线性反馈移位寄存器的方法、使用了混沌随机数的方法等,生成伪随机数信号列(图11的(H))。
此外,伪随机数信号生成部322也可以使用上述方法以外的方法生成伪随机数信号列。
校正用转换部323将由伪随机数信号生成部322生成的伪随机数信号列转换为频域信号(图11的(I))。例如,校正用转换部323将伪随机数信号列分割为帧,将分割后的各帧的伪随机数信号进行傅立叶变换,生成各帧中的伪随机数信号的频谱。
另外,校正用转换部323在将各帧的伪随机数信号转换为频谱的情况下,可以在将各帧的伪随机数信号乘以汉宁窗等窗函数后,转换为频谱。另外,校正用转换部323也可以利用快速傅立叶变换(FFT:Fast Fourier Transform)进行傅立叶变换。此外,校正用转换部323也可以形成与左转换部111L及右转换部111R相同的结构。
此外,校正用转换部323在生成伪随机数信号的频谱时,得到伪随机数信号的频率成分的振幅信息(SA3)及相位信息(SP3)。
校正用转换部323向左右的均衡部(左均衡部324L、右均衡部324R)输入转换后的信号。
左均衡部324L基于从校正用转换部323输入的伪随机数信号的频谱和从左环境音特征频谱估算部113L输入的环境音特征频谱FS,生成校正信号的频谱。
例如,左均衡部324L通过使用环境音特征频谱FS对伪随机数信号的频谱进行均衡,从而生成校正信号的频谱(图11的(J))。
相同地,右均衡部324R通过使用从右环境音特征频谱估算部113R输入的环境音特征频谱FS对伪随机数信号的频谱进行均衡,从而生成校正信号的频谱。
由此,基于从左右输入的声音,对从左右输入的信号决定要校正的信号,由此,将左校正信号和右校正信号之间的关系(第2关系)以包括在含有左输入音(左环境音特征频谱)和右输入音(右环境音特征频谱)之间的关系(第1关系)在内的规定范围中的方式进行生成(校正)。
具体地说,左均衡部324L例如通过将伪随机数信号的频谱和环境音特征频谱FS按各个频率槽相乘,以使得所有频率槽的频谱之和(所有频率成分的振幅之和或所有频率成分的强度之和)与环境音特征频谱FS之和(所有频率槽的频谱之和)大致相等的方式进行标准化(格式化、平均化),从而生成校正信号。
例如,左均衡部324L也可以通过第1实施方式中所说明的算式1计算出校正信号。
此外,对于算式1中记载的环境音频谱FS(k),也可以使用将从规定的多个帧中获取的环境音频谱按各个频率槽进行相加后求平均而得到的平均环境音频谱AE(k)。
左频率提取部325L及右频率提取部325R分别选择要在左加法运算部328L及右加法运算部328R中进行加法运算的频率槽,提取左均衡部324L及右均衡部324R生成的校正信号的频谱中的所选择的频率槽的频谱。以下以左频率提取部325L为例进行说明。
例如,左频率提取部325L基于按各个频率槽表示左降噪部115L是否减去估算噪声频谱NS的信息,选择左加法运算部328L进行加法运算的频率槽(图11的(K))。
即,左频率提取部325L基于按各个频率槽表示左降噪部115L是否减去估算噪声频谱NS的信息,提取出在左加法运算部328L中进行加法运算的频率槽的校正信号的频谱。
此外,左频率提取部325L也可以参照降噪处理信息存储部163,获取按各个频率槽表示是否减去估算噪声频谱NS的信息。
左加法运算部328L及右加法运算部328R各自在左降噪部115L或右降噪部115R减去估算噪声频谱NS后的声音信号的频谱上,加上左均衡部324L及右均衡部324R生成的校正信号的频谱(图11的(M)。以下,以左加法运算部328L为例进行说明。
例如,左加法运算部328L加上左频率提取部325L作为加法运算对象而提取的频率槽的校正信号的频谱。
即,左加法运算部328L在左降噪部115L按各个频率槽从声音信号的频谱减去估算噪声频谱NS时没有进行减法运算的频率槽,对于减去估算噪声频谱NS后的声音信号的频谱加上校正信号的频谱。
另一方面,左加法运算部328L在左降噪部115L按各个频率槽从声音信号的频谱减去估算噪声频谱NS时没有进行减法运算的频率槽,降低减去估算噪声频谱NS后的声音信号的频谱所加上的校正信号的频谱的相加量(例如将相加量设为“0”,即不加上)。
此外,左加法运算部328L在左降噪部115L按各个频率槽从声音信号的频谱减去估算噪声频谱NS时减去量较少的频率槽,也可以降低在减去估算噪声频谱NS后的声音信号的频谱所加上的校正信号的频谱的相加量。
例如,左加法运算部328L也可以与左降噪部115L中的各个频率槽的减去量对应地,使校正信号的频谱的相加量按各个频率槽不同。
即,左加法运算部328L在左降噪部115L中的按各个频率槽的减去量较大的情况下,可以增加该频率槽的校正信号的频谱的相加量,在左降噪部115L中的按各个频率槽的减去量较小的情况下,可以减少该频率槽的校正信号的频谱的相加量。
并且,如前述所示,左信号处理部110L将左加法运算部328L对频谱SC加上频谱SD而得到的频谱,在左逆转换部116L中进行傅里叶逆变换,从而生成降噪处理后的时域的声音信号(图11的(G))。在该左逆转换部116L中的傅里叶逆变换时,对于从左频率提取部325L输出的作为加法运算对象的频谱SD,使用由校正用转换部323得到的伪随机数信号的频率成分的相位信息(SP3)。
在这里,在本实施方式中,将由伪随机数信号生成部322生成的伪随机数信号列由校正用转换部323转换为频域信号后的各帧中的伪随机数信号的频谱SE的相位(参照图10的SP3)与输入声音信号的频谱SC的相位(参照图10的SP1、SP2)不同。由此,得到用于校正白噪声这种声音的声音信号的校正信号的频谱。
但是,通过伪随机数信号生成部322及校正用转换部323生成的输出是用于产生立体声的2个(Lch、Rch)输入音的,因此,这样直接输出,则校正信号的频谱的相位对于2个输入(Lch、Rch)相同。
其结果,校正信号定位于左右输入的中心附近,如果将这种校正信号进行叠加而生成降噪处理后的时域的声音信号,则可能在中心附近产生原本不存在的异常声音。
此外,即使在对两个输入使用各自独立生成的随机信息的情况下,叠加环境音校正信号的部位的定位也相对于输入音发生了变化,有可能导致听上去不自然。
因此,在本结构中,具有将对于右声音信号的校正信号的相位信息进行调整的右相位调整部326。
右相位调整部326将从校正用转换部323输出的伪随机数信号的频率成分的相位信息(SP3)作为基准,以使得对其的比与左右的输入音的相位差相等的方式,生成右校正相位信息(SP4)。
即,右相位调整部326输出的右校正相位信息(SP4)设定为相对于左校正信号的相位,其相位差与输入音的相位差相等。
由此,左右的校正信号的定位与左右的输入的定位相等,叠加这种校正信号而生成的降噪处理后的时域的声音信号的定位与输入音相比不发生改变,从而能够校正为听起来很自然的声音。
如以上说明所示,信号处理装置100D在相位信息生成部410及环境音校正部310中,生成用于对在降噪处理中可能发生劣化的环境音所含有的白噪声(对于表示该场景的临场感很重要的声音)的信号进行校正的校正信号,进行将生成的校正信号与降噪处理后的声音信号相加的处理。
具体地说,相位信息生成部410及环境音校正部310生成白噪声,使用没有产生噪声的区间的声音而对白噪声(以频域)进行均衡,生成模拟环境声音信号(频域),并且从模拟环境音中仅提取进行了降噪的频率成分,生成环境音校正信号(频域)。并且,在将进行了降噪的频域信号和环境音校正信号相加后,通过转换为时域信号而得到降噪后的声音信号。另外,作为环境音校正信号的相位信息而使用白噪声的相位信息。
这样,能够对通过降噪处理而被限制的环境音进行插补。另外,通过仅加上与进行了降噪的频率成分相当的环境音校正信号,从而能够抑制由于将人工生成的声音加上而导致的违和感。由于在环境音校正信号的相位信息中不使用混入有噪声的声音(输入音)的相位信息,所以不会由于与环境音校正信号的相加而导致被降低的噪声重新出现。
另外,环境音校正部310通过使用右相位调整部326生成的右校正相位信息(SP4)作为右校正信号的相位信息,从而右校正信号相对于左校正信号的相位的相位差与输入音的相位差相等。
由此,左右的校正信号的定位与左右的输入的定位相等,叠加这种校正信号而生成的降噪处理后的时域的声音信号的定位与输入音相比没有变化,能够校正为听起来很自然的声音。
(降噪处理的动作)
下面,参照图12说明本实施方式中的降噪处理的动作。图12是表示本实施方式中的降噪处理的一个例子的流程图。此外,图12及以下的说明中,也将步骤简写为“S”。
首先,信号处理主体110D从存储介质读取声音信号。所读取的声音信号被输入到信号处理主体110D的左转换部111L、右转换部111R(S111)。
然后,左转换部111L、右转换部111R将输入的声音信号转换为频域信号。例如,左转换部111L、右转换部111R将输入的声音信号分割为帧,将分割后的各帧的声音信号进行傅立叶变换而生成各帧的声音信号的频谱(S112,图11的(A))。
然后,左判定部112L、右判定部112R基于动作部进行动作的定时,判定声音信号的各帧是动作部正在进行动作的期间的帧还是动作部没有进行动作的期间的帧(S113,图11的(B))。
即,左判定部112L、右判定部112R基于动作部进行动作的定时,判定声音信号的各帧是否为含有规定噪声(例如由于动作部进行动作而产生的噪声)的期间的帧(是否混入有规定噪声)。
左环境音特征频谱估算部113L、右环境音特征频谱估算部113R基于输入的声音信号的各帧中的、判定为不含有规定噪声的期间的帧(S113→否)的帧的声音信号的频谱,估算环境音特征频谱FS(环境音的频谱,参照图4的(b))(S114,图11的(C))。
另一方面,左噪声估算部114L、右噪声估算部114R基于输入的声音信号的各帧中的、判定为含有规定噪声的期间的帧(S113→是)的帧的声音信号的频谱SB(参照图4的(a))、和环境音特征频谱FS,估算噪声频谱(估算噪声频谱NS)。
例如,左噪声估算部114L、右噪声估算部114R通过按各个频率槽从含有规定噪声的期间的帧的声音信号的频谱SB减去环境音特征频谱FS,从而生成估算噪声频谱NS(S115,图11的(D))。
然后,左降噪部115L、右降噪部115R按各个频率槽(各个频率成分)而从频谱SB减去由左噪声估算部114估算出的估算噪声频谱NS(S116,图11的(F))。例如,左降噪部115L、右降噪部115R按各个频率槽将频谱SB和环境音特征频谱FS进行比较,仅在频谱SB的强度小于或等于环境音特征频谱FS的强度的频率槽,减去估算噪声频谱NS(参照图4的(d))。
另一方面,伪随机数信号生成部322生成伪随机数信号列(S121,图11的(H))。
然后,校正用转换部323将由伪随机数信号生成部322生成的伪随机数信号列转换为频域信号(S122,图11的(I))。例如,伪随机数信号生成部322将伪随机数信号列分割为帧,将分割后的各帧的伪随机数信号进行傅立叶变换,生成各帧中的伪随机数信号的频谱RN(参照图4的(c))。
然后,左均衡部324L、右均衡部324R通过对伪随机数信号的频谱RN使用环境音特征频谱FS进行均衡,从而生成校正信号的频谱SE(参照图4的(e))(S123,图11的(J))。
另外,左频率提取部325L、右频率提取部325R从校正信号的频谱SE中提取在左加法运算部328L、右加法运算部328R中作为加法运算对象的频率槽的频谱SD(S124,图11的(K))。即,频率提取部125从校正信号的频谱SE中提取作为加法运算对象的频率槽的校正信号的频谱SD。例如,左频率提取部325L、右频率提取部325R将步骤S116中由左降噪部115减去了估算噪声频谱NS的频率槽选择为加法运算对象的频率槽,并提取出所选择的频率槽的频谱SD。
另一方面,右相位调整部326根据通过校正用转换部323得到的伪随机数信号的频率成分的相位信息(SP3),生成对其的比与左右的输入音的相位差相等的右校正相位信息(SP4)(S125)。在这里所生成的右校正相位信息(SP4)用于在后述的步骤27中生成利用傅里叶逆变换进行降噪处理后的时域的声音信号。
并且,左加法运算部328L、右加法运算部328R对于在步骤S116中从频谱SB减去估算噪声频谱NS得到的频谱SC(参照图4的(d)),加上在步骤S124中提取出的校正信号的频谱SD(S126,图11的(M))。
然后,左逆转换部116L、右逆转换部116R通过将对频谱SC加上频谱SD而得到的频谱进行傅里叶逆变换,从而生成降噪处理后的时域的声音信号(S127,图11的(G))。
并且,信号处理主体110D将降噪处理后的时域的声音信号输出(S128)。
此外,步骤26和步骤27的工序顺序可以前后交换。即,也可以在对将左右声音信号中减去估算噪声频谱NS而得到的频谱SC进行傅里叶逆变换、以及对校正信号的频谱SD进行傅里叶逆变换,而分别转换为声音信号后,将两者相加而作为输出声音信号。
<具有拾音功能的拍摄装置的构成例>
下面,基于图13,说明对上述的存储在存储介质中的声音信号进行拾音的拍摄装置400D的结构。
此外,本实施方式的拍摄装置400D与上述图9中说明的拍摄装置400之间的差别在于,本实施方式的拍摄装置400D中麦克风21D具有左麦克风21L及右麦克风21R这一点。其它部分是相同的,因此,省略对相同部分的说明。
麦克风21D具有左麦克风21L及右麦克风21R,转换为与所拾音得到的声音相应的模拟信号声音信号。A/D转换部22将由麦克风21D转换的模拟声音信号,转换为数字声音信号。
声音信号处理部23执行用于将由A/D转换部22转换后的数字声音信号,存储在存储介质200中的信号处理。声音信号处理部23将动作部的定时信息与声音信号相关联地存储在存储介质200中。声音信号处理部23所存储的声音信号,是与动态图像相关联地存储的声音信号、为了向存储在存储介质200中的静态图像添加声音而录音得到的声音信号、作为录音器而录音得到的声音信号等。
以下,说明上述实施方式的变形例。
(关于图2中的帧)
在图2的说明中,说明了各帧之间存在重叠的情况。但并不限定于此,各帧之间也可以不重叠。例如,也可以以使彼此相邻的帧按各个帧而独立的方式设定期间。
另外,在上述使用图2、图3及图4的说明中,(a)针对与表示动作部进行动作的定时的信号无关地对声音信号分割为帧的情况进行了说明(参照图2的(c))。
但并不限定于此,信号处理主体110D也可以与(a)表示动作部进行动作的定时的信号对应地,控制分割帧的位置。例如,信号处理主体110D以使得(a)表示动作部进行动作的定时的信号从低电平变为高电平的定时(参照图2的附图标记0)与声音信号的帧的边界一致的方式,针对声音信号生成帧。
并且,信号处理主体110D也可以与表示动作部进行动作的定时的信号对应地,基于动作部进行动作前的期间和动作部正在进行动作的期间,执行上述降噪处理。
(关于对校正信号的相位调整)
在图10所示的结构中,右相位调整部326对针对右声音信号的校正信号的相位信息进行调整。但并不限定于此,也可以构成为对针对左声音信号的校正信号的相位信息进行调整。
另外,在第5实施方式中,说明了通过使用环境音特征频谱对所生成的伪随机数信号的频谱进行均衡而生成校正信号的频谱的方法。但本发明并不限定于此,也可以与第2实施方式相同地,不使用伪随机数信号列,而是通过将环境音特征频谱FS的相位变更为不同的相位而生成校正用的频谱。
(信号处理装置的位置)
在上述的实施方式中,针对在拍摄装置之外单独设置的信号处理装置100D进行了说明,但本发明并不限定于此,也可以将信号处理装置设置在拍摄装置内。
如上述说明所示,根据本实施方式,信号处理装置100D能够适当地降低声音信号中含有的噪声。
此外,在上述说明中,作为声音信号所含有的噪声(规定噪声)而主要说明了由于光学系统11进行动作而产生的声音,但噪声并不限定于此。
例如,在操作部80所具有的按钮等被按下时产生的声音的情况也是相同的。在此情况下,检测到操作部80所具有的按钮等被按下这一情况的信号被输入到CPU 90的定时检测部91。
由此,定时检测部91与光学系统11进行驱动的情况相同地,能够检测操作部80等进行动作的定时。即,可以将表示操作部80等进行动作的定时的信息作为表示动作部进行动作的定时的信息。
另外,动作部并不限定于光学系统11具有的各个透镜或操作部80,也可以是通过动作而产生声音(或者有可能产生声音)的其它结构。例如,动作部也可以是弹出时产生声音的弹出式光源(例如拍摄用光源、闪光装置(闪光灯)等)。
另外,在上述说明中,说明了信号处理装置100D或拍摄装置1对由拍摄装置(例如拍摄装置400或者拍摄装置1)拾音得到的声音的声音信号,执行由信号处理部110进行的处理的例子,但对于拍摄装置之外的装置拾音得到的声音的声音信号也可以执行由信号处理部110进行的处理。
另外,在上述第4实施方式及变形例中,说明了信号处理装置100A、100B、100C、100D(信号处理部110、100D)安装在拍摄装置1中的结构,但信号处理装置100A、100B、100C、100D(信号处理部110、100D)也可以安装在例如录音装置、移动电话、个人计算机、平板型终端、电子玩具或通信终端等其它装置中。
此外,图1、7、8、10中的信号处理部110(信号处理主体110D)或该信号处理部110(信号处理主体110D)具有的各部分可以利用专用的硬件实现,另外,也可以利用存储器及微型处理器实现。
此外,图1、7、8、10中的信号处理部110(信号处理主体110D)或该信号处理部110(信号处理主体110D)具有的各部分可以利用专用的硬件实现,另外,该信号处理部110(信号处理主体110D)或该信号处理部110(信号处理主体110D)具有的各部分也可以由存储器及CPU(中央运算单元)构成,在存储器中装载用于实现信号处理部110(信号处理主体110D)或该信号处理部110(信号处理主体110D)具有的各部分的功能的程序并执行,从而实现该功能。
另外,也可以将用于实现图1、7、8、10中的信号处理部110(信号处理主体110D)或该信号处理部110(信号处理主体110D)具有的各部分的功能的程序存储在计算机可读的存储介质中,通过将该存储介质所存储的程序读入到计算机系统中并执行,从而进行由信号处理部110或该信号处理部110(信号处理主体110D)具有的各部分进行的处理。此外,这里所称的“计算机系统”是指包括OS及周边设备等硬件的装置。
另外,若是“计算机系统”利用WWW系统的情况,则还包括主页提供环境(或显示环境)。
另外,“计算机可读的存储介质”是指软盘、光盘、ROM、CD-ROM等可移动介质、内置于计算机系统中的硬盘等存储装置。
此外,“计算机可读的存储介质”还包括如经由互联网等网络或电话线路等通信线路发送程序时的通信线路那样、在短时间内动态地保持程序的装置,如此时作为服务器或客户端的计算机系统内部的易失性存储器那样包括在一定时间内保持程序的装置。
另外,上述程序可以用于实现前述功能的一部分,此外通过与已经记录在计算机系统的程序的组合而能够实现前述功能。
上述实施方式是将本发明适用于输入声音为2个系统的立体声输入的方式。但本发明并不限定于立体声输入,也能够适用于具有多个拾音输入的结构(例如5.1声道环绕(channel surround)等)。
另外,在上述实施方式中,在加法运算部进行处理后,进行短时IFFT处理,但并不限定于此,也可以在左右进行短时IFFT处理后,进行加法运算处理。
以上,参照附图,详细记述了本发明的实施方式,但具体的结构并不限定于本实施方式,还包括不脱离本发明主旨的范围内的设计等。
此外,实施方式及变形方式可以适当地组合使用,在这里省略详细说明。另外,本发明并不由上述说明的实施方式所限定。
附图标记的说明
1、400、400D:拍摄装置,100A、100B、100C、100D:信号处理装置,110:信号处理部,110D:信号处理主体,110L:左信号处理部,110R:右信号处理部,111:第1转换部(转换部),111L:左转换部,111R:右转换部,112L:左判定部,112R:右判定部,115:降噪部(减法运算部),121:校正信号生成部(生成部),123:第2转换部(转换部),128:加法运算部,310:环境音校正部,326:右相位调整部,328L:左加法运算部,328R:右加法运算部,410:相位信息生成部,500L:左输入音,500R:右输入音
Claims (25)
1.一种信号处理装置,其特征在于,具有:
转换部,其将声音信号转换为频域信号;
减法运算部,其从在所述声音信号中含有规定噪声的期间的第1频域信号中,减去为了降低所述规定噪声而估算出的估算噪声的频域信号;
校正信号生成部,其基于在所述声音信号中不含有所述规定噪声的期间的第2频域信号,进行第4频域信号的生成,该第4频域信号对所述减法运算部从所述第1频域信号中减去所述估算噪声的频域信号而得到的第3频域信号进行校正;以及
加法运算部,其对所述第3频域信号加上所述第4频域信号。
2.根据权利要求1所述的信号处理装置,其特征在于,
所述声音信号与表示动作部进行动作的定时的信息相关联,所述动作部是对所述声音信号的声音进行拾音的装置所具有的,
在所述声音信号中,将所述动作部正在进行动作的期间作为含有所述规定噪声的期间,将所述动作部没有进行动作的期间作为不含有所述规定噪声的期间。
3.根据权利要求1或2所述的信号处理装置,其特征在于,
所述校正信号生成部基于伪随机数信号和所述第2频域信号,生成所述第4频域信号。
4.根据权利要求3所述的信号处理装置,其特征在于,
所述校正信号生成部使用所述第2频域信号对所述伪随机数信号的频域信号进行均衡,从而生成所述第4频域信号。
5.根据权利要求1至4中任一项所述的信号处理装置,其特征在于,
所述校正信号生成部生成相对于所述第2频域信号至少相位不同的频域信号来作为所述第4频域信号。
6.根据权利要求1至5中任一项所述的信号处理装置,其特征在于,
所述减法运算部按各频率成分而分别从所述第1频域信号中减去所述估算噪声的频域信号,
所述加法运算部根据按所述各频率成分而分别减去的减去量,使所述第4频域信号的相加量按所述各频率成分而不同。
7.根据权利要求6所述的信号处理装置,其特征在于,
所述加法运算部对于所述减法运算部按所述各频率成分从所述第1频域信号中减去所述估算噪声的频域信号时没有进行减法运算的频率成分,降低对所述第3频域信号所加上的所述第4频域信号的相加量。
8.一种程序,其用于使计算机执行下述步骤,即:
将声音信号转换为频域信号的步骤;
从在所述声音信号中含有规定噪声的期间的第1频域信号中,减去为了降低所述规定噪声而估算出的估算噪声的频域信号的步骤;
基于在所述声音信号中不含有所述规定噪声的期间的第2频域信号,进行第4频域信号的生成的步骤,其中,该第4频域信号对从所述第1频域信号中减去所述估算噪声的频域信号而得到的第3频域信号进行校正;以及
对所述第3频域信号加上所述第4频域信号的步骤。
9.一种信号处理装置,其特征在于,具有:
频域转换部,其将输入的第1声音信号和第2声音信号转换为频域信号;
信号处理部,其对被所述频域信号转换部转换为频域信号的所述第1声音信号及所述第2声音信号的至少一方进行处理;
相位信息生成部,其生成第3相位信息,将输入的所述第1声音信号的第1相位信息和输入的所述第2声音信号的第2相位信息之间的关系设为第1关系,以使得所述第3相位信息和第4相位信息之间的第2关系包含在含有所述第1关系的规定范围内的方式,生成所述第4相位信息;以及
时域转换部,其至少基于由所述相位信息生成部生成的第3相位信息和第4相位信息,将被所述信号处理部处理后的所述第1声音信号和所述第2声音信号转换为时域信号。
10.根据权利要求9所述的信号处理装置,其特征在于,
具有校正部,该校正部基于未混入规定噪声的期间的声音,对被所述信号处理部处理后的所述第1声音信号和所述第2声音信号进行校正。
11.根据权利要求10所述的信号处理装置,其特征在于,
所述校正部具有加法运算部,该加法运算部将由所述信号处理部处理后的所述第1声音信号和所述第2声音信号的至少一方、以及由所述校正部生成的对所述第1声音信号和所述第2声音信号的至少一方进行校正的校正信号相加,
所述加法运算部对所述第1声音信号和所述第2声音信号的至少一方使用所述第1相位信息或所述第2相位信息,对所述校正信号使用所述第3相位信息或所述第4相位信息,来进行相加。
12.根据权利要求9至11中任一项所述的信号处理装置,其特征在于,
所述信号处理部含有判定部,该判定部判断对所述第1声音信号和所述第2声音信号的声音进行拾音的装置所具有的动作部产生的动作音,
所述声音是在所述判定部判定为没有产生动作音时获取的声音信号。
13.根据权利要求10至12中任一项所述的信号处理装置,其特征在于,
所述相位信息生成部包括伪随机数信号生成部,该伪随机数信号生成部生成含有所述第3相位信息的伪随机数信号,
所述校正部使用在所述判定部判定为没有产生动作时获取的声音信号,对所述伪随机数信号的频域信号进行校正。
14.根据权利要求9至13中任一项所述的信号处理装置,其特征在于,
所述第1关系是指所述第1声音信号和所述第2声音信号之间的相位差即第1相位差,所述第2关系是指所述第3相位信息和所述第4相位信息之间的相位差即第2相位差,
所述相位信息生成部具有相位调整部,该相位调整部以使得所述第2相位差包括在含有所述第1相位差的规定范围内的方式,生成所述第4相位信息。
15.根据权利要求12至14中任一项所述的信号处理装置,其特征在于,
所述信号处理部具有降噪部,该降噪部分别从被所述判定部判定为混入了所述规定噪声的期间的频域信号中减少噪声成分。
16.根据权利要求12至15中任一项所述的信号处理装置,其特征在于,
所述信号处理部具有噪声估算部,该噪声估算部根据被所述判定部判定为混入了噪声的期间的频域信号,求出噪声的估算频域信号,
所述降噪部使用由所述噪声估算部求出的所述估算频域信号,来减少噪声成分。
17.根据权利要求15或16所述的信号处理装置,其特征在于,
所述降噪部按各频率成分从被所述判定部判定为混入了噪声的期间的频域信号中减去所述噪声的估算频域信号而减少噪声成分,
对于没有进行减法运算的频率成分,降低对减少了噪声成分的频域信号的校正信号的频域信号的相加量。
18.一种信号处理装置,其特征在于,具有:
减法运算处理部,其被输入第1声音信号和第2声音信号,在含有规定噪声的期间从所述第1声音信号和所述第2声音信号中的至少一方,减去表示所述规定噪声的信号;以及
生成部,其生成第3信号和第4信号,以使得所述第3信号和所述第4信号之间的关系即第2关系,包含在含有第1关系的规定范围内的方式,生成校正所述第1声音信号的第3信号和校正所述第2声音信号的第4信号,其中,所述第1关系是所述第1声音信号的不含有所述规定噪声的期间的信号和所述第2声音信号的不含有所述规定噪声的期间的信号之间的关系。
19.一种拍摄装置,其特征在于,
具有权利要求1至18中任一项所述的信号处理装置。
20.一种程序,其用于使计算机执行下述步骤,即:
将输入的第1声音信号和第2声音信号转换为频域信号的频域转换步骤;
对被转换为所述频域信号的所述第1声音信号及所述第2声音信号的至少一方进行处理的信号处理步骤;
相位信息生成步骤,生成第3相位信息,将输入的所述第1声音信号的第1相位信息和输入的所述第2声音信号的第2相位信息之间的关系设为第1关系,以使得所述第3相位信息和第4相位信息之间的第2关系包含在含有所述第1关系的规定范围内的方式,生成所述第4相位信息;以及
至少基于由所述相位信息生成步骤生成的第3相位信息和第4相位信息,将由所述信号处理步骤处理后的所述第1声音信号和所述第2声音信号转换为时域信号的时域转换步骤。
21.一种程序,其用于使计算机执行下述步骤,即:
输入第1声音信号和第2声音信号,在含有规定噪声的期间从所述第1声音信号和所述第2声音信号中的至少一方,减去表示所述规定噪声的信号的步骤;
生成第3信号和第4信号,以使得所述第3信号和所述第4信号之间的关系即第2关系,包含在含有第1关系的规定范围内的方式,生成校正所述第1声音信号的第3信号和校正所述第2声音信号的第4信号的步骤,其中,所述第1关系是所述第1声音信号的不含有所述规定噪声的期间的信号和所述第2声音信号的不含有所述规定噪声的期间的信号之间的关系。
22.一种信号处理装置,其特征在于,具有:
转换部,其将声音信号转换为频率信号;
减法运算部,其从所述声音信号中的含有规定噪声的至少一部分的第1频率信号中减去规定的频率信号;以及
生成部,其基于所述声音信号中的不含有所述规定噪声的至少一部分的第2频率信号,生成对由所述减法运算部进行减法运算后的所述第1频率信号所加上的第3频率信号。
23.一种程序,其用于使计算机执行下述步骤,即:
将声音信号转换为频率信号的步骤;
从所述声音信号中的含有规定噪声的至少一部分的第1频率信号中减去规定的频率信号的步骤;以及
基于所述声音信号中的不含有所述规定噪声的至少一部分的第2频率信号,生成对由所述减法运算部进行减法运算后的所述第1频率信号所加上的第3频率信号的步骤。
24.一种信号处理装置,其特征在于,具有:
输入部,其输入声音信号;
减法运算部,其从由所述输入部输入的所述声音信号中的含有规定噪声的至少一部分的第1声音信号中减去规定的信号;以及
生成部,其基于所述声音信号中的不含有所述规定噪声的至少一部分的第2声音信号,生成对由所述减法运算部进行减法运算后的所述第1声音信号所加上的第3声音信号。
25.一种程序,其用于使计算机执行下述步骤,即:
输入声音信号的步骤;
从由所述输入部输入的所述声音信号中的含有规定噪声的至少一部分的第1声音信号中减去规定的信号的步骤;以及
基于所述声音信号中的不含有所述规定噪声的至少一部分的第2声音信号,生成对由所述减法运算部进行减法运算后的所述第1声音信号所加上的第3声音信号的步骤。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012164667 | 2012-07-25 | ||
JP2012-164667 | 2012-07-25 | ||
JP2013092850 | 2013-04-25 | ||
JP2013-092850 | 2013-04-25 | ||
PCT/JP2013/069490 WO2014017371A1 (ja) | 2012-07-25 | 2013-07-18 | 信号処理装置、撮像装置、及び、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104662605A true CN104662605A (zh) | 2015-05-27 |
Family
ID=49997185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380049672.5A Pending CN104662605A (zh) | 2012-07-25 | 2013-07-18 | 信号处理装置、拍摄装置及程序 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20150271439A1 (zh) |
JP (1) | JPWO2014017371A1 (zh) |
CN (1) | CN104662605A (zh) |
WO (1) | WO2014017371A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107181909A (zh) * | 2016-03-11 | 2017-09-19 | 精工爱普生株式会社 | 拍摄装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9462174B2 (en) * | 2014-09-04 | 2016-10-04 | Canon Kabushiki Kaisha | Electronic device and control method |
DE102016204448A1 (de) * | 2015-03-31 | 2016-10-06 | Sony Corporation | Verfahren und Gerät |
JP6559576B2 (ja) * | 2016-01-05 | 2019-08-14 | 株式会社東芝 | 雑音抑圧装置、雑音抑圧方法及びプログラム |
JP7119967B2 (ja) * | 2018-12-10 | 2022-08-17 | コニカミノルタ株式会社 | 音声認識装置、画像形成装置、音声認識方法よび音声認識プログラム |
WO2021189309A1 (zh) * | 2020-03-25 | 2021-09-30 | 深圳市汇顶科技股份有限公司 | 主动降噪的方法、系统、电子设备和芯片 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1138997A (ja) * | 1997-07-16 | 1999-02-12 | Olympus Optical Co Ltd | 雑音抑圧装置および音声の雑音除去の処理をするための処理プログラムを記録した記録媒体 |
CN1378402A (zh) * | 2001-03-28 | 2002-11-06 | 株式会社Ntt都科摩 | 均衡处理方法与装置以及移动台 |
JP2005099405A (ja) * | 2003-09-25 | 2005-04-14 | Yamaha Corp | 雑音除去方法、雑音除去装置およびプログラム |
CN1971711A (zh) * | 2005-06-28 | 2007-05-30 | 哈曼贝克自动系统-威美科公司 | 语音信号自适应增强系统 |
CN101031963A (zh) * | 2004-09-16 | 2007-09-05 | 法国电信 | 处理有噪声的声音信号的方法以及实现该方法的装置 |
CN101558397A (zh) * | 2006-03-01 | 2009-10-14 | 索芙特玛克斯公司 | 用于产生分离的信号的系统和方法 |
JP2010156742A (ja) * | 2008-12-26 | 2010-07-15 | Yaskawa Electric Corp | 信号処理装置および方法 |
CN101853666A (zh) * | 2009-03-30 | 2010-10-06 | 华为技术有限公司 | 一种语音增强的方法和装置 |
US20110234821A1 (en) * | 2009-10-30 | 2011-09-29 | Nikon Corporation | Imaging device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3858668B2 (ja) * | 2001-11-05 | 2006-12-20 | 日本電気株式会社 | ノイズ除去方法及び装置 |
JP2006279185A (ja) * | 2005-03-28 | 2006-10-12 | Casio Comput Co Ltd | 撮像装置、音声記録方法及びプログラム |
EP2346032B1 (en) * | 2008-10-24 | 2014-05-07 | Mitsubishi Electric Corporation | Noise suppressor and voice decoder |
JP5529635B2 (ja) * | 2010-06-10 | 2014-06-25 | キヤノン株式会社 | 音声信号処理装置および音声信号処理方法 |
JP5713958B2 (ja) * | 2012-05-22 | 2015-05-07 | 本田技研工業株式会社 | 能動型騒音制御装置 |
-
2013
- 2013-07-18 JP JP2014526882A patent/JPWO2014017371A1/ja active Pending
- 2013-07-18 US US14/416,452 patent/US20150271439A1/en not_active Abandoned
- 2013-07-18 WO PCT/JP2013/069490 patent/WO2014017371A1/ja active Application Filing
- 2013-07-18 CN CN201380049672.5A patent/CN104662605A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1138997A (ja) * | 1997-07-16 | 1999-02-12 | Olympus Optical Co Ltd | 雑音抑圧装置および音声の雑音除去の処理をするための処理プログラムを記録した記録媒体 |
CN1378402A (zh) * | 2001-03-28 | 2002-11-06 | 株式会社Ntt都科摩 | 均衡处理方法与装置以及移动台 |
JP2005099405A (ja) * | 2003-09-25 | 2005-04-14 | Yamaha Corp | 雑音除去方法、雑音除去装置およびプログラム |
CN101031963A (zh) * | 2004-09-16 | 2007-09-05 | 法国电信 | 处理有噪声的声音信号的方法以及实现该方法的装置 |
CN1971711A (zh) * | 2005-06-28 | 2007-05-30 | 哈曼贝克自动系统-威美科公司 | 语音信号自适应增强系统 |
CN101558397A (zh) * | 2006-03-01 | 2009-10-14 | 索芙特玛克斯公司 | 用于产生分离的信号的系统和方法 |
JP2010156742A (ja) * | 2008-12-26 | 2010-07-15 | Yaskawa Electric Corp | 信号処理装置および方法 |
CN101853666A (zh) * | 2009-03-30 | 2010-10-06 | 华为技术有限公司 | 一种语音增强的方法和装置 |
US20110234821A1 (en) * | 2009-10-30 | 2011-09-29 | Nikon Corporation | Imaging device |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107181909A (zh) * | 2016-03-11 | 2017-09-19 | 精工爱普生株式会社 | 拍摄装置 |
CN107181909B (zh) * | 2016-03-11 | 2020-11-27 | 精工爱普生株式会社 | 拍摄装置 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2014017371A1 (ja) | 2016-07-11 |
WO2014017371A1 (ja) | 2014-01-30 |
US20150271439A1 (en) | 2015-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104662605A (zh) | 信号处理装置、拍摄装置及程序 | |
US9495950B2 (en) | Audio signal processing device, imaging device, audio signal processing method, program, and recording medium | |
JP5351644B2 (ja) | 音声記録装置及び方法、ならびに撮像装置 | |
JP2006270591A (ja) | 電子カメラ、データ再生装置およびプログラム | |
JP5279629B2 (ja) | 撮像装置 | |
US10535363B2 (en) | Audio processing apparatus and control method thereof | |
US8860822B2 (en) | Imaging device | |
US9462174B2 (en) | Electronic device and control method | |
JP5278477B2 (ja) | 信号処理装置、撮像装置、および、信号処理プログラム | |
US8855482B2 (en) | Imaging apparatus and sound processing apparatus | |
JP2012185445A (ja) | 信号処理装置、撮像装置、及び、プログラム | |
JP2013250449A (ja) | ノイズ低減装置、撮像装置及びプログラム | |
US9294835B2 (en) | Image capturing apparatus, signal processing apparatus and method | |
JPWO2012070684A1 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP2014026032A (ja) | 信号処理装置、撮像装置、及び、プログラム | |
JP2015087602A (ja) | 信号処理装置、撮像装置およびプログラム | |
JP2015087601A (ja) | 信号処理装置、撮像装置およびプログラム | |
JP5854779B2 (ja) | 撮像装置及び情報処理装置、これらの制御方法並びに雑音除去方法及びプログラム | |
JP2008060625A (ja) | ステレオ音声録音装置およびマイクロフォン感度差補正方法 | |
JP2018066963A (ja) | 音声処理装置 | |
US11682377B2 (en) | Sound processing apparatus, control method, and recording medium | |
JP6731772B2 (ja) | 電子機器及び制御方法 | |
JP2014232267A (ja) | 信号処理装置、撮像装置、およびプログラム | |
JP2012168477A (ja) | ノイズ推定装置、信号処理装置、撮像装置、及びプログラム | |
JP2012118316A (ja) | 信号処理装置、撮像装置および信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150527 |