JP2010249940A - ノイズ低減装置、ノイズ低減方法 - Google Patents

ノイズ低減装置、ノイズ低減方法 Download PDF

Info

Publication number
JP2010249940A
JP2010249940A JP2009097190A JP2009097190A JP2010249940A JP 2010249940 A JP2010249940 A JP 2010249940A JP 2009097190 A JP2009097190 A JP 2009097190A JP 2009097190 A JP2009097190 A JP 2009097190A JP 2010249940 A JP2010249940 A JP 2010249940A
Authority
JP
Japan
Prior art keywords
signal
noise
period
interpolation
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009097190A
Other languages
English (en)
Other versions
JP2010249940A5 (ja
Inventor
Kazuhiko Ozawa
一彦 小沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009097190A priority Critical patent/JP2010249940A/ja
Priority to US12/707,906 priority patent/US8331583B2/en
Priority to CN2010101545534A priority patent/CN101859583B/zh
Publication of JP2010249940A publication Critical patent/JP2010249940A/ja
Publication of JP2010249940A5 publication Critical patent/JP2010249940A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/24Signal processing not specific to the method of recording or reproducing; Circuits therefor for reducing noise

Abstract

【課題】これまでよりも高品位な音声が得られるノイズ低減装置を提供する。
【解決手段】入力音声信号のピッチに対応する所定の単位周期区間ごとに、生成元信号の時間方向を反転させた区間信号を連結して単位補間信号部分を形成し、さらにこの単位補間信号部分を時系列に並べて補間信号を生成する。この補間信号と、入力音声信号からノイズ音成分を除去して得た音声信号とを合成する。
【選択図】図26

Description

本発明は、例えば音声信号に含まれるノイズを除去(低減)するノイズ低減装置と、その方法とに関する。
例えばビデオカメラ、デジタルスチルカメラ、携帯電話、ICレコーダなどの電子機器には、マイクロフォンが内蔵されている。このような電子機器では、例えば内蔵のディスクドライブなどのヘッドシーク音やリトラクト音、レンズ機構におけるレンズ駆動音、また、ユーザ操作などによるクリック音、タッチ音など、時間的に断続して不規則に発生するノイズが生じ得る。上記した電子機器においては、このようなノイズをマイクロフォンが拾ってしまうことが問題となる。
そこで、例えば特許文献1〜3などのようにして、音声信号若しくは振動センサのセンサ出力からノイズ発生タイミングを検出し、この検出されたノイズ発生タイミングに対応した期間において、音声信号についてノイズ除去(ノイズ低減)を実行する構成が提案されている。
特開2008−52772号公報 特開2008−71374号公報 特開2008−77707号公報
上記のようにして除去対象とするノイズが時間的に断続して不規則に発生するものである場合、そのノイズの発生状況を正確に認識し、この認識結果に基づいてノイズ除去処理を実行することが、例えばリソースの有効利用、また、音響面の点などで有利となる。
本願発明は、例えばノイズ除去を行うために、第1には、除去対象であるノイズの発生状況をこれまでよりも正確に判定できるようにすることを、その課題とする。
そこで本発明は上記した課題を考慮して、ノイズ低減装置として次のように構成する。
つまり、音声信号を入力して入力音声信号を取得する音声信号入力手段と、上記入力音声信号におけるノイズ音発生期間を検出するノイズ発生期間検出手段と、上記入力音声信号から、ノイズ音発生期間において発生しているとするノイズ音を除去するノイズ除去手段と、補間信号の生成に利用されるべき利用音声信号から、ノイズ発生期間の時間幅に対応して決まる時間幅の生成元信号を取得する生成元信号取得手段と、上記音声信号入力手段により入力される入力音声信号において、上記ノイズ発生期間の近傍の入力音声信号区間のピッチを算出するピッチ算出手段と、上記生成元信号から、上記ピッチ算出手段により算出されたピッチに基づいて設定される単位周期区間ごとに分割した区間信号を設定する区間信号設定手段と、同じ単位周期区間の区間信号を連結して形成される単位補間信号部分を、時間軸上で並べていくことに基づいて、ノイズ発生期間に対応する時間幅の補間信号を生成するもので、少なくとも、上記単位補間信号部分については、時間順方向の区間信号と逆時間方向の区間信号とを交互に並べていくようにして形成する、補間信号生成手段と、上記ノイズ除去手段によりノイズが除去された上記入力音声信号と上記補間信号とを合成して出力する合成手段とを備えることとした。
上記構成では、ノイズ発生期間において入力音声信号からノイズ音を除去したうえで、このノイズ音除去により失われた音声を補間するための補間信号として、次のように生成する。
つまり、入力音声信号のピッチに対応する所定の単位周期区間ごとに、生成元信号の時間方向を反転させた区間信号を連結して単位補間信号部分を形成し、さらにこの単位補間信号部分を時系列に並べて補間信号を生成する。
このようにして生成される補間信号としては、入力音声信号のピッチに対応した周波数特性の補間信号が得られるものとされたうえで、区間信号の境界において振幅波形を接続することができ、高調波が抑制される。
このようにして、本発明は、補間信号について、高品位なものが得られることになる。そして、この補間信号によりノイズ除去後の音声信号の補間処理を行えば、補間後の音声信号としても高品位な音質が得られることになる。
本願発明を実施するための形態(実施形態)のノイズ低減装置が実行する手順の流れを示すフローチャートである。 実施形態のノイズ認識処理部(第1例)の構成例を示すブロック図である。 実施形態のFFT部が実行するとされるFFT処理例を模式的に示す図である。 実施形態のFFT部が実行するとされる、フレーム単位でのFFT処理例を模式的に示す図である。 実施形態の3次元対応パターン化部の構成例を示す図である。 実施形態のFFT部による処理結果例を3次元波形として示す図である。 実施形態のピーク検出部が実行するピーク検出処理を模式的に示す図である。 サンプリング点の時系列により表される分割周波数信号の例を示す図である。 ピーク検出された分割周波数信号を4次多項式化し、時間方向正規化、振幅方向正規化を行ったとする場合の例を示す図である。 ピーク検出された分割周波数信号を2次多項式化し、時間方向正規化、振幅方向正規化を行ったとする場合の例を示す図である。 実施形態のマッチングテーブルが示す係数パターンのマッチング範囲を模式的に示す図である。 実施形態のマッチングテーブルの内容例を示す図である。 実施形態のノイズ認識処理部(第2例)の構成例を示すブロック図である。 実施形態のノイズ低減装置(第1例)の構成例を示すブロック図である。 実施形態のノイズ低減装置(第2例)の構成例を示すブロック図である。 補間信号源発生部の構成例を示すブロック図である。 第2例のノイズ低減装置における補間信号生成処理例を模式的に示す図である。 ノイズ除去・補間が施された音声信号と、入力音声信号との切り換えのタイミングの態様例を示す図である。 ノイズ発生期間の算出処理例を模式的に示す図である。 実施形態のノイズ低減装置(第3例)の構成例を示すブロック図である。 実施形態のノイズ低減装置(第4例)の構成例を示すブロック図である。 第3例、第4例のノイズ低減装置に適用できる、ピッチ対応補間信号生成処理(第1例、第2例)のピッチ算出及び元補間信号生成の流れを模式的に示す図である。 第1例のピッチ対応補間信号生成処理を模式的に示す図である。 第2例のピッチ対応補間信号生成処理を模式的に示す図である。 第3例、第4例のノイズ低減装置に適用できるピッチ対応補間信号生成処理(第3例)のピッチ算出及び元補間信号生成の流れを模式的に示す図である。 第3例のピッチ対応補間信号生成処理を模式的に示す図である。
以下、本願発明を実施するための形態(以下、実施形態という)について、下記の順により説明する。

<1.ノイズ除去処理の全体的な流れ>
<2.ノイズ認識処理部の構成例(第1例)>
[2−1.全体構成]
[2−2.FFT処理]
[2−3.ピーク検出]
[2−4.多項式演算/正規化処理]
[2−5.ノイズ有無判定処理]
<3.ノイズ認識処理部の構成例(第2例)>
<4.ノイズ低減装置の構成例(第1例)>
[4−1.全体構成]
[4−2.ノイズ発生期間判定処理]
<5.ノイズ低減装置の構成例(第2例)>
<6.ノイズ低減装置の構成例(第3例)>
[6−1.全体構成例]
[6−2.ピッチに基づく補間信号生成処理(第1例)]
[6−3.ピッチに基づく補間信号生成処理(第2例)]
[6−4.ピッチに基づく補間信号生成処理(第3例)]
<7.ノイズ低減装置の構成例(第4例)>

なお、以降において、ノイズを対象としての除去、若しくは低減、という語句を用いるが、本願においては、ノイズを対象とする除去、低減は、同等の意味を持つものとする。ノイズの除去は、音声信号に重畳されているノイズを取り除こうとする動作、処理からみた語句といえる。このノイズ除去の結果としては、例えば厳密な意味で完全にノイズが取り除かれるのではなく、或る程度の成分が残留する場合がある。ノイズ低減は、このようにしてノイズ除去処理の結果からみた語句といえる。
<1.ノイズ除去処理の全体的な流れ>

図1のフローチャートは、本実施形態としてのノイズ低減処理装置に適用できる、ノイズ低減のための処理の全体的な手順例を示している。
なお、前提として、本実施形態のノイズ低減装置は、音声に重畳されるノイズとして、時間的に断続して不規則に発生するノイズを除去対象とする。このような時間的に断続して不規則に発生するノイズは、例えば電子機器がディスクドライブ装置を内蔵する記録再生装置などである場合には、この内蔵のディスクドライブ装置のヘッドシーク音やリトラクト音などが発生源となり得る。またビデオカメラ装置、デジタルスチルカメラなどの撮像部を備える場合には、レンズ機構におけるレンズ駆動音、また、ユーザ操作などによるクリック音、タッチ音などが発生源となる。
図1においては、先ず、ステップS101は、除去対象とするノイズが合成されている可能性のある音声信号を入力する。このステップS101により入力する音声信号源は、例えば、後述するようにしてマイクロフォンにより収音して得られる音などとなる。
ステップS102は、上記ステップS101により入力した音声信号から、ノイズに相当する音成分についての特徴量(ノイズ特徴量)を抽出する。このときには、ステップS104に対応したノイズ定義に基づいて、音声信号から特定の特徴量を抽出する。
ステップS103においては、上記ステップS102により抽出したノイズ特徴量の情報と、ステップS104により入力したノイズ定義の情報とを比較する。ノイズ定義の情報は、予め想定したノイズ発生源が発するとするノイズの音などから得たノイズ特徴量のデータから成る。
ステップS104での比較結果として、ノイズ定義の情報とノイズ特徴量の情報とについて、一定以上の近似率があると判定されたときには、ノイズ有りと判定する。これに対して上記近似率が一定以下であると判定されたときにはノイズ無しと判定する。
ステップS104にてノイズ無しとの判定結果が得られた場合には、ノイズ除去処理を行うことなく、ステップS107により入力した音声信号の出力を行う。
これに対して、ノイズ有りとの判定結果が得られた場合には、ステップS105,S106の処理を実行する。
ステップS105は、ノイズ発生期間を検出するものとしている。つまり、ステップS104まではノイズの有無について検出したのであるが、ステップS105では、検出されたノイズについて、その発生期間(発生タイミング)を検出する。
ステップS106は、上記ステップS105により検出されたノイズ発生期間に対応して、ステップS101により入力した音声信号からノイズを除去するための処理を実行する。
また、ノイズ除去処理によりノイズとしての音成分が除去される結果、元の入力音声信号のノイズ除去対象区間においては、その除去されたノイズ音声に応じた音声情報の欠落が生じる。そこで、この場合には、この音声情報の欠落を補うために、音声信号成分を補間する処理を実行する。そして、ステップS107により、ノイズ除去及び補間の補間が施された音声信号を出力する。
<2.ノイズ認識処理部の構成例(第1例)>
[2−1.全体構成]

上記図1におけるステップS101〜S105までの処理は、本実施形態のノイズ低減装置におけるノイズ認識処理部1が実行すべき処理を一般化したものとしてみることができる。
図2により、図1におけるステップS101〜S105に対応する処理、つまり、ノイズ認識処理部1について、本実施形態に対応してより具体化させた第1例としての構成例の全体を示す。
図2に示すノイズ低減処理部1は、フレーム化部11、FFT部12、三次元対応パターン化部13、ノイズ判定部14、マッチングテーブル15から成るものとしている。
フレーム化部11は、図1のステップS101に対応して音声信号を入力する。ステップS102のノイズ特徴量抽出の処理は、フレーム化部11、FFT部12、三次元対応パターン化部13の処理が対応する。
[2−2.FFT処理]

本実施形態では、入力された時間軸による音声信号を、例えばFFT(Fast Fourier Transform:高速フーリエ変換)により周波数領域の信号(周波数信号)に変換するものとする。
フレーム化部11は、FFTの前処理として、入力音声信号について、FFTの処理単位であるフレーム単位とする処理を実行する。
フレーム化部11が入力する入力音声信号は、所定のサンプリング周波数fsと量子化ビット数による時間領域の実数データ(時間領域データ)である。一具体例として、入力音声信号のサンプリング周波数fs=44.1kHzであるとして、フレーム化部11は、図3(a)に示すように、所定の時間幅に対応する1024のデータ数により1フレームを形成するものとする。
FFT部12は、上記1フレームのデータごとにFFTの処理を実行することで、図3(b)(c)に示すようにして、実数データReと虚数データImとによる周波数領域データ(周波数信号)に変換する。このようにして、周波数領域データが複素数データとなることで、周知のようにして、周波数領域における位相を含めた波の表現が可能になる。
図3(a)のように、1フレームのデータ数が1024、サンプリング周波数fs=44.1kHzである場合、実数データReと虚数データImは、それぞれ図3(b)(c)に示すようにして、ナイキスト周波数22.05kHz(44.1kHz/2)、データ数512となる。このとき実数データRe、虚数データImそれぞれの周波数分解能は、約43Hz(22.05kHz/512:ナイキスト周波数/データ数)となる。つまり、この場合のFFT処理によっては、0〜22.05kHzの周波数帯域範囲について43Hzごとに512分割して得られる周波数(以降、これを分割周波数ともいう)ごとのデータにより周波数信号が得られることになる。
また、FFT部12が出力する周波数信号のデータは、例えば下記の絶対値振幅Vaとして求めることができる。

Figure 2010249940

なお、上記(数1)による絶対値振幅Vaは、例えば図3との対応では、実数データReと虚数データImをそれぞれ形成する512のデータのうち、同じ分割周波数のデータReを利用して求めるものとなる。また、絶対値振幅Vaは、1フレームにつき、分割周波数ごとに対応して512個が得られることになる。
本実施形態では、FFT部12の後段の三次元対応パターン化部13は、上記絶対値振幅Vaを入力して処理を実行するものとする。
また、本実施形態のフレーム化部11は、図4に示すようにして、入力音声信号の時間(T軸)に沿って前後となるフレームについて、オーバーラップ区間が得られるようにして、入力音声信号のフレーム化を実行する。FFT部12は、このようにして得られるフレームごとにFFTを行って周波数信号に変換する。
ここで、上記のようにして前後のフレーム間でオーバーラップ区間を設けることとしているのは、下記のような理由による。
FFT処理は、フレームにおける複数データを利用して行われる。このために、フレームの開始/終了位置近傍でのFFT処理は、本来は、1つのフレームの開始位置より前若しくは終了位置より後ろのデータを利用しなければならないのに、これを利用することができないために、FFT処理後のデータとしては正確な値を得ることが難しい。
そこで上記のオーバーラップ区間を設けることとすれば、1つのフレームにおける開始/終了位置近傍のFFT処理は、これとオーバーラップする他のフレームにおいて、必要なデータを全て利用して適正に実行されていることになる。これにより、FFT処理についての時間分解能を高めて、FFT処理の演算結果をより正確にすることが可能になる。
なお、このオーバーラップ区間についてのオーバーラップ率、即ち、1フレーム分の時間に対する、前後のフレームをオーバーラップさせる時間の割合については、0%〜100%未満の間で、FFT処理の周波数分解能と時間分解能とのバランスなどを考慮して適宜設定されるべきものとなる。
[2−3.ピーク検出]

FFT部12により得られた周波数信号は、図2の三次元対応パターン化部13に対して出力される。
三次元対応パターン化部13は、FFT部12により得られた周波数信号に基づいて、以降説明するようにして、音声信号のノイズ成分ごとに多項式化を行い、その多項式の係数パターンを得る。即ち、ノイズのパターン認識(パターン化)を行う。また、このノイズパターン認識がステップS102によるノイズ特徴量の抽出に相当する
三次元対応パターン化部13の構成例を図5に示す。
この図に示す三次元対応パターン化部13は、ピーク検出部21と、n個の多項式演算正規化部22−1〜22−nとから成るものとしている。
ピーク検出部21には、FFT部12から出力される周波数信号が入力される。
先に述べたように、FFT部12からの周波数信号は、図3(b)(c)に示す実数データReと虚数データImから成る。例えばさらには、実数データReと虚数データImが有するデータ数ごと、即ち図3の例では約43Hzの周波数分解能を有するとされる1〜512の帯域(分割周波数)ごとに、(数1)に示される演算により求められる512個の絶対値振幅Va(1)〜Va(512)として得ることができる。
FFT部12による処理結果の例は、図6の3次元波形のようにして表すことができる。これは、FFT部12により得られる周波数信号として、フレームごとに得られる512個の絶対値振幅Va(1)〜Va(512)を、時系列に従って集めたものにより形成できる。
この三次元波形では、平面方向において互いに直交するようにして周波数軸(F軸)と時間軸(T軸)をとっており、垂直方向においてA軸として絶対値振幅値を取ることとしている。ここでは、この三次元波形図において実線により囲った領域部分Anにおいて、ほぼ同じ時間において、異なる周波数帯域で3つのピークが得られている状態が示されている。これらのピークに対応して周囲よりも突出した波形の部分は、実際には、ノイズが発生していることに対応する。つまり、領域部分Anは、ノイズが発生しているとされる時間−周波数領域(ノイズ発生領域)を示している。
図5のピーク検出部21は、例えば上記図6のノイズ発生領域(An)において示されているような3次元波形上でのピークを検出する。
このために、ピーク検出部21は、入力される周波数信号のデータ(分割周波数ごとの絶対値振幅データ)を利用してデータマッピングを行って、図7に示すマップデータを得る。このマップデータは、図6に例示するような三次元波形を表現するものとなる。
図7のマップデータは、横軸に時間をとり、縦軸に周波数をとっている。ここでは、マップデータの一部として、時間T1,T2,T3,T4,T5・・・・と、周波数F1,F2,F3,F4,F5・・・・のマトリクスとなっている部分を示している。ここでの周波数F1,F2,F3,F4,F5・・・・のそれぞれは、実数データReと虚数データImを成す512のデータごとに対応する、個々の分割された周波数に相当する。また、時間T1,T2,T3,T4,T5・・・・は、それぞれ、1つのフレームが得られる時間に相当する。
ピーク検出部21は、図7との対応としては、まず、1つのフレームに対応して時間T1に得られる周波数信号から、周波数(分割周波数)F1,F2,F3,F4,F5・・・・に対応する絶対値振幅1,17,33,83,90・・・をマッピングする。以降、順次、時間T2,T3,T4,T5・・・・に対応するものとして入力されるフレーム単位の周波数信号から、それぞれ、周波数F1,F2,F3,F4,F5・・・・に対応する絶対値振幅をマッピングするものである。
ピーク検出部21は、上記のようにしてマップデータを作成すると、このマップデータ上の振幅値分布から1以上の絶対値振幅Vaのピークを検出する。ここでのマップデータを用いたピーク検出の手法・アルゴリズム例としては、先ず、3×3によるマトリクスのマス(サンプリング点)の集合をピーク検出範囲としている。
次に、このピーク検出範囲において、破線の矢印により示すように、同一時間方向と同一周波数方向にピークの探査を行い、この探査結果として時間方向と周波数方向とで同じサンプリング点でピークが得られた場合に、そのサンプリング点が対応する時間-周波数座標を第1暫定ピーク点とする。
さらに、同じピーク検出範囲において、一点鎖線により示すようにして、周波数と時間をまたぐようにして、上記時間方向/周波数方向に対して直交する2方向によりピークの探査を行い、この探査結果として時間方向と周波数方向とで同じサンプリング点でピークが得られた場合に、そのサンプリング点が対応する時間-周波数座標を第2暫定ピーク点とする。
そして、第1暫定ピーク点と第2暫定ピーク点が同じサンプリング点である場合に、そのサンプリング点の時間−周波数座標を真のピーク点として検出したものとする。
図7の例では、上記のピーク検出アルゴリズムによりマップデータ上で検出されたピークとしては、絶対値振幅141のサンプリング点に対応する座標(T2,F4)、及び絶対値振幅166のサンプリング点に対応する座標(T4,F2)となる。
このようにして、本実施形態では、分割周波数信号におけるピークを検出するのにあたり、対応する分割周波数における時系列の変化のみではなく、周波数方向における振幅変化も加味することとしている。つまり、周波数軸と時間軸による二次元での絶対値振幅の分布に基づいてピークを検出するものであり、これによって、さらに正確にピークが検出できるようにしている。
なお、ここでのピーク検出の手法は、あくまでも一例である。実際においては、ピーク検出範囲を形成するサンプリング点数は、上記よりも拡大されてよい。また、ピーク検出のために探査する軸についても、上記の手法例に挙げた4方向のうちから少なくとも1つを選ぶこととしてよい。
[2−4.多項式演算/正規化処理]

ここで、図8(a)(b)は、それぞれ、FFT部12から出力される周波数信号に基づいて得られる、時系列の帯域信号(分割周波数信号)を、或る特定の周波数Fa,Fbにおける時間経過に応じた絶対値振幅の変化により示している。ここでは、横軸が時間(T軸)とされ、縦軸が絶対値振幅(A軸)とされている。
本実施形態において扱う音声信号はデジタルデータであり、従って、時間的に離散してサンプリングされる。例として、図8(a)の周波数Faの帯域信号においては、時間T1,T2,T3,T4,T5,T6,T7ごとのサンプリング点の絶対値振幅は、それぞれ、A1a,A2a,A3a,A4a,A5a,A6a,A7aとしてその値が示されている。また、図8(b)の周波数Fbの信号においては、時間T1,T2,T3,T4,T5,T6,T7ごとのサンプリング点の絶対値振幅は、それぞれ、A1b,A2b,A3b,A4b,A5b,A6b,A7bとしてその値が示されている。
ここで、上記のようにして絶対値振幅が離散的にサンプルされるということは、サンプルされた絶対値振幅におけるピークは、必ずしも真の帯域信号のピークを示すものではない、ということを意味する。
例えば、図8(a)に示されるサンプリング点ごとの絶対値振幅のピークは、時間T4におけるA4aとなる。しかし、時間T1〜T7の絶対値振幅A1a〜A7aを仮想的に曲線(図において破線で示す)で結ぶことで推定される真のピークは、時間T4よりも前のタイミングで現れている。
同じく、図8(b)においてサンプルされた絶対値振幅のピークは、時間T5におけるA5bであるが、時間T1〜T7の絶対値振幅A1b〜A7bを仮想的に曲線(図において破線で示す)で結ぶことで推定される真のピークは、時間T5よりも前のタイミングで現れている。
サンプルされた絶対値振幅からできるだけ真のピーク値に近似した値を求めようとすれば、例えば1つには、時間分解能を高くすればよい。つまり、サンプリング周波数を高くしていけばよい。しかし、時間分解能と周波数分解能は、トレードオフの関係にあるために、時間分解能をむやみに高くすることも好ましくない。この点を補って時間分解能を高くするために、例えば、先に図4に示したようにフレーム単位のFFT処理にオーバーラップ区間を設けている。しかし、オーバーラップ率を高くしていくと処理量が非常に多くなってしまう。従って、実質、サンプリング点は、相応の時間間隔で離散せざるを得ない。
また、図8(a)(b)においてそれぞれ破線で示すサンプリング点の包絡線を見ても分かるように、検出されたピークに応じて得られる帯域信号の波形は、その都度異なり得る。このことは、ピーク検出部21により検出されたピークに応じて得られる波形は、ノイズの波形パターンを持っている可能性もあれば、ノイズ以外の必要音の波形パターンを持っている可能性もある、ということを意味している。
従って、ピーク検出部21によりサンプリング点のピークが検出されることに応じては、そのピークに応じた帯域信号について、高い精度で真のピーク位置が推定された波形に対応するパターンの情報を得るようにしたうえで、用意されたノイズのパターンと比較してやる必要があることになる。
3次元対応パターン化部13における多項式演算/正規化部22−1〜22−nは、検出されたピークに応じたパターンを得るため、次に説明する処理を実行する。
3次元対応パターン化部13において、ピーク検出部21からは、検出したピーク1〜nごとに、ピーク検出信号1〜nを出力する。
図7との対応であれば、ピーク検出部21は、先ず、時間T2にて周波数F4のピーク1を検出し、これに対応するピーク検出信号1を出力する。次に時間T4にて周波数F2のピーク2を検出し、これに対応するピーク検出信号2を出力する。
また、ピーク検出信号としては、ピークとして検出されたサンプル位置の絶対値振幅点を基準サンプリング点として、先ず、この基準サンプリング点の絶対値振幅と、これと同じ周波数のサンプリング点のうちで、基準サンプリング点に対して時間軸上で直前となるN個のサンプリング点の絶対値振幅と、直後となるN個のサンプリング点の絶対値振幅とを出力するものとする。
ここで、上記の基準サンプリング点の前後のサンプリング点の数Nとしては、次に説明するようにして多項式演算/正規化部22(22−1〜22−n)が演算して求める多項式の次数設定に応じて決まるものとなる。
多項式演算/正規化部22は、先ず、上記のようにしてピーク検出信号として入力される、1つの特定周波数に対応した基準サンプリング点(絶対値振幅の値を持つ)及びこれに対して時間的に前後するN個のサンプリング点(以降、基準サンプリング点と、前後の各N個のサンプリング点については、演算用サンプリング点という)を通る曲線、若しくは、サンプリング点に近似する曲線の多項式を求める。なお、ここでいうサンプリング点とは、対応するサンプル時間と絶対値振幅とを、それぞれx座標、y座標として表現されるものとする。
このようにして求められる多項式は、ピークが検出された帯域信号の波形を表現している。
上記のようにして、複数のサンプリング点、即ち、座標を補間して曲線の多項式を求める手法としては、ラグランジェ補間法、スプライン補間法、最小2乗近似法などをはじめ、多様に知られている。本実施形態としては、これらの手法のうちの何れを採用してもよいが、以降の説明においては、ラグランジェ補間法を採用した場合を例に挙げる。
ラグランジェ補間法について簡単に説明しておく。
ここで、n+1個の離散サンプリング点x0、x1、x2、……、xn(ただし、x0<x1<x2<……<xn)におけるデータ、y0、y1、y2、……、ynがあるとする。これらの点、(x0,y0)、(x1,y1)、(x2,y2)、……、(xn,yn)を通るラグランジェ補間曲線としての関数F(x)は、n次の多項式となるものであり、下記の(数2)により求めることができる。

Figure 2010249940
ピーク検出信号に基づいて、そのピークが検出された帯域信号を4次多項式により表現した場合の例を、図9(a)に示す。
4次多項式の場合には、5個(=n+1)のサンプリング点が必要であることになる。従って,この場合のピーク検出信号としては、基準サンプリング点と、この基準サンプリング点と同じ周波数で、時間的に前後する各2個のサンプリング点とを多項式演算/正規化部22に出力することになる。
図9(a)においては、5つのサンプリング点として、5つの座標(0.0 , 7.0),(-1.0 , 6.0),(-2.0 , 1.0),(1.0 , 3.0),(2.0 , 1.0)が示されている。
これらの座標のうち、座標(0.0 , 7.0)が基準サンプリング点であり、座標(-1.0 , 6.0),(-2.0 , 1.0)が、基準サンプリング点の直前の2つのサンプリング点であり、座標(1.0 , 3.0),(2.0 , 1.0)が、基準サンプリング点の直後の2つのサンプリング点である。
多項式演算/正規化部22は、これらのサンプリング点を通過する4次多項式を求めることになる。この4次多項式は、図にも示しているが、下記の(式1)に表されるものとなる。
F(x) = 0.3 x^4 + 0.5 x^3 - 2.8 x^2 - 2.0 x + 7.0・・・(式1)

図9(a)に示される曲線が、上記(式1)により表されるものとなる。
図9(a)の曲線から分かるように、(式1)による4次多項式の極大値(極値)と、基準サンプリング点のy座標値とは異なっている。つまり、本実施形態では、多項式化することにより、帯域信号(分割周波数信号)について、より真に近い波形を求めることができる。これにより、例えば帯域信号のピークレベル及びピーク時間についても、より正確に求めることができる。
なお、上記のようにして多項式化する処理は、周波数軸と振幅軸とによる2次元の表現を持つ周波数信号について、さらに、時間軸(図9,図10のx軸)を加えて3次元化する処理とみることができる。
次に、多項式演算/正規化部22は、上記(式1)として求めた4次多項式について、正規化を行う。この正規化は、以降の説明から理解できるように、奇数次項の係数を0、若しくは0とみなしてよい程度の値にまで近似させるための処理であり、ノイズ判定のためのマッチングテーブル15との比較処理を簡易なものとすることが可能になる。
多項式演算/正規化部22は、正規化として、先ず、図9(a)から図9(b)に示すようにして、はじめに求めた4次多項式による極大値のx座標について、これが0となるようにして、4次多項式の変換を行う。つまり、x座標、即ち時間方向の正規化を実行する。
図9(b)に示される曲線を表す4次多項式、即ち、時間方向の正規化により得られた4次多項式は、下記の(式2)により表される。

F(x) = 0.3 x^4 + 0.1 x^3 - 3.1 x^2 + 7.3・・・(式2)

上記(式2)と(式1)とを比較しても分かるように、x^3による奇数次項の係数については、0.1、即ち0としてみなしてよい値に変換されている。また、xによる奇数次項の係数については0となっている。
上記した時間方向の正規化は、本実施形態において除去対象とする、「時間的に断続して不規則に発生するノイズ」が、性質として、一定時間内において比較的急峻な立ち上がりと立ち下がりを持つことに基づいて行っている。つまり、このような性質のノイズは、波形としてはピーク点を基準にして左右対称性が強い。従って、偶関数の曲線となる傾向が強い。そこで、図9(b)のようにして時間軸方向での正規化を行えば、奇数次項の係数は0若しくは0相当になる。これにより、後述する係数パターンについてのぶれが抑えられ、また、後述するようにして、マッチングテーブル15が用意すべきマッチング範囲の係数パターンも制限して、小さな容量とすることが可能になる。
また、本実施形態の多項式演算/正規化部22は、さらに、図9(b)から図9(c)への遷移として示すように、振幅方向の正規化も実行する。つまり、図9(b)に示される極大値の座標は(0.0 , 7.3)である。このy座標値7.3は、切片を表しているが、この段階では切片の値が整数値とはなっていない。そこで、多項式演算/正規化部22は、この切片が整数値となるようにして正規化を行う。ここでは、例えば、正規化前の切片座標の値に最も近い整数値となるようにして正規化するものとする。
これにより、4次多項式としては、下記(式3)により表されるものとなり、その曲線は、図9(c)に示すようにして、極大値の座標が(0.0 , 7.0)となる。

F(x) = 0.3 x^4 + 0.1 x^3 - 3.1 x^2 + 7.0・・・(式3)

このようにして切片を整数化すれば、係数パターンにおける切片の値については整数値のみを用意すればよいことになり、上記の係数パターンの単純化がより促進される。
また、図10により、図9と同じピークを検出した帯域信号を対象として2次多項式化する場合について説明する。
2次多項式(n=2)の場合、多項式演算/正規化部22は、基準サンプリング点と、これに対して時間的に前後する各1つのサンプリング点との、計3個(=n+1)のサンプリング点を、ピーク検出信号として取り込む。すると、図9と同じ帯域信号の場合には、図10(a)に示すようにして、ピーク検出信号として、(0.0 , 7.0),(-1.0 , 6.0),(1.0 , 3.0)の3つのサンプリング点を得ることになる。
これらのサンプリング点を用いてラグランジェ補間法によって求めた2次多項式は、下記の(式4)により表されるものとなり、また、その曲線は、図10(a)に示されるものとなる。

F(x) = -2.5 x^2 - 1.5 x + 7.0・・・(式4)
次に、上記(式4)について時間軸方向の正規化を行って得られる2次多項式は、下記の(式5)により表されるものとなる。また、時間軸方向の正規化により得られる2次多項式の曲線は図10(b)に示される。

F(x) = -2.5 x^2 + 7.2・・・(式5)

上記(式5)からも分かるように、時間軸方向の正規化により、奇数次項であるxの係数は0となっている。
また、さらに上記(式5)について振幅方向の正規化、即ち切片の整数値化を行って得られる2次多項式は、下記の(式6)により表され、その曲線は、図10(c)に示される。

F(x) = -2.5 x^2 + 7.0・・・(式6)
なお、ここでは、多項式演算/正規化部22が採用する多項式として、4次多項式若しくは2次多項式を例に挙げたが、本実施形態としては、例えば6次多項式であるとか、2次若しくは4次以外の多項式を採用してもかまわない。
また、上記の説明では、正規化処理として、先ず、時間方向の正規化を行い、この後に振幅方向の正規化を行うものとして説明している。実際においては、例えば、最終的に時間方向及び振幅方向が適正に正規化されるようにして収束すればよく、収束が完了するまでの過程においては、時間方向の正規化と振幅方向の正規化とが、交互に調整されながら実行されていくようなアルゴリズムとされてもよい。
そして、ピークが検出された帯域信号の多項式化と正規化とが完了したとされると、多項式演算/正規化部22は、正規化された多項式の係数を示すデータを出力する。
つまり、4次多項式であれば、その一般式は、
F(x) = ax^4 + bx^3 + cx^2 + dx + e
として表すことができる。そこで、多項式演算/正規化部22は、正規化された4次多項式の係数[a,b,c,d,e]の組み合わせを示すデータを出力する。なお、ここでは、切片(e)は、x^0の係数として扱うこととしている。
また、2次多項式であれば、その一般式は、
F(x) =ax^2 + bx+ c
として表すことができる。そこで、多項式演算/正規化部22は、正規化された2次多項式の係数[a,b,c]の組み合わせを示すデータを出力する。
多項式演算/正規化部22−1〜22−nのそれぞれは、上記のようにして、対応する帯域信号についての、係数の組み合わせを示すデータ(ピーク1係数データ〜ピークn係数データ)を出力する。これらピーク1係数データ〜ピークn係数データが、3次元対応パターン化部13の出力となる。即ち、ピークが検出された帯域信号、即ちノイズであると推定される帯域信号をパターン化したデータとなる。なお、図2,及び図5に示すように、これらのピーク1係数データ〜ピークn係数データとしてのパターン化データについては、ラグランジェ補間法により求められた関数F(x)の係数であることに基づく、便宜上、F(x)と記載している。
[2−5.ノイズ有無判定処理]

3次元対応パターン化部13から出力されるパターン化データF(x)は、図2に示すように、ノイズ判定部14に入力される。
ノイズ判定部14は、上記パターン化データF(x)と、マッチングテーブル15にて保持されている参照パターンデータP(x)とを比較し、その比較結果に基づいて、分割周波数ごとにノイズの有無を判定する。
ここで、参照パターンデータP(x)について説明する。
先ず、本実施形態のノイズ低減装置が除去対象とするノイズ音を想定することとし、このノイズ音(想定ノイズ音)について、先に述べた多項式演算及び正規化処理を行って、正規化された多項式を求めることとする。ここでは、2次多項式(正規化2次多項式)を求めるものとする。
図11は、上記のようにして求めた想定ノイズ音の正規化2次多項式の係数a,b,cが取り得る数値範囲と周波数との関係を模式的に示している。
この図おいては、縦軸に多項式の係数値を取り、横軸に周波数をとっている。この図に示されるように、想定ノイズ音の正規化2次多項式が取り得る係数の数値範囲は、周波数に応じて定まることが分かる。
本実施形態では、このようにして求められる想定ノイズ音の正規化多項式の係数パターンの範囲を、マッチング範囲とする。なお、図11においては、マッチング範囲として、係数a、係数b、及び係数aと係数cについての係数比-c/aを定義している。
例えばマッチング範囲として、上記係数比-c/aに代えて、通常に係数cを定義してもよい。しかし、本実施形態の正規化多項式に関しては、係数aが大きいときには、係数c(切片)も大きくなる傾向にある。そこで、係数cに代えて、例えば上記の係数比-c/aを定義することとしている。これにより、単純に係数cをマッチング範囲として定義する場合よりも係数変化を平準化される。この結果、マッチング範囲のぶれが抑制されてマッチング範囲を狭くすることができ、より正確なノイズ判定結果が期待できる。
参照パターンデータP(x)を保持するマッチングテーブル15は、上記図11に示した係数a,b,係数比-c/aによる係数パターンについてのマッチング範囲を示すテーブル形式のデータ(マッチングデータ)となる。そこで、マッチングテーブル15の具体的内容例を図12に示す。なお、このマッチングテーブルに格納されるデータは、例えば実際には、メモリなどに保持されている。
図12に示すマッチングテーブル15は、FFT処理後のデータとして、図3(b)(c)に示すデータが得られる場合のものとする。また、ここでは便宜上、FFT後の信号の周波数帯域(ナイキスト周波数)は22.1kHzとする。
この図に示すマッチングテーブル15は、先ず、FFT後のデータ位置1〜512について、所定範囲ごとに分割することとしており、ここでは、データ位置1〜8、データ位置9〜40、データ位置41〜53、データ位置54〜512の範囲で分割している。これは、FFT後のデータ(周波数信号)の周波数帯域である22.1kHz(原信号のナイキスト周波数)を、4つの帯域範囲(分割帯域範囲)により分割していることを意味する。換言すれば、データ位置1〜512に対応する512の分割周波数を、上記分割帯域範囲ごとに4つのグループに区分している。
分割された各分割帯域範囲に対応する実周波数の範囲は、図示するようにして、データ位置1〜8が43.1kHz〜344.5Hz、データ位置9〜40が387.6Hz〜1.72kHz、データ位置41〜53が1.77kHz〜2.28kHz、データ位置54〜512が2.33kHz〜22.1kHzとなる。
そして、データ位置1〜8、データ位置9〜40、データ位置41〜53のそれぞれに対応する3つの分割帯域範囲43.1kHz〜344.5Hz、387.6Hz〜1.72kHz、1.77kHz〜2.28kHzに対応しては、係数a,b,及び係数比-c/aごとにマッチング範囲の上限値、下限値が示されている。
また、データ位置54〜512に対応する最も高い分割帯域範囲2.33kHz〜22.1kHzについては、有効なマッチング範囲の上限値、下限値は格納されていない。これは、この場合に想定しているノイズ音は、約2.3kHzより高い周波数帯域では発生しないことによる。換言すれば,ここで想定しているノイズ音は、約2.3kHz(2.28kHz)以下の周波数帯域で発生するものとしている。
この場合、実際にマッチングテーブル15として持つべきデータは、データ位置1〜8(分割帯域範囲43.1kHz〜344.5Hz)、データ位置9〜40(分割帯域周波数387.6Hz〜1.72kHz)、データ位置41〜53(分割帯域周波数1.77kHz〜2.28kHz)までに対応するマッチング範囲(上限値、下限値)のデータでよいことになる。このようにして、マッチングテーブル15としては、必ずしも、FFT後のデータに対応する全ての分割周波数に応じたマッチング範囲のデータを持つ必要はなく、ノイズ音が発生する周波数帯域範囲の分割周波数のみに対応したマッチング範囲のデータを持てばよい。これにより、マッチングテーブル15として実際に必要なデータサイズを小さくできる。
なお、先にも述べたように、マッチングテーブル15としては、係数比-c/aに代えて単純に係数cのマッチング範囲を持つこととしてもよい。図12においては、破線で括って示す枠内において、係数cについてのマッチング範囲の上限値/下限値を示している。
マッチングテーブル15が上記図12に示す構造である場合に対応した、ノイズ判定部14によるノイズ判定処理は、例えば下記のようになる。
ノイズ判定部14は、先ず、3次元対応パターン化部13からパターン化データF(x)として、ピークが検出された帯域信号ごとに対応するピーク1係数データ〜ピークn係数データを入力する。また、マッチングテーブル15から、ピーク1係数データ〜ピークn係数データのそれぞれ対応する分割周波数(データ位置)に対応付けられている、係数a,b及び係数比-c/a(又は係数c)のマッチング範囲(上限値/下限値)のデータを、参照パターンデータP(x)として入力する。
次にノイズ判定部14は、比較処理として、ピーク1係数データが示す係数a,b、係数比-c/aについて、それぞれ、同じ分割周波数(データ位置)に対応付けられている係数a,b、係数比-c/aのマッチング範囲に含まれるものであるか否かを判定する。
ここで、ピーク1係数データが示す係数a,b、係数比-c/aの全てがマッチング範囲に含まれていれば、ピーク1係数データの元となった帯域信号はノイズ音である判定する。つまり、ノイズ有りとの判定結果を得る。これに対して、ピーク1係数データが示す係数a,b、係数比-c/aのうち、1つでもマッチング範囲に含まれていないのであれば、ノイズ無しとの判定結果を得る。
他のピーク2係数データ〜ピークn係数データのそれぞれについても、上記と同様にして、各係数データが示す係数a,b、係数比-c/aの全てがマッチング範囲に含まれているか否かに基づき、対応する分割周波数についてノイズの有り/無しを判定する。
このようにして、本実施形態では、分割周波数ごとにノイズの有無が判定される。
なお、上記のノイズ有無の判定アルゴリムとしては、他にも考えられる。例えば、係数データが示す係数の全てではなく、少なくとも一定数以上がマッチング範囲に含まれていれば、ノイズ有りと判定するアルゴリズムを考えることができる。また、係数データが示す係数値について、マッチング範囲における基準値に対する距離に応じた評価値を求め、この評価値に基づいてノイズの有無を判定するアルゴリズムとすることも考えられる。
なお、先に説明した3次元対応パターン化部13は、先ずピーク検出部21により分割周波数ごとの帯域信号についてピーク検出を行った上で、ピークが検出された帯域信号についてのみ、多項式演算/正規化処理を実行するものとしている。
本実施形態としては、上記のピーク検出部21を省略してピーク検出は行わない構成を採ることも可能である。この場合には、多項式演算/正規化部22−1〜22−nは、分割周波数ごとに対応して設けられる。図3との対応であれば、データ数、即ち分割周波数の分割数は512であるから、これに対応して512個の多項式演算/正規化部22−1〜22−512を設けることになる。ただし、図12にも例示したように、ノイズ音の周波数特性が、FFT後に得られる全周波数帯域の一部帯域に限定される場合には、ノイズ音に対応する周波数帯域に含まれる分割周波数ごとに対応させた多項式演算/正規化部22を設ければよい。
この場合の多項式演算/正規化部22−1〜22−nは、入力される帯域信号のサンプルごとに定常的に多項式演算と正規化処理を実行していき、順次、係数データを出力する。このようにして出力される係数データは、そのときの帯域信号がノイズであれば、マッチングテーブル15が持つマッチング範囲に含まれることになり、ノイズでなければマッチング範囲から外れるものとなる。
そこで、ノイズ判定部14は、定常的に3次元対応パターン化部13からパターン化データF(x)として出力される、分割周波数(帯域信号)ごとの係数データと、マッチングテーブル15から読み出した参照パターンデータP(x)、即ち、上記分割周波数ごとの各係数のマッチング範囲とを比較する。そして、この比較結果として、例えば上記係数データが示す各係数値がマッチング範囲に含まれているのであれば、その帯域信号についてノイズ有りと判定し、含まれていないのであればノイズ無しと判定する。
ただし、上記のようにしてピーク検出部21によるピーク検出を省略した構成の場合には、多項式演算/正規化部22−1〜22−nは定常的に多項式演算と正規化処理を実行する必要があり、ノイズ判定部14も定常的にノイズ有無についての判定処理を実行する必要がある。従って,処理としては相応に重くなってしまう。
そこで、本実施形態としては、先に述べたようにしてピーク検出を行うこととしている。本実施形態において除去対象とする「時間的に断続して不規則に発生するノイズ」は、先にも述べたようにして、比較的急峻に立ち上がる特性を有しているので、ノイズが発生するときには相応に顕著なピークが得られることになる。これは、ピークが検出されない状態は、ノイズは発生していないとみてよいことを意味する。そこで、ピークが検出された場合にのみ、多項式演算/正規化処理、及びノイズ有無の判定処理を行うこととしても、発生したノイズの検出を逃すことはない。そして、定常的に多項式演算/正規化処理、及びノイズ有無の判定処理を行う必要はないために、処理はそれだけ軽いものとなり、例えば処理に必要なリソースも節約できる。
このようにして本実施形態のノイズ判定部14は、ノイズの有無を判定することができる。そして、ノイズ判定部14は、ノイズ有無の判定結果の情報とともに、必要に応じて、ノイズ有無の判定結果を求める過程において取得した演算結果などを、ノイズ認識情報として出力することができる。
<3.ノイズ認識処理部の構成例(第2例)>

図13は、ノイズ認識処理部としての他の構成例(第2例)を示している。この図において、図2と同一部分には同一符号を付して説明を省略する。
この図に示されるノイズ認識処理部1Aにおいては、図2に示した構成に対して、2次元対応パターン化部16、パターンマッチング部17、及びノイズパターン記憶部18が追加される。
2次元対応パターン化部16は、FFT部12のFFT処理後のデータ(図3(b)(c))を取り込み、周波数信号F(n)として保持する。ここでは、周波数軸(F軸)と振幅(A軸)との二次元により表現される周波数信号F(n)を保持して得ることを、音声信号のパターン化としてみている。
ノイズパターン記憶部18は、ノイズパターンP(n)を保持するメモリである。このノイズパターンP(n)のデータは、想定ノイズ音の周波数分布をモデル化して得ることができる。
パターンマッチング部17は、パターンマッチング処理として、上記周波数信号F(n)と、ノイズパターンP(n)との相関度Efを求める。
上記相関度Efは、例えば下記の演算により求めることができる。

Figure 2010249940

上記(数3)において、Nは、1フレーム内のFFTポイント(サンプルポイント)数である。即ち、n=1〜Nまでのサンプルポイントについてのノイズパターンと音声信号との間での相関が高いほど、相関度Efは1に近づいていく。つまり、相関度Efが1に近いほど、ノイズであることの可能性は高くなる。
図13の構成では、上記相関度Efの値を、ノイズ判定部14が取り込むこととしている。
基本的には、先の説明と同様にして、帯域信号ごとの係数パターンと、マッチングテーブル15のマッチング範囲とを比較してノイズの有無についての判定を行う。但し、図13においては、上記マッチングテーブル15を利用した判定結果に加えて、上記相関度Efについて予め定めた閾値異常であるか否かを判定要素として加える。つまり、1つの帯域信号に対応するノイズ判定として、その帯域信号の係数パターンが、マッチングテーブル15のマッチング範囲に含まれており、かつ、相関度Efが閾値以上である周波数領域である場合に、ノイズ有りと判定する。帯域信号の係数パターンが、マッチングテーブル15のマッチング範囲に含まれていても、相関度Efが閾値未満の周波数領域である場合には、ノイズ無しと判定する。
ことで、ノイズ有無の判定結果をさらに正確なものとすることができる。
<4.ノイズ低減装置の構成例(第1例)>
[4−1.全体構成]

上記第1例としてのノイズ認識処理部1、若しくは第2例としてのノイズ認識処理部1Aを備える、本実施形態としてのノイズ低減装置の第1例の構成を、図14に示す。
図14に示すノイズ低減装置は、マイクロフォン31、アンプ32、ノイズ除去フィルタ33、加算器34、補間信号源発生部35、補間フィルタ36、ノイズ認識処理部37、ノイズタイミング生成処理部38、スイッチ39を備えて構成される。
マイクロフォン31は、この図に示すノイズ低減装置が実装される電子機器に内蔵される、若しくは外部接続される。例えば電子機器がビデオカメラなどとすれば、このマイクロフォン31は、記録音声を収音する目的で設けられることになる。このマイクロフォン31により、本実施形態において除去対象とするノイズ音が、本来収音すべき音声とともに収音される。
マイクロフォン31に入力された音声は、音声信号とされてアンプ32により増幅される。
この場合、アンプ32から出力されるデジタル形式の音声信号(入力音声信号)は、スイッチ39の端子tm3に対して供給される、また、分岐して、ノイズ除去フィルタ33、ノイズ認識処理部37に対して入力される。
ノイズ除去フィルタ33は、BEF(Band Elimination Filter)などとされ、ノイズ認識処理部37から出力されるノイズが発生したとされる周波数(分割周波数)を示す情報(ノイズ発生周波数指示情報)に応じて遮断(阻止)すべき周波数を設定する。これにより、ノイズ除去フィルタ33を通過した音声信号としては、ノイズが発生したとされる周波数の音成分が除去されたものとなる。
ノイズ除去フィルタ33から出力された音声信号は、加算器34において、補間フィルタ36から出力される補間信号と合成される。
上記補間信号は、補間信号源発生部35と補間フィルタ36とにより生成される。
先ず、補間信号源発生部35は、本実施形態においてノイズとして扱われる周波数帯域(例えば図12との対応では43.1Hz〜2.28kHz)を持つ周波数特性の信号を補間信号源として生成する。
図16は、上記補間信号源発生部35の構成例を示している。
この図に示される補間信号源発生部35は、トーン信号発生部41、M系列信号発生部42、及び合成部43とを備えて成るものとしている。
トーン信号発生部41は、所定周期の単一もしくは複数の正弦波やパルス波などによるトーン信号を発生する。このトーン信号は、周波数特性上、所定の周波数に単一もしくは複数のピークを有する。
M系列信号発生部42は、いわゆるM系列といわれる、全帯域でレベルが均一なランダム信号を発生する。このような信号として1つにはホワイトノイズを挙げることができる。
合成部43は、トーン信号発生部41にて発生されたトーン信号と、M系列信号発生部42にて発生されたM系列信号とについて、例えば予め定めた合成比により合成して出力する。この合成部43から出力される合成信号が補間信号源となる。
なお、上記の合成比については、例えば固定とするのではなく、適応的に変化させることが考えられる。例えば1つには、マイクロフォン31により得た収音音声について解析を行って、トーン信号成分とM系列信号成分とについての近似率などを求めるようにする。そして、この近似率に基づいて合成比を可変する。これにより、例えば収音音声がトーン信号成分を多く持つ場合には、これに近い成分合成による補間信号源を、また、M系列信号を多く持つ場合には、これに近い成分合成による補間信号源を出力させることができる。この結果、補間後の音声信号について、より自然な聴感を得ることが可能になる。
また、場合によっては、トーン信号のみ、若しくはM系列信号のみが補間信号源として出力されるようにして合成比を固定的に設定してよい。
補間信号源発生部35から出力される補間信号源は、補間フィルタ36に対して出力される。補間フィルタ36は、ノイズ除去フィルタ33にも出力されるのと同じノイズ発生周波数指示情報を入力し、ノイズ除去フィルタ33とは逆フィルタ特性を設定するようにされたフィルタである。つまり、補間フィルタ36には、ノイズ除去フィルタ33にて設定された遮断帯域がその通過帯域として設定され、ノイズ除去フィルタ33にて設定された通過帯域がその遮断帯域として設定される。
これにより、補間フィルタ36からは、ノイズ除去フィルタ33にて遮断された帯域に対応する帯域成分のみが抽出された補間信号源が出力される。これが、補間信号として、加算器34に対して出力される。
加算器34では、ノイズ除去フィルタ33から出力される音声信号と、補間フィルタ36から出力される補間信号とを加算合成して、スイッチ39の端子tm2に出力する。
ノイズ認識処理部37は、これまでの説明との対応では、図2に示したノイズ認識処理部1、若しくは、図13に示したノイズ認識処理部1Aとしての構成を有する。ノイズ認識処理部37としてのノイズ認識処理部1,1Aでは、フレーム化部11が入力する入力音声信号は、マイクロフォン31、アンプ32により得られるデジタルの収音音声信号となる。また、ノイズ認識処理部37としてのノイズ認識処理部1,1Aは、ノイズ認識情報として、ノイズ除去フィルタ33及び補間フィルタ36に対しては、ノイズ発生周波数指示情報を出力することになる。
また、ノイズタイミング生成処理部38は、ノイズ認識処理部37により、或る帯域信号(分割周波数)についてノイズ有りと判定されたことに応じて、その判定されたノイズの発生期間(ノイズ発生期間)を判定するための処理を実行する。なお、このノイズ発生期間を判定する処理例については、後述する。
ノイズタイミング生成手段38は、判定結果に基づいて、ノイズ発生期間の時間タイミングを指示する、ノイズタイミング信号tmg_nzを、スイッチ39に対して出力する。
スイッチ39は、ノイズタイミング信号tmg_ngが出力されていない期間、つまり、ノイズが発生していないとき(ノイズ非発生期間)には、端子tm1を端子tm3と接続して、アンプ32から出力される入力音声信号を直接に出力する。
これに対して、ノイズタイミング信号tmg_ngが出力されている期間、即ち、ノイズが発生しているとする期間においては、スイッチ39は、端子tm1を端子tm2と接続し、加算器34から出力される音声信号、つまり、ノイズ除去・補間処理を経た音声信号を出力する。
例えば本実施形態のノイズ低減装置が録音可能な機器に実装されている場合には、このスイッチ39から出力される音声信号、つまり、ノイズ低減装置から出力される音声信号を録音(記録)することになる。
図18(a)は、スイッチ39の端子tm1から出力される音声信号を時間経過とともに模式的に示している。なお、この図では、横軸に時間を取り、縦軸に音声信号のパワーをとっている。
この図において、ノイズ発生期間は、ノイズタイミング信号tmg_ngが出力されている期間に対応する。
ノイズ発生期間より前の期間においては、アンプ32から直接的に入力される音声信号(入力音声信号)がスイッチ39から出力されている。つまり、ノイズ除去・補間処理を経ていない音声信号が出力されている。なお、ここでは、ノイズ発生期間より前の期間において出力されるノイズ除去・補間処理を経ていない音声信号については前音声信号として示している。
次に、ノイズタイミング信号tmg_ngの出力が開始されることに応じてノイズ発生期間が開始されると、これまでのノイズ除去・補間処理を経ていない音声信号の出力は停止され、これに代えて、加算器34の出力信号、つまり、ノイズ除去・補間処理を経た音声信号の出力が開始される。
そして、ノイズタイミング信号tmg_ngの出力が停止されてノイズ発生期間が終了したとされると、スイッチ39は、これまでの加算器34からの音声信号(ノイズ除去・補間処理を経た音声信号)に代えて、アンプ32からの音声信号(ノイズ除去・補間処理を経ていない音声信号)の出力に切り換える。なお、ノイズ発生期間より後の期間において出力されるノイズ除去・補間処理を経ていない音声信号については後音声信号としている。
このノイズ発生期間にわたってスイッチ39から出力される、ノイズ除去・補間処理を経た音声信号は、図18(a)において模式的に示されるようにして、ノイズ除去信号と補間信号とを合成したものとしてみることができる。
ここでのノイズ除去信号とは、ノイズ除去フィルタ33から出力される音声信号である。つまり、ノイズ除去フィルタ33によって、元の音声信号からノイズが発生した分割周波数の帯域成分を除去した音声信号である。このノイズ除去信号は、ノイズが発生した帯域が除去されている分、元の音声信号よりも信号パワーが低くなる。しかし、補間信号は、元の音声信号から除去された周波数帯域から成る音声信号であるから、この補間信号が加算器34により合成されることで、スイッチ39から出力されるノイズ除去処理を経た音声信号としては、元の音声信号と同等の信号パワーを持つことになる。図18(a)においては、ノイズ発生期間における音声信号のエンベロープが、前信号と後信号のエンベロープとつながっていることにより、ノイズ除去処理を経た音声信号と、元の音声信号の信号パワー(レベル)が同等であることを示している。
また、本実施形態においては、ノイズ発生期間(ノイズ除去を実行するノイズ除去期間でもある)において、元の音声信号の全周波数帯域の成分を除去することは行っていない。
例えば、ノイズ除去及び補間として、ノイズ発生期間において、元の音声信号の全周波数帯域の成分を除去することで先ずノイズ除去を行う。そのうえで、このノイズ除去を行った音声信号について、元の音声信号の全周波数帯域を持つ補間信号を合成して、ノイズ除去・補間処理を経た音声信号を生成する、という手法も考えられる。しかし、この場合には、ノイズ発生期間の音声信号は、全帯域が補間信号に変わってしまうことから、聴感上不自然にきこえやすい。
これに対して、本実施形態では、先に述べたノイズ除去フィルタ33と補間フィルタ36の動作から理解されるように、ノイズ発生(除去)期間においては、元の音声信号からノイズ有りと判定された分割周波数の帯域のみを除去することによりノイズ除去を行っている。換言すれば、元の音声信号にいてノイズが発生していない周波数帯域は残すようにしている。そのうえで、ノイズ除去により失われた帯域の音声信号成分のみを、補間信号を合成して補うこととしている。これにより、例えば上記の手法の場合よりも、ノイズ発生期間の音声と、その前後の音声との連続性をより高めることができる。これにより、マスキング効果もより有効にはたらくことになり、結果、本来の音を損わない自然な聴感を得ることが可能になる。
また、図18(b)は、前信号及び後信号としての元の音声信号(アンプ32の出力音声信号)と、ノイズ除去・補間信号(加算器34の出力音声信号)との時間軸方向での合成についての、他の態様例を示している。
図18(a)は、ノイズ発生期間の開始時点において、前信号からノイズ除去・補間信号に瞬時的に入れ替わり、同じく、ノイズ除去・補間信号から後信号に瞬時的に入れ替わるようになっている。このような信号の変化の場合、例えばノイズ除去された帯域においては、前信号である元の音声信号成分から補間信号に瞬間的に切り替わり、また、補間信号から後信号としての元の音声信号に瞬時的に切り替わることになる。従って、この切り替わりのタイミングにおいて例えば高調波が生じて、これが不自然に聞こえる可能性がある。
そこで、図18(b)においては、ノイズ発生期間の開始時点から或る一定期間にわたって、前信号については徐々に減衰させ、ノイズ除去・補間信号については徐々に本来のレベルにまで増加させる、いわゆるクロスフェードが行われる期間(クロスフェード期間)を設ける。同様に、ノイズ発生期間の終了時点までの一定期間にわたり、後信号を徐々に本来レベルにまで増加させ、ノイズ除去・補間信号を徐々に減数させるクロスフェード期間を設ける。
このようにして、ノイズ発生期間における冒頭と終わりの一定期間により、元の音声信号とノイズ除去・補間処理信号のクロスフェードを行うことで、上記した高調波の発生を大幅に抑制し、リンギングやオーバーシュートなどの現象を回避することができ、より自然な聴感を得ることが可能になる。
上記のクロスフェード期間における音声信号のレベル変化は、スイッチ39について,クロスフェードスイッチにより構成することで実現できる。クロスフェードスイッチは、例えば入力された2つの音声信号を、制御係数が可変のアッテネータを介したうえで合成して出力させる。制御係数cは、例えば0〜1の範囲の値であり、アッテネータは、原信号レベル×cのレベルによる音声信号を出力する。
そのうえで、クロスフェード期間においては、一方のアッテネータの制御係数c1については時間経過に応じて0〜1に増加していくように変化させることとしたうえで、他方のアッテネータの制御係数c2については、c2=1-c1で求められる変化を与えるようにする。
また、クロスフェード期間の時間は、ノイズタイミング信号tmg_ngに基づいて判断できるようにすればよい。例えばノイズタイミング信号tmg_ngとしては、ノイズ発生期間の開始/終了時間を指示する内容とする。例えばクロスフェードスイッチとしてのスイッチ39は、ノイズ発生期間の開始時間から一定時間において、冒頭のクロスフェード処理を実行する。また、ノイズ発生期間の終了時間からクロスフェード期間分さかのぼった時間を特定し、この特定した時間からノイズ発生期間の終了時間までの間で、終わりのクロスフェード処理を実行する。
なお、例えばノイズ除去・補間処理が施された信号、即ち、加算器34から出力される音声信号のみを定常的に、ノイズ低減装置の出力としてもよい。しかし、加算器34から出力される音声信号は、たとえノイズ発生期間以外の期間であっても、ノイズ除去・補間のための処理系を経由していることから、入力音声信号と比較すれば劣化していることになる。そこで、本実施形態のノイズ低減装置では、ノイズ発生期間以外の期間では、スイッチ39から入力音声信号をそのまま出力させることで、できる限り高音質な音声信号が出力されるように配慮している。
[4−2.ノイズ発生期間判定処理]

次に、上記図14のノイズタイミング生成処理部38が実行するとされるノイズ発生タイミングの判定処理について図19を参照して説明する。なお、この図の説明にあたっては、多項式演算に2次多項式を採用している場合を例に挙げる。
ノイズタイミング生成処理部38は、ノイズ認識処理部37(ノイズ認識処理部1,1A)により、或る帯域信号(分割周波数)についてノイズ有りと判定されたことに応じて、そのノイズの発生期間を判定するための処理を実行することになる。
例えば、ノイズ認識処理部37がノイズ有りと判定したことに応じては、ノイズ認識処理部37は、ノイズタイミング生成処理部38に対して、ノイズ認識情報として、例えばノイズ有りと判定した分割周波数の係数データを渡すものとする。
ノイズタイミング生成処理部38は、上記のようにして受け取った、ノイズ有りと判定した分割周波数の係数データにより表される2次多項式に基づき、図19に示す座標P,Q,Rを求める。図19に示す座標軸は、横軸が時間で、縦軸(A軸)が帯域信号の絶対値振幅Vaとなっている。また、横軸の時間については、2次多項式が極大値となる時間を0として扱っている。
座標Q(0,y1)は、上記係数データにより表される2次多項式により表される曲線の極大値の座標である。座標P(-1,y0)は、2次多項式により表される曲線において、座標Qに対して時間的に前となる任意の座標で、座標R(1,y2)は、2次多項式により表される曲線において、座標Qに対して時間的に後となる任意の座標である。ここでは、座標Pについては、時間軸の座標値が-1となる曲線上の点であるとしている。また、座標Rは、時間軸の座標値が1となる曲線上の点であるとしている。
次に、2次多項式の曲線に対する接線として、座標P(-1,y0)を通る接線TLpと、座標R(1,y2)を通る接線TLrとを求める。これら接線TLp,TLrは、例えば一次関数により表現できる。
また、この座標上に対して、閾値ラインLmを設定する。この閾値ラインLmは、図示するようにして、x=y3で表される時間軸と平行な直線である。この場合の閾値となるy3は、極大値y1に対して、y3=y1*a(a<1)となるようにして求められる値である。つまり、閾値y3は、極大値に対して一定比率分小さい値として求められる。具体的には、閾値y3は、極大値y1の10%程度(a=0.1)とすることが考えられる。
次に、閾値ラインLmと接線TLpの交点座標を求める。本実施形態では、この交点座標のx座標が実際に対応する時間を、発生したノイズの開始時点、つまりノイズ開始点Sとする。
また、同様にして、閾値ラインLmと接線TLrの交点座標を求め、この交点座標におけるx座標が実際に対応する時間を、発生したノイズの終了時点、即ちノイズ終了点Eとする。
つまり、検出されるノイズ発生期間Tnとしては、図示するように、ノイズ開始点Sとしての時間からノイズ終了点Eとしての時間までの期間となる。
ノイズタイミング生成処理部38は、このようなノイズ発生期間の検出を、ノイズ有りとして判定された帯域信号(分割周波数)ごとに対応して実行する。
上記のノイズ発生期間の検出(判定)は、帯域信号のサンプリング点を利用して求めた多項式を利用している。帯域信号を多項式化することによっては、先にも述べたようにして、より真に近い帯域信号波形を得ることができ、これにより、分割周波数ごとに、高い精度でノイズ有無の判定が行える。ノイズ発生期間は、同じ多項式に基づいて求められるものであり、従って、例えばノイズ発生期間としての開始・終了時間について、これまでより高い精度で検出できることになる。
そのうえで、ノイズタイミング生成処理部38は、上記のようにして分割周波数ごとに判定したノイズ発生期間に基づいて、ノイズタイミング信号tmg_ngを生成する。
一例としては、ノイズタイミング信号tmg_ngは、分割周波数ごとに判定したノイズ発生期間の論理和を演算し、この論理和の出力をノイズタイミング信号tmg_ngとする。この場合のノイズタイミング信号tmg_ngとしては、すくなくとも1つの分割周波数においてノイズが発生していると判定されている期間においてHレベルとなり、ノイズが発生していると判定される分割周波数が1つも無いときにはLレベルとなる信号として得られる。スイッチ39は、ノイズタイミング信号tmg_ngがHレベルのときに端子tm2と端子tm1を接続して、ノイズ除去処理が施された音声信号(加算器34の出力音声信号)を出力する。また、ノイズタイミング信号tmg_ngがLレベルのときには端子tm3と端子tm1を接続して、ノイズ除去処理が施されていない音声信号(アンプ32の出力音声信号)を出力する。
<5.ノイズ低減装置の構成例(第2例)>

図15は、本実施形態のノイズ低減装置としての第2例の構成を示している。この図において,図14と同一部分には同一符号を付して説明を省略する。
この図においては、図14の補間信号源発生部35に代えて、元補間信号生成部35Aが設けられる。
この補間信号源発生部35には、アンプ32からの元の音声信号が入力される。また、ノイズタイミング生成処理部38からのノイズ認識情報が入力される。
図14の補間信号源発生部35は、独立して補間信号源、即ち、補間信号の元となる信号を発生させる構成としていたが、図15の元補間信号生成部35Aは、アンプ32から入力する音声信号(入力音声信号)を基にして、補間信号の元となる音声信号を生成する。なお、元補間信号生成部35Aにより生成される音声信号については、元補間信号といい、図14の補間信号源発生部35が生成する、例えばホワイトノイズなどとしての補間信号源とは区別する。
元補間信号生成部35Aによる元補間信号の生成処理を、図17により説明する。
図17には、元の音声信号の波形が示されている。この波形は、横軸が時間(T軸)とされ、縦軸が振幅(A軸)となっている。
元補間信号生成部35Aは、ノイズタイミング生成処理部38からのノイズ認識情報として、1つには、ノイズ発生期間ts〜teとしての時間を示す信号と、ノイズ発生期間における音声信号(即ちノイズ音)がピークとなる時間(ピーク時間tq)とを示す信号とを入力するものとする。
ここでのノイズ発生期間ts〜teとしての時間を示す信号としては、例えばノイズタイミング生成処理部38がスイッチ39に対して出力するノイズタイミング信号tmg_ngと同一の信号とされればよい。また、ピーク時間tqを示す信号は、例えばノイズ認識処理部37から取り込んだノイズ認識情報(正規化された多項式の係数)から求めることができる。これにより、元補間信号生成部35Aは、音声信号においてノイズの発生が開始/終了する開始時間ts/終了時間teと、音声信号において発生したノイズの振幅がピークとなるピーク時間tqを認識できることになる。
ここで、ノイズタイミング信号tmg_ngにより示される上記ノイズ発生期間ts〜teは、先にも述べたように、1以上の分割周波数のノイズ発生期間の論理和に対応する。従って、図17に示される音声信号は、その状態として、ノイズ発生期間ts〜teにおいてノイズが発生しているが、時間tsより以前、及び時点te以降においてはノイズは発生していないことになる。
元補間信号生成部35Aは、図17に示すように、前補間信号を生成するとともに後補間信号を生成し、これらを連結して元補間信号を生成する。
先ず、元補間信号生成部35Aは、前補間信号の生成処理として、ノイズ発生期間における開始時間tsからピーク時間tqまでの時間幅(時間長)W1を求める。次に、開始時点tsから時間幅W1だけ遡った時点tprを求める。そして、期間tpr〜tsの区間の音声信号、即ち、開始時間tsの直前における時間幅W1の区間の音声信号(ノイズ前信号)を前補間信号として取得する。
また、元補間信号生成部35Aは、後補間信号の生成処理として、ノイズ発生期間におけるピーク時間tqから終了時間teまでの時間幅W2を求め、さらに終了時点teから時間幅W2だけ進行した時点tpsを求める。そして、期間te〜tpsの区間の音声信号、即ち、終了時間teの直後における時間幅W2の区間の音声信号(ノイズ後信号)を前補間信号として取得する。
次に、元補間信号生成部35Aは、上記のようにして生成した前補間信号と後補間信号とについて、時間的に、前補間信号が前で、後補間信号が後となるようにして連結する。このようにして連結して形成される音声信号は、図17においても示されるように、ノイズ発生期間としての時間長を有するものであり、これが、ここでの元補間信号となる。
補間フィルタ36は、上記のようにして元補間信号生成部35Aにより生成される元補間信号を入力する。そして第1例の場合と同様にして、ノイズ除去フィルタ33に出力されるのと同じノイズ発生周波数指示情報に基づいて、ノイズ除去フィルタ33にて遮断された帯域に対応する帯域成分のみを通過させ、これを補間信号として加算器34に対して出力する。
この場合も加算器34から出力される音声信号は、入力音声信号から、ノイズが発生したとされる分割周波数帯域のみをノイズ除去フィルタ33により遮断してノイズ成分が除去された上で、加算器34において、ノイズ除去フィルタ33により欠落した周波数を補間信号により補うようにして生成されたものとなる。つまり、ノイズ除去・補間処理を経た音声信号が得られる。
この第2例では、図17に示したように、補間信号(元補間信号)は、ノイズ発生期間の直前と直後における音声信号区間を利用して生成する。このノイズ発生期間の直前と直後の音声信号は、どの帯域においてもノイズは発生していない状態の音声信号である。かつ、時間的にノイズ発生区間の直前と直後の音声信号であるから、ノイズ発生区間において得られているノイズ以外の音との関連性、連続性は強い。
つまり、本実施形態では、補間信号として、ノイズが発生しておらず、かつ、ノイズ発生区間の音声内容と連続性が高い音声内容を持つ音声信号を利用しているといえる。これにより、ノイズ除去処理が行われた音声として、さらに自然な聴感を得ることが期待できる。
なお、例えば元補間信号生成部35Aによる、より簡単な元補間信号生成処理としては、ノイズ前信号のみ、若しくはノイズ後信号のみにより元補間信号を生成することも考えられる。なお、この処理は、後述する図22に示される元補間信号の生成処理と同じになる。
ただし、音声信号の音声内容は、ノイズ発生前とノイズ発生後とで変化し得るものであり、例えば、発生したノイズのピークを境界としてその変化が生じやすい。そこで、自然な聴感が得られるようにすることを優先する場合には、図17に例示したように、前補間信号と後補間信号を生成するようにして、さらに、前補間信号と後補間信号の連結点を、ノイズ発生期間におけるノイズのピークに対応する時間とすることが好ましいことになる。
なお、前補間信号と後補間信号により元補間信号を生成する場合の変形として、例えば、単純に、ノイズ発生期間の中間時点など、予め固定的に定めた境界時点にて前補間信号と後補間信号とを連結する手法も考えられる。
<6.ノイズ低減装置の構成例(第3例)>
[6−1.全体構成例]

続いて、本実施形態のノイズ低減装置の第3例及び第4例について説明する。第3例及び第4例に関しては、後述する、ピッチ周期に基づく補間信号生成処理が適用される。
図20は、本実施形態のノイズ低減装置の第3例としての構成例を示している。なお、この図に示す構成は、第2例として図15に示したノイズ低減装置における補間信号生成処理について、ピッチ周期に基づくものとして構成したものとしてみることができる。この図において、図15と同一部分には、同一符号を付して説明を省略する。
この図に示す構成は、図15に示した構成に対して、ピッチ算出部51が追加されている。また、ここでは、図15に示した元補間信号生成部35Aに代えて、入力音声信号(利用音声信号)のピッチに基づく補間信号生成処理(ピッチ対応補間信号生成処理)として原補間信号を生成する元補間信号生成部35Bが設けられる。
また、この図においては、ノイズ除去フィルタ33、加算器34、補間信号源発生部35、元補間信号生成部35B、補間フィルタ36、及びピッチ算出部51から成る部位を、ノイズ除去・補間部50としており、ノイズタイミング生成処理部38からは、このノイズ除去・補間部50に対してノイズ認識情報を出力する構成としている。
ピッチ算出部51は、アンプ32からの入力音声信号を入力して、そのピッチを算出する。ここでのピッチとは、音声信号における基本周波数に対応する周期時間をいう。
ピッチを求める手法としては各種知られているが、ここでは、一例として、AMDF(Average Magnitude Difference Function)について簡単に説明しておく。AMDFは、演算処理が加算/減算のみであり、例えば自己相関やFFTを採用する場合よりも簡易で処理が軽いにもかかわらず、比較的にピッチの抽出精度が高いことで知られている。
AMDFによるピッチは、下記(数4)により求めることができる。

Figure 2010249940
上記(数4)におけるXは、時間1〜Nの時間窓で切り取られた入力信号であり、D(m)は、入力信号Xの時間差mにおける差分の総和を示す。このD(m)としての値が最小となるmをピッチとして求める。D(m)の値が最小となる場合とは、2つの信号xについて、その位相差が360°となる状態、つまり、1周期の時間差が生じていることで同じ波形形状が重なっている状態である。
上記のようにして求められたピッチの情報は、補間信号生成部35Bが入力し、元補間信号の生成に利用する。
補間信号生成部35Bにより生成された元補間信号は入力音声信号に対応した周波数帯域を有する音声信号である。補間フィルタ36は、先の第1例、第2例のノイズ低減装置と同様、ノイズ認識処理部37から入力されるノイズ認識情報が示す、ノイズの発生が判定された周波数のみを通過させるフィルタ特性を設定し、元補間信号を通過させる。これにより、ノイズの発生が判定された周波数のみの帯域特性を持つ補間信号が得られ、加算器34に入力される。
加算器34では、ノイズ除去フィルタ33からの音声信号と上記補間信号とを合成して、ノイズ除去・補間処理が施された音声信号として出力する。
[6−2.ピッチに基づく補間信号生成処理(第1例)]

続いて、上記図20に示した第3例のノイズ低減装置において実行される、入力音声信号(利用音声信号)のピッチに基づく補間信号生成処理(ピッチ対応補間信号生成処理)について説明する。このピッチ対応補間信号生成処理としては、第1例〜第3例による3つの態様を挙げる。
図22は、第1例としてのピッチ対応補間信号生成処理として、図20に示すノイズ低減装置におけるピッチ算出部51によるピッチ算出と、元補間信号生成部35Bによる元補間信号(生成元信号)の生成までの流れを模式的に示している。
先ず、図20のピッチ算出部51には、ノイズタイミング生成処理部38から出力されるノイズ認識情報として、ノイズ発生期間を示す信号(例えばノイズタイミング信号tmg_ng)を入力して、ノイズ発生期間Tnの開始時間tsを認識する。
次に、ピッチ算出部51は、入力音声信号の時系列において、認識した開始時間tsより時間的に前であり、かつ、ノイズ発生期間Tnの近傍における所定時間分の期間をピッチ算出期間Tpとして設定する。図22においては、開始時間tsの直前においてピッチ算出期間Tpを設定した例が示されている。
ピッチ算出部51は、上記のようにして設定したピッチ算出期間Tpの入力音声信号を利用して、例えば先に述べたAMDFなどの手法に従って、入力音声信号のピッチを算出する処理を実行する。
ここで、ピッチ算出期間Tpは、ノイズ発生期間Tnより前の音声信号区間である。つまり、入力音声信号におけるどの帯域においてもノイズが発生していない信号である。このように本実施形態では、ノイズが発生していない区間の音声信号を利用してピッチ算出が行われるようにしている。これにより、正確なピッチ算出結果が安定して得られる。
次に、元補間信号生成部35Bは、元補間信号生成のために、ノイズタイミング生成処理部38から出力されるノイズ認識情報として、ノイズ発生期間を示す信号(例えばノイズタイミング信号tmg_ng)を入力して、ノイズ発生期間Tnとしての時間長、及びその開始時間Tsを認識する。
次に元補間信号生成部35Bは、ノイズ発生期間Tn=1.5*Ts1で表される時間長によるノイズ前元信号区間Ts1を設定する。このノイズ前元信号区間Ts1は、図22に示すように、入力音声信号における、開始時間tsの直前に対して設定される。
そして、元補間信号生成部35Bは、上記ノイズ前元信号区間Ts1における入力音声信号を利用して、図23に示すようにして元補間信号を生成する処理を実行する。
先ず、図23(a)には、ノイズ前元信号区間Ts1の入力音声信号における冒頭部分が示されている。
元補間信号生成部35Bは、図23(a)に示すようにして、ノイズ前元信号区間Ts1の入力音声信号について、ピッチ算出部51により算出されたピッチとしての周期時間picthの1/2(=picth/2)の単位(単位周期区間)で、時系列に従って区切る。このようにして区切られた信号単位については、時間順に従い、区間信号1,2・・・・という。

次に元補間信号生成部35Bは、図23(a)から図23(b)の遷移として示すようにして、上記picth/2周期の区間信号1,2・・・を利用して、元補間信号を生成する。
つまり、補間信号としては、まず、その先頭1番目のpicth/2周期区間に、順時間方向の区間信号1をコピーする。これは、図23(a)に示される入力音声信号の区間信号1をそのままLIFO(Last In First Out)で読み出すように処理すればよい。つまり、区間信号を時系列に従ってメモリに一旦書き込み、書き込み時と同じ順序で読み出しを行えばよい。
次の2番目のpicth/2周期区間には、時系列を元信号の逆時間方向に変換した区間信号1及び区間信号2を利用する。このような逆時間方向の区間信号は、図23(a)の入力音声信号の区間信号をFILO(First In first Out)で出力する、つまり、区間信号を時系列に従ってメモリに一旦書き込み、書き込み時とは逆の順序で読み出しを行って出力する。
そのうえで、これらの逆時間方向の区間信号1,2について、例えば時間経過に従って、区間信号1が100%〜0%に減衰し、区間信号2が0%〜100%に増加していくようにしてクロスフェード(オーバーラップ)するようにして合成処理を行う。このようにして得られた音声信号を、2番目のpicth/2周期区間分の音声信号として連結する。
また、次の3番目のpicth/2周期区間には、時間順方向の区間信号2を連結する。
このようにして、第1例のピッチ対応補間信号生成処理では、連続する2つのpicth/2周期区間の区間信号により、連続する3つのpicth/2周期区間分の元補間信号を生成する。続いては、例えば、入力音声信号における次の2つの連続して前後する区間信号3,4を利用して、上記区間信号1,2と同様の処理で、次に連続する3つ(4番目〜6番目)のpicth/2周期区間分の元補間信号を生成する。以降、ノイズ前元信号区間Ts1の終端まで、同様の処理を実行していく。
この場合、ノイズ前元信号区間Ts1を形成する全ての区間信号を利用して形成される元補間信号の時間長としては、図22にて示しているように、1.5*Ts1で表されることになる。つまり、この場合の元補間信号は、ノイズ前元信号区間Ts1を1.5倍分により時間方向に拡張するようにして生成されているものとみることができる。
なお、このように入力音声信号から求めたピッチに基づいて設定した周期区間による区間信号を並べるようにして生成される補間信号は、入力音声信号のピッチに対応した周波数特性を有する。つまり入力音声信号と補間信号とで周波数特性面での連続性が得られる。
ここで、図23(b)における1番目のpicth/2周期区間の終了位置と、2番目のpicth/2周期区間の開始位置とでは、同じ区間信号1について順時間方向−逆時間方向の順で連結されていることにより、その振幅が一致することになる。つまり、1番目と2番目のpicth/2周期区間の境界で振幅波形が接続する状態を得ることができる。
また、2番目のpicth/2周期区間の終了位置と、3番目のpicth/2周期区間の開始位置とについても、同様にして、同じ区間信号2を逆時間方向−順時間方向の順で連結していることで、その境界において振幅波形が接続する状態が得られている。つまり、元補間信号におけるpicth/2周期区間の境界にて必ず接続された状態が得られるようにしている。
例えば、先に挙げた特許文献1〜3に示される補間信号の生成手法は、例えば下記のようになる。
つまり、ノイズ発生期間の開始点に対して前後する1ピッチ周期分の2つの信号区間をクロスフェードさせた1ピッチ周期分の重み付け加算信号を生成する。そして、この同じ1つの重み付け加算信号を繰り返して連結することでノイズ発生期間分の前半信号を生成する。また、同様の要領で、後半信号を生成する。つまり、ノイズ発生期間の終了点に対して前後する1ピッチ周期分の2つの信号区間をクロスフェードさせた1ピッチ周期分の重み付け加算信号を生成し、この同じ1つの重み付け加算信号を繰り返して連結することでノイズ発生期間分の後半信号を生成する。
次に、上記のように生成した前半信号と後半信号をクロスフェードさせることで、ノイズ発生期間分の補間信号を生成する。
上記特許文献での補間信号は、1ピッチ周期分の重み付け加算信号を、単純に繰り返し連結して形成されている。このようにして同じ信号を単純に繰り返した場合、この繰り返し周期に応じたビート音と言われるノイズが新たに発生する。このビート音は、例えばノイズ除去期間が長くなったり、ピッチ周期が短くなったりするなどして、繰り返される回数が増加するほど出現しやすくなる。
また、上記特許文献での補間信号は、重み付け加算信号を2つの音声信号のクロスフェードにより形成し、さらに最終的に得られる補間信号も、前半信号と後半信号のクロスフェードにより形成されている。このようにしてクロスフェードすることにより、例えば単一の音声信号を用いる場合より、前後の音声信号との連続性を保ちやすくはなる。
しかし、クロスフェードさせる2つの音声信号の位相差の条件によっては、相互に打ち消し合うような結果となって信号レベルを低下させる可能性が避けられなくなる。このようなレベル低下が発生すれば、ノイズ除去処理の期間中において、この状態が繰り返される、あるいは継続されることになり、充分な補間の効果を得ることができない場合があると考えられる。
また、上記特許文献での補間信号は、入力音声信号を元にして生成されるので、この点で、ノイズ発生期間前後の音声信号と補間信号との連続性は得られやすい。しかし、重み付け加算信号の1/2は、ノイズ発生期間における冒頭若しくは終端の音声信号を利用しているので、ノイズが混入した補間信号となる可能性があり、これが自然な聴感を妨げる要因となる場合があると考えられる。
これに対して、図22及び図23により説明した本実施形態のピッチ対応補間信号生成処理によっては、先にも述べたように、元補間信号における区間信号のエンベロープ(振幅波形)は、その連結位置にて接続される状態が得られる。これにより、本実施形態では、区間信号の繰り返しによるビート音などの発生が有効に抑制される。仮に、同じ順時間方向の区間信号を単純に連結したとすれば、その連結位置においては、エンベロープが急峻に変化して顕著な高調波成分を持つことになり、ビート音が発生しやすくなる。
なお、本実施形態の元補間信号において時間方向が反転された同じ区間信号の連結位置は、その振幅波形が接続されはするものの、点接続となる場合が多く、なめらかな接線接続とは成りにくい。この分、互いに時間方向が反転された区間信号ごとの連結位置においては、相応の高調波成分が発生する。しかし、上記のようにして、単純に区間信号を連結して振幅波形が非連続となる状態と比較すれば、その高調波成分量は少ないものであり、それだけビート音の発生は抑えられる。
さらに、元補間信号生成部35Bにより生成された元補間信号は、補間フィルタ36によって、ノイズが発生したと判定された周波数のみに制限される。この段階で、上記点接続に対応して発生した高調波成分はほぼ完全に除去されるので、問題になることはない。
また、本実施形態の元補間信号においても、1/2pitch周期によるクロスフェード区間が存在するが、図23(b)から理解されるように、クロスフェード区間は、1/2pitch周期が3回連続するごとに1回出現するのみである。つまり、元補間信号全体において1/3のみとなっている。これにより、例えば元補間信号の区間全体においてクロスフェードが行われる場合と比較すれば、クロスフェード区間での位相条件によるレベル低下が発生する可能性はそれだけ低くなる。また、レベル低下が発生したとしても短時間で完結的であるために目立ちにくい。
さらに本実施形態では、ノイズが発生していない区間の入力音声信号を利用して元補間信号を生成するので、元補間信号にノイズが混入することがなく、補間信号とその前後の入力音声信号との連続性を高めることができる。
また、これまでに述べてきたように、本実施形態では、ノイズ除去フィルタ33によりノイズが発生した周波数帯域のみを除去することとして、ノイズが発生していない周波数帯域は、入力音声信号のまま残すようにしている。これにより、補間信号とその前後の入力音声信号との連続性を高めて自然な聴感を得るようにしている。この点については、ピッチ対応補間信号生成処理を行うノイズ低減装置においても変わりはない。
なお、上記図22においては、元補間信号を生成するのにあたり、ノイズが発生していない区間の入力音声信号として、ノイズ発生期間Tnの前の入力音声信号を利用している。しかし、上述した第1例のピッチ対応補間信号生成処理、及び次に説明する第2例のピッチ対応補間信号生成処理としては、ノイズ発生期間Tnの後の入力音声信号を利用して元補間信号を生成するようにしてもよい。
また、この第1例のピッチ対応補間信号生成処理は、図23に示されるように、1つの区間信号ごとに、各1つの順時間方向の区間信号と逆時間方向の区間信号とを連結して単位補間信号部分partを形成したうえで、これらの単位補間信号部分partを、生成元の区間信号の時間順に従って、時間軸上に並べているものとしてみることができる。
そのうえで、この場合には、前の単位補間信号部分partにおける最後の区間信号の1/2pitch周期期間と、後の単位補間信号部分partにおける1番目の区間信号の1/2pitch周期期間については、重複させているものとしてみることができる。そのうえで、この重複する1/2pitch周期期間においては、クロスフェードによる合成を行っているものである。
また、第1例は、同じ順番(単位周期区間)の区間信号を偶数個利用して単位補間信号部分partを形成するとした場合において、具体的に2個を利用した場合の処理として見ることができる。
[6−3.ピッチに基づく補間信号生成処理(第2例)]

続いて、本実施形態によるピッチ対応補間信号生成処理の第2例について、図24を参照して説明する。
図24は、単位補間信号部分partを、同じ時間(単位周期区間)における奇数の区間信号により形成する場合として、その最小数である3つにより形成する例を示したものである。
なお、ノイズ低減装置におけるピッチ算出部51によるピッチ算出と、元補間信号生成部35Bによる元補間信号(生成元信号)の生成の概略については、第1例のピッチ対応補間信号生成処理と同様に、図22に示したものとなる。
図24(a)には、図23(a)と同様に、ノイズ前元信号区間Ts1の入力音声信号における冒頭部分が示されている。つまり、第2例の元補間信号生成部35Bも、第1例と同様にして、ノイズ前元信号区間Ts1の入力音声信号を、picth/2周期時間の区間信号1、2・・のようにして区分する。
そのうえで、この場合の補間信号生成部35Bは、図24(b)に示すように、元補間信号における1番目のpicth/2周期区間には、順時間方向の区間信号1を配置する。続けて、2番目のpicth/2周期区間には逆時間方向の区間信号1を配置し、3番目のpicth/2周期区間には順時間方向の区間信号3を配置する。
続いて、元補間信号における4番目のpicth/2周期区間には、順時間方向の区間信号2を配置する。続けて、5番目のpicth/2周期区間には逆時間方向の区間信号2を配置し、6番目のpicth/2周期区間には順時間方向の区間信号2を配置する。
つまり、第2例のピッチ対応補間信号生成処理では、1つの区間信号について、順時間方向、逆時間方向、順時間方向の順により配列することとして、これを区間信号の時系列順に繰り返していくようにする。
このようにして形成される元補間信号としても、区間信号間の連結位置の振幅波形のエンベロープは点接続が維持される。
また、この第2例の場合のようにして、奇数の区間信号により単位補間信号部分partを形成するとした場合には、前の単位補間信号部分partの最後の区間信号と、後の単位補間信号部分partの最初の区間信号とを、ともに順時間方向とすることができる。つまり、前の単位補間信号部分partの最後の区間信号と、後の単位補間信号部分partの最初の区間信号から成る期間は、本来、時間的に連続している2つの区間信号がそのまま連結される。従って、これらの区間信号の境界においては、振幅波形は、点接続された結果として、これより良好な接線接続の状態が得られることになる。つまり、奇数の区間信号により単位補間信号部分partを形成する場合には、単位補間信号部分partを、生成元の区間信号の時間順に従って単純に連結していけばよい。
また、これにより、元補間信号において区間信号がクロスフェードする区間は全く形成しなくともよい。従って、クロスフェードする2つの信号の位相条件によるレベル低減の問題は生じない。
さらに、この場合には、元補間信号は、ノイズ前元信号区間Ts1の3倍に拡張された時間長を持てることになる。つまり、元補間信号に対応するノイズ発生期間Tnとの関係として、Tn=3*Ts1が成立する。これは、ノイズ前元信号区間Ts1としては、ノイズ発生期間Tnの1/3の時間長があればよいことを意味する。例えば第1例との比較では、同じノイズ発生期間Tnに対応して必要なノイズ前元信号区間Ts1を1/2にまで短くできる。
このようにして第2例では、元補間信号生成のため必要な入力音声信号の時間が短くて済み、それだけ処理は軽いものにできる。また、本実施形態が除去対象とするノイズは、時間的に断続して不規則に発生するノイズである。このようなノイズが短時間で複数発生したような場合、現ノイズ発生期間と1つ前のノイズ発生期間の間のノイズが発生していない期間が短くなってしまう場合があるが、このようなときにも、ノイズが発生していないノイズ前元信号を得られる可能性が高くなる。
[6−4.ピッチに基づく補間信号生成処理(第3例)]

本実施形態によるピッチ対応補間信号生成処理の第3例について、図25及び図26により説明する。
図25は、第3例に対応する、ノイズ低減装置におけるピッチ算出部51によるピッチ算出と、元補間信号生成部35Bによる元補間信号(生成元信号)の生成の概略を示している。
この場合にも、ピッチ算出部51には、ノイズタイミング生成処理部38から出力されるノイズ認識情報として、ノイズ発生期間を示す信号(例えばノイズタイミング信号tmg_ng)が入力される。ピッチ算出部51は、この信号に基づいて、ノイズ発生期間Tnの開始時間ts、及び終了時間teを認識する。また、この場合のピッチ算出部51は、ノイズタイミング生成処理部38から出力されるノイズ認識情報として出力される、ノイズ発生期間Tnにおける音声信号(ノイズ音)の振幅のピーク時間tpを示す信号により、ピーク時間tpも認識する。
次に、ピッチ算出部51は、第1例の場合と同様にして、入力音声信号の時系列において、例えば開始時間tsの直前の一定期間をピッチ算出期間Tp1として設定し、このピッチ算出期間Tp1の入力音声信号を利用してピッチ算出を実行する。なお、このピッチ算出期間Tp1に対応して求められたピッチは、前ピッチという。
さらに、この場合のピッチ算出部51は、入力音声信号の時系列において、終了時間teより時間的に後で、かつ、ノイズ発生期間Tnの近傍における所定時間分の期間をピッチ算出期間Tp2として設定する。図24においては、終了時間teの直後においてピッチ算出期間Tp2を設定している。そして、ピッチ算出部51は、ピッチ算出期間Tp2の入力音声信号を利用して後ピッチを算出する。
次に、補間信号生成部35Bは、元補間信号生成のために、ノイズタイミング生成処理部38からのノイズ認識情報を入力して、ノイズ発生期間Tnの開始時間ts/終了時刻te、及びピーク時間tpを認識する。
この場合の補間信号生成部35Bは、図示するようにして、前補間信号(前側生成元信号)とこれに続く後補間信号(後側生成元信号)を連結して、ノイズ発生期間Tn分の元補間信号を生成する。
そこで、補間信号生成部35Bは、認識した開始時間tsからピーク時間tpまでによる前補間信号期間Tn-1としての時間長を認識し、この前補間信号期間Tn-1の時間長に基づいて、ノイズ発生期間の直前のノイズ前信号区間Ts1として設定すべき時間長を求める。
同様に、補間信号生成部35Bは、認識したピーク時間tpから終了時間Teまでによる後補間信号期間Tn-2しての時間長を認し、この後補間信号期間Tn-1の時間長に基づいて、ノイズ発生期間の直後のノイズ後信号区間Ts2として設定すべき時間長を求める。
なお、ノイズ前信号区間Ts1、後補間信号期間Tn-1の各時間長の求め方については、図26により次に述べる。
次に、第3例に対応して元補間信号生成部35Bが実行するピッチ対応補間信号生成処理について説明する。
まず、第3例にあっても、先の各例に準じて、元補間信号生成部35Bは、ノイズ前元信号区間Ts1と、ノイズ後元信号区間Ts2の各入力音声信号について、1/2pitch周期による区間信号単位に分割する。
図26(a)には、ノイズ前元信号区間Ts1の入力音声信号として、その終端の2つの区間信号N-1,Nが示されている。また、図26(b)には、ノイズ後元信号区間Ts2の入力音声信号として、その終端の2つの区間信号N+1,N+2が示されている。
ここで、前補間信号及び後補間信号を生成するためのピッチ対応補間信号生成処理としては、先の第1例に対応する処理(偶数の区間信号により単位補間信号部分partを形成する)を採用してもよいし、先の第2例(奇数の区間信号により単位補間信号部分partを形成する)を採用することとしてもよい。図26では、第2例に準じて、奇数として3つの区間信号により単位補間信号部分partを形成する場合を例に挙げる。
まず、前補間信号については、先の第2例に対応する図24と同様の処理によって生成していく。図26(c)においては、元補間信号として、前補間信号の終端部分と後補間信号の開始部分との境界近傍が示されている。
図26(c)においては、まず、前補間信号の終端部分として、ノイズ前元信号区間Ts1における最後の1つ前の区間信号N-1について、順時間方向、逆時間方向、順時間方向の順で配列したことにより、1つの単位補間信号部分partが形成された状態が示されている。
次の1/2pitch区間は、前補間信号と後補間信号の境界に対応する区間となるが、これに続く、1/2pitch区間は、後補間信号の区間となるもので、図示するようにして、ノイズ後元信号区間Ts2の2番目の区間信号N+2を、1/2pitch区間ごとに順次、順時間方向、逆時間方向、順時間方向の順で配列している。これより後は、3番目以降の区間信号ごとに、順時間方向、逆時間方向、順時間方向の順で、1/2pitch区間に対して順次配列していくようにする。これをノイズ後元信号区間Ts2の最後の区間信号まで行うと、後補間信号が終端まで形成されることになる。
そのうえで、前補間信号における最後の単位補間信号部分partと、後補間信号における最初の単位補間信号部分partとの間には、図26(b)に示すようにして、1つの1/2pitch周期区間分の、連結部分combを設けることとしている。
この連結部分combには、ノイズ前元信号区間Ts1の最後の区間信号Nと、ノイズ後元信号区間Ts2の最初の区間信号N+1とをクロスフェードさせた音声信号を配置する。このときのクロスフェードとしては、区間信号Nが0%〜100%で増加し、区間信号N+1が100%〜0%で減衰するようにされている。これにより、直前の1/2pitch区間とクロスフェードの1/2pitch区間との境界では、順時間方向の区間信号N-1の終了位置と、順時間方向の区間信号Nの開始位置との点接続が得られる。また、クロスフェードの1/2pitch区間とその直後の1/2pitch区間との境界では、順時間方向の区間信号N+1の終了位置と、順時間方向の区間信号N+2の開始位置との点接続が得られる。
前補間信号と後補間信号を利用した最も簡単な元補間信号の生成の仕方としては、単に、単位補間信号部分partの連結のみから成る前補間信号に続けて、同じく単位補間信号部分partの連結のみから成る後補間信号を連結すればよい。つまり、図26(b)から連結部分combを取り除いて、連結した構造とするものである。しかし、このような元補間信号では、前補間信号の終了位置と、後補間信号の開始位置とで点接続を得ることができなくなる。そこで、図26の例では、上記のようにして連結部分combを設けることとしている。
上記した前補間信号と後補間信号の各生成処理は、第2例のピッチ対応補間信号生成処理と同様に、ノイズ後元信号区間の入力音声信号を3倍に拡大していくものである。従って、ノイズ前元信号区間Ts1は、前補間信号区間Tn-1の1/3の時間幅を設定すればよい。同様に、ノイズ後元信号区間Ts2も、後補間信号区間Tn-2の1/3の時間幅を設定すればよい。
このようにして前補間信号と後補間信号とを連結して元補間信号を生成する構成は、先の第2例としてのノイズ低減装置の場合と同様にして、補間信号とその前後の入力音声信号とで連続性をより高く保つことが可能である。そのうえで、ノイズ発生期間Tnの前後で、入力音声信号のピッチに変化が生じている可能性は当然にあり得るが、特に、この第3例のピッチ対応補間信号生成処理であれば、このようなノイズ発生期間前後のピッチ周期の変化にも対応して、より高い連続性を保つことが可能になり、さらに自然な聴感が期待できる。
また、この第3例の場合、同じ時間幅によるノイズ発生期間Tnに対しては、ノイズ前元信号区間Ts1、ノイズ後元信号区間Ts2のそれぞれについて、第2例における図22のノイズ前元信号区間Ts1よりも短くできるというメリットもある。
<7.ノイズ低減装置の構成例(第4例)>

図21は、第4例としてのノイズ低減装置の構成例を示している。
なお、この図において、第1例として図14に示した構成と同一部分には同一符号を付して説明を省略する。この図21に示す構成は、入力音声信号に基づくのではなく、補間信号源発生部35にて発生される補間信号源(利用音声信号)を基として補間信号を生成しようとする点では、図14の第1例と共通している。
図21においては、図14の構成に加えて、ピッチ算出部51と補間信号生成部35Cが設けられている。
また、この図においても、図20に準じて、ノイズ除去フィルタ33、加算器34、補間信号源発生部35、元補間信号生成部35C、補間フィルタ36、及びピッチ算出部51から成る部位を、ノイズ除去・補間部50としており、ノイズタイミング生成処理部38からは、このノイズ除去・補間部50に対してノイズ認識情報を出力する構成としている。
ピッチ算出部51は、図20に示す第3例のノイズ低減装置と同様の構成を採るものであり、アンプ32からの入力音声信号についてのピッチを算出し、算出したピッチを示す情報を元補間信号生成部35Cに出力する。
元補間信号生成部35Cは、補間信号源を補間信号の生成元信号として入力するとともに、算出された入力音声信号のピッチに基づいて、下記のようにして、元補間信号を生成する。
この第4例としてのノイズ低減装置では、ピッチ対応補間信号生成処理として、第1例、第2例、第3例の何れにも準じた処理が可能なように構成できる。
なお、ピッチ算出部51については、先の第1例、第2例に準じたピッチ対応補間信号生成処理とする場合には、図22と同じ処理を実行させるように構成する。つまり、ノイズ発生期間Tnを除いた、その前後における何れか一方の入力音声信号を利用してピッチを算出する。また、先の第3例に準じたピッチ対応補間信号生成処理とする場合には、図25と同じ処理を実行させるように構成する。
先ず、第1例に準じたピッチ対応補間信号生成処理から説明する。
この場合の元補間信号生成部35Cは、補間信号源としての音声信号から、ノイズ発生期間Tnの2/3倍の時間幅の音声信号を取り出す。これは、図22におけるノイズ前元信号区間Ts1を設定し、このノイズ前元信号区間Ts1内の音声信号を取り出す処理に相当する。ただし、補間信号源は、連続的に発生される音声信号であり、入力音声信号のようにしてノイズが混入することはない。従って、補間信号源からノイズ発生期間Tnの2/3倍の時間幅の音声信号を取り出すタイミングは任意でよい。
そのうえで、元補間信号生成部35Cは、補間信号源を1/2pitch周期の区間信号に区分し、図23にて説明したのと同じ処理により、ノイズ発生期間Tnだけの時間幅の元補間信号を生成し、これを補間フィルタ36に出力する。
また、第2例に準じたピット対応補間信号生成処理とする場合、元補間信号生成部35Cは、補間信号源としての音声信号から、ノイズ発生期間Tnの1/3の時間幅の音声信号を任意のタイミングで取り出す。
そのうえで、元補間信号生成部35Cは、補間信号源を1/2pitch周期の区間信号に区分し、図24にて説明したのと同じ処理により、ノイズ発生期間Tnだけの時間幅の元補間信号を生成し、これを補間フィルタ36に出力する。
また、第3例に準じたピット対応補間信号生成処理とする場合、元補間信号生成部35Cは、補間信号源としての音声信号から、前補間信号期間Tn-1の1/3の時間幅(図25のノイズ前元信号区間Ts1と同じ時間幅)の音声信号を任意のタイミングで取り出し、これをノイズ前元信号とする。同様に、補間信号源としての音声信号から、後補間信号期間Tn-2の1/3の時間幅(図25のノイズ後元信号区間Ts2と同じ時間幅)の音声信号を任意のタイミングで取り出し、これを、ノイズ後元信号とする。
そのうえで、元補間信号生成部35Cは、ノイズ前元信号とノイズ後元信号を1/2pitch周期の区間信号に区分し、ここでは、図26と同じ処理によって元補間信号を生成する。
この第4例のノイズ低減装置の場合、ピッチ対応補間信号生成処理により生成する元補間信号は、入力音声信号ではなく補間信号源、つまり、例えばトーン信号とM系列信号とが合成された音声信号とされている。
しかし、このような入力音声信号とは異なる信号により補間する場合にも、入力音声信号のピッチに基づいて、上記の処理により元補間信号を生成することで、例えば単純に補間信号源を順時間方向で連結して元補間信号を生成した場合と比較して、より自然な聴感が得られる。このことについては、本願発明者が実験により確認している。
なお、上記したピッチ対応補間信号生成処理(第1例〜第3例)を実行する、第3例及び第4例のノイズ低減装置(図20,図21)では、ノイズ除去フィルタ33と補間フィルタ36とを備えることにより、ノイズ発生期間においては、入力音声信号からノイズが発生した分割周波数のみを除去して、ノイズが発生していない分割周波数はそのまま残してノイズ除去信号を生成したうえで、上記除去された分割周波数のみから成る帯域特性の補間信号によりノイズ除去信号を補間するようにしている。これにより、これまでにも述べてきたように、ノイズ発生期間における入力音声信号の成分をできるだけ残して、ノイズ発生期間の前後の期間との入力音声信号との連続性を高めるようにしている。
しかし、ピッチ対応補間信号生成処理(第1例〜第3例)に関しては、ノイズ発生期間において、入力音声信号の全帯域を除去し、代わりに、この全帯域と同じ帯域特性を有する補間信号を補間するようにして構成してもよい。
このようなノイズ除去・補間の手法を採用したとしても、補間信号自体は、図23,図24,図26に示したピッチ対応補間信号生成処理(第1例〜第3例)としての処理により生成される。従って、1/2pitch周期区間ごとに波形が点接続されて高調波の発生が抑制されること、クロスフェード期間が短い,若しくは無くなることで、位相条件によるレベル低下の発生が解消されるなどの利点は、有効に得られるからである。
また、上記実施形態各例のノイズ低減装置として示した各図の構成において、マイクロフォン31より後段の、アンプ32以降の構成部位は、ハードウェアにより構成することができる。また、DSP(Digital Signal Processor)などとして構成することができる、つまり、DSPとしてのハードウェアに与えるべきプログラム(インストラクション)により実現できる。また、CPU(Central Processing Unit)が実行するプログラムとして実現できる。また、上記ハードウェア、DSP、CPUのプログラムの少なくとも2つのうちから適宜選択して組み合わせるようにして構成することも可能である。
また、上記したプログラムは、例えばノイズ低減装置のROM、HDD、フラッシュ目メモリなどにより構成できる補助記憶装置に記憶させておくほか、例えばリムーバブルの記憶媒体に記憶させて保存することが可能である。また、プログラムをネットワーク上のサーバなどに保存しておき、例えばネットワーク経由でダウンロードするなどしてユーザが取得できるようにすることも可能である。
また、上記実施形態各例のノイズ低減装置が適用される機器としては、例えば、ビデオカメラ装置、録音機能を有するデジタルスチルカメラ、携帯電話装置、ICレコーダなど、マイクロフォンを有して収音音声を記録媒体に記録(録音)可能な記録再生装置を挙げることができる。このような機器では、例えばマイクロフォンによる収音音声から、ほほリアルタイムにノイズを除去して録音していく必要があるが、本実施形態のノイズ低減装置の構成は、このようにリアルタイム性をもってノイズ判定とノイズ除去を行っていこうとする場合において有用なものとなる。
しかし、本実施形態のノイズ低減装置が入力する、ノイズ音を含み得る音声源としては、マイクロフォンにより収音したものだけではなく、例えば、既に記録媒体に録音(記録)された音声を読み出して得られる音声信号とすることについて、何ら支障はない。つまり、入力音声信号を得るための音声信号入力手段としてはマイクロフォンを備える音声入力系に限定されない。
1,1A ノイズ認識処理部、11 フレーム化部、12 FFT部、13 3次元対応パターン化部、14 ノイズ判定部、15 マッチングテーブル、16 2次元対応パターン化部、17 パターンマッチング部、18 ノイズパターン記憶部、21 ピーク検出部、22−1〜22−n 多項式演算/正規化部、
31 マイクロフォン、32 アンプ、33 ノイズ除去フィルタ、34 加算器、35 補間信号源発生部、35a・35b・35c 元補間信号生成部、36 補間フィルタ、37 ノイズ認識処理部、38 ノイズタイミング生成処理部、39 スイッチ、41 トーン信号発生部、42 M系列信号発生部、43 合成部、51 ピッチ算出部

Claims (15)

  1. 音声信号を入力して入力音声信号を取得する音声信号入力手段と、
    上記入力音声信号におけるノイズ音発生期間を検出するノイズ発生期間検出手段と、
    上記入力音声信号から、ノイズ音発生期間において発生しているとするノイズ音を除去するノイズ除去手段と、
    補間信号の生成に利用されるべき利用音声信号から、ノイズ発生期間の時間幅に対応して決まる時間幅の生成元信号を取得する生成元信号取得手段と、
    上記音声信号入力手段により入力される入力音声信号において、上記ノイズ発生期間の近傍の入力音声信号区間のピッチを算出するピッチ算出手段と、
    上記生成元信号から、上記ピッチ算出手段により算出されたピッチに基づいて設定される単位周期区間ごとに分割した区間信号を設定する区間信号設定手段と、
    同じ単位周期区間の区間信号を連結して形成される単位補間信号部分を、時間軸上で並べていくことに基づいて、ノイズ発生期間に対応する時間幅の補間信号を生成するもので、少なくとも、上記単位補間信号部分については、時間順方向の区間信号と逆時間方向の区間信号とを交互に並べていくようにして形成する、補間信号生成手段と、
    上記ノイズ除去手段によりノイズが除去された上記入力音声信号と、上記補間信号とを合成して出力する合成手段と、
    を備えるノイズ低減装置。
  2. 上記生成元信号取得手段は、
    前側生成元信号と、この後ろに連結される後側生成元信号とから成る生成元信号を取得するものとされ、
    上記前側生成元信号については、上記ノイズ発生期間を除いた、これより前の期間における上記利用音声信号から取得し、
    上記後側生成元信号については、上記ノイズ発生期間を除いた、これより後の期間における上記利用音声信号から取得し、
    上記補間信号生成手段は、
    上記前側生成元信号について設定された区間信号に基づいて、ノイズ発生期間の前側期間に対応する時間幅の前補間信号を生成し、
    上記後側生成元信号について設定された区間信号に基づいて、ノイズ発生期間の後側期間に対応する時間幅の後補間信号を生成し、
    上記前補間信号に続けて後補間信号を連結して補間信号を生成する、
    請求項1に記載のノイズ低減装置。
  3. ノイズ発生期間におけるノイズ音のピークを検出するピーク検出手段をさらに備え、
    上記補間信号生成手段は、
    上記ノイズ発生期間の前側期間について、ノイズ発生の開始から、上記ピーク検出手段により検出されたノイズ音のピークタイミングまでの期間とし、
    上記ノイズ発生期間の後側期間について、上記ピーク検出手段により検出されたノイズ音のピークタイミングから、ノイズ発生の終了までの期間とする、
    請求項2に記載のノイズ低減装置。
  4. 上記補間信号生成手段は、
    前補間信号における最後の単位補間信号部分と、後補間信号における最初の単位補間信号部分との間に連結部分を設けることとして、
    この連結部分については、
    上記前側生成元信号から、上記最後の単位補間信号部分における最後の区間信号と振幅波形が接続する第1合成区間信号を取得し、
    上記後側生成元信号から取得した、上記最初の単位補間信号部分における最初の区間信号と振幅波形が接続する第2合成区間信号を取得し、
    上記第1合成区間信号が徐々に減衰し、上記第2合成区間信号が徐々に増大するようにして合成を行う、
    請求項2又は請求項3に記載のノイズ低減装置。
  5. 上記生成元信号取得手段は、
    上記ノイズ発生期間を除いた、これより前の期間、若しくは後の期間における上記利用音声信号から上記生成元信号を取得する、
    請求項1に記載のノイズ低減装置。
  6. 上記補間信号部分を偶数の区間信号により形成する場合には、上記単位補間信号部分を、生成元の区間信号の時間順に対応させて並べていくようにしたうえで、
    単位補間信号部分における最後の区間信号の期間については、次の単位補間信号部分の最初の区間信号の期間と重複させることとし、この重複する期間においては、上記最後の単位周期区間に対応する区間信号が徐々に減衰し、上記最初の単位周期区間に対応する区間信号が徐々に増大するようにして合成を行う、
    請求項1乃至請求項5の何れかに記載のノイズ低減装置。
  7. 上記補間信号部分を奇数の区間信号により形成する場合には、上記単位補間信号部分を、生成元の区間信号の時間順に対応させて連結していくことにより、上記補間信号を生成する、
    請求項1乃至請求項6の何れかに記載のノイズ低減装置。
  8. 上記生成元信号取得手段は、
    上記生成元信号の時間幅、又は、上記前側生成元信号及び後側生成元信号の時間幅について、上記単位補間信号部分の形成に利用される区間信号数と、ノイズ発生期間の時間幅とに基づいて求める、
    請求項1乃至請求項7のいずれかに記載のノイズ低減装置。
  9. 上記ピッチ算出手段は、
    上記ノイズ発生期間を除いた、これより前の期間、若しくは後の期間における上記入力音声信号区間のピッチを算出する、
    請求項1乃至請求項8に記載のノイズ低減装置。
  10. 上記生成元信号取得手段は、
    上記利用音声信号として上記入力音声信号を入力する、
    請求項1乃至請求項9のいずれかに記載のノイズ低減装置。
  11. 上記入力音声信号の入力に基づかない音声信号である補間信号源を発生して、上記利用音声信号として出力する補間信号源発生手段をさらに備える、
    請求項1乃至請求項9のいずれかに記載のノイズ低減装置。
  12. 上記入力音声信号においてノイズが発生している周波数を検出するノイズ発生周波数検出手段をさらに備え、
    上記ノイズ除去手段は、ノイズが発生していると検出された周波数のみを遮断する通過帯域特性を設定し、
    上記補間信号生成手段は、ノイズが発生していると検出された周波数のみを通過させる通過帯域特性を設定する、
    請求項1乃至請求項11のいずれかに記載のノイズ低減装置。
  13. 上記合成手段から出力される音声信号と上記入力音声信号とを入力して、上記ノイズ発生期間においては、上記合成手段から出力される音声信号を出力し、上記ノイズ発生期間以外の期間においては、上記入力音声信号を出力する、スイッチ手段をさらに備える、
    請求項1乃至請求項12の何れかに記載のノイズ低減装置。
  14. 上記スイッチ手段は、
    上記ノイズ発生期間における始めの期間においては、上記合成手段から出力される音声信号のレベルが徐々に増大し、上記入力音声信号のレベルが徐々に減衰されるように、
    上記ノイズ発生期間における終わりの期間においては、上記合成手段から出力される音声信号のレベルが徐々に減衰し、上記入力音声信号のレベルが徐々に増大されるように、クロスフェード処理を実行する、
    請求項13に記載のノイズ低減装置。
  15. 入力音声信号を入力する音声信号入力手順と、
    上記入力音声信号におけるノイズ音発生期間を検出するノイズ発生期間検出手順と、
    上記入力音声信号から、ノイズ音発生期間において発生しているとするノイズ音を除去するノイズ除去手順と、
    補間信号の生成に利用されるべき利用音声信号から、ノイズ発生期間の時間幅に対応して決まる時間幅の生成元信号を取得する生成元信号取得手順と、
    上記音声信号入力手順により入力される入力音声信号において、上記ノイズ発生期間の近傍の入力音声信号区間のピッチを算出するピッチ算出手順と、
    上記生成元信号から、上記ピッチ算出手順により算出されたピッチに基づいて設定される単位周期区間ごとに分割した区間信号を設定する区間信号設定手順と、
    同じ単位周期区間の区間信号を連結して形成される単位補間信号部分を、時間軸上で並べていくことに基づいて、ノイズ発生期間に対応する時間幅の補間信号を生成するもので、少なくとも、上記単位補間信号部分については、時間順方向の区間信号と逆時間方向の区間信号とを交互に並べていくようにして形成する、補間信号生成手順と、
    上記ノイズ除去手順によりノイズが除去された上記入力音声信号と、上記補間信号とを合成して出力する合成手順と、
    を実行するノイズ低減方法。
JP2009097190A 2009-04-13 2009-04-13 ノイズ低減装置、ノイズ低減方法 Pending JP2010249940A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009097190A JP2010249940A (ja) 2009-04-13 2009-04-13 ノイズ低減装置、ノイズ低減方法
US12/707,906 US8331583B2 (en) 2009-04-13 2010-02-18 Noise reducing apparatus and noise reducing method
CN2010101545534A CN101859583B (zh) 2009-04-13 2010-04-02 噪声减小设备和噪声减小方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009097190A JP2010249940A (ja) 2009-04-13 2009-04-13 ノイズ低減装置、ノイズ低減方法

Publications (2)

Publication Number Publication Date
JP2010249940A true JP2010249940A (ja) 2010-11-04
JP2010249940A5 JP2010249940A5 (ja) 2012-04-12

Family

ID=42934427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009097190A Pending JP2010249940A (ja) 2009-04-13 2009-04-13 ノイズ低減装置、ノイズ低減方法

Country Status (3)

Country Link
US (1) US8331583B2 (ja)
JP (1) JP2010249940A (ja)
CN (1) CN101859583B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012203040A (ja) * 2011-03-23 2012-10-22 Canon Inc 音声信号処理装置、及びその制御方法
WO2018116944A1 (ja) * 2016-12-20 2018-06-28 三菱電機株式会社 音声ノイズ検出装置、デジタル放送受信装置、及び音声ノイズ検出方法
WO2022018864A1 (ja) * 2020-07-22 2022-01-27 2nd Community株式会社 音データ処理装置、音データ処理方法及び音データ処理プログラム

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010249939A (ja) * 2009-04-13 2010-11-04 Sony Corp ノイズ低減装置、ノイズ判定方法
US8423357B2 (en) * 2010-06-18 2013-04-16 Alon Konchitsky System and method for biometric acoustic noise reduction
JP5656586B2 (ja) * 2010-11-26 2015-01-21 キヤノン株式会社 撮像装置とその制御方法並びに音声処理装置及び方法
US20130064423A1 (en) * 2011-09-09 2013-03-14 Sony Corporation Feature extraction and processing from signals of sensor arrays
JP6144945B2 (ja) * 2013-03-29 2017-06-07 キヤノン株式会社 信号処理装置及び方法
JP2015122726A (ja) * 2013-11-25 2015-07-02 株式会社リコー 画像処理装置、画像処理方法及び画像処理プログラム
JP6050739B2 (ja) * 2013-11-27 2016-12-21 京セラドキュメントソリューションズ株式会社 画像処理装置及び画像処理方法
JP6292911B2 (ja) * 2014-02-07 2018-03-14 キヤノン株式会社 画像処理方法、画像処理プログラムおよび画像処理装置
JP6206271B2 (ja) * 2014-03-17 2017-10-04 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法及び雑音低減プログラム
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
DE102015216758A1 (de) * 2015-09-02 2017-03-16 Rohde & Schwarz Gmbh & Co. Kg Verfahren und Messgerät zum Ermitteln von Signalparametern
JP6559576B2 (ja) * 2016-01-05 2019-08-14 株式会社東芝 雑音抑圧装置、雑音抑圧方法及びプログラム
US10365763B2 (en) * 2016-04-13 2019-07-30 Microsoft Technology Licensing, Llc Selective attenuation of sound for display devices
CN108154880A (zh) * 2016-12-05 2018-06-12 广东大仓机器人科技有限公司 能实时分辨环境噪音进行语音识别的机器人
JP2018118621A (ja) * 2017-01-25 2018-08-02 パナソニックIpマネジメント株式会社 能動騒音低減装置、車両、及び、異常判定方法
CN107966910B (zh) * 2017-11-30 2021-08-03 深圳Tcl新技术有限公司 语音处理方法、智能音箱及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002202790A (ja) * 2000-12-28 2002-07-19 Yamaha Corp 歌唱合成装置
JP2004354462A (ja) * 2003-05-27 2004-12-16 Toshiba Corp 話速変換装置、方法、及びそのプログラム
JP2008052771A (ja) * 2006-08-22 2008-03-06 Sony Corp 記録装置、ノイズ除去制御方法、ノイズ除去制御装置
JP2008287041A (ja) * 2007-05-18 2008-11-27 Sony Corp 撮像装置、音声処理回路、ノイズ低減回路、ノイズ低減方法およびプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02235266A (ja) * 1989-03-07 1990-09-18 Matsushita Electric Ind Co Ltd データ補正装置
DE69124005T2 (de) * 1990-05-28 1997-07-31 Matsushita Electric Ind Co Ltd Sprachsignalverarbeitungsvorrichtung
JPH0772897A (ja) * 1993-09-01 1995-03-17 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法および装置
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JP3339315B2 (ja) * 1996-07-31 2002-10-28 ソニー株式会社 ディジタル信号処理装置、記録装置及び再生装置
DE19727133A1 (de) * 1997-06-26 1999-01-07 Thomson Brandt Gmbh Verfahren, Vorrichtung und Aufzeichnungsgerät zur Unterdrückung von impulsartigen Störungen in analogen Audio- und/oder Videosignalen
US6523003B1 (en) * 2000-03-28 2003-02-18 Tellabs Operations, Inc. Spectrally interdependent gain adjustment techniques
US8271279B2 (en) * 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
JP4476654B2 (ja) * 2004-03-17 2010-06-09 旭化成株式会社 音声合成装置、音声合成方法及び音声合成装置制御プログラム
JP4218573B2 (ja) * 2004-04-12 2009-02-04 ソニー株式会社 ノイズ低減方法及び装置
JP2007150737A (ja) * 2005-11-28 2007-06-14 Sony Corp 音声信号ノイズ低減装置及び方法
JP2007316254A (ja) * 2006-05-24 2007-12-06 Sony Corp オーディオ信号補間方法及びオーディオ信号補間装置
JP2008052772A (ja) 2006-08-22 2008-03-06 Sony Corp 記録装置、ノイズ除去方法、ノイズ除去装置
JP4826402B2 (ja) 2006-09-12 2011-11-30 ソニー株式会社 記録装置、ノイズ除去方法、ノイズ除去装置
JP2008077707A (ja) 2006-09-19 2008-04-03 Sony Corp 記録装置、ノイズ除去方法、ノイズ除去装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002202790A (ja) * 2000-12-28 2002-07-19 Yamaha Corp 歌唱合成装置
JP2004354462A (ja) * 2003-05-27 2004-12-16 Toshiba Corp 話速変換装置、方法、及びそのプログラム
JP2008052771A (ja) * 2006-08-22 2008-03-06 Sony Corp 記録装置、ノイズ除去制御方法、ノイズ除去制御装置
JP2008287041A (ja) * 2007-05-18 2008-11-27 Sony Corp 撮像装置、音声処理回路、ノイズ低減回路、ノイズ低減方法およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012203040A (ja) * 2011-03-23 2012-10-22 Canon Inc 音声信号処理装置、及びその制御方法
WO2018116944A1 (ja) * 2016-12-20 2018-06-28 三菱電機株式会社 音声ノイズ検出装置、デジタル放送受信装置、及び音声ノイズ検出方法
JPWO2018116944A1 (ja) * 2016-12-20 2019-04-11 三菱電機株式会社 音声ノイズ検出装置、デジタル放送受信装置、及び音声ノイズ検出方法
WO2022018864A1 (ja) * 2020-07-22 2022-01-27 2nd Community株式会社 音データ処理装置、音データ処理方法及び音データ処理プログラム
JPWO2022018864A1 (ja) * 2020-07-22 2022-01-27
JP7160264B2 (ja) 2020-07-22 2022-10-25 2nd Community株式会社 音データ処理装置、音データ処理方法及び音データ処理プログラム

Also Published As

Publication number Publication date
CN101859583A (zh) 2010-10-13
US20100260354A1 (en) 2010-10-14
CN101859583B (zh) 2012-04-25
US8331583B2 (en) 2012-12-11

Similar Documents

Publication Publication Date Title
JP2010249939A (ja) ノイズ低減装置、ノイズ判定方法
JP2010249940A (ja) ノイズ低減装置、ノイズ低減方法
JP2007316254A (ja) オーディオ信号補間方法及びオーディオ信号補間装置
CN111383646B (zh) 一种语音信号变换方法、装置、设备和存储介质
JP4031813B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法およびその方法をコンピュータに実行させるプログラム
JP5147851B2 (ja) オーディオ信号補間装置及びオーディオ信号補間方法
JP2005266797A (ja) 音源信号分離装置及び方法、並びにピッチ検出装置及び方法
JP5651945B2 (ja) 音響処理装置
JP2798003B2 (ja) 音声帯域拡大装置および音声帯域拡大方法
JP4952368B2 (ja) 収音装置
JP2002175099A (ja) 雑音抑制方法および雑音抑制装置
JP5163606B2 (ja) 音声分析合成装置、及びプログラム
JP4513556B2 (ja) 音声分析合成装置、及びプログラム
EP4276824A1 (en) Method for modifying an audio signal without phasiness
EP3447767A1 (en) Method for phase correction in a phase vocoder and device
JP6589404B2 (ja) 音響信号の符号化装置
JP2019086724A (ja) 音声処理装置
JPS6091227A (ja) 音響解析装置の合成装置
JP4512008B2 (ja) 楽音情報生成装置、方法及びプログラム
JP2010026044A (ja) 残響付与装置およびプログラム
JP5495858B2 (ja) 音楽音響信号のピッチ推定装置及び方法
JP4361919B2 (ja) カラオケ装置
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体
Kreutzer et al. Time Domain Attack and Release Modeling-Applied to Spectral Domain Sound Synthesis
JP2004328361A (ja) 倍音生成方法および倍音生成装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120224

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121204

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130402