JP2010249940A

JP2010249940A - ノイズ低減装置、ノイズ低減方法

Info

Publication number: JP2010249940A
Application number: JP2009097190A
Authority: JP
Inventors: Kazuhiko Ozawa; 一彦小沢
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-04-13
Filing date: 2009-04-13
Publication date: 2010-11-04
Also published as: CN101859583A; US20100260354A1; CN101859583B; US8331583B2

Abstract

【課題】これまでよりも高品位な音声が得られるノイズ低減装置を提供する。
【解決手段】入力音声信号のピッチに対応する所定の単位周期区間ごとに、生成元信号の時間方向を反転させた区間信号を連結して単位補間信号部分を形成し、さらにこの単位補間信号部分を時系列に並べて補間信号を生成する。この補間信号と、入力音声信号からノイズ音成分を除去して得た音声信号とを合成する。
【選択図】図２６

Description

本発明は、例えば音声信号に含まれるノイズを除去(低減)するノイズ低減装置と、その方法とに関する。

例えばビデオカメラ、デジタルスチルカメラ、携帯電話、ICレコーダなどの電子機器には、マイクロフォンが内蔵されている。このような電子機器では、例えば内蔵のディスクドライブなどのヘッドシーク音やリトラクト音、レンズ機構におけるレンズ駆動音、また、ユーザ操作などによるクリック音、タッチ音など、時間的に断続して不規則に発生するノイズが生じ得る。上記した電子機器においては、このようなノイズをマイクロフォンが拾ってしまうことが問題となる。

そこで、例えば特許文献１〜３などのようにして、音声信号若しくは振動センサのセンサ出力からノイズ発生タイミングを検出し、この検出されたノイズ発生タイミングに対応した期間において、音声信号についてノイズ除去(ノイズ低減)を実行する構成が提案されている。

特開２００８−５２７７２号公報特開２００８−７１３７４号公報特開２００８−７７７０７号公報

上記のようにして除去対象とするノイズが時間的に断続して不規則に発生するものである場合、そのノイズの発生状況を正確に認識し、この認識結果に基づいてノイズ除去処理を実行することが、例えばリソースの有効利用、また、音響面の点などで有利となる。
本願発明は、例えばノイズ除去を行うために、第１には、除去対象であるノイズの発生状況をこれまでよりも正確に判定できるようにすることを、その課題とする。

そこで本発明は上記した課題を考慮して、ノイズ低減装置として次のように構成する。
つまり、音声信号を入力して入力音声信号を取得する音声信号入力手段と、上記入力音声信号におけるノイズ音発生期間を検出するノイズ発生期間検出手段と、上記入力音声信号から、ノイズ音発生期間において発生しているとするノイズ音を除去するノイズ除去手段と、補間信号の生成に利用されるべき利用音声信号から、ノイズ発生期間の時間幅に対応して決まる時間幅の生成元信号を取得する生成元信号取得手段と、上記音声信号入力手段により入力される入力音声信号において、上記ノイズ発生期間の近傍の入力音声信号区間のピッチを算出するピッチ算出手段と、上記生成元信号から、上記ピッチ算出手段により算出されたピッチに基づいて設定される単位周期区間ごとに分割した区間信号を設定する区間信号設定手段と、同じ単位周期区間の区間信号を連結して形成される単位補間信号部分を、時間軸上で並べていくことに基づいて、ノイズ発生期間に対応する時間幅の補間信号を生成するもので、少なくとも、上記単位補間信号部分については、時間順方向の区間信号と逆時間方向の区間信号とを交互に並べていくようにして形成する、補間信号生成手段と、上記ノイズ除去手段によりノイズが除去された上記入力音声信号と上記補間信号とを合成して出力する合成手段とを備えることとした。

上記構成では、ノイズ発生期間において入力音声信号からノイズ音を除去したうえで、このノイズ音除去により失われた音声を補間するための補間信号として、次のように生成する。
つまり、入力音声信号のピッチに対応する所定の単位周期区間ごとに、生成元信号の時間方向を反転させた区間信号を連結して単位補間信号部分を形成し、さらにこの単位補間信号部分を時系列に並べて補間信号を生成する。
このようにして生成される補間信号としては、入力音声信号のピッチに対応した周波数特性の補間信号が得られるものとされたうえで、区間信号の境界において振幅波形を接続することができ、高調波が抑制される。

このようにして、本発明は、補間信号について、高品位なものが得られることになる。そして、この補間信号によりノイズ除去後の音声信号の補間処理を行えば、補間後の音声信号としても高品位な音質が得られることになる。

本願発明を実施するための形態（実施形態）のノイズ低減装置が実行する手順の流れを示すフローチャートである。実施形態のノイズ認識処理部（第１例）の構成例を示すブロック図である。実施形態のＦＦＴ部が実行するとされるＦＦＴ処理例を模式的に示す図である。実施形態のＦＦＴ部が実行するとされる、フレーム単位でのＦＦＴ処理例を模式的に示す図である。実施形態の３次元対応パターン化部の構成例を示す図である。実施形態のＦＦＴ部による処理結果例を３次元波形として示す図である。実施形態のピーク検出部が実行するピーク検出処理を模式的に示す図である。サンプリング点の時系列により表される分割周波数信号の例を示す図である。ピーク検出された分割周波数信号を４次多項式化し、時間方向正規化、振幅方向正規化を行ったとする場合の例を示す図である。ピーク検出された分割周波数信号を２次多項式化し、時間方向正規化、振幅方向正規化を行ったとする場合の例を示す図である。実施形態のマッチングテーブルが示す係数パターンのマッチング範囲を模式的に示す図である。実施形態のマッチングテーブルの内容例を示す図である。実施形態のノイズ認識処理部（第２例）の構成例を示すブロック図である。実施形態のノイズ低減装置（第１例）の構成例を示すブロック図である。実施形態のノイズ低減装置（第２例）の構成例を示すブロック図である。補間信号源発生部の構成例を示すブロック図である。第２例のノイズ低減装置における補間信号生成処理例を模式的に示す図である。ノイズ除去・補間が施された音声信号と、入力音声信号との切り換えのタイミングの態様例を示す図である。ノイズ発生期間の算出処理例を模式的に示す図である。実施形態のノイズ低減装置（第３例）の構成例を示すブロック図である。実施形態のノイズ低減装置（第４例）の構成例を示すブロック図である。第３例、第４例のノイズ低減装置に適用できる、ピッチ対応補間信号生成処理（第１例、第２例）のピッチ算出及び元補間信号生成の流れを模式的に示す図である。第１例のピッチ対応補間信号生成処理を模式的に示す図である。第２例のピッチ対応補間信号生成処理を模式的に示す図である。第３例、第４例のノイズ低減装置に適用できるピッチ対応補間信号生成処理（第３例）のピッチ算出及び元補間信号生成の流れを模式的に示す図である。第３例のピッチ対応補間信号生成処理を模式的に示す図である。

以下、本願発明を実施するための形態（以下、実施形態という）について、下記の順により説明する。

＜１．ノイズ除去処理の全体的な流れ＞
＜２．ノイズ認識処理部の構成例(第１例)＞
［２−１．全体構成］
［２−２．ＦＦＴ処理］
［２−３．ピーク検出］
［２−４．多項式演算／正規化処理］
［２−５．ノイズ有無判定処理］
＜３．ノイズ認識処理部の構成例(第２例)＞
＜４．ノイズ低減装置の構成例（第１例）＞
［４−１．全体構成］
［４−２．ノイズ発生期間判定処理］
＜５．ノイズ低減装置の構成例（第２例）＞
＜６．ノイズ低減装置の構成例（第３例）＞
［６−１．全体構成例］
［６−２．ピッチに基づく補間信号生成処理（第１例）］
［６−３．ピッチに基づく補間信号生成処理（第２例）］
［６−４．ピッチに基づく補間信号生成処理（第３例）］
＜７．ノイズ低減装置の構成例（第４例）＞

なお、以降において、ノイズを対象としての除去、若しくは低減、という語句を用いるが、本願においては、ノイズを対象とする除去、低減は、同等の意味を持つものとする。ノイズの除去は、音声信号に重畳されているノイズを取り除こうとする動作、処理からみた語句といえる。このノイズ除去の結果としては、例えば厳密な意味で完全にノイズが取り除かれるのではなく、或る程度の成分が残留する場合がある。ノイズ低減は、このようにしてノイズ除去処理の結果からみた語句といえる。

＜１．ノイズ除去処理の全体的な流れ＞

図１のフローチャートは、本実施形態としてのノイズ低減処理装置に適用できる、ノイズ低減のための処理の全体的な手順例を示している。
なお、前提として、本実施形態のノイズ低減装置は、音声に重畳されるノイズとして、時間的に断続して不規則に発生するノイズを除去対象とする。このような時間的に断続して不規則に発生するノイズは、例えば電子機器がディスクドライブ装置を内蔵する記録再生装置などである場合には、この内蔵のディスクドライブ装置のヘッドシーク音やリトラクト音などが発生源となり得る。またビデオカメラ装置、デジタルスチルカメラなどの撮像部を備える場合には、レンズ機構におけるレンズ駆動音、また、ユーザ操作などによるクリック音、タッチ音などが発生源となる。

図１においては、先ず、ステップＳ１０１は、除去対象とするノイズが合成されている可能性のある音声信号を入力する。このステップＳ１０１により入力する音声信号源は、例えば、後述するようにしてマイクロフォンにより収音して得られる音などとなる。

ステップＳ１０２は、上記ステップＳ１０１により入力した音声信号から、ノイズに相当する音成分についての特徴量(ノイズ特徴量)を抽出する。このときには、ステップＳ１０４に対応したノイズ定義に基づいて、音声信号から特定の特徴量を抽出する。
ステップＳ１０３においては、上記ステップＳ１０２により抽出したノイズ特徴量の情報と、ステップＳ１０４により入力したノイズ定義の情報とを比較する。ノイズ定義の情報は、予め想定したノイズ発生源が発するとするノイズの音などから得たノイズ特徴量のデータから成る。
ステップＳ１０４での比較結果として、ノイズ定義の情報とノイズ特徴量の情報とについて、一定以上の近似率があると判定されたときには、ノイズ有りと判定する。これに対して上記近似率が一定以下であると判定されたときにはノイズ無しと判定する。

ステップＳ１０４にてノイズ無しとの判定結果が得られた場合には、ノイズ除去処理を行うことなく、ステップＳ１０７により入力した音声信号の出力を行う。
これに対して、ノイズ有りとの判定結果が得られた場合には、ステップＳ１０５，Ｓ１０６の処理を実行する。

ステップＳ１０５は、ノイズ発生期間を検出するものとしている。つまり、ステップＳ１０４まではノイズの有無について検出したのであるが、ステップＳ１０５では、検出されたノイズについて、その発生期間（発生タイミング）を検出する。

ステップＳ１０６は、上記ステップＳ１０５により検出されたノイズ発生期間に対応して、ステップＳ１０１により入力した音声信号からノイズを除去するための処理を実行する。
また、ノイズ除去処理によりノイズとしての音成分が除去される結果、元の入力音声信号のノイズ除去対象区間においては、その除去されたノイズ音声に応じた音声情報の欠落が生じる。そこで、この場合には、この音声情報の欠落を補うために、音声信号成分を補間する処理を実行する。そして、ステップＳ１０７により、ノイズ除去及び補間の補間が施された音声信号を出力する。

＜２．ノイズ認識処理部の構成例(第１例)＞
［２−１．全体構成］

上記図１におけるステップＳ１０１〜Ｓ１０５までの処理は、本実施形態のノイズ低減装置におけるノイズ認識処理部１が実行すべき処理を一般化したものとしてみることができる。
図２により、図１におけるステップＳ１０１〜Ｓ１０５に対応する処理、つまり、ノイズ認識処理部１について、本実施形態に対応してより具体化させた第１例としての構成例の全体を示す。

図２に示すノイズ低減処理部１は、フレーム化部１１、ＦＦＴ部１２、三次元対応パターン化部１３、ノイズ判定部１４、マッチングテーブル１５から成るものとしている。
フレーム化部１１は、図１のステップＳ１０１に対応して音声信号を入力する。ステップＳ１０２のノイズ特徴量抽出の処理は、フレーム化部１１、ＦＦＴ部１２、三次元対応パターン化部１３の処理が対応する。

［２−２．ＦＦＴ処理］

本実施形態では、入力された時間軸による音声信号を、例えばＦＦＴ（Fast Fourier Transform：高速フーリエ変換）により周波数領域の信号(周波数信号)に変換するものとする。
フレーム化部１１は、ＦＦＴの前処理として、入力音声信号について、ＦＦＴの処理単位であるフレーム単位とする処理を実行する。
フレーム化部１１が入力する入力音声信号は、所定のサンプリング周波数fsと量子化ビット数による時間領域の実数データ（時間領域データ）である。一具体例として、入力音声信号のサンプリング周波数fs=44.1kHzであるとして、フレーム化部１１は、図３（ａ）に示すように、所定の時間幅に対応する1024のデータ数により１フレームを形成するものとする。

ＦＦＴ部１２は、上記１フレームのデータごとにＦＦＴの処理を実行することで、図３（ｂ）（ｃ）に示すようにして、実数データＲｅと虚数データＩｍとによる周波数領域データ（周波数信号）に変換する。このようにして、周波数領域データが複素数データとなることで、周知のようにして、周波数領域における位相を含めた波の表現が可能になる。
図３（ａ）のように、１フレームのデータ数が1024、サンプリング周波数fs=44.1kHzである場合、実数データＲｅと虚数データＩｍは、それぞれ図３（ｂ）（ｃ）に示すようにして、ナイキスト周波数22.05kHz（44.1kHz/2）、データ数512となる。このとき実数データＲｅ、虚数データＩｍそれぞれの周波数分解能は、約43Hz（22.05kHz/512：ナイキスト周波数/データ数）となる。つまり、この場合のＦＦＴ処理によっては、0〜22.05kHzの周波数帯域範囲について43Hzごとに512分割して得られる周波数（以降、これを分割周波数ともいう）ごとのデータにより周波数信号が得られることになる。

また、ＦＦＴ部１２が出力する周波数信号のデータは、例えば下記の絶対値振幅Vaとして求めることができる。

なお、上記(数１)による絶対値振幅Vaは、例えば図３との対応では、実数データReと虚数データImをそれぞれ形成する５１２のデータのうち、同じ分割周波数のデータReを利用して求めるものとなる。また、絶対値振幅Vaは、１フレームにつき、分割周波数ごとに対応して５１２個が得られることになる。
本実施形態では、ＦＦＴ部１２の後段の三次元対応パターン化部１３は、上記絶対値振幅Vaを入力して処理を実行するものとする。

また、本実施形態のフレーム化部１１は、図４に示すようにして、入力音声信号の時間（Ｔ軸）に沿って前後となるフレームについて、オーバーラップ区間が得られるようにして、入力音声信号のフレーム化を実行する。ＦＦＴ部１２は、このようにして得られるフレームごとにＦＦＴを行って周波数信号に変換する。

ここで、上記のようにして前後のフレーム間でオーバーラップ区間を設けることとしているのは、下記のような理由による。
ＦＦＴ処理は、フレームにおける複数データを利用して行われる。このために、フレームの開始／終了位置近傍でのＦＦＴ処理は、本来は、１つのフレームの開始位置より前若しくは終了位置より後ろのデータを利用しなければならないのに、これを利用することができないために、ＦＦＴ処理後のデータとしては正確な値を得ることが難しい。
そこで上記のオーバーラップ区間を設けることとすれば、１つのフレームにおける開始／終了位置近傍のＦＦＴ処理は、これとオーバーラップする他のフレームにおいて、必要なデータを全て利用して適正に実行されていることになる。これにより、ＦＦＴ処理についての時間分解能を高めて、ＦＦＴ処理の演算結果をより正確にすることが可能になる。
なお、このオーバーラップ区間についてのオーバーラップ率、即ち、１フレーム分の時間に対する、前後のフレームをオーバーラップさせる時間の割合については、０％〜１００％未満の間で、ＦＦＴ処理の周波数分解能と時間分解能とのバランスなどを考慮して適宜設定されるべきものとなる。

［２−３．ピーク検出］

ＦＦＴ部１２により得られた周波数信号は、図２の三次元対応パターン化部１３に対して出力される。
三次元対応パターン化部１３は、ＦＦＴ部１２により得られた周波数信号に基づいて、以降説明するようにして、音声信号のノイズ成分ごとに多項式化を行い、その多項式の係数パターンを得る。即ち、ノイズのパターン認識（パターン化）を行う。また、このノイズパターン認識がステップＳ１０２によるノイズ特徴量の抽出に相当する

三次元対応パターン化部１３の構成例を図５に示す。
この図に示す三次元対応パターン化部１３は、ピーク検出部２１と、ｎ個の多項式演算正規化部２２−１〜２２−ｎとから成るものとしている。

ピーク検出部２１には、ＦＦＴ部１２から出力される周波数信号が入力される。
先に述べたように、ＦＦＴ部１２からの周波数信号は、図３（ｂ）（ｃ）に示す実数データReと虚数データImから成る。例えばさらには、実数データReと虚数データImが有するデータ数ごと、即ち図３の例では約４３Hzの周波数分解能を有するとされる1〜512の帯域（分割周波数）ごとに、（数１）に示される演算により求められる５１２個の絶対値振幅Va(1)〜Va(512)として得ることができる。

ＦＦＴ部１２による処理結果の例は、図６の３次元波形のようにして表すことができる。これは、ＦＦＴ部１２により得られる周波数信号として、フレームごとに得られる512個の絶対値振幅Va(1)〜Va(512）を、時系列に従って集めたものにより形成できる。

この三次元波形では、平面方向において互いに直交するようにして周波数軸（Ｆ軸）と時間軸（Ｔ軸）をとっており、垂直方向においてＡ軸として絶対値振幅値を取ることとしている。ここでは、この三次元波形図において実線により囲った領域部分Ａｎにおいて、ほぼ同じ時間において、異なる周波数帯域で３つのピークが得られている状態が示されている。これらのピークに対応して周囲よりも突出した波形の部分は、実際には、ノイズが発生していることに対応する。つまり、領域部分Ａｎは、ノイズが発生しているとされる時間−周波数領域（ノイズ発生領域）を示している。

図５のピーク検出部２１は、例えば上記図６のノイズ発生領域（Ａｎ）において示されているような３次元波形上でのピークを検出する。
このために、ピーク検出部２１は、入力される周波数信号のデータ（分割周波数ごとの絶対値振幅データ）を利用してデータマッピングを行って、図７に示すマップデータを得る。このマップデータは、図６に例示するような三次元波形を表現するものとなる。
図７のマップデータは、横軸に時間をとり、縦軸に周波数をとっている。ここでは、マップデータの一部として、時間Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５・・・・と、周波数Ｆ１，Ｆ２，Ｆ３，Ｆ４，Ｆ５・・・・のマトリクスとなっている部分を示している。ここでの周波数Ｆ１，Ｆ２，Ｆ３，Ｆ４，Ｆ５・・・・のそれぞれは、実数データReと虚数データImを成す512のデータごとに対応する、個々の分割された周波数に相当する。また、時間Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５・・・・は、それぞれ、１つのフレームが得られる時間に相当する。

ピーク検出部２１は、図７との対応としては、まず、１つのフレームに対応して時間Ｔ１に得られる周波数信号から、周波数(分割周波数)Ｆ１，Ｆ２，Ｆ３，Ｆ４，Ｆ５・・・・に対応する絶対値振幅１，１７，３３，８３，９０・・・をマッピングする。以降、順次、時間Ｔ２，Ｔ３，Ｔ４，Ｔ５・・・・に対応するものとして入力されるフレーム単位の周波数信号から、それぞれ、周波数Ｆ１，Ｆ２，Ｆ３，Ｆ４，Ｆ５・・・・に対応する絶対値振幅をマッピングするものである。

ピーク検出部２１は、上記のようにしてマップデータを作成すると、このマップデータ上の振幅値分布から１以上の絶対値振幅Vaのピークを検出する。ここでのマップデータを用いたピーク検出の手法・アルゴリズム例としては、先ず、３×３によるマトリクスのマス（サンプリング点）の集合をピーク検出範囲としている。
次に、このピーク検出範囲において、破線の矢印により示すように、同一時間方向と同一周波数方向にピークの探査を行い、この探査結果として時間方向と周波数方向とで同じサンプリング点でピークが得られた場合に、そのサンプリング点が対応する時間-周波数座標を第１暫定ピーク点とする。
さらに、同じピーク検出範囲において、一点鎖線により示すようにして、周波数と時間をまたぐようにして、上記時間方向／周波数方向に対して直交する２方向によりピークの探査を行い、この探査結果として時間方向と周波数方向とで同じサンプリング点でピークが得られた場合に、そのサンプリング点が対応する時間-周波数座標を第２暫定ピーク点とする。
そして、第１暫定ピーク点と第２暫定ピーク点が同じサンプリング点である場合に、そのサンプリング点の時間−周波数座標を真のピーク点として検出したものとする。

図７の例では、上記のピーク検出アルゴリズムによりマップデータ上で検出されたピークとしては、絶対値振幅141のサンプリング点に対応する座標（T2,F4）、及び絶対値振幅166のサンプリング点に対応する座標（T4,F2）となる。

このようにして、本実施形態では、分割周波数信号におけるピークを検出するのにあたり、対応する分割周波数における時系列の変化のみではなく、周波数方向における振幅変化も加味することとしている。つまり、周波数軸と時間軸による二次元での絶対値振幅の分布に基づいてピークを検出するものであり、これによって、さらに正確にピークが検出できるようにしている。

なお、ここでのピーク検出の手法は、あくまでも一例である。実際においては、ピーク検出範囲を形成するサンプリング点数は、上記よりも拡大されてよい。また、ピーク検出のために探査する軸についても、上記の手法例に挙げた４方向のうちから少なくとも１つを選ぶこととしてよい。

［２−４．多項式演算／正規化処理］

ここで、図８（ａ）（ｂ）は、それぞれ、ＦＦＴ部１２から出力される周波数信号に基づいて得られる、時系列の帯域信号（分割周波数信号）を、或る特定の周波数Fa,Fbにおける時間経過に応じた絶対値振幅の変化により示している。ここでは、横軸が時間（Ｔ軸）とされ、縦軸が絶対値振幅（Ａ軸）とされている。
本実施形態において扱う音声信号はデジタルデータであり、従って、時間的に離散してサンプリングされる。例として、図８（ａ）の周波数Faの帯域信号においては、時間Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５，Ｔ６，Ｔ７ごとのサンプリング点の絶対値振幅は、それぞれ、A1a，A2a，A3a，A4a，A5a，A6a，A7aとしてその値が示されている。また、図８（ｂ）の周波数Fbの信号においては、時間Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５，Ｔ６，Ｔ７ごとのサンプリング点の絶対値振幅は、それぞれ、A1b，A2b，A3b，A4b，A5b，A6b，A7bとしてその値が示されている。

ここで、上記のようにして絶対値振幅が離散的にサンプルされるということは、サンプルされた絶対値振幅におけるピークは、必ずしも真の帯域信号のピークを示すものではない、ということを意味する。
例えば、図８（ａ）に示されるサンプリング点ごとの絶対値振幅のピークは、時間Ｔ４におけるA4aとなる。しかし、時間T1〜T7の絶対値振幅A1a〜A7aを仮想的に曲線（図において破線で示す）で結ぶことで推定される真のピークは、時間T４よりも前のタイミングで現れている。
同じく、図８（ｂ）においてサンプルされた絶対値振幅のピークは、時間Ｔ５におけるA5bであるが、時間T1〜T7の絶対値振幅A1b〜A7bを仮想的に曲線（図において破線で示す）で結ぶことで推定される真のピークは、時間Ｔ５よりも前のタイミングで現れている。

サンプルされた絶対値振幅からできるだけ真のピーク値に近似した値を求めようとすれば、例えば１つには、時間分解能を高くすればよい。つまり、サンプリング周波数を高くしていけばよい。しかし、時間分解能と周波数分解能は、トレードオフの関係にあるために、時間分解能をむやみに高くすることも好ましくない。この点を補って時間分解能を高くするために、例えば、先に図４に示したようにフレーム単位のＦＦＴ処理にオーバーラップ区間を設けている。しかし、オーバーラップ率を高くしていくと処理量が非常に多くなってしまう。従って、実質、サンプリング点は、相応の時間間隔で離散せざるを得ない。

また、図８（ａ）（ｂ）においてそれぞれ破線で示すサンプリング点の包絡線を見ても分かるように、検出されたピークに応じて得られる帯域信号の波形は、その都度異なり得る。このことは、ピーク検出部２１により検出されたピークに応じて得られる波形は、ノイズの波形パターンを持っている可能性もあれば、ノイズ以外の必要音の波形パターンを持っている可能性もある、ということを意味している。

従って、ピーク検出部２１によりサンプリング点のピークが検出されることに応じては、そのピークに応じた帯域信号について、高い精度で真のピーク位置が推定された波形に対応するパターンの情報を得るようにしたうえで、用意されたノイズのパターンと比較してやる必要があることになる。
３次元対応パターン化部１３における多項式演算／正規化部２２−１〜２２−ｎは、検出されたピークに応じたパターンを得るため、次に説明する処理を実行する。

３次元対応パターン化部１３において、ピーク検出部２１からは、検出したピーク１〜ｎごとに、ピーク検出信号１〜ｎを出力する。
図７との対応であれば、ピーク検出部２１は、先ず、時間Ｔ２にて周波数Ｆ４のピーク１を検出し、これに対応するピーク検出信号１を出力する。次に時間Ｔ４にて周波数Ｆ２のピーク２を検出し、これに対応するピーク検出信号２を出力する。

また、ピーク検出信号としては、ピークとして検出されたサンプル位置の絶対値振幅点を基準サンプリング点として、先ず、この基準サンプリング点の絶対値振幅と、これと同じ周波数のサンプリング点のうちで、基準サンプリング点に対して時間軸上で直前となるＮ個のサンプリング点の絶対値振幅と、直後となるＮ個のサンプリング点の絶対値振幅とを出力するものとする。
ここで、上記の基準サンプリング点の前後のサンプリング点の数Ｎとしては、次に説明するようにして多項式演算／正規化部２２（２２−１〜２２−ｎ）が演算して求める多項式の次数設定に応じて決まるものとなる。

多項式演算／正規化部２２は、先ず、上記のようにしてピーク検出信号として入力される、１つの特定周波数に対応した基準サンプリング点（絶対値振幅の値を持つ）及びこれに対して時間的に前後するＮ個のサンプリング点（以降、基準サンプリング点と、前後の各Ｎ個のサンプリング点については、演算用サンプリング点という）を通る曲線、若しくは、サンプリング点に近似する曲線の多項式を求める。なお、ここでいうサンプリング点とは、対応するサンプル時間と絶対値振幅とを、それぞれｘ座標、ｙ座標として表現されるものとする。
このようにして求められる多項式は、ピークが検出された帯域信号の波形を表現している。

上記のようにして、複数のサンプリング点、即ち、座標を補間して曲線の多項式を求める手法としては、ラグランジェ補間法、スプライン補間法、最小２乗近似法などをはじめ、多様に知られている。本実施形態としては、これらの手法のうちの何れを採用してもよいが、以降の説明においては、ラグランジェ補間法を採用した場合を例に挙げる。

ラグランジェ補間法について簡単に説明しておく。
ここで、ｎ+1個の離散サンプリング点x0、x1、x2、……、xn（ただし、x0<x1<x2<……<xn）におけるデータ、y0、y1、y2、……、ynがあるとする。これらの点、(x0,y0)、(x1,y1)、(x2,y2)、……、(xn,yn)を通るラグランジェ補間曲線としての関数F(x)は、n次の多項式となるものであり、下記の（数２）により求めることができる。

ピーク検出信号に基づいて、そのピークが検出された帯域信号を４次多項式により表現した場合の例を、図９（ａ）に示す。
４次多項式の場合には、５個（=ｎ+1）のサンプリング点が必要であることになる。従って，この場合のピーク検出信号としては、基準サンプリング点と、この基準サンプリング点と同じ周波数で、時間的に前後する各２個のサンプリング点とを多項式演算／正規化部２２に出力することになる。

図９（ａ）においては、５つのサンプリング点として、５つの座標(0.0 , 7.0)，(-1.0 , 6.0)，(-2.0 , 1.0)，(1.0 , 3.0)，(2.0 , 1.0)が示されている。
これらの座標のうち、座標(0.0 , 7.0)が基準サンプリング点であり、座標(-1.0 , 6.0)，(-2.0 , 1.0)が、基準サンプリング点の直前の２つのサンプリング点であり、座標(1.0 , 3.0)，(2.0 , 1.0)が、基準サンプリング点の直後の２つのサンプリング点である。

多項式演算／正規化部２２は、これらのサンプリング点を通過する４次多項式を求めることになる。この４次多項式は、図にも示しているが、下記の(式１)に表されるものとなる。
F(x) = 0.3 x^4 + 0.5 x^3 - 2.8 x^2 - 2.0 x + 7.0・・・(式１)

図９（ａ）に示される曲線が、上記（式１）により表されるものとなる。

図９（ａ）の曲線から分かるように、（式１）による４次多項式の極大値(極値）と、基準サンプリング点のｙ座標値とは異なっている。つまり、本実施形態では、多項式化することにより、帯域信号(分割周波数信号)について、より真に近い波形を求めることができる。これにより、例えば帯域信号のピークレベル及びピーク時間についても、より正確に求めることができる。
なお、上記のようにして多項式化する処理は、周波数軸と振幅軸とによる２次元の表現を持つ周波数信号について、さらに、時間軸（図９，図１０のｘ軸）を加えて３次元化する処理とみることができる。

次に、多項式演算／正規化部２２は、上記（式１）として求めた４次多項式について、正規化を行う。この正規化は、以降の説明から理解できるように、奇数次項の係数を０、若しくは０とみなしてよい程度の値にまで近似させるための処理であり、ノイズ判定のためのマッチングテーブル１５との比較処理を簡易なものとすることが可能になる。

多項式演算／正規化部２２は、正規化として、先ず、図９（ａ）から図９（ｂ）に示すようにして、はじめに求めた４次多項式による極大値のｘ座標について、これが0となるようにして、４次多項式の変換を行う。つまり、ｘ座標、即ち時間方向の正規化を実行する。
図９（ｂ）に示される曲線を表す４次多項式、即ち、時間方向の正規化により得られた４次多項式は、下記の（式２）により表される。

F(x) = 0.3 x^4 + 0.1 x^3 - 3.1 x^2 + 7.3・・・（式２）

上記（式２）と（式１）とを比較しても分かるように、x^3による奇数次項の係数については、0.1、即ち0としてみなしてよい値に変換されている。また、xによる奇数次項の係数については０となっている。

上記した時間方向の正規化は、本実施形態において除去対象とする、「時間的に断続して不規則に発生するノイズ」が、性質として、一定時間内において比較的急峻な立ち上がりと立ち下がりを持つことに基づいて行っている。つまり、このような性質のノイズは、波形としてはピーク点を基準にして左右対称性が強い。従って、偶関数の曲線となる傾向が強い。そこで、図９（ｂ）のようにして時間軸方向での正規化を行えば、奇数次項の係数は０若しくは０相当になる。これにより、後述する係数パターンについてのぶれが抑えられ、また、後述するようにして、マッチングテーブル１５が用意すべきマッチング範囲の係数パターンも制限して、小さな容量とすることが可能になる。

また、本実施形態の多項式演算／正規化部２２は、さらに、図９（ｂ）から図９（ｃ）への遷移として示すように、振幅方向の正規化も実行する。つまり、図９（ｂ）に示される極大値の座標は(0.0 , 7.3)である。このｙ座標値7.3は、切片を表しているが、この段階では切片の値が整数値とはなっていない。そこで、多項式演算／正規化部２２は、この切片が整数値となるようにして正規化を行う。ここでは、例えば、正規化前の切片座標の値に最も近い整数値となるようにして正規化するものとする。
これにより、４次多項式としては、下記（式３）により表されるものとなり、その曲線は、図９（ｃ）に示すようにして、極大値の座標が(0.0 , 7.0)となる。

F(x) = 0.3 x^4 + 0.1 x^3 - 3.1 x^2 + 7.0・・・（式３）

このようにして切片を整数化すれば、係数パターンにおける切片の値については整数値のみを用意すればよいことになり、上記の係数パターンの単純化がより促進される。

また、図１０により、図９と同じピークを検出した帯域信号を対象として２次多項式化する場合について説明する。
２次多項式(ｎ=2)の場合、多項式演算／正規化部２２は、基準サンプリング点と、これに対して時間的に前後する各１つのサンプリング点との、計３個（=ｎ+1）のサンプリング点を、ピーク検出信号として取り込む。すると、図９と同じ帯域信号の場合には、図１０（ａ）に示すようにして、ピーク検出信号として、(0.0 , 7.0)，(-1.0 , 6.0)，(1.0 , 3.0)の３つのサンプリング点を得ることになる。

これらのサンプリング点を用いてラグランジェ補間法によって求めた２次多項式は、下記の（式４）により表されるものとなり、また、その曲線は、図１０（ａ）に示されるものとなる。

F(x) = -2.5 x^2 - 1.5 x + 7.0・・・（式４）

次に、上記（式４）について時間軸方向の正規化を行って得られる２次多項式は、下記の（式５）により表されるものとなる。また、時間軸方向の正規化により得られる２次多項式の曲線は図１０（ｂ）に示される。

F(x) = -2.5 x^2 + 7.2・・・（式５）

上記（式５）からも分かるように、時間軸方向の正規化により、奇数次項であるｘの係数は０となっている。

また、さらに上記（式５）について振幅方向の正規化、即ち切片の整数値化を行って得られる２次多項式は、下記の（式６）により表され、その曲線は、図１０（ｃ）に示される。

F(x) = -2.5 x^2 + 7.0・・・（式６）

なお、ここでは、多項式演算／正規化部２２が採用する多項式として、４次多項式若しくは２次多項式を例に挙げたが、本実施形態としては、例えば６次多項式であるとか、２次若しくは４次以外の多項式を採用してもかまわない。

また、上記の説明では、正規化処理として、先ず、時間方向の正規化を行い、この後に振幅方向の正規化を行うものとして説明している。実際においては、例えば、最終的に時間方向及び振幅方向が適正に正規化されるようにして収束すればよく、収束が完了するまでの過程においては、時間方向の正規化と振幅方向の正規化とが、交互に調整されながら実行されていくようなアルゴリズムとされてもよい。

そして、ピークが検出された帯域信号の多項式化と正規化とが完了したとされると、多項式演算／正規化部２２は、正規化された多項式の係数を示すデータを出力する。
つまり、４次多項式であれば、その一般式は、
F(x) = ax^4 + bx^3 + cx^2 + dx + e
として表すことができる。そこで、多項式演算／正規化部２２は、正規化された４次多項式の係数[a,b,c,d,e]の組み合わせを示すデータを出力する。なお、ここでは、切片(e)は、x^0の係数として扱うこととしている。
また、２次多項式であれば、その一般式は、
F(x) =ax^2 + bx+ c
として表すことができる。そこで、多項式演算／正規化部２２は、正規化された２次多項式の係数[a,b,c]の組み合わせを示すデータを出力する。

多項式演算／正規化部２２−１〜２２−ｎのそれぞれは、上記のようにして、対応する帯域信号についての、係数の組み合わせを示すデータ（ピーク１係数データ〜ピークｎ係数データ）を出力する。これらピーク１係数データ〜ピークｎ係数データが、３次元対応パターン化部１３の出力となる。即ち、ピークが検出された帯域信号、即ちノイズであると推定される帯域信号をパターン化したデータとなる。なお、図２，及び図５に示すように、これらのピーク１係数データ〜ピークｎ係数データとしてのパターン化データについては、ラグランジェ補間法により求められた関数F(x)の係数であることに基づく、便宜上、F(x)と記載している。

［２−５．ノイズ有無判定処理］

３次元対応パターン化部１３から出力されるパターン化データF(x)は、図２に示すように、ノイズ判定部１４に入力される。
ノイズ判定部１４は、上記パターン化データF(x)と、マッチングテーブル１５にて保持されている参照パターンデータP(x)とを比較し、その比較結果に基づいて、分割周波数ごとにノイズの有無を判定する。

ここで、参照パターンデータP(x)について説明する。
先ず、本実施形態のノイズ低減装置が除去対象とするノイズ音を想定することとし、このノイズ音(想定ノイズ音)について、先に述べた多項式演算及び正規化処理を行って、正規化された多項式を求めることとする。ここでは、２次多項式(正規化２次多項式)を求めるものとする。

図１１は、上記のようにして求めた想定ノイズ音の正規化２次多項式の係数a,b,cが取り得る数値範囲と周波数との関係を模式的に示している。
この図おいては、縦軸に多項式の係数値を取り、横軸に周波数をとっている。この図に示されるように、想定ノイズ音の正規化２次多項式が取り得る係数の数値範囲は、周波数に応じて定まることが分かる。
本実施形態では、このようにして求められる想定ノイズ音の正規化多項式の係数パターンの範囲を、マッチング範囲とする。なお、図１１においては、マッチング範囲として、係数a、係数ｂ、及び係数ａと係数ｃについての係数比-c／aを定義している。
例えばマッチング範囲として、上記係数比-c／aに代えて、通常に係数ｃを定義してもよい。しかし、本実施形態の正規化多項式に関しては、係数ａが大きいときには、係数ｃ(切片)も大きくなる傾向にある。そこで、係数ｃに代えて、例えば上記の係数比-c／aを定義することとしている。これにより、単純に係数ｃをマッチング範囲として定義する場合よりも係数変化を平準化される。この結果、マッチング範囲のぶれが抑制されてマッチング範囲を狭くすることができ、より正確なノイズ判定結果が期待できる。

参照パターンデータP(x)を保持するマッチングテーブル１５は、上記図１１に示した係数a,b，係数比-c／aによる係数パターンについてのマッチング範囲を示すテーブル形式のデータ（マッチングデータ）となる。そこで、マッチングテーブル１５の具体的内容例を図１２に示す。なお、このマッチングテーブルに格納されるデータは、例えば実際には、メモリなどに保持されている。

図１２に示すマッチングテーブル１５は、ＦＦＴ処理後のデータとして、図３（ｂ）（ｃ）に示すデータが得られる場合のものとする。また、ここでは便宜上、ＦＦＴ後の信号の周波数帯域（ナイキスト周波数）は22.1ｋHzとする。

この図に示すマッチングテーブル１５は、先ず、ＦＦＴ後のデータ位置1〜512について、所定範囲ごとに分割することとしており、ここでは、データ位置1〜8、データ位置9〜40、データ位置41〜53、データ位置54〜512の範囲で分割している。これは、FFT後のデータ（周波数信号）の周波数帯域である22.1kHz（原信号のナイキスト周波数）を、４つの帯域範囲（分割帯域範囲）により分割していることを意味する。換言すれば、データ位置1〜512に対応する512の分割周波数を、上記分割帯域範囲ごとに４つのグループに区分している。
分割された各分割帯域範囲に対応する実周波数の範囲は、図示するようにして、データ位置1〜8が43.1kHz〜344.5Hz、データ位置9〜40が387.6Hz〜1.72kHz、データ位置41〜53が1.77kHz〜2.28kHz、データ位置54〜512が2.33kHz〜22.1kHzとなる。

そして、データ位置1〜8、データ位置9〜40、データ位置41〜53のそれぞれに対応する３つの分割帯域範囲43.1kHz〜344.5Hz、387.6Hz〜1.72kHz、1.77kHz〜2.28kHzに対応しては、係数ａ，ｂ，及び係数比-c/aごとにマッチング範囲の上限値、下限値が示されている。
また、データ位置54〜512に対応する最も高い分割帯域範囲2.33kHz〜22.1kHzについては、有効なマッチング範囲の上限値、下限値は格納されていない。これは、この場合に想定しているノイズ音は、約2.3kHzより高い周波数帯域では発生しないことによる。換言すれば，ここで想定しているノイズ音は、約2.3kHz（2.28kHz）以下の周波数帯域で発生するものとしている。
この場合、実際にマッチングテーブル１５として持つべきデータは、データ位置1〜8（分割帯域範囲43.1kHz〜344.5Hz）、データ位置9〜40（分割帯域周波数387.6Hz〜1.72kHz）、データ位置41〜53（分割帯域周波数1.77kHz〜2.28kHz）までに対応するマッチング範囲（上限値、下限値）のデータでよいことになる。このようにして、マッチングテーブル１５としては、必ずしも、ＦＦＴ後のデータに対応する全ての分割周波数に応じたマッチング範囲のデータを持つ必要はなく、ノイズ音が発生する周波数帯域範囲の分割周波数のみに対応したマッチング範囲のデータを持てばよい。これにより、マッチングテーブル１５として実際に必要なデータサイズを小さくできる。

なお、先にも述べたように、マッチングテーブル１５としては、係数比-c／aに代えて単純に係数ｃのマッチング範囲を持つこととしてもよい。図１２においては、破線で括って示す枠内において、係数ｃについてのマッチング範囲の上限値／下限値を示している。

マッチングテーブル１５が上記図１２に示す構造である場合に対応した、ノイズ判定部１４によるノイズ判定処理は、例えば下記のようになる。
ノイズ判定部１４は、先ず、３次元対応パターン化部１３からパターン化データF(x)として、ピークが検出された帯域信号ごとに対応するピーク１係数データ〜ピークｎ係数データを入力する。また、マッチングテーブル１５から、ピーク１係数データ〜ピークｎ係数データのそれぞれ対応する分割周波数（データ位置）に対応付けられている、係数ａ，ｂ及び係数比-c／a（又は係数ｃ）のマッチング範囲（上限値／下限値）のデータを、参照パターンデータP(x)として入力する。
次にノイズ判定部１４は、比較処理として、ピーク１係数データが示す係数a,b、係数比-c／aについて、それぞれ、同じ分割周波数(データ位置)に対応付けられている係数a,b、係数比-c／aのマッチング範囲に含まれるものであるか否かを判定する。
ここで、ピーク１係数データが示す係数a,b、係数比-c／aの全てがマッチング範囲に含まれていれば、ピーク１係数データの元となった帯域信号はノイズ音である判定する。つまり、ノイズ有りとの判定結果を得る。これに対して、ピーク１係数データが示す係数a,b、係数比-c／aのうち、１つでもマッチング範囲に含まれていないのであれば、ノイズ無しとの判定結果を得る。
他のピーク2係数データ〜ピークｎ係数データのそれぞれについても、上記と同様にして、各係数データが示す係数a,b、係数比-c／aの全てがマッチング範囲に含まれているか否かに基づき、対応する分割周波数についてノイズの有り／無しを判定する。
このようにして、本実施形態では、分割周波数ごとにノイズの有無が判定される。

なお、上記のノイズ有無の判定アルゴリムとしては、他にも考えられる。例えば、係数データが示す係数の全てではなく、少なくとも一定数以上がマッチング範囲に含まれていれば、ノイズ有りと判定するアルゴリズムを考えることができる。また、係数データが示す係数値について、マッチング範囲における基準値に対する距離に応じた評価値を求め、この評価値に基づいてノイズの有無を判定するアルゴリズムとすることも考えられる。

なお、先に説明した３次元対応パターン化部１３は、先ずピーク検出部２１により分割周波数ごとの帯域信号についてピーク検出を行った上で、ピークが検出された帯域信号についてのみ、多項式演算／正規化処理を実行するものとしている。
本実施形態としては、上記のピーク検出部２１を省略してピーク検出は行わない構成を採ることも可能である。この場合には、多項式演算／正規化部２２−１〜２２−ｎは、分割周波数ごとに対応して設けられる。図３との対応であれば、データ数、即ち分割周波数の分割数は５１２であるから、これに対応して５１２個の多項式演算／正規化部２２−１〜２２−５１２を設けることになる。ただし、図１２にも例示したように、ノイズ音の周波数特性が、ＦＦＴ後に得られる全周波数帯域の一部帯域に限定される場合には、ノイズ音に対応する周波数帯域に含まれる分割周波数ごとに対応させた多項式演算／正規化部２２を設ければよい。
この場合の多項式演算／正規化部２２−１〜２２−ｎは、入力される帯域信号のサンプルごとに定常的に多項式演算と正規化処理を実行していき、順次、係数データを出力する。このようにして出力される係数データは、そのときの帯域信号がノイズであれば、マッチングテーブル１５が持つマッチング範囲に含まれることになり、ノイズでなければマッチング範囲から外れるものとなる。
そこで、ノイズ判定部１４は、定常的に３次元対応パターン化部１３からパターン化データF(x)として出力される、分割周波数(帯域信号)ごとの係数データと、マッチングテーブル１５から読み出した参照パターンデータP(x)、即ち、上記分割周波数ごとの各係数のマッチング範囲とを比較する。そして、この比較結果として、例えば上記係数データが示す各係数値がマッチング範囲に含まれているのであれば、その帯域信号についてノイズ有りと判定し、含まれていないのであればノイズ無しと判定する。

ただし、上記のようにしてピーク検出部２１によるピーク検出を省略した構成の場合には、多項式演算／正規化部２２−１〜２２−ｎは定常的に多項式演算と正規化処理を実行する必要があり、ノイズ判定部１４も定常的にノイズ有無についての判定処理を実行する必要がある。従って,処理としては相応に重くなってしまう。
そこで、本実施形態としては、先に述べたようにしてピーク検出を行うこととしている。本実施形態において除去対象とする「時間的に断続して不規則に発生するノイズ」は、先にも述べたようにして、比較的急峻に立ち上がる特性を有しているので、ノイズが発生するときには相応に顕著なピークが得られることになる。これは、ピークが検出されない状態は、ノイズは発生していないとみてよいことを意味する。そこで、ピークが検出された場合にのみ、多項式演算／正規化処理、及びノイズ有無の判定処理を行うこととしても、発生したノイズの検出を逃すことはない。そして、定常的に多項式演算／正規化処理、及びノイズ有無の判定処理を行う必要はないために、処理はそれだけ軽いものとなり、例えば処理に必要なリソースも節約できる。

このようにして本実施形態のノイズ判定部１４は、ノイズの有無を判定することができる。そして、ノイズ判定部１４は、ノイズ有無の判定結果の情報とともに、必要に応じて、ノイズ有無の判定結果を求める過程において取得した演算結果などを、ノイズ認識情報として出力することができる。

＜３．ノイズ認識処理部の構成例(第２例)＞

図１３は、ノイズ認識処理部としての他の構成例(第２例)を示している。この図において、図２と同一部分には同一符号を付して説明を省略する。
この図に示されるノイズ認識処理部１Ａにおいては、図２に示した構成に対して、２次元対応パターン化部１６、パターンマッチング部１７、及びノイズパターン記憶部１８が追加される。

２次元対応パターン化部１６は、ＦＦＴ部１２のＦＦＴ処理後のデータ（図３（ｂ）（ｃ））を取り込み、周波数信号F(n)として保持する。ここでは、周波数軸（F軸）と振幅（A軸）との二次元により表現される周波数信号F(n)を保持して得ることを、音声信号のパターン化としてみている。

ノイズパターン記憶部１８は、ノイズパターンP(n)を保持するメモリである。このノイズパターンP(n)のデータは、想定ノイズ音の周波数分布をモデル化して得ることができる。

パターンマッチング部１７は、パターンマッチング処理として、上記周波数信号F(n)と、ノイズパターンP(n)との相関度Efを求める。
上記相関度Efは、例えば下記の演算により求めることができる。

上記(数３)において、Ｎは、１フレーム内のＦＦＴポイント（サンプルポイント）数である。即ち、ｎ＝１〜Ｎまでのサンプルポイントについてのノイズパターンと音声信号との間での相関が高いほど、相関度Ｅｆは１に近づいていく。つまり、相関度Ｅｆが１に近いほど、ノイズであることの可能性は高くなる。

図１３の構成では、上記相関度Efの値を、ノイズ判定部１４が取り込むこととしている。
基本的には、先の説明と同様にして、帯域信号ごとの係数パターンと、マッチングテーブル１５のマッチング範囲とを比較してノイズの有無についての判定を行う。但し、図１３においては、上記マッチングテーブル１５を利用した判定結果に加えて、上記相関度Efについて予め定めた閾値異常であるか否かを判定要素として加える。つまり、１つの帯域信号に対応するノイズ判定として、その帯域信号の係数パターンが、マッチングテーブル１５のマッチング範囲に含まれており、かつ、相関度Efが閾値以上である周波数領域である場合に、ノイズ有りと判定する。帯域信号の係数パターンが、マッチングテーブル１５のマッチング範囲に含まれていても、相関度Efが閾値未満の周波数領域である場合には、ノイズ無しと判定する。
ことで、ノイズ有無の判定結果をさらに正確なものとすることができる。

＜４．ノイズ低減装置の構成例（第１例）＞
［４−１．全体構成］

上記第１例としてのノイズ認識処理部１、若しくは第２例としてのノイズ認識処理部１Ａを備える、本実施形態としてのノイズ低減装置の第１例の構成を、図１４に示す。
図１４に示すノイズ低減装置は、マイクロフォン３１、アンプ３２、ノイズ除去フィルタ３３、加算器３４、補間信号源発生部３５、補間フィルタ３６、ノイズ認識処理部３７、ノイズタイミング生成処理部３８、スイッチ３９を備えて構成される。

マイクロフォン３１は、この図に示すノイズ低減装置が実装される電子機器に内蔵される、若しくは外部接続される。例えば電子機器がビデオカメラなどとすれば、このマイクロフォン３１は、記録音声を収音する目的で設けられることになる。このマイクロフォン３１により、本実施形態において除去対象とするノイズ音が、本来収音すべき音声とともに収音される。
マイクロフォン３１に入力された音声は、音声信号とされてアンプ３２により増幅される。

この場合、アンプ３２から出力されるデジタル形式の音声信号(入力音声信号)は、スイッチ３９の端子tm3に対して供給される、また、分岐して、ノイズ除去フィルタ３３、ノイズ認識処理部３７に対して入力される。

ノイズ除去フィルタ３３は、ＢＥＦ(Band Elimination Filter)などとされ、ノイズ認識処理部３７から出力されるノイズが発生したとされる周波数(分割周波数)を示す情報（ノイズ発生周波数指示情報）に応じて遮断（阻止）すべき周波数を設定する。これにより、ノイズ除去フィルタ３３を通過した音声信号としては、ノイズが発生したとされる周波数の音成分が除去されたものとなる。
ノイズ除去フィルタ３３から出力された音声信号は、加算器３４において、補間フィルタ３６から出力される補間信号と合成される。

上記補間信号は、補間信号源発生部３５と補間フィルタ３６とにより生成される。
先ず、補間信号源発生部３５は、本実施形態においてノイズとして扱われる周波数帯域（例えば図１２との対応では43.1Hz〜2.28kHz）を持つ周波数特性の信号を補間信号源として生成する。

図１６は、上記補間信号源発生部３５の構成例を示している。
この図に示される補間信号源発生部３５は、トーン信号発生部４１、Ｍ系列信号発生部４２、及び合成部４３とを備えて成るものとしている。

トーン信号発生部４１は、所定周期の単一もしくは複数の正弦波やパルス波などによるトーン信号を発生する。このトーン信号は、周波数特性上、所定の周波数に単一もしくは複数のピークを有する。

Ｍ系列信号発生部４２は、いわゆるＭ系列といわれる、全帯域でレベルが均一なランダム信号を発生する。このような信号として１つにはホワイトノイズを挙げることができる。

合成部４３は、トーン信号発生部４１にて発生されたトーン信号と、Ｍ系列信号発生部４２にて発生されたＭ系列信号とについて、例えば予め定めた合成比により合成して出力する。この合成部４３から出力される合成信号が補間信号源となる。
なお、上記の合成比については、例えば固定とするのではなく、適応的に変化させることが考えられる。例えば１つには、マイクロフォン３１により得た収音音声について解析を行って、トーン信号成分とＭ系列信号成分とについての近似率などを求めるようにする。そして、この近似率に基づいて合成比を可変する。これにより、例えば収音音声がトーン信号成分を多く持つ場合には、これに近い成分合成による補間信号源を、また、Ｍ系列信号を多く持つ場合には、これに近い成分合成による補間信号源を出力させることができる。この結果、補間後の音声信号について、より自然な聴感を得ることが可能になる。
また、場合によっては、トーン信号のみ、若しくはＭ系列信号のみが補間信号源として出力されるようにして合成比を固定的に設定してよい。

補間信号源発生部３５から出力される補間信号源は、補間フィルタ３６に対して出力される。補間フィルタ３６は、ノイズ除去フィルタ３３にも出力されるのと同じノイズ発生周波数指示情報を入力し、ノイズ除去フィルタ３３とは逆フィルタ特性を設定するようにされたフィルタである。つまり、補間フィルタ３６には、ノイズ除去フィルタ３３にて設定された遮断帯域がその通過帯域として設定され、ノイズ除去フィルタ３３にて設定された通過帯域がその遮断帯域として設定される。
これにより、補間フィルタ３６からは、ノイズ除去フィルタ３３にて遮断された帯域に対応する帯域成分のみが抽出された補間信号源が出力される。これが、補間信号として、加算器３４に対して出力される。

加算器３４では、ノイズ除去フィルタ３３から出力される音声信号と、補間フィルタ３６から出力される補間信号とを加算合成して、スイッチ３９の端子tm2に出力する。

ノイズ認識処理部３７は、これまでの説明との対応では、図２に示したノイズ認識処理部１、若しくは、図１３に示したノイズ認識処理部１Ａとしての構成を有する。ノイズ認識処理部３７としてのノイズ認識処理部１，１Ａでは、フレーム化部１１が入力する入力音声信号は、マイクロフォン３１、アンプ３２により得られるデジタルの収音音声信号となる。また、ノイズ認識処理部３７としてのノイズ認識処理部１，１Ａは、ノイズ認識情報として、ノイズ除去フィルタ３３及び補間フィルタ３６に対しては、ノイズ発生周波数指示情報を出力することになる。

また、ノイズタイミング生成処理部３８は、ノイズ認識処理部３７により、或る帯域信号（分割周波数）についてノイズ有りと判定されたことに応じて、その判定されたノイズの発生期間（ノイズ発生期間）を判定するための処理を実行する。なお、このノイズ発生期間を判定する処理例については、後述する。
ノイズタイミング生成手段３８は、判定結果に基づいて、ノイズ発生期間の時間タイミングを指示する、ノイズタイミング信号tmg_nzを、スイッチ３９に対して出力する。

スイッチ３９は、ノイズタイミング信号tmg_ngが出力されていない期間、つまり、ノイズが発生していないとき（ノイズ非発生期間）には、端子tm1を端子tm3と接続して、アンプ３２から出力される入力音声信号を直接に出力する。
これに対して、ノイズタイミング信号tmg_ngが出力されている期間、即ち、ノイズが発生しているとする期間においては、スイッチ３９は、端子tm1を端子tm2と接続し、加算器３４から出力される音声信号、つまり、ノイズ除去・補間処理を経た音声信号を出力する。
例えば本実施形態のノイズ低減装置が録音可能な機器に実装されている場合には、このスイッチ３９から出力される音声信号、つまり、ノイズ低減装置から出力される音声信号を録音（記録）することになる。

図１８（ａ）は、スイッチ３９の端子tm1から出力される音声信号を時間経過とともに模式的に示している。なお、この図では、横軸に時間を取り、縦軸に音声信号のパワーをとっている。
この図において、ノイズ発生期間は、ノイズタイミング信号tmg_ngが出力されている期間に対応する。
ノイズ発生期間より前の期間においては、アンプ３２から直接的に入力される音声信号(入力音声信号)がスイッチ３９から出力されている。つまり、ノイズ除去・補間処理を経ていない音声信号が出力されている。なお、ここでは、ノイズ発生期間より前の期間において出力されるノイズ除去・補間処理を経ていない音声信号については前音声信号として示している。

次に、ノイズタイミング信号tmg_ngの出力が開始されることに応じてノイズ発生期間が開始されると、これまでのノイズ除去・補間処理を経ていない音声信号の出力は停止され、これに代えて、加算器３４の出力信号、つまり、ノイズ除去・補間処理を経た音声信号の出力が開始される。
そして、ノイズタイミング信号tmg_ngの出力が停止されてノイズ発生期間が終了したとされると、スイッチ３９は、これまでの加算器３４からの音声信号（ノイズ除去・補間処理を経た音声信号）に代えて、アンプ３２からの音声信号（ノイズ除去・補間処理を経ていない音声信号）の出力に切り換える。なお、ノイズ発生期間より後の期間において出力されるノイズ除去・補間処理を経ていない音声信号については後音声信号としている。

このノイズ発生期間にわたってスイッチ３９から出力される、ノイズ除去・補間処理を経た音声信号は、図１８（ａ）において模式的に示されるようにして、ノイズ除去信号と補間信号とを合成したものとしてみることができる。
ここでのノイズ除去信号とは、ノイズ除去フィルタ３３から出力される音声信号である。つまり、ノイズ除去フィルタ３３によって、元の音声信号からノイズが発生した分割周波数の帯域成分を除去した音声信号である。このノイズ除去信号は、ノイズが発生した帯域が除去されている分、元の音声信号よりも信号パワーが低くなる。しかし、補間信号は、元の音声信号から除去された周波数帯域から成る音声信号であるから、この補間信号が加算器３４により合成されることで、スイッチ３９から出力されるノイズ除去処理を経た音声信号としては、元の音声信号と同等の信号パワーを持つことになる。図１８（ａ）においては、ノイズ発生期間における音声信号のエンベロープが、前信号と後信号のエンベロープとつながっていることにより、ノイズ除去処理を経た音声信号と、元の音声信号の信号パワー（レベル）が同等であることを示している。

また、本実施形態においては、ノイズ発生期間(ノイズ除去を実行するノイズ除去期間でもある)において、元の音声信号の全周波数帯域の成分を除去することは行っていない。
例えば、ノイズ除去及び補間として、ノイズ発生期間において、元の音声信号の全周波数帯域の成分を除去することで先ずノイズ除去を行う。そのうえで、このノイズ除去を行った音声信号について、元の音声信号の全周波数帯域を持つ補間信号を合成して、ノイズ除去・補間処理を経た音声信号を生成する、という手法も考えられる。しかし、この場合には、ノイズ発生期間の音声信号は、全帯域が補間信号に変わってしまうことから、聴感上不自然にきこえやすい。

これに対して、本実施形態では、先に述べたノイズ除去フィルタ３３と補間フィルタ３６の動作から理解されるように、ノイズ発生（除去）期間においては、元の音声信号からノイズ有りと判定された分割周波数の帯域のみを除去することによりノイズ除去を行っている。換言すれば、元の音声信号にいてノイズが発生していない周波数帯域は残すようにしている。そのうえで、ノイズ除去により失われた帯域の音声信号成分のみを、補間信号を合成して補うこととしている。これにより、例えば上記の手法の場合よりも、ノイズ発生期間の音声と、その前後の音声との連続性をより高めることができる。これにより、マスキング効果もより有効にはたらくことになり、結果、本来の音を損わない自然な聴感を得ることが可能になる。

また、図１８（ｂ）は、前信号及び後信号としての元の音声信号（アンプ３２の出力音声信号）と、ノイズ除去・補間信号（加算器３４の出力音声信号）との時間軸方向での合成についての、他の態様例を示している。

図１８（ａ）は、ノイズ発生期間の開始時点において、前信号からノイズ除去・補間信号に瞬時的に入れ替わり、同じく、ノイズ除去・補間信号から後信号に瞬時的に入れ替わるようになっている。このような信号の変化の場合、例えばノイズ除去された帯域においては、前信号である元の音声信号成分から補間信号に瞬間的に切り替わり、また、補間信号から後信号としての元の音声信号に瞬時的に切り替わることになる。従って、この切り替わりのタイミングにおいて例えば高調波が生じて、これが不自然に聞こえる可能性がある。

そこで、図１８（ｂ）においては、ノイズ発生期間の開始時点から或る一定期間にわたって、前信号については徐々に減衰させ、ノイズ除去・補間信号については徐々に本来のレベルにまで増加させる、いわゆるクロスフェードが行われる期間（クロスフェード期間）を設ける。同様に、ノイズ発生期間の終了時点までの一定期間にわたり、後信号を徐々に本来レベルにまで増加させ、ノイズ除去・補間信号を徐々に減数させるクロスフェード期間を設ける。

このようにして、ノイズ発生期間における冒頭と終わりの一定期間により、元の音声信号とノイズ除去・補間処理信号のクロスフェードを行うことで、上記した高調波の発生を大幅に抑制し、リンギングやオーバーシュートなどの現象を回避することができ、より自然な聴感を得ることが可能になる。

上記のクロスフェード期間における音声信号のレベル変化は、スイッチ３９について，クロスフェードスイッチにより構成することで実現できる。クロスフェードスイッチは、例えば入力された２つの音声信号を、制御係数が可変のアッテネータを介したうえで合成して出力させる。制御係数cは、例えば０〜１の範囲の値であり、アッテネータは、原信号レベル×ｃのレベルによる音声信号を出力する。
そのうえで、クロスフェード期間においては、一方のアッテネータの制御係数c1については時間経過に応じて０〜１に増加していくように変化させることとしたうえで、他方のアッテネータの制御係数c2については、c2=1-c1で求められる変化を与えるようにする。
また、クロスフェード期間の時間は、ノイズタイミング信号tmg_ngに基づいて判断できるようにすればよい。例えばノイズタイミング信号tmg_ngとしては、ノイズ発生期間の開始／終了時間を指示する内容とする。例えばクロスフェードスイッチとしてのスイッチ３９は、ノイズ発生期間の開始時間から一定時間において、冒頭のクロスフェード処理を実行する。また、ノイズ発生期間の終了時間からクロスフェード期間分さかのぼった時間を特定し、この特定した時間からノイズ発生期間の終了時間までの間で、終わりのクロスフェード処理を実行する。

なお、例えばノイズ除去・補間処理が施された信号、即ち、加算器３４から出力される音声信号のみを定常的に、ノイズ低減装置の出力としてもよい。しかし、加算器３４から出力される音声信号は、たとえノイズ発生期間以外の期間であっても、ノイズ除去・補間のための処理系を経由していることから、入力音声信号と比較すれば劣化していることになる。そこで、本実施形態のノイズ低減装置では、ノイズ発生期間以外の期間では、スイッチ３９から入力音声信号をそのまま出力させることで、できる限り高音質な音声信号が出力されるように配慮している。

［４−２．ノイズ発生期間判定処理］

次に、上記図１４のノイズタイミング生成処理部３８が実行するとされるノイズ発生タイミングの判定処理について図１９を参照して説明する。なお、この図の説明にあたっては、多項式演算に２次多項式を採用している場合を例に挙げる。

ノイズタイミング生成処理部３８は、ノイズ認識処理部３７（ノイズ認識処理部１，１Ａ）により、或る帯域信号(分割周波数)についてノイズ有りと判定されたことに応じて、そのノイズの発生期間を判定するための処理を実行することになる。

例えば、ノイズ認識処理部３７がノイズ有りと判定したことに応じては、ノイズ認識処理部３７は、ノイズタイミング生成処理部３８に対して、ノイズ認識情報として、例えばノイズ有りと判定した分割周波数の係数データを渡すものとする。

ノイズタイミング生成処理部３８は、上記のようにして受け取った、ノイズ有りと判定した分割周波数の係数データにより表される２次多項式に基づき、図１９に示す座標Ｐ，Ｑ，Ｒを求める。図１９に示す座標軸は、横軸が時間で、縦軸（Ａ軸）が帯域信号の絶対値振幅Vaとなっている。また、横軸の時間については、２次多項式が極大値となる時間を０として扱っている。
座標Ｑ（0,y1）は、上記係数データにより表される２次多項式により表される曲線の極大値の座標である。座標Ｐ（-1,y0）は、２次多項式により表される曲線において、座標Ｑに対して時間的に前となる任意の座標で、座標Ｒ（1,y2）は、２次多項式により表される曲線において、座標Ｑに対して時間的に後となる任意の座標である。ここでは、座標Ｐについては、時間軸の座標値が-1となる曲線上の点であるとしている。また、座標Ｒは、時間軸の座標値が1となる曲線上の点であるとしている。

次に、２次多項式の曲線に対する接線として、座標Ｐ（-1,y0）を通る接線TLpと、座標Ｒ（1,y2）を通る接線TLrとを求める。これら接線TLp，TLrは、例えば一次関数により表現できる。

また、この座標上に対して、閾値ラインLｍを設定する。この閾値ラインLmは、図示するようにして、ｘ=y3で表される時間軸と平行な直線である。この場合の閾値となるy3は、極大値y1に対して、y3=y1*a(a<１)となるようにして求められる値である。つまり、閾値y3は、極大値に対して一定比率分小さい値として求められる。具体的には、閾値y3は、極大値y1の10％程度(a=0.1)とすることが考えられる。

次に、閾値ラインLｍと接線TLpの交点座標を求める。本実施形態では、この交点座標のｘ座標が実際に対応する時間を、発生したノイズの開始時点、つまりノイズ開始点Ｓとする。
また、同様にして、閾値ラインLｍと接線TLrの交点座標を求め、この交点座標におけるｘ座標が実際に対応する時間を、発生したノイズの終了時点、即ちノイズ終了点Ｅとする。
つまり、検出されるノイズ発生期間Tnとしては、図示するように、ノイズ開始点Ｓとしての時間からノイズ終了点Ｅとしての時間までの期間となる。

ノイズタイミング生成処理部３８は、このようなノイズ発生期間の検出を、ノイズ有りとして判定された帯域信号（分割周波数）ごとに対応して実行する。
上記のノイズ発生期間の検出(判定)は、帯域信号のサンプリング点を利用して求めた多項式を利用している。帯域信号を多項式化することによっては、先にも述べたようにして、より真に近い帯域信号波形を得ることができ、これにより、分割周波数ごとに、高い精度でノイズ有無の判定が行える。ノイズ発生期間は、同じ多項式に基づいて求められるものであり、従って、例えばノイズ発生期間としての開始・終了時間について、これまでより高い精度で検出できることになる。

そのうえで、ノイズタイミング生成処理部３８は、上記のようにして分割周波数ごとに判定したノイズ発生期間に基づいて、ノイズタイミング信号tmg_ngを生成する。
一例としては、ノイズタイミング信号tmg_ngは、分割周波数ごとに判定したノイズ発生期間の論理和を演算し、この論理和の出力をノイズタイミング信号tmg_ngとする。この場合のノイズタイミング信号tmg_ngとしては、すくなくとも１つの分割周波数においてノイズが発生していると判定されている期間においてＨレベルとなり、ノイズが発生していると判定される分割周波数が１つも無いときにはＬレベルとなる信号として得られる。スイッチ３９は、ノイズタイミング信号tmg_ngがＨレベルのときに端子tm2と端子tm1を接続して、ノイズ除去処理が施された音声信号（加算器３４の出力音声信号）を出力する。また、ノイズタイミング信号tmg_ngがLレベルのときには端子tm3と端子tm1を接続して、ノイズ除去処理が施されていない音声信号（アンプ３２の出力音声信号）を出力する。

＜５．ノイズ低減装置の構成例（第２例）＞

図１５は、本実施形態のノイズ低減装置としての第２例の構成を示している。この図において，図１４と同一部分には同一符号を付して説明を省略する。

この図においては、図１４の補間信号源発生部３５に代えて、元補間信号生成部３５Ａが設けられる。
この補間信号源発生部３５には、アンプ３２からの元の音声信号が入力される。また、ノイズタイミング生成処理部３８からのノイズ認識情報が入力される。

図１４の補間信号源発生部３５は、独立して補間信号源、即ち、補間信号の元となる信号を発生させる構成としていたが、図１５の元補間信号生成部３５Ａは、アンプ３２から入力する音声信号(入力音声信号)を基にして、補間信号の元となる音声信号を生成する。なお、元補間信号生成部３５Ａにより生成される音声信号については、元補間信号といい、図１４の補間信号源発生部３５が生成する、例えばホワイトノイズなどとしての補間信号源とは区別する。

元補間信号生成部３５Ａによる元補間信号の生成処理を、図１７により説明する。
図１７には、元の音声信号の波形が示されている。この波形は、横軸が時間（Ｔ軸）とされ、縦軸が振幅（Ａ軸）となっている。

元補間信号生成部３５Ａは、ノイズタイミング生成処理部３８からのノイズ認識情報として、１つには、ノイズ発生期間ts〜teとしての時間を示す信号と、ノイズ発生期間における音声信号（即ちノイズ音）がピークとなる時間（ピーク時間tq）とを示す信号とを入力するものとする。
ここでのノイズ発生期間ts〜teとしての時間を示す信号としては、例えばノイズタイミング生成処理部３８がスイッチ３９に対して出力するノイズタイミング信号tmg_ngと同一の信号とされればよい。また、ピーク時間tqを示す信号は、例えばノイズ認識処理部３７から取り込んだノイズ認識情報（正規化された多項式の係数）から求めることができる。これにより、元補間信号生成部３５Ａは、音声信号においてノイズの発生が開始／終了する開始時間ts／終了時間teと、音声信号において発生したノイズの振幅がピークとなるピーク時間tqを認識できることになる。

ここで、ノイズタイミング信号tmg_ngにより示される上記ノイズ発生期間ts〜teは、先にも述べたように、１以上の分割周波数のノイズ発生期間の論理和に対応する。従って、図１７に示される音声信号は、その状態として、ノイズ発生期間ts〜teにおいてノイズが発生しているが、時間tsより以前、及び時点te以降においてはノイズは発生していないことになる。

元補間信号生成部３５Ａは、図１７に示すように、前補間信号を生成するとともに後補間信号を生成し、これらを連結して元補間信号を生成する。
先ず、元補間信号生成部３５Ａは、前補間信号の生成処理として、ノイズ発生期間における開始時間tsからピーク時間tqまでの時間幅（時間長）W1を求める。次に、開始時点tsから時間幅W1だけ遡った時点tprを求める。そして、期間tpr〜tsの区間の音声信号、即ち、開始時間tsの直前における時間幅W1の区間の音声信号（ノイズ前信号）を前補間信号として取得する。
また、元補間信号生成部３５Ａは、後補間信号の生成処理として、ノイズ発生期間におけるピーク時間tqから終了時間teまでの時間幅W2を求め、さらに終了時点teから時間幅W2だけ進行した時点tpsを求める。そして、期間te〜tpsの区間の音声信号、即ち、終了時間teの直後における時間幅W2の区間の音声信号（ノイズ後信号）を前補間信号として取得する。

次に、元補間信号生成部３５Ａは、上記のようにして生成した前補間信号と後補間信号とについて、時間的に、前補間信号が前で、後補間信号が後となるようにして連結する。このようにして連結して形成される音声信号は、図１７においても示されるように、ノイズ発生期間としての時間長を有するものであり、これが、ここでの元補間信号となる。

補間フィルタ３６は、上記のようにして元補間信号生成部３５Ａにより生成される元補間信号を入力する。そして第１例の場合と同様にして、ノイズ除去フィルタ３３に出力されるのと同じノイズ発生周波数指示情報に基づいて、ノイズ除去フィルタ３３にて遮断された帯域に対応する帯域成分のみを通過させ、これを補間信号として加算器３４に対して出力する。

この場合も加算器３４から出力される音声信号は、入力音声信号から、ノイズが発生したとされる分割周波数帯域のみをノイズ除去フィルタ３３により遮断してノイズ成分が除去された上で、加算器３４において、ノイズ除去フィルタ３３により欠落した周波数を補間信号により補うようにして生成されたものとなる。つまり、ノイズ除去・補間処理を経た音声信号が得られる。

この第２例では、図１７に示したように、補間信号（元補間信号）は、ノイズ発生期間の直前と直後における音声信号区間を利用して生成する。このノイズ発生期間の直前と直後の音声信号は、どの帯域においてもノイズは発生していない状態の音声信号である。かつ、時間的にノイズ発生区間の直前と直後の音声信号であるから、ノイズ発生区間において得られているノイズ以外の音との関連性、連続性は強い。
つまり、本実施形態では、補間信号として、ノイズが発生しておらず、かつ、ノイズ発生区間の音声内容と連続性が高い音声内容を持つ音声信号を利用しているといえる。これにより、ノイズ除去処理が行われた音声として、さらに自然な聴感を得ることが期待できる。

なお、例えば元補間信号生成部３５Ａによる、より簡単な元補間信号生成処理としては、ノイズ前信号のみ、若しくはノイズ後信号のみにより元補間信号を生成することも考えられる。なお、この処理は、後述する図２２に示される元補間信号の生成処理と同じになる。
ただし、音声信号の音声内容は、ノイズ発生前とノイズ発生後とで変化し得るものであり、例えば、発生したノイズのピークを境界としてその変化が生じやすい。そこで、自然な聴感が得られるようにすることを優先する場合には、図１７に例示したように、前補間信号と後補間信号を生成するようにして、さらに、前補間信号と後補間信号の連結点を、ノイズ発生期間におけるノイズのピークに対応する時間とすることが好ましいことになる。
なお、前補間信号と後補間信号により元補間信号を生成する場合の変形として、例えば、単純に、ノイズ発生期間の中間時点など、予め固定的に定めた境界時点にて前補間信号と後補間信号とを連結する手法も考えられる。

＜６．ノイズ低減装置の構成例（第３例）＞
［６−１．全体構成例］

続いて、本実施形態のノイズ低減装置の第３例及び第４例について説明する。第３例及び第４例に関しては、後述する、ピッチ周期に基づく補間信号生成処理が適用される。

図２０は、本実施形態のノイズ低減装置の第３例としての構成例を示している。なお、この図に示す構成は、第２例として図１５に示したノイズ低減装置における補間信号生成処理について、ピッチ周期に基づくものとして構成したものとしてみることができる。この図において、図１５と同一部分には、同一符号を付して説明を省略する。

この図に示す構成は、図１５に示した構成に対して、ピッチ算出部５１が追加されている。また、ここでは、図１５に示した元補間信号生成部３５Ａに代えて、入力音声信号（利用音声信号）のピッチに基づく補間信号生成処理（ピッチ対応補間信号生成処理）として原補間信号を生成する元補間信号生成部３５Ｂが設けられる。
また、この図においては、ノイズ除去フィルタ３３、加算器３４、補間信号源発生部３５、元補間信号生成部３５Ｂ、補間フィルタ３６、及びピッチ算出部５１から成る部位を、ノイズ除去・補間部５０としており、ノイズタイミング生成処理部３８からは、このノイズ除去・補間部５０に対してノイズ認識情報を出力する構成としている。

ピッチ算出部５１は、アンプ３２からの入力音声信号を入力して、そのピッチを算出する。ここでのピッチとは、音声信号における基本周波数に対応する周期時間をいう。
ピッチを求める手法としては各種知られているが、ここでは、一例として、AMDF(Average Magnitude Difference Function)について簡単に説明しておく。AMDFは、演算処理が加算／減算のみであり、例えば自己相関やＦＦＴを採用する場合よりも簡易で処理が軽いにもかかわらず、比較的にピッチの抽出精度が高いことで知られている。
AMDFによるピッチは、下記(数４)により求めることができる。

上記(数４)におけるXは、時間１〜Nの時間窓で切り取られた入力信号であり、Ｄ(m)は、入力信号Xの時間差ｍにおける差分の総和を示す。このＤ(m)としての値が最小となるｍをピッチとして求める。Ｄ(m)の値が最小となる場合とは、２つの信号ｘについて、その位相差が３６０°となる状態、つまり、１周期の時間差が生じていることで同じ波形形状が重なっている状態である。
上記のようにして求められたピッチの情報は、補間信号生成部３５Ｂが入力し、元補間信号の生成に利用する。

補間信号生成部３５Ｂにより生成された元補間信号は入力音声信号に対応した周波数帯域を有する音声信号である。補間フィルタ３６は、先の第１例、第２例のノイズ低減装置と同様、ノイズ認識処理部３７から入力されるノイズ認識情報が示す、ノイズの発生が判定された周波数のみを通過させるフィルタ特性を設定し、元補間信号を通過させる。これにより、ノイズの発生が判定された周波数のみの帯域特性を持つ補間信号が得られ、加算器３４に入力される。
加算器３４では、ノイズ除去フィルタ３３からの音声信号と上記補間信号とを合成して、ノイズ除去・補間処理が施された音声信号として出力する。

［６−２．ピッチに基づく補間信号生成処理（第１例）］

続いて、上記図２０に示した第３例のノイズ低減装置において実行される、入力音声信号（利用音声信号）のピッチに基づく補間信号生成処理（ピッチ対応補間信号生成処理）について説明する。このピッチ対応補間信号生成処理としては、第１例〜第３例による３つの態様を挙げる。

図２２は、第１例としてのピッチ対応補間信号生成処理として、図２０に示すノイズ低減装置におけるピッチ算出部５１によるピッチ算出と、元補間信号生成部３５Ｂによる元補間信号（生成元信号）の生成までの流れを模式的に示している。

先ず、図２０のピッチ算出部５１には、ノイズタイミング生成処理部３８から出力されるノイズ認識情報として、ノイズ発生期間を示す信号（例えばノイズタイミング信号tmg_ng）を入力して、ノイズ発生期間Tnの開始時間ｔsを認識する。
次に、ピッチ算出部５１は、入力音声信号の時系列において、認識した開始時間ｔsより時間的に前であり、かつ、ノイズ発生期間Tnの近傍における所定時間分の期間をピッチ算出期間Tｐとして設定する。図２２においては、開始時間tsの直前においてピッチ算出期間Tpを設定した例が示されている。
ピッチ算出部５１は、上記のようにして設定したピッチ算出期間Tpの入力音声信号を利用して、例えば先に述べたAMDFなどの手法に従って、入力音声信号のピッチを算出する処理を実行する。
ここで、ピッチ算出期間Tpは、ノイズ発生期間Tnより前の音声信号区間である。つまり、入力音声信号におけるどの帯域においてもノイズが発生していない信号である。このように本実施形態では、ノイズが発生していない区間の音声信号を利用してピッチ算出が行われるようにしている。これにより、正確なピッチ算出結果が安定して得られる。

次に、元補間信号生成部３５Ｂは、元補間信号生成のために、ノイズタイミング生成処理部３８から出力されるノイズ認識情報として、ノイズ発生期間を示す信号（例えばノイズタイミング信号tmg_ng）を入力して、ノイズ発生期間Tnとしての時間長、及びその開始時間Tsを認識する。
次に元補間信号生成部３５Ｂは、ノイズ発生期間Tn＝1.5*Ts1で表される時間長によるノイズ前元信号区間Ts1を設定する。このノイズ前元信号区間Ts1は、図２２に示すように、入力音声信号における、開始時間tsの直前に対して設定される。

そして、元補間信号生成部３５Ｂは、上記ノイズ前元信号区間Ts1における入力音声信号を利用して、図２３に示すようにして元補間信号を生成する処理を実行する。
先ず、図２３（ａ）には、ノイズ前元信号区間Ts1の入力音声信号における冒頭部分が示されている。
元補間信号生成部３５Ｂは、図２３（ａ）に示すようにして、ノイズ前元信号区間Ts1の入力音声信号について、ピッチ算出部５１により算出されたピッチとしての周期時間picthの1/2（=picth/2）の単位（単位周期区間）で、時系列に従って区切る。このようにして区切られた信号単位については、時間順に従い、区間信号１，２・・・・という。

次に元補間信号生成部３５Ｂは、図２３（ａ）から図２３（ｂ）の遷移として示すようにして、上記picth/2周期の区間信号１，２・・・を利用して、元補間信号を生成する。
つまり、補間信号としては、まず、その先頭１番目のpicth/2周期区間に、順時間方向の区間信号１をコピーする。これは、図２３（ａ）に示される入力音声信号の区間信号１をそのままLIFO（Last In First Out）で読み出すように処理すればよい。つまり、区間信号を時系列に従ってメモリに一旦書き込み、書き込み時と同じ順序で読み出しを行えばよい。
次の2番目のpicth/2周期区間には、時系列を元信号の逆時間方向に変換した区間信号１及び区間信号２を利用する。このような逆時間方向の区間信号は、図２３（ａ）の入力音声信号の区間信号をFILO（First In first Out）で出力する、つまり、区間信号を時系列に従ってメモリに一旦書き込み、書き込み時とは逆の順序で読み出しを行って出力する。
そのうえで、これらの逆時間方向の区間信号１，２について、例えば時間経過に従って、区間信号１が１００％〜０％に減衰し、区間信号２が０％〜１００％に増加していくようにしてクロスフェード（オーバーラップ）するようにして合成処理を行う。このようにして得られた音声信号を、２番目のpicth/2周期区間分の音声信号として連結する。
また、次の３番目のpicth/2周期区間には、時間順方向の区間信号２を連結する。

このようにして、第１例のピッチ対応補間信号生成処理では、連続する２つのpicth/2周期区間の区間信号により、連続する３つのpicth/2周期区間分の元補間信号を生成する。続いては、例えば、入力音声信号における次の２つの連続して前後する区間信号３，４を利用して、上記区間信号１，２と同様の処理で、次に連続する３つ（4番目〜6番目）のpicth/2周期区間分の元補間信号を生成する。以降、ノイズ前元信号区間Ts1の終端まで、同様の処理を実行していく。
この場合、ノイズ前元信号区間Ts1を形成する全ての区間信号を利用して形成される元補間信号の時間長としては、図２２にて示しているように、1.5*Ts1で表されることになる。つまり、この場合の元補間信号は、ノイズ前元信号区間Ts1を１．５倍分により時間方向に拡張するようにして生成されているものとみることができる。
なお、このように入力音声信号から求めたピッチに基づいて設定した周期区間による区間信号を並べるようにして生成される補間信号は、入力音声信号のピッチに対応した周波数特性を有する。つまり入力音声信号と補間信号とで周波数特性面での連続性が得られる。

ここで、図２３（ｂ）における１番目のpicth/2周期区間の終了位置と、２番目のpicth/2周期区間の開始位置とでは、同じ区間信号１について順時間方向−逆時間方向の順で連結されていることにより、その振幅が一致することになる。つまり、１番目と２番目のpicth/2周期区間の境界で振幅波形が接続する状態を得ることができる。
また、２番目のpicth/2周期区間の終了位置と、３番目のpicth/2周期区間の開始位置とについても、同様にして、同じ区間信号２を逆時間方向−順時間方向の順で連結していることで、その境界において振幅波形が接続する状態が得られている。つまり、元補間信号におけるpicth/2周期区間の境界にて必ず接続された状態が得られるようにしている。

例えば、先に挙げた特許文献１〜３に示される補間信号の生成手法は、例えば下記のようになる。
つまり、ノイズ発生期間の開始点に対して前後する１ピッチ周期分の２つの信号区間をクロスフェードさせた１ピッチ周期分の重み付け加算信号を生成する。そして、この同じ１つの重み付け加算信号を繰り返して連結することでノイズ発生期間分の前半信号を生成する。また、同様の要領で、後半信号を生成する。つまり、ノイズ発生期間の終了点に対して前後する１ピッチ周期分の２つの信号区間をクロスフェードさせた１ピッチ周期分の重み付け加算信号を生成し、この同じ１つの重み付け加算信号を繰り返して連結することでノイズ発生期間分の後半信号を生成する。
次に、上記のように生成した前半信号と後半信号をクロスフェードさせることで、ノイズ発生期間分の補間信号を生成する。

上記特許文献での補間信号は、１ピッチ周期分の重み付け加算信号を、単純に繰り返し連結して形成されている。このようにして同じ信号を単純に繰り返した場合、この繰り返し周期に応じたビート音と言われるノイズが新たに発生する。このビート音は、例えばノイズ除去期間が長くなったり、ピッチ周期が短くなったりするなどして、繰り返される回数が増加するほど出現しやすくなる。
また、上記特許文献での補間信号は、重み付け加算信号を２つの音声信号のクロスフェードにより形成し、さらに最終的に得られる補間信号も、前半信号と後半信号のクロスフェードにより形成されている。このようにしてクロスフェードすることにより、例えば単一の音声信号を用いる場合より、前後の音声信号との連続性を保ちやすくはなる。
しかし、クロスフェードさせる２つの音声信号の位相差の条件によっては、相互に打ち消し合うような結果となって信号レベルを低下させる可能性が避けられなくなる。このようなレベル低下が発生すれば、ノイズ除去処理の期間中において、この状態が繰り返される、あるいは継続されることになり、充分な補間の効果を得ることができない場合があると考えられる。
また、上記特許文献での補間信号は、入力音声信号を元にして生成されるので、この点で、ノイズ発生期間前後の音声信号と補間信号との連続性は得られやすい。しかし、重み付け加算信号の１／２は、ノイズ発生期間における冒頭若しくは終端の音声信号を利用しているので、ノイズが混入した補間信号となる可能性があり、これが自然な聴感を妨げる要因となる場合があると考えられる。

これに対して、図２２及び図２３により説明した本実施形態のピッチ対応補間信号生成処理によっては、先にも述べたように、元補間信号における区間信号のエンベロープ（振幅波形）は、その連結位置にて接続される状態が得られる。これにより、本実施形態では、区間信号の繰り返しによるビート音などの発生が有効に抑制される。仮に、同じ順時間方向の区間信号を単純に連結したとすれば、その連結位置においては、エンベロープが急峻に変化して顕著な高調波成分を持つことになり、ビート音が発生しやすくなる。

なお、本実施形態の元補間信号において時間方向が反転された同じ区間信号の連結位置は、その振幅波形が接続されはするものの、点接続となる場合が多く、なめらかな接線接続とは成りにくい。この分、互いに時間方向が反転された区間信号ごとの連結位置においては、相応の高調波成分が発生する。しかし、上記のようにして、単純に区間信号を連結して振幅波形が非連続となる状態と比較すれば、その高調波成分量は少ないものであり、それだけビート音の発生は抑えられる。
さらに、元補間信号生成部３５Ｂにより生成された元補間信号は、補間フィルタ３６によって、ノイズが発生したと判定された周波数のみに制限される。この段階で、上記点接続に対応して発生した高調波成分はほぼ完全に除去されるので、問題になることはない。

また、本実施形態の元補間信号においても、1/2pitch周期によるクロスフェード区間が存在するが、図２３（ｂ）から理解されるように、クロスフェード区間は、1/2pitch周期が3回連続するごとに1回出現するのみである。つまり、元補間信号全体において１／３のみとなっている。これにより、例えば元補間信号の区間全体においてクロスフェードが行われる場合と比較すれば、クロスフェード区間での位相条件によるレベル低下が発生する可能性はそれだけ低くなる。また、レベル低下が発生したとしても短時間で完結的であるために目立ちにくい。

さらに本実施形態では、ノイズが発生していない区間の入力音声信号を利用して元補間信号を生成するので、元補間信号にノイズが混入することがなく、補間信号とその前後の入力音声信号との連続性を高めることができる。

また、これまでに述べてきたように、本実施形態では、ノイズ除去フィルタ３３によりノイズが発生した周波数帯域のみを除去することとして、ノイズが発生していない周波数帯域は、入力音声信号のまま残すようにしている。これにより、補間信号とその前後の入力音声信号との連続性を高めて自然な聴感を得るようにしている。この点については、ピッチ対応補間信号生成処理を行うノイズ低減装置においても変わりはない。

なお、上記図２２においては、元補間信号を生成するのにあたり、ノイズが発生していない区間の入力音声信号として、ノイズ発生期間Tnの前の入力音声信号を利用している。しかし、上述した第１例のピッチ対応補間信号生成処理、及び次に説明する第２例のピッチ対応補間信号生成処理としては、ノイズ発生期間Tnの後の入力音声信号を利用して元補間信号を生成するようにしてもよい。

また、この第１例のピッチ対応補間信号生成処理は、図２３に示されるように、１つの区間信号ごとに、各１つの順時間方向の区間信号と逆時間方向の区間信号とを連結して単位補間信号部分partを形成したうえで、これらの単位補間信号部分partを、生成元の区間信号の時間順に従って、時間軸上に並べているものとしてみることができる。
そのうえで、この場合には、前の単位補間信号部分partにおける最後の区間信号の1/2pitch周期期間と、後の単位補間信号部分partにおける１番目の区間信号の1/2pitch周期期間については、重複させているものとしてみることができる。そのうえで、この重複する1/2pitch周期期間においては、クロスフェードによる合成を行っているものである。
また、第１例は、同じ順番（単位周期区間）の区間信号を偶数個利用して単位補間信号部分partを形成するとした場合において、具体的に２個を利用した場合の処理として見ることができる。

［６−３．ピッチに基づく補間信号生成処理（第２例）］

続いて、本実施形態によるピッチ対応補間信号生成処理の第２例について、図２４を参照して説明する。
図２４は、単位補間信号部分partを、同じ時間（単位周期区間）における奇数の区間信号により形成する場合として、その最小数である３つにより形成する例を示したものである。
なお、ノイズ低減装置におけるピッチ算出部５１によるピッチ算出と、元補間信号生成部３５Ｂによる元補間信号（生成元信号）の生成の概略については、第１例のピッチ対応補間信号生成処理と同様に、図２２に示したものとなる。

図２４（ａ）には、図２３（ａ）と同様に、ノイズ前元信号区間Ts1の入力音声信号における冒頭部分が示されている。つまり、第２例の元補間信号生成部３５Ｂも、第１例と同様にして、ノイズ前元信号区間Ts1の入力音声信号を、picth/2周期時間の区間信号１、２・・のようにして区分する。

そのうえで、この場合の補間信号生成部３５Ｂは、図２４（ｂ）に示すように、元補間信号における１番目のpicth/2周期区間には、順時間方向の区間信号１を配置する。続けて、２番目のpicth/2周期区間には逆時間方向の区間信号１を配置し、３番目のpicth/2周期区間には順時間方向の区間信号３を配置する。
続いて、元補間信号における４番目のpicth/2周期区間には、順時間方向の区間信号２を配置する。続けて、５番目のpicth/2周期区間には逆時間方向の区間信号２を配置し、６番目のpicth/2周期区間には順時間方向の区間信号２を配置する。
つまり、第２例のピッチ対応補間信号生成処理では、１つの区間信号について、順時間方向、逆時間方向、順時間方向の順により配列することとして、これを区間信号の時系列順に繰り返していくようにする。

このようにして形成される元補間信号としても、区間信号間の連結位置の振幅波形のエンベロープは点接続が維持される。
また、この第２例の場合のようにして、奇数の区間信号により単位補間信号部分partを形成するとした場合には、前の単位補間信号部分partの最後の区間信号と、後の単位補間信号部分partの最初の区間信号とを、ともに順時間方向とすることができる。つまり、前の単位補間信号部分partの最後の区間信号と、後の単位補間信号部分partの最初の区間信号から成る期間は、本来、時間的に連続している２つの区間信号がそのまま連結される。従って、これらの区間信号の境界においては、振幅波形は、点接続された結果として、これより良好な接線接続の状態が得られることになる。つまり、奇数の区間信号により単位補間信号部分partを形成する場合には、単位補間信号部分partを、生成元の区間信号の時間順に従って単純に連結していけばよい。
また、これにより、元補間信号において区間信号がクロスフェードする区間は全く形成しなくともよい。従って、クロスフェードする２つの信号の位相条件によるレベル低減の問題は生じない。
さらに、この場合には、元補間信号は、ノイズ前元信号区間Ts1の３倍に拡張された時間長を持てることになる。つまり、元補間信号に対応するノイズ発生期間Tnとの関係として、Tn=3*Ts1が成立する。これは、ノイズ前元信号区間Ts1としては、ノイズ発生期間Tnの1/3の時間長があればよいことを意味する。例えば第１例との比較では、同じノイズ発生期間Tnに対応して必要なノイズ前元信号区間Ts1を1/2にまで短くできる。
このようにして第2例では、元補間信号生成のため必要な入力音声信号の時間が短くて済み、それだけ処理は軽いものにできる。また、本実施形態が除去対象とするノイズは、時間的に断続して不規則に発生するノイズである。このようなノイズが短時間で複数発生したような場合、現ノイズ発生期間と1つ前のノイズ発生期間の間のノイズが発生していない期間が短くなってしまう場合があるが、このようなときにも、ノイズが発生していないノイズ前元信号を得られる可能性が高くなる。

［６−４．ピッチに基づく補間信号生成処理（第３例）］

本実施形態によるピッチ対応補間信号生成処理の第３例について、図２５及び図２６により説明する。
図２５は、第３例に対応する、ノイズ低減装置におけるピッチ算出部５１によるピッチ算出と、元補間信号生成部３５Ｂによる元補間信号（生成元信号）の生成の概略を示している。
この場合にも、ピッチ算出部５１には、ノイズタイミング生成処理部３８から出力されるノイズ認識情報として、ノイズ発生期間を示す信号（例えばノイズタイミング信号tmg_ng）が入力される。ピッチ算出部５１は、この信号に基づいて、ノイズ発生期間Tnの開始時間ｔs、及び終了時間teを認識する。また、この場合のピッチ算出部５１は、ノイズタイミング生成処理部３８から出力されるノイズ認識情報として出力される、ノイズ発生期間Tnにおける音声信号（ノイズ音）の振幅のピーク時間tpを示す信号により、ピーク時間tpも認識する。

次に、ピッチ算出部５１は、第１例の場合と同様にして、入力音声信号の時系列において、例えば開始時間ｔsの直前の一定期間をピッチ算出期間Tｐ1として設定し、このピッチ算出期間Tｐ1の入力音声信号を利用してピッチ算出を実行する。なお、このピッチ算出期間Tｐ1に対応して求められたピッチは、前ピッチという。
さらに、この場合のピッチ算出部５１は、入力音声信号の時系列において、終了時間ｔeより時間的に後で、かつ、ノイズ発生期間Tnの近傍における所定時間分の期間をピッチ算出期間Tｐ2として設定する。図２４においては、終了時間teの直後においてピッチ算出期間Tp2を設定している。そして、ピッチ算出部５１は、ピッチ算出期間Tp2の入力音声信号を利用して後ピッチを算出する。

次に、補間信号生成部３５Ｂは、元補間信号生成のために、ノイズタイミング生成処理部３８からのノイズ認識情報を入力して、ノイズ発生期間Tnの開始時間ts／終了時刻te、及びピーク時間tpを認識する。

この場合の補間信号生成部３５Ｂは、図示するようにして、前補間信号（前側生成元信号）とこれに続く後補間信号（後側生成元信号）を連結して、ノイズ発生期間Tn分の元補間信号を生成する。
そこで、補間信号生成部３５Ｂは、認識した開始時間tsからピーク時間tpまでによる前補間信号期間Tn-1としての時間長を認識し、この前補間信号期間Tn-1の時間長に基づいて、ノイズ発生期間の直前のノイズ前信号区間Ts1として設定すべき時間長を求める。
同様に、補間信号生成部３５Ｂは、認識したピーク時間tpから終了時間Teまでによる後補間信号期間Tn-2しての時間長を認し、この後補間信号期間Tn-1の時間長に基づいて、ノイズ発生期間の直後のノイズ後信号区間Ts2として設定すべき時間長を求める。
なお、ノイズ前信号区間Ts1、後補間信号期間Tn-1の各時間長の求め方については、図２６により次に述べる。

次に、第３例に対応して元補間信号生成部３５Ｂが実行するピッチ対応補間信号生成処理について説明する。
まず、第３例にあっても、先の各例に準じて、元補間信号生成部３５Ｂは、ノイズ前元信号区間Ts1と、ノイズ後元信号区間Ts2の各入力音声信号について、1/2pitch周期による区間信号単位に分割する。
図２６（ａ）には、ノイズ前元信号区間Ts1の入力音声信号として、その終端の２つの区間信号N-1，Ｎが示されている。また、図２６（ｂ）には、ノイズ後元信号区間Ts2の入力音声信号として、その終端の２つの区間信号N+1，Ｎ+2が示されている。

ここで、前補間信号及び後補間信号を生成するためのピッチ対応補間信号生成処理としては、先の第１例に対応する処理（偶数の区間信号により単位補間信号部分partを形成する）を採用してもよいし、先の第２例（奇数の区間信号により単位補間信号部分partを形成する）を採用することとしてもよい。図２６では、第２例に準じて、奇数として３つの区間信号により単位補間信号部分partを形成する場合を例に挙げる。

まず、前補間信号については、先の第２例に対応する図２４と同様の処理によって生成していく。図２６（ｃ）においては、元補間信号として、前補間信号の終端部分と後補間信号の開始部分との境界近傍が示されている。
図２６（ｃ）においては、まず、前補間信号の終端部分として、ノイズ前元信号区間Ts1における最後の1つ前の区間信号N-1について、順時間方向、逆時間方向、順時間方向の順で配列したことにより、１つの単位補間信号部分partが形成された状態が示されている。
次の1/2pitch区間は、前補間信号と後補間信号の境界に対応する区間となるが、これに続く、1/2pitch区間は、後補間信号の区間となるもので、図示するようにして、ノイズ後元信号区間Ts2の２番目の区間信号N+2を、1/2pitch区間ごとに順次、順時間方向、逆時間方向、順時間方向の順で配列している。これより後は、3番目以降の区間信号ごとに、順時間方向、逆時間方向、順時間方向の順で、1/2pitch区間に対して順次配列していくようにする。これをノイズ後元信号区間Ts2の最後の区間信号まで行うと、後補間信号が終端まで形成されることになる。

そのうえで、前補間信号における最後の単位補間信号部分partと、後補間信号における最初の単位補間信号部分partとの間には、図２６（ｂ）に示すようにして、１つの1/2pitch周期区間分の、連結部分combを設けることとしている。
この連結部分combには、ノイズ前元信号区間Ts1の最後の区間信号Nと、ノイズ後元信号区間Ts2の最初の区間信号N+1とをクロスフェードさせた音声信号を配置する。このときのクロスフェードとしては、区間信号Nが０％〜100％で増加し、区間信号N+1が100％〜０％で減衰するようにされている。これにより、直前の1/2pitch区間とクロスフェードの1/2pitch区間との境界では、順時間方向の区間信号N-1の終了位置と、順時間方向の区間信号Nの開始位置との点接続が得られる。また、クロスフェードの1/2pitch区間とその直後の1/2pitch区間との境界では、順時間方向の区間信号N+1の終了位置と、順時間方向の区間信号N+2の開始位置との点接続が得られる。

前補間信号と後補間信号を利用した最も簡単な元補間信号の生成の仕方としては、単に、単位補間信号部分partの連結のみから成る前補間信号に続けて、同じく単位補間信号部分partの連結のみから成る後補間信号を連結すればよい。つまり、図２６（ｂ）から連結部分combを取り除いて、連結した構造とするものである。しかし、このような元補間信号では、前補間信号の終了位置と、後補間信号の開始位置とで点接続を得ることができなくなる。そこで、図２６の例では、上記のようにして連結部分combを設けることとしている。

上記した前補間信号と後補間信号の各生成処理は、第２例のピッチ対応補間信号生成処理と同様に、ノイズ後元信号区間の入力音声信号を３倍に拡大していくものである。従って、ノイズ前元信号区間Ts1は、前補間信号区間Tn-1の1/3の時間幅を設定すればよい。同様に、ノイズ後元信号区間Ts2も、後補間信号区間Tn-2の1/3の時間幅を設定すればよい。

このようにして前補間信号と後補間信号とを連結して元補間信号を生成する構成は、先の第２例としてのノイズ低減装置の場合と同様にして、補間信号とその前後の入力音声信号とで連続性をより高く保つことが可能である。そのうえで、ノイズ発生期間Tnの前後で、入力音声信号のピッチに変化が生じている可能性は当然にあり得るが、特に、この第３例のピッチ対応補間信号生成処理であれば、このようなノイズ発生期間前後のピッチ周期の変化にも対応して、より高い連続性を保つことが可能になり、さらに自然な聴感が期待できる。
また、この第３例の場合、同じ時間幅によるノイズ発生期間Tnに対しては、ノイズ前元信号区間Ts1、ノイズ後元信号区間Ts2のそれぞれについて、第２例における図２２のノイズ前元信号区間Ts1よりも短くできるというメリットもある。

＜７．ノイズ低減装置の構成例（第４例）＞

図２１は、第４例としてのノイズ低減装置の構成例を示している。
なお、この図において、第１例として図１４に示した構成と同一部分には同一符号を付して説明を省略する。この図２１に示す構成は、入力音声信号に基づくのではなく、補間信号源発生部３５にて発生される補間信号源（利用音声信号）を基として補間信号を生成しようとする点では、図１４の第１例と共通している。

図２１においては、図１４の構成に加えて、ピッチ算出部５１と補間信号生成部３５Ｃが設けられている。
また、この図においても、図２０に準じて、ノイズ除去フィルタ３３、加算器３４、補間信号源発生部３５、元補間信号生成部３５Ｃ、補間フィルタ３６、及びピッチ算出部５１から成る部位を、ノイズ除去・補間部５０としており、ノイズタイミング生成処理部３８からは、このノイズ除去・補間部５０に対してノイズ認識情報を出力する構成としている。

ピッチ算出部５１は、図２０に示す第３例のノイズ低減装置と同様の構成を採るものであり、アンプ３２からの入力音声信号についてのピッチを算出し、算出したピッチを示す情報を元補間信号生成部３５Ｃに出力する。

元補間信号生成部３５Ｃは、補間信号源を補間信号の生成元信号として入力するとともに、算出された入力音声信号のピッチに基づいて、下記のようにして、元補間信号を生成する。

この第４例としてのノイズ低減装置では、ピッチ対応補間信号生成処理として、第１例、第２例、第３例の何れにも準じた処理が可能なように構成できる。
なお、ピッチ算出部５１については、先の第１例、第２例に準じたピッチ対応補間信号生成処理とする場合には、図２２と同じ処理を実行させるように構成する。つまり、ノイズ発生期間Tnを除いた、その前後における何れか一方の入力音声信号を利用してピッチを算出する。また、先の第３例に準じたピッチ対応補間信号生成処理とする場合には、図２５と同じ処理を実行させるように構成する。

先ず、第１例に準じたピッチ対応補間信号生成処理から説明する。
この場合の元補間信号生成部３５Ｃは、補間信号源としての音声信号から、ノイズ発生期間Tnの2/3倍の時間幅の音声信号を取り出す。これは、図２２におけるノイズ前元信号区間Ts1を設定し、このノイズ前元信号区間Ts1内の音声信号を取り出す処理に相当する。ただし、補間信号源は、連続的に発生される音声信号であり、入力音声信号のようにしてノイズが混入することはない。従って、補間信号源からノイズ発生期間Tnの2/3倍の時間幅の音声信号を取り出すタイミングは任意でよい。

そのうえで、元補間信号生成部３５Ｃは、補間信号源を1/2pitch周期の区間信号に区分し、図２３にて説明したのと同じ処理により、ノイズ発生期間Tnだけの時間幅の元補間信号を生成し、これを補間フィルタ３６に出力する。

また、第２例に準じたピット対応補間信号生成処理とする場合、元補間信号生成部３５Ｃは、補間信号源としての音声信号から、ノイズ発生期間Tnの1/3の時間幅の音声信号を任意のタイミングで取り出す。
そのうえで、元補間信号生成部３５Ｃは、補間信号源を1/2pitch周期の区間信号に区分し、図２４にて説明したのと同じ処理により、ノイズ発生期間Tnだけの時間幅の元補間信号を生成し、これを補間フィルタ３６に出力する。

また、第３例に準じたピット対応補間信号生成処理とする場合、元補間信号生成部３５Ｃは、補間信号源としての音声信号から、前補間信号期間Tn-1の1/3の時間幅（図２５のノイズ前元信号区間Ts1と同じ時間幅）の音声信号を任意のタイミングで取り出し、これをノイズ前元信号とする。同様に、補間信号源としての音声信号から、後補間信号期間Tn-2の1/3の時間幅（図２５のノイズ後元信号区間Ts2と同じ時間幅）の音声信号を任意のタイミングで取り出し、これを、ノイズ後元信号とする。
そのうえで、元補間信号生成部３５Ｃは、ノイズ前元信号とノイズ後元信号を1/2pitch周期の区間信号に区分し、ここでは、図２６と同じ処理によって元補間信号を生成する。

この第４例のノイズ低減装置の場合、ピッチ対応補間信号生成処理により生成する元補間信号は、入力音声信号ではなく補間信号源、つまり、例えばトーン信号とM系列信号とが合成された音声信号とされている。
しかし、このような入力音声信号とは異なる信号により補間する場合にも、入力音声信号のピッチに基づいて、上記の処理により元補間信号を生成することで、例えば単純に補間信号源を順時間方向で連結して元補間信号を生成した場合と比較して、より自然な聴感が得られる。このことについては、本願発明者が実験により確認している。

なお、上記したピッチ対応補間信号生成処理(第１例〜第３例)を実行する、第３例及び第４例のノイズ低減装置(図２０，図２１)では、ノイズ除去フィルタ３３と補間フィルタ３６とを備えることにより、ノイズ発生期間においては、入力音声信号からノイズが発生した分割周波数のみを除去して、ノイズが発生していない分割周波数はそのまま残してノイズ除去信号を生成したうえで、上記除去された分割周波数のみから成る帯域特性の補間信号によりノイズ除去信号を補間するようにしている。これにより、これまでにも述べてきたように、ノイズ発生期間における入力音声信号の成分をできるだけ残して、ノイズ発生期間の前後の期間との入力音声信号との連続性を高めるようにしている。
しかし、ピッチ対応補間信号生成処理(第１例〜第３例)に関しては、ノイズ発生期間において、入力音声信号の全帯域を除去し、代わりに、この全帯域と同じ帯域特性を有する補間信号を補間するようにして構成してもよい。
このようなノイズ除去・補間の手法を採用したとしても、補間信号自体は、図２３，図２４，図２６に示したピッチ対応補間信号生成処理(第１例〜第３例)としての処理により生成される。従って、1/2pitch周期区間ごとに波形が点接続されて高調波の発生が抑制されること、クロスフェード期間が短い，若しくは無くなることで、位相条件によるレベル低下の発生が解消されるなどの利点は、有効に得られるからである。

また、上記実施形態各例のノイズ低減装置として示した各図の構成において、マイクロフォン３１より後段の、アンプ３２以降の構成部位は、ハードウェアにより構成することができる。また、ＤＳＰ(Digital Signal Processor)などとして構成することができる、つまり、ＤＳＰとしてのハードウェアに与えるべきプログラム（インストラクション）により実現できる。また、ＣＰＵ(Central Processing Unit)が実行するプログラムとして実現できる。また、上記ハードウェア、ＤＳＰ、ＣＰＵのプログラムの少なくとも２つのうちから適宜選択して組み合わせるようにして構成することも可能である。

また、上記したプログラムは、例えばノイズ低減装置のＲＯＭ、ＨＤＤ、フラッシュ目メモリなどにより構成できる補助記憶装置に記憶させておくほか、例えばリムーバブルの記憶媒体に記憶させて保存することが可能である。また、プログラムをネットワーク上のサーバなどに保存しておき、例えばネットワーク経由でダウンロードするなどしてユーザが取得できるようにすることも可能である。

また、上記実施形態各例のノイズ低減装置が適用される機器としては、例えば、ビデオカメラ装置、録音機能を有するデジタルスチルカメラ、携帯電話装置、ＩＣレコーダなど、マイクロフォンを有して収音音声を記録媒体に記録(録音)可能な記録再生装置を挙げることができる。このような機器では、例えばマイクロフォンによる収音音声から、ほほリアルタイムにノイズを除去して録音していく必要があるが、本実施形態のノイズ低減装置の構成は、このようにリアルタイム性をもってノイズ判定とノイズ除去を行っていこうとする場合において有用なものとなる。
しかし、本実施形態のノイズ低減装置が入力する、ノイズ音を含み得る音声源としては、マイクロフォンにより収音したものだけではなく、例えば、既に記録媒体に録音（記録）された音声を読み出して得られる音声信号とすることについて、何ら支障はない。つまり、入力音声信号を得るための音声信号入力手段としてはマイクロフォンを備える音声入力系に限定されない。

１，１Ａノイズ認識処理部、１１フレーム化部、１２ＦＦＴ部、１３３次元対応パターン化部、１４ノイズ判定部、１５マッチングテーブル、１６２次元対応パターン化部、１７パターンマッチング部、１８ノイズパターン記憶部、２１ピーク検出部、２２−１〜２２−ｎ多項式演算／正規化部、
３１マイクロフォン、３２アンプ、３３ノイズ除去フィルタ、３４加算器、３５補間信号源発生部、３５ａ・３５ｂ・３５ｃ元補間信号生成部、３６補間フィルタ、３７ノイズ認識処理部、３８ノイズタイミング生成処理部、３９スイッチ、４１トーン信号発生部、４２Ｍ系列信号発生部、４３合成部、５１ピッチ算出部

Claims

音声信号を入力して入力音声信号を取得する音声信号入力手段と、
上記入力音声信号におけるノイズ音発生期間を検出するノイズ発生期間検出手段と、
上記入力音声信号から、ノイズ音発生期間において発生しているとするノイズ音を除去するノイズ除去手段と、
補間信号の生成に利用されるべき利用音声信号から、ノイズ発生期間の時間幅に対応して決まる時間幅の生成元信号を取得する生成元信号取得手段と、
上記音声信号入力手段により入力される入力音声信号において、上記ノイズ発生期間の近傍の入力音声信号区間のピッチを算出するピッチ算出手段と、
上記生成元信号から、上記ピッチ算出手段により算出されたピッチに基づいて設定される単位周期区間ごとに分割した区間信号を設定する区間信号設定手段と、
同じ単位周期区間の区間信号を連結して形成される単位補間信号部分を、時間軸上で並べていくことに基づいて、ノイズ発生期間に対応する時間幅の補間信号を生成するもので、少なくとも、上記単位補間信号部分については、時間順方向の区間信号と逆時間方向の区間信号とを交互に並べていくようにして形成する、補間信号生成手段と、
上記ノイズ除去手段によりノイズが除去された上記入力音声信号と、上記補間信号とを合成して出力する合成手段と、
を備えるノイズ低減装置。
上記生成元信号取得手段は、
前側生成元信号と、この後ろに連結される後側生成元信号とから成る生成元信号を取得するものとされ、
上記前側生成元信号については、上記ノイズ発生期間を除いた、これより前の期間における上記利用音声信号から取得し、
上記後側生成元信号については、上記ノイズ発生期間を除いた、これより後の期間における上記利用音声信号から取得し、
上記補間信号生成手段は、
上記前側生成元信号について設定された区間信号に基づいて、ノイズ発生期間の前側期間に対応する時間幅の前補間信号を生成し、
上記後側生成元信号について設定された区間信号に基づいて、ノイズ発生期間の後側期間に対応する時間幅の後補間信号を生成し、
上記前補間信号に続けて後補間信号を連結して補間信号を生成する、
請求項１に記載のノイズ低減装置。
ノイズ発生期間におけるノイズ音のピークを検出するピーク検出手段をさらに備え、
上記補間信号生成手段は、
上記ノイズ発生期間の前側期間について、ノイズ発生の開始から、上記ピーク検出手段により検出されたノイズ音のピークタイミングまでの期間とし、
上記ノイズ発生期間の後側期間について、上記ピーク検出手段により検出されたノイズ音のピークタイミングから、ノイズ発生の終了までの期間とする、
請求項２に記載のノイズ低減装置。
上記補間信号生成手段は、
前補間信号における最後の単位補間信号部分と、後補間信号における最初の単位補間信号部分との間に連結部分を設けることとして、
この連結部分については、
上記前側生成元信号から、上記最後の単位補間信号部分における最後の区間信号と振幅波形が接続する第１合成区間信号を取得し、
上記後側生成元信号から取得した、上記最初の単位補間信号部分における最初の区間信号と振幅波形が接続する第２合成区間信号を取得し、
上記第１合成区間信号が徐々に減衰し、上記第２合成区間信号が徐々に増大するようにして合成を行う、
請求項２又は請求項３に記載のノイズ低減装置。
上記生成元信号取得手段は、
上記ノイズ発生期間を除いた、これより前の期間、若しくは後の期間における上記利用音声信号から上記生成元信号を取得する、
請求項１に記載のノイズ低減装置。
上記補間信号部分を偶数の区間信号により形成する場合には、上記単位補間信号部分を、生成元の区間信号の時間順に対応させて並べていくようにしたうえで、
単位補間信号部分における最後の区間信号の期間については、次の単位補間信号部分の最初の区間信号の期間と重複させることとし、この重複する期間においては、上記最後の単位周期区間に対応する区間信号が徐々に減衰し、上記最初の単位周期区間に対応する区間信号が徐々に増大するようにして合成を行う、
請求項１乃至請求項５の何れかに記載のノイズ低減装置。
上記補間信号部分を奇数の区間信号により形成する場合には、上記単位補間信号部分を、生成元の区間信号の時間順に対応させて連結していくことにより、上記補間信号を生成する、
請求項１乃至請求項６の何れかに記載のノイズ低減装置。
上記生成元信号取得手段は、
上記生成元信号の時間幅、又は、上記前側生成元信号及び後側生成元信号の時間幅について、上記単位補間信号部分の形成に利用される区間信号数と、ノイズ発生期間の時間幅とに基づいて求める、
請求項１乃至請求項７のいずれかに記載のノイズ低減装置。
上記ピッチ算出手段は、
上記ノイズ発生期間を除いた、これより前の期間、若しくは後の期間における上記入力音声信号区間のピッチを算出する、
請求項１乃至請求項８に記載のノイズ低減装置。
上記生成元信号取得手段は、
上記利用音声信号として上記入力音声信号を入力する、
請求項1乃至請求項９のいずれかに記載のノイズ低減装置。
上記入力音声信号の入力に基づかない音声信号である補間信号源を発生して、上記利用音声信号として出力する補間信号源発生手段をさらに備える、
請求項１乃至請求項９のいずれかに記載のノイズ低減装置。
上記入力音声信号においてノイズが発生している周波数を検出するノイズ発生周波数検出手段をさらに備え、
上記ノイズ除去手段は、ノイズが発生していると検出された周波数のみを遮断する通過帯域特性を設定し、
上記補間信号生成手段は、ノイズが発生していると検出された周波数のみを通過させる通過帯域特性を設定する、
請求項１乃至請求項１１のいずれかに記載のノイズ低減装置。
上記合成手段から出力される音声信号と上記入力音声信号とを入力して、上記ノイズ発生期間においては、上記合成手段から出力される音声信号を出力し、上記ノイズ発生期間以外の期間においては、上記入力音声信号を出力する、スイッチ手段をさらに備える、
請求項１乃至請求項１２の何れかに記載のノイズ低減装置。
上記スイッチ手段は、
上記ノイズ発生期間における始めの期間においては、上記合成手段から出力される音声信号のレベルが徐々に増大し、上記入力音声信号のレベルが徐々に減衰されるように、
上記ノイズ発生期間における終わりの期間においては、上記合成手段から出力される音声信号のレベルが徐々に減衰し、上記入力音声信号のレベルが徐々に増大されるように、クロスフェード処理を実行する、
請求項１３に記載のノイズ低減装置。
入力音声信号を入力する音声信号入力手順と、
上記入力音声信号におけるノイズ音発生期間を検出するノイズ発生期間検出手順と、
上記入力音声信号から、ノイズ音発生期間において発生しているとするノイズ音を除去するノイズ除去手順と、
補間信号の生成に利用されるべき利用音声信号から、ノイズ発生期間の時間幅に対応して決まる時間幅の生成元信号を取得する生成元信号取得手順と、
上記音声信号入力手順により入力される入力音声信号において、上記ノイズ発生期間の近傍の入力音声信号区間のピッチを算出するピッチ算出手順と、
上記生成元信号から、上記ピッチ算出手順により算出されたピッチに基づいて設定される単位周期区間ごとに分割した区間信号を設定する区間信号設定手順と、
同じ単位周期区間の区間信号を連結して形成される単位補間信号部分を、時間軸上で並べていくことに基づいて、ノイズ発生期間に対応する時間幅の補間信号を生成するもので、少なくとも、上記単位補間信号部分については、時間順方向の区間信号と逆時間方向の区間信号とを交互に並べていくようにして形成する、補間信号生成手順と、
上記ノイズ除去手順によりノイズが除去された上記入力音声信号と、上記補間信号とを合成して出力する合成手順と、
を実行するノイズ低減方法。