JP2011237753A

JP2011237753A - 信号処理装置および方法、並びにプログラム

Info

Publication number: JP2011237753A
Application number: JP2010175335A
Authority: JP
Inventors: Keisuke Higashiyama; 恵祐東山; Mototsugu Abe; 素嗣安部
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-04-14
Filing date: 2010-08-04
Publication date: 2011-11-24
Also published as: US9002489B2; US20110255710A1; CN102306495B; CN102306495A

Abstract

【課題】より簡単かつ確実にノイズを検出できるようにする。
【解決手段】全波整流回路５１は、入力された入力信号を絶対値化し、代表値決定部５２は、絶対値化された入力信号の連続するいくつかのサンプルからなる区間をブロックとして、ブロック内のサンプルのサンプル値の最大値を、そのブロックの代表値とする。平均値算出部５３は、複数のブロックからなる区間をフレームとし、フレーム内のブロックの代表値の最大値と平均値を求める。判定部５４は、フレームについて求めた、ブロックの代表値の最大値をブロックの代表値の平均値で除算した値が、所定の閾値以上である場合、そのフレームにクリックノイズが含まれているとする。本発明は、信号処理装置に適用することができる。
【選択図】図２

Description

本発明は信号処理装置および方法、並びにプログラムに関し、特に、より簡単かつ確実にノイズを検出できるようにした信号処理装置および方法、並びにプログラムに関する。

例えば、ＩＣレコーダのような内蔵マイクロホンを利用して収音を行なう機器では、収音時にユーザが機器に触れてしまうことにより、タッチノイズと呼ばれるノイズが発生しがちである。

特に、録音中に各種機能スイッチをクリック操作することで発生するクリックノイズは、ごく短い時間にエネルギが集中しており、収音された音声の再生時に他の音にマスクされることのない異音となるため、非常に聞き苦しい。そのため、このようなクリックノイズを検出し、低減する技術が求められている。

例えば、クリックノイズを低減させる方法として、処理対象の信号をハイパスフィルタによりフィルタ処理し、最大値と移動平均値の割合からクリックノイズを検出する方法（例えば、特許文献１参照）や、フレーム内の最大値と最小値の差からクリックノイズを検出する方法（例えば、特許文献２参照）が提案されている。

しかし、これらの方法では、処理対象の信号にエネルギの高い部分と、エネルギの低い部分が含まれていれば、クリックノイズだけでなく、音楽や音声（特に子音）等もクリックノイズとして誤って検出されてしまう。例えば、エネルギの高い区間がある程度長く持続するような信号もクリックノイズとして検出されてしまう。

そこで、パルス性信号の持続長を検出し、その持続長がある程度の長さを有する場合には、その信号はクリックノイズではなく、音楽信号であると判定するクリックノイズの検出方法も提案されている（例えば、特許文献３参照）。

特公平７−１０５６９２号公報

特許第３４２０８３１号公報

特許第２７０２４４６号公報

しかしながら、持続長を検出する方法では、クリックノイズの検出にハイパスフィルタとローパスフィルタの両方が必要となり、また、ローパスフィルタには比較的急峻な特性が要求されるため、演算量が必然的に多くなってしまう。

本発明は、このような状況に鑑みてなされたものであり、より簡単かつ確実にノイズを検出できるようにするものである。

本発明の一側面の信号処理装置は、音声信号を絶対値化する絶対値化手段と、絶対値化された前記音声信号の連続するいくつかのサンプルからなる区間をブロックとして、前記ブロック内のサンプルのサンプル値のうち、少なくとも最大のサンプル値を用いて、前記ブロックのサンプルのサンプル値の代表的な値を示す代表値を算出する代表値算出手段と、連続する所定数のブロックからなる区間をフレームとして、前記フレームを構成する前記ブロックの前記代表値の最大値と、前記フレームを構成する前記ブロックの前記代表値の平均値とを算出する平均値算出手段と、前記最大値と前記平均値の比に基づいて、前記フレームからクリックノイズを検出する検出手段とを備える。

前記代表値算出手段には、前記ブロック内のサンプルのサンプル値のうち、最大のサンプル値を前記代表値とさせることができる。

前記検出手段には、前記最大値と前記平均値の比が、予め定められた閾値以上である場合、前記フレームに前記クリックノイズが含まれているとさせることができる。

前記検出手段には、処理対象のフレームの前記最大値および前記平均値と、前記処理対象のフレーム近傍の他のフレームの前記最大値または前記平均値とを用いさせて、前記処理対象のフレームから前記クリックノイズを検出させることができる。

信号処理装置には、前記音声信号の前記クリックノイズが含まれるノイズ区間よりも過去側にあり、前記ノイズ区間と同じ長さの前記音声信号の区間の第１の波形を用いて、前記ノイズ区間の補間に用いる過去補間波形を生成する過去補間波形生成手段と、前記音声信号の前記ノイズ区間よりも未来側にあり、前記ノイズ区間と同じ長さの前記音声信号の区間の第２の波形を用いて、前記ノイズ区間の補間に用いる未来補間波形を生成する未来補間波形生成手段と、前記過去補間波形と前記未来補間波形とをクロスフェードして補間波形を生成する補間波形生成手段と、前記音声信号の前記ノイズ区間を前記補間波形に置き換えることで、前記クリックノイズを低減させる置換手段とをさらに設けることができる。

信号処理装置には、処理対象のフレームから前記クリックノイズが検出された場合、前記処理対象のフレームの直前のフレームの前記代表値を閾値として、前記処理対象のフレームにおける前記最大値を前記代表値として持つ前記ブロックから過去側に、最初に前記代表値が前記閾値以下となる前記ブロックをノイズ開始ブロックとし、前記ノイズ開始ブロックの最終サンプルから過去側に、最初にゼロクロスするサンプルの位置を、前記クリックノイズの開始位置として検出するノイズ区間検出手段をさらに設けることができる。

信号処理装置には、処理対象のフレームから前記クリックノイズが検出された場合、前記処理対象のフレームの直後のフレームの前記代表値を閾値として、前記処理対象のフレームにおける前記最大値を前記代表値として持つ前記ブロックから未来側に、最初に前記代表値が前記閾値以下となる前記ブロックをノイズ終了ブロックとし、前記ノイズ終了ブロックの先頭サンプルから未来側に、最初にゼロクロスするサンプルの位置を、前記クリックノイズの終了位置として検出するノイズ区間検出手段をさらに設けることができる。

前記過去補間波形生成手段には、前記ノイズ区間の過去側に隣接する、前記ノイズ区間と同じ長さの前記音声信号の区間の前記第１の波形を時間反転させて前記過去補間波形を生成させ、前記未来補間波形生成手段には、前記ノイズ区間の未来側に隣接する、前記ノイズ区間と同じ長さの前記音声信号の区間の前記第２の波形を時間反転させて前記未来補間波形を生成させることができる。

前記過去補間波形生成手段には、前記音声信号における前記ノイズ区間の過去側の端のサンプルの前後にあるサンプルのサンプル値の符号が異なる場合、前記第１の波形を時間反転させるとともにサンプルのサンプル値の符号を反転させて前記過去補間波形とさせ、前記未来補間波形生成手段には、前記音声信号における前記ノイズ区間の未来側の端のサンプルの前後にあるサンプルのサンプル値の符号が異なる場合、前記第２の波形を時間反転させるとともにサンプルのサンプル値の符号を反転させて前記未来補間波形とさせることができる。

信号処理装置には、処理対象のフレームから前記クリックノイズが検出された場合、前記処理対象のフレームの直前のフレームの前記代表値を閾値として、前記処理対象のフレームにおける前記最大値を前記代表値として持つ前記ブロックから過去側に、最初に前記代表値が前記閾値以下となる前記ブロックの先頭サンプルの位置を、前記クリックノイズの開始位置として検出するノイズ区間検出手段をさらに設けることができる。

信号処理装置には、処理対象のフレームから前記クリックノイズが検出された場合、前記処理対象のフレームの直後のフレームの前記代表値を閾値として、前記処理対象のフレームにおける前記最大値を前記代表値として持つ前記ブロックから未来側に、最初に前記代表値が前記閾値以下となる前記ブロックの最終サンプルの位置を、前記クリックノイズの終了位置として検出するノイズ区間検出手段をさらに設けることができる。

前記置換手段には、さらに前記音声信号における前記ノイズ区間直前の所定の長さの隣接区間の波形と、前記音声信号における前記第１の波形の前記区間の直前にある、前記所定の長さの区間の波形とをクロスフェードさせて隣接補間波形を生成させるとともに、前記隣接区間を前記隣接補間波形に置き換えさせることができる。

前記置換手段には、さらに前記音声信号における前記ノイズ区間直後の所定の長さの隣接区間の波形と、前記音声信号における前記第２の波形の前記区間の直後にある、前記所定の長さの区間の波形とをクロスフェードさせて隣接補間波形を生成させるとともに、前記隣接区間を前記隣接補間波形に置き換えさせることができる。

本発明の一側面の信号処理方法またはプログラムは、音声信号を絶対値化し、絶対値化された前記音声信号の連続するいくつかのサンプルからなる区間をブロックとして、前記ブロック内のサンプルのサンプル値のうち、少なくとも最大のサンプル値を用いて、前記ブロックのサンプルのサンプル値の代表的な値を示す代表値を算出し、連続する所定数のブロックからなる区間をフレームとして、前記フレームを構成する前記ブロックの前記代表値の最大値と、前記フレームを構成する前記ブロックの前記代表値の平均値とを算出し、前記最大値と前記平均値の比に基づいて、前記フレームからクリックノイズを検出するステップを含む。

本発明の一側面においては、音声信号が絶対値化され、絶対値化された前記音声信号の連続するいくつかのサンプルからなる区間をブロックとして、前記ブロック内のサンプルのサンプル値のうち、少なくとも最大のサンプル値が用いられて、前記ブロックのサンプルのサンプル値の代表的な値を示す代表値が算出され、連続する所定数のブロックからなる区間をフレームとして、前記フレームを構成する前記ブロックの前記代表値の最大値と、前記フレームを構成する前記ブロックの前記代表値の平均値とが算出され、前記最大値と前記平均値の比に基づいて、前記フレームからクリックノイズが検出される。

本発明の一側面によれば、より簡単かつ確実にノイズを検出することができる。

本発明を適用した信号処理装置の一実施の形態の構成例を示す図である。ノイズ検出部の構成例を示す図である。ノイズ低減部の構成例を示す図である。ノイズ低減処理を説明するフローチャートである。入力信号の例を示す図である。ブロックの代表値について説明する図である。クリックノイズの検出について説明する図である。クリックノイズの検出について説明する図である。クリックノイズの検出について説明する図である。クリックノイズの検出について説明する図である。補間波形の生成について説明する図である。補間波形の生成について説明する図である。補間波形の生成について説明する図である。補間波形の生成について説明する図である。ノイズ低減処理を説明するフローチャートである。補間波形の生成について説明する図である。コンピュータの構成例を示すブロック図である。

以下、図面を参照して、本発明を適用した実施の形態について説明する。

〈第１の実施の形態〉
［信号処理装置の構成］
図１は、本発明を適用した信号処理装置の一実施の形態の構成例を示す図である。

例えば、信号処理装置１１は、周囲の音声を収音し、収音された音声を再生する録音再生装置などからなる。信号処理装置１１には、マイクロホン等により収音された音声信号である入力信号が入力され、信号処理装置１１は、入力された入力信号からクリックノイズを検出して除去し、クリックノイズが除去された入力信号を出力信号として出力する。

信号処理装置１１は、ノイズ検出部２１およびノイズ低減部２２から構成され、ノイズ検出部２１およびノイズ低減部２２には、入力信号が入力される。

ノイズ検出部２１は、入力された入力信号から、クリックノイズが含まれている区間を検出し、その検出結果をノイズ低減部２２に供給する。ここで、クリックノイズとは、信号の時間方向のごく短い区間にエネルギが集中し、周囲の他の区間と比べてエネルギ（振幅）が大きい区間の信号をいう。

ノイズ低減部２２は、ノイズ検出部２１から供給されたクリックノイズの検出結果に基づいて、必要に応じて入力された入力信号からクリックノイズを除去し、その結果得られた出力信号を出力する。

［ノイズ検出部の構成］
また、図１のノイズ検出部２１は、より詳細には、図２に示すように構成される。すなわち、ノイズ検出部２１は、全波整流回路５１、代表値決定部５２、平均値算出部５３、および判定部５４から構成される。

全波整流回路５１は、入力された入力信号を絶対値化し、代表値決定部５２に供給する。代表値決定部５２は、全波整流回路５１から供給された絶対値化後の入力信号を、所定の長さの区間からなるブロックに分割するとともに、各ブロックの代表値を算出し、平均値算出部５３に供給する。例えば、ブロックに含まれる入力信号のサンプルのサンプル値の最大値が、そのブロックのサンプルのサンプル値の代表的な値を示す代表値とされる。

平均値算出部５３は、入力信号における、連続する複数ブロックからなる区間をフレームとして、代表値決定部５２から供給された各ブロックの代表値を用いて、フレーム内のブロックの代表値の最大値と平均値を算出し、判定部５４に供給する。判定部５４は、平均値算出部５３から供給されたフレームの平均値と最大値の比（割合）を求めて、その比の値に基づいて、フレーム内にクリックノイズが含まれているか否かを判定し、その判定結果をクリックノイズの検出結果としてノイズ低減部２２に供給する。

［ノイズ低減部の構成］
さらに、図１のノイズ低減部２２は、図３に示すように構成される。

すなわち、ノイズ低減部２２は、ノイズ区間決定部８１、過去補間波形生成部８２、未来補間波形生成部８３、合成部８４、および置換部８５から構成される。ノイズ低減部２２では、ノイズ区間決定部８１、過去補間波形生成部８２、未来補間波形生成部８３、および置換部８５に入力信号が入力される。

ノイズ区間決定部８１は、判定部５４から供給されたクリックノイズの検出結果を用いて、入力された入力信号からクリックノイズが含まれる区間を特定し、その特定結果を過去補間波形生成部８２、未来補間波形生成部８３、および置換部８５に供給する。なお、以下、入力信号においてクリックノイズが含まれる区間をノイズ区間とも呼ぶこととする。

過去補間波形生成部８２は、ノイズ区間決定部８１から供給された特定結果と、入力された入力信号とを用いて、入力信号におけるノイズ区間よりも時間的に過去の区間を用いて、ノイズ区間の補間に用いる過去補間波形を生成し、合成部８４に供給する。

未来補間波形生成部８３は、ノイズ区間決定部８１から供給された特定結果と、入力された入力信号とを用いて、入力信号におけるノイズ区間よりも時間的に未来の区間を用いて、ノイズ区間の補間に用いる未来補間波形を生成し、合成部８４に供給する。

合成部８４は、過去補間波形生成部８２から供給された過去補間波形と、未来補間波形生成部８３から供給された未来補間波形とを合成し、その結果得られた補間波形を置換部８５に供給する。置換部８５は、ノイズ区間決定部８１から供給された特定結果を用いて、入力された入力信号のノイズ区間を、合成部８４から供給された補間波形に置き換えることでクリックノイズを除去し、これにより得られた出力信号を出力する。

［ノイズ低減処理の説明］
次に、図４のフローチャートを参照して、信号処理装置１１によるノイズ低減処理について説明する。

ステップＳ１１において、全波整流回路５１は、入力された入力信号を全波整流、すなわち絶対値化して、代表値決定部５２に供給する。

例えば、図５の上側に示す波形の入力信号が供給された場合、図中、下側に示すように、各サンプルのサンプル値の絶対値が求められ、求められた絶対値が、全波整流後のサンプルの新たなサンプル値とされる。

なお、図中、横軸は時間を示しており、縦軸は振幅を示している。図５の例では、入力信号の図中、中央付近のサンプルのサンプル値、つまり振幅（エネルギ）が周囲の他のサンプルのサンプル値と比較して大きく突出している。すなわち、中央付近のごく短い区間において振幅が急激に変化しており、その区間の振幅のみが周囲と比べて大きくなっている。

このように、ある時間長をもつ波形のうち、ごく短い区間のみに大きな振幅を持つ波形がクリックノイズの波形とされる。このような波形のノイズは、プチノイズやパルスノイズとも呼ばれており、非常に耳障りなノイズとなる。

信号処理装置１１では、クリックノイズの検出にあたり、入力信号の絶対値化が行なわれるが、人間の聴感においては、振幅値の符号によりクリックノイズを認知しているわけではないため、入力信号を絶対値化しても、特にクリックノイズの検出に影響はない。なお、人間の聴感では、ある短い時間において急激にパワーが大きくなり、また急激にパワーが小さくなるという、振幅の急激な変化によりクリックノイズが認知される。

図４のフローチャートの説明に戻り、入力信号が絶対値化されると、ステップＳ１２において、代表値決定部５２は、全波整流回路５１から供給された絶対値化後の入力信号をブロック化して、各ブロックの代表値を求め、平均値算出部５３に供給する。

例えば、代表値決定部５２は、図６に示すように、入力信号の時間方向に連続する４つのサンプルからなる区間を１つのブロックとする。なお、図中、１つの円は入力信号の１つのサンプルを示しており、そのサンプルの縦方向の位置は、サンプル値を示している。図６の例では、入力信号は、ブロックＢＫ１乃至ブロックＢＫ９の９つのブロックに分割されている。代表値決定部５２は、ブロックに含まれる４つのサンプルのサンプル値のうちの最大値を、そのブロックの代表値とする。

ステップＳ１３において、平均値算出部５３は、代表値決定部５２から供給された各ブロックの代表値を用いて、フレーム内のブロックの代表値の最大値と平均値を求め、判定部５４に供給する。

例えば、図６に示すように、平均値算出部５３は、入力信号における、時間方向に連続する９つのブロックＢＫ１乃至ブロックＢＫ９からなる区間を１つのフレームとし、そのフレームを処理対象のフレームとする。そして、平均値算出部５３は、フレーム内にあるブロックＢＫ１乃至ブロックＢＫ９の代表値の最大値と平均値を求める。

例えば、図６の例では、フレーム内の各ブロックの代表値のうち、ブロックＢＫ５の代表値が最も大きいので、ブロックＢＫ５の代表値が、そのフレームの代表値の最大値ＰＫとされている。また、各ブロックの代表値の平均値ＡＶＣは、フレーム内の全サンプルのサンプル値の平均値ＡＶＳよりも大きい値となっている。

ステップＳ１４において、判定部５４は、平均値算出部５３から供給されたフレームごとの最大値と平均値との比を求める。例えば、処理対象のフレームにおけるブロックの代表値の最大値がＰＫであり、そのフレームにおけるブロックの代表値の平均値がＡＶＣであった場合、判定部５４は、最大値と平均値の比ＲＴ＝（ＰＫ／ＡＶＣ）を算出する。

ステップＳ１５において、判定部５４は、求めた最大値と平均値の比ＲＴに基づいて、処理対象のフレームにクリックノイズが含まれているか否かを判定する。具体的には、求めた比ＲＴが、予め定められた閾値ｔｈ以上である場合、処理対象のフレームにクリックノイズが含まれていると判定される。

例えば、閾値ｔｈが「３」である場合、図６の例では、最大値ＰＫが平均値ＡＶＣの３倍以上の値となっており、このフレームには、クリックノイズが含まれていると判定される。この場合、最大値ＰＫを持つブロックＢＫ５にクリックノイズが含まれているはずである。

信号処理装置１１では、入力信号のサンプルのサンプル値の平均値ではなく、ブロックの代表値の平均値を用いることで、クリックノイズの検出精度の向上が図られている。

例えば、図７の上側に示すように、いくつかのサンプルにおいて振幅（サンプル値）が大きいが、全体として振幅の平均値の小さい入力信号が入力された場合を考える。なお、図７において、縦軸は入力信号の振幅を示しており、横軸は時間を示している。

図７の上側に示す入力信号には、急激に振幅が変化している区間があるが、その区間の周辺にも振幅が急激に変化している区間があり、この入力信号はクリックノイズとして検出されるべきではない信号、つまり通常の音楽等の音声とされるべきものである。

このような入力信号が処理対象とされた場合、まずこの入力信号が絶対値化される。これにより、例えば、図中、下側に示す入力信号が得られる。図中、下側に示す入力信号では、ほぼ等間隔で振幅の大きいサンプルが並んでいる。

そして、このようにして絶対値化された入力信号が、図８に示すように、複数のブロックに分割され、１フレーム分の区間に含まれるブロックの代表値の平均値と最大値とが求められる。なお、図８において、縦軸は入力信号の振幅を示しており、横軸は時間を示している。また、図中、１つの円は入力信号の１つのサンプルを示している。図８では、入力信号における９つの連続するブロックＢＫ２１乃至ブロックＢＫ２９が１つのフレームとされており、このフレームについては、ブロックの代表値の最大値ＰＫ２１と、ブロックの代表値の平均値ＡＶＣ２１が得られている。

ここで、クリックノイズの検出の閾値ｔｈが「３」であるとすると、この例では、最大値と平均値の比ＴＲ＝（ＰＫ２１／ＡＶＣ２１）は、閾値ｔｈ「３」以上ではないため、このフレームにはクリックノイズは含まれていないと正しく判定される。

これに対して、最大値ＰＫ２１と、フレーム内の全サンプルのサンプル値の平均値ＡＶＳ２１との比（ＰＫ２１／ＡＶＳ２１）は、閾値ｔｈ「３」以上となっている。そのため、この比と閾値ｔｈとの比較により、処理対象のフレームにクリックノイズが含まれているか否かを判定すると、通常の音声波形がクリックノイズであると誤判定されてしまうことになる。

このように、ブロックの代表値の平均値と、ブロックの代表値の最大値との比を用いてクリックノイズの検出を行なうことで、フレーム内全体の波形の形状（起伏）をより正確に把握することができ、より検出精度を向上させることができる。すなわち、全体の振幅の平均値は小さいが、いくつかの区間で振幅が急激に変化するような音声信号など、クリックノイズであると誤検出されやすい入力信号についても、より確実にクリックノイズであるか否かを特定することができる。

なお、以上においては、１フレーム内のブロックの代表値の最大値と平均値とを用いて、そのフレームにクリックノイズが含まれているかを判定すると説明したが、処理対象のフレームだけでなく、そのフレーム近傍にあるフレームを用いて判定を行なってもよい。処理対象のフレームを含む複数のフレームを用いて、クリックノイズの検出を行なえば、さらにクリックノイズの検出精度を向上させることができる。

例えば、図９に示す音声波形の信号が、入力信号として入力されたとする。なお、図中、縦軸は振幅を示しており、横軸は時間を示している。

図９に示される音声波形は、人が「か」と発声したものを収音して得られた音声信号の波形である。このような「ｔ」、「ｋ」、「ｐ」といった子音からはじまる音声の波形は、矢印Ａ１１に示すように、一旦、クリックノイズのようにパルス状に立ち上がった後、振幅のレベルが下がり、その後、矢印Ａ１２に示すようにピッチ波形が続く波形となる。

この波形は、「か」と発声したときの音声波形であるからクリックノイズではない。ところが、例えば、処理対象のフレームに矢印Ａ１１に示す立ち上がり部分が含まれ、矢印Ａ１２に示すピッチ波形部分が含まれない場合には、１つのフレームのみを用いてクリックノイズの検出を行なうと、誤検出が生じる恐れがある。すなわち、矢印Ａ１１に示す音声の先頭の子音部分が、クリックノイズとして検出されてしまう可能性がある。

そこで、複数フレームのブロックの代表値を用いて、クリックノイズの検出を行なえば、さらに検出精度を向上させることができる。具体的には、例えば、図９に示す音声波形の入力信号をフレーム化した結果、入力信号が図１０に示すように、３つのフレームF(n)乃至フレームF(n+2)に分割されたとする。なお、図１０において、縦軸は振幅を示しており、横軸は時間を示している。また、図中、１つの円は入力信号の１つのサンプルを示している。

図１０の例では、音声波形の立ち上がり部分、つまり子音部分は、フレームF(n)に含まれており、その子音部分とピッチ波形の部分との間の部分がフレームF(n+1)に含まれ、ピッチ波形の部分がフレームF(n+2)に含まれている。なお、フレームF(n)は、入力信号において他のフレームF(n+1)およびフレームF(n+2)よりも、より過去側のフレームである。

各フレームについて、ブロックの代表値の最大値と平均値を求めた結果、フレームF(n)では、最大値PK(n)と平均値AVC(n)、フレームF(n+1)では、最大値PK(n+1)と平均値AVC(n+1)、フレームF(n+2)では、最大値PK(n+2)と平均値AVC(n+2)が得られている。

ここで、フレームF(n)とフレームF(n+2)では、子音部分やピッチ波形の部分の影響により、最大値PK(n)と最大値PK(n+2)はある程度大きな値となっている。これに対し、フレームF(n+1)には、振幅の大きなサンプルが含まれていないため、最大値PK(n+1)は、比較的小さい値となっている。

また、フレームF(n)とフレームF(n+1)では、全体的に振幅の大きいサンプルが少ないため、平均値AVC(n)と平均値AVC(n+1)は比較的小さい値となっている。一方、振幅の大きいピッチ波形が含まれているフレームF(n+2)では、平均値AVC(n+2)は比較的大きな値となっている。

いま、処理対象のフレームがフレームF(n)であるとすると、例えば、判定部５４は、処理対象のフレームF(n)の最大値PK(n)と、フレームF(n)乃至フレームF(n+2)の各平均値AVC(n)乃至平均値AVC(n+2)との比を求め、それらの比と閾値ｔｈとを比較する。

そして、PK(n)／AVC(n)≧ｔｈ、かつPK(n)／AVC(n+1)≧ｔｈ、かつPK(n)／AVC(n+2)≧ｔｈである場合に、処理対象のフレームF(n)には、クリックノイズが含まれていると判定される。すなわち、フレームF(n)乃至フレームF(n+2)の何れの平均値の閾値倍の値よりも、最大値PK(n)が大きい場合、連続する３フレームでは、最大値PK(n)を代表値として有するブロックの部分の振幅のみが、大きく突出している可能性が高い。そのため、このような場合には、フレームF(n)にはクリックノイズが含まれているとされる。

また例えば、PK(n)／AVC(n)≧ｔｈは成立するが、PK(n)／AVC(n+2)＜ｔｈである場合には、最大値PK(n)は、フレームF(n+2)の平均的な振幅の大きさと比較して、クリックノイズとされるほど突出して大きいわけではない。そのため、このような場合には、フレームF(n)にはクリックノイズが含まれていないとされる。

このように、処理対象のフレームの最大値と、そのフレーム近傍の他のフレームの平均値とを比較することで、よりクリックノイズの検出精度を向上させることができる。

なお、その他、処理対象のフレームの最大値と、そのフレーム近傍の他のフレームの最大値とを比較して、クリックノイズを検出するようにしてもよい。そのような場合、例えば、処理対象のフレームF(n)の最大値PK(n)が、最大値PK(n+1)や最大値PK(n+2)と比較して、所定の値以上大きい場合などに、フレームF(n)にクリックノイズが含まれているとされる。

図４のフローチャートの説明に戻り、ステップＳ１５において、フレームにクリックノイズが含まれていないと判定された場合、判定部５４は、処理対象のフレームにはクリックノイズが含まれていない旨の検出結果を、ノイズ区間決定部８１に供給する。

すると、ノイズ区間決定部８１は、判定部５４から供給された検出結果に応じて、入力信号の処理対象のフレームをそのまま出力信号として出力するように、置換部８５に指示する。置換部８５は、ノイズ区間決定部８１の指示に従って、入力された入力信号の処理対象のフレームの区間を、そのまま出力信号として出力し、その後、処理はステップＳ２１へと進む。

これに対して、ステップＳ１５において、フレームにクリックノイズが含まれていると判定された場合、判定部５４は、処理対象のフレームにクリックノイズが含まれている旨の検出結果をノイズ区間決定部８１に供給し、処理はステップＳ１６に進む。

ここで、クリックノイズが含まれている旨の検出結果には、処理対象のフレームと、その前後に隣接するフレームとについて、フレームの各ブロックの代表値、代表値の最大値、および代表値の平均値が含まれるようにされる。

ステップＳ１６において、ノイズ区間決定部８１は、判定部５４から供給されたクリックノイズの検出結果を用いて、入力された入力信号の処理対象のフレームの区間における、クリックノイズが含まれているノイズ区間を特定する。

例えば、図１１の上側に示すように、時間的に連続する３つのフレームF(n-1)乃至フレームF(n+1)の各最大値PK(n-1)乃至最大値PK(n+1)、および平均値AVC(n-1)乃至平均値AVC(n+1)が判定部５４からノイズ区間決定部８１に供給されたとする。また、それらのフレームF(n-1)乃至フレームF(n+1)の各ブロックの代表値も、判定部５４からノイズ区間決定部８１に供給されたとする。

なお、図１１において、横軸は時間を示しており、縦軸は入力信号の振幅を示している。また、フレームF(n-1)は、入力信号において他のフレームF(n)およびフレームF(n+1)よりも、より過去側のフレームである。

図１１では、フレームF(n-1)は、６つのブロックBK(n-1)-1乃至ブロックBK(n-1)-6から構成されている。同様に、フレームF(n)は、ブロックBK(n)-1乃至ブロックBK(n)-6から構成され、フレームF(n+1)は、ブロックBK(n+1)-1乃至ブロックBK(n+1)-6から構成されている。また、処理対象のフレームF(n)では、ブロックBK(n)-4が、フレームF(n)内で最大値PK(n)となる代表値を有している。なお、図１１の上側において、１つの円は絶対値化された入力信号の１つのサンプルを示しており、そのサンプルの縦方向の位置は、サンプル値を示している。

まず、ノイズ区間決定部８１は、最大値PK(n)を代表値として持つブロックBK(n)-4を含むクリックノイズのノイズ区間の開始位置、つまりノイズ区間の図中、左側の端を検出する。この場合、ノイズ区間決定部８１は、処理対象のフレームF(n)の過去側に隣接するフレームF(n-1)の各ブロックの代表値の平均値AVC(n-1)の値を閾値ｔｈｓとして用いる。

そして、ノイズ区間決定部８１は、クリックノイズの中心であるブロックBK(n)-4から、過去方向に、ブロックの代表値が閾値ｔｈｓ以下となる最初のブロックを検出し、検出されたブロックをノイズ開始ブロックとする。

例えば、図１１において、ブロックBK(n)-4の過去側に隣接するブロックBK(n)-3の代表値は、閾値ｔｈｓより大きいが、さらにその過去側（図中、左側）に隣接するブロックBK(n)-2の代表値は、閾値ｔｈｓ以下であったとする。この場合、ブロックBK(n)-4から見て、ブロックBK(n)-2が、最初に代表値が閾値ｔｈｓ以下となる過去側のブロックであるから、このブロックBK(n)-2がノイズ開始ブロックとされる。

さらに、ノイズ区間決定部８１は、入力された入力信号のうち、ノイズ開始ブロックであるブロックBK(n)-2に対応する区間を参照し、その区間（ブロック）の最終サンプルから過去方向に向かって、最初にゼロクロスしているサンプルを特定する。そして、特定されたサンプルの位置が、ノイズ区間の開始位置とされる。

例えば、図１１の矢印Ａ４１に示すように、入力信号のブロックBK(n)-2に対応する区間の最も新しい時刻のサンプル、つまりその区間の最終サンプルから、そのサンプルのサンプル値と符号が反対のサンプル値を持つ、最も未来側のサンプルが特定される。

図１１では、矢印Ａ４１に示されるブロックBK(n)-2に対応する入力信号の区間が処理対象とされる。なお、図中、１つの円は入力信号の１つのサンプルを示しており、そのサンプルの縦方向の位置は、サンプル値を示している。例えば、縦方向の直線の図中、上側に円があるサンプルは、正の値をサンプル値として持つサンプルを表しており、縦方向の直線の下側に円があるサンプルは、負の値をサンプル値として持つサンプルを表している。さらに、図中、横方向は時間を示しており、特に右方向が未来方向である。

ここで、矢印Ａ４１に示される入力信号の部分のうち、図中、右端にあるサンプルＳＰ１１が、ブロックBK(n)-2に対応する入力信号の区間の最終サンプル、つまりその区間において、最も新しい時刻のサンプルである。このサンプルＳＰ１１のサンプル値は正の値となっているので、ノイズ区間の開始位置とされるサンプルは、サンプルＳＰ１１よりも過去にあるサンプル値が負の値のサンプルであって、最もサンプルＳＰ１１に近い位置にあるサンプルである。したがって、図１１では、サンプルＳＰ１１の時間的に３つ前のサンプルＳＰ１２が、ノイズ区間の開始位置にあるサンプルとされる。

このようにして、ノイズ区間の開始位置が特定されると、次にノイズ区間決定部８１は、最大値PK(n)を代表値として持つブロックBK(n)-4を含むクリックノイズのノイズ区間の終了位置、つまりノイズ区間の図中、右側の端を検出する。この場合、ノイズ区間決定部８１は、処理対象のフレームF(n)の未来側に隣接するフレームF(n+1)の各ブロックの代表値の平均値AVC(n+1)の値を閾値ｔｈｅとして用いる。

ノイズ区間決定部８１は、クリックノイズの中心であるブロックBK(n)-4から、未来方向に、ブロックの代表値が閾値ｔｈｅ以下となる最初のブロックを検出し、検出されたブロックをノイズ終了ブロックとする。

例えば、図１１において、ブロックBK(n)-4の未来側に隣接するブロックBK(n)-5の代表値は、閾値ｔｈｅより大きいが、さらにその未来側（図中、右側）に隣接するブロックBK(n)-6の代表値は、閾値ｔｈｅ以下であったとする。この場合、ブロックBK(n)-4から見て、ブロックBK(n)-6が、最初に代表値が閾値ｔｈｅ以下となる未来側のブロックであるから、このブロックBK(n)-6がノイズ終了ブロックとされる。

さらに、ノイズ区間決定部８１は、入力された入力信号のうち、ノイズ終了ブロックであるブロックBK(n)-6に対応する区間を参照し、その区間（ブロック）の先頭サンプルから未来方向に向かって、最初にゼロクロスしているサンプルを特定する。そして、特定されたサンプルの位置が、ノイズ区間の終了位置とされる。

例えば、図１１の矢印Ａ４２に示すように、入力信号のブロックBK(n)-6に対応する区間の最も古い時刻のサンプル、つまり先頭サンプルＳＰ２１から、そのサンプルＳＰ２１のサンプル値と符号が反対のサンプル値を持つ、最も過去側のサンプルが特定される。

図１１では、矢印Ａ４２に示される入力信号の部分のうち、図中、左端にあるサンプルＳＰ２１が、ブロックBK(n)-6に対応する入力信号の区間の先頭サンプルである。このサンプルＳＰ２１のサンプル値は正の値となっているので、ノイズ区間の終了位置とされるサンプルは、サンプルＳＰ２１よりも未来側にあるサンプル値が負の値のサンプルであって、最もサンプルＳＰ２１に近い位置にあるサンプルである。したがって、図１１では、サンプルＳＰ２１の次のサンプルＳＰ２２が、ノイズ区間の終了位置にあるサンプルとされる。

以上のようにして特定された、開始位置から終了位置までの区間、すなわちサンプルＳＰ１２からサンプルＳＰ２２までの区間がノイズ区間ＮＺとされる。なお、このノイズ区間ＮＺの長さを、特に補間長と呼ぶこととする。

このように、信号処理装置１１では、処理対象のフレームF(n)の前後のフレームの平均値が閾値として用いられ、これらの閾値より大きい代表値を持つブロックからなる区間が、ノイズ区間ＮＺとされる。

例えば、処理対象のフレームF(n)の前後のフレームにクリックノイズが含まれていないとすると、フレームF(n)の前後のフレームの代表値の平均値は、入力信号におけるフレームF(n)近傍の大きい振幅の平均的な値を示している。クリックノイズ部分の各ブロックの代表値は、これらの平均値よりも大きいはずであるから、これらの平均値よりも大きい代表値を持つブロックが連続して並ぶ区間は、クリックノイズの区間となるはずである。このように、処理対象のフレームF(n)の前後のフレームの平均値を閾値として用いれば、より正確にクリックノイズの区間を特定することができる。

なお、ノイズ区間の長さが２のべき乗の値となるように、ノイズ区間が定められるようにしてもよい。

そのような場合、上述したノイズ開始位置からノイズ終了位置、つまりサンプルＳＰ１２からサンプルＳＰ２２までのサンプル数が２のべき乗の値であれば、サンプルＳＰ１２からサンプルＳＰ２２までの区間が、そのままノイズ区間とされる。

一方、サンプルＳＰ１２からサンプルＳＰ２２までのサンプル数が、２のべき乗の値でない場合、サンプルＳＰ１２からサンプルＳＰ２２までのサンプル数より大きい２のべき乗の値のうち、最小の値がノイズ区間の長さとされる。例えば、サンプルＳＰ１２からサンプルＳＰ２２までのサンプル数が「３６８」であった場合、「３６８」は、２のべき乗の値ではないので、この「３６８」より大きく、かつ最も小さい２のべき乗の値である「５１２」がノイズ区間の長さとされる。

また、ノイズ区間の長さが、２のべき乗の値とされる場合、ノイズ区間の開始位置は、サンプルＳＰ１２の位置、つまりノイズ開始ブロックの端から、最初にゼロクロスするサンプルの位置とされる。したがって、ノイズ区間の終了位置は、サンプルＳＰ１２の位置を開始位置とする、２のべき乗の値とされた長さの区間の終端にあるサンプル位置となる。

このように、ノイズ区間の長さを、サンプルＳＰ１２からサンプルＳＰ２２までのサンプル数以上である２のべき乗の値のうち、最小の値とすることで、後段における補間処理の計算量を低減させることができる。具体的には、例えば後述するステップＳ１９の処理、つまり過去補間波形と未来補間波形のクロスフェード時の重み計算を、掛け算とシフト演算のみで実現することができる。

また、以上においては、ノイズ開始ブロックとノイズ終了ブロックにおいて、ブロックの端から、最初にゼロクロスするサンプルを特定することで、正確なノイズ開始位置とノイズ終了位置を特定すると説明したが、このような処理を行なわないようにしてもよい。そのような場合、例えば、ノイズ開始ブロックの先頭のサンプルがノイズ区間の開始位置とされ、ノイズ終了ブロックの最後のサンプルがノイズ区間の終了位置とされる。

このように、ゼロクロス点の探索処理を省略し、ブロック単位での補間を行なえば、演算量を少なくし、より迅速にノイズ区間を特定することができる。この場合、ノイズ区間の開始位置と終了位置がゼロクロス点ではなくなることがあるため、ノイズ区間の補間によって多少の直流成分が発生する可能性はあるが、音質の劣化が問題となる可能性は殆どない。

図４のフローチャートの説明に戻り、ノイズ区間ＮＺが特定されると、ノイズ区間決定部８１は、特定されたノイズ区間ＮＺを示す情報、例えば、ノイズ区間ＮＺの開始位置と終了位置を示す情報を、過去補間波形生成部８２、未来補間波形生成部８３、および置換部８５に供給する。そして、その後、処理はステップＳ１６からステップＳ１７に進む。

ステップＳ１７において、過去補間波形生成部８２は、ノイズ区間決定部８１から供給されたノイズ区間ＮＺを示す情報を用いて、ノイズ開始位置よりも過去の補間長のサンプルから、過去補間波形を生成し、合成部８４に供給する。

例えば、図１１の矢印Ａ４３に示す波形の入力信号が入力された場合、過去補間波形生成部８２は、入力信号におけるノイズ区間ＮＺの直前の補間長の区間ＰＲを抽出して、時間反転させることで、過去補間波形ＰＳを生成する。

すなわち、入力信号の区間ＰＲは、ノイズ区間ＮＺに対して過去側に隣接する区間、つまりノイズ区間ＮＺの図中、左側に隣接する区間である。また、区間ＰＲは、ノイズ区間ＮＺと同じ長さの区間である。したがって、この区間ＰＲの図中、右端の位置は、矢印Ａ４１に示すサンプルＳＰ１２の図中、左に隣接するサンプルの位置となる。また、過去補間波形ＰＳは、入力信号の区間ＰＲを時間反転させたものであるから、サンプルＳＰ１２の左側に隣接するサンプルが、過去補間波形ＰＳの図中、左端のサンプルとなる。逆に区間ＰＲの図中、左端のサンプルが、過去補間波形ＰＳの右端のサンプルとなる。

ステップＳ１８において、未来補間波形生成部８３は、ノイズ区間決定部８１から供給されたノイズ区間ＮＺを示す情報を用いて、ノイズ終了位置よりも未来の補間長のサンプルから、未来補間波形を生成し、合成部８４に供給する。

例えば、図１１の矢印Ａ４３に示す波形の入力信号が入力された場合、未来補間波形生成部８３は、入力信号におけるノイズ区間ＮＺの直後の補間長の区間ＦＲを抽出して、時間反転させることで、未来補間波形ＦＳを生成する。

すなわち、入力信号の区間ＦＲは、ノイズ区間ＮＺに対して未来側に隣接する区間、つまりノイズ区間ＮＺの図中、右側に隣接する区間である。また、区間ＦＲは、ノイズ区間ＮＺと同じ長さの区間である。したがって、この区間ＦＲの図中、左端の位置は、矢印Ａ４２に示すサンプルＳＰ２２の図中、右に隣接するサンプルの位置となる。また、未来補間波形ＦＳは、入力信号の区間ＦＲを時間反転させたものであるから、サンプルＳＰ２２の右側に隣接するサンプルが、未来補間波形ＦＳの図中、右端のサンプルとなる。逆に区間ＦＲの図中、右端のサンプルが、未来補間波形ＦＳの左端のサンプルとなる。

このように、入力信号におけるノイズ区間ＮＺの前後の補間長の区間を用いて、ノイズ区間ＮＺの補間に用いられる波形を生成することにより、補間後の入力信号におけるノイズ区間ＮＺ近傍のパワーをほぼ同じ大きさにすることができる。これにより、違和感のない自然な波形を得ることができる。

また、補間に用いるノイズ区間ＮＺの前後の入力信号の区間を時間反転させることで、過去補間波形ＰＳの最初のサンプルおよび未来補間波形ＦＳの最後のサンプルと、入力信号におけるノイズ区間直前のサンプルおよびノイズ区間直後のサンプルとが、それぞれ元の入力信号の同じサンプルとなる。したがって、過去補間波形ＰＳと未来補間波形ＦＳを用いて、ノイズ区間の補間を行なえば、補間される波形と、入力信号におけるノイズ区間境界の波形との接続を、さらに自然な違和感のないものとすることができる。

図４のフローチャートの説明に戻り、ステップＳ１９において、合成部８４は、過去補間波形生成部８２から供給された過去補間波形ＰＳと、未来補間波形生成部８３から供給された未来補間波形ＦＳとをクロスフェードし、補間波形を生成する。

具体的には、合成部８４は、過去補間波形ＰＳの各サンプルのサンプル値に、図１１の矢印Ａ４４に示す重みを乗算するとともに、未来補間波形ＦＳの各サンプルのサンプル値に、矢印Ａ４５に示す重みを乗算し、過去補間波形ＰＳと未来補間波形ＦＳを合成する。

図１１の例では、過去補間波形ＰＳの図中、左端のサンプルに乗算される重みは「１」とされ、過去補間波形ＰＳの右端のサンプルに乗算される重みは「０」とされている。また、過去補間波形ＰＳの各サンプルに乗算される重みは、図中、右側のサンプルの重みほど小さくなるように定められている。

逆に、未来補間波形ＦＳの図中、右端のサンプルに乗算される重みは「１」とされ、未来補間波形ＦＳの左端のサンプルに乗算される重みは「０」とされている。また、未来補間波形ＦＳの各サンプルに乗算される重みは、図中、左側のサンプルの重みほど小さくなるように定められている。

合成部８４は、このような重みが乗算された過去補間波形ＰＳの各サンプルのサンプル値と、それらのサンプルと同じ位置にある、重みが乗算された未来補間波形ＦＳのサンプルのサンプル値との和を求めることで、補間波形ＨＳを生成する。例えば、過去補間波形ＰＳの図中、右端のサンプルの重みが乗算されたサンプル値と、未来補間波形ＦＳの右端のサンプルの重みが乗算されたサンプル値との和が、補間波形ＨＳの右端のサンプルのサンプル値とされる。

図４のフローチャートの説明に戻り、合成部８４は、補間波形ＨＳを生成すると、生成した補間波形ＨＳを置換部８５に供給し、処理はステップＳ１９からステップＳ２０へと進む。

ステップＳ２０において、置換部８５は、ノイズ区間決定部８１から供給されたノイズ区間ＮＺを示す情報を用いて、入力された入力信号のノイズ区間ＮＺを、合成部８４から供給された補間波形ＨＳに置き換えてクリックノイズを低減させる。

例えば、図１１の矢印Ａ４６に示す波形の入力信号が入力された場合、置換部８５は、ノイズ区間ＮＺを補間波形ＨＳに置き換えることで、入力信号からクリックノイズを除去し、その結果得られた信号を出力信号として、後段に出力する。

ステップＳ２０においてノイズの除去が行なわれたか、またはステップＳ１５において、クリックノイズが含まれていないと判定された場合、ステップＳ２１において、信号処理装置１１は、処理を終了するか否かを判定する。例えば、入力信号の全区間を対象としてクリックノイズの除去が行なわれた場合、処理を終了すると判定される。

ステップＳ２１において、処理を終了しないと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返される。すなわち、次のフレームが処理対象とされ、そのフレームについて、クリックノイズの検出と除去が行なわれる。

これに対して、ステップＳ２１において、処理を終了すると判定された場合、ノイズ低減処理は終了する。

このようにして、信号処理装置１１は、入力信号を複数のブロックに分割し、各ブロックの代表値を求めて、フレームを構成するブロックの代表値の平均値と最大値の比から、クリックノイズを検出する。そして、信号処理装置１１は、入力信号のクリックノイズ区間を特定し、そのノイズ区間前後にある、ノイズ区間と同じ長さの区間を用いて補間波形を生成してクリックノイズの除去を行なう。

このように、ブロックごとに代表値を算出し、複数ブロックからなるフレームにおける代表値の平均値と最大値の比を求めて、クリックノイズを検出することで、より簡単に、かつ少ない演算量で、より確実にクリックノイズを検出することができる。これにより、より確実に入力信号からクリックノイズを除去することができ、聴感上、違和感のない自然な音声を得ることができる。

なお、より詳細には、過去補間波形または未来補間波形の生成時において、ノイズ区間の開始位置または終了位置のサンプルの前後にあるサンプルの符号が異なる場合には、補間に用いる入力信号の区間のサンプル群のサンプル値の符号が反転される。

具体的には、例えば、図１２の上側に示すように、入力信号のサンプルＳＰ４１がクリックノイズのピークとなるサンプルであり、サンプルＳＰ４２がノイズ区間の開始位置となるサンプルであるとする。

なお、図１２中、１つの円は入力信号の１つのサンプルを示しており、そのサンプルの縦方向の位置は、サンプル値を示している。例えば、縦方向の直線の図中、上側に円があるサンプルは、正の値をサンプル値として持つサンプルを表しており、縦方向の直線の下側に円があるサンプルは、負の値をサンプル値として持つサンプルを表している。さらに、図中、横方向は時間を示しており、特に右方向が未来方向である。

図１２の上側に示す入力信号では、サンプルＳＰ４２から図中、右側の部分がノイズ区間とされ、この区間が補間波形に置き換えられることになる。また、補間波形の生成に用いられる過去補間波形は、ノイズ区間の開始位置にあるサンプルＳＰ４２の左隣にあるサンプルＳＰ４３を含む、ノイズ区間よりも過去、つまり図中、左側にある区間のサンプルから生成される。

このとき、過去補間波形生成部８２は、サンプルＳＰ４２の時間的に前後にあるサンプルＳＰ４３とサンプルＳＰ４４のサンプル値の符号が同じであるか否かを判定し、過去補間波形を生成する。例えば、図１２の例では、サンプルＳＰ４２の両側に隣接するサンプルＳＰ４３とサンプルＳＰ４４のサンプル値の符号は異なる。

そこで、過去補間波形生成部８２は、図中、中央に示すように、入力信号の矩形Ｋ１１で囲まれる部分、つまりサンプルＳＰ４３を図中、右側の端とする補間長（ノイズ区間長）の長さの区間を切り出して時間反転する。さらに、過去補間波形生成部８２は、矩形Ｋ１１で囲まれる入力信号を時間反転して得られた波形の各サンプルのサンプル値の符号を反転させ、過去補間波形とする。これにより、図１２の下側に示すように、矩形Ｋ１２に囲まれる波形の過去補間波形が得られる。

図１２の下側では、得られた過去補間波形が、入力信号のノイズ区間と置き換えられて、矩形Ｋ１１の部分の右側に配置されている。例えば、矩形Ｋ１２に囲まれる過去補間波形の図中、左端のサンプルのサンプル値は、過去補間波形の生成に用いられる、矩形Ｋ１１内の右端のサンプルＳＰ４３のサンプル値の符号を反転させた値である。

このように、ノイズ区間の開始位置にあるサンプルＳＰ４２の前後のサンプルのサンプル値の符号が異なる場合、過去補間波形の生成時に、過去補間波形に用いる入力信号の区間のサンプルのサンプル値の符号が反転される。これにより、図１２の下側に示すように、入力信号のノイズ区間を過去補間波形に置き換えたときに、ノイズ区間の開始位置の境界部分、すなわち入力信号と過去補間波形との接続部分が滑らかになる。その結果、過去補間波形と未来補間波形をクロスフェードして得られる補間波形を、ノイズ区間に配置した場合に、違和感のない自然な波形の信号を得ることができる。

これに対して、例えば、図１３の上側に示すように、ノイズ区間の開始位置のサンプル前後にあるサンプルのサンプル値の符号が、同じであった場合、過去補間波形生成時に、サンプル値の符号の反転は行なわれない。

なお、図１３においても、図１２における場合と同様に、図中、１つの円は入力信号の１つのサンプルを示しており、横方向は時間を示している。

図１３の上側に示す例では、入力信号のサンプルＳＰ６１がクリックノイズのピークとなるサンプルであり、サンプルＳ６２がノイズ区間の開始位置となるサンプルである。また、この入力信号では、サンプルＳＰ６２から図中、右側の部分がノイズ区間とされ、この区間が補間波形に置き換えられることになる。さらに、補間波形の生成に用いられる過去補間波形は、ノイズ区間の開始位置にあるサンプルＳＰ６２の左隣にあるサンプルＳＰ６３を含む、ノイズ区間よりも左側にある区間のサンプルから生成される。

このとき、過去補間波形生成部８２は、サンプルＳＰ６２の時間的に前後にあるサンプルＳＰ６３とサンプルＳＰ６４のサンプル値の符号が同じであるか否かを判定する。例えば、図１３の例では、サンプルＳＰ６２の両側に隣接するサンプルＳＰ６３とサンプルＳＰ６４のサンプル値の符号は同じである。

そこで、過去補間波形生成部８２は、図中、中央に示すように、入力信号の矩形Ｋ３１で囲まれる部分、つまりサンプルＳＰ６３を図中、右側の端とする補間長の長さの区間を切り出して時間反転し、過去補間波形とする。これにより、図１３の下側に示すように、矩形Ｋ３２に囲まれる波形の過去補間波形が得られる。

図１３の下側では、得られた過去補間波形が、入力信号のノイズ区間と置き換えられて、矩形Ｋ３１の部分の右側に配置されている。例えば、矩形Ｋ３２に囲まれる過去補間波形の図中、左端のサンプルのサンプル値は、過去補間波形の生成に用いられる、矩形Ｋ３１内の右端のサンプルＳＰ６３のサンプル値である。

このように、ノイズ区間の開始位置にあるサンプルＳＰ６２の前後のサンプルのサンプル値の符号が同じである場合、過去補間波形の生成時に、過去補間波形に用いる入力信号の区間のサンプルのサンプル値の符号の反転は行なわれない。これにより、図１３の下側に示すように、入力信号のノイズ区間を過去補間波形に置き換えたときに、ノイズ区間の開始位置の境界部分、すなわち入力信号と過去補間波形との接続部分が滑らかになる。その結果、過去補間波形と未来補間波形をクロスフェードして得られる補間波形を、ノイズ区間に配置した場合に、違和感のない自然な波形の信号を得ることができる。

なお、過去補間波形と同様に、未来補間波形生成時においても、ノイズ終了位置の前後にあるサンプルのサンプル値の符号が異なる場合には、未来補間波形に用いる各サンプルのサンプル値の符号の反転が行なわれる。

また、以上においては、ブロック内のサンプルのサンプル値の最大値を、ブロックの代表値とすると説明したが、代表値は、ブロック内の所定の条件を満たすサンプルのサンプル値から算出するなど、どのように定めてもよい。例えば、ブロック内の全サンプルのサンプル値を重み付き加算して代表値としてもよいし、ブロック内のサンプルから、サンプル値の大きい順に所定数のサンプルを選択して、それらのサンプルのサンプル値の平均値を代表値とするようにしてもよい。

〈第２の実施の形態〉
さらに、以上においては、ノイズ区間を補間波形で置き換えることにより、相関のような計算量コストの高い手法を利用せずに、少ない演算量で自然なクリックノイズ低減を実現する方法について説明した。ところが、この方法では、得られた出力信号を再生すると、補間波形への置き換えが行なわれたノイズ区間の端付近において、出力信号の波形が不連続であるかのような音になってしまう場合があった。

具体的には、図１４の上側の矢印Ａ６１に示す入力信号が信号処理装置１１に入力され、入力信号における区間ＮＺ３１がノイズ区間（以下、ノイズ区間ＮＺ３１と称する）として検出されたとする。

なお、図１４において、横軸は時間を示しており、縦軸は入力信号の振幅を示している。また、図１４中、１つの円は入力信号の１つのサンプルを示しており、そのサンプルの縦方向の位置は、サンプル値を示している。特に、縦方向の直線の図中、上側に円があるサンプルは正の値をサンプル値として持つサンプルを表しており、縦方向の直線の図中、下側に円があるサンプルは負の値をサンプル値として持つサンプルを表している。

矢印Ａ６１に示すように、入力信号からノイズ区間ＮＺ３１が検出された場合、図４のノイズ低減処理では、入力信号におけるノイズ区間ＮＺ３１直前にある補間長の区間ＰＲ２１が時間方向に反転されて、矢印Ａ６２に示すように過去補間波形が生成される。また、同様にして、入力信号におけるノイズ区間ＮＺ３１直後にある補間長の区間ＦＲ２１が時間方向に反転されて、矢印Ａ６３に示すように未来補間波形が生成される。

そして、矢印Ａ６４に示すように、入力信号のノイズ区間ＮＺ３１が、過去補間波形と未来補間波形をクロスフェードして得られた補間波形ＨＳ２１に置き換えられて、クリックノイズの除去が行なわれる。

このようなノイズ除去方法では、ノイズ区間ＮＺ３１への距離の近さに応じた重み付けを行ないながら、過去補間波形と未来補間波形とから最終的な補間波形ＨＳ２１を生成することで、ノイズ区間ＮＺ３１における波形の不自然さが低減される。また、この方法は、ノイズ区間ＮＺ３１の開始位置と終了位置において、原理的にサンプル値が不連続になってしまうことがないため、明らかな違和感や異音が発生しにくい方法であるといえる。

しかしながら、入力信号のノイズ区間ＮＺ３１の前後に低い周波数の波形が存在する場合には、出力信号のノイズ区間ＮＺ３１の前後において折り返した波形が明確に現れ、その折り返し箇所が高い周波数成分を持つ。そのため、出力信号を再生すると、結果として出力信号の波形が不連続であるかのような音になってしまう場合がある。

図１４の例では、図中、上側の矢印Ａ６１に示す入力信号における、ノイズ区間ＮＺ３１の開始位置近傍の区間Ｅ１１は、低い周波数の正弦波のような波形の信号となっている。ところが、ノイズ低減後の矢印Ａ６４に示す出力信号では、ノイズ低減処理におけるノイズ区間開始位置での折り返しにより、区間Ｅ１１と同じ位置にある区間Ｅ１２は、高い周波数成分を持つ波形の信号となっており、本来なかった音が聞えてしまう恐れがある。

同様に、ノイズ区間終了位置近傍の区間Ｅ１３も、高い周波数成分を持つ波形の信号となっている。これは、クリックノイズを除去するにあたり、ノイズ区間開始位置とノイズ区間終了位置において考慮すべき連続性のうち、サンプル値の連続性だけが考慮されているために生じる。

［ノイズ低減処理の説明］
そこで、出力信号の補間部分の波形がより滑らかな波形となるように、ノイズ低減処理を行うようにしてもよい。以下、図１５および図１６を参照して、そのような場合におけるノイズ低減処理について説明する。

図１５は、信号処理装置１１により行なわれるノイズ低減処理を説明するフローチャートである。なお、図１５のノイズ低減処理のステップＳ５１乃至ステップＳ５６においては、入力信号からノイズ区間が検出されるが、これらの処理は、図４のステップＳ１１乃至ステップＳ１６の処理と同様であるため、その説明は省略する。

ステップＳ５７において、過去補間波形生成部８２は、ノイズ区間決定部８１から供給されたノイズ区間を示す情報を用いて、ノイズ開始位置よりも過去の補間長のサンプルから過去補間波形を生成し、合成部８４に供給する。

例えば、図１６の矢印Ａ８１に示す波形の入力信号が入力された場合、過去補間波形生成部８２は、入力信号におけるノイズ区間ＮＺ４１の直前の補間長の区間ＰＲ３１を抽出して、過去補間波形とする。

なお、図１６において、横軸は時間を示しており、縦軸は入力信号の振幅を示している。また、図１６中、１つの円は入力信号の１つのサンプルを示しており、そのサンプルの縦方向の位置は、サンプル値を示している。特に、縦方向の直線の図中、上側に円があるサンプルは正の値をサンプル値として持つサンプルを表しており、縦方向の直線の図中、下側に円があるサンプルは負の値をサンプル値として持つサンプルを表している。

図１６の例では、過去補間波形とされる区間ＰＲ３１は、図中、ノイズ区間ＮＺ４１の左側、つまり過去側に隣接する、ノイズ区間ＮＺ４１と同じ長さの区間とされている。

ステップＳ５８において、未来補間波形生成部８３は、ノイズ区間決定部８１から供給されたノイズ区間を示す情報を用いて、ノイズ終了位置よりも未来の補間長のサンプルから未来補間波形を生成し、合成部８４に供給する。

例えば、図１６の矢印Ａ８１に示す波形の入力信号が入力された場合、未来補間波形生成部８３は、入力信号におけるノイズ区間ＮＺ４１の直後の補間長の区間ＦＲ３１を抽出して、未来補間波形とする。

このように、図１５のノイズ低減処理においては、過去補間波形および未来補間波形の生成時に、抽出された補間長のサンプルの時間反転は行なわれない。また、過去補間波形とされる区間ＰＲ３１や、未来補間波形とされる区間ＦＲ３１は、ノイズ区間ＮＺ４１に隣接する区間でなくてもよい。

ステップＳ５９において、合成部８４は、過去補間波形生成部８２から供給された過去補間波形と、未来補間波形生成部８３から供給された未来補間波形とをクロスフェードして、補間波形を生成する。

このステップＳ５９では、図４のステップＳ１９と同様の処理が行なわれる。すなわち、重みが乗算された過去補間波形と未来補間波形のサンプル値の和が求められ、得られた値が補間波形のサンプルのサンプル値とされる。

例えば、過去補間波形の各サンプルに乗算される重みは、未来側のサンプルの重みほど小さい値とされ、最も過去側のサンプルの重みが「１」、最も未来側のサンプルの重みが「０」とされる。逆に、未来補間波形の各サンプルに乗算される重みは、未来側のサンプルの重みほど大きい値とされ、最も過去側のサンプルの重みが「０」、最も未来側のサンプルの重みが「１」とされる。

合成部８４により補間波形が生成されて置換部８５に供給されると、処理はステップＳ５９からステップＳ６０に進む。

ステップＳ６０において、置換部８５はノイズ区間決定部８１から供給されたノイズ区間を示す情報を用いて、入力された入力信号のノイズ区間を、合成部８４からの補間波形に置き換えることで、入力信号のクリックノイズを低減させる。

例えば、図１６の矢印Ａ８２に示す入力信号が入力された場合、置換部８５は、ノイズ区間ＮＺ４１を補間波形ＨＳ３１に置き換えることで、入力信号からクリックノイズを除去する。

このように、単にノイズ区間ＮＺ４１を補間波形ＨＳ３１に置き換えた状態では、入力信号のノイズ開始位置近傍の境界区間ＰＳ１１と、ノイズ終了位置近傍の境界区間ＦＳ１１において、明らかな波形の不連続（サンプル値のジャンプ）が発生している。ここで、境界区間ＰＳ１１は、ノイズ開始位置を含む区間であり、境界区間ＦＳ１１は、ノイズ終了位置を含む区間である。

そこで、置換部８５は、クロスフェードにより生成した新たな波形により、これらの境界区間ＰＳ１１と境界区間ＦＳ１１の近傍の波形の置き換えを行なって、出力信号における波形の不連続性の発生を防止する。

すなわち、ステップＳ６１において、置換部８５は、補間波形による置き換えで得られた入力信号、つまりステップＳ６０の処理により得られた入力信号のノイズ開始位置に隣接する区間の波形の置き換えを行なう。

具体的には、図１６の矢印Ａ８３に示すように、置換部８５は、入力信号におけるノイズ開始位置に対して過去側に隣接する、所定の長さの短い区間を区間ＢＰ１１とする。すなわち、区間ＢＰ１１は、ノイズ区間ＮＺ４１の直前の区間である。

次に、置換部８５は、入力信号における区間ＢＰ１１よりも時間的に前（過去）にある、区間ＢＰ１１と同じ長さの所定区間を区間ＭＰ１１とする。図１６の例では、区間ＭＰ１１は、過去補間波形とされる区間ＰＲ３１の直前の区間とされている。

そして、置換部８５は、入力信号の区間ＢＰ１１の波形と区間ＭＰ１１の波形とをクロスフェードし、矢印Ａ８４に示すように、入力信号の区間ＢＰ１１をクロスフェードにより得られた波形ＨＰ１１に置き換えることで、波形の不連続性を解消させる。

例えば、クロスフェード時において、区間ＢＰ１１の各サンプルに乗算される重みは、未来側のサンプルの重みほど小さい値とされ、最も過去側のサンプルの重みが「１」、最も未来側のサンプルの重みが「０」とされる。逆に、区間ＭＰ１１の各サンプルに乗算される重みは、未来側のサンプルの重みほど大きい値とされ、最も過去側のサンプルの重みが「０」、最も未来側のサンプルの重みが「１」とされる。

これにより、波形ＨＰ１１への置き換え後の入力信号の区間ＢＰ１１近傍においては、区間ＭＰ１１の終了位置近傍の波形と、区間ＰＲ３１の開始位置近傍の波形とが滑らかに繋がっている状態となり、波形の不連続性が解消される。その結果、出力信号の音声を聴感上、違和感のない自然な音声とすることができる。

具体的には、補間波形ＨＳ３１の生成時において、区間ＰＲ３１の図中、左端のサンプルに乗算される重みは「１」であり、区間ＦＲ３１の図中、左端のサンプルに乗算される重みは「０」である。したがって、補間波形ＨＳ３１の図中、左端のサンプルは、区間ＰＲ３１の左端のサンプルと同じとなる。

一方、波形ＨＰ１１の生成時において、区間ＭＰ１１の図中、右端のサンプルに乗算される重みは「１」であり、区間ＢＰ１１の図中、右端のサンプルに乗算される重みは「０」である。したがって、波形ＨＰ１１の図中、右端のサンプルは、区間ＭＰ１１の右端のサンプルと同じとなる。

このようにして得られた波形ＨＰ１１が、補間波形ＨＳ３１の直前に配置されると、波形ＨＰ１１と補間波形ＨＳ３１の境界部分では、元の入力信号において隣接していた区間ＭＰ１１の右端のサンプルと、区間ＰＲ３１の左端のサンプルが並ぶことになる。つまり、入力信号の区間ＢＰ１１を波形ＨＰ１１で置き換えることにより、ノイズ区間ＮＺ４１の開始位置近傍の波形が滑らかで自然な波形となる。

図１５のフローチャートの説明に戻り、ステップＳ６２において、置換部８５は、ステップＳ６１の処理により得られた入力信号のノイズ終了位置に隣接する区間の波形の置き換えを行なう。

具体的には、図１６の矢印Ａ８３に示すように、置換部８５は、入力信号におけるノイズ終了位置に対して未来側に隣接する、長さの短い区間を区間ＢＦ１１とする。図１６の例では、区間ＢＦ１１は、ノイズ区間ＮＺ４１の直後の区間とされている。

次に、置換部８５は、入力信号における区間ＢＦ１１よりも時間的に後（未来）にある、区間ＢＦ１１と同じ長さの所定区間を区間ＭＦ１１とする。図１６の例では、区間ＭＦ１１は、未来補間波形とされる区間ＦＲ３１の直後の区間とされている。

そして、置換部８５は、入力信号の区間ＢＦ１１の波形と区間ＭＦ１１の波形とをクロスフェードし、矢印Ａ８４に示すように、入力信号の区間ＢＦ１１をクロスフェードにより得られた波形ＨＦ１１に置き換えることで、波形の不連続性を解消させる。

例えば、クロスフェード時において、区間ＢＦ１１の各サンプルに乗算される重みは、未来側のサンプルの重みほど大きい値とされ、最も過去側のサンプルの重みが「０」、最も未来側のサンプルの重みが「１」とされる。逆に、区間ＭＦ１１の各サンプルに乗算される重みは、未来側のサンプルの重みほど小さい値とされ、最も過去側のサンプルの重みが「１」、最も未来側のサンプルの重みが「０」とされる。

これにより、波形ＨＦ１１への置き換え後の入力信号の区間ＢＦ１１近傍においては、区間ＢＰ１１の場合と同様に、区間ＭＦ１１の開始位置近傍の波形と、区間ＦＲ３１の終了位置近傍の波形とが滑らかに繋がっている状態となる。その結果、波形の不連続性が解消され、出力信号の音声が聴感上、違和感のない自然な音声となる。

置換部８５は、以上の処理により得られた入力信号を、出力信号として後段に出力する。

図１５のフローチャートの説明に戻り、ステップＳ６２において波形の置き換えが行なわれたか、またはステップＳ５５においてクリックノイズが含まれていないと判定された場合、処理はステップＳ６３に進む。

ステップＳ６３において、信号処理装置１１は、処理を終了するか否かを判定する。例えば、入力信号の全区間を対象としてクリックノイズの除去が行なわれた場合、処理を終了すると判定される。

ステップＳ６３において、処理を終了しないと判定された場合、処理はステップＳ５１に戻り、上述した処理が繰り返される。これに対して、ステップＳ６３において、処理を終了すると判定された場合、ノイズ低減処理は終了する。

以上のようにして、信号処理装置１１は、入力信号のノイズ区間を補間波形に置き換えた後、ノイズ区間に隣接する区間と、補間波形の生成に用いた区間に隣接する区間とから、新たな波形を生成し、ノイズ区間に隣接する区間を新たに生成した波形に置き換える。これにより、滑らかに補間波形を接続して波形の不連続性の発生を防止し、聴感上、違和感のない音声を得ることができる。

図１５のノイズ低減処理では、図４の場合と比べて若干計算量が増えるが、図１５のノイズ低減処理によれば、波形の不連続性を保ったままノイズ区間の補間を行い、さらにノイズ区間の境界部分の補間を行なうので、より違和感のないノイズ低減を実現することが可能となる。

なお、図１６のノイズ区間ＮＺ４１に隣接する区間ＢＰ１１と区間ＢＦ１１は、ノイズ区間ＮＺ４１の長さを超えない長さの区間であれば、どのような長さの区間であってもよいが、音声に違和感が発生しない程度に、できるだけ短い長さとされることが望ましい。また、区間ＢＰ１１と区間ＢＦ１１は、それぞれ異なる長さの区間とされてもよい。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）３０１，ROM（Read Only Memory）３０２，RAM（Random Access Memory）３０３は、バス３０４により相互に接続されている。

バス３０４には、さらに、入出力インターフェース３０５が接続されている。入出力インターフェース３０５には、キーボード、マウス、マイクロホンなどよりなる入力部３０６、ディスプレイ、スピーカなどよりなる出力部３０７、ハードディスクや不揮発性のメモリなどよりなる記録部３０８、ネットワークインターフェースなどよりなる通信部３０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア３１１を駆動するドライブ３１０が接続されている。

以上のように構成されるコンピュータでは、CPU３０１が、例えば、記録部３０８に記録されているプログラムを、入出力インターフェース３０５及びバス３０４を介して、RAM３０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU３０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア３１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インターフェース３０５を介して、記録部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記録部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記録部３０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１１信号処理装置，２１ノイズ検出部，２２ノイズ低減部，５２代表値決定部，５３平均値算出部，５４判定部，８１ノイズ区間決定部，８２過去補間波形生成部，８３未来補間波形生成部，８４合成部，８５置換部

Claims

音声信号を絶対値化する絶対値化手段と、
絶対値化された前記音声信号の連続するいくつかのサンプルからなる区間をブロックとして、前記ブロック内のサンプルのサンプル値のうち、少なくとも最大のサンプル値を用いて、前記ブロックのサンプルのサンプル値の代表的な値を示す代表値を算出する代表値算出手段と、
連続する所定数のブロックからなる区間をフレームとして、前記フレームを構成する前記ブロックの前記代表値の最大値と、前記フレームを構成する前記ブロックの前記代表値の平均値とを算出する平均値算出手段と、
前記最大値と前記平均値の比に基づいて、前記フレームからクリックノイズを検出する検出手段と
を備える信号処理装置。
前記代表値算出手段は、前記ブロック内のサンプルのサンプル値のうち、最大のサンプル値を前記代表値とする
請求項１に記載の信号処理装置。
前記検出手段は、前記最大値と前記平均値の比が、予め定められた閾値以上である場合、前記フレームに前記クリックノイズが含まれているとする
請求項２に記載の信号処理装置。
前記検出手段は、処理対象のフレームの前記最大値および前記平均値と、前記処理対象のフレーム近傍の他のフレームの前記最大値または前記平均値とを用いて、前記処理対象のフレームから前記クリックノイズを検出する
請求項２に記載の信号処理装置。
前記音声信号の前記クリックノイズが含まれるノイズ区間よりも過去側にあり、前記ノイズ区間と同じ長さの前記音声信号の区間の第１の波形を用いて、前記ノイズ区間の補間に用いる過去補間波形を生成する過去補間波形生成手段と、
前記音声信号の前記ノイズ区間よりも未来側にあり、前記ノイズ区間と同じ長さの前記音声信号の区間の第２の波形を用いて、前記ノイズ区間の補間に用いる未来補間波形を生成する未来補間波形生成手段と、
前記過去補間波形と前記未来補間波形とをクロスフェードして補間波形を生成する補間波形生成手段と、
前記音声信号の前記ノイズ区間を前記補間波形に置き換えることで、前記クリックノイズを低減させる置換手段と
をさらに備える請求項２に記載の信号処理装置。
処理対象のフレームから前記クリックノイズが検出された場合、前記処理対象のフレームの直前のフレームの前記代表値を閾値として、前記処理対象のフレームにおける前記最大値を前記代表値として持つ前記ブロックから過去側に、最初に前記代表値が前記閾値以下となる前記ブロックをノイズ開始ブロックとし、前記ノイズ開始ブロックの最終サンプルから過去側に、最初にゼロクロスするサンプルの位置を、前記クリックノイズの開始位置として検出するノイズ区間検出手段をさらに備える
請求項５に記載の信号処理装置。
処理対象のフレームから前記クリックノイズが検出された場合、前記処理対象のフレームの直後のフレームの前記代表値を閾値として、前記処理対象のフレームにおける前記最大値を前記代表値として持つ前記ブロックから未来側に、最初に前記代表値が前記閾値以下となる前記ブロックをノイズ終了ブロックとし、前記ノイズ終了ブロックの先頭サンプルから未来側に、最初にゼロクロスするサンプルの位置を、前記クリックノイズの終了位置として検出するノイズ区間検出手段をさらに備える
請求項５に記載の信号処理装置。
前記過去補間波形生成手段は、前記ノイズ区間の過去側に隣接する、前記ノイズ区間と同じ長さの前記音声信号の区間の前記第１の波形を時間反転させて前記過去補間波形を生成し、
前記未来補間波形生成手段は、前記ノイズ区間の未来側に隣接する、前記ノイズ区間と同じ長さの前記音声信号の区間の前記第２の波形を時間反転させて前記未来補間波形を生成する
請求項５に記載の信号処理装置。
前記過去補間波形生成手段は、前記音声信号における前記ノイズ区間の過去側の端のサンプルの前後にあるサンプルのサンプル値の符号が異なる場合、前記第１の波形を時間反転させるとともにサンプルのサンプル値の符号を反転させて前記過去補間波形とし、
前記未来補間波形生成手段は、前記音声信号における前記ノイズ区間の未来側の端のサンプルの前後にあるサンプルのサンプル値の符号が異なる場合、前記第２の波形を時間反転させるとともにサンプルのサンプル値の符号を反転させて前記未来補間波形とする
請求項８に記載の信号処理装置。
処理対象のフレームから前記クリックノイズが検出された場合、前記処理対象のフレームの直前のフレームの前記代表値を閾値として、前記処理対象のフレームにおける前記最大値を前記代表値として持つ前記ブロックから過去側に、最初に前記代表値が前記閾値以下となる前記ブロックの先頭サンプルの位置を、前記クリックノイズの開始位置として検出するノイズ区間検出手段をさらに備える
請求項５に記載の信号処理装置。
処理対象のフレームから前記クリックノイズが検出された場合、前記処理対象のフレームの直後のフレームの前記代表値を閾値として、前記処理対象のフレームにおける前記最大値を前記代表値として持つ前記ブロックから未来側に、最初に前記代表値が前記閾値以下となる前記ブロックの最終サンプルの位置を、前記クリックノイズの終了位置として検出するノイズ区間検出手段をさらに備える
請求項５に記載の信号処理装置。
前記置換手段は、さらに前記音声信号における前記ノイズ区間直前の所定の長さの隣接区間の波形と、前記音声信号における前記第１の波形の前記区間の直前にある、前記所定の長さの区間の波形とをクロスフェードして隣接補間波形を生成するとともに、前記隣接区間を前記隣接補間波形に置き換える
請求項５に記載の信号処理装置。
前記置換手段は、さらに前記音声信号における前記ノイズ区間直後の所定の長さの隣接区間の波形と、前記音声信号における前記第２の波形の前記区間の直後にある、前記所定の長さの区間の波形とをクロスフェードして隣接補間波形を生成するとともに、前記隣接区間を前記隣接補間波形に置き換える
請求項５に記載の信号処理装置。
音声信号を絶対値化する絶対値化手段と、
絶対値化された前記音声信号の連続するいくつかのサンプルからなる区間をブロックとして、前記ブロック内のサンプルのサンプル値のうち、少なくとも最大のサンプル値を用いて、前記ブロックのサンプルのサンプル値の代表的な値を示す代表値を算出する代表値算出手段と、
連続する所定数のブロックからなる区間をフレームとして、前記フレームを構成する前記ブロックの前記代表値の最大値と、前記フレームを構成する前記ブロックの前記代表値の平均値とを算出する平均値算出手段と、
前記最大値と前記平均値の比に基づいて、前記フレームからクリックノイズを検出する検出手段と
を備える信号処理装置の信号処理方法であって、
前記絶対値化手段が前記音声信号を絶対値化し、
前記代表値算出手段が前記ブロックの前記代表値を算出し、
前記平均値算出手段が前記フレームの前記最大値と前記平均値を算出し、
前記検出手段が前記最大値と前記平均値の比に基づいて、前記フレームから前記クリックノイズを検出する
ステップを含む信号処理方法。
音声信号を絶対値化し、
絶対値化された前記音声信号の連続するいくつかのサンプルからなる区間をブロックとして、前記ブロック内のサンプルのサンプル値のうち、少なくとも最大のサンプル値を用いて、前記ブロックのサンプルのサンプル値の代表的な値を示す代表値を算出し、
連続する所定数のブロックからなる区間をフレームとして、前記フレームを構成する前記ブロックの前記代表値の最大値と、前記フレームを構成する前記ブロックの前記代表値の平均値とを算出し、
前記最大値と前記平均値の比に基づいて、前記フレームからクリックノイズを検出する
ステップを含む処理をコンピュータに実行させるプログラム。