JP2012525605A

JP2012525605A - 低複雑度の聴覚イベント境界検出

Info

Publication number: JP2012525605A
Application number: JP2012508517A
Authority: JP
Inventors: エヌ．ディキンズ、グレン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2009-04-30
Filing date: 2010-04-12
Publication date: 2012-10-22
Anticipated expiration: 2030-04-12
Also published as: US8938313B2; WO2010126709A1; EP2425426B1; US20120046772A1; TWI518676B; CN102414742B; TW201106338A; JP5439586B2; HK1168188A1; CN102414742A; EP2425426A1

Abstract

聴覚イベント境界検出器は、入力デジタルオーディオ信号を、アンチエイリアスフィルタを用いることなくダウンサンプリングする方法を用いて、より狭い帯域の中間信号が、エイリアシングが発生している状態で得られるようにしている。イベント境界を示す当該中間信号のスペクトル変化は、適応フィルタを使用して、当該中間信号のサンプルの線形予測モデルを追跡することにより検出することができる。フィルタエラーのマグニチュードまたはパワーの変化は、入力オーディオ信号のスペクトルの変化に対応する。適応フィルタは、聴覚イベントの継続時間と一致する速度で収束するので、フィルタエラーのマグニチュードまたはパワーの変化は、イベント境界を示す。検出器は、時間−周波数変換をオーディオ信号の全帯域に用いる方法よりも複雑でない。

Description

本発明は、デジタルオーディオ信号を、関連する聴覚イベント境界ストリームに変換することに関する。
（関連出願の相互参照）
本出願は、２００９年４月３０日に出願され、かつ本明細書において参照されることにより出願の内容全体が本明細書に組み込まれる米国仮特許出願第６１／１７４，４６７号の優先権を請求するものである。

本発明の種々の側面による聴覚イベント境界（ａｕｄｉｔｏｒｙｅｖｅｎｔｂｏｕｎｄａｒｙ）検出器は、デジタルオーディオサンプルストリームを処理して、聴覚イベント境界が存在する時点を記録する。注目の聴覚イベント境界群は、音量の急激な増加（音または楽器音の立ち上がり）、及びスペクトルバランスの変化（音程変化及び音色の変化のような）を含むことができる。このようなイベント境界を検出すると、聴覚イベント境界ストリームを供給することができ、各聴覚イベント境界は、これらの聴覚イベント境界を抽出する場合の抽出元のオーディオ信号に関する発生時点を有する。このような聴覚イベント境界ストリームは、オーディオ信号の処理を、最小の可聴アーチファクトしか発生することがないように制御することを含む種々の目的のために有用となり得る。例えば、オーディオ信号の処理の特定の変化は、聴覚イベント境界においてしか、または聴覚イベント境界の近傍においてしか許容されない。処理を聴覚イベント境界における時点に、または聴覚イベント境界の近傍における時点に限定することから利点をもたらすことができる処理の例は、ダイナミックレンジ制御、ラウドネス制御、ダイナミック等化、及びオーディオチャネルをアップミキシングまたはダウンミキシングするために使用されるアクティブマトリクス化のようなアクティブマトリクス化を含むことができる。以下の出願及び特許のうちの一つ以上は、このような例に関するものであり、そして以下の出願及び特許の各々は、本明細書において参照されることにより、これらの出願及び特許の全体が本明細書に組み込まれる：
ＭｉｃｈｅａｌＪｏｈｎＳｍｉｔｈｅｒｓ（ミッシェルジョンスミザーズ）による「ＭｅｔｈｏｄｆｏｒＣｏｍｂｉｎｉｎｇＳｉｇｎａｌｓＵｓｉｎｇＡｕｄｉｔｏｒｙＳｃｅｎｅＡｎａｌｙｓｉｓ（信号を、聴覚情景分析を使用して合成する方法）」と題する２００９年３月２４日出願の米国特許第７，５０８，９４７号。国際特許出願第ＷＯ２００６／０１９７１９Ａ１号としても２００６年２月２３日に刊行されている。弁護士整理番号ＤＯＬ１４７。

Ｓｅｅｆｅｌｄｔ（シーフェルト）らによる「側帯波情報を用いたチャネル再構成」と題する２００７年１２月３日出願の米国特許出願第１１／９９９，１５９号。国際特許出願第ＷＯ２００６／１３２８５７号としても２００６年１２月１４日に刊行されている。弁護士整理番号ＤＯＬ１６１０１。

Ｓｅｅｆｅｌｄｔ（シーフェルト）らによる「ＣｏｎｔｒｏｌｌｉｎｇＳｐａｃｉａｌＡｕｄｉｏＣｏｄｉｎｇＰａｒａｍｅｔｅｒｓａｓａＦｕｎｃｔｉｏｎｏｆＡｕｄｉｔｏｒｙＥｖｅｎｔｓ（空間オーディオコーディングパラメータを聴覚イベントの関数として制御する）」と題する２００８年２月１日出願の米国特許出願第１１／９８９，９７４号。国際特許出願第ＷＯ２００７／０１６１０７号としても２００７年２月８日に刊行されている。弁護士整理番号ＤＯＬ１６３０１。

Ｃｒｏｃｋｅｔｔ（クロケット）らによる「ＡｕｄｉｏＧａｉｎＣｏｎｔｒｏｌＵｓｉｎｇＳｐｅｃｉｆｉｃ−Ｌｏｕｄｎｅｓｓ−ＢａｓｅｄＡｕｄｉｔｏｒｙＥｖｅｎｔＤｔｅｃｔｉｏｎ（特定ラウドネスに基づく聴覚イベント検出を使用するオーディオゲイン制御）」と題する２００８年１０月２４日出願の米国特許出願第１２／２２６，６９８号。国際特許出願第ＷＯ２００７／１２７０２３号としても２００７年１１月８日に刊行されている。弁護士整理番号ＤＯＬ１８６ＵＳ。

Ｓｍｉｔｈｅｒｓ（スミザーズ）らによる「ＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇＵｓｉｎｇＡｕｄｉｔｏｒｙＳｃｅｎｅＡｎａｌｙｓｉｓａｎｄＳｐｅｃｔｒａｌＳｋｅｗｎｅｓｓ（聴覚情景分析及びスペクトル歪みを使用するオーディオ処理）」と題する２００８年７月１１日出願の特許協力条約に基づく国際出願番号ＰＣＴ／ＵＳ２００８／００８５９２。国際特許出願第ＷＯ２００９／０１１８２７号としても２００９年１月１日に刊行されている。弁護士整理番号ＤＯＬ２２０。

別の構成として、オーディオ信号の処理の特定の変化を、聴覚イベント境界群の間でしか許容することができない。処理を、隣接する聴覚イベント境界の間の時点に限定することから利点をもたらすことができる処理の例は、タイムスケーリング及び音程シフティングを含むことができる。以下の出願は、このような例に関するものであり、そして当該出願は、本明細書において参照されることにより、当該出願全体が本明細書に組み込まれる：
ＢｒｅｔｔＧｒａｈａｍＣｒｏｃｋｅｔｔ（ブレットグラハムクロケット）による「ＨｉｇｈＱｕａｌｉｔｙＴｉｍｅＳｃａｌｉｎｇａｎｄＰｉｔｃｈ−ＳｃａｌｉｎｇｏｆＡｕｄｉｏＳｉｇｎａｌｓ（オーディオ信号の高品質タイムスケーリング及び音程スケーリング）」と題する２００３年１０月７日出願の米国特許第１０／４７４，３８７号。国際特許出願第ＷＯ２００２／０８４６４５号としても２００２年１０月２４日に刊行されている。弁護士整理番号ＤＯＬ０７５０３。

聴覚イベント境界群は、複数のオーディオチャネルを時間的に一致させ、そして特定するためにも有用となり得る。以下の出願は、このような例に関するものであり、そして当該出願は、本明細書において参照されることにより、当該出願全体が本明細書に組み込まれる：
Ｃｒｏｃｋｅｔｔ（クロケット）らによる「ＣｏｍｐａｒｉｎｇＡｕｄｉｏＵｓｉｎｇＣｈａｒａｃｔｅｒｉｚａｔｉｏｎｓＢａｓｅｄｏｎＡｕｄｉｔｏｒｙＥｖｅｎｔｓ（オーディオを、オーディオイベントに基づく特徴付けを使用して比較する）」と題する２００７年１０月１６日出願の米国特許第７，２８３，９５４号。国際特許出願第ＷＯ２００２／０９７７９０号としても２００２年１２月５日に刊行されている。弁護士整理番号ＤＯＬ０９２。

Ｃｒｏｃｋｅｔｔ（クロケット）らによる「ＭｅｔｈｏｄｆｏｒＴｉｍｅＡｌｉｇｎｉｎｇＡｕｄｉｏＳｉｇｎａｌｓＵｓｉｎｇＣｈａｒａｃｔｅｒｉｚａｔｉｏｎｓＢａｓｅｄｏｎＡｕｄｉｔｏｒｙＥｖｅｎｔｓ（オーディオ信号群を、オーディオイベントに基づく特徴付けを使用して時間一致させる方法）」と題する２００８年１２月２日出願の米国特許第７，４６１，００２号。国際特許出願第ＷＯ２００２／０９７７９１号としても２００２年１２月５日に刊行されている。弁護士整理番号ＤＯＬ０９２０１。

本発明は、デジタルオーディオ信号を、関連する聴覚イベント境界ストリームに変換することに関するものである。オーディオ信号に関するこのような聴覚イベント境界ストリームは、上の目的のいずれかのために、または他の目的のために有用となり得る。

本発明の一つの側面は、デジタルオーディオ信号のスペクトルの変化の検出を、デジタルオーディオ信号をサブサンプリングしてエイリアシングを発生させ、そして次に、サブサンプリングされた信号に作用させることにより、より少ない複雑さ（例えば、少ないメモリ要求、及び小さい処理オーバーヘッド、当該処理オーバーヘッドは多くの場合、「ＭＩＰＳ」、百万命令／秒により特徴付けられる）で行なうことができるという認識である。サブサンプリングされると、デジタルオーディオ信号のスペクトル成分の全てが、順番はバラバラになるが、狭い帯域内に維持される（これらのスペクトル成分はベースバンドに「折り返される」）。デジタルオーディオ信号のスペクトルの変化は、エイリアス歪みのない信号成分、及びサブサンプリングから生じるエイリアス信号成分の周波数成分の変化を検出することにより経時的に検出することができる。

「デシメーション（ｄｅｃｉｍａｔｉｏｎ）（間引き）」という用語は多くの場合、オーディオ分野において使用されて、デジタルオーディオ信号の低域通過アンチエイリアスを行なった後のデジタルオーディオ信号のサブサンプリングまたは「ダウンサンプリング」を指す。アンチエイリアスフィルタを普通、用いることにより、エイリアス信号成分が、サブサンプリングされたナイキスト周波数よりも高い周波数から、サブサンプリングされたナイキスト周波数よりも低い周波数のエイリアス歪みのない（ベースバンド）信号成分に「折り返される現象」を最小限に抑制する。例えば：
＜ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｄｅｃｉｍａｔｉｏｎ＿（ｓｉｇｎａｌ＿ｐｒｏｃｅｓｓｉｎｇ）＞
を参照されたい。

通常の慣行とは異なり、本発明の種々の側面によるエイリアシングは、アンチエイリアスフィルタに関連付けられる必要がない−実際、エイリアス信号成分群が抑圧されないことが望ましいが、これらのエイリアス信号成分は、エイリアス歪みのない（ベースバンド）信号成分とともに、サブサンプリングされたナイキスト周波数よりも低い周波数で現われることが望ましく、これは、ほとんどのオーディオ処理において不所望の結果となる。エイリアス信号成分及びエイリアス歪みのない（ベースバンド）信号成分の混合は、聴覚イベント境界をデジタルオーディオ信号内に検出するために適していることが判明しているので、境界検出が可能になって、狭い帯域に亘って、エイリアシングを発生させることなく採取される場合よりも少ない数の信号サンプルに対して作用させることができる。

４８ｋＨｚのサンプリングレートを有するデジタルオーディオ信号を、サンプリング数が大幅に減るようにサブサンプリングして（例えば、１６個のサンプルごとに１６個のサンプルのうちの１５個を無視することにより、サンプル群を３ｋＨｚで供給し、そして処理の複雑さを１／２５６に低減する）、ナイキスト周波数が１．５ｋＨｚになると、約５０個のメモリワード、及び０．５ＭＩＰＳ未満の処理能力しか必要としない状態で、有用な結果が生み出されることが判明している。丁度上に述べたこれらの例示的な値は重要ではない。本発明は、このような例示的な値に限定されない。他のサンプリングレートが有用となり得る。エイリアシングを用い、そして複雑さを結果的に低くすることができるのにも拘わらず、デジタルオーディオ信号の変化に対する感度を、エイリアシングを用いる場合の実際の実施形態において高くすることができる。このような予期しない結果が、本発明の一つの側面である。

上の例では、４８ｋＨｚのサンプリングレート、すなわちプロが広く使っているオーディオサンプリングレートを有するデジタル入力信号を仮定しているが、当該サンプリングレートは、単なる一例に過ぎず、重要ではない。コンパクトディスクの標準的なサンプリングレートである４４．１ｋＨｚのような他のデジタル入力信号を用いてもよい。４８ｋＨｚの入力サンプリングレート用に設計される本発明の実際の実施形態は、例えば４４．１ｋＨｚで満足に動作することもできるか、またはその逆に、４４．１ｋＨｚの入力サンプリングレート用に設計される本発明の実際の実施形態は、例えば４８ｋＨｚで満足に動作することもできる。サンプリングレートが、デバイスまたはプロセスが設計される場合の入力信号サンプリングレートよりも約１０％だけ高い、または低い場合、当該デバイスまたはプロセスにおけるパラメータ群は、満足の行く動作を達成するために調整を必要とする。

本発明の好適な実施形態では、サブサンプリングされたデジタルオーディオ信号の周波数成分の変化を、サブサンプリングされた当該デジタルオーディオ信号の周波数スペクトルを明示的に計算することなく、検出することができる。このような検出アプローチを用いることにより、メモリ及び処理の複雑さの低減効果を最大にすることができる。以下に更に説明するように、これは、線形予測フィルタのようなスペクトル選択フィルタを、サブサンプリングされたデジタルオーディオ信号に適用することにより達成することができる。このアプローチは、時間領域で行なわれるものとして特徴付けることができる。

別の構成として、サブサンプリングされたデジタルオーディオ信号の周波数成分の変化を、サブサンプリングされた当該デジタルオーディオ信号の周波数スペクトルを明示的に計算することにより、例えば時間−周波数変換を用いることにより、検出することができる。以下の出願は、このような例に関連するものであり、そして当該出願は、本明細書において参照されることにより、当該出願全体が本明細書に組み込まれる：
ＢｒｅｔｔＧｒａｈａｍＣｒｏｃｋｅｔｔ（ブレットグラハムクロケット）による「ＳｅｇｍｅｎｔｉｎｇＡｕｄｉｏＳｉｇｎａｌｓｉｎｔｏＡｕｄｉｔｏｒｙＥｖｅｎｔｓ（オーディオ信号を聴覚イベント群にセグメント化する）」と題する２００３年１１月２０日出願の米国特許第１０／４７８，５３８号。国際特許出願第ＷＯ２００２／０９７７９２号としても２００２年１２月５日に刊行されている。弁護士整理番号ＤＯＬ０９８。

このような周波数領域アプローチは、当該周波数領域アプローチに時間−周波数変換を用いるので、時間領域アプローチが必要とするよりも多くのメモリ及び処理を必要とするが、当該周波数領域アプローチは、少ない数のサンプルを有する、上述のサブサンプリングされたデジタルオーディオ信号に作用することができるので、デジタルオーディオ信号がダウンサンプリングされなかった場合よりも低い複雑さを（より小規模の変換を）実現する。従って、本発明の種々の側面は、サブサンプリングされたデジタルオーディオ信号の周波数スペクトルを明示的に計算するステップと、そのように明示的に計算することがないステップの両方を含む。

本発明の種々の側面による聴覚イベント境界の検出は、スケール不変とすることにより、オーディオ信号の絶対レベルが、イベント検出、またはイベント検出感度にほとんど影響しないようにすることができる。

本発明の種々の側面による聴覚イベント境界の検出は、ヒスノイズ、クラックルノイズ、及びバックグラウンドノイズのような「バースト状の（ｂｕｒｓｔｒｙ）」信号、またはノイズ状の信号に対する偽イベント境界の誤検出を最小にすることができる。

上述のように、注目の聴覚イベント境界は、デジタルオーディオサンプルにより表わされる音または楽器音の立ち上がり（音量の急激な増大）及び音程変化または音色変化（スペクトルバランスの変化）を含む。

立ち上がりは普通、瞬時の信号レベル（例えば、大きさまたはエネルギー）の急激な増加を探し出すことにより検出することができる。しかしながら、楽器音が、レガート発声のように、音程を全く途切れることなく変化させるとした場合、信号レベルの変化の検出は、イベント境界を検出するためには十分ではない。音量の急激な増大のみを検出すると、聴覚イベント境界であると考えることもできる音源の突然の停止が検出されないことになる。

本発明の一つの側面によれば、音程の変化は、適応フィルタを使用して、各連続するオーディオサンプルの線形予測モデル（ＬＰＣ）を追跡することにより検出することができる。可変係数のフィルタは、将来時点のサンプルがいずれになるのかを予測し、フィルタリングされた結果を実際の信号と比較し、そしてフィルタを変更してエラーを最小にする。サブサンプリングされたデジタルオーディオ信号の周波数スペクトルが静止状態にある場合、フィルタは収束することになり、そしてエラー信号のレベルは小さくなる。スペクトルが変化する場合、フィルタが適応することになり、そして当該適応中に、エラー信号のレベルはずっと大きくなる。従って、変化が、エラー信号のレベルだけ生じるか、またはフィルタ係数が変化する必要がある度合いだけ生じる時点を検出することができる。スペクトルが、適応フィルタが適応することができるよりも高速に変化する場合、これは、予測フィルタのエラーのレベルの増加として記録される。適応予測フィルタは、所望の周波数選択性を達成するために十分長くする必要があり、かつ調整して、適切な収束速度を有することにより、連続するイベントを経時的に識別する必要がある。正規化最小二乗平均法のようなアルゴリズム、または他の適切な適応化アルゴリズムを使用して、フィルタ係数を更新することにより、次のサンプルを予測しようとする。重要ではなく、かつ他の適応速度を使用してもよいが、２０〜５０ｍｓで収束するように設定されるフィルタの適応速度が有用であることが判明している。フィルタを５０ｍｓで収束させることができる適応速度によって、イベント群を約２０Ｈｚのレートで検出することができる。これは、ほぼ間違いなく、ヒトの最高のイベント知覚速度である。

別の構成として、スペクトルが変化すると、フィルタ係数が変化することになるので、エラー信号の変化を検出するのではなく、これらの係数の変化を検出することができる。しかしながら、これらの係数は、これらの係数が収束する方向に向かっているときに、更にゆっくり変化するので、これらの係数の変化を検出すると、エラー信号の変化を検出するときに発生することのない遅れが加わる。フィルタ係数の変化を検出するために、エラー信号の変化を検出する場合のように正規化を必要とするということは全くないが、エラー信号の変化を検出することは、一般的に、フィルタ係数の変化を検出することよりも簡単であるので、少ないメモリ、及び小さい処理能力で済ませることができる。

これらのイベント境界は、予測エラー信号のレベルの増加に関連付けられる。短期エラーレベルは、エラーのマグニチュード（ｍａｇｎｉｔｕｄｅ）またはパワー（ｐｏｗｅｒ）を時間平滑化フィルタでフィルタリングすることにより得られる。次に、この信号は、各イベント境界における急激な増大を呈するという特徴を有する。更に、信号のスケーリング及び処理の少なくとも一方を適用して、イベント境界群のタイミングを示す信号を生成することができる。イベント信号は、バイナリ「はい（ｙｅｓ）またはいいえ（ｎｏ）」として、または或る範囲にある一つの値として、適切な閾値及び限界値を使用することにより供給することができる。正確な処理、及び予測エラー信号から生成される出力は、イベント境界検出器の所望の感度及び用途に依存する。

本発明の一つの側面は、聴覚イベント境界群を、絶対スペクトルバランスではなく、スペクトルバランスの相対変化により検出することができることである。従って、元のデジタルオーディオ信号スペクトルが、より小さいセクション群に分割され、そして互いに折り重なって、より狭い帯域を生成して分析を行なう上述のエイリアシング方法を適用することができる。従って、元のオーディオサンプルの一部を処理するだけで済む。このアプローチは、有効帯域を狭くすることにより、必要なフィルタ長が短くなるという利点を有する。元のサンプルの一部を処理するだけで済むので、計算上の複雑さが低減される。上述の実際の実施形態では、１／１６のサンプリングを使用して、１／２５６の計算負荷低減を達成している。４８ｋＨｚ信号をサブサンプリングして３０００Ｈｚに下げることにより、有用なスペクトル感度を、例えば２０タップ予測フィルタを用いて達成することができる。このようなサブサンプリングを行なわない状態では、約３２０タップを有する予測フィルタが必要になることになる。従って、メモリ及び処理オーバーヘッドを大幅に減らすことができる。

本発明の一つの側面は、サブサンプリングしてエイリアシングを発生させることによって、予測器の収束、及び聴覚イベント境界の検出に悪影響を与えることがないという認識である。これは、ほとんどの聴覚イベントが高調波イベントであり、そして多くの期間に亘って継続しているからであり、かつ注目の聴覚イベント境界の多くが、スペクトルのエイリアス歪みのないベースバンド部分の変化に関連付けられるからである。

本発明の種々の側面による聴覚イベント境界検出器の一つの例を示す模式機能ブロック図である。本発明の種々の側面による聴覚イベント境界検出器の別の例を示す模式機能ブロック図である。図２の例は、図１の例とは、図２の例が、３番目の入力を分析部１６’に追加して、サブサンプリングされたデジタルオーディオ信号の相関またはトーナリティの度合いの尺度を取得する様子を示している点で異なっている。本発明の種々の側面による聴覚イベント境界検出器の更に別の例を示す模式機能ブロック図である。図３の例は、図２の例とは、図３の例が、追加のサブサンプラーまたはサブサンプリング機能部を有する点で異なっている。図３の例の更なる詳細を示す模式機能ブロック図である。図４の例による聴覚イベント境界検出デバイスまたは方法の動作を理解するために有用な例示的波形セットである。これらの波形セットの各々は、共通の時間スケール（水平軸）に沿って時間が一致している。各波形は、図示のように、当該波形固有のレベルスケール（垂直軸）を有する。図５Ａにおけるデジタル入力信号は、３つのトーンバーストを表わし、振幅がトーンバーストごとにステップ状に増加し、そして音程が各バーストの途中で変化している。図４の例による聴覚イベント境界検出デバイスまたは方法の動作を理解するために有用な例示的波形セットである。これらの波形セットの各々は、共通の時間スケール（水平軸）に沿って時間が一致している。各波形は、図示のように、当該波形固有のレベルスケール（垂直軸）を有する。図６Ａ〜Ｆの例示的な波形セットは、図５Ａ〜Ｆの波形セットとは、デジタルオーディオ信号が、２つの連続するピアノ鍵盤音を表わしている点で異なる。図４の例による聴覚イベント境界検出デバイスまたは方法の動作を理解するために有用な例示的波形セットである。これらの波形セットの各々は、共通の時間スケール（水平軸）に沿って時間が一致している。各波形は、図示のように、当該波形固有のレベルスケール（垂直軸）を有する。図７Ａ〜Ｆの例示的な波形セットは、図５Ａ〜Ｆ及び図６Ａ〜Ｆの波形セットとは、デジタルオーディオ信号が、バックグラウンドノイズが発生している状態の発話を表わしている点で異なる。

次に、種々の図を参照するに、図１〜４は、本発明の種々の側面による聴覚イベント境界検出器または検出プロセスの例を示す模式機能ブロック図である。これらの図では、同じ参照番号の使用は、デバイスまたは機能が、同じ参照番号が付されている別のデバイスまたは別の機能と、或いは他のデバイスまたは他の機能と略同じであることを意味している。ダッシュ記号付き番号（例えば「１０’」）となっている参照番号は、デバイスまたは機能が、構造または機能に関して類似しているが、同じ基本参照番号またはダッシュ記号付き基本参照番号が付されている別のデバイスまたは別の機能、或いは他のデバイスまたは他の機能の変形とすることができることを意味している。図１〜４の例では、サブサンプリングされたデジタルオーディオ信号の周波数成分の変化は、サブサンプリングされたデジタルオーディオ信号の周波数スペクトルを明示的に計算することなく検出される。

図１は、本発明の種々の側面による聴覚イベント境界検出器の例を示す模式機能ブロック図である。特定のサンプリングレートのサンプルストリームを含むデジタルオーディオ信号は、エイリアスを生成するサブサンプラーまたはサブサンプリング機能部（「サブサンプリング」）２に印加される。当該デジタルオーディオ入力信号は、離散時間シーケンスｘ［ｎ］で表わすことができ、この離散時間シーケンスは、オーディオソースから或るサンプリング周波数ｆ_ｓでサンプリングされている。通常のサンプリングレート４８ｋＨｚまたは４４．１ｋＨｚの場合、サブサンプリング部２によってサンプリングレートを、１６個のオーディオサンプルごとに１６個のうちの１５個を廃棄することにより１／１６倍に低くすることができる。サブサンプリング部２の出力は、遅延部または遅延機能部（「遅延」）６を介して適応予測フィルタまたはフィルタ機能部（「予測器」）４に印加され、この予測器４は、スペクトル選択フィルタとして機能する。予測器４は、例えばＦＩＲフィルタまたはフィルタリング機能部とすることができる。遅延部６は、単位遅延（サブサンプリングレートの）を持つことにより、確実に予測器４が現在のサンプルを使用しないようにすることができる。ＬＰＣ予測フィルタの幾つかの共通表現は、当該フィルタ自体の内部の遅延を含む。例えば：
＜ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｌｉｎｅａｒ＿ｐｒｅｄｉｃｔｉｏｎ＞
を参照されたい。

図１を参照し続けると、エラー信号は、予測器４の出力を入力信号から、減算器または減算機能部８（記号で示される）内で減算することにより変化する。予測器４は、立ち上がりイベント及びスペクトル変化イベントの両方に応答する。他の値も受け入れることができるが、元のオーディオを、４８ｋＨｚを１／１６倍してサブサンプリングすることにより、サンプルを３ｋＨｚで生成する場合、２０タップのフィルタ長が有用であることが判明している。適応更新は、正規化最小二乗平均法または別の同様の適応化方式を使用して行なうことにより、例えば２０〜５０ｍｓの所望の収束時間を達成することができる。次に、予測器４からのエラー信号を、「マグニチュードまたはパワー」デバイスまたは機能部１０（絶対値は、より固定小数点表示に適している）内で二乗する（エラー信号のエネルギーを供給する）か、または絶対値化し（エラー信号の絶対値を供給する）、そして次に、第１時間平滑化フィルタまたはフィルタリング機能部（「ＳｈｏｒｔＴｅｒｍＦｉｌｔｅｒ（短期フィルタ）」）１２及び第２時間平滑化フィルタまたはフィルタリング機能部（ＬｏｎｇｅｒＴｅｒｍＦｉｌｔｅｒ「長期フィルタ」）１４内でフィルタリングして、第１信号及び第２信号をそれぞれ生成する。第１信号が、予測エラーの短期尺度（ｍｅａｓｕｒｅ）であるのに対し、第２信号は、フィルタエラーのより長い期間に亘る平均である。重要ではなく、かつ他の値の、または他のタイプのフィルタを使用してもよいが、１０〜２０ｍｓの時定数を有する低域通過フィルタが、第１時間平滑化フィルタ１２に有用であることが判明しており、そして５０〜１００ｍｓの時定数を有する低域通過フィルタが、第２時間平滑化フィルタ１４に有用であることが判明している。

第１時間平滑化信号及び第２時間平滑化信号を、分析器または分析機能部（「Ａｎａｌｙｚｅ（分析）」）１６内で比較し、そして分析して、聴覚イベント境界ストリームを生成し、これらの聴覚イベント境界は、第２信号に対する第１信号の急激な増大によって示される。イベント境界信号を生成する一つのアプローチでは、第２信号に対する第１信号の比を考慮する。これは、入力信号の絶対値スケールの変化によって大きく影響されることがない信号を生成するという利点を有する。当該比を採取した後（割り算）、当該値を閾値と、または値範囲と比較して、バイナリ出力または連続値出力を生成することにより、イベント境界の存在を通知する。これらの値は重要ではなく、かつ用途要求に依存するが、長期間に亘ってフィルタリングされた信号に対する短期間に亘ってフィルタリングされた信号の比であって、１．２よりも大きい比は、イベント境界がある可能性があることを示唆しているのに対し、２．０よりも大きい比は、イベント境界が確実にあると考えることができる。バイナリイベント出力のための単一の閾値を用いることができ、或いは、複数値を、例えば０〜１の範囲を有するイベント境界尺度にマッピングすることができる。

他のフィルタ機構及び処理機構の少なくとも一方を使用して、イベント境界を表わす特徴をエラー信号のレベルから特定することができることが明らかである。また、イベント境界出力群の感度及び範囲は、これらの境界出力の印加先のデバイス（群）またはプロセス（群）に適応させることができる。これは、例えば聴覚イベント境界検出器内のフィルタリングパラメータ及び処理パラメータの少なくとも一方を変えることにより行なうことができる。

第２時間平滑化フィルタ（「ＬｏｎｇｅｒＴｅｒｍＦｉｌｔｅｒ（長期フィルタ）」）１４は、より長い時定数を有するので、当該第２時間平滑化フィルタ１４は、当該第２時間平滑化フィルタの入力として、第１時間平滑化フィルタ（「ＳｈｏｒｔＴｅｒｍＦｉｌｔｅｒ（短期フィルタ）」）１２の出力を使用することができる。これによって、第２フィルタ及び分析部を、より低いサンプリングレートで実行することができる。

改良されたイベント境界検出は、第２平滑化フィルタ１４が、平滑化フィルタ１２と比べたときに、レベル上昇に対するより長い時定数を有し、かつレベル低下に対する同じ時定数を有する場合に得られる。これにより、イベント境界を検出する際の遅延が、第１フィルタ出力を第２フィルタ出力に強制的に等しくするか、または第２フィルタ出力よりも強制的に大きくすることによって短くなる。

分析部１６における除算または正規化は、略スケール不変の出力をほぼ達成すればよい。除算ステップを回避するために、粗い正規化を、比較及びレベルシフトにより行なうことができる。別の構成として、正規化を予測器４の手前で行なうことにより、予測フィルタをより少ないワードで動作させることができる。

ノイズ状の性質のイベントに対する感度の所望の低下を達成するために、予測器の状態を使用して、オーディオ信号のトーナリティ（ｔｏｎａｌｉｔｙ）または予測可能性の尺度を供給することができる。当該尺度を予測係数から抽出することにより、信号がよりトーナル（ｔｏｎａｌ）であるか、またはより予測可能性が高い場合に発生するイベントを強調し、そしてノイズ状の状態で発生するイベントを強調しないようにすることができる。

適応フィルタ４は、リーク係数を持つように設計することができ、このリーク係数によってフィルタ係数が、収束してトーナル入力（ｔｏｎａｌｉｎｐｕｔ）に一致するということがない場合に経時的に減衰する。ノイズ状の信号が付加されると、予測係数はゼロに向かって減衰する。従って、フィルタ絶対値またはフィルタエネルギーの和の量は、スペクトル歪みの合理的な尺度となり得る。歪みのより良好な尺度は、これらのフィルタ係数の一部のみを使用して得ることができ；具体的には、最初の幾つかのフィルタ係数を無視することにより得ることができる。０．２以下の和は、スペクトル歪みが小さいことを表わすと考えられるので、値０にマッピングすることができるのに対し、１．０以上の和は、スペクトル歪みが非常に大きいことを表わすと考えられるので、値１にマッピングすることができる。スペクトル歪みの尺度を使用して、イベント境界出力信号を生成するために使用される信号または閾値を変更することにより、総合感度がノイズ状の信号に対して低くなるようにする。

図２は、本発明の種々の側面による聴覚イベント境界検出器の別の例を示す模式機能ブロック図である。図２の例は図１の例とは、図２の例が、分析部１６’（ダッシュ記号で示すことにより、図１の分析部１６とは異なることを示唆している）への３番目の入力が追加されている点で少なくとも異なる。「Ｓｋｅｗ」ｉｎｐｕｔ（スキュー（歪み）入力）と表記することができるこの３番目の入力は、予測係数を分析器または分析機能部（「ＡｎａｌｙｚｅＣｏｒｒｅｌａｔｉｏｎ（相関分析）」）１８で分析することにより得られるので、直ぐ上の２つの段落で説明したように、サブサンプリングされたデジタルオーディオ信号における相関またはトーナリティの度合いの尺度が得られる。

イベント境界信号を、３つの入力から生成するために、分析部１６’処理は次のように動作することができる。まず、当該処理では、平滑化フィルタ１４の出力に対する平滑化フィルタ１２の出力の比を採取し、１を減算し、そして信号を強制的に、ゼロ以上にする。次に、この信号に、ノイズ状の信号に対する０から、トーナル信号（ｔｏｎａｌｓｉｇｎａｌ）に対する１までの範囲の「歪み」入力を乗算する。この結果は、イベント境界の存在を示唆し、この場合、値が０．２を超えると、イベント境界がある可能性があることを示し、値が１．０を超えると、イベント境界が確実にあることを示す。上に説明した図１の例におけるように、出力は、単一の閾値をこの範囲に有するバイナリ信号に変換することができるか、または信頼度範囲に変換することができる。広範囲の値、及び最後のイベント境界信号を生成する別の方法も、幾つかのユーザには適切となり得ることは明らかである。

図３は、本発明の種々の側面による聴覚イベント境界検出器の更に別の例を示す模式機能ブロック図である。図３の例は図２の例とは、図３の例が、更に別のサブサンプラーまたはサブサンプリング機能部を有する点で少なくとも異なる。イベント境界検出に関連する処理が、イベント境界出力を、サブサンプリング部２によって可能になるサブサンプリングよりも少ない頻度でしか必要としない場合、更に別のサブサンプラーまたはサブサンプリング機能部（「サブサンプリング」）２０を、短期フィルタ１２の後段に設けることができる。例えば、サブサンプリング部２内で１／１６に低下したサンプリングレートを、更に１／１６に低下させて、出力されるイベント境界ストリーム内に発生し得るイベント境界を２５６サンプルごとに供給することができる。第２平滑化フィルタ、すなわち長期フィルタ１４’は、サブサンプリング部２０の出力を受信して、第２フィルタ入力を分析部１６”に供給する。平滑化フィルタ１４’への入力は、この時点で既に、平滑化フィルタ１２で低域通過フィルタ処理され、そして２０によりサブサンプリングされているので、１４’のフィルタ特性をそれに応じて変更する必要がある。適切な構成は、入力の上昇に対する５０〜１００ｍｓの時定数、及び入力の低下に対する即時応答である。分析部１６”への他の入力群の低下したサンプリングレートを一致させるために、予測器の係数も、同じサブサンプリングレート（この例における１／１６）で、更に別のサブサンプラーまたはサブサンプリング機能部（「サブサンプリング」）２２内でサブサンプリングして、分析部１６”（二重ダッシュ記号で示すことにより、図１の分析部１６、及び図２の分析部１６’とは異なることを示唆している）への歪み入力を生成する必要がある。分析部１６”は、図２の分析部１６’とほぼ同様であるが、微小変更を加えて、より低いサンプリングレートに関して調整を行なうようになっている。間引き段２０を追加して計算を大幅に少なくしている。サブサンプリング部２０の出力では、信号は、ゆっくり時間変化する包絡線信号を表わすので、エイリアシングは大きな問題とはならない。

図４は、本発明の種々の側面によるイベント境界検出器の特定例を示している。この特定の実施形態は、着信オーディオを４８ｋＨｚで、オーディオサンプル値が−１．０〜＋１．０の範囲に収まるように処理するように設計された。この実施形態において具体化される種々の値及び定数は、重要ではないが、有用な動作点を示唆している。この図、及び以下の方程式は、例示的な信号を含む後続の図を生成するために使用されるプロセス及び本発明の特定の変形を詳細に表わしている。着信オーディオｘ［ｎ］は、１６番目ごとのサンプルを、サブサンプリング関数（「サブサンプリング）」）２’

により採取することによりサブサンプリングされる。遅延機能部（「遅延」）６及び予測機能部（「ＦＩＲ予測器」）４’は、現在のサンプルの推定値を、以前のサンプル群

にわたって、２０タップＦＩＲフィルタを使用して生成する。上式では、ｗ_ｉ［ｎ］は、サブサンプリング時点ｎにおけるｉ番目のフィルタ係数を表わしている。減算機能部８は、予測エラー信号

を生成する。これを使用して、予測器４’の係数を、正規化最小二乗平均適応プロセスに従って、リーク係数を加味して更新することにより、フィルタ

を安定させる。上式では、分母は正規化項であり、この正規化項は、前の２０個の入力サンプルの二乗の和と、ゼロによる除算を回避するための小オフセット値の加算とを含んでいる。変数ｊを使用して前の２０個のサンプルに、ｊ＝１〜２０とする場合にｘ’［ｎ−ｊ］のようにインデックスを付している。次に、エラー信号を、マグニチュード機能部（「マグニチュード」）１０’、及び簡易な１次低域通過フィルタである第１時間フィルタ（「短期フィルタ」）１２’を通過させて、１次フィルタリングされた信号

を生成する。次に、この信号を、上昇する入力のための１次低域通過部、及び低下する入力のための即時応答部を有する第２時間フィルタ（「長期フィルタ」）１４”を通過させて、２次フィルタリングされた信号

を生成する。予測器４’の係数を使用して、トーナリティ（「ＡｎａｌｙｚｅＣｏｒｒｅｌａｔｉｏｎ（相関分析部）」）１８’の初期尺度を、３番目のフィルタ係数から最後のフィルタ係数までの絶対値の和

として生成する。この信号を、オフセット部３５、スケーリング部３６、及びリミッタ部（「リミッタ」）３７を通過させて歪みの尺度

を生成する。１次及び２次フィルタリングされた信号、及び歪みの尺度を、加算部３１、除算部３２、減算部３３、及びスケーリング部３４で合成して、初期イベント境界通知信号

を生成する。最後に、この信号をオフセット部３８、スケーリング部３９、及びリミッタ部（「リミッタ」）４０を通過させて、０〜１の範囲のイベント境界信号

を生成する。２つの時間フィルタ１２’及び１４”、及び２つの信号変換部３５，３６，３７，及び３８，３９，４０における値の類似性は、システムの固定設計または制約を表わしているのではない。

図５Ａ〜Ｆ、図６Ａ〜Ｆ、及び図７Ａ〜Ｆは、図４の例による聴覚イベント境界検出デバイスまたは方法の動作を理解するために有用な例示的な波形セットである。これらの波形セットの各々は、共通時間スケール（水平軸）に沿って時間的に一致させている。各波形は、図示のように、当該波形固有のレベルスケール（垂直軸）を有する。

まず、図５Ａ〜Ｆにおける例示的な波形セットを参照するに、図５Ａのデジタル入力信号は、３つのトーンバーストを表わし、振幅がトーンバーストごとに階段状に増大し、音程が各バーストの途中で変化している。図５Ｂに示す簡易なマグニチュード測定では、音程の変化を検出することができないことが分かる。予測フィルタからのエラーは、トーンバーストの立ち上がり、音程変化、及び終了を検出することができるが、特徴は明瞭ではなく、かつ入力信号レベルに依存する（図５Ｃ）。上に説明したスケーリングにより、イベント境界をマーキングし、信号レベルとは独立のインパルスセットが得られる（図５Ｄ）。しかしながら、この信号は、最後のノイズ状の入力に対して不所望のイベント信号を生成し得る。次に、最初の２つのフィルタタップを除く全てのフィルタタップの絶対値和から得られる歪みの尺度（図５Ｅ）を使用して、強いスペクトル成分を伴うことなく発生する感度イベントを低下させる。最後に、スケーリングされ、かつ先端が切り取られた（ｔｒｕｎｃａｔｅｄ）イベント境界ストリーム（図５Ｆ）が、分析部によって得られる。

図６Ａ〜Ｆの例示的な波形セットは、図５Ａ〜Ｆの波形とは、デジタルオーディオ信号が２つの連続するピアノ鍵盤音を表わしている点で異なる。これは、図５Ａ〜Ｆの例示的な波形が示しているように、予測エラーからどのようにして、イベント境界群を、これらのイベント境界がマグニチュード包絡線に明瞭に現われない（図６Ｂ）場合でも、特定することができるかを示している。この一連の例では、最後の方の鍵盤音が徐々に弱くなって消えて行くので、音の連続の最後ではイベントは信号に表れない。

図７Ａ〜Ｆの例示的な波形セットは、図５Ａ〜Ｆ及び図６Ａ〜Ｆの波形とは、デジタルオーディオ信号が、バックグラウンドノイズが発生している状態の発話を表わしている点で異なる。歪み係数によって、バックグラウンドノイズのイベント群を、これらのイベントの帯域が本質的に広いので抑圧することができるのに対し、音声部分は、イベント境界群によって詳述される。

これらの例は、任意のトーナルサウンド（ｔｏｎａｌｓｏｕｎｄ）の突然の終了が検出されることを示している。サウンドの緩やかな減衰では、明確な境界がない（ただフェードアウトする）ので、イベント境界は検知されない。ノイズ状のサウンドが突然終了してもイベントは検知できないが、突然終了する大抵の発話または音楽イベントは、検出されることになる終了時に、或るスペクトル変化、またはピンチオフイベントを有することになる。
実装
本発明は、ハードウェア内で、またはソフトウェア内で、或いはハードウェア及びソフトウェアの組み合わせ（例えば、プログラマブルロジックアレイ）内で実施することができる。特に断らない限り、本発明の一部として含まれるアルゴリズムは、本質的に、いずれかの特定のコンピュータまたは他の装置に関連しているという訳ではない。具体的には、種々の汎用マシンを、本明細書において提供される示唆に基づいて記述されるプログラムを用いて使用することができるか、または更に特殊化された装置（例えば、集積回路）を作製して、必要な方法ステップ群を実行すると利便性を更に高めることができる。従って、本発明は、一つ以上のプログラマブルコンピュータシステムで実行される一つ以上のコンピュータプログラムで実施することができ、各プログラマブルコンピュータシステムは、少なくとも一つのプロセッサと、少なくとも一つのデータストレージシステム（揮発性及び不揮発性メモリ及び記憶素子の少なくとも一方を含む）と、少なくとも一つの入力デバイスまたはポートと、そして少なくとも一つの出力デバイスまたはポートと、を備える。プログラムコードを入力データに適用して、本明細書において記載される機能を実行し、そして出力情報を生成する。出力情報は、一つ以上の出力デバイスに公知の態様で適用される。

このようなプログラムの各々は、いずれの所望のコンピュータ言語（マシン言語、アセンブリ言語、または高位のプロシージャ言語、論理言語、またはオブジェクト指向プログラミング言語を含む）でも記述することができるので、コンピュータシステムと通信することができる。いずれにしても、言語はコンパイル言語とするか、または解釈言語とすることができる。

このようなコンピュータプログラムの各々は、汎用または特殊用途プログラマブルコンピュータが読み取ることができる記憶媒体または記憶装置（例えば、固体メモリまたは固体媒体、または磁気媒体または光媒体）に格納されるか、またはダウンロードされることにより、記憶媒体または記憶装置がコンピュータシステムによって読み取られて、本明細書において記載される手順を実行するときに、コンピュータを構成し、そして動作させることが好ましい。本発明によるシステムは、コンピュータプログラムにより構成されるコンピュータ可読記憶媒体として実現されると考えることもでき、このように構成される記憶媒体によってコンピュータシステムは、特定かつ所定の態様で動作するようになって、本明細書において記載される機能を実行する。

本発明の多数の実施形態について説明してきた。しかしながら、種々の変更を、本発明の技術思想及び範囲から逸脱しない限り加えることができることを理解されたい。例えば、本明細書において記載されるステップ群のうちの幾つかは、順番に関係なく行なうことができるので、記載される順番とは異なる順番で行なうことができる。

Claims

デジタルオーディオ信号を処理して、聴覚イベント境界ストリームを前記デジタルオーディオ信号から生成する方法であって、
前記デジタルオーディオ信号をサブサンプリングして、前記デジタルオーディオ信号のサブサンプリングされたナイキスト周波数が前記デジタルオーディオ信号の帯域内にあるようにすることにより、サブサンプリングされたデジタルオーディオ信号を生成して、前記サブサンプリングされたナイキスト周波数よりも高い前記デジタルオーディオ信号内の信号成分が、前記サブサンプリングされたナイキスト周波数よりも低い周波数で、前記サブサンプリングされたデジタルオーディオ信号内に現われるようにすること、
前記サブサンプリングされたデジタルオーディオ信号の周波数成分の経時的な変化を検出して、前記聴覚イベント境界ストリームを生成すること
を含む、方法。
聴覚イベント境界は、前記サブサンプリングされたデジタルオーディオ信号の前記周波数成分の経時的な変化が閾値を上回る場合に検出される、請求項１に記載の方法。
前記サブサンプリングされたデジタルオーディオ信号の周波数成分の経時的な変化に対する感度が、ノイズ状の信号を表わすデジタルオーディオ信号に対しては引き下げられている、請求項１又は請求項２に記載の方法。
前記サブサンプリングされたデジタルオーディオ信号の周波数成分の経時的な変化が、前記サブサンプリングされたデジタルオーディオ信号の周波数スペクトルを明示的に計算することなく検出される、請求項１乃至３のいずれか一項に記載の方法。
前記サブサンプリングされたデジタルオーディオ信号の周波数成分の経時的な変化が、スペクトル選択フィルタを前記サブサンプリングされたデジタルオーディオ信号に適用することにより求められる、請求項１乃至４のいずれか一項に記載の方法。
前記サブサンプリングされたデジタルオーディオ信号の周波数成分の経時的な変化を検出することは、現在のサンプルを、前のサンプルセットから予測すること、予測エラー信号を生成すること、エラー信号レベルの経時的な変化が閾値を超える時点を検出することを含む、請求項１乃至５のいずれか一項に記載の方法。
前記サブサンプリングされたデジタルオーディオ信号の周波数成分の経時的な変化が、前記サブサンプリングされたデジタルオーディオ信号の周波数スペクトルを明示的に計算することを含むプロセスにより検出される、請求項１乃至３のいずれか一項に記載の方法。
前記サブサンプリングされたデジタルオーディオ信号の周波数成分を明示的に計算することは、時間−周波数変換を、前記サブサンプリングされたデジタルオーディオ信号に適用することを含み、前記プロセスは更に、前記サブサンプリングされたデジタルオーディオ信号の周波数領域表現の経時的な変化を検出することを含む、請求項７に記載の方法。
検出される聴覚イベント境界は、境界の有無を示すバイナリ値を有する、請求項１乃至８のいずれか一項に記載の方法。
検出される聴覚イベント境界は、境界の不存在か、または前記境界の存在及び強度を示す或る範囲の値を有する、請求項１乃至８のいずれか一項に記載の方法。
請求項１乃至１０のいずれか一項に記載の方法を実行するように適合された手段を備える装置。
コンピュータ可読媒体に格納され、コンピュータに、請求項１乃至１０のいずれか一項に記載の方法を実行させるコンピュータプログラム。
請求項１乃至１０のいずれか一項に記載の方法を実行するコンピュータプログラムを格納するコンピュータ可読媒体。