JP4906230B2

JP4906230B2 - オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法

Info

Publication number: JP4906230B2
Application number: JP2003500892A
Authority: JP
Inventors: クロケット、ブレット・ジー; スミザズ、マイケル・ジェイ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2001-05-25
Filing date: 2002-02-25
Publication date: 2012-03-28
Anticipated expiration: 2022-02-25
Also published as: EP2549475B1; JP2004528600A; HK1066902A1; EP1390942B1; MXPA03010750A; EP1390942A1; KR100871607B1; KR100873396B1; CN1264137C; ES2400700T3; DK1393300T3; HK1066087A1; KR20040004646A; CN1272765C; KR100911679B1; KR20040004648A; KR20040004647A; JP2004528601A; WO2002097791A1; JP4763965B2

Description

本発明は、オーディオ信号に関する。とりわけ、本発明は、オーディオ信号の特徴づけと、特徴付けを使って、ひとつのオーディオ信号が別のオーディオ信号から生成されたオーディオ信号同士、又は、２つのオーディオ信号が同じオーディオ信号から生成されたオーディオ信号同士の時間調整又は同期化を行うことに関する。このような同期化は、例えば、テレビジョン音声を映像と同期させて再生する（lip-sync）ときや、オーディオ信号に埋め込まれた透かしを検出するときに役に立つ（透かしのある信号は、透かし無し信号版と比較される）。本発明は、低い処理労力による処理でこのような２つのオーディオ信号を実質的に時間調整させるために実施される。

サウンドを別の音として感じる単位に分割することは、「オーディトリーイベントアナリシス」又は「オーディトリーシーンアナリシス」（「ＡＳＡ」）と呼ばれることもある。オーディトリーシーンアナリシスの幅広い議論は、Albert S. Bregmanの「Auditory Scene Analysis - The Perceptual Organization of Sound」マサチューセッツ工科大学、1991年、第４版、2001年、第２MITプレスペーパーバック版に公開されている。加えて、Bhadkamkar他の米国特許6,002,776，1999年12月14日付でも、1976年に発行された「prior art work related to sound separation by auditory scene analysis」を引用している。しかし、Bhadkamkar他の特許は、オーディトリーシーンアナリシスの実用的な採用の意欲を失わせるものであり、「オーディトリーシーンアナリシスを必要とする技術は、人間の聴覚処理のモデルという観点から科学的には興味があるものの、現時点ではコンピュータに対する要望が非常に強すぎ、特別なものなので、基本的な処理がなされるまでオーディオ分割の実用的な技術と考えることはできない。」と結論付けている。

Bregmanは文中に「オーディオが音色、高さ、大きさ、又は（小さい範囲で）空間的な位置が突然変化したとき、別々の単位として聞こえる。」（Auditory Scene Analysis - The perceptual Organization of Sound, 469ページ）と書いている。Bregmanは、例えば周波数が別々であるとき、たくさんのオーディオが同時に流れたときのオーディオの認知について議論している。

オーディオからの特性や特徴を抽出する多くの異なった方法がある。特徴や特性が適切に定義されているという条件で、これらの抽出は、自動的な処理工程にて実行される。例えば「ISO/IEC JTC1/SC 29/WG 11」（MPEG）は、現時点ではMPEG-7標準の一部としてのさまざまなオーディオ記述子の標準となりつつある。このような方法に共通する欠点は、ＡＳＡを無視していることである。このような方法は、高さ、大きさ、パワー、和音構成、及びスペクトルフラットネスのような古典的な信号処理変数を繰り返し探求するものである。このような変数は、有益な情報をもたらすものではあるが、人間の認知により別のものと知覚される成分に分けて信号を個性化するものではない。

オーディトリーシーンアナリシスは、成分を人間の認知に従って別のものと識別することで、人間の聴覚と似た方法でオーディオ信号を個性化する試みである。このような方法を開発することで、これまで人間の補助を必要としていた仕事を正確に自動的な処理工程で実行することができる。

別のものと認識される成分を特定することで、信号そのもの全てより実質的には少ない情報を用いてオーディオ信号の一意的な識別が可能となる。オーディトリーイベントに基づくコンパクトで一意的な識別は、例えば、もうひとつ別の信号からコピーされた（又は、同じ音源の信号から別の信号としてコピーされた）信号の識別のために採用され得る。

オーディオ信号を特定するために用いることができるオーディオ信号の、一意的で縮減された情報による特徴付けを発生させる方法が記載されている。特徴付けは、オーディオ信号の「サイン」又は「指紋」と考えることもできる。本発明によれば、オーディトリーシーンアナリシス（ＡＳＡ）は、オーディオ信号の特徴付けの基準として、オーディトリーイベントの特定を実行する。理想的には、オーディトリーシーンアナリシスは、オーディオについて、低ビットレートのコーディングやラウドスピーカーを通じて音響的に伝達されるような処理がなされた後でも、人間のリスナーに認識されると思われるオーディトリーイベントを特定する。オーディオ信号は、オーディトリーイベントの境界域や、代案的に、各オーディトリーイベントの優勢な周波数サブ帯域により特徴付けられる。その結果得られた情報パターンは、速く及び／又は低い労力で元のオーディオ信号同士の時間差を決定するために、オーディオの指紋やサインと比較することができるコンパクトなオーディオの指紋やサインを構成する。縮減された情報による特徴は、オーディオ信号の相対的なタイミングと実質的に同じタイミングを持つ。

本発明によるオーディトリーシーンアナリシスの方法は、オーディトリーイベント情報を含んだサインを比較することにより、特に音楽についての２つのオーディオ信号の速くて正確な時間調整方法を提供する。ASAは、オーディオ信号の間の類似性認識におけるそれほど本質的でない（高さ、大きさ、音量、調波構成のような）特徴を抽出する従来の特徴抽出法と比べて、類似性認識におけるより本質的な情報又は特徴を抽出する。ＡＳＡの使用は、低ビットコーディングやラウドスピーカーを通して伝達されるアコースティックのような、かなり処理を施された材料における類似性を見つける機会、従って時間調整をする機会、を向上する。

以下に論ずる実施例において、論議の対象となる２つのオーディオ信号は共通の音源から由来するものと想定する。本発明による方法は、お互いに関してほぼ同期状態にすることができるように、このようなオーディオ信号を他の信号に対する時間補正を決定する。

本発明は、アナログ領域でもディジタル領域でも（又はこの２つの組み合わせでも）原則として実施可能であるが、本発明の実際の実施例では、オーディオ信号はデータのブロックにおけるサンプルとして表現され、ディジタル領域において処理される。

図１Ａを参照すると、オーディトリーシーンアナリシス２は、オーディオ信号に関する「サイン」又は「指紋」を生成するために、そのオーディオ信号に適用される。ここに、関心のある２つのオーディオ信号がある。これらは、一方は他方から得られたものであるか、又は両方とも前もって同じ音源から得られたものであり類似する。このように、オーディトリーシーンアナリシスは両方の信号に適用される。簡単のために図１ＡではＡＳＡを１つの信号にのみ適用した場合を示す。図１Ｂに示すように、２つの信号に対するサインであるサイン1とサイン２は、２つのサイン間における相対時間の補正の程度である「補正」出力を計算する時間補正計算機能４に適用される。

サインはオーディオ信号を表すが実質的にはその源となるオーディオ信号より短いので、サイン同士の時間補正を、オーディオ信号同士の時間補正を決定するのに比べてかなり速く決定することができる。さらに、サインは、その源となるオーディオ信号と実質的に同じ相対的な時間関係を保持するので、サイン同士の時間補正の計算は元のオーディオ信号の時間調整に使用できる。このように、機能４の補正出力は時間調整機能６に適用される。時間調整機能は、２つのオーディオ信号、すなわちオーディオ信号１とオーディオ信号２（サイン１とサイン２がここから導き出される）も受け取り、２つのオーディオ信号出力、すなわちオーディオ信号３とオーディオ信号４を供給する。時間調整（同期化）又はほぼ同期化させるためには、オーディオ信号１のオーディオ信号２に対する相対的タイミングを調整することが望ましい。これを実行するために一方を他方に対して時間移動させてもよいし、あるいは、原則として、両方時間移動させてもよい。実際には、オーディオ信号の内の１つは、オーディオ信号１又はオーディオ信号２が「通り抜けたもの」であり（すなわち、実質的に同じ信号）、他は、補正計算と時間調整機能の分解能の精度に応じて、オーディオ信号３とオーディオ信号４が、時間同期化又はほぼ時間同期化されるよう時間的に修正された他方の信号の時間移動版となる。もしさらに大きな時間調整の精度が要求される場合は、本発明を構成しない１以上の工程により、さらなる処理がオーディオ信号３及び／又はオーディオ信号４に適用されよう。

信号の時間調整は、例えば、テレビジョン音声を映像と同期させて再生する（lip-sync）ときや、オーディオ信号埋め込まれた透かしを検出するときに役に立つ。前者の場合は、オーディオのサインは、音声や映像が同期はずれを起こすかもしれないビデオ信号に、伝達又は保存に先立って埋め込まれる。再生ポイントにおいて、サインは、オーディオ信号から生成され、同期して再生するためにビデオ信号に埋め込まれたサインと比較される。オーディトリーシーンアナリシスに基づく特徴付けを採用しないタイプのシステムはアメリカ合衆国特許33.535、5,202,761、6,211,919、及び6,246,439に記載されており、これらの特許は、全体的に参照用としてここに組み込まれる。第２の場合は、オーディオ信号の元のバージョンは、透かしを回復させるためにオーディオ信号の透かしを入れたバージョンと比較される。このような回復のためには、２つのオーディオ信号に緊密な時間調整を要求する。これは、ここに述べるように、元のオーディオ信号の時間調整を手助けするために各オーディオ信号のサインを生成することで第１級の調整が実行される。さらに図１Ａと１Ｂの詳細が以下に述べられる。

ある用途には、図１Ａと１Ｂの処理は実時間で行われなければならない。他の用途に対しては、実時間である必要はない。実時間での応用例においては、この処理は、各入力信号に対する（例えば、数秒間の）オーディトリーシーンアナリシスの履歴を保存する。周期的に、このイベント履歴が適用され、時間調整を連続的に修正するために、補正計算の更新を行う。各入力信号に対するオーディトリーシーンアナリシス情報は実時間で生成され、又は、いずれかの入力信号情報はすでに存在しているかもしれない（あるオフラインのオーディトリーシーンアナリシス処理はすでに実行されていることを前提とする）。実時間システムの１つの用途は、例えば、上述のような音声／映像位置調整である。連続したイベント境界は、オーディオから生成される。他の連続したイベント境界は、ビデオから再生される（いくつかのオーディトリーイベントの境界が前もってビデオに埋め込まれていることを前提とする）。２つのイベント境界の順序は、例えばlip-syncを改善するために、音声と映像の間の時間補正を決定するために、周期的に比較される。

このようにサインの時間補正が計算され、実質的な同時性を達成するようにオーディオ信号の時間調整に用いられるのと同時に、２つのサインが生成される。代案として、比較されるべき１つのサインが、例えば、先に説明したような音声と映像の位置調整の場合の映像信号のように、もう一方の信号に埋め込むことによって生成されたオーディオ信号と一緒に生成することとしてもよい。更なる代案として、両方のサインが前もって生成されるようにし、比較と時間修正のみを実時間で行うこととしてもよい。例えば、（音声と映像のある）同じテレビジョンプログラムの２つの信号源の場合、両方とも埋め込まれたサインで、各テレビジョン信号（音声信号を含む）は、再生されたサインを比較することで同期化される（音声と映像の両方）。各テレビジョン信号における音声と映像の相対的なタイミング関係は変わらないままである。テレビジョン信号の同期化は実時間で行われるが、サインの生成は実時間でも同時でもない。

本発明の特徴によれば、オーディオを、別のものと認識される「オーディトリーイベント」又は時間的な区分に分割するためのコンピュータによる効率的な処理が提供される。

認識されたオーディトリーイベントの開始点又は終点の説得力のある識別は、スペクトル内容の変化であるとみられる。音色と高さ（スペクトル内容）の変化と、補助的な結果として、振幅の変化を検出するために、本発明の特徴によるオーディオイベントの検出過程で、時間に対するスペクトル内容の変化を検出する。追加的に、本発明の更なる特徴により、この処理の過程で、時間に対するスペクトル内容の変化の検出では検出できない時間に対する振幅の変化をも検出することも可能である。

コンピュータに最小限の負荷しか与えない実施においては、周波数帯域全体又は実質的に周波数帯域の全体を分析することで、この処理はオーディオ（全帯域のオーディオ）を、時間区分に分割する（現実の実施例では、スペクトルの終端で帯域制限のフィルターがしばしば適用される）。この方法は、短い時間スケール（２０msec以下）では耳は、その時間において単一のオーディトリーイベントに集中する傾向にあることを利用するものである。これは、同時に複数のイベントが起こったとき、ひとつの要素が聴覚的にもっとも優勢になる傾向があり、それが発生したただ１つのイベントであるかのように処理される可能性がある。この効果を利用することはオーディトリーイベントの検出が複雑なオーディオの処理に対応することを可能にする。例えば、もし入力オーディオ信号が単一の楽器で演奏されていたならば、特定されるオーディオイベントは、おそらく単一の調子で演奏されたものとなるだろう。入力音声信号も同様に、発話の各成分、例えば母音と子音は、おそらく単一のオーディオ成分として特定されるだろう。ドラムビートや多数の楽器と音声による音楽のように、オーディオの複雑性が増大したとき、オーディトリーイベントは、その時々の最も顕著な（すなわち、音の大きい）オーディオ成分を特定する。代わりに、この「最も顕著な」オーディオ成分は、聴覚閾値や周波数応答を考慮に入れて決めてもよい。

状況に応じて、本発明のさらなる特徴に従い、コンピュータが非常に複雑になるが、処理において、全帯域幅より、離散的な周波数帯域（固定又は動的に決定された又は固定と動的な決定の両方の帯域）における時間に関してスペクトル構成の変化を考慮に入れてもよい。この代案的な方法は、単一のオーディオの流れが特定の時間で認識されるとみなすより、異なる周波数帯域の１つ以上のオーディオの流れを考慮に入れるものである。

オーディオを区分するための本発明の特徴に従った、コンピュータを使った効率的で単純な方法ではあるが、この方法は、オーディトリーイベントを特定するのに有益であることが分かった。

本発明によるオーディトリーイベントの検出方法を、オーディオ波形の時間領域を時間間隔又はブロックに分割することにより実行し、分割の後、離散フーリエ変換（ＤＦＴ）（スピードを加速するため高速フーリエ変換（ＦＦＴ）として実行される）のような、フィルターバンク又は時間−周波数変換を用いて、各ブロックのデータを周波数領域に変換してもよい。各ブロックのスペクトル内容の振幅は、振幅の変化による影響を削除又は縮減するために正規化しておくことができる。結果として現れる各周波数領域は、特定のブロックにおけるオーディオのスペクトル内容（周波数の関数としての振幅）の表示を提供する。連続するブロックにおけるスペクトル内容は、比較され、閾値より大きな変化は、オーディトリーイベントの時間的開始点又は時間的終点を表示するとみなすことができる。

コンピュータの複雑化を最低限に抑えるために、好ましくは全周波数帯域のスペクトラム（平均的な質のミュージックシステムでは５０Ｈｚから１５ｋHzまでとなるだろう）又は、実質的に全周波数帯域（例えば、非常に低周波や高周波の部分を除外するフィルターにより定義される帯域）について、時間領域におけるオーディオ波形のただ１つの周波数帯域を処理してもよい。

以下に述べるように周波数領域におけるデータは正規化されることが好ましい。周波数領域のデータが正規化されるために必要とする程度により、振幅の表示が与えられる。従って、もし、この程度を変化させたとき、あらかじめ定められた閾値を超えると、イベントの境界とみなされる部分が多くなりすぎてしまう。スペクトルの変化により決められたイベントの開始点と終点と振幅の変化により決められた開始点と終点とは、ＯＲ条件により結合し、両方のタイプの変化から得られたイベントの境界を特定してもよい。

実際の実施例では、サンプル値により表現されるオーディオはブロックに分けられ、各オーディトリーイベントの時間的開始点及び時間的終点の境界は、時間領域におけるオーディオ波形が分割されるブロックの境界と一致する必要がある。実時間処理からの要求（ブロックを大きくすれば処理負荷は低くなる）とイベント位置の分解能（ブロックが小さいほうが、オーディトリーイベントの位置に関する詳細な情報が得られる）との間には二律背反の関係がある。

さらなる選択として、前に示唆したように、コンピュータによる処理が複雑となってしまうが、時間領域における単一の周波数帯域における波形のスペクトル内容に対して処理を行う代わりに、時間領域の波形のスペクトルを周波数領域に変換する前に、２以上の周波数帯域に分割してもよい。周波数帯域の各々について周波数領域に変換し、そしてそれが独立のチャンネルであるかのように処理することができる。そして、得られたイベントの境界は、ＯＲ条件で結合し、そのチャンネルにおけるイベントの境界を定義することができる。多数の周波数帯域は、固定しても、状況に応じて変更することとしても、あるいは固定と状況に応じての変更とを組み合わせてもよい。例えば、オーディオノイズ低減その他の技術に用いられるトラッキングフィルター技術を、状況に応じて周波数帯域を決めるため（例えば、８００Ｈｚと２ｋＨｚにおける同時的な主正弦波を、この２つの周波数を中心にした、状況適応的な帯域とする）に採用してもよい。

オーディトリーシーンアナリシスをもたらす他の技術を、本発明におけるオーディトリーイベントを特定するために採用してもよい。

本発明の実用的な実施例では、４４．１ｋＨｚのサンプリングレートの入力オーディオにおいて約１１．６msecに相当する、５１２個のサンプルからなるブロック内で処理されるサンプルにより、オーディオ信号が表現される。最短の認識可能なオーディトリーイベント（約２０msec）より短い継続時間のブロック長さが望ましい。本発明の特徴は、このような実用的な実施例に限定されないことは了解されている。本発明は本質的に、オーディトリーイベントに先立ってオーディオをサンプルブロックに編成したり、一定長さのブロックを提供したりすることを必要としない。しかし、複雑性を最低限にするために、５１２個のサンプル（又は他の２の累乗個のサンプル）からなる固定長さのブロックが、３つの主な理由により有効である。第１に、実時間処理のアプリケーションにとって受け入れ可能な、十分短い待ち時間を提供するからである。第２に、フーリエ変換（ＦＦＴ）分析に有効な２の累乗個のサンプルだからである。第３に、役に立つオーディトリーシーンアナリシスを実施するために適当な大きさの窓サイズを提供するからである。

以下の議論で、この入力信号は、〔−１，１〕の範囲の振幅を持つデータであると仮定する。

〈オーディトリーシーンアナリシス（図１Ａ）〉
入力データのブロック化に引き続き（図示せず）、入力信号はオーディトリーイベントに分割され、各々は、図１Ａの処理２（「オーディトリーシーンアナリシス」）において別のものと認識される傾向にある。オーディトリーシーンアナリシスは、前述のオーディトリーシーンアナリシス（ＡＳＡ）処理により実行される。しかし、オーディトリーシーンアナリシスを実施するのに適当な１つの方法が、以下に詳細に述べられる。本発明は、ＡＳＡを実行するための他の有効な技術を採用してもよい。

図２は、図１Ａのオーディトリーシーンアナリシス処理として用いられる本発明の技術に従った処理の概要を示す。ＡＳＡステップ又はプロセスは３つの概略サブステップからなる。最初のサブステップ２−１（「スペクトル分析の実行」）は、オーディオ信号を取り上げ、それをブロックに分割し、ブロックのそれぞれについてスペクトルプロファイル又はスペクトル内容を計算する。スペクトル分析により、オーディオ信号を短時間の周波数領域内に変換する。これは、変換又は帯域パスフィルターの列のどちらかを基礎として、（人間の耳の特性によく近似させた、バークスケールやクリティカルバンドのような）直線的又は曲線的周波数空間のどちらかにおいて、フィルターバンクを用いて実行される。どんなフィルターバンクであっても、時間と周波数との間には二律背反関係が存在する。時間分解能を大きくし、従って時間間隔を短くすれば、周波数分解能が低くなる。周波数分解能を大きくし、従ってサブ帯域を小さくすれば、時間間隔が長くなる。

第１のサブステップでは、連続するオーディオ信号の時間区分におけるスペクトル内容の計算を行う。実用的な実施例では、以下に述べるように、ＡＳＡブロックサイズは５１２個のサンプルの入力オーディオ信号である（図３）。第２のサブステップ２−２では、ブロックとブロックとの間のスペクトル内容の違いを決定する（「スペクトルプロファイルの差異の計測」）。このように、第２のサブステップは、連続するオーディオ信号の時間区分同士のスペクトル内容の違いを計算する。第３のサブステップ２−３（「オーディトリーイベントの境界位置の特定」）では、あるスペクトラルプロファイルのブロックと次のスペクトラルプロファイルのブロックとの差が閾値より大きいとき、そのブロックの境界はオーディトリーイベントの境界と見なす。このようにして、連続する時間区分間でスペクトラルプロファイルの内容同士の差が閾値を超えたとき、第３のサブステップは、この連続する時間区分間にオーディトリーイベントの境界を設定する。上記で論じた通り、認識されたオーディトリーイベントの開始点又は終点の強力な指標はスペクトル内容の変更点であると考えられる。イベント境界の位置はサインとして保存される。随意的な処理ステップ２−４（「優勢なサブ帯域の特定」）では、スペクトル分析を用い、これもまたサインの一部として保存される優勢な周波数のサブ帯域を特定する。

この実施例では、オーディトリーイベントの境界は最低限のスペクトラルプロファイルブロック長さ（この例では５１２個のサンプル）を持ったスペクトラルプロファイルのブロックの整数倍の長さを持ったオーディトリーイベントとして定義する。原則的には、イベント境界をそのように限定する必要はない。オーディオ区分の重複する部分又は重複しない部分のいずれか一方は、窓化され入力オーディオのスペクトラルプロファイルを解散するために用いられる。重複によりオーディトリーイベントの位置の細かい分解能が得られ、また、トランジエントのようなイベントを見逃すことが少なくなると思われる。しかし、時間分解能があがるにつれて、周波数分解能は下がる。また重複により、コンピューターの複雑性は増大する。図３は、窓化され離散フーリエ変換（ＤＦＴ）により周波数領域に変換された、重複のない５１２個のサンプルブロックを概念的に表したものである。各ブロックは窓化され、例えばＤＦＴ、好ましくは速度を上げるため高速フーリエ変換（ＦＦＴ）を用いて周波数領域に変換される。

以下の変数を入力ブロックのスペクトルプロファイルの計算に使うことができる。

N ＝入力信号のサンプル数
M ＝スペクトルプロファイルの計算に使われる窓内のサンプル数
P ＝スペクトル計算の重複サンプル数
Q ＝計算されたスペクトル窓／領域数

原則として、どんな整数を上記変数として使ってもよい。しかし、スペクトルプロファイルの計算に標準的なFFTを使うことができるように、Mは２の累乗にしておけば、計算はもっと効率的になる。オーディトリーシーンアナリシス処理における実際の実施例では、上掲の変数は以下のように定められる。

M ＝５１２サンプル（又は、４４．１ｋＨｚで１１．６msec）
P ＝０サンプル

上掲の変数は実験により求められたもので、おおむね、オーディトリーイベントの位置と継続時間について十分な精度を満たすとみなされることが分かった。しかし、Ｐの値を２５６サンプル（５０％重複）にすることは、見つけにくいイベントを特定するのに有益であることが分かっている。窓関数に起因するスペクトラルアーティファクトを最小限にするために多くの異なるタイプの窓関数が使われるが、スペクトラルプロファイルの計算に使われる窓関数は、Ｍポイント・ハニング、カイザー・ベッセルその他の適当なもので、非方形の窓関数が望ましい。広範囲にわたる試験の結果、広い範囲のオーディオ素材にわたって優れた成果をあげたことから、上記値とハニング窓を選択した。非方形の窓は、低周波の内容が優勢なオーディオ信号の処理に望ましい。方形窓は、イベントの不適切な検出の原因になるスペクトルアーティファクトを作る。全体として重複／付加する処理を、制限を一定レベルで設けるようなコーディックでないアプリケーションは、ここでは適用されず、窓は時間／周波数分解能やストップバンドの排除のような特徴により選ぶことができる。

サブステップ２−１（図２）で、Ｍ個のサンプルのブロックは、Ｍポイント・ハニング、カイザー・ベッセルその他の適当な窓関数にてデータが窓化されて計算することができ、Ｍ・ポイント高速フーリエ変換を用いて周波数領域に変換され、ＦＦＴ係数の振幅が計算される。結果出てきたデータは、最大振幅を単位と定めるように正規化され、正規化されたＭ個の数値は対数領域に変換される。これらの数値群は対数領域に変換する必要はないが、変換することはサブステップ２−２での差異の大きさの計算を簡単にする。さらに、対数領域は人間の聴覚システムの対数領域での特性と親密な整合性がある。対数領域における値はマイナス無限大からゼロまでである。実際の実施例では、最小リミット値がこのレンジに重ねあわされる。すなわち、リミット値を例えば−６０ｄＢに固定、あるいは、高周波数では小さい静かな音の可聴性が低いことを反映して、周波数に依存した値にすることができる。（正の周波数と同様に負も示すＦＦＴにおいて、数値群をＭ／２個のサイズに減らすことも可能なことに注意すべきである）。

サブステップ２−２では、隣り合うサブブロックのスペクトル間の差異の大きさの計算を行う。各ロックについて、サブステップ２−１からのＭ（対数）個のスペクトル係数の各々を先行するサブブロックの対応する係数から減算し、その差異の大きさを計算する（符号は無視する）。これらのＭ個の差異は加算されひとつの数となる。すべてのオーディオ信号に対して、結果はＱ個の正数群となり、数値が大きければ大きいほど、サブブロックのスペクトルが、先のサブブロックとは異なっている。差異の大きさの計算値は、和の計算で用いたスペクトル係数の数で、この差異の計算値を割ることによりスペクトル係数ごとの平均差異を示させることも可能である（この場合はＭ個の係数）。

サブステップ２−３では、サブステップ２−２で計算した差異の数値群に閾値を適用することでオーディトリーイベントの境界の位置を定義する。差異が閾値を上回っていると判断したとき、スペクトルの変化は新しいイベントの信号を送るのに十分だと判断され、ブロック数の変化はイベントの境界として記録される。上記で与えられたＭ及びＰと（サブステップ２−１の）ｄＢ単位で表した対数領域での値に対して、閾値は、ＦＦＴ強度全体と比較する場合（鏡像部分も含む）は、２５００に設定され、ＦＦＴ強度の半分と比較される場合（先に注記したように、ＦＦＴは正の周波数と同様に負も示す。従って、ＦＦＴの強度については、一方は他方の鏡像となる）は、１２５０に設定される。この値は、試験的に選ばれたものであり、好適なオーディトリーイベントの検出をもたらす。この変数値はイベントの検出を減らしたり（閾値を増大する）、増やしたり（閾値を減少する）することために変更が可能である。

この現実的な実施例の詳細は必須条件ではない。連続する時間区分間の相違を計算し、このような連続する時間区分間でのスペクトルプロファイルの内容の相違が閾値を超えたとき、連続する時間区分間の各々の境界にオーディトリーイベントの境界を設定するような、連続するオーディオ信号の時間区分のスペクトルの内容を計算する他の方法を適用してもよい。

（大きさがＭ個のサンプルで）Ｑ個のブロックから構成されるオーディオ信号に対する、図１Ａの２の機能であるオーディトリーシーンアナリシス処理の出力は、ｑ＝０，１，．．．，Ｑ−１からなるオーディトリーイベントの境界の位置を示す情報の配列Ｂ（ｑ）となる。ブロックサイズＭ＝５１２サンプル、重複がＰ＝０サンプルそして、信号サンプリングレートが４４．１ｋＨｚに対して、オーディトリーシーンアナリシス処理２は、１秒間に約８６の値を出力する。配列Ｂ（ｑ）は、基本的な形では優勢なサブ帯域情報を任意に付加しないで、オーディオ信号のサインがオーディトリーイベントの境界の列を代表する配列Ｂ（ｑ）となるように、サインとして保存される。

２つの異なった信号に対するオーディトリーシーンアナリシスの結果の一例を図４Ａと４Ｂに示す。上図、図４Ａは、オーディトリーイベントの境界がサンプル１０２４個目と１５３６個目のところに特定されたオーディトリーシーン処理の結果を示している。下図、４Ｂは、イベントの境界がサンプル１０２４個目、２０４８個目および３０７２個目のところに特定されたものを示している。

〈優勢なサブ帯域の特定（任意的）〉
各ブロックに対し、ＡＳＡ処理（図２に示す）において任意に付加されたステップはブロック（各ブロックにおけるデータの周波数領域への変換は、周波数サブ帯域に分割された情報をもたらす）の優勢な「サブ帯域」であることを示すオーディオ信号から情報を引き出す。このブロック毎の情報はオーディトリーイベント毎の情報に変換され、優勢な周波数のサブ帯域が各オーディトリーイベントにおいて特定される。各オーディトリーイベントに対するこの情報は、オーディトリーイベントの境界に加えて他の情報とともに（以下に説明する）相関処理を提供する。優勢な（最も振幅の大きい）サブ帯域は、人間の耳がもっとも感度の高い周波数帯域又は範囲内の、例えば３又は４の複数のサブ帯域から選ぶことができる。代案的に、他の条件をサブ帯域の選定に使ってもよい。

スペクトルは例えば３つのサブ帯域に分割される。好ましいサブ帯域の周波数範囲は、
サブ帯域１３０１Ｈｚから５６０Ｈｚ
サブ帯域２５６０Ｈｚから１９３８Ｈｚ
サブ帯域３１９３８Ｈｚから９９４８Ｈｚ
である。

優勢なサブ帯域を決定するために、スペクトル振幅の自乗（又はスペクトルのパワーマグニチュード）が各サブ帯域において加算される。このサブ帯域毎の加算結果が算出されてもっとも大きなものが選ばれる。重み付けは、各サブ帯域での合計をそのサブ帯域のスペクトル値の数で割るという形式を取る。あるいは、その代わり、他より重要な帯域を強調するために、付加又は乗算するような形をとってもよい。これは、あるサブ帯域が他のサブ帯域より平均的にはエネルギーを持っているが、聴覚的には重要ではない場合に有効である。

Ｑ個のブロックからなるオーディオ信号を考える、優勢なサブ帯域処理の出力は、各ブロック（ｑ＝０，１，．．．，Ｑ−１）の優勢なサブ帯域を表す情報の配列ＤＳ（ｑ）となる。配列ＤＳ（ｑ）は、配列Ｂ（ｑ）と共にサインの中に保存されることが好ましい。このようにして、任意的な優勢なサブ帯域の情報と共に、オーディオ信号のサインは、各々オーディトリーイベントの境界の列と各ブロック内の優勢な周波数サブ帯域の列を表す配列Ｂ（ｑ）と配列ＤＳ（ｑ）の２つとなる。このように、理想的な例では、２つの配列は（３つの優勢なサブ帯域があるケースでは）以下のような値となる。

１０１０００１００１０００００１０（イベント境界）
１１２２２２１１１３３３３３３１１（優勢なサブ帯域）
ほとんどの場合、優勢なサブ帯域は、この例に示すように、各オーディトリーイベント内において同じとなるか、又は、イベント内のすべてのブロックが一様でない場合は、平均値となる。このように、優勢なサブ帯域は、各オーディトリーイベント内で決定され、配列ＤＳ（ｑ）は、同じ優勢なサブ帯域がイベント内の各ブロックに割り当てられるように修正され得る。

〈時間補正計算〉
抽出したサインの出力（図１Ａ）は、前述のような、サインとして保存されるオーディトリーシーンアナリシス情報の１以上の配列である。時間補正計算機能（図１Ｂ）は、２つのサインを取り上げ、それらの時間のずれの程度を計算する。これは、既知の相互相関法を用いて算出される。

Ｓ_１（長さＱ_１）をサイン１からの１つの配列とし、Ｓ_２（長さＱ_２）をサイン２からの１つの配列とする。最初に配列Ｒ_Ｅ１Ｅ２の相関を計算する（例えば John G. Proakis, Dimitris G. Manolakis,Digital Signal Processing: Principles, Algorithms, and Applications, Macmillan Publishing Company, 1992, ISBN 0-02-396815-X参照）。

現実的な実施例では、相互相関は、実行時間短縮のため標準的なＦＦＴに基づく技術を用いて計算される。Ｓ_１とＳ_２は両方とも長さが有限なので、ゼロでないＲ_Ｅ１Ｅ２はＱ_１＋Ｑ_２−１の長さを持つ。Ｒ_Ｅ１Ｅ２における最大成分に対応する遅れｌは、Ｓ_１に対するＳ_２の時間のずれを表す。

この補正（時間のずれ）はサイン配列Ｓ_１とＳ_２と同じ単位を持つ_。現実的な実施例では、Ｓ_１とＳ_２の成分は、配列から隣接ブロックとの重複部を差し引いて配列を生成するために用いられたオーディオブロックサイズと等価な更新された比率をもつ。すなわちＭ−Ｐ＝５１２−０＝５１２サンプルとなる。

〈時間調整〉
時間調整機能６（図１Ｂ）は、２つのオーディオ信号における時間調整のために時間差を計算するために用いられる。これは、オーディオ信号入力Ｓ_１とＳ_２（２つのサインを生成するために用いられる）を取り上げ、両方が時間的に緊密に整列するよう、他方に対して一方を補正する。２つの調整された信号はオーディオ信号３と４として出力される。適用された遅れ又は補正の量は、サインＳ_１とＳ_２間の相対サイン遅れｌ_peakによる生成物であり、サインのサンプルにおける分解能Ｍ−Ｐである。

２つの音源の共通部分に関心がある応用例について（透かしが付けられていない信号と透かしが付けられた信号とを直接比較するような透かし検出の場合のように）、２つの音源は共通する部分が残るよう切りつめられる。

情報が失われない応用例では、先行するサンプルを挿入することにより一方の信号が補正される。例えば、ｘ_１を長さＮ_１のオーディオ信号１のサンプルとし、ｘ_２を長さＮ_２のオーディオ信号２のサンプルとする。またｌ_peakがＭ−Ｐのオーディオサンプルにおいて、Ｓ_２に対する相対的なＳ_１の補正を表す。オーディオ信号Ｓ_１に対する相対的なオーディオ信号Ｓ_２の補正Ｄ₂₁は、サインの補正ｌ_peakとＭ−Ｐからの生成物である。

もしＤ₂₁がゼロなら、信号３と４のように、補正されないで出力される（図１Ｂ）。もしＤ₂₁が正であれば、入力信号ｘ_１(n)は、先行するサンプルを挿入することで補正される。

信号ｘ’_１(n)とｘ_２(n)は、信号３と４として出力される（図１Ｂ）。もしＤ₂₁が負であれば、入力信号ｘ_２(n)は、先行するサンプルを挿入することで補正される。

〈計算の複雑さと精度〉
補正計算に必要なコンピュータの計算能力はサイン配列Ｑ_１とＱ_２に比例する。ここに記載された処理はある補正誤差を持つので、本発明による時間調整処理は、サインよりむしろオーディオ信号に直接作用する細かい分解能を持った従来からの処理によるだろう。例えば、時間調整されたオーディオ信号の一部を受け取り、この部分を正確なサンプル誤差又は細かい補正を決定するために、相互相関計算するであろう。サイン配列はサインの補正計算に用いられるので、時間調整方法の精度は、５１２個のサンプル数であるこの実施例では、サインを生成するオーディオブロックのサイズに制限される。言い換えれば、この方法は、サンプル補正において、プラスマイナスブロックサイズの約半分、この実施例では±２５６個のサンプル数の誤差を持つ。

この誤差は、サインの分解能を上げることにより減少させることができる。しかし、精度と計算の複雑さとの間には二律背反の関係がある。補正誤差を少なくするためにはサイン配列において分解能を上げる必要があり（より多くの配列要素を必要とする）、このことは相互相関の計算において高い計算処理能力を必要とする。大きな補正誤差でよければ、サイン配列において分解能は粗くてよく（配列要素が少ない）、このことは相互相関の計算において低い計算処理能力でよいことになる。

〈応用〉
透かしを入れるためには、しるしをつけた信号を作るために他の信号を付加することも含め、何らかのあらかじめ定められた方法によりサインを変更することにより、サインの中に情報を埋め込むことを必要とする。埋め込まれた情報の検出又は抽出は、透かしの入った信号と元の信号源との比較に頼ることになる。また、透かしの入った信号は、オーディオコーディングやスピーカー／マイクロフォンの音響機器への伝達を含む処理を受ける。本発明は、透かしの入った信号の元の信号源に対する時間調整の方法を提供し、埋め込まれた情報の抽出を容易にする。

コード化された信号と元の信号源とを比較することにより、オーディオコーダーの質を決める主観的な方法及び客観的な方法においては、信号の劣化の程度を作成するためにコード化された信号を作り出していた（例えばＩＴＵ−Ｒ５ポイント劣化評価）。比較は、コード化された信号と元の信号源との比較における時間調整に依存する。この方法は、音源とコード化された信号との時間調整の方法を提供する。

本発明は、例えば、先に説明したような音声信号を映像信号のlip-syncingの改善など、他の応用も可能である。

本発明及びその様々な特徴に基づく変更又は修正による他の実施形態は、当業者にとって明らかであり、本発明は具体的に記載された実施の形態に限定されないことは了解されるべきである。従って、あらゆる変更や修正又は本質的な思想とここに開示され、請求された原則的な基本原理と均等なものは本発明の範囲に含まれる。

本発明とその種々の特徴は、ディジタル信号処理装置、プログラムされた汎用ディジタルコンピュータ及び／又は専用ディジタルコンピュータのソフトウエアの機能により実行することができる。アナログ信号とディジタル信号の流れは適当なハードウエアにより、及び／又はソフトウエア及び／又はファームウエアの機能として実行されよう。

図１Ａは、本発明による、オーディオ信号からサインを抽出する処理を示したフローチャートである。オーディオ信号は、たとえば音楽を表現するもの（例えば、音楽作品や歌）でもよい。図１Ｂは、本発明による、２つのオーディオ信号の時間調整処理を図示したフローチャートである。図２は、本発明による、オーディオイベントの位置を抽出し、状況に応じて、オーディオ信号から優勢なサブ帯域を抽出することを図示したフローチャートである。図３は、本発明よる、スペクトル分析のステップを表した概念図である。図４Ａと４Ｂは、本発明による、複数のオーディトリーイベントの位置又はオーディトリーイベントの境界を示した理想的なオーディオ波形である。

Claims

一方の信号が他方の信号から導き出され、又は、両方の信号がもう１つ別の信号から導き出された第１のオーディオ信号と第２のオーディオ信号の時間調整方法であって、
前記オーディオ信号の縮減された情報による特徴付けを導き出すステップであって、
該特徴付けは前記オーディオ信号自身の持つ情報より少ない情報からなり、前記縮減された情報による特徴付けは、少なくとも、各オーディトリーイベントが別のものと識別されるようなオーディトリーイベントに、前記オーディオ信号を分割した結果できたオーディトリーイベントの境界を表現し、
各オーディオ信号は、
該オーディオ信号における時間に関する信号特性の変化を検出し、
時間に関する信号特性の閾値を越える変化が境界を定義し、各オーディトリーイベントは、隣り合う境界で挟まれたオーディオ部分であり、このような隣り合う境界で挟まれた部分には１つだけオーディトリーイベントが存在し、各境界は、連続するオーディトリーイベントが得られるように、先行するオーディトリーイベントの終端となり後続するオーディトリーイベントの先端となっており、どのオーディトリーイベントの境界も、オーディトリーイベントも、オーディトリーイベントの特性も、連続するオーディトリーイベントの境界を特定して該連続するオーディトリーイベントを取得する前には知られていない状況で、前記オーディオ信号における連続するオーディトリーイベントの境界を特定することにより、
オーディトリーイベントに分割されることを特徴とする、
前記オーディオ信号の縮減された情報による特徴付けを導き出すステップと、
前記特徴付けは、その元となるオーディオ信号と実質的に同じ相対的時間関係を有し、他の特徴付けに対する一方の特徴付けの時間補正を計算するステップと、
前記時間補正に応答して、前記オーディオ信号を同期化又はほぼ同期化させるために、前記オーディオ信号の一方を他方に対して時間移動させるか又は両方を時間移動させるステップと、
を具備することを特徴とする、第１のオーディオ信号と第２のオーディオ信号の時間調整方法。
前記各オーディオ信号は各々他の信号を伴い、前記計算するステップと前記修正するステップとを行う前に、前記縮減された情報による特徴付けを導き出す前記オーディオ信号に伴う前記他の信号のそれぞれに、前記縮減された情報による特徴付けの各々が埋め込まれることを特徴とする、請求項１に記載の方法。
前記他の信号は、ビデオ信号であることを特徴とする、請求項２に記載の方法。
１つのオーディオ信号と他の１つの信号との時間調整方法であって、
前記オーディオ信号の縮減された情報による特徴付けを導き出し、当該オーディオ信号と他の信号が実質的に同期化されているとき前記他の信号に前記特徴付けを埋め込むステップであって、
該特徴付けは前記オーディオ信号自身の持つ情報より少ない情報からなり、前記特徴付けは、少なくとも、各オーディトリーイベントが別のものと識別されるようなオーディトリーイベントに、前記オーディオ信号を分割した結果できたオーディトリーイベントの境界を表現し、
前記オーディオ信号は、
該オーディオ信号における時間に関する信号特性の変化を検出し、
時間に関する信号特性の閾値を越える変化が境界を定義し、各オーディトリーイベントは、隣り合う境界で挟まれたオーディオ部分であり、このような隣り合う境界で挟まれた部分には１つだけオーディトリーイベントが存在し、各境界は、連続するオーディトリーイベントが得られるように、先行するオーディトリーイベントの終端となり後続するオーディトリーイベントの先端となっており、どのオーディトリーイベントの境界も、オーディトリーイベントも、オーディトリーイベントの特性も、連続するオーディトリーイベントの境界を特定して該連続するオーディトリーイベントを取得する前には知られていない状況で、前記オーディオ信号における連続するオーディトリーイベントの境界を特定することにより、
オーディトリーイベントに分割されることを特徴とする、前記他の信号に前記特徴付けを埋め込むステップと、
前記オーディオ信号と前記他の信号が時間補正の対象となった後、前記他の信号から前記オーディオ信号の埋め込まれた特徴付けを復元し、オーディトリーシーンアナリシスに基づいて前記オーディオ信号の埋め込まれた特徴付けが導き出されたのと同じ方法で、前記オーディオ信号から前記オーディオ信号の縮減された情報による特徴付けを導き出すステップと、
他方の特徴付けに対する１方の特徴付けの時間補正を計算するステップと、
前記時間補正に応答して、前記オーディオ信号を同期化又はほぼ同期化させるために、前記オーディオ信号の一方を他方に対して時間移動させるか又は両方を時間移動させるステップと、
を具備することを特徴とする、１つのオーディオ信号と他の１つの信号との時間調整方法。
前記他の信号がビデオ信号であることを特徴とする、請求項４に記載の方法。
時間補正の計算には前記特徴付けの相互相関計算を含むことを特徴とする、請求項１に記載の方法。
時間補正の計算には前記特徴付けの相互相関計算を含むことを特徴とする、請求項４に記載の方法。
前記縮減された情報による特徴付けは、前記オーディトリーイベントの各々の優勢な周波数サブ帯域をも表現することを特徴とする、請求項１乃至請求項７のいずれか１項に記載の方法。
オーディオ信号と他の１つのオーディオ信号の時間調整方法であって、これらの信号は、保存又は伝達時に時間補正の対象となり、
前記オーディオ信号と前記他の１つのオーディオ信号とが時間補正の対象となる前に、前記オーディオ信号の第１の縮減された情報による特徴付けを導き出し、前記第１の特徴付けを前記他の１つのオーディオ信号に埋め込むステップであって、
前記第１の特徴付けは、少なくとも、前記オーディオ信号を、各オーディトリーイベントが別のものと識別されるようなオーディトリーイベントに分割した結果できたオーディトリーイベントの境界を表現し、
前記オーディオ信号は、
該オーディオ信号における時間に関する信号特性の変化を検出し、
時間に関する信号特性の閾値を越える変化が境界を定義し、各オーディトリーイベントは、隣り合う境界で挟まれたオーディオ部分であり、このような隣り合う境界で挟まれた部分には１つだけオーディトリーイベントが存在し、各境界は、連続するオーディトリーイベントが得られるように、先行するオーディトリーイベントの終端となり後続するオーディトリーイベントの先端となっており、どのオーディトリーイベントの境界も、オーディトリーイベントも、オーディトリーイベントの特性も、連続するオーディトリーイベントの境界を特定して該連続するオーディトリーイベントを取得する前には知られていない状況で、前記オーディオ信号における連続するオーディトリーイベントの境界を特定することにより、
オーディトリーイベントに分割されることを特徴とする、該第１の特徴付けを前記他の１つのオーディオ信号に埋め込むステップと、
前記オーディオ信号と前記他の１つのオーディオ信号とが時間補正の対象となった後に、前記他のオーディオ信号から埋め込まれた前記オーディオ信号の第１の特徴付けを復元し、オーディトリーシーンアナリシスに基づいて前記オーディオ信号の第１の特徴付けが導き出されたのと同じ方法で、前記オーディオ信号から前記オーディオ信号の縮減された情報による第２の特徴付けを復元するステップであって、前記第１の特徴付けと前記第２の特徴付けは、その元となるオーディオ信号より少ない情報により成り立つようにすることを特徴とする、ステップと、
前記第２の特徴付けに対する前記第１の特徴付けとの時間差を調整するステップと、
前記時間補正値に応答して、前記オーディオ信号を同期化又はほぼ同期化させるために、前記オーディオ信号の一方を他方に対して時間移動させるか又は両方を時間移動させるステップと、
を具備することを特徴とする、オーディオ信号と他の１つのオーディオ信号の時間調整方法。
オーディオ信号と他のオーディオ信号の時間調整方法であって、これらの信号は、第１の縮減された情報による特徴付けが前記オーディオ信号から導き出され前記他のオーディオ信号に埋め込まれた後に、保存又は伝達時に時間補正の対象となっていたものであり、前記特徴付けは、少なくとも、前記オーディオ信号を、各オーディトリーイベントが別のものと識別されるようなオーディトリーイベントに分割した結果できたオーディトリーイベントの境界を表現し、
前記オーディオ信号は、
該オーディオ信号における時間に関する信号特性の変化を検出し、
時間に関する信号特性の閾値を越える変化が境界を定義し、各オーディトリーイベントは、隣り合う境界で挟まれたオーディオ部分であり、このような隣り合う境界で挟まれた部分には１つだけオーディトリーイベントが存在し、各境界は、連続するオーディトリーイベントが得られるように、先行するオーディトリーイベントの終端となり後続するオーディトリーイベントの先端となっており、どのオーディトリーイベントの境界も、オーディトリーイベントも、オーディトリーイベントの特性も、連続するオーディトリーイベントの境界を特定して該連続するオーディトリーイベントを取得する前には知られていない状況で、前記オーディオ信号における連続するオーディトリーイベントの境界を特定することにより、
オーディトリーイベントに分割されることを特徴とし、
前記時間調整方法は、
前記他のオーディオ信号から埋め込まれた前記オーディオ信号の第１の特徴付けを復元し、オーディトリーシーンアナリシスに基づいて前記オーディオ信号の第１の特徴付けが導き出されたのと同じ方法で、前記オーディオ信号から前記オーディオ信号の縮減された情報による第２の特徴付けを導き出すステップであって、前記第１の特徴付けと前記第２の特徴付けは、その元となるオーディオ信号より少ない情報により成り立つようにすることを特徴とするステップと、
前記第２の特徴付けに対する前記第１の特徴付けのむだ時間補正値を計算するステップと、
前記時間補正値に応答して、前記オーディオ信号を同期化又はほぼ同期化させるために、前記オーディオ信号の一方を他方に対して時間移動させるか又は両方を時間移動させるステップと、
を具備することを特徴とするオーディオ信号と他のオーディオ信号の時間調整方法。
前記他の信号がビデオ信号であることを特徴とする、請求項９又は請求項１０に記載の方法。
時間補正の計算には前記特徴付けの相互相関計算を含むことを特徴とする、請求項９又は請求項１０に記載の方法。
前記縮減された情報による特徴付けは、前記オーディトリーイベントの各々の優勢な周波数サブ帯域をも表現することを特徴とする、請求項９又は請求項１０に記載の方法。