JP2004528599A

JP2004528599A - オーディトリーイベントに基づく特徴付けを使ったオーディオの比較

Info

Publication number: JP2004528599A
Application number: JP2003500891A
Authority: JP
Inventors: クロケット、ブレット・ジー; スミザズ、マイケル・ジェイ
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2001-05-25
Filing date: 2002-02-22
Publication date: 2004-09-16
Anticipated expiration: 2022-02-22
Also published as: MXPA03010749A; CA2447911C; CA2448178A1; CA2448182C; WO2002097792A1; EP1519363B1; CN1524258A; WO2002097790A1; EP1393300B1; CN1524258B; CA2448182A1; EP1393300A1; CA2448178C; EP1393298A1; AU2002252143B2; AU2002242265B8; WO2002097790A8; AU2002242265B2; EP1519363A1; CA2447911A1

Abstract

ひとつのオーディオ信号がもうひとつ別のオーディオ信号から生成されたものか、２つのオーディオ信号は同じオーディオ信号から生成されたものかを決定するための方法で、前記オーディオ信号の縮減された情報による特徴付け同士の比較を行い、前記特徴付けはオーディトリーシーンアナリシスに基づく。この比較において、オーディオ信号における時間差又は時間遅れの影響を、当該特徴付けから削除し又は当該特徴付けにおいて最小化し（５−１）、類似の程度を計算し（５−２）、類似の程度を閾値と比較する。１つの代案では、２つの特徴付けの相互相関により時間差又は時間遅れの影響を削除し又は最小化する。他の代案では、周波数領域のような時間遅れの影響とは無関係な領域に当該特徴付けを変換することにより、時間差又は時間遅れの影響を削除し又は最小化する。両方の場合は共に、類似の程度を相関係数を計算することにより計算する。

Description

【技術分野】
【０００１】
本発明は、オーディオ信号に関する。とりわけ、本発明は、オーディオ信号の特徴づけと、特徴付けを使って、ひとつのオーディオ信号がもうひとつ別のオーディオ信号から生成されたものか、２つのオーディオ信号は同じオーディオ信号から生成されたものかを決定することに関する。
【背景技術】
【０００２】
サウンドを別の音として感じる単位に分割することは、「オーディトリーイベントアナリシス」又は「オーディトリーシーンアナリシス」（「ＡＳＡ」）と呼ばれることもある。オーディトリーシーンアナリシスの幅広い議論は、Albert S. Bregmanの「Auditory Scene Analysis - The Perceptual Organization of Sound」マサチューセッツ工科大学、1991年、第４版、2001年、第２MITプレスペーパーバック版に公開されている。加えて、Bhadkamkar他の米国特許6,002,776，1999年12月14日でも、1976年に発行された「prior art work related to sound separation by auditory scene analysis」を引用している。しかし、Bhadkamkar他の特許は、オーディトリーシーンアナリシスの実用的な採用の意欲を失わせるものであり、「オーディトリーシーンアナリシスを必要とする技術は、人間の聴覚処理のモデルという観点から科学的には興味があるものの、現時点ではコンピュータに対する要望が非常に強すぎ、特別なものなので、基本的な処理がなされるまでオーディオ分割の実用的な技術と考えることはできない。」と結論付けている。
【０００３】
Bregmanは文中に「オーディオが音色、高さ、大きさ、又は（小さい範囲で）空間的な位置が突然変化したとき、別々の単位として聞こえる。」（Auditory Scene Analysis - The perceptual Organization of Sound, 469ページ）。Bregmanは、例えば周波数が別々であるとき、たくさんのオーディオが同時に流れたときのオーディオの認知について議論している。
【０００４】
オーディオからの特性や特徴を抽出する多くの異なった方法がある。特徴や特性が適切に定義されているという条件で、これらの抽出は、自動的な処理工程にて実行される。例えば「ISO/IEC JTC1/SC 29/WG 11」（MPEG）は、現時点ではMPEG-7標準の一部としてのさまざまなオーディオ記述子の標準となりつつある。このような方法に共通する欠点は、ＡＳＡを無視していることである。このような方法は、高さ、大きさ、パワー、和音構成、及びスペクトルフラットネスのような古典的な信号処理変数を繰り返し探求するものである。このような変数は、有益な情報をもたらすものではあるが、人間の認知により別のものと知覚される成分に分けて信号を個性化するものではない。
【０００５】
オーディトリーシーンアナリシスは、成分を人間の認知に従って別のものと識別することで、人間の聴覚と似た方法でオーディオ信号を個性化する試みである。このような方法を開発することで、これまで人間の補助を必要としていた仕事を正確に自動的な処理工程で実行することができる。
【０００６】
別のものと認識される成分を特定することで、信号そのもの全てより実質的には少ない情報を用いてオーディオ信号の一意的な識別が可能となる。オーディトリーイベントに基づくコンパクトで一意的な識別は、例えば、もうひとつ別の信号からコピーされた（又は、同じ音源の信号から別の信号としてコピーされた）信号の識別のために採用され得る。
【発明の開示】
【０００７】
オーディオ信号を特定するために用いることができるオーディオ信号の、一意的で縮減された情報による特徴付けを発生させる方法を記載する。特徴付けは、オーディオ信号の「サイン」又は「指紋」と考えることもできる。本発明によれば、オーディトリーシーンアナリシス（ＡＳＡ）は、オーディオ信号の特徴付けの基準として、オーディトリーイベントの特定を実行する。理想的には、オーディトリーシーンアナリシスは、オーディオについて、低ビットレートのコーディングやラウドスピーカーを通じて音響的に伝達されるような処理がなされた後でも、人間のリスナーに認識されると思われるオーディトリーイベントを特定する。オーディオ信号は、オーディトリーイベントの境界域や、代案的に、各オーディトリーイベントの優勢な周波数サブ帯域により特徴付けられる。その結果得られた情報パターンは、他のこのようなオーディオの指紋やサインと比較することができるコンパクトなオーディオの指紋やサインを構成する。少なくとも各サインの部分が（要求に対して確信の持てる程度に）同じである場合の判定は、各サインが生成された、関係するオーディオ信号の部分は、同じものから生成された、又は、同じオーディオ信号から生成されたものであることを示している。
【０００８】
本発明によるオーディトリーシーンアナリシスの方法は、オーディトリーイベント情報に基づくサインを比較することにより、特に音楽についての２つのオーディオ信号を速く正確に比較する方法を提供する。ASAは、オーディオ信号の間の類似性認識におけるそれほど本質的でない（高さ、大きさ、音量、調波構成のような）特徴を抽出する従来の特徴抽出法と比べて、類似性認識における本質的な情報又は特徴を抽出する。ＡＳＡの使用は、低ビットコーディングやラウドスピーカーを通して伝達されるアコースティックのような、かなり処理を施された材料における類似性を見つける機会を向上する。
【０００９】
本発明は、アナログ領域でもディジタル領域でも（又はこの２つの組み合わせでも）原則として実施可能であるが、本発明の実際の実施例では、オーディオ信号はデータのブロックにおけるサンプルとして表現され、ディジタル領域において処理される。
【００１０】
図１Ａを参照すると、オーディトリーシーンアナリシス２は、オーディオ信号に関する「サイン」又は「指紋」を生成するために、そのオーディオ信号に適用される。ここでは、関心のある２つのオーディオ信号が対象である。これらは、一方は他方から得られたものであるか、又は両方とも前もって同じ音源から得られたものである場合は類似するだろうが、このことはあらかじめ分かってはいない。したがって、オーディトリーシーンアナリシスは両方の信号に適用される。簡単のために図１ＡではＡＳＡを１つの信号にのみ適用した場合を示す。図１Ｂに示すように、２つの信号に対するサインであるサイン1とサイン２は、相関値を発生する相関又は相関関数４に適用される。ユーザーは、確信の持てる程度についての要求事項として、２つのサインが同じである部分の最低限度である、最低相関値を設定することができる。実際には、２つのサインはデータとして記憶される。１つの実際的な応用例では、サインの１つは、例えば、音楽的な作品の公認されていないコピーから生成されたもので、もう１つのサインは、公認されていないコピーのサインが、要求された程度に確信が持てるまで一致する、データベースにある（各サインが著作権者の音楽作品から生成された）たくさんのサインのうちの、１つである。このことは、機械により自動的に実施されてもよいが、このような機械の詳細は本発明の範囲外である。
【００１１】
このサインは、オーディオ信号を表現するが、実質的には、生成されたオーディオ信号より短いので（すなわち、さらにコンパクトであるか又はビット数が少ないので）、２つの信号の類似性（又は非類似性）はオーディオ信号同士の類似性から決定するのに比べてはるかに早く決定することができる。
【００１２】
図１Ａおよび１Ｂの詳細は、さらに以下に述べる。
【００１３】
本発明の特徴によれば、オーディオを別のものと認識される時間的区分、又は「オーディトリーイベント」に分割するための、コンピュータによる効率的な処理が提供される。
【００１４】
認識されたオーディトリーイベントの始まり又は終わりの有力な指標は、スペクトル内容の変化の中にあると考えられる。音色と高さの変化と、付随的な結果としての大きさの変化を検出するために、本発明の特徴によるオーディオイベント検出処理は、時間に関するスペクトル内容の変化を検出する。代案的に、本発明の更なる特徴によれば、時間に関するスペクトル内容の変化の検出では検出されない時間に関する振幅の変化も検出することとしてもよい。
【００１５】
最低限コンピュータに要求される実施において、処理は、オーディオ信号の全周波数帯域（全帯域幅オーディオ）、又は、実質的に全周波数帯域（実際の実施例では、帯域制限フィルターがスペクトルの両端に適用される）を分析してオーディオを時間区分に分割し、もっとも音の大きいオーディオ信号成分に最大の重み付けを与える。このやり方は、小さな時間スケール（２０msec以下）では耳は与えられた時間における単一のオーディトリーイベントに関心を集中させる傾向にあるという、サイコアコースティックな現象の利点を生かしている。このことは、多数のイベントが同時に起こったとしても、１つの成分がもっとも顕著な成分として認識される傾向にあり、単一のイベントが起こったかのように各々処理されることを示している。この効果の利点を生かして、処理されるオーディオの複雑さに対応してオーディトリーイベントの検出もまた可能とする。例えば、もし入力オーディオ信号が単一の楽器で演奏されていたならば、特定されるオーディオイベントは、おそらく単一の調子で演奏されたものとなるだろう。入力音声信号も同様に、発話の各成分、例えば母音と子音は、おそらく単一のオーディオ成分として特定されるだろう。ドラムビートや多数の楽器と音声による音楽のように、オーディオの複雑性が増大したとき、オーディトリーイベントは、その時々の最も顕著な（すなわち、音の大きい）オーディオ成分を特定する。代わりに、この「最も顕著な」オーディオ成分は、聴覚閾値や周波数応答を考慮に入れて決めてもよい。
【００１６】
状況に応じて、本発明のさらなる特徴に従い、コンピュータが非常に複雑になるが、処理において、全帯域幅より、離散的な周波数帯域（固定又は動的に決定された又は固定と動的な決定の両方の帯域）における時間に関してスペクトル構成の変化を考慮に入れてもよい。この代案的な方法は、特定の時間で単一の信号の流れだけが認識されるとみなすよりむしろ、異なる周波数帯域の１つ以上のオーディオの流れを考慮に入れるものである。
【００１７】
オーディオを区分するための本発明の特徴に従った、コンピュータを使った効率的で単純な方法ではあるが、この方法はオーディトリーイベントを特定するのに有益であることが分かった。
【００１８】
本発明によるオーディトリーイベントの検出方法を、オーディオ波形の時間領域を時間間隔又はブロックに分割することにより実行してもよく、分割の後、離散フーリエ変換（ＤＦＴ）（スピードを加速するため高速フーリエ変換（ＦＦＴ）として実行される）のような、フィルターバンク又は時間−周波数変換を用いて、各ブロックのデータを周波数領域に変換する。各ブロックのスペクトル内容の振幅は、振幅の変化による影響を削除又は縮減するために正規化しておくことができる。結果として現れる周波数領域は、特定のブロックにおけるオーディオのスペクトル内容（周波数の関数としての振幅）の表示を提供する。連続するブロックにおけるスペクトル内容は、比較され、閾値より大きな変化は、オーディトリーイベントの時間的開始点又は時間的終点を表示するとみなすことができる。
【００１９】
コンピュータの複雑化を最低限に抑えるために、好ましくは全周波数帯域のスペクトラム（平均的な質のミュージックシステムでは５０Ｈｚから１５ｋHzまでとなるだろう）又は、実質的に全周波数帯域（例えば、非常に低周波や高周波の部分を除外するフィルターにより定義される帯域）について、時間領域におけるオーディオ波形のただ１つの周波数帯域を処理してもよい。
【００２０】
以下に述べるように周波数領域におけるデータは正規化されることが好ましい。周波数領域のデータが正規化されるために必要とする程度により、振幅の表示が与えられる。従って、もし、この程度を変化させたとき、あらかじめ定められた閾値を超えると、イベントの境界とみなされる部分が多くなりすぎてしまう。スペクトルの変化により決められたイベントの開始点と終点と振幅の変化により決められたものとは、ＯＲ条件により結合し、両方のタイプの変化から得られたイベントの境界を特定してもよい。
【００２１】
実際の実施例では、サンプル値により表現されるオーディオはブロックに分けられ、各オーディトリーイベントの時間的開始点及び時間的終点の境界は、時間領域におけるオーディオ波形が分割されるブロックの境界と一致する必要がある。実時間処理からの要求（ブロックを大きくすれば処理負荷は低くなる）とイベント位置の分解能（ブロックが小さいほうが、オーディトリーイベントの位置に関する詳細な情報が得られる）との間には二律背反の関係がある。
【００２２】
さらなる選択として、前に示唆したように、コンピュータによる処理が複雑となってしまうが、時間領域における単一の周波数帯域における波形のスペクトル内容に対して処理を行う代わりに、時間領域の波形のスペクトルを周波数領域に変換する前に、２以上の周波数帯域に分割してもよい。周波数帯域の各々について周波数領域に変換し、そしてそれが独立のチャンネルであるかのように処理することができる。そして、得られたイベントの境界は、ＯＲ条件で結合し、そのチャンネルにおけるイベントの境界を定義することができる。多数の周波数帯域は、固定しても、状況に応じて変更することとしても、あるいは固定と状況に応じての変更とを組み合わせてもよい。例えば、オーディオノイズ低減その他の技術に用いられるトラッキングフィルター技術を、状況に応じて周波数帯域を決めるため（例えば、８００Ｈｚと２ｋＨｚにおける同時的な主正弦波を、この２つの周波数を中心にした、状況適応的な帯域とする）に採用してもよい。
【００２３】
オーディトリーシーンアナリシスをもたらす他の技術を、本発明におけるオーディトリーイベントを特定するために採用してもよい。
【発明を実施するための最良の形態】
【００２４】
本発明の実用的な実施例では、４４．１ｋＨｚのサンプリングレートの入力オーディオにおいて約１１．６msecに相当する、５１２個のサンプルからなるブロック内で処理されるサンプルにより、オーディオ信号が表現される。最短の認識可能なオーディトリーイベント（約２０msec）より短い継続時間のブロック長さが望ましい。本発明の特徴は、このような実用的な実施例に限定されないことは了解されている。本発明は本質的に、オーディトリーイベントに先立ってオーディオをサンプルブロックに編成したり、一定長さのブロックを提供したりすることを必要としない。しかし、複雑性を最低限にするために、５１２個のサンプル（又は他の２の累乗個のサンプル）からなる固定長さのブロックが、３つの主な理由により有効である。第１に、実時間処理のアプリケーションにとって受け入れ可能な、十分短い待ち時間を提供するからである。第２に、フーリエ変換（ＦＦＴ）分析に有効な２の累乗個のサンプルだからである。第３に、役に立つオーディトリーシーンアナリシスを実施するために適当な大きさの窓サイズを提供するからである。
【００２５】
以下の議論で、この入力信号は、〔−１，１〕の範囲の振幅を持つデータであると仮定する。
【００２６】
〈オーディトリーシーンアナリシス（図１Ａ）〉
入力データのブロック化に引き続き（図示せず）、入力信号はオーディトリーイベントに分割され、各々は、図１Ａの処理２（「オーディトリーシーンアナリシス」）において別のものと認識される傾向にある。オーディトリーシーンアナリシスは、前述のオーディトリーシーンアナリシス（ＡＳＡ）処理により実行される。しかし、オーディトリーシーンアナリシスを実施するのに適当な１つの方法が、以下に詳細に述べられる。本発明は、ＡＳＡを実行するための他の有効な技術を採用してもよい。
【００２７】
図２は、図１Ａのオーディトリーシーンアナリシス処理として用いられる本発明の技術に従った処理の概要を示す。ＡＳＡステップ又はプロセスは３つの概略サブステップからなる。最初のサブステップ２−１（「スペクトル分析の実行」）は、オーディオ信号を取り上げ、それをブロックに分割し、ブロックのそれぞれについてスペクトルプロファイル又はスペクトル内容を計算する。スペクトル分析により、オーディオ信号を短時間の周波数領域内に変換する。これは、変換又は帯域パスフィルターの列のどちらかを基礎として、（人間の耳の特性によく近似させた、バークスケールやクリティカルバンドのような）直線的又は曲線的周波数空間のどちらかにおいて、フィルターバンクを用いて実行される。どんなフィルターバンクであっても、時間と周波数との間には二律背反関係が存在する。時間分解能を大きくし、従って時間間隔を短くすれば、周波数分解能が低くなる。周波数分解能を大きくし、従ってサブ帯域を小さくすれば、時間間隔が長くなる。
【００２８】
第１のサブステップ２−１では、連続するオーディオ信号の時間区分におけるスペクトル内容の計算を行う。実用的な実施例では、以下に述べるように、ＡＳＡブロックサイズは５１２個のサンプルの入力オーディオ信号である（図３）。第２のサブステップ２−２では、ブロックとブロックとの間のスペクトル内容の違いを決定する（「スペクトルプロファイルの差異の計測」）。このように、第２のサブステップは、連続するオーディオ信号の時間区分同士のスペクトル内容の違いを計算する。第３のサブステップ２−３（「オーディトリーイベントの境界位置の特定」）では、あるスペクトラルプロファイルのブロックと次のスペクトラルプロファイルのブロックとの差が閾値より大きいとき、そのブロックの境界はオーディトリーイベントの境界と見なす。このようにして、連続する時間区分間でスペクトラルプロファイルの内容同士の差が閾値を超えたとき、第３のサブステップは、この連続する時間区分間にオーディトリーイベントの境界を設定する。上記で論じた通り、認識されたオーディトリーイベントの開始点又は終点の強力な指標はスペクトル内容の変更点であると考えられる。イベント境界の位置はサインとして保存される。随意的な処理ステップ２−４（「優勢なサブ帯域の特定」）では、スペクトル分析を用い、これもまたサインの一部として保存される優勢な周波数のサブ帯域を特定する。
【００２９】
この実施例では、オーディトリーイベントの境界は最低限のスペクトラルプロファイルブロック長さ（この例では５１２個のサンプル）を持ったスペクトラルプロファイルのブロックの整数倍の長さを持ったオーディトリーイベントとして定義する。原則的には、イベント境界をそのように限定する必要はない。
【００３０】
オーディオ区分の重複する部分又は重複しない部分のいずれか一方は、窓化され入力オーディオのスペクトラルプロファイルを計算するために用いられる。重複によりオーディトリーイベントの位置の細かい分解能が得られ、また、トランジエントのようなイベントを見逃すことが少なくなると思われる。しかし、時間分解能があがるにつれて、周波数分解能は下がる。また重複により、コンピューターの複雑性は増大する。図３は、窓化され離散フーリエ変換（ＤＦＴ）により周波数領域に変換された、重複のない５１２個のサンプルブロックを概念的に表したものである。各ブロックは窓化され、例えばＤＦＴ、好ましくは速度を上げるため高速フーリエ変換（ＦＦＴ）を用いて周波数領域に変換される。
【００３１】
以下の変数を入力ブロックのスペクトルプロファイルの計算に使うことができる。
N ＝入力信号のサンプル数
M ＝スペクトルプロファイルの計算に使われる窓内のサンプル数
P ＝スペクトル計算の重複サンプル数
Q ＝計算されたスペクトル窓／領域数
原則として、どんな整数を上記変数として使ってもよい。しかし、スペクトルプロファイルの計算に標準的なFFTを使うことができるように、Mは２の累乗にしておけば、計算はもっと効率的になる。オーディトリーシーンアナリシス処理における実際の実施例では、上掲の変数は以下のように定められる。
M ＝５１２サンプル（又は、４４．１ｋＨｚで１１．６msec）
P ＝０サンプル
上掲の変数は実験により求められたもので、おおむね、オーディトリーイベントの位置と継続時間について十分な精度を満たすとみなされることが分かった。しかし、Ｐの値を２５６サンプル（５０％重複）にすることは、見つけにくいイベントを特定するのに有益であることが分かっている。窓関数に起因するスペクトラルアーティファクトを最小限にするために多くの異なるタイプの窓関数が使われるが、スペクトラルプロファイルの計算に使われる窓関数は、Ｍポイント・ハニング、カイザー・ベッセルその他の適当なもので、非方形の窓関数が望ましい。広範囲にわたる試験の結果、広い範囲のオーディオ素材にわたって優れた成果をあげたことから、上記値とハニング窓を選択した。非方形の窓は、低周波の内容が優勢なオーディオ信号の処理に望ましい。方形窓は、イベントの不適切な検出の原因になるスペクトルアーティファクトを作る。全体として重複／付加する処理を、制限を一定レベルで設けるようなコーディックでないアプリケーションは、ここでは適用されず、窓は時間／周波数分解能やストップバンドの排除のような特徴により選ぶことができる。
【００３２】
サブステップ２−１（図２）で、Ｍ個のサンプルのブロックは、Ｍポイント・ハニング、カイザー・ベッセルその他の適当な窓関数にてデータが窓化されて計算することができ、Ｍ・ポイント高速フーリエ変換を用いて周波数領域に変換され、ＦＦＴ係数の振幅が計算される。結果出てきたデータは、最大振幅を単位と定めるように正規化され、正規化されたＭ個の数値は対数領域に変換される。これらの数値群は対数領域に変換する必要はないが、変換することはサブステップ２−２での差異の大きさの計算を簡単にする。さらに、対数領域は人間の聴覚システムの対数領域での特性と親密な整合性がある。対数領域における値はマイナス無限大からゼロまでである。実際の実施例では、最小リミット値がこのレンジに重ねあわされる。すなわち、リミット値を例えば−６０ｄＢに固定、あるいは、高周波数では小さい静かな音の可聴性が低いことを反映して、周波数に依存した値にすることができる。（正の周波数と同様に負も示すＦＦＴにおいて、数値群をＭ／２個のサイズに減らすことも可能なことに注意すべきである）。
【００３３】
サブステップ２−２では、隣り合うサブブロックのスペクトルの間の差異の大きさの計算を行う。各ロックについて、サブステップ２−１からのＭ（対数）個のスペクトル係数の各々を先行するサブブロックの対応する係数から減算し、その差異の大きさを計算する（符号は無視する）。これらのＭ個の差異は加算されひとつの数となる。すべてのオーディオ信号に対して、結果はＱ個の正数群となり、数値が大きければ大きいほど、サブブロックのスペクトルが、先のサブブロックとは異なっている。差異の大きさの計算値は、和の計算で用いたスペクトル係数の数で、この差異の計算値を割ることによりスペクトル係数ごとの平均差異を示させることも可能である（この場合はＭ個の係数）。
【００３４】
サブステップ２−３では、サブステップ２−２で計算した差異の数値群に閾値を適用することでオーディトリーイベントの境界の位置を定義する。差異が閾値を上回っていると判断したとき、スペクトルの変化は新しいイベントの信号を送るのに十分だと判断され、ブロック数の変化はイベントの境界として記録される。上記で与えられたＭ及びＰと（サブステップ２−１の）ｄＢ単位で表した対数領域での値に対して、閾値は、ＦＦＴ強度全体と比較する場合（鏡像部分も含む）は、２５００に設定され、ＦＦＴ強度の半分と比較される場合（先に注記したように、ＦＦＴは正の周波数と同様に負も示す。従って、ＦＦＴの強度については、一方は他方の鏡像となる）は、１２５０に設定される。この値は、試験的に選ばれたものであり、好適なオーディトリーイベントの検出をもたらす。この変数値はイベントの検出を減らしたり（閾値を増大する）、増やしたり（閾値を減少する）することために変更が可能である。この現実的な実施例の詳細は必須条件ではない。連続する時間区分間の相違を計算し、このような連続する時間区分間でのスペクトルプロファイルの内容の相違が閾値を超えたとき、連続する時間区分間の各々の境界にオーディトリーイベントの境界を設定するような、連続するオーディオ信号の時間区分のスペクトルの内容を計算する他の方法を適用してもよい。
【００３５】
（大きさがＭ個のサンプルで）Ｑ個のブロックから構成されるオーディオ信号に対する、図１Ａの２の機能であるオーディトリーシーンアナリシス処理の出力は、ｑ＝０，１，．．．，Ｑ−１からなるオーディトリーイベントの境界の位置を示す情報の配列Ｂ（ｑ）となる。ブロックサイズＭ＝５１２サンプル、重複がＰ＝０サンプルそして、信号サンプリングレートが４４．１ｋＨｚに対して、オーディトリーシーンアナリシス処理２は、１秒間に約８６の値を出力する。配列Ｂ（ｑ）は、基本的な形では優勢なサブ帯域情報を任意に付加しないで、オーディオ信号のサインがオーディトリーイベントの境界の列を代表する配列Ｂ（ｑ）となるように、サインとして保存される。
【００３６】
２つの違った信号に対するオーディトリーシーンアナリシスの結果の一例を図４Ａと４Ｂに示す。上図、図４Ａは、オーディトリーイベントの境界がサンプル１０２４個目と１５３６個目のところに特定されたオーディトリーシーン処理の結果を示している。下図、４Ｂは、イベントの境界がサンプル１０２４個目、２０４８個目および３０７２個目のところに特定されたものを示している。
【００３７】
〈優勢なサブ帯域の特定（任意的）〉
各ブロックに対し、ＡＳＡ処理（図２に示す）において任意に付加されたステップはブロック（各ブロックにおけるデータの周波数領域への変換は、周波数サブ帯域に分割された情報をもたらす）の優勢な「サブ帯域」であることを示すオーディオ信号から情報を引き出す。このブロック毎の情報はオーディトリーイベント毎の情報に変換され、優勢な周波数のサブ帯域が各オーディトリーイベントにおいて特定される。各オーディトリーイベントに対するこの情報は、オーディトリーイベントの境界に加えて他の情報とともに（以下に説明する）相関処理を提供する。
【００３８】
優勢な（最も振幅の大きい）サブ帯域は、人間の耳がもっとも感度の高い周波数帯域又は範囲内の、例えば３又は４の複数のサブ帯域から選ぶことができる。代案的に、他の条件をサブ帯域の選定に使ってもよい。スペクトルは例えば３つのサブ帯域に分割される。好ましいサブ帯域の周波数範囲は、
サブ帯域１３０１Ｈｚから５６０Ｈｚ
サブ帯域２５６０Ｈｚから１９３８Ｈｚ
サブ帯域３１９３８Ｈｚから９９４８Ｈｚ
である。
【００３９】
優勢なサブ帯域を決定するために、スペクトル振幅の自乗（又はスペクトルのパワーマグニチュード）が各サブ帯域において加算される。このサブ帯域毎の加算結果が算出されてもっとも大きなものが選ばれる。重み付けは、各サブ帯域での合計をそのサブ帯域のスペクトル値の数で割るという形式を取る。あるいは、その代わり、他より重要な帯域を強調するために、付加又は乗算するような形をとってもよい。これは、あるサブ帯域が他のサブ帯域より平均的にはエネルギーを持っているが、聴覚的には重要ではない場合に有効である。
【００４０】
Ｑ個のブロックからなるオーディオ信号を考える、優勢なサブ帯域処理の出力は、各ブロック（ｑ＝０，１，．．．，Ｑ−１）の優勢なサブ帯域を表す情報の配列ＤＳ（ｑ）となる。配列ＤＳ（ｑ）は、配列Ｂ（ｑ）と共にサインの中に保存されることが好ましい。このようにして、任意的な優勢なサブ帯域の情報と共に、オーディオ信号のサインは、各々オーディトリーイベントの境界の列と各ブロック内の優勢な周波数サブ帯域の列を表す配列Ｂ（ｑ）と配列ＤＳ（ｑ）の２つとなる。このように、理想的な例では、２つの配列は（３つの優勢なサブ帯域があるケースでは）以下のような値となる。
【００４１】
１０１０００１００１０００００１０（イベント境界）
１１２２２２１１１３３３３３３１１（優勢なサブ帯域）
ほとんどの場合、優勢なサブ帯域は、この例に示すように、各オーディトリーイベント内において同じとなるか、又は、イベント内のすべてのブロックが一様でない場合は、平均値となる。このように、優勢なサブ帯域は、各オーディトリーイベント内で決定され、配列ＤＳ（ｑ）は、同じ優勢なサブ帯域がイベント内の各ブロックに割り当てられるように修正され得る。
【００４２】
〈相関〉
あるサインが他の保存されたサインと同じなのか似ているのかの決定は、相関関係又は相関処理により実行される。相関関数又は相関処理は２つのサインを比較してその類似性を決定する。これは、図５に示したように２ステップで行ってもよい。ステップ５−１で、サインの遅れ又は時間的なずれの影響を最低限にし、ステップ５−２で、サイン同士の類似の程度を計算する。
【００４３】
最初に説明したステップ５−１では、２つのサイン間での遅れの影響を最低限にする。このような遅れはオーディオ信号に慎重に付け加えられたものかもしれないし、信号処理又は／及び低ビットレートのオーディオコーディングの結果による可能性もある。この処理による出力は、類似性の程度を計算するのに適当な形に修正した２つのサインとなる。
【００４４】
次に説明したステップ５−２では、類似性の程度を量的に見つけるために２つの修正されたサインを比較する。この類似性の程度は、サインが要求レベルと同じか違うかを決定するための閾値と比較される。２つの適切な相関処理と関数が記載される。それらのどちらか一方、又は他の適当な相関処理又は関数が本発明の一部として適用される。
【００４５】
〈第１の相関処理又は関数〉
〈時間遅延の影響の除去〉
この相関関数又は処理は、２つの領域が各サイン中でもっともよく似た部分であり同じ長さを持つような各サインから、１つの領域又は部分を分離する。図６Ａ−Ｄに例示したように、分離された領域は２つのサインの間における完全に重複する部分又は、重複する領域より小さい部分でありえる。
【００４６】
好ましいのは、２つのサインから完全に重複する部分を用いる方法である。いくつかの例が図６に示されている。２つのサインが重複する領域は、１つのサインの終点からと他のサインの開始点からの部分となる（図６Ｂ及び６Ｃ）。もしサインが他のサインより小さければ、２つのサインの重複する領域は、小さなサインの全部と大きなサインの一部となる（図６Ａ及び６Ｄ）。
【００４７】
２つのデータ配列から共通の領域を分離する多くの方法がある。標準の数学的技法は、データ配列から時間差や遅れの程度を見つけるのに相互相関を用いる必要がある。２つのデータにおける各配列の開始点が揃っていれば、時間差や遅れはゼロであるといえる。２つのデータにおける各配列の開始点が揃っていなければ、時間差や遅れはゼロではない。相互相関は、２つのデータ配列間の時間差や遅れの程度を計算し、この程度は１つの配列（相互相関関数の出力）として保存される。相互相関の列におけるピーク値を表す時間差や遅れは、他方のデータ配列に対する一方のデータ配列の時間差や遅れと考えられる。以下の段落は数学的な形でこのような相関方法を表現する。
【００４８】
Ｓ_１（長さＮ_１）をサイン１からの１つの配列とし、Ｓ_２（長さＮ_２）をサイン２からの１つの配列とする。最初に配列Ｒ_Ｅ１Ｅ２の相関を計算する（例えば John G. Proakis, Dimitris G. Manolakis,Digital Signal Processing: Principles, Algorithms, and Applications, Macmillan Publishing Company, 1992, ISBN 0-02-396815-X参照）。
【数１】

【００４９】
相互相関は、実行時間短縮のため標準的なＦＦＴに基づく技術を用いて計算することが好ましい。Ｓ_１とＳ_２は両方とも結び付けられるので、Ｒ_Ｅ１Ｅ２はＮ_１＋Ｎ_２−１の長さを持つ。Ｓ_１とＳ_２は似ていると想定して、Ｒ_Ｅ１Ｅ２における最大成分に対応する遅れｌは、Ｓ_１に対する遅れＳ_２を表す。
【数２】

【００５０】
この時間差は遅れを表すので、サインＳ_１とＳ_２との共通の空間的な領域又は空間的に重複する部分をＳ_１´とＳ_２´として保持し、各々同じ長さＮ_１２を持つ。
【００５１】
方程式で表されるように、サインＳ_１とＳ_２の重複する部分Ｓ_１´とＳ_２´は以下のように定義される。
【数３】

【００５２】
長さＳ_１´とＳ_２´は、
【数４】

【００５３】
〈第１の相関処理又は関数〉
〈類似の程度〉
このステップでは、２つのサインにおける量的な類似の程度を見つけるために２つのサインを比較する。これには、相関係数を用いる方法が望ましい（式５）。これは標準的な教科書にある方法である（William Mendenhall, Dennis D. Wackerly, Richard L. Sheaffer,Mathematical Statistics with Applications: Fourth Edition, Duxbury Press, 1990, ISBN 0-534-92026-8）。
【数５】

ここでσ_１とσ_２とは各々Ｓ_１´とＳ_２´の標準偏差である。
【００５４】
Ｓ_１´とＳ_２´の共分散は以下で定義される
【数６】

ここで、μ_１とμ_２は各々のＳ_１´とＳ_２´平均値である。
【００５５】
相関係数ρは、−１≦ρ≦１の範囲にあり、ここで−１と１は完全な相関関係を意味する。好ましくは、正しく一致していることを示すために、閾値をこの値の絶対値に適用するのがよい。
【数７】

【００５６】
実際には、排除と検出の誤りを許容できる程度にするために、（多くのサインのトレーニングセットにより）閾値が調整される。
【００５７】
最初の相関処理又は関数は、大きな不均衡又は遅れがあるサイン、及び一方のサインが他方のサインに比べて長さが著しく短いサインに適用するのが好ましい。
【００５８】
〈第２の相関処理又は関数〉
〈時間遅延の影響の除去〉
第２の相関処理又は関数は、サインを、現状の時間領域から、時間遅れの影響とは無関係な領域に変換する。この方法は結果的に、直接相関処理又は比較ができるような、同じ長さの２つの修正されたサインを、もたらす。
【００５９】
このような変換の方法はたくさんある。好ましいのは離散フーリエ変換（ＤＦＴ）である。信号のＤＦＴは振幅と位相に分割することができる。（ＤＦＴへの入力）信号の空間的な移動又は時間的な遅れはＤＦＴの位相を変化させるが振幅は変化させない。このように、信号のＤＦＴの振幅は信号の時間的不変量と考えられる。
【００６０】
ＤＦＴのこの特性により、２つのサインの各々を時間的不変量に変換することができる。もし両方のサインが同じ長さなら、ＤＦＴの振幅はサイン毎に直接ＤＦＴの振幅を計算することができ、その結果は修正されたサインとして保存される。もしサインの各々の長さが異なる場合は、ＤＦＴ計算の前に、長いほうのサインが短いほうのサインの長さと同じになるよう端を切り捨てるか、又は、長いほうのサインと同じ長さになるよう短いほうのサインにゼロを加え或いは拡張がなされる。以下の段落は数学的な形式でこの方法を表現するものである。
【００６１】
Ｓ_１（長さＮ_１）をサイン１からの１つの配列とし、Ｓ_２（長さＮ_２）をサイン２からの１つの配列とする。最初に長いほうのサインの端を切り捨てるか、又は、短いほうのサインにゼロを加え、両方のサインを同じ長さＮ_２にする。変換されたサインＳ_１´とＳ_２´は、以下のとおり、振幅にＤＦＴを施すことにより生成される。
【数８】

【００６２】
実際には、ＤＦＴの計算の前に各サインがその平均値を減算しておくことは有益である。離散的フーリエ変換を行う前にサインＳ１´とＳ２´に窓関数を適用してもよいが、実際には、最適な結果を生む窓関数は何も見つかっていない。
【００６３】
〈第２の相関処理又は関数〉
〈類似の程度〉
この類似の程度を計測するステップでは、２つのサインにおける量的な類似の程度を見つけるために２つのサインを比較する。これには、相関係数を用いる方法が望ましい（式９）。これは標準的な教科書にある方法である（William Mendenhall, Dennis D. Wackerly, Richard L. Sheaffer,Mathematical Statistics with Applications: Fourth Edition, Duxbury Press, 1990, ISBN 0-534-92026-8）。
【数９】

ここでσ_１とσ_２とは各々Ｓ_１´とＳ_２´の標準偏差である。
【００６４】
Ｓ_１´とＳ_２´の共分散は以下で定義される
【数１０】

ここで、μ_１とμ_２は各々のＳ_１´とＳ_２´平均値である。
【００６５】
相関係数ρは、−１≦ρ≦１の範囲にあり、ここで−１と１は完全な相関関係を意味する。好ましくは、正しく一致していることを示すために、閾値をこの値の絶対値に適用するのがよい。
【数１１】

【００６６】
実際には、排除と検出の誤りを許容できる程度にするために、（多くのサインのトレーニングセットにより）閾値が調整される。
【００６７】
実際に適用する場合においては、多くのサインは「知られた」オーディオ内容を表すサインのライブラリーの形式で一緒に保存される。この状態で、サインの平均値を計算し、比較している２つのサインの各々からこのサインの平均値を減算することにより、サイン同士を区別する能力は改善される。
【００６８】
例えば、Ｗ個のサイン、Ｓ_０´からＳ_ｗ−１´、を持つデータベースが与えられたとすると、サインの平均値は以下のように計算される。
【数１２】

【００６９】
２つのサインを比べるとき、（一方のサインがライブラリー内になかったとしても）共分散を計算する前に、双方のサインからサインの平均値が減算される。共分散は、
【数１３】

となる。ここでμ_１とμ_２は各々のＳ_１´−Ｓ_MEAN´及びＳ_２´−Ｓ_MEAN´の平均値となる。
【００７０】
第２の相関処理又は関数は、小さな誤配列又は遅れ持つサインに対して、及び、長さが同じくらいのサインに対して適用するのが好ましい。このときは、第１の相関処理又は関数より著しく速く処理する。しかしある情報は（ＤＦＴで位相を放棄するため）本質的に失われてしまうので、類似の程度についての精度が少し劣る。
【００７１】
〈応用例〉
先に簡単に説明した通り、本発明の応用例として検索可能なオーディオのデータベースが挙げられる。例えばレコード会社における歌曲のデータベースなどである。ライブラリーからすべての歌曲についてサインを算出すことができ、このサインをデータベースに保存することが可能となる。本発明は、サインを算出し、出処不明な歌曲の正体を特定するためにデータベース中のすべてのサインと非常にすばやく比較することで、由来のわからない歌曲を受け入れる手段を提供する。
【００７２】
実際には、類似の程度についての精度（又は信頼度）は比較するサインのサイズに比例する。サインが長ければ長いほど、比較に用いられるデータ量が増えるので、類似性の程度についての信頼性又は精度は大きくなる。約３０秒以上のオーディオから生成されるサインにより十分区別できることがわかっている。
【００７３】
〈結論〉
本発明及びその様々な特徴に基づく変更又は修正による他の実施形態は、当業者にとって明らかであり、本発明は具体的に記載された実施の形態に限定されないことは了解されるべきである。従って、あらゆる変更や修正又は本質的な思想とここに開示され、請求された原則的な基本原理と均等なものは本発明の範囲に含まれる。
【００７４】
本発明とその種々の特徴は、ディジタル信号処理装置、プログラムされた汎用ディジタルコンピュータ及び／又は専用ディジタルコンピュータのソフトウエアの機能により実行することができる。アナログ信号とディジタル信号の流れは適当なハードウエアにより、及び／又はソフトウエア及び／又はファームウエアの機能として実行されよう。
【図面の簡単な説明】
【００７５】
【図１】図１Ａは、本発明による、オーディオ信号からサインを抽出することを示したフローチャートである。オーディオ信号は、たとえば音楽を表現するもの（例えば、音楽作品や歌）でもよい。図１Ｂは、本発明による、２つのサインの相関を図示したフローチャートである。
【図２】図２は、本発明による、オーディオイベントの位置を抽出し、状況に応じて、オーディオ信号から優勢なサブ帯域を抽出することを図示したフローチャートである。
【図３】図３は、本発明よる、スペクトル分析のステップを表した概念図である。
【図４】図４Ａと４Ｂは、本発明による、複数のオーディオイベントの位置又はイベントの境界を示した理想的なオーディオ波形である。
【図５】図５は、本発明における図２の相関４に従い、２つのサインの相関をさらに詳細に示したフローチャートである。
【図６】図６Ａ−Ｄは、本発明による、サインの配列の例を描いた、信号を表現する概念的な概要図である。図は尺度を合わせていない。サンプル値により表現されるディジタルオーディオ信号の場合、横軸は、各サインの配列に記録された離散値の時間的な順番を表す。

Claims

ひとつのオーディオ信号がもうひとつ別のオーディオ信号から生成されたものか、２つのオーディオ信号は同じオーディオ信号から生成されたものかを決定するための方法であって、
前記オーディオ信号の縮減された情報による特徴付け同士の比較を含み、
前記縮減された情報による特徴付けはオーディトリーシーンアナリシスに基づくものである、前記方法
前記比較は、
オーディオ信号における時間差又は時間遅れの影響を、当該特徴付けから削除し又は当該特徴付けにおいて最小化し、
類似の程度を計算し、
当該類似の程度を閾値と比較することを含む、請求項１に記載の方法。
前記削除は、前記各特徴付けにおいて、各部分が最も類似し、かつ、各部分が同じ長さを持つような部分を、前記特徴付けの各々において特定する、請求項２に記載の方法。
前記削除は、相互相関を算出することにより、前記特徴付けにおける各部分を特定する、請求項３に記載の方法。
前記計算は、前記特徴付けの各々において特定された部分の相関係数を計算することにより類似の程度を計算する、請求項４に記載の方法。
前記削除は、当該特徴付けを時間遅れの影響と無関係な領域に変換する、請求項２に記載の方法。
前記削除は、当該特徴付けを周波数領域に変換する、請求項６に記載の方法。
前記計算は、前記特徴付けの各々において特定された部分の相関係数を計算することにより類似の程度を計算する、請求項７に記載の方法。
前記特徴付けの１つは、既知のオーディオ内容を表す特徴付けの収集から採取した１つの特徴付けである、請求項１乃至請求項８のいずれか１項の方法。
前記削除の後で前記比較の前に、両方の特徴づけから、前記収集における特徴付けの平均値を減算することを含む、請求項９に記載の方法。
前記オーディトリーシーンアナリシスに基づく縮減された情報による特徴付けは、少なくともオーディトリーイベントの境界の位置を表現する情報の配列である、請求項１乃至請求項１０のいずれか１項の方法。
前記オーディトリーイベントの境界は、
前記オーディオ信号の連続する時間部分のスペクトル内容を計算し、
前記オーディオ信号の連続する時間部分のスペクトル内容同士の差を計算し、
このような連続する時間部分間でスペクトル内容の差が閾値を超えたとき、連続する時間部分間に境界をオーディトリーイベントの境界であると特定することで決定される、請求項１１に記載の方法。
前記情報の配列は、前記オーディトリーイベントの各々における優勢な周波数サブ帯域を表す、請求項１２又は請求項１３に記載の方法。