JP2007171933A

JP2007171933A - オーディオ信号処理装置及び方法

Info

Publication number: JP2007171933A
Application number: JP2006294431A
Authority: JP
Inventors: William Edmund C Kentish; エドマンドクランストウンケンティッシュ、ウィリアム; Nicolas J Haynes; ジョンヘインズ、ニコラス
Original assignee: Sony United Kingdom Ltd
Current assignee: Sony Europe BV United Kingdom Branch
Priority date: 2005-10-28
Filing date: 2006-10-30
Publication date: 2007-07-05
Also published as: EP1814105B1; KR20070045993A; US20120008803A1; CN1975859B; GB2431837A; GB0522051D0; EP1814105A1; US20070100483A1; US8041058B2; CN1975859A; DE602006005893D1

Abstract

【課題】オーディオ信号に著作権管理情報を挿入する。
【解決手段】オーディオ信号処理装置は、プライマリオーディオ信号にペイロード信号を挿入するオーディオ信号処理装置において、ペイロード信号に基づいて雑音信号を生成する雑音発生器と、プライマリオーディオ信号の信号レベルを検出するレベル検出器と、プライマリオーディオ信号の検出された信号レベルの増加又は減少に応じて雑音のレベルを増減し、変調された雑音信号を生成する変調器と、プライマリオーディオ信号及び変調された雑音信号を結合する結合器と、信号遅延回路とを備え、変調器は、信号遅延回路に関連して動作し、プライマリオーディオ信号の信号レベルの対応する減少に対して、雑音信号のレベルの減少を時間的に進める。
【選択図】図３

Description

本発明はオーディオ信号処理に関する。

例えば、デジタルフィンガプリンティング又はウォータマーキング（総称的に、法的マーキング（forensic marking）と呼ぶ。）等の用途では、プライマリオーディオ信号に、ペイロード信号が疑似ランダム雑音信号等の雑音パターンの形式で挿入されることがある。この場合、雑音信号は、一般的に、聞き取れない程度のものであり、若しくは、聞き取れたとしても、主観的に邪魔にならない程度の大きさにされる。この種の技術により、プライマリオーディオ信号の総合的な帯域幅、ビットレート及びフォーマットを変更することなく、様々な種類のペイロードを加えることができる。ペイロードデータは、相関法によって後に復元することができ、この手法は、ウォータマークの付与とウォータマークの復元との間に、ウォータマークが付されたオーディオ信号に何らかの改竄が加えられ又は劣化が生じていても有効である場合がある。

付加することができるペイロードデータの種類の具体例としては、機密保護データ（例えば、侵害者又は不正コピーを特定するためのデータ）、放送監視データ、及びプライマリオーディオ信号が表すオーディオ信号を記述するメタデータ等がある。

雑音信号は、プライマリオーディオ信号に加える前に変調してもよい。これは、包括的に言えば、プライマリオーディオ信号のレベルが大きくなると、雑音信号のレベルが大きくなり、プライマリオーディオ信号のレベルが小さくなると、雑音信号のレベルが小さくなることを意味する。これにより、プライマリオーディオ信号における音量の大きな楽節によってマスキングすることができれば、更なるペイロードデータの雑音信号を含ませることができる（潜在的にペイロードデータの復元の可能性が高くなる）。

しかしながら、雑音信号がプライマリオーディオ信号に密接に追従しすぎると、特に、ドラムの打撃音等の音とともに、聞き取られる可能性があり、邪魔に感じられるようになる虞がある。

エンベロープ制御オーディオ信号処理システム（envelope-controlled audio processing system）では、制御される信号（この具体例では雑音信号）の立上がり時間及び立ち下がり時間に時定数を適用できる。これらはアタック及びディケイ（又はリリース）時定数として知られている。このような尺度をこの具体例に適用した場合、プライマリオーディオ信号レベルが急激に大きくなっても、雑音信号レベルは緩やかに大きくなる。これは、許容度が高く、ある状況では、望ましい場合さえある。一方、プライマリオーディオ信号レベルが急激に小さくなった際に、雑音信号レベルが緩やかに小さくなる場合、問題が生じやすい。極端な場合では、このような処理により、雑音信号がプライマリオーディオ信号より一時的に大きくなってしまう虞もある。

本発明に係るオーディオ信号処理装置は、プライマリオーディオ信号にペイロード信号を挿入するオーディオ信号処理装置において、ペイロード信号に基づいて雑音信号を生成する雑音発生器と、プライマリオーディオ信号の信号レベルを検出するレベル検出器と、プライマリオーディオ信号の検出された信号レベルの増加又は減少に応じて雑音のレベルを増減し、変調された雑音信号を生成する変調器と、プライマリオーディオ信号及び変調された雑音信号を結合する結合器と、信号遅延回路とを備え、変調器は、信号遅延回路に関連して動作し、プライマリオーディオ信号の信号レベルの対応する減少に対して、雑音信号のレベルの減少を時間的に進める。

本発明は、時間的に進められたリリース機能を提供し、雑音信号レベルの減少を、プライマリオーディオ信号の信号レベルにおける対応する減少に対して時間に進めることによって、上述した問題を解決する。換言すればプライマリオーディオ信号に対して、雑音信号は、プライマリオーディオ信号が小さくなり始める前に小さくなる。この進められる時間の長さは、システム及びプライマリオーディオ信号のオーディオの帯域幅における如何なるリリース時定数に対して設定してもよく、これにより、雑音信号がプライマリオーディオ信号より大きくなることはなくなり、又は雑音信号とプライマリオーディオ信号との間の差が許容範囲内に収まる。

本発明の更なる側面及び特徴は、特許請求の範囲に定義されている。

以下では、図面を参照して、本発明の実施の形態について例示的に説明する。

導入
より包括的に、法的マーキング技術（forensic marking techniques）とも呼ぶことができるフィンガプリンティング技術又はウォータマーキング技術をビデオ信号に適用することが提案されている。この技術は、例えば、欧州特許出願公開ＥＰ−Ａ−１３２４２６２号に開示されている。この技術の包括的な数学的フレームワークは、原則として、オーディオ信号にも適用できるように見えるが、ビデオ信号の場合とオーディオ信号の場合とでは、重要な技術的相異がある。本明細書でマテリアルの法的マーキングを示すために、「フィンガプリント」及び「ウォータマーク」の両方の用語を用いる。

検討すべき主な課題の１つは、フィンガプリントデータをオーディオ信号にどのように符号化するかという問題である。人間の耳は、感度及びダイナミックレンジに関して、人間の目とは大きく異なり、このために、これまでの多くの商用のフィンガプリンティング法が主観的な聴取（「Ａ／Ｂ」）検査に適合しなかった。

人間の耳は、４８ｋＨｚのサンプリングレートで、１サンプル以下の位相差を聞き取ることができ、如何なる時点でも、９桁（9 orders of magnitude）のダイナミックレンジを認識できる。これを考慮に入れると、フィンガプリントデータを、単純にメディアに加えられる低レベル雑音信号として符号化する符号化法が適切であると考えられる。

雑音は、この目的に適する多くの音響心理学的特性を有し、耳は、低レベルの雑音を無視する傾向があり、雑音は、不快な音としてではなく、穏やかな音（風、小川のせせらぎ、波音等の自然の音に類似する音）として聞こえる。また、雑音ストリームのランダム性は、例えば、視知覚に対するストロボ効果又はサブリミナル情報の悪意がある使用等のように、脳の機能に干渉する可能性が殆どないことを意味する。

以下、この種の技術の具体例について説明する。

数学的な基礎
フィンガプリントペイロード「ベクトル」（例えば、値のストリーム）Ｐ＝ｐ［１］．．ｐ［ｎ］について検討する。

埋込プロセスでは、このペイロードは、オーディオ信号ベクトル（例えば、サンプルのストリーム）Ｖ＝ｖ［１］．．ｖ［ｎ］に加算され、ウォータマークが付されたペイロードベクトルＷ＝Ｖ＋Ｐが算出される。

ペイロードベクトルＰの要素は、平均値０、標準偏差α^２の統計的に独立した確率変数である。ここで、αは、ウォータマーク強度と呼ばれ、Ｎ（０，α^２）として表される。単純に言えば、この表現は、ペイロードがガウスランダム雑音ストリームであることを示す。雑音ストリームは、オーディオ信号としての標準偏差が＋／−１．０の範囲になるように換算される。この換算を正しく行わなければ、以下に算出する類似インジケータ（similarity indicator：「ＳｉｍＶａｌ」）が正しくなくなるため、この換算は重要である。なお、ここでの取り決めは、＋／−１．０を、オーディオの領域における「フルスケール」とみなし、したがって、この場合、ガウス雑音ストリームの多くのサンプルは、実際にフルスケールより大きくなる。

抽出処理では、ウォータマークが付された被検査ベクトル（例えば、検査されるオーディオマテリアルの海賊版コピー）Ｗｓから元のプロキシベクトルＶを減算し、被検査ペイロードベクトルＰｓ＝Ｗｓ−Ｖを算出する。換言すればＰｓ＝（被検査オーディオストリーム）−（プロキシオーディオストリーム）である。

コンテンツが候補ペイロードベクトルＰによってウォータマークが付されているか否かを検査するために、候補ペイロードベクトルＰと、正規化された被検査ペイロードベクトルＰｓとの間で内部ループ相関（inner-loop correlation）（「・」として表す）を実行し、以下のようにして、類似値ＳｉｍＶａｌを算出する。

ＳｉｍＶａｌ＝（Ｐｓ／｜Ｐｓ｜）・Ｐ
ここで、｜Ｐｓ｜は、｜Ｐｓ｜＝ｓｑｒｔ（Ｐｓ・Ｐｓ）を意味するＰｓのベクトル振幅である。ここで、ｓｑｒｔは、平方根を示す。なお、ベクトル平均を正規化し、振幅の合計が１になるように、ベクトル内の値を換算する。

この式は、ベクトルの長さの平方根に近い最大値で、ＰｓとＰの間の統計的相関の度合いを示すものである。ＳｉｍＶａｌが特定の閾値Ｔより大きい場合、ペイロードＰがＰｓに存在していると判定され、ＳｉｍＶａｌ≦Ｔの場合、ペイロードＰはＰｓに存在していないと判定する。

ＳｉｍＶａｌの値に何らかの統計的な意味を与えるために、以下の式によって、Ｔの値を誤検出率に関連付ける。

Ｔ＝ｓｑｒｔ（２ｌｎ（Ｍ^２／ｐｓｑｒｔ（２π）））
ここで、ｐは、誤検出率（false positive probability）であり、ｌｎは、自然対数であり、Ｍは、母集団のサイズ（すなわち、所定のオーディオコンテンツについて発行された固有のペイロードベクトルの数）である。例えば、誤検出率を１億分の１以下にする必要があり、母集団のサイズが１０００である場合、値ＳｉｍＶａｌは、８より大きくする必要がある。

一般的には、この手法を用いて、オーディオマテリアルの権利侵害の判定を行う場合、値ＳｉｍＶａｌを１０に設定すれば、十分に目的が果たされる。母集団Ｍのサイズが特に大きい場合、値ＳｉｍＶａｌを１２にすると更に好適である。実験的な試行では、値ＳｉｍＶａｌを８として、被検査オーディオマテリアルを解析するのに数秒を要した場合、値ＳｉｍＶａｌを１２としても、更に数秒以内に解析を終わらせることができることが確認されている。

図１は、機密保護されたプレイアウト装置１０が平文化鍵と共に暗号化されたオーディオデータ／ビデオマテリアルを受け取るデジタルシネマ構成を図式的に示している。平文化器２０は、オーディオ及びビデオマテリアルを平文化する。平文化されたビデオマテリアルは、映写機３０に供給され、スクリーン４０に映写される。平文化されたオーディオマテリアルは、フィンガプリントエンコーダ５０に供給され、フィンガプリントエンコーダ５０は、上述のように、オーディオマテリアルにフィンガプリントを付加する。

一般的に、フィンガプリントは、マテリアル、映画館及び上映日時のそれぞれについて一意的であってもよい。これにより、剽窃行為が行われたフィルムを特定することができる。

フィンガプリントが付与されたオーディオ信号は、増幅器６０に供給され、増幅器６０は、周知の映画館の音響構成に基づいて、複数のスピーカ７０及びサブウーファー８０を駆動する。

また、フィンガプリンティングは、映像情報にも適用できる。この場合、周知の映像用フィンガプリント付与装置（図示せず）を用いることができる。

プレイアウト装置１０は、好ましくは、機密保護され、外部接続がない閉じられたユニットであり、すなわち、フィンガプリントが付与されていないオーディオ（又は、実際にはビデオ）情報を外部から入手することができないように構成される。もちろん増幅器６０及び映写機３０は、機密保護されたシステムの一部を構成しなくてもよい。

上映された映画から不正コピーが作成された場合、例えば、映画館内でカムコーダを使用してコピーが撮影された場合、映画のフィルムに関連するオーディオコンテンツには、フィンガプリントエンコーダ５０が符号化したフィンガプリント情報が含まれている。調査又は法的な理由から、このフィンガプリントを検出するためには、図２に示すフィンガプリント検出器８０に、オリジナル（又は「プロキシ」）マテリアルと、オリジナルのフィンガプリントを生成するために用いられた鍵と共に、検査すべきマテリアルのコピーが供給される。単純に言えば、フィンガプリント検出器８０は、被検査マテリアルに特定のフィンガプリントが存在している確率を算出する。検出処理については、後に更に詳細に説明する。

埋込プロセス
ビデオフィンガプリンティングでは、この技術は、通常、フレーム単位で適用され（フレームは、ビデオ領域における自然な処理ブロックサイズである）、フィンガプリントペイロードベクトルの全体は、（低レベルで）各フレームに埋め込まれる。幾つかのシステムでは、フィンガプリントの強度は、フレームが「より混んでいる（busier）」画像領域において、又はビデオコンテンツの性質を大幅に変化させることなく取り除くことが困難又は不可能な下側の空間周波数が低い領域において、高く設定される。この手法では、単一のベクトルに関して相関を行っているかのように、多くのフレームに亘って、各フレームの相関を累積し、被検査ペイロードＰｓと、候補ペイロードＰとの間に実際に統計的相関があれば、相関性は、フレーム毎に高くなっていく。

オーディオの場合、通常、このような自然な処理ブロックが存在しない。

この実施の形態では、高速フーリエ変換（fast Fourier transform：ＦＦＴ）処理の効率を高めるために、オーディオのバージョンの処理ブロックサイズを、２の累乗個のオーディオサンプル、例えば、６４ｋサンプル（６５５３６のサンプル）に設定する。なお、ベクトル長は、処理ブロックと同じサイズになる。

これらのオーディオフレームに関する連続した相関は、ビデオシステムの場合と同様に累積することができる。

コンテンツの各サンプルについて、ペイロードベクトルの１つのサンプルが存在する。また、高周波数成分（例えば、５ｋＨｚより高い）及び低周波数成分（例えば、１５０Ｈｚ未満）は、いずれも、完全に削除しても音質に著しい影響がないため、ペイロードは、「中間周波数」に集中的に埋め込まれる。上述のような高い周波数帯域及び低い周波数帯域は、低品質な記録装置又は侵害者側の技術の影響で欠落してしまうこともあり、又はフィンガプリントの復元処理を妨害するために、侵害者が故意にこれらを取り除くこともある。したがって、主観的により重要な中間周波数、すなわち取り除いてしまうと音質が著しく劣化してしまう周波数帯域にペイロードを集中させることが適切である。

以下、埋込処理の概要を示す。
１．ペイロードをシードとして、ＡＥＳラインダール疑似乱数ストリームに基づき、雑音ストリームを生成する。
２．オーディオストリームの知覚的解析に基づいて、雑音ストリームを「シェーピング」する。
３．シェーピングされた雑音ストリームを低レベルでオーディオストリームに付加する。

生成された雑音ストリームは、ペイロードデータの異なるサブセットからそれぞれ生成された複数のレイヤをストリーム内に含む。なお、例えば、フレーム番号及び／又は日付／時間等の他のデータをペイロードに含ませてもよい。

雑音ストリームは、移動カウンタに２５６ビットのラインダール暗号化を繰り返し適用することによって生成される。そして、この数を±１．０の範囲内に換算し、フルスケールの白色雑音を生成する。白色雑音ストリームは、複数の点の対にボックスミューラー変換を適用することによってガウス雑音に変換される。

この実施の形態では、雑音ストリームには、１６のレイヤがある。疑似ランダム雑音発生器の第１のレイヤは、ペイロードの最初の１６ビットによってシードされ、第２のレイヤは、ペイロードの最初の３２ビットによってシードされ、以下同様の処理により、第１６のレイヤは、全体の２５６ビットペイロードによってシードされる。

知覚的解析は、オーディオストリームの各サンプルについて、フィンガプリント雑音ストリームを換算するための利得値を算出する単純なスペクトル解析を含む。ここでは、音量が大きいオーディオストリームのセクションは、より強いフィンガプリント雑音を隠すことができるという点を利用している。

この概念の拡張として、オーディオストリームの中間周波数成分（フィンガプリントを隠す帯域）を幾つか（例えば、８又は１２）の帯域に分割してもよく、これらの帯域は、対数による周波数スケールに関して均等に分割することが好ましい（もちろん如何なる手法で帯域を分割してもよい）。これは、例えば、周波数スペクトルを概ねオクターブ毎に分割することを意味する。そして、各帯域を個別に処理して、それぞれの利得エンベロープを生成し、これを用いて、フィンガプリント雑音ストリーム内における対応する周波数帯域の振幅を調節する。全ての帯域でエンベロープ変調を用いると、雑音ストリームは、元のオーディオデータ信号の「ゴースト」を再生しているかのように聞こえる。より重要な点は、成分が類似しているためにゴーストのように聞こえる雑音ストリームを元のマテリアルに加えると、比較的高い信号レベルにおいて加算を行っても、人間の耳には聞こえなくなるという点である。例えば、変調された雑音を、オーディオに対して−３０ｄＢ（デシベル）程度の高いレベルで加算しても、主観的には殆ど聞き取られない。

この実施の形態では、２０４９サンプルのインパルス応答カーネルを用いて、「レンガ壁（ブリックウォール）」（側辺が急峻な応答）畳込み帯域フィルタを実現し、各周波数帯域における情報を分離する。畳込みは、処理速度のために、ＦＦＴ領域で実行される。バンドパスフィルタとして、再帰形フィルタではなく畳込みフィルタを用いる１つの重要な理由は、畳込みフィルタでは、周波数から独立した固定された遅延を有するように構成できるためである。この点が重要である理由は、如何なる任意の周波数帯域に対する雑音ストリームの変調についても、雑音ストリームが付加されたとき、雑音ストリームが元のコンテンツの実際のエンベロープに追従するようにしなければならないためである。フィルタの遅延が周波数に依存していれば、このために生じるアラインメント誤差の修正は困難であり、雑音が目立つようになり、周波数の相関値が変化してしまう可能性もある。

図１のエンコーダ５０等のフィンガプリントエンコーダの動作の概略について図３を用いて説明する。ペイロード生成器１００は、フィンガプリントとして符号化されるペイロードデータを生成する。上述のように、ペイロードデータは、様々なコンテンツ及び他の識別子を含むことがあり、更にコンテンツの再生毎に固有である場合がある。ペイロード生成器については、図４を参照して、後に詳細に説明する。

ペイロードは、フィンガプリントストリーム生成器１１０に供給される。フィンガプリントストリーム生成器１１０は、上述したように、基本的に、ＡＥＳ−ラインダール暗号化を用いる乱数発生器であり、暗号鍵に基づいて、ペイロード生成器１００から供給されたペイロードに応じて出力シーケンスを生成する。フィンガプリントストリーム生成器については、図５を参照して、後に詳細に説明する。

ソースマテリアル（フィンガプリントが適用される）は、スペクトル解析器１２０に供給される。スペクトル解析器１２０は、１つ以上の周波数帯域において、ソースマテリアルの振幅又はエンベロープを解析する。スペクトル解析器１２０は、スペクトルフォロワ１３０にエンベロープ情報を供給する。スペクトルフォロワ１３０は、スペクトル解析器１２０からのエンベロープ情報に基づいて、フィンガプリントストリーム生成器１１０から出力された雑音信号を変調する。スペクトル解析器１２０については、図６を参照して後に詳細に説明し、スペクトルフォロワ１３０については、図７を参照して後に詳細に説明する。

スペクトルフォロワ１３０の出力は、ソースマテリアルに比べてかなりレベルが低いが、ソースマテリアルのエンベロープに概ね追従する雑音信号である。雑音信号は、加算器１４０によってソースマテリアルに加算される。これにより、加算器１４０は、フィンガプリントが付与されたオーディオ信号を出力する。

図３では、ソースマテリアルパスに、遅延要素１５０を示している。これは、加算器１４０に供給されるバージョンに比べて時間的に進んだソースマテリアルのバージョンに関してスペクトル解析及びエンベロープ判定が実行されることを示している。この時間的な進みに関しては、後に更に詳細に説明する。

図４は、ペイロード生成器１００の構成を示している。上述のように、ペイロード生成器１００は、シリアル番号、位置識別子、位置秘密鍵等の様々な識別情報に基づいて、ペイロードデータ１６０を生成し、フィンガプリントストリーム生成器１１０にペイロードデータ１６０をシードとして供給する。暗号化器１７０は、位置秘密鍵を用いて、位置識別子を暗号化する。ロジック１８０は、ペイロードデータの様々なコンポーネントをビット整列させ、シードとして出力する。

図５は、フィンガプリントストリーム生成器１１０の構成を示している。フィンガプリントストリーム生成器１１０は、ペイロード生成器１００からシードデータ１６０を受け取り、鍵データ１９０は、鍵拡大ロジック２００によって、１６個の異なる鍵Ｋ−１〜Ｋ−１６に拡大される。

オプションとして、加算器２１０によって、シードデータ１６０にフレーム番号を加えてもよい。

フィンガプリントストリーム生成器１１０は、１６個のＡＥＳ−ラインダール数発生器２２０〜２３６を備える。各ＡＥＳ−ラインダール数発生器２２０〜２３６には、鍵拡大ロジック２００からそれぞれの鍵が供給される。更に、各ＡＥＳ−ラインダール数発生器２２０〜２３６には、シードデータ１６０からそれぞれのビットの組がシードされる。例えば、ＡＥＳ−ラインダール数発生器２２０には、シードデータ１６０の最初の１６ビットがシードされる。ＡＥＳ−ラインダール数発生器２２１には、シードデータ１６０の最初の３２ビットがシードされる。この構成により、ペイロードを階層化することができ、これにより、まず、最初の１６ビットについて可能な全ての値を検索し、次に、１７番目から３２番目のビットの可能な値（最初の１６ビットは既知）を検索する等により、復号時に特定のフィンガプリントを検索する処理が容易になる。

各ＡＥＳ−ラインダール数発生器２２０〜２３６から出力されるデータは、それぞれガウスマッピング回路（Gaussian mapping arrangement）２４０〜２５６に供給される。ガウスマッピング回路２４０〜２５６は、実際には白色雑音となる乱数を生成する乱数数発生器であり、既知のマッピングプロセスを用いてガウス関数形プロファイルの雑音を生成する。

加算器２６０は、ガウスマッピング回路２４０〜２５６の各インスタンスからのガウス雑音信号を加算し、雑音信号２７０を生成し、出力する。

図６は、スペクトル解析器１２０の構成を示している。スペクトル解析器１２０は、入力データとしてソースマテリアル（フィンガプリントが付与される）を受け取り、出力データとしてエンベロープ情報２８０を生成する。

スペクトル解析器１２０は、（この具体例では）８個の帯域フィルタ２９０〜２９７の組を備え、各帯域フィルタ２９０〜２９７は、ソースマテリアルのそれぞれの周波数帯域をフィルタリングする。フィルタの周波数帯域は、重なっていても重なっていなくてもよく、８個のフィルタによってカバーされる全体の使用可能な周波数範囲は、１００パーセントであってもよく、多くの場合そうであるように、１００パーセントに満たなくてもよい。８個の各フィルタに関連するそれぞれの周波数帯域は、連続していてもよく（すなわち、互いに隣接していてもよく）、連続していなくてもよい。使用するフィルタ（周波数帯域）の数は、８個より多くても少なくてもよい。すなわち、ここでの記述は、単に、フィルタの動作に関する１つの具体例を説明しているに過ぎない。

この具体例では、中間の周波数範囲は、約１５０Ｈｚから約５ｋＨｚまでのフィルタによって処理される。この範囲は、対数的に均等な８個の帯域に分割され、したがって、各帯域は、約１オクターブに相当する。帯域フィルタ２９０〜２９７で用いられるフィルタリング技術は、上述した通りである。

各帯域フィルタ２９０〜２９７の出力側には、検波器（エンベロープ検出器）３００〜３０７が接続されている。検波器３００〜３０７は、各帯域フィルタの出力信号について、フィルタリングされたソースマテリアルのエンベロープに関連するエンベロープ信号を生成する。

図７は、スペクトルフォロワ１３０の構成を示している。スペクトルフォロワ１３０には、スペクトル解析器１２０からエンベロープ情報２８０が供給され、フィンガプリントストリーム生成器１１０からガウス雑音信号２７０が供給される。

ガウス雑音信号２７０は、一組の帯域フィルタ３１０〜３１７に供給される。帯域フィルタ３１０〜３１７の応答は、スペクトル解析器１２０の対応する帯域フィルタ２９０〜２９７の応答と同様に（又は実質的に同等に）設定されている。帯域フィルタ３１０〜３１７は、雑音スペクトル内の８個の帯域を生成する。フィルタリングされた各雑音帯域は、それぞれのエンベロープフォロワ３２０〜３２７に供給される。エンベロープフォロワ３２０〜３２７は、ソースマテリアルにおける対応する帯域のエンベロープに関するエンベロープ信号に基づいて、同じ帯域のフィルタリングされた雑音信号を変調する。加算器３３０は、エンベロープフォロワ３２０〜３２７の全ての出力を加算し、シェーピングされた雑音信号３４０を生成する。

エンベロープフォロワ３２０〜３２７は、最終的にシェーピングされた雑音信号３４０がソースマテリアルに対して適正なレベル、例えば、ソースマテリアルの−３０ｄＢとなるようにするための換算回路を備えていてもよい。

上述のように、加算器１４０は、シェーピングされた雑音信号３４０をソースマテリアルに加算し、フィンガプリントが付与されたソースマテリアルを出力信号として生成する。

フィンガプリントの付与は、異なるオーディオチャンネルに関して（左右のチャンネル等）個別に行ってもよく、同期させて行ってもよい。なお、侵害者が複数のチャンネルを比較することによってフィンガプリントを推定する（及び除去又は無効にする）ことを防止するために各チャンネルについて異なる雑音信号を用いることが好ましい。いずれの場合も、エンベロープ信号２８０は、好ましくは、符号化されたフィンガプリントである個々のオーディオチャンネルに関連する。

以下、上述したエンベロープ検出及びエンベロープ追従の動作について、図８〜図１１を用いて説明する。なお、上述したスペクトルフォロワの場合、エンベロープ追従は、それぞれのチャンネル又は帯域に関して実行される。また、以下に説明する時定数は、帯域に適用可能な可聴周波数又は周波数範囲に基づいて、例えば、その帯域内の信号の最速の立上がり時間に基づいて設定することができる。これによって、単に時定数と最速の立上がり時間との間の関係を変更するだけで、時定数をグループとして調整することができる。

図８〜図１１において、横軸は、任意のスケールの時間を表し、実線は、ソースマテリアルに関連するエンベロープ信号の具体例を（概略的に）表し、破線は、エンベロープフォロワ３２０〜３２７が適用した変調を（概略的に）表している。

図８では、エンベロープフォロワが時定数を適用し、ソースマテリアルのエンベロープの急激な上昇に応じた雑音信号の立上がり時間を制限している。これは、実線の垂直的な上昇の後ろで時間的に遅れた破線の左側のセクションによって表されている。このような時定数は、「アタック」時定数とも呼ばれる。なお、図８〜図１１において、雑音信号の上昇のレートは、制限されているが、雑音信号が上昇を開始する時刻は、エンベロープ信号が上昇し始める時刻と同じである（検出遅延によって生じる僅かな時間差はある）。エンベロープ信号に対して、雑音信号の上昇の開始を遅延させてもよい（又は後述する時間的に進める構成では、進めてもよい）が、これによる利益は殆どない。具体的には、雑音信号の上昇を遅らせると、上昇する信号に隠すことができる有用なペイロードが制限され、雑音信号の上昇の開始を進めると、図８のエンベロープのトレーリングエッジに関して説明するものと同様の可聴雑音が生じる可能性がある。

また、後半の破線によって示す、ソースマテリアルエンベロープのトレーリングエッジにおける雑音エンベロープの減少は、「ディケイ」時定数によって制限される。これは、ｔ_１からｔ_２までの期間に亘って、雑音信号がソースマテリアル信号より大きく、したがって、聴取者にとって、雑音が主観的に邪魔に感じられる可能性があることを意味する。

図９は、エンベロープに追従するオーディオ効果プロセッサに共通の状況を示しており、エンベロープ追従信号（この場合、雑音信号）のディケイが開始するまでの時間として定義される「サステイン」期間３５０を示している。これによって、上述した状況が更に悪くなり、すなわち、雑音信号は、時刻ｔ_１からｔ_３までの期間に亘ってソースマテリアル信号より大きくなる。このため、この実施の形態では、サステイン期間を用いない。

この問題を解決する手法について、図１０及び図１１を用いて説明する。

図１０では、雑音信号が減少し始める時刻は、ソースマテリアルのエンベロープが減少する時刻より、進み時間（advanced time）３６０だけ進められている。この具体例では、これは、雑音信号が、時刻ｔ_１までに、無視できる程度のレベルにまで減少することを意味する。

一方、図１１に示すように、進み時間３６０を少し短くすると、雑音信号は、ソースマテリアルのエンベロープが減少する前に減少し始めるが、時刻ｔ_１までに、十分に減少しない。これは、時刻ｔ_１からｔ_４までの間に少量の雑音が残ることが意味するが、図８に示す状況に比べれば、雑音は軽減されている。

このように、雑音低減を促すソースマテリアルエンベロープの減少より前に雑音信号の減少を開始することによって、図８及び図９に示すような主観的に邪魔になる過剰な雑音を軽減又は除去することができる。

これを実現するためには、加算器１４０によってソースマテリアルに雑音を加算するより前に、ソースマテリアルのエンベロープ情報を取得することができるようにシステム内のどこかに遅延回路を含ませる必要がある。図３に示す遅延要素は、この遅延の具体例を概略的に示している。この他の多くの可能性があることは、当業者にとって明らかである。上述の具体例では、ソースマテリアルから結合器１４０までのパスに遅延要素が設けられている。この構成では、スペクトル解析器１２０は（各エンベロープ信号に関して、１つ以上が導出される場合）、以下のように動作する。（ａ）上昇するエンベロープについては、（図示しない遅延要素によって）遅延要素が適用する遅延τに同等な遅延をエンベロープ信号に適用する。（ｂ）下降するエンベロープについては、遅延τより小さい遅延をエンベロープ信号に適用する。

抽出処理
フィンガプリント抽出の主な処理手順は以下の通りである。
１．被検査マテリアルを処理し、全ての破損又は歪みを元に戻すことを試みる。
２．所謂プロキシコンテンツ（ウォータマークが付されていない元のバージョンのコンテンツを示す用語）を被検査コンテンツから減算し、この差として、被検査フィンガプリントを算出する。この処理では、被検査マテリアルとプロキシコンテンツとを時間的に整列する必要がある。幾つかの具体例では、ウォータマークが付されたプロキシを用いてもよい。もちろん、プロキシのウォータマークは、相関によって検出されるが、他のウォータマークの検出を妨害せず、無視することができる。この手法によって、抽出処理を委託したサードパーティに、機密保護されたコピーを供給することができる。
３．被検査フィンガプリントを、プロキシコンテンツのスペクトル解析に基づいて「逆シェーピングする（unshaped）」。
４．このコンテンツの母集団における各候補ペイロードについて、コンテンツの比較的短いセクションに亘って、候補ペイロードを被検査ペイロードと比較する。値ＳｉｍＶａｌが有望である場合、この候補を候補の候補リストに加え、更に長い解析を行う。

図２の検出器８０等のフィンガプリント検出器の動作について、図１２を用いて説明する。検出器には、例えば、海賊版コピーの疑いがあるコンテンツのピースである被検査マテリアルと、所謂プロキシマテリアルのプレーンな（ウォータマークが付されていない）コピーとが供給される。

被検査マテリアルは、まず、時間的アラインメントユニット４００に供給される。時間的アラインメントユニット４００の動作については、図１３〜図１８を用いて後述する。簡潔に言えば、時間的アラインメントユニット４００は、プロキシマテリアルと被検査マテリアルの間の時間的なオフセットを検出し、これによって、２つのマテリアルを時間的に整列させる。時間的アラインメントユニット４００によって潜在的に実現できる整列は、ある許容誤差範囲内、例えば、±１サンプル内に収められる。更に、２つの信号間で完全な整列を実現するための時間補正が後述するデコンボルバ（deconvolver）４１０によって実行される。

デコンボルバ４１０は、被検査マテリアルにインパルス応答を適用し、プロキシマテリアルに更に近くなるように試みる。ここでの目的は、被検査マテリアルにおける信号劣化による変化を（少なくとも部分的に）逆に戻すことである。このような劣化の具体例については、後に列挙する。

このために、デコンボルバ４１０は、デコンボルバトレーニングユニット４２０によって「トレーニングされる」。デコンボルバトレーニングユニット４２０の動作については、図１９〜図２５を用いて後に詳細に説明するが、簡潔に言えば、デコンボルバトレーニングユニット４２０は、時間的に整列された被検査マテリアルとプロキシマテリアルとを比較し、プロキシマテリアルから被検査マテリアルへの差分を表す変換応答を導出する。デコンボルバ４１０は、この変換応答の「逆」を適用する。変換応答は、特定の位置に生じた劣化を反映するために、好ましくは、被検査マテリアル内の異なる位置毎に更新される。以下で説明する実施の形態では、デコンボルバトレーニングユニット４２０は、被検査マテリアル及びプロキシマテリアルのブロックについて、最新の部分の所定のグループに亘って検出された応答の移動平均に基づいて、変換応答を検出する。

遅延補償回路４３０は、デコンボルバ４１０及びデコンボルバトレーニングユニット４２０における処理の遅延を補償する。

次に、相互正規化ユニット４４０は、デコンボルブされた被検査マテリアルとプロキシマテリアルの振幅を正規化する。図１２に示す具体例では、正規化は、被検査マテリアルに対して行われているが、ここで、プロキシマテリアルの振幅を調整してもよく、又は両方の振幅を調整してもよいことは明らかである。

正規化の後、減算器４５０は、デコンボルブされ、正規化された被検査マテリアルとプロキシマテリアルとの間の差を算出する。この差を表す信号は、「逆シェーピング器（unshaper）」４６０に供給され、逆シェーピング器４６０は、スペクトルフォロワ１３０によって実行されたノイズシェイピング処理の逆の処理を実行する。このために、プロキシマテリアルは、図３のスペクトル解析器１２０と同様に動作するスペクトル解析器４７０に供給される。

このように、スペクトル解析器４７０及び逆シェーピング器４６０は、逆シェーピング器４６０の出力として包括的に均一な雑音エンベロープを生成する目的でエンベロープ制御された利得値の逆数を用いる点を除いて、スペクトル解析器１２０及びスペクトルフォロワ１３０と同様に動作する。逆シェーピング器４６０によって生成された雑音信号Ｐｓは、比較器４８０に供給される。比較器４８０へ他方の入力であるＰは、以下のように生成される。

フィンガプリント生成器４９０は、図３のペイロード生成器１００及びフィンガプリントストリーム生成器１１０と同様に動作する。したがって、これらの動作については詳細には説明しない。フィンガプリント生成器４９０は、被検査マテリアルに存在している可能性があるフィンガプリントの全ての可能なバリエーションを生成する。そして、各バリエーションを検査し、それぞれの尤度を表す値ＳｉｍＶａｌを導出する。

もちろん、複数のフィンガプリント生成器４９０を採用し、並列に動作する複数の比較器４８０を用いて、雑音ストリームＰｓを一度に２つ以上のフィンガプリントと比較してもよい。

遅延補償器５００、５１０は、被検査マテリアルに生じた処理遅延を補償し、フィンガプリント生成器４９０によって生成されたフィンガプリントと、フィンガプリント被検査マテリアル内に含まれている可能性があるフィンガプリントとを時間的に正しく揃える。

逆シェーピング器４６０による出力までの処理を繰り返すことなく、逆シェーピング器４６０の出力を保存し、異なるフィンガプリントのそれぞれについて、一回以上の更なる比較（モジュール４９０、５００、５１０で実行される）を実行してもよい。

時間的アラインメント
海賊版の疑いがある被検査信号に対しては、最初に行わなくてはならないのは、プロキシ信号との正しい同期である。

必要であれば、再サンプリング又はＭＰ３符号化の影響により生じた全てのサブサンプル遅延／進みを補償するために、サブサンプル遅延回路を設けてもよい。

図１３は、時間的アラインメントユニット４００の動作の一部を示すフローチャートである。このフローチャートの各ステップは、時間的アラインメントユニット４００の各部分又は機能によって実現される。

理論上は、（単一の）直接的な相関処理によって被検査マテリアルとプロキシマテリアルとを揃えることも可能であるが、演算処理は、一般的に、オーディオサンプル数の２乗に比例して増加するため、大きなマテリアル、例えば、映画のサウンドトラック等では、必要な相関処理が膨大になる。したがって、ここでの処理は、２つの信号を完全に相関させるのではなく、少なくとも大雑把に揃えることを目的とする。

図１３のステップ６００のにおいて、２つのオーディオ信号を複数の部分又はブロックに分割する。これらのブロックは、それぞれの２つの信号について、サイズが等しいが、このサイズは、特定のサイズである必要はない。このため、一具体例では、（例えば）サイズを６４ｋサンプルとして固定してもよく、他の具体例では、ブロックの数を固定してもよく、これによりマテリアル（通常、プロキシマテリアル）の２つのピースの全長を所定のブロック数に従って分割し、時間的アラインメント処理のこの特定のインスタンスのために必要なブロックサイズを得る。如何なる場合も、ブロックサイズは、少なくとも２サンプルを含む必要がある。

図１３のステップ６００の前に、予備的なローパスフィルタリング処理（図示せず）を行ってもよい。これにより、ブロックサイズに関して、２つの信号の間の任意のアラインメント誤差によって生じる何らかのアーチファクトを削減することができる。

ステップ６０５では、各信号の絶対値を算出し、各ブロックについて、（絶対値を参照して）検出された最大パワーを導出する。もちろん、これに代えて、例えば平均パワー等の異なるパワー特性を導出してもよい。ここでの目的は、プロキシ信号及び被検査信号のそれぞれから、１ブロックあたりの値の数が少ない（例えば、１個又は２個の）パワー特性信号を得ることである。この具体例では、１ブロックあたり１つの値がある。

ステップ６１０では、２つのパワー特性信号をローパスフィルタリング又は円滑化する。

図１４は、２つの信号をブロックに分割する処理を図式的に示しており、この具体例では、プロキシマテリアルは、完全な長さの映画フィルムを表し、被検査マテリアルは、その映画フィルムから切り取られたセクションを表す。

図１５は、２つのパワー特性信号に適用される個別のローパスフィルタを示している。各サンプルは、（乗算器６１１によって）係数に乗算され、加算器６１２において、加算器６１２の出力を第２の係数に乗算した積が加算される。この第２の係数の乗算は、乗算器６１３で行われる。この処理により、各信号のローパスフィルタリングされたバージョンが生成される。

この時点で、２つのパワー特性信号は、通常、０と１の間の振幅を有する。フィルタリング処理によって、１以上の小さな偏差が生じることがあるが、ステップ６０５における絶対値検出のために、０より小さい偏差が生じることはない。

ステップ６３０では、閾値を適用する。この処理を図１６に図式的に示す。このような閾値の具体例は、０．３であるが、他の如何なる値を用いてもよい。

閾値は、以下のように適用される。

ここでの目的は、閾値に対応するパワー特性信号値を修正された値の１つにマッピングすることである。閾値以下の全ての信号値は、０と１の間の信号値にマッピングされる。閾値を超える全ての信号値は、１以上の信号値にマッピングされる。したがって、この処理を実現する単純な手法は、全体のパワー特性信号を１／閾値の値、この場合、３．３３・・・に乗算することである。

これが適切である理由は、次のステップ６４０において、信号にべき乗を適用するためである。この具体例では、各信号を２乗し、すなわち、各サンプル値をそのサンプル値自体の値に乗算する。但し、２以上の乗数として、整数又は非整数を用いてもよい。ステップ６３０及びステップ６４０によって、より高い信号値が強調され、下側の信号値の効果が減少する。これは、０と１の間の如何なる信号数も１より大きなベキ指数で累乗されると（例えば、２乗されると）、より小さくなり、１より大きな信号値は、１より大きなベキ指数で累乗されると大きくなるためである。

べき乗を行った後、ステップ６５０において、べき乗された信号に対し、オプションのハイパスフィルタリング処理を行う。ステップ６６０において、各信号の平均値を減算し、ゼロ平均の信号を生成する（このステップにより、以下の相関ステップ６７０における処理が好適に行われる）。

最後に、ステップ６７０において、パワー特性信号を相関処理する。この処理では、図１７に図式的に示すように、被検査マテリアルからのパワー値をゼロでパディングし、プロキシマテリアルと同じ長さのデータ集合を提供するによって実行される。相関処理は、（望ましくは）ピーク相関を生成し、このピーク位置の中心位置７０２からのオフセット７０１は、２個のファイルの間の時間的なオフセットを示す。このオフセットは、プロキシ又は被検査信号のいずれかに相対的な遅延を適用することによって補正できる。

図１３〜図１７を参照して説明した処理は、（第１の処理から、オフセット７０１を開始位置及び概算値とし選択することによって）より小さいブロックサイズ及び相関が実行されたより狭い範囲に対して繰り返すことができる。もちろん、ブロックサイズを適切に小さくしながら、処理を２回以上繰り返してもよい。処理の利益を得るためには、ブロックサイズは、少なくとも２つのサンプルを含む必要がある。

図１８は、ステップ６０５によって生成されたパワー特性信号及びステップ６６０によって生成されたフィルタリングされたパワー特性信号を図式的に示している。ここでは、閾値は０．３であり、ステップ６４０におけるベキ指数は１．５であり、１／１０の換算を行っている。

破損の回復
破損回復の目的は、海賊版のコンテンツがオリジナルのプロキシバージョンに可能な限り近付くように、海賊版のコンテンツを変換することである。これにより、海賊版からプロキシを減算して算出された被検査ペイロードＰｓが可能な限り小さくなり、この結果、ＳｉｍＶａｌの値は、通常、より大きくなる。

オーディオ信号の場合、以下に列挙するような、偶然に生じた、又は侵害者によって故意に施された様々な歪みの可能性があり、いずれの場合も、これらの歪みによってＳｉｍＶａｌ値が小さくなる。
＊高域、低域、ノッチ、帯域又はパラメトリックフィルタリング
＊圧縮、拡張、リミッティング、ゲーティング
＊オーバードライブ、クリッピング
＊インフレーション、バルブ音及びこの他の音強調効果
＊再サンプリング、Ａ／Ｄ変換及びＤ／Ａ再変換
＊周波数ドリフト、ワウ及びフラッタ、位相反転、バリスピード
＊ＭＰ３及びこれに類する不可逆符号化／復号技術
＊エコー、リバーブ、空間音像定位
＊所謂ディエッシング（de-essing）、ディヒッシング（de-hissing）、ディクラッキング（de-crackling）
これらの破損をできるだけ多く回復するために、フィンガプリント回復構成は、汎用のデコンボルバを備え、デコンボルバは、プロキシ信号に関してトレーニングされ、畳込みフィルタの動作によって生成されたあらゆる作用を大幅に低減又は除去する。デコンボルバの使用例は、電気通信（システム内の多くの異なるパスを通過する信号に課される望ましくないエコーを除去する。）及び保存されたマテリアルの復元プロジェクト（経年劣化を除去し、又は記録設備の性能の悪さから生じたアーチファクトを除去する。）等がある。

簡潔に言えば、デコンボルバは、海賊版の疑いがある被検査オーディオマテリアル及び代理バージョンをＦＦＴ領域に変換することによってトレーニングされる。ここでは、所望の信号（プロキシ）の現実／仮想値を、実際の信号（海賊版）の現実／仮想値で除算（複素除算）し、実際の応答を所望の応答に変換するインパルス応答カーネルのＦＦＴを得る。これにより得られたＦＦＴを円滑化し、先のインスタンスとの平均値を求め、直近における当該オーディオ信号の一般的な変換を表すＦＦＴを導出する。そして、ＦＦＴは、時間領域インパルス応答カーネルに変換され、これにより畳込みフィルタとして適用できるようになる（この処理は、時間領域信号を変換し、「ハミング」窓等の窓同期関数（window-sync function）を適用して、エイリアシング効果を低減する処理を含む）。

よくトレーニングされたデコンボルバを用いれば、原理的には、例えば、マイクロホン圧縮回路によって、海賊版に適用された非線型利得効果の影響を数十分の１に低減することができる。実験的な検査では、デコンボルバにより、１ブロックあたりのＳｉｍＶａｌ値を１５から４０に高めることができた。

図１９は、デコンボルバトレーニングユニット４２０によって適用されるデコンボルバトレーニング処理を図式的に示している。

この処理は、被検査マテリアル（７００）及びプロキシマテリアル（７１０）の両方のブロック毎の高速フーリエ変換（ＦＦＴ）から開始され、ここで、ブロックサイズは、例えば、６４ｋの連続したサンプルであってもよい。除算器７２０は、一方のＦＦＴを他方のＦＦＴで除算する。この場合、被検査マテリアルに適用される変換応答を生成することが目的であるので、除算器は、プロキシマテリアルのＦＦＴを被検査マテリアルのＦＦＴで除算する。

アベレージャ７３０は、除算器７２０からの現在の商と、バッファ７４０に保存されている直近のｎ回の除算の商とを平均化する。もちろんバッファには、最も新しい商が追加され、最も古い商が削除される。ｎは、例えば５としてもよい。生のＦＦＴを保存し、２つの平均値（プロキシマテリアルの平均値と、被検査マテリアルの平均値）を算出し、これらの平均値を除算してもよいが、この処理では、ストレージ要求が大きくなる。

変換器７４０は、複素数である平均された商を、振幅及び位相表現に変換する。

ロジック７５０は、小さい振幅値を除去する。ここでは、振幅値は削除されるが、対応する位相値は、そのまま残される。すなわち、ロジック７５０は、振幅値だけに作用する。削除された小さい振幅値は、一次補間によって、最近の削除されていない振幅値から補間された値に置換される。

図２０及び図２１は、この処理を図式的に示しており、詳しくは、図２０は、振幅／位相変換器７４０の出力を一組の振幅値として図式的に示している（位相値は示していない）。閾値Ｔ_ｍａｇを下回る全ての振幅値は、削除され、一次補間によって、最近の削除されていない値の間で置換値７５１、７５２、７５３に置換される。

これにより得られる振幅値は、ローパスフィルタ７６０によって円滑化された後、コンバータ７７０によって複素表現に戻される。そして、逆ＦＦＴ７８０が適用される。これにより、図２２に示すようなインパルス応答が生成される。被検査マテリアルのデコンボリューションが適切な形式で行われるように、インパルス応答は、ウィンドウサイズを半分に分割して、図２３に示すように、２個の半分のローブが隣接し、中央のピークを形成するように半分のそれぞれが回転される。この処理は、ロジック７９０において実行される。

なお、図２３に示すロジック７９０からの出力は、デコンボリューションに完全には適さない。これは、この応答のサイドローブ７９１が窓全体に亘って存在するためである。デコンボルバ４１０でこのような応答が用いられた場合、エイリアシング問題が発生することがある。したがって、変調器８００は、図２３の応答に、図２４に示すような窓同期関数を乗算し、図２５に示すような必要なインパルス応答を生成する。デコンボルバ４１０には、このインパルス応答が供給される。

レベルマッチング
デコンボルブ処理の後、海賊版の信号をプロキシ信号のレベルに可能な限り一致させる。実際には、ピーク値を一致させるのではなく、２つの信号の平均振幅を照合させた方がよいことが経験的にわかっている。

これらの３つのステップ（時間的アラインメント、デコンボリューション及びレベルマッチング）を行った後、海賊版のマテリアルの信号からプロキシ信号を減算し、被検査ペイロードＰｓを算出する。

被検査ペイロード抽出
なお、埋込処理において雑音シェーピング器から出力されるペイロード信号は、雑音シェーピング器に入力されるガウス雑音ストリームとは大きく異なる。値ＳｉｍＶａｌを発見する目的で、候補ペイロードガウス雑音ストリームに（統計的な意味で）より近似する被検査ペイロード信号を復元するためには、ノイズシェイピング処理の逆の処理、すなわち、ペイロード信号を「逆シェーピング」することが望ましい。

「逆シェーピング」は、雑音ストリームに利得値を乗算することに代えて、除算を実行する点を除いて、同じノイズシェイピングコンポーネントを用いて実現される。

他の可能な手法として、比較の前に候補ペイロードストリームを雑音シェーピングすることも技術的には可能であるが、この手法は、取り決め上の理由から好ましくない。これは、候補ストリームが統計的に独立しているサンプルで構成されるデジタル権利管理システムに採用されている数学的原理に違反するためである。雑音ストリームへのフィルタの適用は、自動的にサンプルに関連付けられる。

他の理由として、検出すべき信号が雑音に埋め込まれている場合、畳込みの技術の方が検出に成功する可能性が高いという理由がある。雑音内で雑音ストリームを探索することは、通常、同様にシェーピングされた他のオーディオ信号内でシェーピングされた信号を探索することに比べて、より効果的で信頼度が高い（遙かに安定した相互相関が生じるため）。

図２６は、データ処理装置を示している。このデータ処理装置は、図１のエンコーダ５０又は図２の検出器８０を実現する一具体例を示しているに過ぎない。なお、少なくとも図１において、プレイアウト装置１０を含む全体のデジタルシネマ構成は、外部の接続がない安全なユニットであることが好ましく、また、少なくともフィンガプリントエンコーダは、例えば、１つ以上のフィールドプログラマブルゲートアレイ（field programmable gate array：ＦＰＧＡ）又は特定用途向け集積回路（application specific integrated circuit：ＡＳＩＣ）等のハードワイヤードデバイスとして実装することが好ましい。

図２６に示すように、データ処理装置は、中央演算処理装置９００、メモリ９１０（例えば、ランダムアクセスメモリ、読出専用メモリ、不揮発性メモリ又はこれに類するメモリ装置）、例えばディスプレイ９３０及び例えばキーボード、マウス又はこれらの両方であるユーザ入力装置９４５にユーザインタフェースを提供するコントローラ９２０、例えばハードディスクストレージ、光ディスクメモリ又はこれらの両方である記憶装置９３０、ローカルエリアネットワーク又はインターネット９５０に接続するためのネットワークインタフェース９４０及び信号インタフェース９６０を備える。図２６では、信号インタフェース９６０は、フィンガプリントが付されていないマテリアルが入力され、フィンガプリントが付されたマテリアルを出力するフィンガプリントエンコーダ５０として示されている。なお、この装置によって、フィンガプリント検出器を実現してもよい。

構成要素９００、９１０、９４０、９２０、９３０、９６０は、バス９７０によって相互接続されている。実際の動作では、コンピュータプログラムは、記録媒体（例えば、光ディスク）によって、若しくはネットワーク又はインターネット接続９５０を介して提供され、メモリ９１０に保存される。ＣＰＵ９００は、命令を順次実行し、上述したようなフィンガプリント符号化又は検出に関する機能を実現する。

フィンガプリントエンコーダを含むデジタルシネマ構成を示す図である。フィンガプリント検出器を示す図である。フィンガプリントエンコーダの動作の概略図である。ペイロード生成器を示す図である。フィンガプリントストリーム生成器を示す図である。スペクトル解析器を示す図である。スペクトルフォロワを示す図である。エンベロープフォロワの動作を図式的に示す図である。エンベロープフォロワの動作を図式的に示す図である。エンベロープフォロワの動作を図式的に示す図である。エンベロープフォロワの動作を図式的に示す図である。フィンガプリント検出器の動作の概略図である。時間的アラインメントユニットの動作の一部を示すフローチャートである。ブロックに分割された被検査マテリアル及びプロキシマテリアルを示す図である。ローパスフィルタ構成を示す図である。閾値信号を示す図である。相関処理を示す図である。パワー曲線を示す図である。デコンボルバトレーニング処理を示す図である。振幅曲線を示す図である。閾値及び補間された振幅曲線を示す図である。図１９に示す処理の途中の結果を示す図である。インパルス応答を示す図である。円滑化曲線を示す図である。円滑化されたインパルス応答を示す図である。データ処理装置を示す図である。

Claims

プライマリオーディオ信号にペイロード信号（１６０）を挿入するオーディオ信号処理装置において、
上記ペイロード信号に基づいて雑音信号を生成する雑音発生器（２２０〜２３６）と、
上記プライマリオーディオ信号の信号レベルを検出するレベル検出器（３００〜３０７）と、
上記プライマリオーディオ信号の検出された信号レベルの増加又は減少に応じて上記雑音のレベルを増減し、変調された雑音信号（３４０）を生成する変調器（３２０〜３２７）と、
上記プライマリオーディオ信号及び変調された雑音信号（３４０）を結合する結合器（１４０）と、
信号遅延回路（１５０）とを備え、
上記変調器（３２０〜３２７）は、上記信号遅延回路（１５０）に関連して動作し、上記プライマリオーディオ信号の信号レベルの対応する減少に対して、上記雑音信号のレベルの減少を時間的に進めることを特徴とするオーディオ信号処理装置。
上記変調器は、信号遅延構成に関連して動作し、上記プライマリオーディオ信号の信号レベルの対応する増加に対して、上記雑音信号のレベルの増加を時間的に進めないことを特徴とする請求項１記載のオーディオ信号処理装置。
上記ペイロード信号は、法的マーク信号（forensic marking signal）であることを特徴とする請求項１又は２記載のオーディオ信号処理装置。
上記雑音発生器は、少なくとも幾つかのペイロード信号がシードとして供給される疑似ランダム雑音発生器であることを特徴とする請求項１乃至３いずれか１項記載のオーディオ信号処理装置。
上記雑音発生器は、セキュリティキーに基づいて、少なくとも一部のペイロードデータを暗号化することを特徴とする請求項４記載のオーディオ信号処理装置。
上記結合器は、上記プライマリオーディオ信号に変調された雑音信号を加算することを特徴とする請求項１乃至５いずれか１項記載のオーディオ信号処理装置。
それぞれ２つ以上の可聴周波数帯域に関して動作する２組以上のレベル検出器、変調器及び結合器と、
上記２つ以上の結合器の出力を結合する結合手段（３３０）とを更に備える請求項１乃至６記載のオーディオ信号処理装置。
プライマリオーディオ信号にペイロード信号を挿入するオーディオ信号処理方法において、
上記ペイロード信号に基づいて雑音信号を生成するステップと、
上記プライマリオーディオ信号の信号レベルを検出するステップと、
上記プライマリオーディオ信号の検出された信号レベルの増加又は減少に応じて上記雑音のレベルを増減し、変調された雑音信号を生成するステップと、
上記プライマリオーディオ信号及び変調された雑音信号を結合するステップとを有し、
上記プライマリオーディオ信号の信号レベルの対応する減少に対して、上記雑音信号のレベルの減少を時間的に進めるオーディオ信号処理方法。
コンピュータ上で実行されて、該コンピュータに請求項８記載のオーディオ信号処理方法を実行させるプログラムコードを有するコンピュータソフトウェア。
請求項９記載のコンピュータソフトウェアを記録したコンピュータ読み取り可能な媒体。
当該媒体は、記録媒体であることを特徴とする請求項１０記載の媒体。
当該媒体は、伝送媒体であることを特徴とする請求項１０記載の媒体。