JP3274667B2

JP3274667B2 - オーディオデータへ付加情報を埋め込む方法およびシステム

Info

Publication number: JP3274667B2
Application number: JP26924499A
Authority: JP
Inventors: 誠士小林; 定遠陳; 良明大嶋; 周一清水; 典繁森本
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-09-29
Filing date: 1999-09-22
Publication date: 2002-04-15
Anticipated expiration: 2019-09-22
Also published as: JP2000172282A; CN1199180C; KR100341197B1; GB2343818B; CN1249517A; GB2343818A; US6526385B1; KR20000022748A; GB9922676D0

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はオーディオ信号がデジタ
ル化されたオーディオデータに対し著作権情報等の付加
情報を埋め込み、検出する方法およびそのシステムに関
し、特に付加情報を埋め込んだオーディオデータの音質
に著しい劣化を引き起こさない範囲での改変に対して、
埋め込んだ情報を信頼性をもって検出できる方法および
そのシステムに関する。

【０００２】

【従来の技術】現在、デジタル化された音楽コンテンツ
はCD のみでなく、インターネットを経由しても提供さ
れはじめている。このようなデジタル・オ−ディオデ−
タでは、何度聞いても音質の劣化がないという利点があ
る反面、完全な複製が容易に多量に作成できてしまうの
で、以前にまして不正コピ−防止技術が重要となってい
る。これらの不正なコピーを防ぐためには、あらかじめ
著作権情報等をオ−ディオデ−タ自身に埋め込むことで
著作権の所在を明確にすることや、また、コンテンツ配
布先の情報を埋め込むことで不正なコピーが出回った場
合にもその流出経路を追跡することが考えられる。この
とき、コンテンツの商品価値を下げないためには、情報
の埋込みによる音質の変化が人間の耳に聞こえてはなら
ない。また、コンテンツにはフィルター処理、MPEG やA
C3 やATRAC などの圧縮解凍、デジタルからアナログへ
の変換とアナログからデジタルへの変換、切り出し、再
生速度の変化などの処理が行われることが考えられるの
で、オーディオデータの音質に著しい劣化を引き起こさ
ない範囲でのデータ値の変更、欠損、挿入、リサンプリ
ングに対し、埋め込んだ情報が生き残る必要がある。

【０００３】従来のオーディオデータへの付加情報の埋
め込み検出手法は、機密性に優れているものの、人間の
聴覚では検知できないように付加情報を弱く埋め込む
と、圧縮解凍、フィルター、デジタル／アナログ変換な
どのデータ処理に対し、埋め込んだ付加情報が消えてし
まうなど、耐性面で問題があった。オーディオデータへ
の付加情報の埋め込み検出手法として一般的なのはPN(P
seudo-random Noise)での変調による拡散スペクトラム
（Spread Spectrum）法である。この手法では、時間領
域で、疑似ランダムに見えるノイズで付加情報を変調し
て埋め込む。結果として、周波数空間では埋め込み情報
に対応する成分のスペクトルが広がって見える。上記に
属する技術としては USP 4979210, 5073925，5319735
などがある。

【０００４】これら手法では、適当な暗号技術（例えば
DES）で生成された+1 と1 からなる疑似乱数列Rn を使
ってビット列情報Bm を変調し、オーディオのサンプル
列Anに次のように変調して埋め込む。

【数１】ここで、 Bm は+1 または1 で１ビットを表わすとし、
また、n = 0, 1,...N-1で、ｃは埋め込みの強さであ
る。検出では、

【数２】で、ビット列情報を抽出する。列Rn がランダムであれ
ば、ΣA_Nm+n R_Nm+nが打ち消しあうことが期待できるか
らである。時間軸での埋め込みでは、人間の聴覚の周波
数特性を利用できず音質の劣化の制御が難しいので、埋
め込みによる音質の変化が耳で検知できないよう弱く埋
め込むと、圧縮解凍などの処理に埋め込み情報が生き残
らなかった。これに対し、USP 5687191 では、情報を埋
め込む際、時間信号であるサンプル列をポリフェーズフ
ィルタにより複数の周波数帯に分解し、各周波数帯ごと
に疑似ランダムなノイズで情報を変調して埋め込む。こ
の利点は、周波数帯ごとに異なる埋め込み強度が使用で
き、人間の聴覚の周波数特性を利用できることにある。
これにより、これまでの手法の中では、音質の劣化がな
く耐性のある埋め込みを実現した。

【０００５】USP 5613004 や USP 5687236 の手法は、
本発明と同じく、周波数変換された周波数成分に情報を
埋め込み検出する。これらは機密性を高めるために信号
拡散の手段として周波数空間での埋め込み・検出を提案
する。しかしながら、上記 USPでは高音質で高耐性の埋
め込み・検出手法を提供しない。これらの手法では、無
圧縮のデジタルオーディオのサンプル列を区切って互い
に重ならない領域(ウィンドウと呼ぶ）に分け、各々にF
FT（Fast Fourier Transformation）を適用する。プラ
イマリマスク（primary mask）とコンボルーショナルマ
スク（convolutional mask）は、FFT で得られた周波数
成分に1 ビットの信号を埋め込むか否かを制御するのに
用いられる。プライマリマスクとコンボルーショナルマ
スクはともに疑似ランダムなビット列で、プライマリマ
スクのサイズは周波数の数に対応する。各ウィンドウは
コンボルーショナルマスクの特定の位置に対応し、その
ウィンドウの各周波数成分に埋め込むか否かを、周波数
に対応する位置のプライマリマスクのビット値とウィン
ドウに対応する位置のコンボルーショナルマスクのビッ
ト値との論理演算の結果が真か偽で埋め込むか否かを決
める。

【０００６】埋め込みの手法については、USP 5613004
では、埋め込み周波数成分の特定のビット位置にマップ
情報（付加情報から作成された冗長性を含んだビット
列）のビットを埋め込むとし、USP 5687236 では、埋め
込み周波数成分を、元の値に対して相対的に事前に定め
られた範囲に入るよう変更することでビットを埋め込む
としている。いずれの場合も１ビットを１周波数成分に
埋め込むとしており、埋め込んだ情報の機密性はプライ
マリマスクとコンボルーショナルマスクとで守られてい
るが、圧縮・解凍や各周波数成分でのランダム・ノイズ
付加などのデータ処理には埋め込んだ情報が生き残らな
い。

【０００７】またメッセージ開始の区切り（start of m
essage delimiter）は、比較的長いビット列からなる符
号で、検出ビット列上でウィンドウの区切りとメッセー
ジ開始位置を検出するために用いる。彼らの明細書によ
れば、1 ウィンドウあたり128サンプルとして64 ビット
が埋め込まれ、16 ウィンドウで1024 ビットの符号がで
き、これが偶然一致する確率は非常に小さいから、特定
の1024ビット符号をメッセージ開始の区切りとして使用
できるとしている。ウィンドウの区切りやメッセージ開
始位置の探索は、メッセージ開始の区切りを検出するま
でウィンドウの開始位置を1 サンプルづつずらすことで
行う。この手法では、埋め込み付加情報は長ければ、メ
ッセージ開始位置の探索にかかる負荷が大きくなり、デ
ジタル／アナログ変換で頻繁に起きるデータ欠損・挿入
による再同期の必要性には対応できない。

【０００８】

【発明が解決しようとする課題】従って、本発明が解決
しようとする課題は、オーディオデータに対し著作権情
報等の付加情報の埋め込みによる音質の変化を人間の聴
覚では検知できないように埋め込みながら、一方で、音
質に著しい劣化を引き起こさない範囲でのオーディオデ
ータへの処理に対し、埋め込んだ付加情報が残り、信頼
性をもって検出できるための方法およびそのシステムを
提供することである。また別の課題は、高音質で高耐性
の埋め込み・検出が可能な、オーディオデータへ付加情
報を埋め込み・検出方法およびそのシステムを提供する
ことである。また別の課題は、オーディオデータのサン
プル列を周波数変換し、周波数空間上で操作を加えるこ
とにより、付加情報を埋め込む方法およびシステムを提
供することである。また別の課題は、圧縮・解凍や各周
波数成分でのランダム・ノイズ付加などのデータ処理に
耐えられる、オーディオデータへ付加情報を埋め込む方
法およびシステムを提供することである。また別の課題
は、埋め込まれた付加情報の探索にかかる負荷を小さく
できる、オーディオデータへ付加情報を埋め込み・検出
方法およびそのシステムを提供することである。また別
の課題は、デジタル／アナログ変換で頻繁に起きるデー
タ欠損・挿入による再同期の必要性に対応できる、オー
ディオデータへ付加情報を埋め込み・検出方法およびそ
のシステムを提供することである。

【０００９】

【課題を解決するための手段】上記課題を解決するため
に、まず本発明は、無圧縮のデジタル・オーディオデー
タに対し、人間の聴覚ではその変化が検知できないよう
著作権情報等の付加情報を埋め込む「埋め込みシステ
ム」と、圧縮解凍や切り取りなどの処理が施されても、
付加情報が埋め込んであるか否かを判定でき、埋め込ん
であるならばその情報を抽出する「検出システム」とか
らなる。

【００１０】各チャネルの無圧縮のデジタル・オーディ
オデータは、サンプルと呼ばれる整数の列からなる。CD
品質のオーディオデータでは、各チャネルが1 秒あた
り44,100 個の16 ビット長のサンプルの列からなる。本
発明では、聴覚心理モデルを適用できるよう、周波数空
間で埋め込み、検出を行う。従って、本発明の埋め込み
システム、検出システムでは、サンプル列を適当に区切
り、各々を周波数空間に変換する。この周波数変換の対
象となるサンプル列の各区間をここではフレーム(fram
e) と呼ぶ。

【００１１】図４に本発明の付加情報埋め込み処理の流
れを示す。ステップ４１０では、周波数毎に埋め込み信
号の位相を定めるマスクを用いて、オーディオデータの
各フレームを周波数空間に変換し、付加情報に対応する
ビット情報や同期信号を周波数成分に埋め込み、周波数
空間から時間軸上のサンプル列に再び戻す。埋め込みで
は、フレーム同士は重ならないが、隙間があっても良
い。切り取り耐性を要するときは、付加情報は繰り返し
て埋め込む。

【００１２】図５に本発明の付加情報検出処理の流れを
示す。ステップ５１０では、入力されたオーディオデー
タのサンプル列からフレームの開始点を探す。ステップ
５２０で、付加情報が埋め込んであると判定されれば、
検出マスクを用いて、周波数成分に埋め込んだビットを
抽出し、次にステップ５３０で付加情報の繰り返しの開
始点を探し、埋め込んだ付加情報を復元する。

【００１３】本発明は、人間には不可聴だが処理耐性の
ある情報を各フレームで埋め込み、検出する手法とその
システム、検出時に正しいフレームの開始・終了位置を
探すフレーム同期の手法とそのシステム、各フレームで
検出された個々のビット情報からビット列（メッセー
ジ）を復元するためのビット繰り返しの開始・終了位置
を探すためのメッセージ同期の手法とそのシステムとか
ら構成される。

【００１４】より具体的には、オーディオデータへ付加
情報を埋め込むにあたり、まずオーディオデータを周波
数変換し、オーディオデータに基づき、前記オーディオ
データに付加情報を埋め込むことのできる周波数の変更
範囲を決定し、付加情報埋め込み用のマスクを生成す
る。そして、周波数変換されたオーディオデータの前記
埋め込むことのできる周波数の変更範囲に、付加情報
を、付加情報埋め込み用のマスクを用いて埋め込む。最
後に付加情報の埋め込まれた周波数変換されたオーディ
オデータを、オーディオデータに逆変換するように構成
する。逆に、オーディオデータに埋め込まれた付加情報
を検出するには、まずオーディオデータを周波数変換
し、周波数変換されたオーディオデータから、付加情報
検出用のマスクを生成し、付加情報検出のための同期を
とる、同期検出手段を設ける。そして周波数変換された
オーディオデータから、同期をとりながら、付加情報検
出用マスクを用いて、付加情報を検出するように構成す
る。

【００１５】

【発明の実施の形態】以下、オーディオデータへの付加
情報を埋め込み・検出の各手法とそのシステムに関し、
より詳細に説明する。

【００１６】［各フレームでの埋め込み／検出の手法とそのシステ
ム］フレームは周波数空間への変換の単位となるサンプル列
上の区間のことである。ここでは、各フレームでの埋め
込み、検出する手法とそのシステムについて記述する。
効果的に聴覚心理モデルを適用するためには、フレーム
に含まれるサンプルの数は、USP 5613004 や5687236 の
発明の明細に記載されている128 より大きい数、512 か
ら4048 程度の数が適切である。

【００１７】以下では、無圧縮のオーディオデータに対
し、m 番目のフレームのn 番目のサンプルをAm(n) と記
し、m 番目のフレームに周波数変換を行なって得た周波
数kの成分をFm(k)と記す。フレームとフレームの間に隙
間がなければ、フレームのサンプル数をNとすると

【数３】である。各周波数成分は実部と虚部からなる複素数だ
が、元のサンプルが実数なので、Fm (k) とFm (N-k) =
Fm (-k) とは複素共役の関係にある。すなわち、独立な
周波数の数はフレームのサンプル数の半分 N/2 とな
る。複素数を2 次元ベクトルとみなして、形式的に

【数４】で内積を定義し、以下の記述で使用する。ここで、添え
字、x およびyはそれぞれ実部、虚部を指す。このと
き、定義よりα・α＝｜α｜²となる。埋め込みシステ
ム、検出システムは、周波数kに対して疑似ランダムな
値をとる複素数列Mp(k) を複数個共有しているものと
し、以下ではマスクと呼ぶ。ただし、埋め込みが時間領
域で実数であるために、Mp(k) とMp(-k) とは複素共役
の関係にあるものとする。また、Mp(k) が絶対値１の複
素数のみからなるなら、その位相は疑似ランダムな向き
をとっているものとし、また、Mp(k) が純虚数なら、虚
数軸に沿って疑似ランダムとする。すなわち、Mp(k) の
とりうる範囲には目的によって適切な制限があるものと
する。

【００１８】［フレームでの信号の埋め込み］図６に本発明のフレームでの信号の埋め込み処理の流れ
を示す。まずステップ６１０でサンプル列をフレームに
分割する。そしてステップ６２０で分割したフレームの
各フレームを周波数空間に変換する。ステップ６３０で
は、得られた周波数成分を使って聴覚心理モデルを適用
し、平均的な人間の聴覚では検知できない変更範囲を各
周波数ごとに求める。そしてステップ６４０では、擬似
乱数より得られるマスクの向きに各周波数成分の値をこ
の求めた範囲内で最大に変更することにより、ビット情
報や符号情報や同期信号を埋め込む。このとき、音質よ
り耐性が重要な場合、各マスクに対する内積を計算し、
内積の値が耐性が要する閾値より小さい場合は、聴覚心
理モデルの最大の変更範囲を超えても、その閾値に達す
るまで変更幅を大きくする。音質が重要な場合、内積が
耐性の要する閾値より大きければ、その閾値に達するま
で変更幅を小さくする。各周波数成分での変更が終了す
ると、ステップ６５０で、変更された周波数成分に逆変
換を行い、周波数空間から時間軸上のサンプル列に再び
戻す。ビット情報や同期信号の埋め込みは、各フレーム
での周波数変換でえられた周波数成分Fm(k)を、

【数５】と変更することでなされる。周波数成分は複素数なの
で、変更hm (k) も複素数である。聴覚心理モデルなど
の聴覚心理モデルを周波数分布Fm に適用して、平均的
な人間の聴覚ではその差異を検知できない変更hm (k)
の範囲を各周波数kごとに求める。検知できない変更範
囲は2 次元空間で一般には複雑な形状をなしている。こ
のため、変更hm (k)が人間の耳では検知できない最大の
変更であるとは必ずしも絶対値｜hm (k)｜が単純に最大
値であるとは限らず、一般には変更範囲の境界上にある
ことを言う。聴覚心理モデルとは、大きな純音があると
その前後の周波数成分の変更が人間の耳に検知しにくく
なるなど、周波数のスペクトル分布に応じて各周波数で
の差異が検知できない変更範囲が変わることをコンピュ
ータ上で模擬的に実現するものである。

【００１９】マスクの向きに埋め込むとは、内積

【数６】が、意図した符号、または値になるよう各周波数成分を
変更することを言う。ここで、C(Fm, k) は、周波数分
布Fm と周波数kに依存する正の規格化定数で、統計推定
の信頼度をあげるためのものである。各マスクが互いに
ほぼ直交していれば、埋め込みによる周波数成分の変更
を

【数７】とし、実定数bpはおのおのマスクの内積Xp(m) の意図す
る符号、値に比例して決め、正定数a(k) は平均的な聴
覚では検知できない変更範囲の境界上にあるように調整
すれば良い。規格化定数C(F'm, k) は埋め込み結果に依
存するので、正定数a(k) を求める処理は逐次的とな
る。

【００２０】埋め込みは各フレーム単位で行うので、埋
め込むビット値が違うなどの理由で隣り合うフレーム間
で変更値が異なると、フレームの区切りA'_m(N-1)、A'
_m+1(0)で大きな不連続が生じ、ノイズとして聞こえてし
まう可能性がある。そこで、すべてのフレームの両端で
変更幅が小さくなるよう、各周波数成分の変更の仕方や
マスクの形状を限定することで、音質の劣化を防ぐ。例
えば、各周波数成分の変更を純虚数に制限し、マスクも
純虚数とする。変更を純虚数に制限することは、時間軸
上では各フレームで正弦波からなる信号を埋め込むこと
と同じ。別の例とし、各周波数成分の変更とマスクをと
もに実数に制限するとともに、偶数の周波数からなる対
{2k,2k'} や奇数の周波数からなる対{2k+1, 2k'+1} を
作り、フレームの両端で互いに打ち消すよう、

【数８】

【数９】と、対をなす周波数のマスクや変更値の大きさが同じだ
が符号を反対にとる。変更を実数に制限することは、時
間軸上では各フレームで余弦波からなる信号を埋め込む
ことと同じである。

【００２１】また、マスクが互いに直交するよう選択す
ることで、順次、異なるマスクに対応して埋め込んで
も、互いに相手の埋め込んだ情報を壊したり、相手の埋
め込みで検出が誤ることのないようにできる。これによ
り、サーバにオーディオデータをアップロードする前に
音源の著作権情報を埋め込み、インターネット経由で消
費者がそのオーディオデータをダウンロードした後で、
ユーザID などの追跡情報を埋め込み、互いに干渉しな
いようにできる。例えば、マスクの値Mp(k) がゼロでな
い周波数kを限定された領域にとり、異なるマスクは異
なる領域がゼロでないようにとると、規格化定数C(Fm,
k) に依存せずに直交性を保つことができる。このと
き、各マスクのゼロでない周波数領域が単一の周波数帯
域ではなく、幅広い周波数にまたがるよう、複数の区間
にとることで、音質と耐性とを同時に向上させることが
できる。MPEG 圧縮処理では、ゲインを制御するパラメ
ータ(scale factor)を周波数帯(scale factor band) 毎
に定めるなど、周波数帯域毎に違ったパラメータで圧縮
を行っている。そのため、周波数帯を単純に分割し、各
マスクに単一の区間を割り当てると、コンテンツによ
り、マスクごとの耐性に著しい差異が生じてしまう。従
って、圧縮処理の単位となる周波数帯域（サブバンド）
よりも狭い幅で帯域分割し、低音とか高音とかにそれぞ
れの埋め込み周波数帯域が集中しないよう周波数帯域を
集めて、互いに直交するマスクを合成するものとする。

【００２２】上記のように、本発明の各フレームでの埋
め込み手法は、従来技術と異なり、・1 ビットを１周波数成分に埋め込むのではなく、幅広
い周波数領域の各周波数成分をマスクの向きに変更して
埋め込むこと、・変更幅を周波数ごとに事前に決めておくのではなく、
周波数変換で得た周波数分布に基づいて人間の耳では検
知できない最大の変更範囲を各周波数ごとに求め、それ
に基づいて各周波数成分の変更幅を定めること・時間軸上で各フレームの両端で変更幅がゼロに近づく
よう、マスクと周波数成分の変更に制限を加えること・周波数を狭い帯域に分け、周波数が偏らないよう複数
の帯域を集めて直交するマスクを作成し、互いに相手を
壊さない多重の埋め込みを可能とすることに特徴があ
る。

【００２３】［フレームでの信号の検出］図７に本発明のフレームでの信号検出処理の流れを示
す。ステップ７１０でサンプル列を複数のフレームに分
割する。ステップ７２０でこれらの各フレームを周波数
空間に変換する。そしてステップ７３０で、検出用マス
クとの内積を求める。抽出の信頼性を上げるために、必
要に応じて、同じ情報が埋め込んであると知っている別
のフレームの内積を、適切な符号を掛けて加える。すな
わち、同符号で埋め込んであることを知っていれば同符
号で加え、反対符号で埋め込んであることを知っていれ
ば、符号を反転して加える。最後にステップ７４０で内
積の符号、もしくは、どのマスクとの内積が大きいか
で、ビット情報を抽出する。各フレームで、周波数成分
Fm (k) とマスクMp(k) との内積を

【数１０】で計算する。ここで規格化定数C(Fm, k) は、統計推定
の信頼度をあげるために導入された、周波数分布と周波
数に依存する正の数である。一般に周波数スペクトル|F
m(k)| は一様に分布しておらず、低周波成分から高周波
成分にかけて振幅が減ってゆく傾向にあるが、使用する
音源や曲の狙うテーマなどでコンテンツによっても、周
波数スペクトル分布は大きく揺らぐ。統計推定の信頼度
を上げるとは、人間の聴覚では検知できない範囲での最
大の変更を行ったときの統計平均<Xp(m) >の二乗が、何
も埋め込まないときの二乗統計平均< Xp(m)²>より大き
くなるようにすることである。

【数１１】かつ

【数１２】であるので、統計推定の信頼度を最も上げる規格化定数
は

【数１３】で、このとき、

【数１４】となる。ここで、c は任意の定数で、a(k) は平均的な
聴覚では検知できない最大の変更幅である。

【００２４】規格化定数の分母の< (Mp(k)・Fm(k))² >
は統計平均で何を母集団に取るかにより変わるが、フレ
ームの開始点が揺らいでいるというモデルを使うと

【数１５】で近似でき、

【数１６】を得る。しかし、分母がゼロになると困るので、|Fm(k)
| がa(k) より小さいときはそれと置き換えるか、また
は、

【数１７】とする。この置き換えまたは式の変更による上限の設定
は、埋め込み後、人間の聴覚で聞こえない程度のランダ
ムな変更は圧縮・解凍などで頻繁に生じることを考える
と妥当な近似である。上記で、さらに、a(k) が|Fm(k)|
に比例するとういう単純な聴覚モデルを使用すると、

【数１８】となり、|Fm(k)| が閾値より小さければ置き換えるもの
とする。取り出された内積の信頼度は、まず、

【数１９】を計算し、

【数２０】が正規分布に従うと仮定することでフォルスポジティ
ブエラー（False Positive Error）を計算できる。

【００２５】オーディオデータは、すべてのサンプルAm
(n) を同時に−Am(n) と変えても、如何なる音質の変化
も生じない。このデータ処理を極性の反転と呼ぶが、機
器をつないでデータを流すとき、極性の反転は組み合わ
せによって生じる。従って、内積Xp(m) またはXp(m)の
符号で単純にビットを定めると、極性の反転に弱くな
る。この解決策として、・符号用マスクとビット用マスクとを用意し、ビット用
マスクの内積に符号用マスクの内積をかけたものの符号
でビットの値を抽出するか・ビットの値0 用のマスク、ビットの値1 用のマスクを
用意し、どちらのマスクの内積の値が大きいかでビット
の値を抽出するかの二つの方法があるが、後者は前者の
変形とみなすことができる。

【００２６】後者の解決策では、1 ビットの情報を埋め
込むのに二つのマスクM0(k) とM1(k)を使い、それぞれ
の内積X₀(m) とX₁(m) を求め、

【数２１】すなわち、M₀(k) がビット０用のマスクを、M₁(k) がビ
ット１用のマスクを表わしている。しかし、この方式
は、符号用マスクMs(k) とビット用マスクMb(k) を用い
る方式の一つとしてみなすことができる。すなわち、

【数２２】とすると、対応する符号用内積Xs(m) とビット用内積Xb
(m) にも、

【数２３】の関係が成り立つので、

【数２４】となる。この式より、Xs(m) が正ならば、Xb(m) が負の
ときビット０、Xb(m) が正のときビット１とし、Xs(m)
が負ならば、Xb(m) が負のときビット１、Xb(m)が正の
ときビット０として解釈すればよいことがわかる。

【００２７】Ms(k) のように、そのマスクの内積の符号
で、他のビット用マスクの内積の解釈を変えるものを符
号用マスクと呼ぶ。極性の反転を検出し、正しくビット
を解釈するためならば、１回の埋め込みには一つの符号
用マスクで充分で、この符号用マスクの内積の符号で、
他の複数のビット用マスクの内積の符号の解釈を変えれ
ば良い。また、極性は短い間隔で揺らぐことは通常ない
ので、符号用マスクの信号は弱く埋め、その分、ビット
用マスクの信号を強く埋めてその信頼度をあげ、符号用
マスクの信号についてはフレームについて蓄積し、信頼
度を上げる。符号用マスクの信号は常に同じ向きに埋め
込むとすると、内積と分散を

【数２５】と連続するフレームm の和で求める。検出の対象となる
オーディオデータは極性の反転や時間軸上でのデータの
揺らぎを受けているかもしれないので、和のフレーム数
はあまり大きくできない。この符号用マスクはフレーム
同期用マスクや埋め込み有り無し判定と共用してもかま
わない。埋め込み有り無し判定は

【数２６】で行う。ここでt は判定の閾値で、対応するフォルスポ
ジティブエラーは

【数２７】が正規分布に従うとして計算する。このように、符号用
マスクを用いるほうがより有用である。

【００２８】上記の様に、本発明の各フレームでの検出
手法は、従来技術と異なり、・周波数成分と疑似ランダム列のマスクとの単純な内積
をとるのではなく、周波数分布から決まる周波数依存の
規格化定数を掛けて内積を計算していること、・マスクとの内積の符号だけから単純にビットの値を定
めているのではなく、符号用マスクの内積の符号で他の
マスクのビット値の解釈を変えていること、・符号用マスクをすべてのフレームで同じ向き、また
は、交互に反対符号で埋め、フレーム間にまたがって集
め、信頼性を上げること、・蓄積された符号用マスクの内積を用いて埋め込みの有
り無しを判定することに特徴がある。

【００２９】［フレーム同期の手法とそのシステム］各フレームでの信号の検出では、サンプル列が埋め込み
時のフレームに正しく分割されているとしている。実際
のオーディオデータは、情報が埋め込まれた後、オーデ
ィオデータが時間方向に伸縮したり、切り取られるなど
しているかもしれないので、検出の最初、および、埋め
込みの有り無し判定で有りの信頼度が低い場合などに、
オーディオデータの時間軸の伸縮率の推定や埋め込み時
のフレームの開始位置の探索を行う必要がある。

【００３０】［位相を利用してフレーム開始位置の探索する手法］もし各フレームでの信号の埋め込みが充分に大きけれ
ば、サンプル列から開始位置を1サンプルづつずらして
仮の１フレームをとり、重ね和せ、周波数変換を行い、
各マスクとの内積の絶対値の和が最大となる位置を埋め
込み時のフレームの開始位置として推定する。もし埋め
込みによる音質の劣化を防ぐために弱く埋め込まれてい
るのであれば、埋め込みシステムで連らなるフレームの
間隔をすべて同じにとることで、検出システムにおいて
も、同じ開始位置のづれが複数の連なるフレームに適用
できるとして、単一フレームで開始位置を判断するので
はなく、複数のフレームに関して同時に良い値を与える
開始位置を１サンプルづつずらして探索することで、埋
め込み時のフレームの開始位置を精度よく推定できる。
しかし、いずれの場合も、このままでは、１サンプルづ
つずらしながら、その試しの開始位置での各フレームに
FFT を行うことになり、フレーム同期のための開始位置
探索の計算時間がかかり過ぎる。従って次の工夫で計算
を早める。図８に本発明の位相を利用してフレーム開
始位置を探索する処理の流れを示す。埋め込みシステム
は、ステップ８１０で、サンプル列を隙間なく仮のフレ
ームに分割し、ステップ８２０でフレームを重ね合せ、
ステップ８３０で周波数変換する。一方フレーム同期用
マスクデータ（このフレーム同期用マスクは符号用マス
クと同一でもよい）はステップ８４０で位相が回転さ
れ、各フレームに同じフレーム同期用マスクで同じ向き
に埋め込むとすると、ステップ８５０で、周波数変換さ
れたフレームと回転したフレーム同期用マスクとの内積
を計算し、ステップ８６０でこの内積が最大となる位置
を埋め込み時のフレームの開始位置とする。もしそうで
なければ、処理はステップ８４０へ戻る。各フレームで
同じ信号が埋まっているので、検出システムでは、フレ
ーム区切りが埋め込み時のフレームの区切りからずれて
いても、埋め込み時のフレーム幅の倍数の幅のサンプル
列があれば、フレーム同期用マスクを位相回転（ステッ
プ８４０）させることで検出できる。時間軸上でvサン
プルだけフレームが移動することは、周波数空間では位
相が2πkv／Nだけ回転すること、すなわち、フレーム同
期用マスクMs(k) をMs(k)e^j2πkv／Nに置き換えること
である。ここでjは虚数単位である。

【００３１】具体的には以下の手続きで埋め込み時のフ
レームの開始位置を推定する。 (1)仮のフレーム区切りのまま、サンプルAm(n) を重ね
集め、１フレームのデータ

【数２８】を合成し、FFT などで周波数変換をし、周波数成分 F
(k) を得る。 (2)フレーム区切りの位置をずらすかわりにフレーム同
期用マスク Ms(k) の位相を回転して、内積

【数２９】を各vについて計算し、最大の|Sync(v)| を与えるvを求
め、埋め込み時のフレームの区切りの開始位置はこの仮
りの区切りの開始位置よりvサンプル先にあると推定す
る。

【００３２】ここで、得られたSync(v) を、ビット用マ
スクの内積の解釈を変える符号用マスクの内積の代用と
して使用することもできる。いま、仮りの区切りが埋め
込み時の位置だとすると、上記のSync(v) は

【数３０】と予測される。ここで、λ(k) は埋め込み後の劣化から
くる揺らぎで、劣化が少なければ１に近い。高周波は圧
縮解凍で落ちやすい。従って上記を次でさらに近似す
る。

【数３１】すなわち、Sync(v) は一般には最適のvの周りで振動
し、その解像度はN/(kmax -kmin + 1)であると予測され
る。従って、フレーム同期用マスクのゼロでない周波数
が幅広く分布していることが望ましく、少なくとも、フ
レーム同期用マスクはビット用マスクと同じ周波数域を
使うべきである。

【００３３】［位相のそろった信号の埋め込みによる伸縮率の推定手
法］図９に、位相のそろった信号の埋め込みによる伸縮率の
推定処理の流れを示す。埋め込み時のフレーム区切り位
置の推定では、オーディオデータの時間軸上での伸縮は
ないとしている。伸縮があった場合に埋め込み信号を検
出できるために次のようにして伸縮率を推定する。埋め
込みシステムと検出システムが一つまたは複数の特定の
周波数を知っていて、埋め込みシステムは、ステップ９
２０で平均的人間の聴覚でその変化が検知できない範囲
で、その周波数が各フレームでできるだけ同じ位相にな
るように変更する。検出システムではステップ９３０で
フレームの幅を変更し、フレーム幅の変更を時間軸上の
伸縮率として変更された周波数の位相が各フレームでそ
ろっているかをステップ９５０でテストし、ステップ９
６０において、最もそろっているフレーム幅の変更で、
時間軸上の伸縮率を定める。

【００３４】いま、フレーム幅 N'でのサンプルをA_m
^(N')(n) = A_N'm+n と記し、それに対応する周波数成分
を

【数３２】と記す。もし、時間軸上の伸縮でフレーム幅Nがフレー
ム幅N'に伸縮したのであれば、埋め込み時のFm^(N)(k)
は検出時のFm^(N')(k) に変換されるだけである。従っ
て、埋め込みシステムと検出システムが特定の周波数ki
を互いに知っていて、埋め込みシステムはその位相Fm
^(N)(ki)=|Fm^(N)(ki)| がすべてのフレームm でできるだ
け等しくなるよう埋め込み、検出システムでは、フレー
ム幅を変えて各周波数kiで

【数３３】が最大値をとるフレーム幅N'を求め、その比N'/Nで時間
軸上の伸縮率を求める。互いに知っている周波数kiが複
数あるとき、

【数３４】または、

【数３５】を最大にするフレーム幅N'を求め、その比N'/Nで時間軸
上の伸縮率を求める。

【００３５】この変形として、埋め込みシステムと検出
システムが一つまたは複数の特定の周波数を知ってい
て、埋め込みシステムは、平均的人間の聴覚でその変化
が検知できない範囲で、その周波数が各フレームででき
るだけ同じ位相と振幅になるように変更し、検出システ
ムではフレームの幅を変更し、フレーム幅の変更を時間
軸上の伸縮率として変更された周波数の位相が各フレー
ムでそろっているかをテストし、最もそろっているフレ
ーム幅の変更で、時間軸上の伸縮率を定める。

【００３６】いま、埋め込みシステムと検出システムが
特定の周波数kiを互いに知っていて、埋め込みシステム
はその周波数成分Fm^(N)(ki) がすべてのフレームm でで
きるだけ等しくなるよう埋め込み、検出システムは、フ
レーム幅を変えて各周波数kiで

【数３６】が最大値をとるフレーム幅N'を求め、その比N'/Nで時間
軸上の伸縮率を求める。互いに知っている周波数kiが複
数あるとき、

【数３７】または、

【数３８】を最大にするフレーム幅N'を求め、その比N'/Nで時間軸
上の伸縮率を求める。

【００３７】［メッセージ同期の手法とそのシステム］オーディオデータに対してどこから切り取ってもメッセ
ージ（付加情報）が生き残るためにはメッセージを繰り
返して埋め込む必要がある。従って、各フレームからビ
ット情報が抽出できても、どこが繰り返しメッセージの
ビット列の先頭でどこが終わりかを推定する必要があ
る。すなわち、埋め込みシステムでのメッセージの先頭
と検出システムのメッセージの先頭が正しく同期してい
る必要がある。

【００３８】［バイトやワードやメッセージなどの解釈
の区切りのフレームを使用する手法］図１１に、バイト
やワードやメッセージなどの解釈の区切りのフレームを
使用した場合の概念図を示す。抽出されたビット列にバ
イトやワードやメッセージなどの解釈の区切りをいれる
ために、埋め込みシステムが、その区切りのフレームを
除き、各フレームに同じ向きに同期信号を埋め込み、区
切りのフレームには反対の向きに同期信号を埋め込む
か、または何も埋め込まない。検出システムは、その同
期信号の値が他のフレームと反対向きか、埋め込まれて
いないことをもって区切りのフレームと推定する。

【００３９】同期信号は、フレーム同期用マスクや符号
用マスクを使用して埋め込んでもよい。この場合、フレ
ーム同期信号や符号信号は、充分多くのフレームでの内
積の和で判定することで、区切りのフレームの影響が無
視できるようにする。

【００４０】埋め込みシステムでは区切りのフレーム以
外ではできるだけ同じ同期信号を埋め込むことで、検出
システムでは、検出した区切りのフレームの同期信号が
他のフレームの同期信号の揺らぎの範囲にあるかどうか
の統計推定することでその推定の信頼度を求めることが
できる。埋め込みシステムにより埋め込まれたフレーム
区切りの間隔を検出システムが知っていて、その間隔の
範囲で他と著しく異なるフレームを探索することで、音
質維持のために同期信号を比較的弱く埋め込んだ場合で
も検出することができる。埋め込みシステムと検出シス
テムが互いに了解していれば、ビット情報は区切りのフ
レームに埋め込んでも埋め込まなくても良い。

【００４１】［繰り返し周期の異なる複数情報埋め込み手法］重要性が違う複数の情報をオーディオデータに埋め込む
場合、切り取り耐性が同じである必要はない。重要な情
報は頻繁に繰り返されて短い切り取り区間でも検出でき
たほうが良い。

【００４２】切り取り耐性の異なる複数の情報を埋め込
み、検出するために、埋め込みシステムと検出システム
とが、それぞれの情報を分割する分割単位のビット長と
分割数を知っていて、埋め込み時にそれぞれの情報を分
割単位のビット長に分割し、各情報から順に分割された
ビット列を取り出し並べて均等なビット長の情報（合成
単位と呼ぶ）を作成し、その情報の合成単位の先頭のビ
ットを区切りのフレームに埋め込み、残りのビットを順
に続くフレームに埋め込む手法、及びシステム。

【００４３】例えば、ビット列情報A、B、Cがあると
し、各情報を

【数３９】と分割したとする。埋め込みシステムは

【数４０】と分割されたビット列を並べることで、検出される周期
の違う複数の情報を切り取りに対して一様に埋め込む。
各ApBqCrの先頭ビットは区切りのフレームに埋め込む。
上記繰り返し周期の異なる複数情報埋め込み手法につい
て、従来の方法と本発明の方法の違いを図１０に示す。

【００４４】［特定のビット列を加算することでメッセ
ージの開始位置を推定する手法］埋め込みシステムと検
出システムは、付加情報のビット列より長く、また、巡
回シフトで自分自身と一致することのない特定のビット
列（区切り用ビット列と呼ぶ）を互いに知っているもの
とする。巡回シフトで自分自身と一致することのないと
は、そのビット列を繰り返したとき、元の区切りで切っ
たときのみ、元のビット列を復元できるものを言う。例
えば、"00100010"は、その繰り返しに 00100010,00100010,00100010,00100010,... と区切り","を入れても、 0010,00100010,00100010,00100010,0010... と区切り","を入れても"00100010"を復元できる。従っ
て、区切り用ビット列として使用できない。"00100010"
は"0010"をその内部で繰り返しているが、一般に、自分
自身の中で周期を持つビット列は巡回シフトで自分自身
と一致し、区切り用ビット列として使用できない。一
方、自己周期を持たない"00100011"は、その繰り返しは
特定の区切りでのみしか元のビット列を復元できないの
で、"00100011"は区切り用ビット列として使用できる。

【００４５】また、埋め込みシステムと検出システム
は、ビット列に区切り用ビット列を排他的論理和(演算x
or) で加えたかどうかを判定する方法を知っているもの
とする。例えば、区切り用ビット"00100011"では、ビッ
ト列の最後のビットの値を見ることで、区切り用ビット
の演算xor が施されたかを判定できる。判定方法は一意
でなく、この区切り用ビット列の例では、すべての桁の
ビットの和が奇数か偶数かを使っても判定できる。図１
２は、上記特定のビット列を加算することでメッセージ
の開始位置を推定する方法の説明図である。

【００４６】埋め込みシステムは、付加情報の作るビッ
ト列に1 ビット以上のビットを追加して、区切り用ビッ
ト列と同じ長さの拡張ビット列を作成し、オーディオデ
ータにそれを繰り返して埋め込むとき、一つおきの繰り
返しに区切り用ビット列を演算xor で加算して埋め込む
ものとする。追加ビットは、区切り用ビット列が加算さ
れているかを判定するのに使用する。

【００４７】検出システムでは、抽出されたビット列
に、区切り用ビット列のビット長だけずらした同じ抽出
ビット列を演算xor で加え、得られたビット列から区切
り用ビット列とが一致する区切りを探索し、有ればそれ
を抽出ビットの区切りの位置とし、無ければ抽出ビット
に誤りがありとする。区切られたビット列は一区切りお
きに、区切り用ビット列が加算されているので、追加ビ
ットを使って、加算されていないほうのビット列を判定
し、それを復元ビット列とする。

【００４８】例えば、"00100011"が区切り用ビット列と
する。埋め込みシステムで付加情報が7 ビットの"11011
01"とする。ことき、１ビット"0"を追加し、拡張ビット
列"11011010"を作成し、繰り返して埋め込むとき、 11011010,11111001,11011010,11111001,11011010,11111
001,... と、一つおきの繰り返しで区切り用ビット列を演算xor
で加算して、各ビットをフレームに埋め込む。ここで
は、区切り',' を見易さのために加えてあるが、実際に
各フレームで埋め込むのはビット値0 または1 のみであ
る。

【００４９】埋め込み後の処理のため最初の３ビットが
上記から抜け落ち、検出システムでは、 11010,11111001,11011010,11111001,11011010,1111100
1,... とビット列が抽出できたとする。区切り用ビット列の長
さだけずらした、 11001,11011010,11111001,11011010,11111001,1101101
0,... を演算xor で加算すると、 00011,00100011,00100011,00100011,00100011,0010001
1,... となる。従って、区切り用ビット列"00100011"との一致
から、この区切りしかないことがわかる。次に、各区切
りで、追加ビットが"0"の拡張ビット列を選択すること
で、付加情報のビット列が"1101101"であることが導か
れる。

【００５０】［フレームでの検出信頼度を考慮してメッセージの開始
位置を推定する手法］図１３は、フレームでの検出信頼度を考慮してメッセー
ジの開始位置を推定する方法の説明図である。フレーム
での検出信頼度を考慮して、メッセージの開始位置を推
定するために、検出システムでは、区切り用ビット列の
長さから対応が定まる二つのフレームでおのおのビット
用マスクの内積の積を求め、それに区切り用ビット列の
定める符号を掛け、続くフレームでの和が最大となるこ
とで区切りを探索する。区切り用ビット列を{B(m)} と
し、その長さをMとする。また、いま、ビット用マスク
で得られた各フレームでの内積の値をXb(m) とする。こ
のとき、

【数４１】を計算し、最大となるvを求め、その位置をメッセージ
の開始位置とする。ここで、区切り用ビットの添え字が
元の定義域をこえたとき、 B(m + M) = B(m) で定義域
を拡張するものとし、また、(-1)⁰ = 1、(-1)¹ = -1 と
する。この手法では、各フレームでビットの誤りがあっ
ても、メッセージの開始位置が求めることができる。

【００５１】ビット情報自体は、一旦、メッセージの開
始位置がわかると、複数の繰り返しに関して蓄積した

【数４２】の符号で求める。ここで、p(r) は区切り用ビットが加
算してある繰り返しなら１、加算してない繰り返しなら
ゼロある。

【００５２】［特定のビット列を加算することで複数のメッセージの
開始位置を推定する手法］複数の情報を異なる周期で埋め込むために、シフトで自
分自身と一致しない特定のビット列(区切り用部分ビッ
ト列と呼ぶ) を埋め込み時に排他的論理和で加算するこ
とで、検出時に情報の開始位置を検出する。

【００５３】ここで、シフトで自分自身と一致しないと
は、長さMのビット列{B(m)} に対し、任意のシフトv (0
< v < M) を行ったとき、B(m) ≠ B(m+v) となるm が0
≦ m≦ m+v ≦M-1 の範囲に必ず有ることを言う。例え
ば、"01011011101111"や"010011000111"はシフトで自分
自身と一致しないビット列の例である。

【００５４】いま、短い周期で繰り返して埋められる付
加情報のビット列や、それより長い周期で繰り返される
その他の付加情報の分割ビット列より長い、区切り用部
分ビット列を埋め込みシステムと検出システムは知って
いるとする。埋め込みシステムは、短い周期で繰り返す
付加情報のビット列にビットを追加して区切り用部分ビ
ット列の同じ長さの拡張ビット列を作成し、さらに、そ
の他の分割ビット列を付け加えて、合成単位のビット列
を作成し、順に合成単位のビット列を埋め込むとき、一
つおきに、区切り用部分ビット列を拡張ビット列に排他
的論理和(演算xor) で加算して埋め込むものとする。追
加ビットは、区切り用部分ビット列が加算されているか
を判定するのに使用する。

【００５５】検出システムでは、抽出されたビット列
に、合成単位のビット列のビット長だけずらした同じ抽
出ビット列を演算xor で加え、得られたビット列から区
切り用部分ビット列とが一致する区切りを探索し、有れ
ばそれを抽出ビットの区切りの位置とし、無ければ抽出
ビットに誤りがありとする。区切られたビット列は一区
切りおきに、区切り用部分ビット列が加算されているの
で、追加ビットを使って、加算されていないほうのビッ
ト列を判定し、それを復元ビット列とする。

【００５６】例えば、"00110111"が区切り用部分ビット
列とし、短い周期の付加情報が7 ビットの"1101101"と
する。このとき、埋め込みシステムは、１ビット"0"を
追加し、拡張ビット列"11011010"を作成し、それに、そ
の他の長い周期の付加情報の分割ビット列"*******"を
添付して合成単位のビット列"11011010*******"を作成
する。ここで"*"はおのおのが0 または１のいずれかと
いう意味である。合成単位のビット列を埋め込むとき、
一つおきに区切り用部分ビット列を演算xor で加算する
ので、 11011010*******,11101101*******,11011010*******,11
101101*******,... の各ビットが各フレームに埋め込まれる。ここでは、区
切り',' を見易さのために加えてあるが、実際に各フレ
ームで埋め込むのはビット値0 または1 のみである。

【００５７】埋め込み後の処理のため最初の３ビットが
上記から抜け落ち、検出システムでは、 11010*******,11101101*******,11011010*******,11101
101*******,... とビット列が抽出できたとする。合成単位のビット列の
長さだけずらした、 01101*******,11011010*******,11101101*******,... を演算xor で加算すると、 10111*******,00110111*******,001101111*******,... となる。"*******"の部分の値が何であれ、区切り用部
分ビット列の長さより短いので一致することはなく、ま
た、シフトで自分自身と一致することも無いので、"001
10111"との一致するのは、埋め込み時の区切りしかない
ことがわかる。次に、各区切りで、追加ビットが"0"の
拡張ビット列を選択することで、短い周期の付加情報の
ビット列が"1101101"であることが導かれる。同様に、
添付したビット列"*******"を、その付加情報の中で短
いものを取り出し、その長さに対応した部分区切りビッ
ト列を使うことで、その付加情報の開始位置を検出でき
る。図１４に上記特定のビット列を加算することで複数
のメッセージの開始位置を推定する手法を図示する。

【００５８】［巡回シフトの影響を受けない符号語の埋め込み］付加情報が繰り返して埋め込まれるものとして、埋め込
みシステムと検出システムとが繰り返しまでのフレーム
数を知っており、その長さのビット列の集まりに対し、
巡回シフトで等しくなるビット列は同値とみなし、同値
でないビット列を異なる付加情報に対応させることで、
情報を埋め込み、ビット列の始まりを知ることなく付加
情報を抽出する手法、および、そのシステム。

【００５９】巡回シフトで互いに等しくならないビット
列としては、例えば {00000},{00001},{00011},{00101},{00111},{01011},{0
1111},{11111} がある。5 ビット長の列をもちいて、８個の状態、すな
わち、3 ビットの情報を表現することができる。図１５
に上記5 ビット長の列をもちいて3 ビットの情報を埋め
込む例を示す。一般にビットの長さMのビット列の集ま
りで、巡回シフトで互いに等しくならない独立のビット
列の数をS(M) とすると、素数p に対し、

【数４３】

【数４４】となる。また、互いに素なp とqに対しては、

【数４５】となる。

【００６０】

【実施例】以下、図面を参照して本発明の実施例を説明
する。図１に本発明の付加情報埋め込み装置のブロック
図を示す。入力制御ブロック 110は、入力されるオーデ
ィオ信号を時系列に並んだサンプル値として、周波数変
換ブロック120へ渡すものである。入力信号がアナログ
の場合、AD変換を行い、デジタル化されたものであれ
ば、フォーマットを解釈し、オーディオサンプル列をブ
ロック120へ渡す。

【００６１】周波数変換ブロック120は、オーディオ信
号の各周波数成分を算出するブロックである。このブロ
ックはブロック110からのデジタル化されたオーディオ
信号を受け、その区間における周波数成分の計算を行
う。

【００６２】聴覚心理モデル算出ブロック130は、人間
の耳の特性に基づき、変化に対し聞き分けにくい領域を
算出するブロックである。このブロックはブロック120
からの周波数変換されたオーディオ信号を受け、周波数
成分ごとに聞えに対する影響度を算出する。

【００６３】疑似乱数生成ブロック160は、0,1の疑似ラ
ンダム列を生成するブロックである。生成された疑似ラ
ンダム列はブロック170へ渡され、付加情報埋め込み用
のマスク生成のために用いられる。

【００６４】付加情報埋め込み用マスク生成ブロック17
0は、付加情報埋め込み時に用いられるマスクを生成す
るものである。このブロックは、ブロック160で生成さ
れた疑似ランダム列と位相方向とを対応づけ、周波数毎
に埋め込み信号の位相を定める複素数平面上での2次元
ベクトル（マスク）を生成するブロックである。

【００６５】付加情報180は、ビット列情報としてブロ
ック140へ渡される。このビット列は、ブロック140で、
必要に応じてメッセージ同期検出用にビットが挿入、反
転される。

【００６６】付加情報埋め込みブロック140は、オーデ
ィオ信号に非可聴の付加情報を埋め込むブロックであ
る。このブロックは、オーディオ信号の周波数成分のあ
る統計量が、付加情報180から受けるビット情報に従っ
て定められる符号となるよう、ブロック130で算出され
た聴覚心理モデルをもとに非可聴の範囲で、ブロック17
0より受けるマスク方向に信号および時間伸縮率検出用
の同期信号を、ブロック120より受ける周波数変換され
たオーディオ信号に付加する。

【００６７】周波数逆変換ブロック190は、周波数変換
されたオーディオ信号を逆変換するブロックである。こ
のブロックは、ブロック140からの付加情報を埋め込ん
だ周波数変換されたオーディオ信号を逆変換し、時系列
に並んだオーディオサンプル列を算出するブロックであ
る。

【００６８】出力制御ブロック150は、時系列に並んだ
オーディオサンプル列をオーディオデータとして出力す
るものである。このブロックは、ブロック190より受け
たオーディオサンプル列をDA変換、あるいは、ファイル
としてヘッダ情報等を付加し、オーディオ信号を出力す
る。

【００６９】図２に本発明の付加情報検出装置のブロッ
ク図を示す。入力制御ブロック 210は、入力されるオー
ディオ信号を時系列に並んだサンプル値として、周波数
変換ブロック220へ渡すものである。入力信号がアナロ
グの場合、AD変換を行い、デジタル化されたものであれ
ば、フォーマットを解釈し、オーディオサンプル列をブ
ロック250へ渡す。

【００７０】周波数変換ブロック220は、オーディオ信
号の各周波数成分を算出するブロックである。このブロ
ックはブロック210からのデジタル化されたオーディオ
信号を受け、その区間における周波数成分の計算を行
う。

【００７１】付加情報同期検出ブロック250は、オーデ
ィオ信号に付加情報が埋め込まれているとして、入力さ
れるオーディオ信号の時間伸縮率や、付加情報埋め込み
処理単位（フレーム）開始位置を検出するブロックであ
る。このブロックでは、ブロック220より受けた周波数
変換されたオーディオ信号に対し、時間伸縮率検出用の
同期信号の伸縮率を測定することで、オーディオ信号の
伸縮率を求める。その後、ブロック280より受けるフレ
ーム同期用マスクを回転させて、時間伸縮率を補正した
オーディオ信号との内積値を計算し、その値が最大とな
る回転角度よりフレーム開始位置のずれを検出する。

【００７２】疑似乱数生成ブロック270は、0,1の疑似ラ
ンダム列を生成するブロックである。生成された疑似ラ
ンダム列はブロック280へ渡され、付加情報検出用のマ
スク生成のために用いられる。

【００７３】付加情報検出用マスク生成ブロック280
は、付加情報検出時に用いられるマスクを生成するもの
である。このブロックは、ブロック270で生成された疑
似ランダム列と位相方向とを対応づけ、周波数毎に埋め
込み信号の位相を定める複素数平面上での2次元ベクト
ル（マスク）を生成するブロックである。

【００７４】付加情報検出ブロック260は、オーディオ
信号に埋め込まれている付加情報を検出するブロックで
ある。このブロックでは、ブロック250より受けた時間
伸縮率、フレームの同期のとれた周波数変換されたオー
ディオ信号と、ブロック280より受ける付加情報検出用
マスクとの内積値を統計量として算出する。なお統計量
の値により、同期をやり直す必要が生じた場合には、ブ
ロック250の付加情報同期検出に再同期の信号を与え
る。

【００７５】付加情報有無検出ブロック230は、算出さ
れた統計量をもとに、オーディオ信号に付加情報が埋め
込まれているか否か有無を判定するブロックである。こ
のブロックは、ブロック260より受けた統計量の大きさ
が十分に大きな値であるかどうかにより、入力されたオ
ーディオ信号に意図的に情報が埋め込まれているか否か
を判定するブロックである。

【００７６】付加情報復元ブロック240は、検出された
ビット情報を付加情報として復元するブロックである。
このブロックは、ブロック230により付加情報が埋め込
まれていると判定された場合には、その統計量の符号と
ビットとを対応づけてビット情報として解釈し、検出さ
れたビット情報の中から付加情報の開始ビットを検出
し、開始ビットに合わせ検出されたビット情報をシフト
し、メッセージ同期用にビットが挿入／反転されている
場合には、それらを除去／反転させ、埋め込んだ付加情
報を復元する。

【００７７】図３には、本発明の付加情報の埋め込み／
検出において使用されるシステムのハードウェア構成の
一実施例が示されている。システム１００は、中央処理
装置（ＣＰＵ）１とメモリ４とを含んでいる。ＣＰＵ１
とメモリ４は、バス２を介して、補助記憶装置としての
ハードディスク装置１３（またはＭＯ、ＣＤ−ＲＯＭ２
３、ＤＶＤ等の記憶媒体駆動装置）とＩＤＥコントロー
ラ２５を介して接続してある。同様にＣＰＵ１とメモリ
４は、バス２を介して、補助記憶装置としてのハードデ
ィスク装置３０（またはＭＯ２８、ＣＤ−ＲＯＭ２３、
ＤＶＤ等の記憶媒体駆動装置）とＳＣＳＩコントローラ
２７を介して接続してある。フロッピーディスク装置２
０はフロッピーディスクコントローラ１９を介してバス
２へ接続されている。

【００７８】フロッピーディスク装置２０には、フロッ
ピーディスクが挿入され、このフロッピーディスク等や
ハードディスク装置１３（またはＭＯ、ＣＤ−ＲＯＭ、
ＤＶＤ等の記憶媒体）、ＲＯＭ１４には、オペレーティ
ングシステムと協働してＣＰＵ等に命令を与え、本発明
を実施するための付加情報の埋め込みまたは検出を行う
コンピュータ・プログラムのコード若しくはデータを記
録することができ、メモリ４にロードされることによっ
て実行される。このコンピュータ・プログラムのコード
は圧縮し、または、複数に分割して、複数の媒体に記録
することもできる。

【００７９】システム１００は更に、ユーザ・インター
フェース・ハードウェアを備え、入力をするためのポイ
ンティング・デバイス（マウス、ジョイスティック等）
７またはキーボード６や、入力されたオーディオデー
タ、復元したオーディオデータ、付加情報などの視覚デ
ータをユーザに提示するためのディスプレイ１２を有す
ることができる。また、パラレルポート１６を介してプ
リンタを接続することや、シリアルポート１５を介して
モデムを接続することが可能である。このシステム１０
０は、シリアルポート１５およびモデムまたは通信アダ
プタ１８(イーサネットやトークンリング・カード)等を
介してネットワークに接続し、他のコンピュータ等と通
信を行うことが可能である。埋め込む付加情報を該通信
アダプタ１８を介して外部ネットワークから取り込んだ
り、復元した付加情報をネットワークを介して外部に送
信することも可能である。またシリアルポート１５若し
くはパラレルポート１６に、遠隔送受信機器を接続し
て、赤外線若しくは電波によりデータの送受信を行うこ
とも可能である。

【００８０】スピーカ２３は、オーディオ・コントロー
ラ２１によってＤ／Ａ（デジタル／アナログ変換）変換
されたオーディオ、音声信号を、アンプ２２を介して受
領し、オーディオや音声として出力する。また、オーデ
ィオ・コントローラ２１は、マイクロフォン２４から受
領した音声またはオーディオ情報をＡ／Ｄ（アナログ／
デジタル）変換し、埋め込むための付加情報としてシス
テムにとり込むことを可能にしている。

【００８１】このように、本発明に使用できるシステム
１００は、通常のパーソナルコンピュータ（ＰＣ）やワ
ークステーション、ノートブックＰＣ、パームトップＰ
Ｃ、ネットワークコンピュータ、コンピュータを内蔵し
たテレビ等の各種家電製品、通信機能を有するゲーム
機、電話、ＦＡＸ、携帯電話、ＰＨＳ、電子手帳、等を
含む通信機能有する通信端末、または、これらの組合せ
によって実施可能であることを容易に理解できるであろ
う。ただし、これらの構成要素は例示であり、その全て
の構成要素が本発明の必須の構成要素となるわけではな
い。なお、図１、図２の付加情報埋め込み／検出の各ブ
ロックを専用のハードウェアにより構成しても何ら構わ
ない。

【００８２】

【発明の効果】本発明により、オーディオデータに対し
著作権情報等の付加情報の埋め込みによる音質の変化を
人間の聴覚では検知できないように埋め込みながら、一
方で、音質に著しい劣化を引き起こさない範囲でのオー
ディオデータへの処理に対し、埋め込んだ付加情報が残
り、信頼性をもって検出できる方法およびそのシステム
が提供される。これにより、CD やインターネットで配
送された音楽コンテンツの著作権保護が実現され、高品
質の音楽コンテンツを安心してデジタルで供給できるよ
うになり、音楽文化の安定した再生産・消費を実現する
ことが可能となる。

【図面の簡単な説明】

【図１】本発明の付加情報埋め込み装置のブロック図で
ある。

【図２】本発明の付加情報検出装置のブロック図であ
る。

【図３】付加情報の埋め込／検出において使用されるシ
ステムのハードウェア構成例である。

【図４】本発明の付加情報埋め込み処理の流れを示す図
である。

【図５】本発明の付加情報検出処理の流れを示す図であ
る。

【図６】フレームでの信号の埋め込み処理の流れを示す
図である。

【図７】フレームでの信号検出処理の流れを示す図であ
る。

【図８】位相を利用してフレーム開始位置を探索する処
理の流れを示す図である。

【図９】位相のそろった信号の埋め込みによる伸縮率の
推定処理の流れを示す図である。

【図１０】繰り返し周期の異なる複数情報埋め込みにお
いて、従来の方法と本発明の方法の違い示す図である。

【図１１】バイトやワードやメッセージなどの解釈の区
切りのフレームを使用した場合の概念図である。

【図１２】特定のビット列を加算することでメッセージ
の開始位置を推定する方法の説明図である。

【図１３】フレームでの検出信頼度を考慮してメッセー
ジの開始位置を推定する方法の説明図である。

【図１４】特定のビット列を加算することで複数のメッ
セージの開始位置を推定する手法を説明する図である。

【図１５】5 ビット長の列をもちいて 3 ビットの情報
を埋め込む例を示す図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者陳定遠神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者大嶋良明神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者清水周一神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者森本典繁神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (56)参考文献特開平９−191394（ＪＰ，Ａ) 特開平11−272299（ＪＰ，Ａ) 特開2000−89796（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/00 H04N 7/08 G09C 5/00 G11B 20/10

Claims

(57)【特許請求の範囲】

【請求項１】オーディオデータへ付加情報を埋め込む、
付加情報埋め込みシステムであって、（１）オーディオデータを周波数変換する手段と、（２）前記オーディオデータに基づき、前記オーディオ
データに付加情報を埋め込むことのできる、周波数の変
更範囲を決定する手段と、（３）付加情報検出時の同期検出を可能とする、付加情
報埋め込み用のマスクを生成する手段と、（４）前記周波数変換されたオーディオデータの前記埋
め込むことのできる周波数の変更範囲に、付加情報を、
前記付加情報埋め込み用のマスクを用いて埋め込む手段
と、（５）周波数変換され付加情報の埋め込まれたオーディ
オデータを、オーディオデータに逆変換する手段と、を具備することを特徴とする、付加情報埋め込みシステ
ム。
【請求項２】前記オーディオデータを周波数変換する手
段（１）が、オーディオデータを、各々が複数のサンプ
ル列からなる複数のフレームに分割し、各フレームを周
波数変換する手段である、請求項１記載のシステム。
【請求項３】前記付加情報を埋め込むことのできる周波
数の変更範囲を決定する手段（２）が、周波数変換され
たオーディオデータの周波数分布に基づき、平均的な人
間の聴覚では検知できない周波数の変更範囲を決定する
手段である、請求項２記載のシステム。
【請求項４】前記付加情報埋め込み用のマスクは、擬似
乱数生成器から得られた擬似乱数により生成される、周
波数毎の埋め込み方を定める擬似ランダムな数である、
請求項３記載のシステム。
【請求項５】前記付加情報を埋め込む手段（４）が、付
加情報に応じて、前記擬似ランダムな数と前記周波数変
換されたフレームの周波数成分との内積が特定の符号ま
たは値になるように各周波数成分を、前記埋め込むこと
のできる周波数の変更範囲内で変更することにより、付
加情報を埋め込む手段である、請求項４記載のシステ
ム。
【請求項６】前記付加情報を埋め込む手段（４）が、付
加情報に応じて、前記擬似ランダムな数と前記周波数変
換されたフレームの周波数成分との内積が特定の符号ま
たは値になるように各周波数成分を、前記埋め込むこと
のできる周波数の変更範囲内で最大となるように変更す
ることにより、付加情報を埋め込む手段である、請求項
４記載のシステム。
【請求項７】連続する２フレームにおいて、前方フレー
ム内の最終サンプル列と後方フレーム内の最初のサンプ
ル列の周波数変換後の値が、等しい値に近づくように、
前記擬似ランダムな数を変更するか、または前記各フレ
ームの周波数成分の変更に制限を加える手段を含む、請
求項３記載のシステム。
【請求項８】前記付加情報を埋め込む手段（４）が、フ
レーム内の周波数成分を複数の周波数帯域に分割し、各
々の周波数帯域に対して、互いの内積が零となる直交す
る複数の付加情報埋め込み用マスクを用いて情報を埋め
込む、多重の付加情報の埋め込みを行う手段を含む、請
求項３記載のシステム。
【請求項９】前記付加情報を埋め込む手段（４）が、付
加情報の検出時に埋め込みを行ったフレームの区切りを
特定するための同期信号を、各フレームに埋め込む手段
を含む、請求項３記載のシステム。
【請求項１０】前記付加情報を埋め込む手段（４）が、
付加情報の検出時に時間方向への伸縮率を検出するため
の同期信号を、各フレームに埋め込む手段を含む、請求
項３記載のシステム。
【請求項１１】前記付加情報を埋め込む手段（４）が、
複数のフレームに同一の付加情報を繰り返して埋め込む
手段を含む、請求項３記載のシステム。
【請求項１２】複数のフレームに繰り返して埋め込まれ
た付加情報の繰り返し開始もしくは終了フレームを特定
するために、該付加情報の繰り返しを検出する区切りフ
レームを設ける手段を含む、請求項１１記載のシステ
ム。
【請求項１３】前記区切りフレームは、付加情報を埋め
込むフレームに、他のフレームとは異なる同期信号を埋
め込んだフレームである、請求項１２記載のシステム。
【請求項１４】前記区切りフレームは、付加情報を埋め
込むフレームに、何も信号を埋め込まないフレームであ
る、請求項１２記載のシステム。
【請求項１５】複数のフレームをまたいで繰り返して埋
め込まれた付加情報の繰り返し開始もしくは終了フレー
ムを特定するために、巡回シフトで一致しない区切り用
ビット列を付加情報に加算したものを埋め込む手段を含
む、請求項１１記載のシステム。
【請求項１６】複数のフレームをまたいで繰り返して埋
め込まれた付加情報の繰り返し開始もしくは終了フレー
ムを特定するために、付加情報として,埋め込もうとす
る情報に１ビット以上の追加ビットを付し拡張ビット列
を生成する手段を含む、請求項１１記載のシステム。
【請求項１７】前記拡張ビット列を付加情報として埋め
込む際に、繰り返し周期の1つおきに前記区切り用ビッ
ト列を排他的論理和により加算して付加情報を埋め込む
手段を含む、請求項１１記載のシステム。
【請求項１８】巡回シフトしても他のビット列と区別で
きるビット列の組（コードワード）を付加情報と対応さ
せて繰り返し埋めることにより、繰返し周期の開始もし
くは終了フレームを特定することなく埋め込み情報検出
可能な手段を含む、請求項１１記載のシステム。
【請求項１９】前記付加情報を埋め込む手段（４）が、
複数の付加情報をそれぞれ異なる繰り返し周期で埋め込
む手段を含む、請求項３記載のシステム。
【請求項２０】複数の付加情報をそれぞれ異なる繰り返
し周期で埋め込む際に、最も短い周期で検出される付加
情報に対し、他の付加情報を付加情報ごとに定められる
ビット長に分割したものを付加し、それらを付加情報埋
め込み繰り返し単位として埋め込む、請求項１９記載の
システム。
【請求項２１】繰り返し単位が分かるように、最も短い
周期で検出される情報に対し、区切り用ビット列を繰り
返し周期１つおきに排他的論理和でくわえたものを埋め
込む、請求項１９記載のシステム。
【請求項２２】オーディオデータに埋め込まれた付加情
報を検出する、付加情報検出システムであって、（１）オーディオデータを周波数変換する手段と、（２）付加情報検出用のマスクを生成する手段と、（３）前記周波数変換されたオーディオデータから、オ
リジナルのオーディオデータを使用せずに、付加情報検
出のための同期をとる、同期検出手段と、（４）前記周波数変換されたオーディオデータから、同
期をとりながら、前記付加情報検出用マスクを用いて、
付加情報のビットを検出する、付加情報検出手段と、を具備することを特徴とする、付加情報検出システム。
【請求項２３】前記オーディオデータを周波数変換する
手段（１）が、オーディオデータを、各々が複数のサン
プル列からなる複数のフレームに分割し、各フレームを
周波数変換する手段である、請求項２２記載のシステ
ム。
【請求項２４】前記付加情報検出用のマスクは、擬似乱
数生成器から得られた擬似乱数により生成される、擬似
ランダムなベクトルである、請求項２２記載のシステ
ム。
【請求項２５】前記付加情報検出用のマスクは、付加情
報埋込み時に用いられたマスクと実質的に同一である、
請求項２２記載のシステム。
【請求項２６】前記付加情報を検出する手段（４）が、
各フレームが周波数変換された周波数成分と、前記擬似
ランダムな数との内積を計算し、該内積の値の符号、ま
たは内積の値により、付加情報を検出する手段である、
請求項２４記載のシステム。
【請求項２７】前記内積は、各フレームが周波数変換さ
れた周波数成分に周波数分布から決まる周波数依存の定
数を掛けたものと、前記擬似ランダムな数との内積を算
出することを特徴とする、請求項２６記載のシステム。
【請求項２８】前記付加情報を検出する手段（４）が、
フレーム同期用マスクから生成される擬似ランダムな数
と各フレームが周波数変換された周波数成分との内積の
計算結果に従って、付加情報検出用マスクそれぞれにお
いて検出された値とビット情報との対応関係を変更する
手段を含む、請求項２６記載のシステム。
【請求項２９】前記付加情報を検出する手段（４）が、
多重に情報が埋め込まれている場合、複数の検出用マス
クを用いて,各フレームが周波数変換された周波数成分
と、それぞれの検出用マスクから生成される前記擬似ラ
ンダムな数との内積を計算し、該内積の値の符号、また
は内積の値により、多重に埋め込まれた付加情報をそれ
ぞれ検出する手段である、請求項２６記載のシステム。
【請求項３０】前記付加情報を検出する手段（４）が、
フレーム間にまたがって同じ符号で、または、交互に反
対符号で前記内積の値を総和することにより、付加情報
検出の信頼性を上げることを特徴とする、請求項２５記
載のシステム。
【請求項３１】前記付加情報を検出する手段（４）が、
前記総和された前記内積の絶対値が、ある閾値より大き
いか否かにより、付加情報の埋め込みの有り無しを判定
する手段を含むことを特徴とする、請求項３０記載のシ
ステム。
【請求項３２】前記同期検出手段が、前記複数のフレー
ムを重ね合わせて得られる１フレームのデータを周波数
変換して、位相を回転した付加情報検出用のマスクとの
内積を求め、その内積の絶対値が最大となる位相の回転
角から、埋め込み時のフレームの開始位置を特定する手
段であることを特徴とする、請求項２４記載のシステ
ム。
【請求項３３】前記オーディオデータを周波数変換する
手段（１）が、フレームの幅を変更し、埋め込んだ同期
信号の各フレームにおける位相または振幅を測定し、そ
れらが検出するすべてのフレームにおいて最もそろって
いる、フレーム幅の変更量を時間軸上の伸縮率として、
時間軸上の伸縮率を定める手段を含む、請求項２６記載
のシステム。
【請求項３４】（５）前記検出された付加情報のビット
から、付加情報を復元するために、繰り返しの開始また
は終了フレームを特定する手段を具備し、該手段が、フ
レームから検出される同期信号の検出値が他の連続フレ
ームと異なるフレームか、または同期信号が埋め込まれ
ていないフレームを区切りのフレームとして特定する手
段を含む、請求項２６記載のシステム。
【請求項３５】前記付加情報検出手段（４）が、区切り
用ビット列を用いて、検出されたビット列の中から付加
情報を構成するビット列の繰り返し位置を特定すること
により、検出ビット列より付加情報を復元する手段を含
む、請求項２６のシステム。
【請求項３６】前記付加情報検出手段（４）が、埋め込
み時の付加情報の繰り返し開始位置を知ることなく付加
情報を復元する手法を含む、請求項２６記載のシステ
ム。
【請求項３７】オーディオデータへ付加情報を埋め込
む、付加情報埋め込み方法であって、（１）オーディオデータを周波数変換する段階と、（２）前記オーディオデータに基づき、前記オーディオ
データに付加情報を埋め込むことのできる、周波数の変
更範囲を決定する段階と、（３）付加情報検出時の同期検出を可能とする、付加情
報埋め込み用のマスクを生成する段階と、（４）前記周波数変換されたオーディオデータの前記埋
め込むことのできる周波数の変更範囲に、付加情報を、
前記付加情報埋め込み用のマスクを用いて埋め込む段階
と、（５）周波数変換され付加情報の埋め込まれたオーディ
オデータを、オーディオデータに逆変換する段階と、を有することを特徴とする、付加情報埋め込み方法。
【請求項３８】オーディオデータに埋め込まれた付加情
報を検出する、付加情報検出方法であって、（１）オーディオデータを周波数変換する段階と、（２）付加情報検出用のマスクを生成し、前記周波数変
換されたオーディオデータから、オリジナルのオーディ
オデータを使用せずに、付加情報検出のための同期をと
る段階と、（３）前記周波数変換されたオーディオデータから、同
期をとりながら、前記付加情報検出用マスクを用いて、
付加情報のビットを検出する段階と、を有することを特徴とする、付加情報検出方法。。
【請求項３９】オーディオデータへ付加情報を埋め込む
プログラムを含むコンピュータ読み取り可能な記録媒体
であって、該プログラムが、コンピュータに、（１）オーディオデータを周波数変換する機能と、（２）前記オーディオデータに基づき、前記オーディオ
データに付加情報を埋め込むことのできる、周波数の変
更範囲を決定する機能と、（３）付加情報検出時の同期検出を可能とする、付加情
報埋め込み用のマスクを生成する機能と、（４）前記周波数変換されたオーディオデータの前記埋
め込むことのできる周波数の変更範囲に、付加情報を、
前記付加情報埋め込み用のマスクを用いて埋め込む機能
と、（５）周波数変換され付加情報の埋め込まれたオーディ
オデータを、オーディオデータに逆変換する機能と、を実現させる記録媒体。
【請求項４０】オーディオデータに埋め込まれた付加情
報を検出するプログラムを含むコンピュータ読み取り可
能な記録媒体であって、該プログラムが、コンピュータ
に、（１）オーディオデータを周波数変換する機能と、（２）付加情報検出用のマスクを生成し、前記周波数変
換されたオーディオデータから、オリジナルのオーディ
オデータを使用せずに、付加情報検出のための同期をと
る機能と、（３）前記周波数変換されたオーディオデータから、同
期をとりながら、前記付加情報検出用マスクを用いて、
付加情報のビットを検出する機能と、を実現させる記録媒体。