JP4713180B2

JP4713180B2 - 音響信号からの情報の抽出装置

Info

Publication number: JP4713180B2
Application number: JP2005051381A
Authority: JP
Inventors: 敏雄茂出木
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2005-02-25
Filing date: 2005-02-25
Publication date: 2011-06-29
Anticipated expiration: 2025-02-25
Also published as: JP2006235359A

Description

本発明は、ＣＤ・ＤＶＤ等を用いた民生・業務用途における鑑賞用のパッケージ音楽分野、放送事業者等が商業目的で配信する放送・ネットワーク音楽配信分野における音楽著作権の保護（不正コピーの監視）および音楽属性情報の提供（楽曲タイトル検索サービス）分野に関する。

最近、流れている音楽のタイトル等を知ることができる楽曲属性情報の提供サービスとして、放送された音楽に対して日時と地域を放送局に照会したり、携帯電話で流れている音楽断片を録音してデータベースに登録されているメロディーと照合したりするサービスが実用化されている（例えば、特許文献１、２参照）。

特許文献１、２に記載の発明では、録音した音楽の断片と、データベースに登録されているメロディーと照合するため、データベースに登録される楽曲が増えると、処理負荷が増え、類似したメロディーを誤判定する可能性が増える。そこで、曲名やアーチスト情報などの楽曲属性情報を不可聴な電子透かしとして音響信号に埋め込む手法も提案されている（例えば、特許文献３〜６参照）。

特許文献１〜６に記載の手法では、埋め込み可能な情報量が少なく、音質が少なからず劣化し、各種信号処理により透かし情報が消失し、またアナログコピーに対しては、透かし検出が困難であるという問題がある。そこで、本出願人は、複数チャンネル有する音響信号の低周波数成分の比率を属性情報のビット値に応じて変更することにより、属性情報を埋め込む手法を提案した（特許文献７参照）。
特開２００２−２５９４２１号公報特開２００３−１５７０８７号公報特開平１１−１４５８４０号公報特開平１１−２１９１７２号公報特許第３３２１７６７号公報特開２００３−９９０７７号公報特願２００５−５１５７号

しかしながら、上記特許文献７に記載の手法では、アナログ経由で属性情報等の付加情報を抽出する場合、必ずしも付加情報を埋め込んだ先頭の位置から抽出することができるわけではないため、正しい付加情報が抽出できない場合があるという問題がある。また、アナログ経由で付加情報を抽出する場合、左右バランスが顕著にずれることが多く、記録した情報が、抽出側で誤って認識されることがあり、これも正しい付加情報が抽出できない原因となっている。さらに、所定の強度を有さない信号については、無効な信号であると判定するが、信号のレベルが変動した場合に、有効であるか無効であるかを正確に判定できないという問題もある。

そこで、本発明は、ＣＤや放送で提供される複数チャンネルの音響信号について、原音質にほとんど影響を与えずに不可聴な状態で埋め込まれた付加情報を、正確に抽出することが可能な音響信号からの情報の抽出装置を提供することを課題とする。

上記課題を解決するため、本発明では、左右２チャンネルの時系列のサンプル列で構成されるステレオの音響信号から、あらかじめ聴取不能な状態で埋め込まれた情報を抽出する装置であって、前記音響信号の再生により流れている音を、指向性マイクロフォンによりチャンネル別に取り込み、デジタル化して２チャンネルの音響信号として取得する音響信号入力手段と、前記取得された各チャンネルの音響信号から、それぞれ所定数のサンプルで構成される音響フレームを基準フレームとして獲得する基準フレーム獲得手段と、前記基準フレームと所定サンプルずつ移動させることにより位相を変更して設定される複数の音響フレームを位相変更フレームとして設定する位相変更フレーム設定手段と、前記基準フレームおよび位相変更フレームとして設定された各音響フレームに対して周波数変換を行い、前記各音響フレームに対応するフレームスペクトルを生成する周波数変換手段と、前記生成されたフレームスペクトルから所定の周波数以下の成分に相当する低周波強度データ（Ｅｌ（ｊ），Ｅｒ（ｊ））を抽出し、当該抽出した低周波強度データの合算値を算出し、過去最適な位相と判断され、左右チャンネル間の比率が均等な状態と判断された音響フレームについての、左右それぞれの低周波強度データの合算値の総和（Ｃｌ，Ｃｒ）の比を、前記算出された低周波強度データの合算値に乗じることにより左右差の補正を行った状態で、前記抽出された低周波強度データの合算値（Ｅｌ，Ｅｒ）のチャンネル間比率を算出する符号判定パラメータ算出手段と、基準フレームが異なる過去の同位相の音響フレームにおいて算出された低周波強度データの合算値のチャンネル間比率を、一方を他方で除した場合に大きくなる方（Ｅｌ／ＥｒまたはＥｒ／Ｅｌ）を加算することによる位相別の総和（ｓ（ｐ））に基づいて、前記基準フレームおよび複数の位相変更フレームのうち１つの音響フレームを位相が最適なものであると判断し、当該最適な位相の音響フレームについて判断された前記低周波強度データの合算値のチャンネル間比率に基づいて、所定の符号を出力する符号出力手段と、前記出力された符号により構成されるビット配列を、所定の規則により変換して付加情報を抽出する付加情報抽出手段を有する音響信号からの情報の抽出装置を提供する。

本発明によれば、取得した音響信号を所定の音響フレームで解析する際、位相をずらしながら、各音響フレームについて最適な位相を判断し、最適な位相と判断される音響フレームの状態に基づいて、埋め込まれていた情報を判断するため、原音質にほとんど影響を与えずに、不可聴な状態で埋め込まれた付加情報を、再生されている音響信号から正確に抽出することが可能となるという効果を奏する。

以下、本発明の実施形態について図面を参照して詳細に説明する。
（１．埋め込み装置）
まず、音響信号に対して情報を埋め込むための埋め込み装置について説明する。図１は、埋め込み装置の構成を示す機能ブロック図である。図１において、１０は音響フレーム読込手段、２０は周波数変換手段、３０は低周波成分変更手段、４０は周波数逆変換手段、５０は改変音響フレーム出力手段、６０は記憶手段、６１は音響信号記憶部、６２は付加情報記憶部、６３は改変音響信号記憶部、７０は付加情報読込手段である。

音響フレーム読込手段１０は、付加情報の埋め込み対象とする元のステレオ音響信号の各チャンネルから所定数のサンプルを１フレームとして読み込む機能を有している。周波数変換手段２０は、音響フレーム読込手段１０が読み込んだ音響信号のフレームをフーリエ変換等により周波数変換してフレームスペクトルを生成する機能を有している。低周波成分変更手段３０は、生成された複数のフレームスペクトルから所定の周波数以下に相当する各低周波強度データを抽出し、付加情報記憶部６２から抽出した付加情報に基づいて、チャンネル間で対応する低周波強度データのチャンネル間比率を変更する機能を有している。周波数逆変換手段４０は、変更された低周波強度データを含む複数のフレームスペクトルに対して周波数逆変換を行うことにより、複数の改変音響フレームを生成する機能を有している。改変音響フレーム出力手段５０は、生成された改変音響フレームを順次出力する機能を有している。記憶手段６０は、付加情報を埋め込む対象とするステレオ音響信号を記憶した音響信号記憶部６１と、ビット配列として構成され、ステレオ音響信号に埋め込まれる付加情報を記憶した付加情報記憶部６２と、付加情報埋め込み後の改変音響信号を記憶する改変音響信号記憶部６３を有しており、その他処理に必要な各種情報を記憶するものである。付加情報読込手段７０は、付加情報記憶部６２から付加情報を抽出する機能を有している。なお、付加情報とは、音響情報に付加して埋め込むべき情報であり、タイトルやアーティスト名等の属性情報、および属性情報以外の他の情報を含むものである。図１に示した各構成手段は、現実にはコンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。

（２．埋め込み装置の処理動作）
次に、図１に示した埋め込み装置の処理動作について図２のフローチャートに従って説明する。図２は、付加情報１バイトの処理に対応したものとなっている。まず、付加情報読込手段７０は、付加情報記憶部６２から付加情報を１バイト単位で読み込む（Ｓ１０１）。具体的には、レジスタに１バイト読み込むことになる。続いて、モードを区切りモードに設定する（Ｓ１０２）。モードは区切りモードと、ビットモードの２種類が存在する。区切りモードは１バイト単位の区切りにおける処理を行うモードを示し、ビットモードは１バイトの各ビットの値に基づいた処理を行うモードを示している。付加情報記憶部６２から１バイト読み込んだ場合には、その直後に必ず区切りモードに設定されることになる。

続いて、音響フレーム読込手段１０が、音響信号記憶部６１に記憶されたステレオ音響信号の左右の各チャンネルから、それぞれ所定数のサンプルを１音響フレームとして読み込む（Ｓ１０４）。音響フレーム読込手段１０が読み込む１音響フレームのサンプル数は、適宜設定することができるが、サンプリング周波数が４４．１ｋＨｚの場合、４０９６サンプル程度とすることが望ましい。したがって、音響フレーム読込手段１０は、左チャンネル、右チャンネルについてそれぞれ４０９６サンプルずつ、順次音響フレームとして読み込んでいくことになる。

続いて、周波数変換手段２０は、読み込んだ各音響フレームに対して、周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る（Ｓ１０５）。周波数変換としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができる。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。フーリエ変換を行う場合、左チャンネル信号ｘｌ（ｉ）、右チャンネル信号ｘｒ（ｉ）（ｉ＝０，…，Ｎ−１）に対して、以下の〔数式１〕に従った処理を行い、左チャンネルに対応する変換データの実部Ａｌ（ｊ）、虚部Ｂｌ（ｊ）、右チャンネルに対応する変換データの実部Ａｒ（ｊ）、虚部Ｂｒ（ｊ）を得る。

〔数式１〕
Ａｌ（ｊ）＝Σ_i=0,…,N-1ｘｌ（ｉ）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂｌ（ｊ）＝Σ_i=0,…,N-1ｘｌ（ｉ）・ｓｉｎ（２πｉｊ／Ｎ）
Ａｒ（ｊ）＝Σ_i=0,…,N-1ｘｒ（ｉ）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂｒ（ｊ）＝Σ_i=0,…,N-1ｘｒ（ｉ）・ｓｉｎ（２πｉｊ／Ｎ）

〔数式１〕において、ｉは、各音響フレーム内のＮ個のサンプルに付した通し番号であり、ｉ＝０，１，２，…Ｎ−１の整数値をとる。また、ｊは周波数の値について、値の小さなものから順に付した通し番号であり、ｉと同様にｊ＝０，１，２，…Ｎ−１の整数値をとる。サンプリング周波数が４４．１ｋＨｚ、Ｎ＝４０９６の場合、ｊの値が１つ異なると、周波数が１０．８Ｈｚ異なることになる。この際、音響信号ｘｌ（ｉ）、ｘｒ（ｉ）には、それぞれＷ（ｉ）＝０．５−０．５・ｃｏｓ（２πｉ／Ｎ）で表現される窓関数（ハニング窓）を重みとして乗じる。このような窓関数は、フーリエ変換を行う際に、周波数成分に波形を分断することにより発生する高周波ノイズを低減するためと、フーリエ逆変換を行う際に解析区間（音響フレームに相当）の間で信号レベルが不連続にならないように連結させるために用いられるものであり、周知の技術である。

上記〔数式１〕に従った処理を実行することにより、各音響フレームの信号成分を周波数に対応した成分であるスペクトルで表現されたフレームスペクトルが得られる。続いて、低周波成分変更手段３０が、生成された複数のフレームスペクトルから所定の周波数以下の低周波強度データを抽出する。人間の聴覚は、２００〜３００Ｈｚ程度までの低周波成分については、方向性を感知しにくくなっていることが知られている（コロナ社１９９０年１０月３０日発行「音響工学講座１．基礎音響工学、日本音響学会編」ｐ２４７図９・２６参照）。したがって、本実施形態では、所定の周波数として２００Ｈｚ程度を設定し、周波数が２００Ｈｚ以下の低周波強度データを抽出することにしている。周波数２００Ｈｚ付近は、上記ｊが２０に相当するので、上記〔数式１〕により算出された実部Ａｌ（ｊ）、虚部Ｂｌ（ｊ）、実部Ａｒ（ｊ）、虚部Ｂｒ（ｊ）のうち、ｊ≦２０のものを抽出することになる。

続いて、低周波成分変更手段３０は、抽出した実部Ａｌ（ｊ）、虚部Ｂｌ（ｊ）、実部Ａｒ（ｊ）、虚部Ｂｒ（ｊ）を利用して、以下の〔数式２〕によりｊ＝１〜Ｍ（２００Ｈｚ以下を抽出する場合は、２０）までの低周波強度の合計値を算出する。

〔数式２〕
Ｅ＝Σ_j=1,…,M｛Ａｌ（ｊ）²＋Ｂｌ（ｊ）²＋Ａｒ（ｊ）²＋Ｂｒ（ｊ）²｝

上記〔数式２〕により算出されたＥは、フレームスペクトルにおける低周波成分の合算値を示すことになる。続いて、この合算値Ｅがレベル下限値Ｌｅｖ以上であるかどうかの判定を行う。レベル下限値Ｌｅｖは、音響信号ｘｌ（ｉ）、ｘｒ（ｉ）の振幅最大値が１に正規化されており、Ｍ＝２０に設定されている場合、４程度に設定する。合算値Ｅがレベル下限値Ｌｅｖ以上であるかどうかを判断するのは、信号の強度が小さいと、信号を変化させても、その変化を抽出側で検出することができないためである。したがって、合算値Ｅがレベル下限値Ｌｅｖ未満である場合は、付加情報のビット値に応じた記録をせず、先頭ビットから再度処理するため、読み込み位置を先頭ビットに戻し、モードを区切りモードに設定する（Ｓ１０６）。一方、合算値Ｅがレベル下限値Ｌｅｖ以上である場合には、モードを判断することになる。

低周波成分変更手段３０は、モードが区切りモードである場合、低周波強度を左右のチャンネルで同一とする処理を行う（Ｓ１０８）。すなわち、低周波成分の音源を中央へ移動することになる。具体的には、以下の〔数式３〕に従った処理を実行することになる。

〔数式３〕
Ｅ（ｊ）＝［０．５・｛Ａｌ（ｊ）²＋Ｂｌ（ｊ）²＋Ａｒ（ｊ）²＋Ｂｒ（ｊ）²｝］^1/2
Ａｌ（ｊ）←Ａｌ（ｊ）・Ｅ（ｊ）／｛Ａｌ（ｊ）²＋Ｂｌ（ｊ）²｝^1/2
Ｂｌ（ｊ）←Ｂｌ（ｊ）・Ｅ（ｊ）／｛Ａｌ（ｊ）²＋Ｂｌ（ｊ）²｝^1/2
Ａｒ（ｊ）←Ａｒ（ｊ）・Ｅ（ｊ）／｛Ａｒ（ｊ）²＋Ｂｒ（ｊ）²｝^1/2
Ｂｒ（ｊ）←Ｂｒ（ｊ）・Ｅ（ｊ）／｛Ａｒ（ｊ）²＋Ｂｒ（ｊ）²｝^1/2

上記〔数式３〕において、第２式から第５式における“←”は右辺の計算結果を左辺に代入することを示している。上記〔数式３〕に従った処理を実行することにより、フレームスペクトルの低周波数成分は、左右チャンネル均等のパターンに変更されることになる。この左右チャンネル均等のパターンは、付加情報の先頭位置（区切り）を示す情報となる。

一方、低周波成分変更手段３０は、モードがビットモードである場合、付加情報記憶部６２から抽出した付加情報のビット配列のビット値に応じて、低周波成分の左右チャンネル間の分布を左チャンネル大か、右チャンネル大かのいずれかに変更する処理を行う（Ｓ１０７）。すなわち、低周波成分の音源を左又は右へ移動することになる。具体的には、第１の値と第２の値をとり得るビット値に応じて以下の〔数式４〕、〔数式５〕のいずれかに従った処理を実行することにより、低周波成分の左右分布を変更する。例えば、第１の値を１、第２の値を０とした場合、ビット値が１のとき、以下の〔数式４〕に従った処理を実行する。

〔数式４〕
Ｅ（ｊ）＝｛Ａｌ（ｊ）²＋Ｂｌ（ｊ）²＋Ａｒ（ｊ）²＋Ｂｒ（ｊ）²｝^1/2
Ａｒ（ｊ）←Ａｒ（ｊ）・Ｅ（ｊ）／｛Ａｒ（ｊ）²＋Ｂｒ（ｊ）²｝^1/2
Ｂｒ（ｊ）←Ｂｒ（ｊ）・Ｅ（ｊ）／｛Ａｒ（ｊ）²＋Ｂｒ（ｊ）²｝^1/2
Ａｌ（ｊ）＝０
Ｂｌ（ｊ）＝０

ビット値が０の場合、以下の〔数式５〕に従った処理を実行する。

〔数式５〕
Ｅ（ｊ）＝｛Ａｌ（ｊ）²＋Ｂｌ（ｊ）²＋Ａｒ（ｊ）²＋Ｂｒ（ｊ）²｝^1/2
Ａｌ（ｊ）←Ａｌ（ｊ）・Ｅ（ｊ）／｛Ａｌ（ｊ）²＋Ｂｌ（ｊ）²｝^1/2
Ｂｌ（ｊ）←Ｂｌ（ｊ）・Ｅ（ｊ）／｛Ａｌ（ｊ）²＋Ｂｌ（ｊ）²｝^1/2
Ａｒ（ｊ）＝０
Ｂｒ（ｊ）＝０

上記〔数式４〕、〔数式５〕のいずれかに従った処理を実行することにより、付加情報のビット配列の各ビット値に応じて、低周波数成分が左チャンネル、右チャンネル、のどちらかのパターンに変更されることになる。結局、低周波成分変更手段３０は、区切りモードの場合に〔数式３〕に基づく処理をＳ１０８において行い、ビットモードの場合に〔数式４〕又は〔数式５〕に基づく処理をＳ１０７において行うことになる。

次に、周波数逆変換手段４０が、低周波強度データのチャンネル間比率が変更されたフレームスペクトルを周波数逆変換して改変音響フレームを得る処理を行う（Ｓ１０９）。この周波数逆変換は、当然のことながら、周波数変換手段２０がＳ１０５において実行した手法に対応していることが必要となる。本実施形態では、周波数変換手段２０において、フーリエ逆変換を施しているため、周波数逆変換手段４０は、フーリエ逆変換を実行することになる。具体的には、上記〔数式３〕〜〔数式５〕のいずれかにより得られたスペクトルの左チャンネルの実部Ａｌ（ｊ）、虚部Ｂｌ（ｊ）、右チャンネルの実部Ａｒ（ｊ）、虚部Ｂｒ（ｊ）を用いて、以下の〔数式６〕に従った処理を行い、ｘｌ´（ｉ）、ｘｒ´（ｉ）を算出する。

〔数式６〕
ｘｌ´（ｉ）＝１／Ｎ・｛Σ_j=0,…,N-1Ａｌ（ｊ）・ｃｏｓ（２πｉｊ／Ｎ）−Σ_j=0,…,N-1Ｂｌ（ｊ）・ｓｉｎ（２πｉｊ／Ｎ）｝＋｛１−Ｗ（ｉ）｝・ｘｌ（ｉ）
ｘｒ´（ｉ）＝１／Ｎ・｛Σ_j=0,…,N-1Ａｒ（ｊ）・ｃｏｓ（２πｉｊ／Ｎ）−Σ_j=0,…,N-1Ｂｒ（ｊ）・ｓｉｎ（２πｉｊ／Ｎ）｝＋｛１−Ｗ（ｉ）｝・ｘｒ（ｉ）

上記〔数式６〕における第１式の“＋｛１−Ｗ（ｉ）｝・ｘｌ（ｉ）”、第２式の“＋｛１−Ｗ（ｉ）｝・ｘｒ（ｉ）”の項は、上記〔数式１〕において周波数変換する際に、窓関数Ｗ（ｉ）を乗じることにより除去された信号成分を復元するためのものである。上記〔数式６〕により改変音響フレームの左チャンネルの各サンプルｘｌ´（ｉ）、右チャンネルの各サンプルｘｒ´（ｉ）、が得られることになる。改変音響フレーム出力手段５０は、得られた改変音響フレームを順次出力ファイルに出力する（Ｓ１１０）。こうして１つの音響フレームに対する処理を終えたら、モードをビットモードに設定した後（Ｓ１１１）、付加情報読込手段７０が付加情報のビット配列中の次のビットを読み込む（Ｓ１０３）。以上のような処理を音響信号の両チャンネルの全サンプルに渡って実行していく。すなわち、所定数のサンプルを音響フレームとして読み込み、音響信号から読み込むべき音響フレームがなくなったら（Ｓ１０４）、処理を終了する。なお、Ｓ１０１において読み込んだ１バイトのデータの各ビットに対応する処理を終えた場合、Ｓ１０３からＳ１０１に戻り、付加情報の次のバイトを読み込み処理をすることになる。付加情報の全バイトに対して、処理が終了した場合は、付加情報の先頭バイトに戻って処理を行う。この結果、全ての音響フレームに対して処理を行った全ての改変音響フレームが出力ファイルに記録されて、改変音響信号として得られる。得られた改変音響信号は、記憶手段６０内の改変音響信号記憶部６３に出力され、記憶される。

以上の処理による信号の変化の様子を図３を用いて説明する。図３において、左右方向は、時間軸であり、サンプル数に比例する。Ｌ、Ｒはそれぞれ改変音響信号の左チャンネル、右チャンネルを示している。また、図中多数存在する矩形は、改変音響フレームの低周波成分を示し、その横幅はサンプル数（本実施形態では、４０９６）、縦幅は強度を示している。図３（ａ）は、上記〔数式２〕により算出された合算値Ｅがレベル下限値未満となる音響フレームが存在しない場合、すなわち、付加情報を埋め込むには、良好な信号である場合を示している。図３（ｂ）は、上記〔数式２〕により算出された合算値Ｅがレベル下限値未満となる音響フレームが存在する場合、すなわち、付加情報を埋め込むには、良好でない信号である場合を示している。

例えば、付加情報として、１バイト目が「１１０１１１００」、２バイト目が「１１０００００１」の２バイトのビット配列を埋め込むとする。まず、各バイトの先頭には、区切りを示す情報として、左右均等な状態に設定されることになる。これは、Ｓ１０２により区切りモードに設定され、Ｓ１０８において、上記〔数式３〕に従った処理を実行した結果得られる。また、図３（ａ）の例では、合算値Ｅがレベル下限値Ｌｅｖ未満となる音響フレームが存在しないため、１バイトが連続して上記〔数式４〕又は〔数式５〕により処理されることになる。これは、Ｓ１０３からＳ１１１を経由するループが８回連続して繰り返され、その間レベル下限値未満であるとしてＳ１０６およびＳ１０８を経由することがなかったことを示している。図に示すように、付加情報のビット値が１の場合は、Ｒ側に存在し、付加情報のビット値が０の場合は、Ｌ側に低周波成分が設定される。上記〔数式４〕、〔数式５〕からもわかるように、この場合は他方の低周波成分は０となる。

図３（ｂ）の例では、上記〔数式２〕に従った処理の結果、レベル下限値Ｌｅｖ未満となる音響フレームが存在するので、この場合Ｓ１０６およびＳ１０８を経由して、上記〔数式３〕に従った処理を実行した結果左右均等な状態に設定される。この場合、Ｓ１０６において、読み込み位置が先頭ビットに戻されるため、再び同じビットを読むことになる。図３（ｂ）の例では、１バイト目の「１１０１１１００」を埋め込む場合に、最初は「１１」の２ビット処理した時点でレベル下限値Ｌｅｖ未満の音響フレームが出現し、２度目は「１１０１１」の５ビット処理した時点でレベル下限値Ｌｅｖ未満の音響フレームが出現し、３度目でようやく８ビット処理することができたことを示している。

しかし、図２に従った処理を行った場合には、図３（ｂ）に示したように、低周波成分の信号レベルが小さい音響フレームが出現するたびに、１バイト単位で先頭から繰り返して処理することになるため、効率が悪い。そこで、図２に代えて、図４に示すような処理を行うようにしても良い。

図４に示す処理で、図２に示す処理と大きく異なるのは、区切りモード、ビットモードの他に継続識別モードを備え、３つのモードとし、低周波成分の信号レベルが小さい音響フレームが出現した場合であっても、先頭に戻らず、継続して処理するようにした点である。そのため、継続識別モードにおいては、次のビットが先頭から始まる新規なものか、中断されたために継続されたものであるかを識別するための情報を記録することになる。なお、図４の処理では、付加情報の処理をバイト単位でなく、ワード単位で行っている。これは、図２のＳ１０６に示したように、強制的に読み込み位置を先頭に戻す処理がないため、バイト以外の単位で処理するのが容易であるためである。１ワードのビット数は自由に設定でき、１バイトに設定することもできる。

図４の処理については、図２の処理と共通する部分が多いため、異なる部分について説明していく。まず、付加情報読込手段７０は、付加情報記憶部６２から付加情報を１ワード単位で読み込む（Ｓ２０１）。その後、モードを区切りモードに設定し（Ｓ２０２）、音響フレーム読込手段１０が、音響信号記憶部６１に記憶されたステレオ音響信号の左右各チャンネルから、音響フレームを読み込み（Ｓ２０４）、周波数変換手段２０が、読み込んだ各音響フレームに対して、〔数式１〕に従って周波数変換を行ってフレームスペクトルを得て（Ｓ２０５）、低周波成分変更手段３０が、抽出した実部Ａｌ（ｊ）、虚部Ｂｌ（ｊ）、実部Ａｒ（ｊ）、虚部Ｂｒ（ｊ）を利用して、〔数式２〕により合算値Ｅを算出し、合算値Ｅがレベル下限以上であるかどうかを判断するところまでは同一である。ただし、図４の処理においては、合算値Ｅがレベル下限値未満である場合は、モードを区切りモードに設定するだけである（Ｓ２０６）。一方、合算値Ｅがレベル下限値以上である場合には、モードを判断することになる。

低周波成分変更手段３０は、モードが区切りモードである場合、上記〔数式３〕に従って、低周波強度を左右のチャンネルで同一とする処理を行う（Ｓ２０８）。一方、低周波成分変更手段３０は、モードがビットモードである場合、上記〔数式４〕、〔数式５〕に従って、付加情報記憶部６２から抽出した付加情報のビット配列のビット値に応じて、低周波強度の左右チャンネル間の比率を変更する処理を行う（Ｓ２０７）。また、Ｓ２０７においては、図２のＳ１０７と異なり、継続識別モードである場合にも処理を行う。継続識別モードである場合、新規であるときは〔数式４〕に従って低周波成分の左右チャンネル間の分布を右チャンネル大に変更し、継続であるときは〔数式５〕に従って低周波成分の左右チャンネル間の分布を左チャンネル大に変更する。

次に、周波数逆変換手段４０が、低周波強度データのチャンネル間比率が変更されたフレームスペクトルを〔数式６〕に従って周波数逆変換して改変音響フレームを得る処理を行い（Ｓ２０９）、改変音響フレーム出力手段５０は、得られた改変音響フレームを順次出力ファイルに出力する（Ｓ２１０）。こうして１つの音響フレームに対する処理を終えたら、モードの判定を行い（Ｓ２１１）、モードが区切りモードである場合は、モードを継続識別モードに設定した後（Ｓ２１２）、音響フレーム読込手段１０が、音響フレームを読み込む（Ｓ２０４）。一方、モードがビットモード又は継続識別モードである場合は、モードをビットモードに設定した後（Ｓ２１３）、低周波成分変更手段３０が付加情報のビット配列中の次のビットを読み込む（Ｓ２０３）。そして、全音響フレームの処理を行い、音響信号から読み込むべき音響フレームがなくなったら（Ｓ２０４）、処理を終了する。

図４に従った処理による信号の変化の様子を図５を用いて説明する。図５においては、図３と同様、左右方向は時間軸であり、図中多数存在する矩形は、改変音響フレームの低周波成分を示し、その横幅はサンプル数、縦幅は強度を示している。図５（ａ）は、図３（ａ）と同様、上記〔数式２〕により算出された合算値Ｅが、レベル下限値以上となる音響フレームが存在しない場合を示しており、図５（ｂ）は、図３（ｂ）と同様、上記〔数式２〕により算出された合算値Ｅが、レベル下限値未満となる音響フレームが存在する場合を示している。

また、図２の処理との比較のため、埋め込む付加情報も、図３の場合と同様、１バイト目が「１１０１１１００」、２バイト目が「１１０００００１」の２バイトのビット配列とする。図３と同様、各バイトの先頭には、区切りを示す情報として、左右均等な状態に設定されることになる。これは、Ｓ２０２により区切りモードに設定され、Ｓ２０８において、上記〔数式３〕に従った処理を実行した結果得られる。続いて、付加情報の各ビットに対応した処理を行う前に、新規であるか継続であるかを示す情報を記録することになる。図２に示す処理によれば、レベル下限値未満となる音響フレームが存在した場合には、処理するビットを各バイトの先頭に戻して処理するため、全て新規となるが、図４に示す処理では、レベル下限値未満となる音響フレームが存在した場合であっても、その時点で処理したビットは有効とし、そこから継続して行うため、そのビットが新規であるか継続であるかの情報を記録しておく必要がある。そこで、区切りを示す情報を記録した後には、新規であるか継続であるかを示す情報を記録する。具体的には、区切りモードの状態で、モード判断を行うことにより（Ｓ２１１）、継続識別モードに設定され（Ｓ２１２）、付加情報のビットを読み込むことなく、音響フレームの抽出を行う（Ｓ２０４）。そして、周波数変換後（Ｓ２０５）、新規である場合には、〔数式４〕に従った処理により、低周波成分の左右チャンネル間の分布を右チャンネル大に変更する（Ｓ２０７）。

このようにして、新規か継続かを示す情報を記録した後は、継続識別モードの状態でモード判断を行うため（Ｓ２１１）、ビットモードに設定され（Ｓ２１３）、レジスタから先頭のビットを読み込み（Ｓ２０３）、音響フレームの抽出を行う（Ｓ２０４）。図５（ａ）の例では、レベル下限値未満となる音響フレームが存在しないため、１バイトが連続して上記〔数式４〕又は〔数式５〕により処理されることになる。これは、Ｓ２０３からＳ２１３を経由するループが８回連続して繰り返され、その間レベル下限値未満であるとしてＳ２０６およびＳ２０８、Ｓ２１２を経由することがなかったことを示している。

図５（ｂ）の例では、上記〔数式２〕に従った処理の結果、レベル下限値未満となる音響フレームが存在するので、この場合Ｓ２０６およびＳ２０８を経由して、上記〔数式３〕に従った処理を実行した結果左右均等な状態に設定される。この場合、Ｓ２０６において、区切りモードに設定されるため、Ｓ２１２を経由して、新規か継続かを示す情報を記録することになる。図５（ｂ）の例では、１バイト目の「１１０１１１００」を埋め込む場合に、最初は第１ビット目の「１」の１ビット処理した時点でレベル下限値未満の音響フレームが出現しているため、区切りを示す情報を記録した後、継続を示す情報を記録し、継続して第２ビット目の「１」から処理をしている。そして、第２ビット目から第５ビット目の「１０１１」を処理した時点でレベル下限値未満の音響フレームが出現しているため、区切りを示す情報を記録した後、継続を示す情報を記録し、継続して第６ビット目の「１」から処理をしている。

なお、図５の例では、図３との比較のため、付加情報がバイト単位で記録されている場合について説明したが、図４に示す処理は、新規か継続かを示す情報を記録するため、付加情報を任意のビット数単位で記録することが可能である。

上記の例では、区切り情報を固定長のバイト単位又は可変長のワード単位で区切りを示す情報を挿入するようにしたが、さらにビット単位で区切りを示す情報を挿入することも可能である。この場合、音響フレーム読込手段１０が音響フレームの抽出を行う際、前後の音響フレームに重複する重複音響フレームを抽出し、この重複音響フレームに対して、〔数式１〕に従って周波数変換を行い、さらに、〔数式３〕に従って左右チャンネルの低周波成分を均等にする処理を行う。重複音響フレームは、前後の音響フレームと半数づつサンプルが重複するように設定する。例えば、先行する音響フレームがサンプル番号１から４０９６まで、後続する音響フレームがサンプル番号４０９７から８１９２までである場合、この間に設定される重複音響フレームはサンプル番号２０４９から６１４４までとなる。同様にして、音響信号の全区間について、重複音響フレームを読み込み、左右チャンネルの低周波成分を均等にする処理を行うことになる。

上記のように、重複音響フレームを設定して、その左右チャンネルの低周波成分を均等にする処理を行った場合、これを改変音響信号に反映させるため、左右チャンネルの低周波成分を均等にする処理後の重複フレームスペクトルに対して周波数逆変換を行って改変重複音響フレームを得て、さらに音響フレームと連結する処理を行う必要がある。この場合、窓関数Ｗ（ｉ）を乗じることにより音響フレームから除去された信号成分を、重複音響フレームの信号と連結することにより補うことが可能となるため、上記〔数式６〕における第１式の“＋｛１−Ｗ（ｉ）｝・ｘｌ（ｉ）”、第２式の“＋｛１−Ｗ（ｉ）｝・ｘｒ（ｉ）” の項が不要となる。したがって、この場合、重複フレームスペクトルに対する周波数逆変換、およびフレームスペクトルに対する周波数逆変換（Ｓ１０９、Ｓ２０９）は上記〔数式６〕ではなく、以下の〔数式７〕に従って処理することになる。

〔数式７〕
ｘｌ´（ｉ）＝１／Ｎ・｛Σ_j=0,…,N-1Ａｌ（ｊ）・ｃｏｓ（２πｉｊ／Ｎ）−Σ_j=0,…,N-1Ｂｌ（ｊ）・ｓｉｎ（２πｉｊ／Ｎ）｝
ｘｒ´（ｉ）＝１／Ｎ・｛Σ_j=0,…,N-1Ａｒ（ｊ）・ｃｏｓ（２πｉｊ／Ｎ）−Σ_j=0,…,N-1Ｂｒ（ｊ）・ｓｉｎ（２πｉｊ／Ｎ）｝

上記〔数式７〕により改変音響フレーム、改変重複音響フレームの左チャンネルの各サンプルｘ´ｌ（ｉ）、右チャンネルの各サンプルｘ´ｒ（ｉ）、が得られることになる。改変音響フレーム出力手段５０は、Ｓ１１０、Ｓ２１０において、得られた改変音響フレームおよび改変重複音響フレームを順次連結して出力ファイルに出力する。上述のように、音響フレームおよび重複音響フレームは、音響フレーム読込手段１０により音響信号から読み込む際、音響フレームと重複音響フレームに同一のサンプルが重複して含まれるように処理されている。したがって、音響フレーム出力手段５０においては、重複して読み込まれたサンプルについて、各サンプルの値を合算した値として、出力ファイルに記録していく。

このようにして得られた改変音響信号のうち、付加情報が埋め込まれている部分については、低周波成分は、双方のチャンネルに均等に存在するか、あるいはどちらか一方のチャンネルに偏在するかの３通りの分布しかないことになる。しかし、高周波成分については、元の音響信号のままであるので、両チャンネルから制作者の設定に基づいた種々な分布になる。人間の聴覚は、高周波成分については、方向性を感知し易いが、低周波成分については、方向性を感知しにくくなっている。したがって、低周波成分が一方に偏っていても、聴いている人にとっては、通常の音響信号と変わりなく聴こえることになる。

（３．音響信号からの情報の抽出装置）
次に、本発明に係る音響信号からの情報の抽出装置について説明する。図６は、本発明に係る音響信号からの情報の抽出装置の一実施形態を示す構成図である。図６において、１００は音響信号入力手段、１１０は基準フレーム獲得手段、１２０は位相変更フレーム設定手段、１３０は周波数変換手段、１４０は符号判定パラメータ算出手段、１５０は符号出力手段、１６０は付加情報抽出手段、１７０は音響フレーム保持手段である。

音響信号入力手段１００は、流れている音声をデジタル音響信号として取得し、入力する機能を有している。現実には、マイクロフォンおよびＡ／Ｄ変換器により実現される。マイクロフォンとしては、左右の２チャンネルからの音声入力が可能な指向性マイクロフォンであることが必要である。基準フレーム獲得手段１１０は、入力されたデジタルのステレオ音響信号の各チャンネルから所定数のサンプルで構成される音響フレームを基準フレームとして読み込む機能を有している。位相変更フレーム設定手段１２０は、基準フレームと所定サンプルずつ移動させることにより位相を変更した音響フレームを位相変更フレームとして設定する機能を有している。周波数変換手段１３０は、図１に示した周波数変換手段２０と同様の機能を有している。符号判定パラメータ算出手段１４０は、生成された複数のフレームスペクトルから所定の周波数以下に相当する各低周波強度データを抽出し、左右各チャンネルごとに各低周波強度データの合算値Ｅｌ、Ｅｒを算出し、この合算値Ｅｌ、Ｅｒを符号判定パラメータとし、この符号判定パラメータＥｌ、Ｅｒの比率に基づいて、所定の状態であると判断する機能を有している。

符号出力手段１５０は、１つの基準フレームに対応する音響フレーム（基準フレームおよび位相変更フレーム）の中から最適な位相であると判断されるものを判断し、その音響フレームの状態に対応する符号を出力する機能を有している。付加情報抽出手段１６０は、符号出力手段１５０により出力された符号の集合である３値配列を、所定の規則により変換して意味のある付加情報として抽出する機能を有している。音響フレーム保持手段１７０は、各チャンネルごとに、連続する２個の基準フレームを保持可能なバッファメモリである。図６に示した各構成手段は、現実には情報処理機能を有する小型のコンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。特に、本発明の目的をより簡易に達成するためには、携帯型端末装置をハードウェアとして用いることが望ましい。

（４．抽出装置の処理動作）
次に、図６に示した音響信号からの情報の抽出装置の処理動作について図７のフローチャートに従って説明する。まず、本装置では、平均符号レベルＨＬ、左右バランステーブル、位相判定テーブルの３つが初期化される。これらについて説明する。平均符号レベルＨＬは、ビット値に対応する２値が埋め込まれていたと判断される音響フレーム（以下、有効フレームと呼ぶことにする）についての、上記〔数式２〕で算出される低周波成分の合算値Ｅの平均値、すなわち、過去の有効フレームにおける合算値Ｅの平均値で与えられるものであり、初期値は、上記埋め込み装置においても用いられるレベル下限値Ｌｅｖに設定されている。左右バランステーブルは、実際には、２種の補正係数Ｃｌ（ｊ）、Ｃｒ（ｊ）により構成されるものであり、初期値は、Ｍ以下の各ｊについて、Ｃｌ（ｊ）＝Ｃｒ（ｊ）＝１に設定されている。位相判定テーブルＳ（ｐ）は、位相を判定するためのテーブルであり、ｐは０〜５の整数値をとる。初期値はＳ（ｐ）＝０に設定されている。

このように、初期値が設定されている状態で、利用者が流れている音楽について、その楽曲名等の属性情報を知りたいと思った場合、まず、抽出装置に対して、抽出装置としての起動の指示を行う。これは、例えば、抽出装置を携帯電話機等の携帯端末で実現している場合は、所定のボタンを操作することにより実行できる。抽出装置は、指示が入力されると、音響信号入力手段１００が、流れている音楽を録音し、デジタル化してデジタル音響信号として入力する。具体的には、指向性マイクロフォンの左右から入力される音声を、それぞれＡ／Ｄ変換器によりデジタル化する処理を行うことになる。

続いて、基準フレーム獲得手段１１０が、音響信号入力手段１００から入力されたステレオ音響信号の各チャンネルから、それぞれ所定数のサンプルで構成される音響フレームを基準フレームとして抽出する（Ｓ３０１）。具体的には、基準フレームを抽出して音響フレーム保持手段１７０に読み込むことになる。基準フレーム獲得手段１１０が基準フレームとして読み込む１音響フレームのサンプル数は、図１に示した音響フレーム読込手段１０で設定されたものと同一にする必要がある。したがって、本実施形態の場合、基準フレーム獲得手段１１０は、左チャンネル、右チャンネルについてそれぞれ４０９６サンプルずつ、順次基準フレームとして読み込んでいくことになる。音響フレーム保持手段１７０には、上述のように各チャンネルごとに２個の基準フレームが格納可能となっており、新しい基準フレームが読み込まれると、古い基準フレームを破棄するようになっている。したがって、音響フレーム保持手段１７０には、常に各チャンネルごとに基準フレーム２個分（連続する８１９２サンプル）が格納されていることになる。

埋め込み装置で処理する音響フレームは、先頭から途切れることなく隣接して設定される基準フレームと、この基準フレームと位相を変更した位相変更フレームとに分けることができる。基準フレームについては、最初の基準フレームをサンプル番号１からサンプル番号４０９６までを設定したら、次の基準フレームは、サンプル番号４０９７からサンプル番号８１９２、さらに次の基準フレームは、サンプル番号８１９３からサンプル番号１２２８８、というように途切れることなく設定される。そして、各基準フレームについて、１／６フレーム（約６８３サンプル）ずつ移動した５個の位相変更フレームを設定する。例えば、最初の基準フレームについては、サンプル番号６８３、１３６６、２０４９、２７３２、３４１３から始まる４０９６のサンプルで構成される５個の位相変更フレームが設定されることになる。

続いて、周波数変換手段１３０、符号判定パラメータ算出手段１４０が、読み込んだ各音響フレームから、埋め込まれている情報を判定し、対応する符号を出力する（Ｓ３０２）。出力される情報の形式は、埋め込み側のビット値に対応する２値、および区切りとして入力された値の３値の形式となる。

ここで、ステップＳ３０２の符号出力処理の詳細を図８のフローチャートに従って説明する。まず、周波数変換手段１３０が、読み込んだ各音響フレームに対して、周波数変換を行ってフレームスペクトルを得る（Ｓ４０１）。この処理は、図１に示した周波数変換手段２０における処理と同様である。したがって、本実施形態では、上記〔数式１〕に従った処理を行い、左チャンネルに対応する変換データの実部Ａｌ（ｊ）、虚部Ｂｌ（ｊ）、右チャンネルに対応する変換データの実部Ａｒ（ｊ）、虚部Ｂｒ（ｊ）を得る。この際、音響信号ｘｌ（ｉ）、ｘｒ（ｉ）には、それぞれＷ（ｉ）＝０．５−０．５・ｃｏｓ（２πｉ／Ｎ）で表現される窓関数（ハニング窓）を重みとして乗じる処理も、周波数変換手段２０と同様に行われる。

上記周波数変換手段１３０における処理により、周波数に対応した成分であるスペクトルで表現されたフレームスペクトルが得られる。続いて、符号判定パラメータ算出手段１４０は、平均符号レベルＨＬの算出を行う（Ｓ４０２）。具体的には、過去の有効フレームについての合算値Ｅの積算値であるｖを、過去の有効フレームの数であるｎで除算することにより算出する。したがって、平均符号レベルＨＬは、過去に有効フレームとして判断された低周波強度データの合算値の平均値となる。

さらに、符号判定パラメータ算出手段１４０は、生成された各チャンネルのフレームスペクトルから所定の周波数範囲の各低周波強度データを抽出する。抽出すべき周波数範囲は、埋め込み装置と対応させる必要がある。したがって、ここでは、周波数が２００Ｈｚ以下の低周波強度データを抽出することになり、埋め込み装置の場合と同様、上記〔数式１〕により算出された実部Ａｌ（ｊ）、虚部Ｂｌ（ｊ）、実部Ａｒ（ｊ）、虚部Ｂｒ（ｊ）のうち、ｊ≦２０のものを抽出する。そして、符号判定パラメータ算出手段１４０は、左右バランスの補正を行う（Ｓ４０３）。具体的には、抽出した実部Ａｌ（ｊ）、虚部Ｂｌ（ｊ）、実部Ａｒ（ｊ）、虚部Ｂｒ（ｊ）を利用して、以下の〔数式８〕により各周波数成分ごとの強度Ｅｒ（ｊ）、Ｅｌ（ｊ）を算出すると共に、〔数式９〕によりｊ＝１〜Ｍ（例えば２０）までの左チャンネルの低周波強度の合算値Ｅｌ、右チャンネルの低周波強度の合算値Ｅｒを符号判定パラメータとして算出する。

〔数式８〕
Ｅｌ（ｊ）＝Ａｌ（ｊ）²＋Ｂｌ（ｊ）²
Ｅｒ（ｊ）＝Ａｒ（ｊ）²＋Ｂｒ（ｊ）²

〔数式９〕
Ｅｌ＝Σ_j=1,…,M｛Ａｌ（ｊ）²＋Ｂｌ（ｊ）²｝
Ｅｒ＝Σ_j=1,…,M｛Ａｒ（ｊ）²＋Ｂｒ（ｊ）²｝・Ｃｌ（ｊ）／Ｃｒ（ｊ）

上記〔数式９〕において、Ｃｌ（ｊ）、Ｃｒ（ｊ）は、左右バランスの補正係数であり、“Ｃｌ（ｊ）／Ｃｒ（ｊ）”を右チャンネルの低周波強度に乗じることにより、左右バランスを補正している。逆に、左チャンネルの低周波強度に“Ｃｒ（ｊ）／Ｃｌ（ｊ）”を乗じても同様の効果が得られる。

続いて、符号判定パラメータ算出手段１４０は、候補符号テーブルの初期化を行う（Ｓ４０４）。候補符号テーブルは、１つの基準フレームおよび５個の位相変更フレームを特定する０〜５の位相番号および、この６個の音響フレームの状態から得られる３値の符号を記録するものである。

続いて、符号判定パラメータ算出手段１４０は、埋め込み装置の低周波成分変更手段３０と同様、抽出した実部Ａｌ（ｊ）、虚部Ｂｌ（ｊ）、実部Ａｒ（ｊ）、虚部Ｂｒ（ｊ）を利用して、上記〔数式２〕によりｊ＝１〜Ｍ（例えば２０）までの低周波強度の合計値Ｅを算出する。さらに、この合算値Ｅが所定値以上であるかどうかの判定を行う（Ｓ４０５）。具体的には、所定値として平均符号レベルＨＬの１０分の１を設定する。合算値Ｅが所定値、すなわち平均符号レベルＨＬの１０分の１未満である場合、符号判定パラメータ算出手段１４０は、区切り情報であると判定する（Ｓ４０９）。

一方、合算値Ｅが所定値、すなわち平均符号レベルＨＬの１０分の１以上である場合、符号判定パラメータ算出手段１４０は、上記算出された符号判定パラメータＥｌ、Ｅｒの比較判定を以下の〔数式１０〕に従って行い（Ｓ４０６）、比較結果に対応する符号を出力する。

〔数式１０〕
Ｅｒ／Ｅｌ＞２の場合、右チャンネル大
Ｅｌ／Ｅｒ＞２の場合、左チャンネル大
Ｅｒ／Ｅｌ≦２かつＥｌ／Ｅｒ≦２の場合、左右均等

符号判定パラメータ算出手段１４０は、各音響フレーム単位で、上記判定結果に応じて３値の符号を出力する。すなわち、右チャンネル大と判定した場合には、第１のビット値（例えば“１”）を出力し（Ｓ４０７）、左チャンネル大と判定した場合には、第２のビット値（例えば“０”）を出力し（Ｓ４０８）、左右均等と判定した場合には、区切り情報を示す符号を出力する（Ｓ４０９）。右チャンネル大と判定して、第１のビット値を出力した場合（Ｓ３２７）、又は左チャンネル大と判定して、第２のビット値を出力した場合（Ｓ３２８）は、さらに、以下の〔数式１１〕に従って位相判定テーブルＳ（ｐ）の更新を行う（Ｓ４１０）。

〔数式１１〕
右チャンネル大の場合、Ｓ（ｐ）←Ｓ（ｐ）＋Ｅｒ／Ｅｌ
左チャンネル大の場合、Ｓ（ｐ）←Ｓ（ｐ）＋Ｅｌ／Ｅｒ

続いて、符号判定パラメータ算出手段１４０は、候補符号テーブルに、最適位相となる候補を保存する（Ｓ４１１）。具体的には、位相判定テーブルに記録されているＳ（ｐ）の値が最大となる位相番号ｐの値、前記Ｓ４０７〜Ｓ４０９により判定された３値のいずれかの符号、その音響フレームについての上記〔数式８〕により算出した低周波数成分に対応する各Ｅｌ（ｊ）、Ｅｒ（ｊ）の値を最適位相の候補として候補符号テーブルに保存する。

続いて、全ての位相番号ｐに対応する処理を終えたかどうかを判定する（Ｓ４１２）。これは、ある基準フレームに対して全ての位相変更フレームの処理を行ったかどうかを判定している。本実施形態では、ｐが０〜５までの値をとるので、６回分処理していない場合は、処理していた音響フレームから所定サンプル数ずらして、位相の異なる音響フレームを設定し、Ｓ４０５に戻って処理を繰り返す。なお、ｐ＝０の場合が基準フレームであり、ｐ＝１〜５の場合が位相変更フレームである。全ての位相番号ｐに対応する処理を終えた場合は、候補保存テーブルに記録されている位相番号ｐに対応する位相が最適位相であると判定し、候補保存テーブルに記録されている符号を出力する（Ｓ４１３）。

再び図７のフローチャートに戻って説明する。Ｓ３０２による処理の結果、ビット値に相当する符号が出力された場合には、平均符号レベルのパラメータの更新を行う（Ｓ３０３）。具体的には、平均符号レベル算出の際の分子となる積算値ｖに合算値Ｅを加算して積算値ｖを更新し、分母となるフレーム数ｎに１を加算してフレーム数ｎを更新する。続いて、出力された符号に対応するビット値をバッファに保存する（Ｓ３０４）。続いて、ビットカウンタをカウントアップする（Ｓ３０５）。そして、ビットカウンタが８ビット以上であるかどうかを判断する（Ｓ３０６）。その結果、ビットカウンタが８ビット以上である場合には、１バイト分のビット値がバッファに格納されていることになるので、バッファ内の１バイト分のデータを、付加情報抽出手段１６０が出力する（Ｓ３０７）。一方、Ｓ３０２による処理の結果、区切り情報に対応する値が出力された場合には、左右バランステーブルの更新を行う（Ｓ３０８）。具体的には、以下の〔数式１２〕により、左右バランステーブルを構成するＣｌ（ｊ）、Ｃｒ（ｊ）を更新する。

〔数式１２〕
Ｃｌ（ｊ）←Ｃｌ（ｊ）＋Ｅｌ（ｊ）
Ｃｒ（ｊ）←Ｃｒ（ｊ）＋Ｅｒ（ｊ）

なお、上記〔数式１２〕におけるＥｌ（ｊ）、Ｅｒ（ｊ）は、上記Ｓ４１３において最適位相であると判定された音響フレームに対応して、候補保存テーブルに記録されていたものである。

そして、ビットカウンタを０に初期化する（Ｓ３０９）。図７に示す処理を各音響フレームに対して実行することにより、付加情報が抽出されることになる。Ｓ３１０において全ての音響フレームが抽出されたと判断された場合には、処理を終了する。

上記Ｓ３０７の処理において、付加情報抽出手段１６０は、まず、符号判定パラメータ算出手段１４０により出力された３値の符号のうち、左右均等を示す符号を区切り位置として、その次の符号を先頭とし、右チャンネル大、左チャンネル大の符号をビット値に対応させて、ビット配列を作成する。続いて、このビット配列を、所定の規則により変換して意味のある付加情報として抽出する。所定の規則としては、情報を埋め込む者が意図した情報が受け取った者に認識可能な状態とできるものであれば、さまざまな規則が適用できるが、本実施形態では、文字情報として認識するための規則としている。すなわち、付加情報抽出手段１６０は、符号判定パラメータ算出手段１４０が判定し、符号出力手段１５０から出力される符号を１バイト（８ビット）単位で認識し、これを設定されたコード体系に従って文字情報を認識する。このようにして得られた文字情報は、表示装置（図示省略）の画面に表示出力される。

従って、埋め込み装置により音響信号に、その楽曲の曲名やアーチスト等の属性情報を文字情報として埋め込んでおけば、利用者は、その音楽が流れているのを聞いて、その曲名やアーチストを知りたいと思ったときに、抽出装置として機能する自身の携帯端末に所定の操作を行えば、自身の携帯端末の画面に曲名やアーチスト等の属性情報が文字情報として表示されることになる。

以上の処理においては、抽出装置において正確に付加情報を抽出するために、位相を補正する処理、左右の低周波成分の強度の差を補正する処理、無効フレームであることを判断するための下限閾値を補正する処理を行っている。次に、これら３つの補正処理について補足説明を行う。

（５．位相補正処理について）
上記のように、抽出時には、埋め込み時に埋め込んだ音響フレームに対応して、音響信号を読み込むことができるとは限らない。そこで、音響フレームの位相をずらして複数通り（本実施形態では６通り）で読み込み、その中で最適な位相を決定し、その位相で特定される音響フレームに対応する符号を出力することにしている。例えば、６通りで読み込む場合、先頭の音響フレームは、本来サンプル番号１〜４０９６のサンプルであるが、サンプル番号１、６８３、１３６６、２０４９、２７３２、３４１３から始まる４０９６のサンプルで構成される６個の各音響フレームに対して処理を行い、最適な音響フレームに対応する符号を出力することになる。この位相補正処理は、Ｓ４０４、Ｓ４１０、Ｓ４１１、Ｓ４１２、Ｓ４１３における処理を中心として行われることになる。

（６．左右差補正処理について）
アナログ系を介した場合、音響信号の左右の信号が互いに影響しあって、左右のバランスが崩れ、抽出側で誤判断することが多くなる。そこで、過去の有効フレームについての低周波成分別の積算値により、左右のバランスを補正する処理を行っている。この左右差補正処理は、Ｓ４０３、Ｓ３０８における処理を中心として行われることになる。

（７．下限閾値補正処理について）
信号レベルが小さい場合には、左右の大小が判定できず、抽出側で誤判断することが多くなる。そこで、低周波強度Ｅが所定の閾値以下のフレームについては、無効なフレームであると判断するようにしているが、この際の閾値を過去の有効フレームについての低周波強度の積算値Ｅを利用して補正する処理を行っている。このように閾値を変動させることにより、信号レベルが変動しても無効なフレームであるか、有効なフレームであるかを正確に判断することが可能となる。この下限閾値補正処理は、Ｓ４０２、Ｓ３０３における処理を中心として行われることになる。

図７のフローチャートは、埋め込み側において、付加情報をバイト単位で記録したものに対応している。埋め込み側で付加情報をワード単位で記録している場合には、図９のフローチャートに従った処理を行うことになる。まず、図７のＳ３１０と同様、基準フレーム獲得手段１１０が、音響信号入力手段１００から入力されたステレオ音響信号の各チャンネルから、それぞれ所定数のサンプルを１基準フレームとして読み込む（Ｓ５０１）。

続いて、図７のＳ３０１と同様、周波数変換手段１３０、符号判定パラメータ算出手段１４０が、読み込んだ各基準フレームを利用して、基準フレームもしくは位相変更フレームから最適な位相の音響フレームを特定し、その音響フレームに埋め込まれている情報に対応する符号を出力する（Ｓ５０２）。このＳ５０２における処理の詳細は、Ｓ３０２と同様、図８に示したようなものとなる。

Ｓ５０２による処理の結果、ビット値に相当する符号が抽出された場合には、Ｓ３０３と同様、平均符号レベルのパラメータの更新を行う（Ｓ５０３）。続いて、モードの判定を行う（Ｓ５０４）。モードは、区切りモードとビット出力モードの２つが用意されている。ビット出力モードである場合は、そのビット値をバッファに保存する（Ｓ５０９）。続いて、ビットカウンタをカウントアップする（Ｓ５１０）。一方、Ｓ５０４による判定の結果、区切りモードである場合には、さらに抽出された符号が、新規を意味するものか継続を意味するものかを判定する（Ｓ５０５）。この結果、新規である場合には、その直前で１ワードが終了していることを意味するので、バッファに記録された１ワード分のデータを、付加情報抽出手段１６０が出力する（Ｓ５０６）。そして、ビットカウンタを０に初期化する（Ｓ５０７）。さらに、モードをビット出力モードに設定する（Ｓ５０８）。Ｓ５０５において、継続と判定された場合には、バッファ内のビットに値を出力すべきであるので、ビット出力モードに設定する処理のみを行う。また、Ｓ５０２において、区切り情報に相当する符号が抽出された場合には、Ｓ３０８と同様、左右バランステーブルの更新を行う（Ｓ５１１）。続いて、次の音響フレームから新規か継続かの情報を抽出するため、モードを区切りモードに設定する（Ｓ５１２）。図９に示す処理を各基準フレームに対して実行することにより、付加情報が抽出されることになる。Ｓ５０１において全ての基準フレームが抽出されたと判断された場合には、処理を終了する。

（８．リアルタイム処理）
図６に示した音響信号からの情報の抽出装置では、既に取り込んだデジタル音響信号に対して処理することも可能であるし、リアルタイムで音響信号を録音しながら処理することも可能である。次に、特にリアルタイムで処理する場合に適した音響信号からの情報の抽出装置について説明する。図１０は、図６に示した音響信号からの情報の抽出装置において、音響信号入力手段１００の構成を詳細に示した図である。図１０において、１０１はマイクロフォン、１０２はサウンドデバイスドライバ、１０３はサウンドデバイス、１０４はブロック蓄積手段である。図１０中、図６と同一のものについては、同一符号を付して説明を省略する。

マイクロフォン１０１は、左右の２チャンネルからの音声入力が可能な指向性マイクロフォンであり、アナログのステレオ音響信号を左右チャンネルからそれぞれ取得する。サウンドデバイスドライバ１０２は、サウンドデバイス１０３を駆動させてデジタルの音響ブロックを取得する機能を有している。サウンドデバイス１０３は、マイクロフォン１０１が取得したアナログの音響信号をＡ／Ｄ変換してデジタルデータである音響ブロックとして取り込む機能を有している。音響ブロックの大きさは適宜設定が可能であるが、抽出装置において実行する周波数変換の処理単位である音響フレームを、２のべき乗倍した大きさであることが望ましい。本実施形態では、４０９６サンプルである音響フレームに対して、１音響ブロックを４０９６×１６サンプルとしている。ブロック蓄積手段１０４は、音響ブロックを蓄積するバッファメモリを複数有しており、これらのバッファメモリに蓄積された音響ブロックを、ＦＩＦＯ（ファーストイン・ファーストアウト）方式、すなわち、先に入ってきた情報が、先に出ていく方式で処理する機能を有している。すなわち、ブロック蓄積手段１０４は、サウンドデバイスドライバ１０２から投入された音響ブロックを投入された順序で蓄積し、その順序で基準フレーム獲得手段１１０に渡す機能を有することとなる。

ここで、図１０に示した抽出装置におけるリアルタイム処理の概要を図１１のフローチャートに示す。まず、基準フレーム獲得手段１１０が、ブロック蓄積手段１０３内に録音済みの音響ブロック（録音済ブロック）が存在するかどうかを探索する（Ｓ６０１）。録音済ブロックが存在しない場合は、処理を中断し、サウンドデバイスドライバ１０２からの録音終了シグナルの受信待ちとする（ステップＳ６０２）。サウンドデバイスドライバ１０２からの録音終了シグナルがあった場合、または、録音済ブロックがブロック蓄積手段１０３内に存在している場合には、基準フレーム獲得手段１１０が録音済ブロックから基準フレームを獲得し、付加情報を抽出する処理を行う（ステップＳ６０３）。録音済ブロックを処理したら、その録音済ブロックをブロック蓄積手段１０３から削除する（ステップＳ６０４）。一方、サウンドデバイスドライバ１０２では、常に、ブロック蓄積手段１０３内の空き領域を探索しており（ステップＳ６０５）、録音済ブロックを格納する余地が存在する場合には、音響ブロックを録音する（ステップＳ６０６）。１つの音響ブロックの録音を待ち（ステップＳ６０７）、録音が終了したら、録音終了シグナルをブロック蓄積手段１０３に送信する（ステップＳ６０８）。

音響信号に対する情報の埋め込み装置の機能ブロック図である。図１に示した装置の処理概要を示すフローチャートである。図２に従った処理による低周波成分の変化の様子を示すである。図１に示した装置の他の手法による処理概要を示すフローチャートである。図４に従った処理による低周波成分の変化の様子を示すである。本発明に係る音響信号からの情報の抽出装置の機能ブロック図である。図６に示した装置の処理概要を示すフローチャートである。図７のＳ３０２の符号判定処理の詳細を示すフローチャートである。図６に示した装置の他の手法による処理概要を示すフローチャートである。図６に示した装置において、音響信号入力手段１００の構成を詳細に示した図である。図１０に示した抽出装置におけるリアルタイム処理の概要を示すフローチャートである。

符号の説明

１０・・・音響フレーム読込手段
２０・・・周波数変換手段
３０・・・低周波成分変更手段
４０・・・周波数逆変換手段
５０・・・改変音響フレーム出力手段
６０・・・記憶手段
６１・・・音響信号記憶部
６２・・・付加情報記憶部
６３・・・改変音響信号記憶部
７０・・・付加情報読込手段
１００・・・音響信号入力手段
１０１・・・マイクロフォン
１０２・・・サウンドデバイスドライバ
１０３・・・サウンドデバイス
１００・・・ブロック蓄積手段
１１０・・・基準フレーム獲得手段
１２０・・・位相変更フレーム設定手段
１３０・・・周波数変換手段
１４０・・・符号判定パラメータ算出手段
１５０・・・符号出力手段
１６０・・・付加情報抽出手段
１７０・・・音響フレーム保持手段

Claims

左右２チャンネルの時系列のサンプル列で構成されるステレオの音響信号から、あらかじめ聴取不能な状態で埋め込まれた情報を抽出する装置であって、
前記音響信号の再生により流れている音を、指向性マイクロフォンによりチャンネル別に取り込み、デジタル化して２チャンネルの音響信号として取得する音響信号入力手段と、
前記取得された各チャンネルの音響信号から、それぞれ所定数のサンプルで構成される音響フレームを基準フレームとして獲得する基準フレーム獲得手段と、
前記基準フレームと所定サンプルずつ移動させることにより位相を変更して設定される複数の音響フレームを位相変更フレームとして設定する位相変更フレーム設定手段と、
前記基準フレームおよび位相変更フレームとして設定された各音響フレームに対して周波数変換を行い、前記各音響フレームに対応するフレームスペクトルを生成する周波数変換手段と、
前記生成されたフレームスペクトルから所定の周波数以下の成分に相当する低周波強度データを抽出し、当該抽出した低周波強度データの合算値を算出し、過去最適な位相と判断され、左右チャンネル間の比率が均等な状態と判断された音響フレームについての、左右それぞれの低周波強度データの合算値の総和の比を、前記算出された低周波強度データの合算値に乗じることにより左右差の補正を行った状態で、前記抽出された低周波強度データの合算値のチャンネル間比率を算出する符号判定パラメータ算出手段と、
基準フレームが異なる過去の同位相の音響フレームにおいて算出された低周波強度データの合算値のチャンネル間比率を、一方を他方で除した場合に大きくなる方を加算することによる位相別の総和に基づいて、前記基準フレームおよび複数の位相変更フレームのうち１つの音響フレームを位相が最適なものであると判断し、当該最適な位相の音響フレームについて判断された前記低周波強度データの合算値のチャンネル間比率に基づいて、所定の符号を出力する符号出力手段と、
前記出力された符号により構成されるビット配列を、所定の規則により変換して付加情報を抽出する付加情報抽出手段と、
を有することを特徴とする音響信号からの情報の抽出装置。
請求項１において、
前記符号出力手段は、前記低周波強度データの合算値のチャンネル間比率に基づいて、左チャンネルが大きい状態、右チャンネルが大きい状態、左右チャンネルが均等の状態の３通りに基づく３値符号を出力するものであることを特徴とする音響信号からの情報の抽出装置。
請求項１において、
前記符号出力手段は、過去の同位相の音響フレームについて、前記低周波強度データの合算値のチャンネル間比率を、一方を他方で除した場合に大きくなる方を加算することによる位相別の総和が最大となる位相に対応する音響フレームを位相が最適なものであると判断するものであることを特徴とする音響信号からの情報の抽出装置。
請求項１から３のいずれかにおいて、
前記符号判定パラメータ算出手段は、
前記符号判定パラメータを算出する前に、前記生成されたフレームスペクトルから抽出した低周波強度データの合算値が、所定の下限閾値未満である場合に、前記音響フレームを無効フレームであると判断するものであり、
前記判断に使用する下限閾値を、過去に有効フレームとして判断された低周波強度データの合算値の平均値としたことを特徴とする音響信号からの情報の抽出装置。
請求項２において、
前記符号判定パラメータ算出手段は、前記符号判定パラメータを算出する前に、前記生成されたフレームスペクトルから抽出した低周波強度データの合算値が、所定の下限閾値未満である場合に、前記音響フレームを無効フレームであると判断するものであり、
前記符号出力手段は、前記無効フレームであると判断された場合に、左右チャンネルが均等の状態と同一の符号を出力するものであることを特徴とする音響信号からの情報の抽出装置。