JP4910920B2

JP4910920B2 - 音響信号に対する情報の埋め込み装置および音響信号からの情報の抽出装置

Info

Publication number: JP4910920B2
Application number: JP2007185160A
Authority: JP
Inventors: 敏雄茂出木
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2007-07-17
Filing date: 2007-07-17
Publication date: 2012-04-04
Anticipated expiration: 2027-07-17
Also published as: JP2009025324A

Description

本発明は、ＣＤ・ＤＶＤ等を用いた民生・業務用途における鑑賞用のパッケージ音楽分野、放送事業者等が商業目的で配信する放送・ネットワーク音楽配信分野における音楽著作権の保護（不正コピーの監視）および音楽属性情報の提供（楽曲タイトル検索サービス）分野、ミュージアム、イベント会場における展示説明ナレーションに連動した文字情報の提供サービス分野、放送番組やＣＤ／ＤＶＤパッケージの音声信号からＵＲＬなどの情報を抽出し、携帯電話を用いて所定のコンテンツに関連するｗｅｂサイトにアクセスして詳細情報を抽出したり、アンケートに回答したりする非接触なインターネットのゲートウェイサービス分野に関する。

従来、流れている音楽のタイトル等を知ることができる楽曲属性情報の提供サービスとして、放送された音楽に対して日時と地域を放送局に照会したり、携帯電話で流れている音楽断片を録音してデータベースに登録されているメロディーと照合したりするサービスが行われている。本出願人は、これをさらに発展させ、音響信号の周波数成分の比率を属性情報のビット値に応じて変更することにより、属性情報（付加情報）を埋め込む手法を提案している（特許文献１参照）。

また、本出願人は、特許文献１に記載の発明における、広いホール等で２つのスピーカが離れている場合、Ｒ側のスピーカの近くに居ると物理的にデータ抽出が行えないという問題を解決するため、２チャンネルステレオ音響信号のどちらのチャンネルから発せられた音であっても、その音から情報を抽出することが可能な技術を提案している（特許文献２参照）。

さらに、本出願人は、特許文献２に記載の発明における、双方のチャンネルからの音が混ざり合った中央付近では抽出することができないという問題を解決するため、音脈分凝の原理を利用して、情報の埋め込みおよび抽出を行う技術を提案している（特許文献３参照）。
特開２００６−３２３２４６号公報特願２００７−５３３２４号特願２００７−９８９７０号

上記特許文献３に記載の発明では、情報を埋め込むにあたり、所定の周波数領域の信号成分に所定の強弱分布を形成している。しかし、原信号成分自体が元来強弱分布をもっているため、所定の強弱分布に改変するにはかなり無理が生じる場合がある。例えば、当初の状態とは全く逆の強弱分布に変更される場合である。品質を維持する都合上、改変割合には限界があるため、状態によっては、所望の強弱分布を形成できない場合があり、抽出側で埋め込まれた情報を認識できないという問題がある。特に音声信号など無音に近い信号区間が多く存在すると、信号が存在する音素区間の境界部では顕著な強弱分布が発生し、データを適切に埋め込めないという問題がある。振幅データが０である完全な無音区間は白色雑音を付加する方法で解決するが、付加された信号レベルは微弱であるため、同様に顕著な強弱分布が発生しやすく、問題の解決にはなっていない。

そこで、本発明は、無音部分を有する音響信号に対しても、原信号成分の強弱分布の如何に関わらず、埋め込んだ情報の抽出精度を高めることが可能な音響信号に対する情報の埋め込み装置および音響信号からの情報の抽出装置を提供することを課題とする。

上記課題を解決するため、本発明では、時系列のサンプル列で構成される音響信号に対して、付加情報を聴取不能な状態で埋め込む装置であって、前記音響信号より、所定数のサンプルを読み込む音響フレーム読込手段と、前記読み込まれた音響フレームのうち、奇数番目、偶数番目の一方をＡタイプ、他方をＢタイプとし、前記Ａタイプの音響フレームに対して第１窓関数を用いて周波数変換を行い、前記Ｂタイプの音響フレームに対して第２窓関数を用いて周波数変換を行い、前記第１窓関数に対応するスペクトルである第１窓スペクトル、前記第２窓関数に対応するスペクトルである第２窓スペクトルを得る周波数変換手段と、前記生成された各窓スペクトルから抽出した各スペクトル集合の強度値に対して、平均強度レベルを算出し、当該平均強度レベルを規定レベルに一致させるように変換倍率を算出し、前記各スペクトル集合の強度に前記変換倍率を乗じて振幅変換を施すとともに、前記振幅変換を施した各スペクトル集合の強度を、埋め込むべきビット配列に基づいて、変更する周波数成分変更手段と、前記変更されたスペクトル集合を含む各窓スペクトルに対して周波数逆変換を行うとともに、前記変換倍率の逆数を乗じて振幅逆変換を施して改変音響フレームを生成する周波数逆変換手段と、前記周波数逆変換、振幅逆変換された改変音響フレームを順次出力する改変音響フレーム出力手段を有する音響信号に対する情報の埋め込み装置を提供する。

また、本発明では、あらかじめ聴取不能な状態で付加情報が埋め込まれた音響信号から前記付加情報を抽出する装置であって、前記音響信号の所定区間をデジタル化して、所定数のサンプルで構成される音響フレームを獲得する音響フレーム獲得手段と、前記各音響フレームのうち、奇数番目、偶数番目の一方をＡタイプ、他方をＢタイプとし、前記Ａタイプの音響フレームに対して第１窓関数を用いて周波数変換を行い、前記Ｂタイプの音響フレームに対して第２窓関数を用いて周波数変換を行い、前記第１窓関数に対応するスペクトルである第１窓スペクトル、前記第２窓関数に対応するスペクトルである第２窓スペクトルを得る周波数変換手段と、前記生成された各窓スペクトルから抽出したスペクトル集合の強度値に対して、平均強度レベルを算出し、当該平均強度レベルを規定レベルに一致させるように変換倍率を算出し、前記各スペクトル集合の強度に前記変換倍率を乗じて振幅変換を施すとともに、前記振幅変換を施した各スペクトル集合の強度値に基づいて、埋め込まれていたビット値を抽出する符号化手段と、前記抽出されたビット値をワード単位で所定の規則により変換して付加情報を抽出する付加情報抽出手段を有する音響信号からの情報の抽出装置を提供する。

本発明によれば、音響信号に付加情報を埋め込むにあたり、各音響フレームの前記付加情報を埋め込む対象となる所定の周波数成分の平均信号レベルを規定レベルに一致するよう振幅変換し、振幅変換された所定の周波数成分に対して変更を行うようにしたので、原信号成分の強弱分布の如何に関わらず、情報を埋め込むことができるとともに埋め込んだ情報の抽出精度を高めることが可能となる。

（１．１．埋め込み装置の構成）
次に、本発明に係る音響信号に対する情報の埋め込み装置について説明する。図１は、本発明に係る音響信号に対する情報の埋め込み装置の構成を示す機能ブロック図である。図１において、１０は音響フレーム読込手段、２０は周波数変換手段、３０は周波数成分変更手段、４０は周波数逆変換手段、５０は改変音響フレーム出力手段、６０は記憶手段、６１は音響信号記憶部、６２は付加情報記憶部、６３は改変音響信号記憶部、７０はビット配列作成手段である。なお、図１に示す装置は、ステレオ音響信号、モノラル音響信号の両方に対応可能であるが、ここでは、ステレオ音響信号に対して処理を行う場合について説明していく。

音響フレーム読込手段１０は、付加情報の埋め込み対象とする元のステレオ音響信号の各チャンネルから所定数のサンプルを１フレームとして読み込む機能を有している。周波数変換手段２０は、音響フレーム読込手段１０が読み込んだ音響信号のフレームをフーリエ変換等により周波数変換してスペクトルを生成する機能を有している。周波数成分変更手段３０は、生成されたスペクトルから所定の周波数範囲に相当するスペクトル集合を複数抽出し、付加情報記憶部６２から抽出した付加情報よりビット配列作成手段７０が作成したビット配列に基づいて、スペクトル集合の状態を変更する機能を有している。周波数逆変換手段４０は、変更されたスペクトル集合を含む複数のスペクトルに対して周波数逆変換を行うことにより、改変音響フレームを生成する機能を有している。改変音響フレーム出力手段５０は、生成された改変音響フレームを順次出力する機能を有している。

記憶手段６０は、付加情報を埋め込む対象とするステレオ音響信号を記憶した音響信号記憶部６１と、ビット配列として構成され、ステレオ音響信号に埋め込まれる付加情報を記憶した付加情報記憶部６２と、付加情報埋め込み後の改変音響信号を記憶する改変音響信号記憶部６３を有しており、その他処理に必要な各種情報を記憶するものである。ビット配列作成手段７０は、付加情報記憶部６２から付加情報を抽出し、付加情報の各ワードに対して、１ビットのパリティビットを追加した後、さらに所定の規則により４ビットの検査符号ビットを追加したビット配列を作成する機能を有している。なお、付加情報とは、音響情報に付加して埋め込むべき情報であり、タイトルやアーティスト名等の属性情報、および属性情報以外の他の情報を含むものである。本実施形態では、付加情報のコード形式としてＡＳＣＩＩコードを採用するため、付加情報においては７ビットを１ワードとし、ビット配列作成手段７０が作成するビット配列は、パリティビットを付加した後、検査符号付加処理を施した１２ビットを１ワードとする。図１に示した各構成手段は、現実にはコンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。

（１．２．埋め込み装置の処理動作）
次に、図１に示した音響信号に対する情報の埋め込み装置の処理動作について説明する。音響フレーム読込手段１０は、音響信号記憶部６１に記憶されたステレオ音響信号の左右の各チャンネルから、それぞれ所定数Ｎのサンプルを１音響フレームとして読み込む。音響フレーム読込手段１０が読み込む１音響フレームのサンプル数Ｎは、適宜設定することができるが、サンプリング周波数が４４．１ｋＨｚの場合、４０９６サンプル程度とすることが望ましい。したがって、音響フレーム読込手段１０は、左チャンネル、右チャンネルについてそれぞれ４０９６サンプルずつ、順次音響フレームとして読み込んでいくことになる。

音響フレームとしては、ＡタイプとＢタイプが存在する。Ａタイプの音響フレーム、Ｂタイプの音響フレームは、それぞれ同タイプの先行する音響フレームの最後のサンプルの次のサンプルを先頭サンプルとして設定される。そして、ＡタイプとＢタイプの音響フレームは互いに所定数（本実施形態では２０４８）のサンプルを重複して設定される。例えば、Ａタイプの音響フレームを先頭からＡ１、Ａ２、Ａ３…とし、Ｂタイプの音響フレームを先頭からＢ１、Ｂ２、Ｂ３…とすると、Ａ１はサンプル１〜４０９６、Ａ２はサンプル４０９７〜８１９２、Ａ３はサンプル８１９３〜１２２８８、Ｂ１はサンプル２０４９〜６１４４、Ｂ２はサンプル６１４５〜１０２４０、Ｂ３はサンプル１０２４１〜１４３３６となる。なお、ＡタイプとＢタイプは相対的なものであるので、どちらが先であっても良い。すなわち、上記とは逆にＡ１がサンプル２０４９〜６１４４、Ａ２がサンプル６１４５〜１０２４０、Ａ３がサンプル１０２４１〜１４３３６、Ｂ１がサンプル１〜４０９６、Ｂ２がサンプル４０９７〜８１９２、Ｂ３がサンプル８１９３〜１２２８８であっても良い。

周波数変換手段２０は、振幅変換後の音響フレームに対して周波数変換を行って、その音響フレームのスペクトルを得る。具体的には、窓関数を利用して周波数変換を行う。周波数変換としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができる。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。

一般に、所定の信号に対してフーリエ変換を行う場合、信号を所定の長さに区切って行う必要があるが、この場合、所定長さの信号に対してそのままフーリエ変換を行うと、擬似高調波成分が発生する。そこで、一般にフーリエ変換を行う場合には、ハニング窓と呼ばれる窓関数を用いて、信号の値を変化させた後、変化後の値に対してフーリエ変換を実行する。

本実施形態においても、窓関数を利用しているが、Ａタイプの音響フレーム、Ｂタイプの音響フレームで、使用する窓関数を分けている。本実施形態では、図２（ａ）（ｂ）に示したような第１窓関数Ｗ（１，ｉ）、第２窓関数Ｗ（２，ｉ）を用意し、抽出側で認識し易いようにした。第１窓関数Ｗ（１，ｉ）は、Ａタイプの音響フレームに対して用いるためのものであり、図２（ａ）に示すように所定のサンプル番号ｉの位置において、最大値１をとり、後部においては、最小値０をとるように設定されている。どのサンプル番号の場合に最大値をとるかについては、窓関数Ｗ（１，ｉ）の設計によって異なってくるが、本実施形態では、後述する〔数式１〕で定義される。Ａタイプの音響フレームについてのフーリエ変換は、この窓関数Ｗ（１，ｉ）を乗じたものに対して行われることになる。

また、第２窓関数Ｗ（２，ｉ）は、Ｂタイプの音響フレームに対して用いるためのものであり、図２（ｂ）に示すように、所定のサンプル番号ｉの位置において、最大値１をとり、前部においては、最小値０をとるように設定されている。どのサンプル番号の場合に最大値をとるかについては、窓関数Ｗ（２，ｉ）の設計によって異なってくるが、本実施形態では、後述する〔数式２〕で定義される。Ｂタイプの音響フレームについてのフーリエ変換は、この窓関数Ｗ（２，ｉ）を乗じたものに対して行われることになる。

なお、本実施形態においては、音響フレームは重複して読み込まれる。すなわち、奇数番目の音響フレームと偶数番目の音響フレームは、所定数のサンプルを重複して読み込む。上記のように、奇数フレームと偶数フレームでは、用いられる窓関数が異なるが、奇数フレームと偶数フレームは単に奇数か偶数かの違いだけであるため、どちらに対してどちらの処理を行っても良い。したがって、本明細書では、奇数フレーム、偶数フレームの一方をＡタイプフレーム、他方をＢタイプフレームと呼ぶことにする。本実施形態では、奇数フレームをＡタイプフレーム、偶数フレームをＢタイプフレームとして説明するが、逆に偶数フレームをＡタイプフレーム、奇数フレームをＢタイプフレームとしても良い。

本実施形態では、窓関数Ｗ（１，ｉ）、Ｗ（２，ｉ）は、以下の〔数式１〕〔数式２〕で定義される。なお、図２において、横軸は時間軸（ｉ）である。ｉは、後述するように、各音響フレーム内のＮ個のサンプルに付した通し番号であるため時刻ｔに比例している。また、図２（ａ）（ｂ）において縦軸は信号の振幅値（レベル）を示す。図２（ａ）（ｂ）において縦軸は窓関数Ｗ（１，ｉ）、Ｗ（２，ｉ）の値を示しており、Ｗ（１，ｉ）、Ｗ（２，ｉ）の最大値はいずれも１である。

〔数式１〕
ｉ≦Ｎ／４のとき、Ｗ（１，ｉ）＝０．５−０．５ｃｏｓ（４πｉ／Ｎ）
Ｎ／４＜ｉ≦１１Ｎ／１６のとき、Ｗ（１，ｉ）＝１．０
１１Ｎ／１６＜ｉ≦１３Ｎ／１６のとき、Ｗ（１，ｉ）＝０．５−０．５ｃｏｓ（８π（ｉ−９Ｎ／１６）／Ｎ）
ｉ＞１３Ｎ／１６のとき、Ｗ（１，ｉ）＝０．０

〔数式２〕
ｉ≦３Ｎ／１６のとき、Ｗ（２，ｉ）＝０．０
３Ｎ／１６＜ｉ≦５Ｎ／１６のとき、Ｗ（２，ｉ）＝０．５−０．５ｃｏｓ（８π（ｉ−３Ｎ／１６）／Ｎ）
５Ｎ／１６＜ｉ≦３Ｎ／４のとき、Ｗ（２，ｉ）＝１．０
ｉ＞３Ｎ／４のとき、Ｗ（２，ｉ）＝０．５−０．５ｃｏｓ（４π（ｉ−Ｎ／２）／Ｎ）

なお、図２および上記〔数式１〕〔数式２〕から明らかなように、窓関数Ｗ（１，ｉ）とＷ（２，ｉ）は、互いに非対称な形状である。これは、後述する抽出側において、両者の識別を容易にするためである。

本発明においては、奇数フレームと偶数フレームを、所定サンプルずつ重複して読み込むため、情報の埋め込みを行った後、音響信号に復元する際に、窓関数を乗じた奇数フレームと、窓関数を乗じた偶数フレームの重複サンプルを加算した場合に、ほぼ元の値に戻るようにしなければならない。このため、奇数フレームと偶数フレームの重複部分において、窓関数Ｗ（１，ｉ）、Ｗ（２，ｉ）を加算すると、全区間固定値１になるように定義されている。

周波数変換手段２０が、Ａタイプの音響フレームに対してフーリエ変換を行う場合は、左チャンネル信号Ｘｌ（ｉ）、右チャンネル信号Ｘｒ（ｉ）（ｉ＝０，…，Ｎ−１）に対して、窓関数Ｗ（１，ｉ）を用いて、以下の〔数式３〕に従った処理を行い、左チャンネルに対応する変換データの実部Ａｌ（１，ｊ）、虚部Ｂｌ（１，ｊ）、右チャンネルに対応する変換データの実部Ａｒ（１，ｊ）、虚部Ｂｒ（１，ｊ）を得る。

〔数式３〕
Ａｌ（１，ｊ）＝Σ_i=0,…,N-1Ｗ（１，ｉ）・Ｘｌ（ｉ）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂｌ（１，ｊ）＝Σ_i=0,…,N-1Ｗ（１，ｉ）・Ｘｌ（ｉ）・ｓｉｎ（２πｉｊ／Ｎ）
Ａｒ（１，ｊ）＝Σ_i=0,…,N-1Ｗ（１，ｉ）・Ｘｒ（ｉ）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂｒ（１，ｊ）＝Σ_i=0,…,N-1Ｗ（１，ｉ）・Ｘｒ（ｉ）・ｓｉｎ（２πｉｊ／Ｎ）

周波数変換手段２０が、Ｂタイプの音響フレームに対してフーリエ変換を行う場合は、左チャンネル信号Ｘｌ（ｉ＋Ｎ／２）、右チャンネル信号Ｘｒ（ｉ＋Ｎ／２）（ｉ＝０，…，Ｎ−１）に対して、窓関数Ｗ（２，ｉ）を用いて、以下の〔数式４〕に従った処理を行い、左チャンネルに対応する変換データの実部Ａｌ（２，ｊ）、虚部Ｂｌ（２，ｊ）、右チャンネルに対応する変換データの実部Ａｒ（２，ｊ）、虚部Ｂｒ（２，ｊ）を得る。

〔数式４〕
Ａｌ（２，ｊ）＝Σ_i=0,…,N-1Ｗ（２，ｉ）・Ｘｌ（ｉ＋Ｎ／２）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂｌ（２，ｊ）＝Σ_i=0,…,N-1Ｗ（２，ｉ）・Ｘｌ（ｉ＋Ｎ／２）・ｓｉｎ（２πｉｊ／Ｎ）
Ａｒ（２，ｊ）＝Σ_i=0,…,N-1Ｗ（２，ｉ）・Ｘｒ（ｉ＋Ｎ／２）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂｒ（２，ｊ）＝Σ_i=0,…,N-1Ｗ（２，ｉ）・Ｘｒ（ｉ＋Ｎ／２）・ｓｉｎ（２πｉｊ／Ｎ）

上記〔数式３〕〔数式４〕において、ｉは、各音響フレーム内のＮ個のサンプルに付した通し番号であり、ｉ＝０，１，２，…Ｎ−１の整数値をとる。また、ｊは周波数の値について、値の小さなものから順に付した通し番号であり、ｉと同様にｊ＝０，１，２，…Ｎ／２−１の整数値をとる。サンプリング周波数が４４．１ｋＨｚ、Ｎ＝４０９６の場合、ｊの値が１つ異なると、周波数が１０．８Ｈｚ異なることになる。

上記〔数式３〕〔数式４〕に従った処理を実行することにより、各音響フレームの各窓関数に対応するスペクトルが得られる。続いて、周波数成分変更手段３０が、生成されたスペクトルから所定周波数範囲のスペクトル集合を抽出する。本実施形態では、Ｆ１以上Ｆ２以下の範囲のものを抽出する。

周波数変換手段２０は、周波数変換を実行した後に、各スペクトル集合の平均値が設定値になるように変換する。いわゆる振幅を変換する処理を行う。この振幅変換は、各フレームごとのレベル差を軽減し、適切な情報の埋め込みが可能になるようにすることを目的としているため、設定値としては適宜設定することができるが、本実施形態では、１２８に設定するようにしている。

周波数変換手段２０は、得られたスペクトル集合に対して、振幅変換を行うにあたり、まず変換倍率の算出を行う。変換倍率の算出は、所定周波数範囲のスペクトル集合の実効強度値の平均である平均実効値で上記設定値を除算することにより行う。具体的には、ＬチャンネルのＡタイプの音響フレーム、Ｂタイプの音響フレーム、ＲチャンネルのＡタイプの音響フレーム、Ｂタイプの音響フレームのスペクトル集合についての変換倍率Ｚｌ（１）、Ｚｌ（２）、Ｚｒ（１）、Ｚｒ（２）は、以下の〔数式５〕に従った処理により算出される。対象音響フレームが無音に近く、分母の二乗総和値が所定の値に満たない場合は、変換倍率を１．０に設定し、振幅変換は行わないようにする。振幅変換が実行されることにより、全ての音響フレームは、元の状態における信号強度に関わらず、各音響フレームのスペクトル集合の平均実効値が設定値となるように振幅変換された状態で、情報の埋め込みが行われることになる。

〔数式５〕
Ｚｌ（１）＝128.0／［Σ_{j=m,…,m+2G-1}｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝］^1/2
Ｚｌ（２）＝128.0／［Σ_{j=m,…,m+2G-1}｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝］^1/2
Ｚｒ（１）＝128.0／［Σ_{j=m,…,m+2G-1}｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝］^1/2
Ｚｒ（２）＝128.0／［Σ_{j=m,…,m+2G-1}｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝］^1/2

ｊ＝ｍ，…，ｍ＋２Ｇ−１（周波数Ｆ１，．．．，Ｆ２に相当）の範囲で、Ａｌ（１，ｊ）およびＢｌ（１，ｊ）の各々の要素に対してＺｌ（１）を乗じ、Ａｌ（２，ｊ）およびＢｌ（２，ｊ）の各々の要素に対してＺｌ（２）を乗じ、Ａｒ（１，ｊ）およびＢｒ（１，ｊ）の各々の要素に対してＺｒ（１）を乗じ、Ａｒ（２，ｊ）およびＢｒ（２，ｊ）の各々の要素に対してＺｒ（２）を乗じることにより、振幅変換を行う。以下説明において、Ａｌ（１，ｊ）、Ｂｌ（１，ｊ）、Ａｌ（２，ｊ）、Ｂｌ（２，ｊ）、Ａｒ（１，ｊ）、Ｂｒ（１，ｊ）、Ａｒ（２，ｊ）、Ｂｒ（２，ｊ）はこれらの振幅変換を行った値とする。

周波数成分変更手段３０は、Ａタイプの音響フレームについて、ビット配列作成手段７０が作成したビット配列に応じて、所定周波数成分の割合を変更する処理を行う。本発明では、ビット配列を１ビットずつ読み込み、Ａタイプ、Ｂタイプの１対の音響フレームに対して１ビットの情報を埋め込む。埋め込まれる１ビットの値は、“０” “１”の２通りがある。本実施形態では、これらを値１、値２と定義する。２種類の符号を埋め込むことができるという点で、これらを符号１、符号２と表現することも可能である。この際、“０”“１”の２通りのうち、いずれを値１、値２（符号１、符号２）と定義しても良い。抽出側において、埋め込み側で埋め込まれた１ビットが特定できれば良いためである。したがって、この定義は、埋め込み側と抽出側で一致している必要がある。

周波数成分の変更の手法としては、様々なものが考えられるが、本実施形態では、人間の聴覚心理特性である音脈分凝の原理を利用する。ここで、音脈分凝について説明しておく。音脈分凝とは、時系列に高い音と低い音が交互に進行するパターンに対して、人間が、あたかも高低２つのトラックが連続して流れるように音を補間して聞いてしまう錯覚現象である。

たとえば、図１３（ａ）に示すように、３つの低い音である低音１、低音３、低音５と３つの高い音である高音２、高音４、高音６が、低音１、高音２、低音３、高音４、低音５、高音６の順に演奏されている場合を考えてみる。低音１、低音３、低音５と高音２、高音４、高音６は１オクターブ程度離れており、低い音と高い音は同時に演奏されることはないが、時間的間隔は、ほぼ連続しているものとする。この場合、人間には、図１３（ｂ）に示すように、低い音と高い音が演奏されていない部分も補間されて演奏されているように聞こえる。すなわち、実際の演奏は単旋律であるのに、人間には、図１３（ｂ）に示すように、高音１´、高音３´、高音５´、低音２´、低音４´、低音６´が補間されて複旋律であるように聞こえる。例えば、高音３´は高音２と高音４が連続的につながるように、高音２と高音４の平均的な成分に聞こえる。また、末端部の高音１´と低音６´についても、隣接する高音２と低音５に近い成分で、各々低音１と高音６に対応するように聞こえる。しかし、マイクロフォン等の電気音響装置は、図１３（ａ）に示したものをそのままの音として取得することになる。本発明は、このような性質を利用するのである。なお、補間された音は、前後に演奏されている音と必ずしも同じレベルに補間されて聴こえるのではなく、大雑把に言って、前後に演奏されている音の５０％程度があたかも補間されているように聞こえる。

具体的には、埋め込み装置で、音響信号から抽出した所定数のサンプルで構成される音響フレーム内の所定周波数範囲の周波数成分を変更するに際し、その強弱が音脈分凝を発生させるような状態に変更する。これにより、人間には、音が途切れたようには聞こえないが、抽出装置では、その明確な変化を認識することができる。

本実施形態では、音脈分凝の原理を利用して、音響フレームの変更対象周波数帯の成分を２つの状態に変更し、１ビットの情報を埋め込むようにしている。ここで、埋め込み処理の前後における音響フレームの所定周波数成分の変化の状態について説明する。図３に、本実施形態によるＡタイプ、Ｂタイプの各チャンネル１音響フレームの所定周波数成分の状態を示す。図３に示す各音響フレームにおいて、横軸は時間方向、縦軸は周波数方向を示している。

図３においては、縦軸の周波数方向において、周波数領域が４つに区分されているが、上から２番目と３番目の領域、すなわち、周波数Ｆ１以上Ｆ２以下の間が変更対象周波数帯であり、最上部すなわち周波数Ｆ２超、最下部すなわちＦ１未満は、変更対象でない周波数帯である。すなわち、本実施形態では、周波数Ｆ１以上Ｆ２以下を所定周波数範囲として、スペクトル集合の強度を変更することになる。図３（ａ）に示すように、ＬチャンネルのＡタイプ音響フレームの変更対象周波数帯については、高周波側におけるスペクトルをＬ１Ｕ、低周波側におけるスペクトルをＬ１Ｄで表現し、ＲチャンネルのＡタイプ音響フレームの変更対象周波数帯については、高周波側におけるスペクトルをＲ１Ｕ、低周波側におけるスペクトルをＲ１Ｄで表現することとする。また、図３（ｂ）に示すように、ＬチャンネルのＢタイプ音響フレームの変更対象周波数帯については、高周波側におけるスペクトルをＬ２Ｕ、低周波側におけるスペクトルをＬ２Ｄで表現し、ＲチャンネルのＢタイプ音響フレームの変更対象周波数帯については、高周波側におけるスペクトルをＲ２Ｕ、低周波側におけるスペクトルをＲ２Ｄで表現することとする。

本実施形態で、符号１を埋め込む場合、図３（ｃ）（ｅ）に示すように、Ｌ１ＤとＬ２Ｕの強度の積、Ｒ１ＤとＲ２Ｕの強度の積を相対的に強い状態に変更し、Ｌ１ＵとＬ２Ｄの強度の積、Ｒ１ＵとＲ２Ｄの強度の積を相対的に弱い状態に変更する。この状態を“状態１”と呼ぶことにする。符号２を埋め込む場合は、図３（ｄ）（ｆ）に示すように、Ｌ１ＵとＬ２Ｄの強度の積、Ｒ１ＵとＲ２Ｄの強度の積を相対的に強い状態に変更し、Ｌ１ＤとＬ２Ｕの強度の積、Ｒ１ＤとＲ２Ｕの強度の積を相対的に弱い状態に変更する。この状態を“状態２”と呼ぶことにする。網掛けされた部分の濃さは、同濃度のものは、積を求めるための組となるスペクトルであることを示している。網掛けの色が濃い方が相対的に強度が強い状態に変更される組を示している。

本実施形態では、図３（ｃ）（ｅ）または（ｄ）（ｆ）に示すような２つの状態にＡタイプ、Ｂタイプの音響フレームの周波数成分を変更することにより、情報の埋め込みを行っている。２つの状態であるので１ビット分の情報量に相当する。

本実施形態では、上記変更対象周波数帯Ｆ１〜Ｆ２を、“１．７ｋＨｚ〜３．４ｋＨｚ”に設定する。これは、以下のような理由による。すなわち、音声通信として普及度の高い携帯電話機を受信端末として利用する場合、上限については、電話回線帯域および携帯電話機の上限である３．４ｋＨｚとする必要がある。そこで、下限については、上限の３．４ｋＨｚから１オクターブ下がった１．７ｋＨｚとすることとした。

また、上記変更対象周波数帯Ｆ１〜Ｆ２を、“３．４ｋＨｚ〜６．８ｋＨｚ”に設定することもできる。これは、以下のような理由による。すなわち、携帯電話機以外を受信端末として利用する場合には、可聴周波数の上限（２２ｋＨｚ）以下であれば３．４ｋＨｚより高い周波数領域を用いることができるが、１０ｋＨｚを超える高音域では、圧縮・変調などの信号処理の影響を受け易く、スピーカによっては再生能力が低下するため、下限を電話回線帯域の上限である３．４ｋＨｚとし、上限を３．４ｋＨｚから１オクターブ上がった６．８ｋＨｚとすることとした。なお、“１．７ｋＨｚ”“３．４ｋＨｚ”“６．８ｋＨｚ”という値は、代表的な値であり、必ずしも正確な値である必要はなく、そこから若干ずれた値であっても良い。なお、本明細書においては、“１．７ｋＨｚ〜３．４ｋＨｚ”を「電話高周波帯」、“３．４ｋＨｚ〜６．８ｋＨｚ”を「超電話周波帯」と呼ぶことにする。また、電話回線帯域の上限は上述のように３．４ｋＨｚ近辺であるので、上記「電話高周波帯」、「超電話周波帯」はそれぞれ可聴周波数範囲で電話回線帯域の上限より若干低音側、若干高音側における所定の周波数帯に該当する。

図３に示した例では、相対的に強い状態と弱い状態に変更することについて説明したが、この強弱の程度については、状況に応じて設定することが可能である。両者の割合は、以下に述べるように、大きいほど抽出時の精度が高くなるが、補間される割合は不完全になり、再生時に不連続成分によるノイズが聞こえる。一方、両者の割合が均等であるほど再生品質は原音に近付くが、埋め込んだビットの抽出ができなくなり、再生品質と抽出精度はトレードオフの関係になる。例えば、強い方を１００％、弱い方を０％とした場合、音脈分凝により、補間される部分の音は図３のような変更を行なう前に原音響信号で鳴っていた音の５０％程度となることが確認されている。そこで、強い方を７０％、弱い方を３０％とした場合、音脈分凝により、補間される部分の音は図３のような変更を行なう前に原音響信号で鳴っていた音とほぼ同程度となり、この割合が抽出精度を維持できる限界であることが確認されている。このため、相対的に強いスペクトル集合と、相対的に弱いスペクトル集合の強度の割合を７０％と３０％とすることを目標に設定することが好ましい。これを実現するため、本実施形態では、後述する具体的な処理において、強い状態を設定するための係数α＝０．７、弱い状態を設定するための係数β＝０．３とする。ただし、強い状態に変更すべきスペクトル集合の強度が元々小さい場合には、係数α、βを補正する必要が生じる。このため、周波数成分変更手段３０は、まず、以下の〔数式６〕に従った処理を実行することにより、弱い状態に変更すべきスペクトル集合に対する強い状態に変更すべきスペクトル集合の強度割合γを算出する。

〔数式６〕
Ｅ１ｄ＝Σ_{j=m,…,m+G-1}｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝
Ｅ２ｄ＝Σ_{j=m,…,m+G-1}｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝
Ｅ１ｕ＝Σ_{j=m+G,…,m+2G-1}｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝
Ｅ２ｕ＝Σ_{j=m+G,…,m+2G-1}｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝
埋め込みデータが値１の場合、γ＝（Ｅ１ｄ・Ｅ２ｕ）／（Ｅ１ｕ・Ｅ２ｄ）
埋め込みデータが値２の場合、γ＝（Ｅ１ｕ・Ｅ２ｄ）／（Ｅ１ｄ・Ｅ２ｕ）

上記〔数式６〕において、ｍは変更対象周波数帯の下限の成分の番号、ｍ＋２Ｇは変更対象周波数帯の上限の成分の番号である。例えば、変更対象周波数帯として、１．７ｋＨｚ〜３．４ｋＨｚを設定する場合、ｍ＝１６０、ｍ＋２Ｇ＝３２０となる。したがって、１つの周波数領域の幅Ｇ＝８０である。

そして、さらに強度割合γの値に応じて、周波数成分変更手段３０は、以下の〔数式７〕に従った処理を実行することにより、係数α、βを補正して係数α´、β´を得る。

〔数式７〕
０．０１≦γ＜１．０の場合、α´＝α・γ^-1/2、β´＝β・γ^1/2
γ＜０．０１の場合、α´＝１０．０・α、β´＝０．１・β

なお、γ≧１．０の場合は、補正を行わない。さらに、周波数成分変更手段３０は、埋め込むべき情報が“値１”である場合、以下の〔数式８〕に従った処理を実行することにより、周波数成分の状態を“状態１”、すなわち、図３（ｃ）（ｅ）に示したような状態に変更する。

〔数式８〕
ｊ＝ｍ〜ｍ＋Ｇ−１の各成分に対して
Ｅ（１，ｊ）＝｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²＋Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ａｌ´（１，ｊ）＝Ａｌ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ｂｌ´（１，ｊ）＝Ｂｌ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ａｒ´（１，ｊ）＝Ａｒ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｂｒ´（１，ｊ）＝Ｂｒ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｅ（２，ｊ）＝｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²＋Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ａｌ´（２，ｊ）＝Ａｌ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ｂｌ´（２，ｊ）＝Ｂｌ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ａｒ´（２，ｊ）＝Ａｒ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ｂｒ´（２，ｊ）＝Ｂｒ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
ｊ＝ｍ＋Ｇ〜ｍ＋２Ｇ−１の各成分に対して
Ｅ（１，ｊ）＝｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²＋Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ａｌ´（１，ｊ）＝Ａｌ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ｂｌ´（１，ｊ）＝Ｂｌ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ａｒ´（１，ｊ）＝Ａｒ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｂｒ´（１，ｊ）＝Ｂｒ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｅ（２，ｊ）＝｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²＋Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ａｌ´（２，ｊ）＝Ａｌ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ｂｌ´（２，ｊ）＝Ｂｌ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ａｒ´（２，ｊ）＝Ａｒ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ｂｒ´（２，ｊ）＝Ｂｒ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2

埋め込むべき情報が“値２”である場合は、以下の〔数式９〕に従った処理を実行することにより、周波数成分の状態を“状態２” 、すなわち、図３（ｄ）（ｆ）に示したような状態に変更する。

〔数式９〕
ｊ＝ｍ〜ｍ＋Ｇ−１の各成分に対して
Ｅ（１，ｊ）＝｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²＋Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ａｌ´（１，ｊ）＝Ａｌ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ｂｌ´（１，ｊ）＝Ｂｌ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ａｒ´（１，ｊ）＝Ａｒ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｂｒ´（１，ｊ）＝Ｂｒ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｅ（２，ｊ）＝｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²＋Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ａｌ´（２，ｊ）＝Ａｌ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ｂｌ´（２，ｊ）＝Ｂｌ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ａｒ´（２，ｊ）＝Ａｒ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ｂｒ´（２，ｊ）＝Ｂｒ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
ｊ＝ｍ＋Ｇ〜ｍ＋２Ｇ−１の各成分に対して
Ｅ（１，ｊ）＝｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²＋Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ａｌ´（１，ｊ）＝Ａｌ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ｂｌ´（１，ｊ）＝Ｂｌ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ａｒ´（１，ｊ）＝Ａｒ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｂｒ´（１，ｊ）＝Ｂｒ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｅ（２，ｊ）＝｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²＋Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ａｌ´（２，ｊ）＝Ａｌ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ｂｌ´（２，ｊ）＝Ｂｌ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ａｒ´（２，ｊ）＝Ａｒ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ｂｒ´（２，ｊ）＝Ｂｒ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2

なお、上記〔数式７〕に従った処理を実行して係数α´、β´を得た場合は、上記〔数式８〕〔数式９〕において、係数α、βに代えて係数α´、β´を用いる。

周波数逆変換手段４０は、上記のようにして、周波数成分の状態が変更されたフレームスペクトルを周波数逆変換して改変音響フレームを得る処理を行う。この周波数逆変換は、当然のことながら、周波数変換手段２０が実行した手法に対応していることが必要となる。本実施形態では、周波数変換手段２０において、フーリエ変換を施しているため、周波数逆変換手段４０は、フーリエ逆変換を実行することになる。

具体的には、Ａタイプの音響フレームに対しては、周波数逆変換手段４０は、上記〔数式８〕〔数式９〕のいずれかにより得られたスペクトルの左チャンネルの実部Ａｌ´（１，ｊ）等、虚部Ｂｌ´（１，ｊ）等、右チャンネルの実部Ａｒ´（１，ｊ）等、虚部Ｂｒ´（１，ｊ）等を用いて、以下の〔数式１０〕に従った処理を行い、Ｘｌ´（ｉ）、Ｘｒ´（ｉ）を算出する。なお、上記〔数式８〕〔数式９〕において改変されていない周波数成分については、Ａｌ´（１，ｊ）等として、元の周波数成分であるＡｌ（１，ｊ）等を用いる。周波数逆変換を計算するにあたり、Ａｌ´（１，ｊ）およびＢｌ´（１，ｊ）に対しては〔数式５〕におけるＺｌ（１）を、Ａｒ´（１，ｊ）およびＢｒ´（１，ｊ）に対しては〔数式５〕におけるＺｒ（１）を除することにより、同時に振幅逆変換を施す必要がある。

〔数式１０〕
Ｘｌ´（ｉ）＝１／Ｎ・｛Σ_jＡｌ´（１，ｊ）・ｃｏｓ（２πｉｊ／Ｎ）／Ｚｌ（１）−Σ_jＢｌ´（１，ｊ）・ｓｉｎ（２πｉｊ／Ｎ）／Ｚｌ（１）｝＋Ｘｌｐ（ｉ＋Ｎ／２）
Ｘｒ´（ｉ）＝１／Ｎ・｛Σ_jＡｒ´（１，ｊ）・ｃｏｓ（２πｉｊ／Ｎ）／Ｚｒ（１）−Σ_jＢｒ´（１，ｊ）・ｓｉｎ（２πｉｊ／Ｎ）／Ｚｒ（１）｝＋Ｘｒｐ（ｉ＋Ｎ／２）

上記〔数式１０〕においては、式が繁雑になるのを防ぐため、Σ_j=0,…_,N-1をΣ_jとして示している。上記〔数式１０〕における第１式の“＋Ｘｌｐ（ｉ＋Ｎ／２）”、第２式の“＋Ｘｒｐ（ｉ＋Ｎ／２）”の項は、直前に改変された改変音響フレームのデータＸｌｐ（ｉ）、Ｘｒｐ（ｉ）が存在する場合に、時間軸上Ｎ／２サンプル分重複することを考慮して加算するためのものである。上記〔数式１０〕によりＡタイプの改変音響フレームの左チャンネルの各サンプルＸｌ´（ｉ）、右チャンネルの各サンプルＸｒ´（ｉ）、が得られることになる。

Ｂタイプの音響フレームに対しては、周波数逆変換手段４０は、上記〔数式８〕〔数式９〕のいずれかにより得られたスペクトルの左チャンネルの実部Ａｌ´（２，ｊ）、虚部Ｂｌ´（２，ｊ）、右チャンネルの実部Ａｒ´（２，ｊ）、虚部Ｂｒ´（２，ｊ）を用いて、以下の〔数式１１〕に従った処理を行い、Ｘｌ´（ｉ）、Ｘｒ´（ｉ）を算出する。なお、上記〔数式８〕〔数式９〕において改変されていない周波数成分については、以下の〔数式１１〕においてはＡｌ´（２，ｊ）、Ｂｌ´（２，ｊ）、Ａｒ´（２，ｊ）、Ｂｒ´（２，ｊ）として、元の値であるＡｌ（２，ｊ）、Ｂｌ（２，ｊ）、Ａｒ（２，ｊ）、Ｂｒ（２，ｊ）を用いる。周波数逆変換を計算するにあたり、Ａｌ´（２，ｊ）およびＢｌ´（２，ｊ）に対しては〔数式５〕におけるＺｌ（２）を、Ａｒ´（２，ｊ）およびＢｒ´（２，ｊ）に対しては〔数式５〕におけるＺｒ（２）を除することにより、同時に振幅逆変換を施す必要がある。

〔数式１１〕
Ｘｌ´（ｉ＋Ｎ／２）＝１／Ｎ・｛Σ_jＡｌ´（２，ｊ）・ｃｏｓ（２πｉｊ／Ｎ）／Ｚｌ（２）−Σ_jＢｌ´（２，ｊ）・ｓｉｎ（２πｉｊ／Ｎ）／Ｚｌ（２）｝＋Ｘｌｐ（ｉ＋Ｎ）
Ｘｒ´（ｉ＋Ｎ／２）＝１／Ｎ・｛Σ_jＡｒ´（２，ｊ）・ｃｏｓ（２πｉｊ／Ｎ）／Ｚｒ（２）−Σ_jＢｒ´（２，ｊ）・ｓｉｎ（２πｉｊ／Ｎ）／Ｚｒ（２）｝＋Ｘｒｐ（ｉ＋Ｎ）

上記〔数式１１〕によりＢタイプの改変音響フレームの左チャンネルの各サンプルＸｌ´（ｉ）、右チャンネルの各サンプルＸｒ´（ｉ）、が得られることになる。

改変音響フレーム出力手段５０は、周波数逆変換手段４０の処理により得られたＡタイプの改変音響フレーム、Ｂタイプの改変音響フレームを順次出力ファイルに出力する。

次に、図１に示した音響信号に対する情報の埋め込み装置の処理の全体的な流れを、図４のフローチャートに従って説明する。図１に示した装置を構成する各構成要素は、連携して図４に従った処理を実行する。図４は、付加情報１ワード分の処理に対応したものとなっている。１ワードとしては、任意のビット数に設定することができるが、上述のように、本実施形態では、ＡＳＣＩＩコードの実質７ビットに設定されている。

図４においては、まず、ビット配列作成手段７０は、付加情報記憶部６２から抽出した付加情報に対して所定の処理を施し新たなビット配列を作成する（Ｓ１０１）。具体的には、まず、付加情報記憶部６２から１ワード（７ビット）単位で抽出し、これに検査符号を５ビット付加して１２ビットとする。

具体的には、図５（ａ）に示すように、付加情報から抽出した７ビットＤ１〜Ｄ７に対して５つの検査符号Ｐ１〜Ｐ５を付加したビット配列を作成する。各検査符号Ｐ１〜Ｐ５は、図５（ｂ）に示したように定義される。このうち、検査符号Ｐ１はパリティ符号であり、検査符号Ｐ２〜Ｐ５は４ビットのハミング符号である。具体的には、検査符号Ｐ１は、ビットＤ１〜Ｄ７の排他的論理和として算出される。検査符号Ｐ２は、ビットＤ１、Ｄ２、Ｄ３、Ｄ７の排他的論理和として算出される。検査符号Ｐ３は、ビットＤ１、Ｄ４、Ｄ５、Ｄ７、Ｐ１の排他的論理和として算出される。検査符号Ｐ４は、ビットＤ２、Ｄ４、Ｄ６、Ｄ７、Ｐ１の排他的論理和として算出される。検査符号Ｐ５は、ビットＤ３、Ｄ５、Ｄ６、Ｐ１の排他的論理和として算出される。したがって、ビット配列作成手段７０は、Ｓ１０１において、図５（ｂ）に示した定義に従って図５（ａ）に示したような１２ビットのビット配列を作成することになる。

そして、この１２ビットが、音響信号に対する情報の埋め込み装置として用いられるコンピュータ内のレジスタに読み込まれることになる。このように、付加情報記憶部６２においては、１ワードは７ビットであるが、埋め込み処理時は、この１２ビットの配列で、付加情報内の１ワード分の処理を行う。

次に、周波数成分変更手段３０が、レジスタに保持された１２ビットから１ビットを読み込む処理を行う（Ｓ１０２）。続いて、音響フレーム読込手段１０が、音響信号記憶部６１に記憶されたステレオ音響信号の左右の各チャンネルから、それぞれ所定数のサンプルをＡタイプの１音響フレームとして読み込み、周波数変換手段２０が周波数変換を行って、得られたフレームスペクトルに対して振幅変換を行う（Ｓ１０３）。具体的には、まず、読み込んだ音響フレームに対して、周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る。すなわち、各音響フレームについて、窓関数Ｗ（１，ｉ）を用いて、上記〔数式２〕に従った処理を行う。そして、上記〔数式５〕に従った処理を実行してＺｌ（１）、Ｚｒ（１）を算出し振幅変換を行う。同様に、音響フレーム読込手段１０が、音響信号記憶部６１に記憶されたステレオ音響信号の左右の各チャンネルから、それぞれ所定数のサンプルをＢタイプの１音響フレームとして読み込み、周波数変換手段２０が周波数変換を行って、得られたフレームスペクトルに対して振幅変換を行う（Ｓ１０４）。具体的には、まず、読み込んだ音響フレームに対して、周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る。すなわち、各音響フレームについて、窓関数Ｗ（２，ｉ）を用いて、上記〔数式３〕に従った処理を行う。そして、上記〔数式５〕に従った処理を実行してＺｌ（２）、Ｚｒ（２）を算出し振幅変換を行う。続いて、周波数成分変更手段３０が、読み込んだビット値に応じてＡタイプ音響フレームおよびＢタイプ音響フレームの周波数成分の状態を変更するにあたり、〔数式６〕〔数式７〕に従った処理を実行して変換割合α、βを決定する処理を行う（Ｓ１０５）。この決定された変換割合を用いて、周波数成分変更手段３０は、ビット配列作成手段７０から受け取った値１、値２に応じて上記〔数式８〕〔数式９〕に従った処理を実行し、変更対象周波数帯の成分の状態を“状態１”、“状態２”に応じた状態のいずれかに変更する（Ｓ１０６）。

次に、周波数逆変換手段４０が、上記Ｓ１０６の処理によりＡタイプの音響フレームに対応する各スペクトル集合の強度が変更されたスペクトルを振幅逆変換、周波数逆変換して改変音響フレームを得る処理を行う（Ｓ１０７）。この振幅逆変換は〔数式５〕で算出したＺｌ（１）、Ｚｒ（１）の逆数をスペクトルに乗じることにより行ない、この周波数逆変換は、当然のことながら、周波数変換手段２０がＳ１０３において実行した手法に対応していることが必要となる。本実施形態では、周波数変換手段２０において、フーリエ逆変換を施しているため、周波数逆変換手段４０は、フーリエ逆変換を実行することになる。具体的には、上記〔数式８〕〔数式９〕のいずれかにより得られたスペクトルの左チャンネルの実部Ａｌ´（１，ｊ）等、虚部Ｂｌ´（１，ｊ）等、右チャンネルの実部Ａｒ´（１，ｊ）等、虚部Ｂｒ´（１，ｊ）等を用いて、上記〔数式１０〕に従った処理を行い、Ｘｌ´（ｉ）、Ｘｒ´（ｉ）を算出する。改変音響フレーム出力手段５０は、得られた改変音響フレームを順次出力ファイルに出力する。

同様に、周波数逆変換手段４０が、上記Ｓ１０６の処理によりＢタイプの音響フレームに対応する各スペクトル集合の強度が変更されたスペクトルを振幅逆変換、周波数逆変換して改変音響フレームを得る処理を行う（Ｓ１０８）。具体的には、振幅逆変換は〔数式５〕で算出したＺｌ（２）、Ｚｒ（２）の逆数をスペクトルに乗じることにより行ない、上記〔数式８〕〔数式９〕のいずれかにより得られたスペクトルの左チャンネルの実部Ａｌ´（２，ｊ）等、虚部Ｂｌ´（２，ｊ）等、右チャンネルの実部Ａｒ´（２，ｊ）等、虚部Ｂｒ´（２，ｊ）等を用いて、上記〔数式１１〕に従った処理を行い、Ｘｌ´（ｉ）、Ｘｒ´（ｉ）を算出する。

改変音響フレーム出力手段５０は、得られた改変音響フレームを順次出力ファイルに出力する。こうして各チャンネルについて、ＡタイプおよびＢタイプの２つの音響フレームに対する処理を終えたら、周波数成分変更手段３０がビット配列中の次の１ビットを読み込む（Ｓ１０２）。以上のような処理を音響信号の両チャンネルの全サンプルに渡って実行していく。すなわち、所定数のサンプルを音響フレームとして読み込み、音響信号から読み込むべき音響フレームがなくなったら（Ｓ１０３、Ｓ１０４）、処理を終了する。なお、Ｓ１０１において読み込んだ１ワード分のビット配列（１２ビット）の各ビットに対応する処理を終えた場合、Ｓ１０２からＳ１０１に戻り、付加情報の次のワードを読み込んでビット配列を作成する処理を行うことになる。付加情報の全ワードに対して処理が終了した場合は、付加情報の先頭ワードに戻って処理を行う。この結果、全ての音響フレームに対して処理を行った全ての改変音響フレームが出力ファイルに記録されて、改変音響信号として得られる。得られた改変音響信号は、記憶手段６０内の改変音響信号記憶部６３に出力され、記憶される。

なお、本実施形態では、付加情報を１ワード７ビットとし、検査符号を加えて１２ビットとして、付加情報１ワード分の処理をする場合について説明したが、抽出側と取り決めがある限り、付加情報の１ワードを任意のビット数単位で記録することが可能である。

上記のようにして得られた改変音響信号の左チャンネルのうち、付加情報が埋め込まれている部分については、変更対象周波数帯の成分は、上記状態１、状態２の２通りの分布しかないことになる。しかし、変更対象周波数帯の成分以外については、元の音響信号のままであるので、制作者の設定に基づいた種々な分布になる。また、上記〔数式８〕〔数式９〕の処理からも明らかなように、変更対象周波数帯の成分は、左チャンネルと右チャンネルにおいて同等の割合で変化させられている。したがって、両スピーカと等距離の位置においても、変更対象周波数帯の成分は、相殺されることなく増幅させる関係となり、情報を抽出し易くなる。

以上、埋め込み装置について説明したが、ここでは、本発明の特徴である振幅変換を用いた埋め込みおよび抽出手法について図１４から図１７を用いて説明する。図１４および図１５は、比較のために、振幅変換を用いない従来の埋め込み処理および抽出処理を示し、図１６および図１７は本願で提案する振幅変換を用いた埋め込み処理および抽出処理を示す。これらの説明図においては、音響フレーム奇数および偶数３対分について、３ビットの情報を埋め込むことを想定した音響信号の信号波形を示しており、説明の便宜上、音響フレームが互いに重複しない状態で示している。各図において、左端の波形は時間次元の通常の音響信号波形を示しており、横方向は時間軸であり、右に向かうに従って時間が進行し、縦方向は強度（振幅）である。中央または右端の波形は周波数変換後の所定の周波数範囲のスペクトル成分の合算値を信号波形で表現しており、仮想的にバンドパスフィルターを通した後の信号波形になっている。縦方向は同様に強度であり、本来は左端に比べ顕著に低くなるが、ここでは説明の都合上、左端と同程度に拡大して表現している。また、２種類の波形のレベルも本来は差があるが、ここでは同一レベルで表現している。実際には、周波数変換後のデータとして所定の周波数範囲外の高周波数成分や低周波数成分も存在するが、これらについては改変を加えないという前提で図示しておらず、図３に従った埋め込みを行なう２種の周波数帯域成分に限定して２種の信号波形で示している。

図１４（ａ）は原音響信号を示しており、最初の１対の音響フレームは全体に渡って強度がほぼ一定、中央の１対の音響フレームは奇数フレームの強度が小さく偶数フレームの強度が大きいものであり、最後の１対の音響フレームは奇数フレームの強度が大きく偶数フレームの強度が小さいものである。このような音響信号に対して、周波数変換を行った結果が図１４（ｂ）で、図３で示されように埋め込み対象成分は上下２分割して成分変更を施す都合上、図１４（ｂ）では（ｂ−１）および（ｂ−２）の２種の波形に分離して表現した。周波数変換後の波形形状は周波数ごとに異なり、図１４（ａ）と必ずしも相似形にはならないが、ここでは周波数変換前と同様になると仮定して説明する。図１４（ｂ−１）および（ｂ−２）に対して、［０，０，０］という３ビットのデータを図３で説明した方法に基づいて埋め込むことにより（図３ではビット０は符号１に相当する）、図１４（ｃ−１）および（ｃ−２）が得られる。最初の１対は図３のようなパターンが表現できているが、残り２対の上下一方は、原段階に対して逆方向に大小関係を構築することが要求され、品質維持の都合上、適切なパターンが構築できていないことがわかる。このような改変を加えた結果に対して、周波数逆変換を行った結果が図１４（ｄ）である。一般に音響信号波形の外形（エンベロープという）はエネルギー分布が大きい低周波成分で決定され、これらは本願では所定の周波数範囲外の信号成分に含まれ、図１４（ｃ）の段階では改変が加えられていないため、周波数逆変換後の図１４（ｄ）は周波数変換前の図１４（ａ）と類似した形状になる。

このような埋め込みを行なった結果に対して、抽出処理を行う様子を図１５に示す。図１５（ａ）および図１５（ｂ）は各々図１４（ｄ）および図１４（ｃ）に対応する。図１５（ｂ）において、ビット判定を行なうにあたり、最初の１対以外は図３で想定されているパターンが形成されていないため、正しいビットを判定することが難しくなる。

次に、本願で提案する振幅変換を導入した手法について図１６および図１７を用いて説明する。図１６（ａ）は図１４（ａ）と同じ原音響信号を示しており、同様に周波数変換を行った図１６（ｂ）も図１４（ｂ）と同じである。ここで、６つのフレーム単位に振幅変換を行った結果が図１６（ｃ）である。図１６の場合、図１６（ａ）で各フレーム内の振幅が平坦であるため、図１６（ｃ）では全体が平坦になっているが、実際には各フレーム内は微細に変動しており、そのフレーム内変動分は図１６（ｃ）の段階でも踏襲されるため、本図のように完全に平坦になることは通常ない。（実際は図１６（ｃ）は周波数次元のデータになるため、周波数次元のデータも平坦にならず変動した形態になる。）また、変換倍率はフレームごとに設定し、上下２つの周波数成分に対しては同一の倍率で変換を行うため、通常は上下で顕著な差が生じる（ただし、時間軸方向は比較的揃う）。これに対して、［０，０，０］という３ビットのデータを埋め込むと、図１６（ｄ−１）および（ｄ−２）が得られる。原段階である図１６（ｃ）が平坦な波形であるため、全てのフレームにおいて図３のような理想的なパターンが容易に構築できることがわかる。続いて、前記フレームごとに設定した倍率の逆数を乗じて振幅逆変換を行った結果が図１６（ｅ）である。この段階では図１４（ｃ）と類似したパターンが生じることが多いが、本形状はいかなるものでも構わない。最後に周波数逆変換を行うと、図１６（ｆ）が得られ、同様に原信号波形の図１６（ａ）と類似した形状になる。

このような埋め込みを行なった結果に対して、抽出処理を行う様子を図１７に示す。図１７（ａ）、（ｂ）および（ｃ）は各々図１６（ｆ）、（ｅ）および（ｄ）に対応する。図１７（ｂ）の周波数変換後の波形形状は図１６（ｂ）とは基本的に異なるが、算出される振幅変換倍率は類似した値になり、ほぼ同様な倍率で振幅変換が行われ図１７（ｃ）が得られる。図１７（ｃ）の段階で、ビット判定を行なうと、全てのフレームにおいて図３のような理想的なパターンが形成されているため、正しいビットを判定することが可能になる。

以上、本実施形態では、図１６（ｃ）に示したように、埋め込み対象の信号成分が時間軸方向に平坦になるように変換を行って埋め込むようにしているため、特許文献３に記載の発明のように、高周波側と低周波側の成分強度の大小関係が完全に逆になるような不自然な変更を行う確率が低くなり、品質を維持しながら、抽出側における抽出精度を高めることが可能となる。

（２．１．抽出装置の構成）
次に、本発明に係る音響信号からの情報の抽出装置について説明する。図６は、本発明に係る音響信号からの情報の抽出装置の一実施形態を示す構成図である。図６において、１００は音響信号入力手段、１１０は基準フレーム獲得手段、１２０は位相変更フレーム設定手段、１３０は周波数変換手段、１４０は符号判定パラメータ算出手段、１５０は符号出力手段、１６０は付加情報抽出手段、１７０は音響フレーム保持手段である。

音響信号入力手段１００は、流れている音声をデジタル音響信号として取得し、入力する機能を有している。現実には、マイクロフォンおよびＡ／Ｄ変換器により実現される。マイクロフォンとしては、変更対象周波数帯の成分が検出可能なものであれば、モノラル無指向性のものであっても、ステレオ指向性のものであっても使用可能である。ステレオ指向性のものであっても一方のチャンネルだけ利用すれば良い。また、図１に示した装置で情報の埋め込みを行った場合には、ステレオで再生されるが、左右どちらのスピーカの音を入力しても、双方のスピーカの音を混合入力しても良く、マイクロフォンの設置位置に制約がない。もちろん、上記信号がモノラル再生される場合、あるいは上記と異なりモノラルで情報が埋め込まれた場合は、再生される単一のスピーカにマイクロフォンを向ければ良い。このマイクロフォンは特別精度の高いものでなく、一般的な精度のマイクロフォンを用いても情報の抽出が可能となる。基準フレーム獲得手段１１０は、入力されたデジタルのモノラル音響信号（あるいはステレオ音響信号の１チャンネル）から所定数のサンプルで構成される音響フレームを基準フレームとして読み込む機能を有している。基準フレームとしては、埋め込み時と同様にＡタイプ、Ｂタイプのものが設定される。位相変更フレーム設定手段１２０は、Ａタイプ、Ｂタイプそれぞれの基準フレームと所定サンプルずつ移動させることにより位相を変更した音響フレームを位相変更フレームとして設定する機能を有している。

周波数変換手段１３０は、基本的には、図１に示した周波数変換手段２０とほぼ同様の機能を有している。ただし、音を取り込むタイミングが、音響信号の先頭からとはならないため、正しい位相を特定するために、複数の位相で振幅変換、周波数変換を行う点、元の音響信号がステレオであっても、１つのチャンネルで行う点が異なっている。

周波数変換手段１３０は、Ａタイプの音響フレームに対してフーリエ変換を行う場合は、信号Ｘ（ｉ−Ｎ／２＋ｐＮ／６）（ｉ＝０，…，Ｎ−１）に対して、窓関数Ｗ（１，ｉ）を用いて、以下の〔数式１２〕に従った処理を行い、変換データの実部Ａ（１，ｊ，ｐ）、虚部Ｂ（１，ｊ，ｐ）を得る機能を有している。ｐは位相番号であり、０〜５の整数値をとる。

〔数式１２〕
Ａ（１，ｊ，ｐ）＝Σ_i=0,…,N-1Ｗ（１，ｉ）・Ｘ（ｉ−Ｎ／２＋ｐ・Ｎ／６）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂ（１，ｊ，ｐ）＝Σ_i=0,…,N-1Ｗ（１，ｉ）・Ｘ（ｉ−Ｎ／２＋ｐ・Ｎ／６）・ｓｉｎ（２πｉｊ／Ｎ）

周波数変換手段１３０は、Ｂタイプの音響フレームに対してフーリエ変換を行う場合は、信号Ｘ（ｉ＋ｐ・Ｎ／６）（ｉ＝０，…，Ｎ−１）に対して、窓関数Ｗ（２，ｉ）を用いて、以下の〔数式１３〕に従った処理を行い、変換データの実部Ａ（２，ｊ，ｐ）、虚部Ｂ（２，ｊ，ｐ）を得る機能を有している。

〔数式１３〕
Ａ（２，ｊ，ｐ）＝Σ_i=0,…,N-1Ｗ（２，ｉ）・Ｘ（ｉ＋ｐ・Ｎ／６）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂ（２，ｊ，ｐ）＝Σ_i=0,…,N-1Ｗ（２，ｉ）・Ｘ（ｉ＋ｐ・Ｎ／６）・ｓｉｎ（２πｉｊ／Ｎ）

周波数変換手段１３０は、周波数変換手段２０と同様に振幅変換を行う。振幅変換を行うにあたり、まず変換倍率の算出を行う。変換倍率の算出は、所定周波数範囲のスペクトル集合の実効強度値の平均である平均実効値で、設定値を除算することにより行う。設定値は、適宜定めておくことができるが、埋め込み時における振幅変換の場合と同一値としておくことが必要となる。したがって、ここでは、設定値は１２８にする必要がある。具体的には、Ａタイプの音響フレーム、Ｂタイプの音響フレームについての変換倍率Ｚ（１，ｐ）、Ｚ（２，ｐ）は、以下の〔数式１４〕に従った処理により算出される。振幅変換が実行されることにより、全ての音響フレームは、元の状態における信号強度に関わらず、各音響フレームの平均実効値が設定値となるように振幅変換された状態で、情報の抽出が行われることになる。なお、ｐは位相番号であり、０〜５の整数値をとる。

〔数式１４〕
Ｚ（１，ｐ）＝128.0／［Σ_{j=m,…,m+2G-1}｛Ａ（１，ｊ，ｐ）²＋Ｂ（１，ｊ，ｐ）²｝］^1/2
Ｚ（２，ｐ）＝128.0／［Σ_{j=m,…,m+2G-1}｛Ａ（２，ｊ，ｐ）²＋Ｂ（２，ｊ，ｐ）²｝］^1/2

ｊ＝ｍ，…，ｍ＋２Ｇ−１（周波数Ｆ１，．．．，Ｆ２に相当）およびｐ＝０，．．．，５の範囲で、Ａ（１，ｊ，ｐ）およびＢ（１，ｊ，ｐ）の各々の要素に対してＺ（１，ｐ）を乗じ、Ａ（２，ｊ，ｐ）およびＢ（２，ｊ，ｐ）の各々の要素に対してＺ（２，ｐ）を乗じることにより、振幅変換を行う。以下説明において、Ａ（１，ｊ，ｐ）、Ｂ（１，ｊ，ｐ）、Ａ（２，ｊ，ｐ）、Ｂ（２，ｊ，ｐ）はこれらの振幅変換を行った値とする。

符号判定パラメータ算出手段１４０は、生成されたスペクトルから所定の周波数範囲に相当するスペクトル集合を抽出し、各スペクトル集合の強度値を算出するとともに、この強度値を利用して符号判定パラメータを算出し、この符号判定パラメータの大小関係に基づいて、所定の状態であると判断する機能を有している。上述のように、本実施形態では、Ａタイプの音響フレームとＢタイプの音響フレームがＮ／２サンプルずつ重複して設定されているため、ある音響フレームについて、強度値、符号判定パラメータを算出する際には、直前の音響フレームによる残響成分を考慮する必要がある。ところが、残響成分は計算により算出されるものであるので、必ずしも正確なものが算出されるとは限らず、算出された残響成分を除去することにより、反って抽出精度が低下する場合がある。そこで、本実施形態では、残響成分を除去しない場合の強度値Ｅ１、Ｅ２、Ｅ３、Ｅ４、および符号判定パラメータＣと、除去した場合の強度値Ｅ１´、Ｅ２´、Ｅ３´、Ｅ４´、および補正符号判定パラメータＣ´を算出し、これらを利用して最適であると思われる状態を判断する。

Ａタイプの音響フレームの各成分Ａ（１，ｊ，ｐ）、Ｂ（１，ｊ，ｐ）に対して１フレーム分前のＢタイプの音響フレームに対応する各成分をＡ_-1（２，ｊ，ｐ）、Ｂ_-1（２，ｊ，ｐ）とすると、Ｂタイプの音響フレームの各成分Ａ（２，ｊ，ｐ）、Ｂ（２，ｊ，ｐ）に対応して、１フレーム分前の音響フレームは以下補正を施す前の前記Ａタイプの音響フレームとなる。符号判定パラメータ算出手段１４０は、各スペクトル集合の強度値の算出の前に、まず、各スペクトル集合の基本強度値Ｅ（１，ｊ，ｐ）、Ｅ（２，ｊ，ｐ）、および残響成分を除去した基本強度値Ｅ´（１，ｊ，ｐ）、Ｅ´（２，ｊ，ｐ）を、以下の〔数式１５〕に従った処理により算出する。

〔数式１５〕
Ｅ（１，ｊ，ｐ）＝Ａ（１，ｊ，ｐ）²＋Ｂ（１，ｊ，ｐ）²
Ｅ（２，ｊ，ｐ）＝Ａ（２，ｊ，ｐ）²＋Ｂ（２，ｊ，ｐ）²
Ｅ_-1（１，ｊ，ｐ）＝Ａ_-1（１，ｊ，ｐ）²＋Ｂ_-1（１，ｊ，ｐ）²
Ｅ_-1（２，ｊ，ｐ）＝Ａ_-1（２，ｊ，ｐ）²＋Ｂ_-1（２，ｊ，ｐ）²
Ｅ´（１，ｊ，ｐ）＝Ｅ（１，ｊ，ｐ）−ｑ｛Ｅ_-1（２，ｊ，ｐ）＋ｑＥ_-1（１，ｊ，ｐ）｝
Ｅ´（２，ｊ，ｐ）＝Ｅ（２，ｊ，ｐ）−ｑ｛Ｅ（１，ｊ，ｐ）＋ｑＥ_-1（２，ｊ，ｐ）｝

上記〔数式１５〕における６つの式のうち、上から５番目（下から２番目）の式は、あるＡタイプの音響フレームに着目したときに、その前半のＮ／２サンプルが重複するＢタイプの音響フレームからの残響成分を除去するためのものである。また、上から６番目（下から１番目）の式は、あるＢタイプの音響フレームに着目したときに、その前半のＮ／２サンプルが重複するＡタイプの音響フレームからの残響成分を除去するためのものである。Ｅ´（１，ｊ，ｐ）≧０、Ｅ´（２，ｊ，ｐ）≧０とし、〔数式１５〕の上から５番目、６番目の式に従った処理の結果、負の値となった場合には、０に設定する。

上記〔数式１５〕において、ｑは残響成分の大きさを示す係数であるが、この係数ｑは１未満の値を持つものであり、実験の結果、Ｎ＝４０９６のときｑ＝０．０６、Ｎ＝２０４８のときｑ＝０．１２、Ｎ＝１０２４のときｑ＝０．２４、Ｎ＝５１２のときｑ＝０．４８が最適である。

そして、残響成分を除去しない場合の各スペクトル集合の強度値Ｅ１、Ｅ２、Ｅ３、Ｅ４、除去した場合の強度値Ｅ１´、Ｅ２´、Ｅ３´、Ｅ４´を、算出した基本強度値Ｅ（１，ｊ，ｐ）、Ｅ（２，ｊ，ｐ）、Ｅ´（１，ｊ，ｐ）、Ｅ´（２，ｊ，ｐ）を用いて以下の〔数式１６〕に基づいて算出する。

〔数式１６〕
Ｅ１（ｐ）＝Σ_{j=m,…,m+G-1}Ｅ（１，ｊ，ｐ）・Ｆ（ｊ）
Ｅ２（ｐ）＝Σ_{j=m,…,m+G-1}Ｅ（２，ｊ，ｐ）・Ｆ（ｊ）
Ｅ３（ｐ）＝Σ_{j=m+G,…,m+2G-1}Ｅ（１，ｊ，ｐ）
Ｅ４（ｐ）＝Σ_{j=m+G,…,m+2G-1}Ｅ（２，ｊ，ｐ）
Ｅ１´（ｐ）＝Σ_{j=m,…,m+G-1}Ｅ´（１，ｊ，ｐ）・Ｆ（ｊ）
Ｅ２´（ｐ）＝Σ_{j=m,…,m+G-1}Ｅ´（２，ｊ，ｐ）・Ｆ（ｊ）
Ｅ３´（ｐ）＝Σ_{j=m+G,…,m+2G-1}Ｅ´（１，ｊ，ｐ）
Ｅ４´（ｐ）＝Σ_{j=m+G,…,m+2G-1}Ｅ´（２，ｊ，ｐ）

結局〔数式１５〕〔数式１６〕により、各スペクトル集合の強度値Ｅ１、Ｅ２、Ｅ３、Ｅ４が算出されるとともに、当該各スペクトル集合に対応する直前の同タイプの音響フレームにおけるスペクトル集合の強度にｑ²を乗じた値と、タイプの別を問わない直前の音響フレームにおけるスペクトル集合の強度にｑを乗じた値を減じることにより強度値Ｅ１´、Ｅ２´、Ｅ３´、Ｅ４´が算出されることになる。

上記〔数式１６〕において、Ｆ（ｊ）は各ｊに対応するスペクトル要素を補正するために用いられる関数である。ここで、音響信号の周波数とエネルギー分布の関係を図７に示す。図７に示すように、音響信号のエネルギー分布は、周波数ｆの２乗に比例して下がる傾向にある。このため、高周波成分について、情報が埋め込まれているかどうかの判断を行う際、低周波成分よりも信号強度が大きくなるように補正した方が、誤判断が生じ難くなる。そこで、本発明では、低周波側について、補正関数Ｆ（ｊ）により補正した強度値Ｅ１、Ｅ２、Ｅ１´、Ｅ２´を求めるのである。補正関数Ｆ（ｊ）は、以下の〔数式１７〕で定義される周波数方向窓関数である。補正関数Ｆ（ｊ）は、各スペクトル要素に対して作用し、スペクトル集合の強度の算出にあたり、上記〔数式１６〕では、各スペクトル要素の強度に補正関数Ｆ（ｊ）なる重みを加味して総和を求めるようにしている。

〔数式１７〕
ｊ＜ｍ＋３Ｇ／４のときＦ（ｊ）＝０．１
ｊ≧ｍ＋３Ｇ／４のときＦ（ｊ）＝１．０

上記〔数式１７〕において、Ｇは所定周波数帯におけるスペクトル集合の成分数を示し、Ｇ＝（Ｍ−ｍ）／２である。ここで、周波数方向窓関数Ｆ（ｊ）のグラフを図８に示す。上記〔数式１６〕においては、ｊがｍからｍ＋Ｇ−１のそれぞれＧ個の各スペクトル要素に対して、周波数方向窓関数Ｆ（ｊ）が乗じられることになる。

また、符号判定パラメータ算出手段１４０は、残響成分を除去せずに算出した強度値Ｅ１、Ｅ２、Ｅ３、Ｅ４を用いて、以下の〔数式１８〕に従った処理を実行し、符号判定パラメータＣを算出する。

〔数式１８〕
１）Ｅ１（ｐ）＞Ｅ２（ｐ）かつＥ４（ｐ）＞Ｅ３（ｐ）の場合
Ｂ＝０と仮判定、
Ｃ＝｛Ｅ１（ｐ）・Ｅ４（ｐ）−Ｅ２（ｐ）・Ｅ３（ｐ）｝／｛Ｅ１（ｐ）・Ｅ４（ｐ）＋Ｅ２（ｐ）・Ｅ３（ｐ）｝
２）Ｅ２（ｐ）＞Ｅ１（ｐ）かつＥ３（ｐ）＞Ｅ４（ｐ）の場合
Ｂ＝１と仮判定、
Ｃ＝｛Ｅ２（ｐ）・Ｅ３（ｐ）−Ｅ１（ｐ）・Ｅ４（ｐ）｝／｛Ｅ１（ｐ）・Ｅ４（ｐ）＋Ｅ２（ｐ）・Ｅ３（ｐ）｝
３）Ｅ１（ｐ）・Ｅ４（ｐ）＞Ｅ２（ｐ）・Ｅ３（ｐ）の場合
Ｂ＝０と仮判定、
Ｃ＝｛Ｅ１（ｐ）・Ｅ４（ｐ）−Ｅ２（ｐ）・Ｅ３（ｐ）｝／｛Ｅ１（ｐ）・Ｅ４（ｐ）＋Ｅ２（ｐ）・Ｅ３（ｐ）｝
４）上記１）〜３）以外の場合
Ｂ＝１と仮判定、
Ｃ＝｛Ｅ２（ｐ）・Ｅ３（ｐ）−Ｅ１（ｐ）・Ｅ４（ｐ）｝／｛Ｅ１（ｐ）・Ｅ４（ｐ）＋Ｅ２（ｐ）・Ｅ３（ｐ）｝

また、符号判定パラメータ算出手段１４０は、残響成分を除去して算出した強度値Ｅ１´、Ｅ２´、Ｅ３´、Ｅ４´を用いて、以下の〔数式１９〕に従った処理を実行し、補正符号判定パラメータＣ´を算出する。

〔数式１９〕
１）Ｅ１´（ｐ）＞Ｅ２´（ｐ）かつＥ４´（ｐ）＞Ｅ３´（ｐ）の場合
Ｂ´＝０と仮判定、
Ｃ´＝｛Ｅ１´（ｐ）・Ｅ４´（ｐ）−Ｅ２´（ｐ）・Ｅ３´（ｐ）｝／｛Ｅ１´（ｐ）・Ｅ４´（ｐ）＋Ｅ２´（ｐ）・Ｅ３´（ｐ）｝
２）Ｅ２´（ｐ）＞Ｅ１´（ｐ）かつＥ３´（ｐ）＞Ｅ４´（ｐ）の場合
Ｂ´＝１と仮判定、
Ｃ´＝｛Ｅ２´（ｐ）・Ｅ３´（ｐ）−Ｅ１´（ｐ）・Ｅ４´（ｐ）｝／｛Ｅ１´（ｐ）・Ｅ４´（ｐ）＋Ｅ２´（ｐ）・Ｅ３´（ｐ）｝
３）Ｅ１´（ｐ）・Ｅ４´（ｐ）＞Ｅ２´（ｐ）・Ｅ３´（ｐ）の場合
Ｂ´＝０と仮判定、
Ｃ´＝｛Ｅ１´（ｐ）・Ｅ４´（ｐ）−Ｅ２´（ｐ）・Ｅ３´（ｐ）｝／｛Ｅ１´（ｐ）・Ｅ４´（ｐ）＋Ｅ２´（ｐ）・Ｅ３´（ｐ）｝
４）上記１）〜３）以外の場合
Ｂ´＝１と仮判定、
Ｃ´＝｛Ｅ２´（ｐ）・Ｅ３´（ｐ）−Ｅ１´（ｐ）・Ｅ４´（ｐ）｝／｛Ｅ１´（ｐ）・Ｅ４´（ｐ）＋Ｅ２´（ｐ）・Ｅ３´（ｐ）｝

符号出力手段１５０は、１つの基準フレームに対応する音響フレーム（基準フレームおよび位相変更フレーム）の中から最適な位相であると判断されるものを判断し、その音響フレームの状態に対応する符号を出力する機能を有している。符号判定パラメータ算出手段１４０と符号出力手段１５０により符号化手段が構成される。付加情報抽出手段１６０は、符号出力手段１５０により出力された２値の配列を、所定の規則により変換して意味のある付加情報として抽出する機能を有している。音響フレーム保持手段１７０は、チャンネルごとのＡタイプ、Ｂタイプそれぞれについて連続する２個の基準フレーム（チャンネルごとに計４個の基準フレーム）を保持可能なバッファメモリである。図６に示した各構成手段は、現実には情報処理機能を有する小型のコンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。特に、本発明の目的をより簡易に達成するためには、携帯電話機等の携帯型端末装置をハードウェアとして用いることが望ましい。なお、携帯電話機等の携帯型端末装置であっても、演算処理機能を有するものは、コンピュータの一種と考えられる。

（２．２．抽出装置の処理動作）
次に、図６に示した音響信号からの情報の抽出装置の処理動作について説明する。本発明に係る抽出装置は、検査符号によりエラーを検出した際、エラー訂正を行わない設定とすることもできるし、１ビットのエラー訂正をするものと設定することもできる。ここからは、エラー訂正を行わない設定における抽出装置の処理動作を、図９のフローチャートに従って説明する。まず、本装置では、位相判定テーブルＳ（ｐ）、位相決定ログ、位相確定フラグ、ビットカウンタを初期化する（Ｓ２００）。位相判定テーブルＳ（ｐ）は、位相を判定するためのテーブルであり、ｐは０〜５の整数値をとる。初期値はＳ（ｐ）＝０に設定されている。位相決定ログは、１つの基準フレームと５つの位相変更フレームの組ごとに、決定された位相すなわち位相番号ｐを記録していくものであり、初期状態では０が設定されている。位相確定フラグは、位相が確定しているかどうかを示すフラグであり、初期状態ではＯｆｆに設定されている。ビットカウンタについては初期値として０を設定する。

このように、初期値が設定されている状態で、利用者が流れている音楽について、その楽曲名等の属性情報を知りたいと思った場合、まず、抽出装置に対して、抽出装置としての起動の指示を行う。これは、例えば、抽出装置を携帯電話機等の携帯端末で実現している場合は、所定のボタンを操作することにより実行できる。抽出装置は、指示が入力されると、音響信号入力手段１００が、流れている音楽を録音し、デジタル化してデジタル音響信号として入力する。具体的には、無指向性マイクロフォン（または指向性マイクロフォンの一方のチャンネル）から入力される音声を、Ａ／Ｄ変換器によりデジタル化する処理を行うことになる。

続いて、基準フレーム獲得手段１１０が、音響信号入力手段１００から入力された音響信号から、所定数のサンプルで構成される音響フレームを基準フレームとして抽出する（Ｓ２０１）。具体的には、Ａタイプ、Ｂタイプについての基準フレームを抽出して音響フレーム保持手段１７０に読み込むことになる。基準フレーム獲得手段１１０が基準フレームとして読み込む１音響フレームのサンプル数は、図１に示した音響フレーム読込手段１０で設定されたものと同一にする必要がある。したがって、本実施形態の場合、基準フレーム獲得手段１１０は、Ａタイプ、Ｂタイプについてそれぞれ４０９６サンプルずつ、順次基準フレームとして読み込んでいくことになる。音響フレーム保持手段１７０には、各チャンネルについて、Ａタイプ、Ｂタイプ２個ずつの基準フレーム、すなわち２．５Ｎサンプルが格納可能となっており、新しい基準フレームが読み込まれると、古い基準フレームを破棄するようになっている。したがって、音響フレーム保持手段１７０には、常に基準フレーム４個分（連続する１０２４０サンプル）が格納されていることになる。

抽出装置で処理する音響フレームは、先頭から途切れることなく隣接して設定される基準フレームと、この基準フレームと位相を変更した位相変更フレームとに分けることができる。基準フレームについては、Ａタイプの音響フレームとＢタイプの音響フレームが、２０４８サンプルずつ重複している場合、最初の基準フレームとしてサンプル番号１からサンプル番号４０９６までを設定したら、次の基準フレームは、サンプル番号２０４９からサンプル番号６１４４、さらに次の基準フレームは、サンプル番号４０９７からサンプル番号８１９２、さらに次の基準フレームは、サンプル番号６１４５からサンプル番号１０２４０、というように途切れることなく設定される。そして、各基準フレームについて、１／６フレーム（約６８３サンプル）ずつ移動した５個の位相変更フレームを設定する。例えば、最初の基準フレームについては、サンプル番号６８３、１３６６、２０４９、２７３２、３４１３から始まる４０９６のサンプルで構成される５個の位相変更フレームが設定されることになる。続いて、周波数変換手段１３０、符号判定パラメータ算出手段１４０が、読み込んだ各音響フレームについて、位相を特定した後、埋め込まれている情報を判定し、対応する符号を出力する（Ｓ２０２）。出力される情報の形式は、付加情報が埋め込まれる場合に対応する値１、値２の２通りの形式となる。

ここで、ステップＳ２０２の位相確定および符号判定の詳細を図１０のフローチャートに従って説明する。まず、位相確定フラグがＯｎであるかＯｆｆであるかの確認を行う（Ｓ３０１）。位相確定フラグがＯｎである場合は、位相確定処理（Ｓ３０３〜Ｓ３０９）を行わず、符号判定処理のみを行う（Ｓ３０２）。ただし、初期状態では位相は確定しておらず、位相確定フラグがＯｆｆとなっているので、候補符号テーブルＢ（ｐ）の初期化を行う（Ｓ３０３）。候補符号テーブルＢ（ｐ）は、１つの基準フレームおよび５個の位相変更フレームを特定するｐ＝０〜５の位相番号および、この６個の音響フレームの状態から得られる２値の符号を記録するものである。

続いて、符号判定パラメータ算出手段１４０は、符号判定処理を行う（Ｓ３０２）。ここで、符号判定処理の詳細を図１１に示す。まず、周波数変換手段１３０が、読み込んだ各音響フレームに対して、周波数変換を行って各窓スペクトルを得る（Ｓ４０１）。具体的には、上記〔数式１２〕〔数式１３〕に従った処理を実行し、変換データの実部Ａ（１，ｊ，ｐ）、虚部Ｂ（１，ｊ，ｐ）、実部Ａ（２，ｊ，ｐ）、虚部Ｂ（２，ｊ，ｐ）を得る。

Ｓ４０１の処理については、実際には、Ａタイプ音響フレームについて周波数変換を行った後、Ｎ／２サンプルだけシフトしてＢタイプ音響フレームについて周波数変換を行う。これらの変換データＡ（２，ｊ，ｐ）、Ｂ（２，ｊ，ｐ）、Ａ（２，ｊ，ｐ）、Ｂ（２，ｊ，ｐ）に対して、上記〔数式１４〕に従った処理を実行し、振幅変換を行う（Ｓ４０２）。

上記周波数変換手段１３０における処理により、周波数に対応した成分であるスペクトルで表現されたフレームスペクトルが得られる。続いて、符号判定パラメータ算出手段１４０は、符号判定パラメータＣ、Ｃ´を上述のようにして算出した後、符号判定パラメータＣ、Ｃ´を用いて、変更対象周波数帯の成分の状態がどのような状態であるか、すなわち、１ビットの値としてどのような値が埋め込まれていたかを判断する処理を行う（Ｓ４０３）。具体的には、上記〔数式１５〕〜〔数式１８〕に従った処理を実行して、符号判定パラメータＣ、Ｃ´を算出する。そして、この両者を比較して、Ｃ≧Ｃ´であれば候補符号Ｂを候補符号テーブルＢ（ｐ）に設定し、Ｃ＜Ｃ´であれば候補符号Ｂ´を候補符号テーブルＢ（ｐ）に出力する。

Ｓ４０３の具体的な処理手順としては、まず、上記〔数式１５〕の１番目の式と２番目の式を利用して基本強度値Ｅ（１，ｊ，ｐ）、Ｅ（２，ｊ，ｐ）を算出した後、上記〔数式１６〕の１番目から４番目までの式を利用してＥ１（ｐ）、Ｅ２（ｐ）、Ｅ３（ｐ）、Ｅ４（ｐ）を算出し、上記〔数式１８〕に従って候補符号Ｂおよび符号判定パラメータＣを算出する処理を行う。続いて、上記〔数式１５〕の３番目から６番目までの式を利用して、残響補正処理を行って基本強度値Ｅ´（１，ｊ，ｐ）、Ｅ´（２，ｊ，ｐ）を算出する。そして、上記〔数式１６〕の５番目から８番目までの式を利用してＥ１´（ｐ）、Ｅ２´（ｐ）、Ｅ３´（ｐ）、Ｅ４´（ｐ）を算出し、上記〔数式１９〕に従って候補符号Ｂ´および補正符号判定パラメータＣ´を算出する処理を行う。

また、上記判定の結果、位相ｐにおける候補符号テーブルＢ（ｐ）に値１、値２のいずれかを出力した場合には、さらに、以下の〔数式２０〕に従って位相判定テーブルＳ（ｐ）の更新を行う（Ｓ４０４）。

〔数式２０〕
Ｃ≧Ｃ´である場合、Ｓ（ｐ）←Ｓ（ｐ）＋Ｃ
Ｃ＜Ｃ´である場合、Ｓ（ｐ）←Ｓ（ｐ）＋Ｃ´

ここで、図１０のフローチャートに戻って、符号判定パラメータ算出手段１４０は、候補符号テーブルＢ（ｐ）に、位相ｐにおいて符号判定処理（Ｓ３０２）で仮決定された符号を保存する（Ｓ３０４）。

続いて、全ての位相番号ｐに対応する処理を終えたかどうかを判定する（Ｓ３０５）。これは、ある基準フレームに対して全ての位相変更フレームの処理を行ったかどうかを判定している。本実施形態では、ｐが０〜５までの値をとるので、６回分処理していない場合は、処理していた音響フレームから所定サンプル数ずらして、位相の異なる音響フレームを設定し、Ｓ３０２に戻って処理を繰り返す。なお、ｐ＝０の場合が基準フレームであり、ｐ＝１〜５の場合が位相変更フレームである。全ての位相番号ｐに対応する処理を終えた場合は、位相判定テーブルＳ（ｐ）の値が最大となる位相番号ｐｍａｘに対応する位相が最適位相であると判定し、候補符号テーブルＢ（ｐ）に記録されている符号Ｂ（ｐｍａｘ）を出力する（Ｓ３０６）。

続いて、位相決定ログの更新を行う（Ｓ３０７）。位相決定ログとは、１つの基準フレームと５つの位相変更フレームの組ごとに、決定された位相すなわち位相番号ｐを記録するものである。そして、位相決定ログを参照して、位相が過去所定回数同一であったかどうかを判断する（Ｓ３０８）。本実施形態では、この回数を１０回としている。位相が過去所定回数同一であった場合には、位相確定フラグをＯｎに設定する（Ｓ３０９）。これにより、同一位相が所定回数続いた場合には、最適位相はｐｍａｘとなる可能性が高いため、位相確定処理（Ｓ３０３〜Ｓ３０９）を行わず、位相番号ｐ＝ｐｍａｘに対してのみ符号判定処理（Ｓ３０２）を行うことになる。

再び図９のフローチャートに戻って説明する。位相確定および符号出力が行なわれたら、出力された符号の値に対応する１ビットをバッファに保存する（Ｓ２０３）。次に、ビットカウンタを“１”だけカウントアップする（Ｓ２０４）。

次に、ビットカウンタが１１以下であるか１２以上であるかを判断する（Ｓ２０５）。ビットカウンタが１１以下の場合は、Ｓ２０１に戻って、次のＡタイプ、Ｂタイプの基準フレームを抽出する処理を行う。

ビットカウンタが１２以上である場合は、バッファに保存されたビット配列のうちの前７ビットから検査符号を算出する（Ｓ２０６）。具体的には、図５（ｂ）に示した定義に従って算出することになる。これにより、５個の検査符号が得られる。続いて、算出した検査符号とビット配列中の後５ビットとの照合を行う（Ｓ２０７）。具体的には、Ｓ２０６において算出された５個の検査符号と、後５ビットの各値をそれぞれ順に照合する。この結果、５個全て一致する場合は完全適合、その他の場合は不適合と判断する。Ｓ２０７において不適合と判断された場合は、Ｓ２０１に戻って、次の基準フレームを抽出する処理を行う。

Ｓ２０７において完全適合と判断された場合は、付加情報抽出手段１６０が、前７ビットに１ビット付加して出力する（Ｓ２０８）。Ｓ２０７において完全適合であった場合は、バッファ中の先頭の１ビット目が、付加情報内のワードの１ビット目であった可能性が高いことになる。このため、その先頭からの７ビットにビット“０”を付加することによりＡＳＣＩＩコードにおける１ワードとして出力するのである。不適合の場合は、照合に用いた前７ビットが、付加情報内のワードとずれている可能性が高いことになる。この場合は、先頭の１ビットを破棄して、Ｓ２０１からＳ２０４の処理により新たな１ビットを得るための処理を行う。

完全適合と判断された場合は、その部分がワードの区切りである可能性が高いので、それが本当に区切りであれば、以降は１２ビットずつ抽出すれば、全て正確にワード単位で抽出を行うことができる。逆に、完全適合と判断されたとしても、それが偶然であり、実はワードの区切りではない場合も考えられる。このような場合は、次の検査の際に不適合となる可能性が高く、何回か繰り返しているうちに正しい区切りが正確に判断できることになる。Ｓ２０８において、前７ビットに１ビット付加して出力した場合には、ビットカウンタを０に初期化する（Ｓ２０９）。そして、Ｓ２０１に戻って、次の基準フレームを抽出する処理を行う。

図９に示す処理を各基準フレームに対して実行することにより、付加情報が抽出されることになる。Ｓ２０１において全ての基準フレームが抽出されたと判断された場合には、処理を終了する。

上記Ｓ２０８の処理において、付加情報抽出手段１６０は、まず、符号出力手段１５０により出力された値を、所定の規則により変換して意味のある付加情報として抽出する。所定の規則としては、情報を埋め込む者が意図した情報が受け取った者に認識可能な状態にすることができるものであれば、さまざまな規則が採用できるが、本実施形態では、ＡＳＣＩＩコードを採用している。すなわち、付加情報抽出手段１６０は、符号判定パラメータ算出手段１４０が判定し、符号出力手段１５０から出力される符号から得られるビット値の配列を１バイト（８ビット）単位で認識し、これをＡＳＣＩＩコードに従って文字情報を認識する。このようにして得られた文字情報は、表示装置（図示省略）の画面に表示出力される。

従って、埋め込み装置により音響信号に、その楽曲の曲名やアーチスト等の属性情報を文字情報として埋め込んでおけば、利用者は、その音楽が流れているのを聞いて、その曲名やアーチストを知りたいと思ったときに、抽出装置として機能する自身の携帯端末に所定の操作を行えば、自身の携帯端末の画面に曲名やアーチスト等の属性情報が文字情報として表示されることになる。

上記の例では、図９のフローチャートに従ってエラー訂正を行わない設定における抽出装置の処理動作を説明した。エラー訂正を行わない場合は、エラーが生じない場合にのみ、付加情報１ワードの出力が可能となる。

次に、１ビットのエラー訂正をする設定における抽出装置の処理動作を、図１２のフローチャートに従って説明する。図１２においては、図９と同一処理を行う部分が含まれている。そこで、図９と同一処理を行う部分については、同一符号を付して説明を省略する。図１２の例においても、まず、初期化処理を行う（Ｓ２００）。この初期化処理では、図９の例と同様、位相判定テーブルＳ（ｐ）、位相決定ログ、位相確定フラグ、ビットカウンタを初期化するが、さらに、自動訂正モードをＯＦＦにする設定を行う。

続いて、図９と同様、所定数のサンプルで構成される音響フレームを基準フレームとして抽出した後（Ｓ２０１）、読み込んだ各音響フレームについて、位相を特定した後、埋め込まれている情報を判定し、対応する符号を出力する（Ｓ２０２）。なお、Ｓ２０２の処理については、図１０、図１１に示したようなものとなる。

位相確定および符号出力が行なわれたら、出力された符号の値に対応する１ビットをバッファに保存して（Ｓ２０３）、ビットカウンタを“１”だけカウントアップする（Ｓ２０４）。そして、ビットカウンタが１１以下であるか１２以上であるかを判断し（Ｓ２０５）、ビットカウンタが１１以下の場合は、Ｓ２０１に戻って、次の基準フレームを抽出する処理を行う。

ビットカウンタが１２以上である場合は、バッファに保存されたビット配列のうちの前７ビットから検査符号を算出する（Ｓ２０６）。続いて、算出した検査符号と後５ビットとの照合を行う（Ｓ２０７）。Ｓ２０７において、完全適合、と判断された場合は、Ｓ２０８におけるビット列の出力処理の直前に、自動訂正モードをＯＮに設定する処理を行う（Ｓ２１０）。

Ｓ２０７において不適合と判断された場合は、誤りビットが特定できるかどうかを判断する（Ｓ２１１）。具体的には、Ｐ１が不合格で、Ｐ２とＰ３、Ｐ２とＰ４、Ｐ２とＰ５、Ｐ３とＰ４、Ｐ３とＰ５、Ｐ４とＰ５のいずれか２ビットが不合格の場合、各々Ｄ１、Ｄ２、Ｄ３、Ｄ４、Ｄ５、Ｄ６の１ビット誤りと特定する。Ｐ１が不合格で、Ｐ２とＰ３とＰ４、Ｐ３とＰ４とＰ５のいずれか３ビットが不合格の場合、各々Ｄ７、Ｐ１の１ビット誤りと特定する。Ｐ１が不合格で、Ｐ２〜Ｐ５のいずれか１ビットが不合格の場合、各々それ自身の１ビット誤りと特定する。判断の結果、誤りビットが特定できなかった場合には、自動設定モードをＯＦＦに設定する処理を行った後（Ｓ２１２）、Ｓ２０１に戻って、次の基準フレームを抽出する処理を行う。

Ｓ２１１における判断の結果、誤りビットが特定できた場合には、自動訂正モードがＯＮであるかＯＦＦであるかの判断を行う（Ｓ２１３）。自動訂正モードがＯＦＦである場合は、Ｓ２０１に戻って、次の基準フレームを抽出する処理を行う。

自動訂正モードがＯＮである場合は、前７ビット中の１ビットを反転訂正する（Ｓ２１４）。この際、反転すべきビットは、Ｓ２１１において特定された誤りビットである。続いて反転訂正後のバッファ内ビットのうち前７ビットにビット“０”を付加して出力する（Ｓ２０８）。

図１２の例のように、１ビットのエラー訂正をする設定の場合は、１ビットのエラーが生じた場合であっても、付加情報１ワードの出力が可能となる。

（２．３．位相補正処理について）
上記のように、抽出時には、埋め込み時に埋め込んだ音響フレームに対応して、音響信号を読み込むことができるとは限らない。そこで、音響フレームの位相をずらして複数通り（本実施形態では６通り）で読み込み、その中で最適な位相を決定し、その位相で特定される音響フレームに対応する符号を出力することにしている。例えば、６通りで読み込む場合、先頭の音響フレームは、本来サンプル番号１〜４０９６のサンプルであるが、サンプル番号１、６８３、１３６６、２０４９、２７３２、３４１３から始まる４０９６のサンプルで構成される６個の各音響フレームに対して処理を行い、最適な音響フレームに対応する符号を出力することになる。なお、図１０のフローチャートを用いて説明したように、本実施形態では、同一位相が所定回数連続した場合には、それ以降はその位相を確定したものとして処理を行う。

（３．信号成分が小さい場合にさらに確実に情報の埋め込みを行う手法）
ここまでの説明のように、本発明では、元の信号成分に無音に近い部分があっても、情報の埋め込みを可能とするものである。このままでも、もちろん十分であるが、本発明においては、より確実に情報を埋め込むような処理を付加することも可能である。具体的には、周波数変換を行う前に、音響信号に聴取困難な微弱な白色ノイズを重畳させる。

この場合、図１に示した音響フレーム読込手段１０は、所定数のサンプルを１音響フレームとして読み込んだ後、所定の振幅範囲で所定サンプル数単位で同一値を加算または減算する機能を有している。本実施形態では、左チャンネル信号Ｘｌ（ｉ）、右チャンネル信号Ｘｒ（ｉ）（ｉ＝０，…，Ｎ−１）に対して、−３２〜＋３２の振幅範囲（Ｘｌ（ｉ）、Ｘｒ（ｉ）のとり得る値が−３２７６８〜＋３２７６７の場合）で一様乱数Ｈを発生させ、Ｋ（本実施形態ではＫ＝５）個のサンプル間は同一値Ｈを用いて以下の〔数式２１〕に示すような処理を実行し、Ｘｌ（ｉ）、Ｘｒ（ｉ）の値を更新する。

〔数式２１〕
Ｘｌ（ｉ）←Ｘｌ（ｉ）＋Ｈ
Ｘｒ（ｉ）←Ｘｒ（ｉ）−Ｈ

すなわち、上記〔数式２１〕に従った処理をＮサンプルに渡って実行することにより、１つの音響フレームに白色ノイズが発生されることになる。この白色ノイズの発生処理は、図４のフローチャートにおいては、Ｓ１０３の音響フレーム抽出処理の直後に行われることになる。

上記のように、白色ノイズを発生させた場合であっても、抽出側の、音響信号からの情報の抽出装置の構成は図６と同一であり、処理動作は図９〜図１２のフローチャートに従ったものと同一である。

（４．その他）
以上、本発明の好適な実施形態について限定したが、本発明は上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、１音響フレームのサンプル数Ｎ＝４０９６としたが、Ｎ＝２０４８、１０２４、５１２等を設定するようにしても良い。これにより、同一時間あたりの音響フレーム数が、２倍、４倍、８倍となり、全体として２〜８倍の情報の埋め込みが可能となる。

また、上記実施形態では、音響信号からの情報の抽出装置を、携帯電話機等の携帯型端末装置単体で実現した場合を例にとって説明したが、他のコンピュータと連携して実現するようにしても良い。具体的には、携帯型端末装置と専用コンピュータを無線通信可能に接続し、音響信号入力手段１００〜音響フレーム保持手段１７０の構成要素のうち、演算負荷の大きいものは、専用コンピュータで処理する。例えば、音響信号入力手段１００、基準フレーム獲得手段１１０、位相変更フレーム設定手段１２０、付加情報抽出手段１６０を携帯型端末装置に備え、周波数変換手段１３０、符号判定パラメータ算出手段１４０、符号出力手段１５０、音響フレーム保持手段１７０を専用コンピュータに備えるようにして、必要な情報を両者間で通信するようにする。これにより、携帯型端末装置の処理性能が低い場合であっても高速な処理を行うことが可能となる。

また、上記実施形態では、２チャンネルのステレオ音響信号を利用した場合を例にとって説明したが、１チャンネルのモノラル音響信号を利用しても良い。この場合は、上記ＬチャンネルまたはＲチャンネルのいずれか一方に対して行った処理を実行すれば良い。

また、周波数成分変更手段３０による所定周波数成分の変更を、図３および〔数式８〕〔数式９〕に従って実行するようにしたが、埋め込むべきビット値に応じた周波数成分の変更は、様々なものを用いることができ、例えば特許文献１に示したような手法を用いることも可能である。この場合、抽出側においても、当然その埋め込み手法に応じた手法で抽出が行われる。

音響信号に対する情報の埋め込み装置の機能ブロック図である。本発明で用いる時間方向窓関数を示す図である。本発明の一実施形態における変更対象周波数帯の成分の変化の状態を示す図である。図１に示した装置の処理概要を示すフローチャートである。ビット配列の作成の様子を示す図である。本発明に係る音響信号からの情報の抽出装置の機能ブロック図である。音響信号の周波数とエネルギー分布の関係を示す図である。本発明の一実施形態で用いる周波数方向窓関数Ｆ（ｊ）を示す図である。図６に示した装置の、エラー訂正を行わない設定における処理概要を示すフローチャートである。図９のＳ２０２の位相確定および符号出力の詳細を示すフローチャートである。図１０のＳ３０２の符号判定処理の詳細を示すフローチャートである。図６に示した装置の、１ビットのエラー訂正をする設定における処理概要を示すフローチャートである。人間の聴覚心理特性である音脈分凝の原理の説明図である。振幅変換を用いない従来の埋め込み処理を説明するための図である。振幅変換を用いない従来の抽出処理を説明するための図である。振幅変換を用いた本発明の埋め込み処理を説明するための図である。振幅変換を用いた本発明の抽出処理を説明するための図である。

符号の説明

１０・・・音響フレーム読込手段
２０・・・周波数変換手段
３０・・・周波数成分変更手段
４０・・・周波数逆変換手段
５０・・・改変音響フレーム出力手段
６０・・・記憶手段
６１・・・音響信号記憶部
６２・・・付加情報記憶部
６３・・・改変音響信号記憶部
７０・・・ビット配列作成手段
１００・・・音響信号入力手段
１１０・・・基準フレーム獲得手段
１２０・・・位相変更フレーム設定手段
１３０・・・周波数変換手段
１４０・・・符号判定パラメータ算出手段
１５０・・・符号出力手段
１６０・・・付加情報抽出手段
１７０・・・音響フレーム保持手段

Claims

時系列のサンプル列で構成される音響信号に対して、付加情報を聴取不能な状態で埋め込む装置であって、
前記音響信号より、所定数のサンプルを読み込む音響フレーム読込手段と、
前記読み込まれた音響フレームのうち、奇数番目、偶数番目の一方をＡタイプ、他方をＢタイプとし、前記Ａタイプの音響フレームに対して第１窓関数を用いて周波数変換を行い、前記Ｂタイプの音響フレームに対して第２窓関数を用いて周波数変換を行い、前記第１窓関数に対応するスペクトルである第１窓スペクトル、前記第２窓関数に対応するスペクトルである第２窓スペクトルを得る周波数変換手段と、
前記生成された各窓スペクトルから抽出した各スペクトル集合の強度値に対して、平均強度レベルを算出し、当該平均強度レベルを規定レベルに一致させるように変換倍率を算出し、前記各スペクトル集合の強度に前記変換倍率を乗じて振幅変換を施すとともに、前記振幅変換を施した各スペクトル集合の強度を、埋め込むべきビット配列に基づいて、変更する周波数成分変更手段と、
前記変更されたスペクトル集合を含む各窓スペクトルに対して周波数逆変換を行うとともに、前記変換倍率の逆数を乗じて振幅逆変換を施して改変音響フレームを生成する周波数逆変換手段と、
前記周波数逆変換、振幅逆変換された改変音響フレームを順次出力する改変音響フレーム出力手段と、
を有することを特徴とする音響信号に対する情報の埋め込み装置。
請求項１において、
前記音響信号が２以上のチャンネルのステレオ信号であり、
前記音響フレーム読込手段、前記周波数変換手段、前記周波数成分変更手段、前記周波数逆変換手段、前記改変音響フレーム出力手段は、各チャンネルに対して処理を実行するものであることを特徴とする音響信号に対する情報の埋め込み装置。
請求項１または請求項２において、
前記周波数成分変更手段は、前記生成された各窓スペクトルから所定の周波数範囲における互いに重複しない２つのスペクトル集合を抽出し、前記第１窓スペクトル、第２窓スペクトルから抽出した高周波側のスペクトル集合を１Ｕ、２Ｕ、低周波側のスペクトル集合を１Ｄ、２Ｄとした場合に、埋め込むべきビット配列に基づいて、１Ｄの強度値と２Ｕの強度値との積と、１Ｕの強度値と２Ｄの強度値との積のいずれか一方が他方より所定の比率以上に大きくなるように、各スペクトル集合の強度を変更するものであることを特徴とする音響信号に対する情報の埋め込み装置。
請求項３において、
前記周波数成分変更手段は、１Ｄの強度値と２Ｕの強度値との積と、１Ｕの強度値と２Ｄの強度値との積のうち、大きくなるように変更する側のスペクトル集合に対しては、係数αを乗じた強度とし、小さくなるように変更する側のスペクトル集合に対しては、係数αより小さい係数βを乗じた強度とするものであることを特徴とする音響信号に対する情報の埋め込み装置。
請求項４において、
前記周波数成分変更手段は、前記強度の積を相対的に大きくなるように変更するグループの強度の積を、前記強度の積を相対的に小さくなるように変更するグループの強度の積で割った値γが、１より小さい場合に、前記係数αよりγの平方根を除した係数α´と、前記係数βにγの平方根を乗じた係数β´を、前記係数α、βに代えて用いるものであることを特徴とする音響信号に対する情報の埋め込み装置。
請求項１から請求項５のいずれかにおいて、
前記ビット配列を、付加情報中のビット列の誤りを検出するための検査符号を付加することにより作成するビット配列作成手段をさらに有し、
前記周波数成分変更手段は、前記ビット配列に基づいて、前記スペクトル集合の強度を変更するものであることを特徴とする音響信号に対する情報の埋め込み装置。
請求項１から請求項６のいずれかにおいて、
前記音響フレーム読込手段は、前記Ａタイプの音響フレームと前記Ｂタイプの音響フレームを、所定数のサンプルを重複させて読み込むものであり、
前記改変音響フレーム出力手段は、前記生成された改変音響フレームを先行する改変音響フレームと連結させて出力するものであることを特徴とする音響信号に対する情報の埋め込み装置。
請求項１から請求項７のいずれかにおいて、
前記周波数成分変更手段は、前記所定周波数範囲を１．７ｋＨｚ以上および３．４ｋＨｚ以下として設定するものであることを特徴とする音響信号に対する情報の埋め込み装置。
請求項１から請求項８のいずれかにおいて、
前記音響フレーム読込手段は、前記音響フレームと同サンプル数で、再生時に聴取困難な極めて低振幅の白色ノイズを作成し、前記音響フレームに対して加算するものであることを特徴とする音響信号に対する情報の埋め込み装置。
コンピュータを、請求項１から請求項９のいずれかに記載の音響信号に対する情報の埋め込み装置として、機能させるためのプログラム。
あらかじめ聴取不能な状態で付加情報が埋め込まれた音響信号から前記付加情報を抽出する装置であって、
前記音響信号の所定区間をデジタル化して、所定数のサンプルで構成される音響フレームを獲得する音響フレーム獲得手段と、
前記各音響フレームのうち、奇数番目、偶数番目の一方をＡタイプ、他方をＢタイプとし、前記Ａタイプの音響フレームに対して第１窓関数を用いて周波数変換を行い、前記Ｂタイプの音響フレームに対して第２窓関数を用いて周波数変換を行い、前記第１窓関数に対応するスペクトルである第１窓スペクトル、前記第２窓関数に対応するスペクトルである第２窓スペクトルを得る周波数変換手段と、
前記生成された各窓スペクトルから抽出したスペクトル集合の強度値に対して、平均強度レベルを算出し、当該平均強度レベルを規定レベルに一致させるように変換倍率を算出し、前記各スペクトル集合の強度に前記変換倍率を乗じて振幅変換を施すとともに、前記振幅変換を施した各スペクトル集合の強度値に基づいて、埋め込まれていたビット値を抽出する符号化手段と、
前記抽出されたビット値をワード単位で所定の規則により変換して付加情報を抽出する付加情報抽出手段と、
を有することを特徴とする音響信号からの情報の抽出装置。
請求項１１において、
前記符号化手段は、生成された各窓スペクトルから所定の周波数範囲における互いに重複しない２つのスペクトル集合を抽出し、前記第１窓スペクトル、第２窓スペクトルから抽出した高周波側のスペクトル集合の強度値をＥ３、Ｅ４、低周波側のスペクトル集合の強度値をＥ１、Ｅ２とした場合に、Ｅ１とＥ４の積と、Ｅ２とＥ３の積との大小関係に基づいて、埋め込まれていたビット値を抽出するものであることを特徴とする音響信号からの情報の抽出装置。
請求項１２において、
前記符号化手段は、１未満の値を持つ係数ｑを用いて、前記スペクトル集合の強度値Ｅ１、Ｅ２、Ｅ３、Ｅ４を、当該各スペクトル集合に対応する直前の同タイプの音響フレームにおけるスペクトル集合の強度にｑ²を乗じた値と、タイプの別を問わない直前の音響フレームにおけるスペクトル集合の強度にｑを乗じた値を減じることにより補正して、強度値Ｅ１´、Ｅ２´、Ｅ３´、Ｅ４´を得て、Ｅ１´とＥ４´の積と、Ｅ２´とＥ３´の積との大小関係に基づいて補正ビット値を抽出し、前記Ｅ１とＥ４の積と、Ｅ２とＥ３の積との大小関係に基づいて抽出されたビット値と、補正ビット値のいずれか一方のビット値を選択するものであることを特徴とする音響信号からの情報の抽出装置。
請求項１２または請求項１３において、
前記符号化手段は、前記スペクトル集合の強度値Ｅ１、Ｅ２を算出するにあたり、所定の周波数未満のスペクトル強度を所定割合で減少させるものであることを特徴とする音響信号に対する情報の埋め込み装置。
請求項１１から請求項１４のいずれかにおいて、
前記付加情報抽出手段は、前記抽出されたビット値の集合が所定ビット数のビット配列となった場合に、当該ビット配列の後ろから所定数のビットを検査符号として用い、前記ビット配列中の検査符号以外のビットを基に算出される符号と前記検査符号を照合し、その判定結果が所定の状態である場合に、前記ビット配列中の検査符号以外の一部のビットを反転し、前記ビット配列中の検査符号以外の全てのビットを付加情報として出力することにより、付加情報を抽出するものであることを特徴とする音響信号からの情報の抽出装置。
請求項１１から請求項１５のいずれかにおいて、
前記音響フレーム獲得手段は、前記音響信号から、所定数のサンプルで構成される音響フレームを基準フレームとして獲得する基準フレーム獲得手段と、前記基準フレームと所定サンプルずつ移動させることにより位相を変更して設定される複数の音響フレームを位相変更フレームとして設定する位相変更フレーム設定手段により構成され、
前記符号化手段は、前記抽出したスペクトル集合に基づいて符号判定パラメータを算出するとともに、前記スペクトル集合を、当該スペクトル集合に対応する直前の同タイプの音響フレームにおけるスペクトル集合を利用して補正した補正スペクトル集合に基づいて補正符号判定パラメータを算出する符号判定パラメータ算出手段と、基準フレームが異なる過去の同位相の音響フレームにおいて算出された符号判定パラメータおよび補正符号判定パラメータのいずれかを選択し、当該選択した方の符号判定パラメータに基づいて、前記基準フレームおよび複数の位相変更フレームのうち１つの音響フレームを位相が最適なものであると判断し、当該最適な位相の音響フレームについて判断された前記符号判定パラメータに基づいて、所定の符号を出力する符号出力手段を有するものであることを特徴とする音響信号からの情報の抽出装置。
コンピュータを、請求項１１から請求項１６のいずれかに記載の音響信号からの情報の抽出装置として、機能させるためのプログラム。