JP5906659B2 - 音響信号に対する妨害信号の埋め込み装置 - Google Patents

音響信号に対する妨害信号の埋め込み装置 Download PDF

Info

Publication number
JP5906659B2
JP5906659B2 JP2011232068A JP2011232068A JP5906659B2 JP 5906659 B2 JP5906659 B2 JP 5906659B2 JP 2011232068 A JP2011232068 A JP 2011232068A JP 2011232068 A JP2011232068 A JP 2011232068A JP 5906659 B2 JP5906659 B2 JP 5906659B2
Authority
JP
Japan
Prior art keywords
spectrum
frequency
odd
frequency band
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011232068A
Other languages
English (en)
Other versions
JP2013088771A (ja
Inventor
茂出木 敏雄
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2011232068A priority Critical patent/JP5906659B2/ja
Publication of JP2013088771A publication Critical patent/JP2013088771A/ja
Application granted granted Critical
Publication of JP5906659B2 publication Critical patent/JP5906659B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

本発明は、CD・DVD・BD等を用いた民生・業務用途における鑑賞用のパッケージ音楽分野、および音楽コンテンツプロバイダー等が商業目的で配信するネットワーク音楽配信分野に関し、特に、音楽コンテンツのコピーを防止する技術に関する。
従来、音楽コンテンツの複製防止のため、様々な技術が開発されている。例えば、DRM(特許文献1参照)という方式では、デジタルの音楽コンテンツに暗号化を施すことにより音楽コンテンツの複製を防止している。しかし、DRM方式では、デジタルコンテンツのコピーを防止することは可能であるが、アナログコンテンツのコピーを防止することはできない。すなわち、再生信号をスピーカ出力よりラインまたはマイクロフォンで録音することにより複製可能となる。現状、最も大きな問題は、映画館やホールなどに小型ビデオカメラを持ち込み、スクリーンに映し出された映像とともに、スピーカから流れるサウンドトラックが収録され、無尽蔵にDVDが作成され商品(海賊版)として出荷されている例がある。近年の民生用ビデオカメラはHDTV対応になっておりBD並みの画質で記録が可能であるため、それをマスターにして複製されるDVDは商用品質を確保することが容易である。
特表2003−517767号公報 WO2011/002059 特開2008−256948号公報 特開2009−75332号公報
アナログコンテンツの複製を防止する手法としては、主として前述の海賊版DVD製造への対抗策として、映像信号については、不可視のコピー妨害信号を付加する技術が提案されている(特許文献2参照)。特許文献2に開示の手法では、コピー妨害信号として赤外線を用いているため、ヒトには不可視だが、ビデオカメラには映り込み、違法コピーを牽制することができる。しかし、コピー妨害信号はコンテンツ自体には埋め込むことができず、コピー妨害信号を発射する特殊なモジュールを装着したスクリーンやディスプレイでないと機能せず、業務用ビデオカメラや赤外カットフィルタを装着したカメラを用いるとコピー妨害信号の映り込みを回避できるという問題がある。また、映像のサウンドトラックの違法コピーに対しては全く無防備である。
一方、出願人は、音響信号に所定の改変を加えることにより、付加情報を聴取不能な状態で埋め込む技術を開発している。特に、ヒトの聴覚感度が高い周波数範囲においても、音脈分凝の原理により不快感なく付加情報の埋め込みを行う技術も提案している(特許文献3、4参照)。
そこで、本発明は、音響信号に所定の改変を加えることにより改変を加えた音響信号の再生時に聴取されないように妨害信号を埋め込み、改変を加えた音響信号の再生により発せられた音を録音された場合に、録音信号に妨害信号が残るようにし、かつ録音信号の再生時に妨害信号が聴取されるようにすることにより、原音と同等な品質で再生可能な状態での複製を防止することが可能な音響信号に対する妨害信号の埋め込み装置を提供することを課題とする。
上記課題を解決するため、本発明第1の態様では、時系列のサンプル列で構成される音響信号に対して、雑音を発する妨害信号および当該妨害信号による雑音を打ち消す補間信号を聴取不能な状態で埋め込み、埋め込まれた音響信号に対して周波数帯域幅を狭めて取得された場合に、前記埋め込まれた補間信号が欠落することにより、前記埋め込まれた妨害信号が聴取可能になるように埋め込む装置であって、前記音響信号より、所定数のサンプルを1つの音響フレームとして読み込む音響フレーム読込手段と、前記読み込んだ音響フレームのうち、奇数番目および偶数番目の双方の音響フレームに対して所定の窓関数を用いて周波数変換を行い、複素周波数成分である奇数窓スペクトルおよび偶数窓スペクトルを得る周波数変換手段と、前記生成された各奇数窓スペクトルおよび偶数窓スペクトルの第1の周波数範囲における互いに重複しない2つの周波数帯である第1上位周波数帯、第1下位周波数帯から、スペクトル集合を各々抽出し、奇数窓スペクトルの第1下位周波数帯に対応する第1下位奇数スペクトル集合と、偶数窓スペクトルの第1上位周波数帯に対応する第1上位偶数スペクトル集合を1つの組、奇数窓スペクトルの第1上位周波数帯に対応する第1上位奇数スペクトル集合と、偶数窓スペクトルの第1下位周波数帯に対応する第1下位偶数スペクトル集合を1つの組とし、一方の組の各スペクトル集合の強度を減弱させるように所定の1未満の係数を乗算するとともに、他方の組の各スペクトル集合の強度を増強させるように所定の1以上の係数を乗算することにより、第1上位奇数スペクトル集合、第1下位奇数スペクトル集合、第1上位偶数スペクトル集合、第1下位偶数スペクトル集合の各強度を変更するとともに、前記生成された各奇数窓スペクトルおよび偶数窓スペクトルにおける、前記第1の周波数範囲より低い第2の周波数範囲において互いに重複しない2つの周波数帯である第2上位周波数帯、第2下位周波数帯から、スペクトル集合を各々抽出し、奇数窓スペクトルの第2下位周波数帯に対応する第2下位奇数スペクトル集合と、偶数窓スペクトルの第2上位周波数帯に対応する第2上位偶数スペクトル集合を1つの組、奇数窓スペクトルの第2上位周波数帯に対応する第2上位奇数スペクトル集合と、偶数窓スペクトルの第2下位周波数帯に対応する第2下位偶数スペクトル集合を1つの組とし、一方の組の各スペクトル集合の強度を減弱させるように所定の1未満の係数を乗算するとともに、他方の組の各スペクトル集合の強度を増強させるように所定の1以上の係数を乗算することにより、第2上位奇数スペクトル集合、第2下位奇数スペクトル集合、第2上位偶数スペクトル集合、第2下位偶数スペクトル集合の各強度を変更する周波数成分変更手段と、前記周波数成分が変更された第1上位奇数スペクトル集合、第1下位奇数スペクトル集合、第2上位奇数スペクトル集合、第2下位奇数スペクトル集合を含む各奇数窓スペクトル、および前記周波数成分が変更された上位第1偶数スペクトル集合、第1下位偶数スペクトル集合、第2上位偶数スペクトル集合、第2下位偶数スペクトル集合を含む各偶数窓スペクトルに対して周波数逆変換を行って、改変音響フレームを生成する周波数逆変換手段と、前記生成された改変音響フレームを順次出力する改変音響フレーム出力手段と、を有し、前記第1上位周波数帯が、スピーカにより出力可能であって、マイクロフォン入力や音声圧縮処理により、前記第1下位周波数帯に比べて減衰する範囲に設定され、前記第2下位周波数帯が、スピーカにより出力可能であって、マイクロフォン入力や音声圧縮処理により、前記第2上位周波数帯に比べて減衰する周波数範囲に設定される音響信号に対する妨害信号の埋め込み装置を提供する。
本発明第1の態様によれば、音響信号において、奇数番目および偶数番目の音響フレームに対して周波数変換を行って、奇数窓スペクトルおよび偶数窓スペクトルを得て、第1の周波数範囲における互いに重複しない2つの周波数帯である第1上位周波数帯、第1下位周波数帯とし、奇数窓スペクトルの第1上位周波数帯に対応する第1上位奇数スペクトル集合と、偶数窓スペクトルの第1下位周波数帯に対応する第1下位偶数スペクトル集合を1つの組とし、一方の組の各スペクトル集合の強度を減弱させるように所定の1未満の係数を乗算するとともに、他方の組の各スペクトル集合の強度を増強させるように所定の1以上の係数を乗算するようにしたので、スピーカから発せられた音を人が聞いた場合には、音脈分凝により減弱されたスペクトル集合と増強されたスペクトル集合が時間軸方向に互いに補間され平坦化されるため、振幅のゆらぎ雑音は聞こえないが、第1上位周波数帯と第1下位周波数帯の間付近の周波数を録音上限周波数とする録音機器で、スピーカから発せられた音を録音した場合には、第1上位周波数帯のスペクトル集合が欠落し、第1下位周波数帯のスペクトル集合のみとなるため、音脈分凝が働かず平坦化されないため、再生時に1フレームごとに減弱または増強を繰り返す第1下位周波数帯のスペクトル集合による振幅ゆらぎ雑音が妨害音として再生されるため、原音と同等な品質で再生可能な状態での録音を防止することが可能になる。
また、本発明第1の態様によれば、第1の周波数範囲より低い第2の周波数範囲を設定し、第1の周波数範囲と同様に周波数成分を変更する処理を行うようにしたので、スピーカから発せられた音を人が聞いた場合には、音脈分凝により互いに補間されるため、雑音は聞こえないが、第2の周波数範囲における上位周波数帯と下位周波数帯の間付近の周波数を録音下限周波数とする録音機器で、スピーカから発せられた音を録音した場合には、第2下位周波数帯のスペクトル集合が欠落し、第2上位周波数帯のスペクトル集合のみとなるため、音脈分凝が働かず平坦化されないため、再生時に1フレームごとに減弱または増強を繰り返す第2上位周波数帯のスペクトル集合による振幅ゆらぎ雑音が妨害音として再生されるため、録音機器の下限周波数側においても原音と同等な品質で再生可能な状態での録音を防止することが可能になる。本発明第2の態様のように、高周波側の第1の周波数範囲と低周波側の第2の周波数範囲において妨害信号を埋め込むことにより、録音後再生した場合に高周波側、低周波側の双方において妨害信号に基づく雑音が発生される。また、録音機器の上限周波数または下限周波数が、高周波側、低周波側のどちらか一方の補間信号まで含んでしまう場合または妨害信号を含まない場合があっても、他方において妨害信号のみを含むような状況になれば、録音した音は正常な複製にはならず、複製を防止することが可能となる。
本発明第2の態様では、本発明第1の態様の音響信号に対する妨害信号の埋め込み装置において、前記第1上位周波数帯と第1下位周波数帯の境界は11kHz〜13kHzの範囲で設定され、前記第2上位周波数帯と第2下位周波数帯の境界は150Hz〜350Hzの範囲で設定されることを特徴とする。
本発明第3の態様では、時系列のサンプル列で構成される音響信号に対して、雑音を発する妨害信号および当該妨害信号による雑音を打ち消す補間信号を聴取不能な状態で埋め込み、埋め込まれた音響信号に対して周波数帯域幅を狭めて取得された場合に、前記埋め込まれた補間信号が欠落することにより、前記埋め込まれた妨害信号が聴取可能になるように埋め込む装置であって、前記音響信号より、所定数のサンプルを1つの音響フレームとして読み込む音響フレーム読込手段と、前記読み込んだ音響フレームのうち、奇数番目および偶数番目の双方の音響フレームに対して所定の窓関数を用いて周波数変換を行い、複素周波数成分である奇数窓スペクトルおよび偶数窓スペクトルを得る周波数変換手段と、前記生成された各奇数窓スペクトルおよび偶数窓スペクトルの第1の周波数範囲における互いに重複しない2つの周波数帯である第1上位周波数帯、第1下位周波数帯から、スペクトル集合を各々抽出し、奇数窓スペクトルの第1下位周波数帯に対応する第1下位奇数スペクトル集合と、偶数窓スペクトルの第1上位周波数帯に対応する第1上位偶数スペクトル集合を1つの組、奇数窓スペクトルの第1上位周波数帯に対応する第1上位奇数スペクトル集合と、偶数窓スペクトルの第1下位周波数帯に対応する第1下位偶数スペクトル集合を1つの組とし、一方の組の各スペクトル集合の強度を減弱させるように所定の1未満の係数を乗算するとともに、他方の組の各スペクトル集合の強度を増強させるように所定の1以上の係数を乗算することにより、第1上位奇数スペクトル集合、第1下位奇数スペクトル集合、第1上位偶数スペクトル集合、第1下位偶数スペクトル集合の各強度を変更するとともに、前記生成された各奇数窓スペクトル、偶数窓スペクトルのいずれか一方における、前記第1の周波数範囲より低い第2の周波数範囲において互いに重複しない2つの周波数帯である第2上位周波数帯、第2下位周波数帯から、スペクトル集合を各々抽出し、第2下位周波数帯に対応する第2下位スペクトル集合の各周波数成分の平均強度に所定の係数γを乗じたものを、第2上位周波数帯に対応する第2上位スペクトル集合の各周波数成分の強度に加算することにより、第2上位スペクトル集合の強度を変更する周波数成分変更手段と、前記周波数成分が変更された第1上位奇数スペクトル集合、第1下位奇数スペクトル集合を含む各奇数窓スペクトル、および前記周波数成分が変更された第1上位偶数スペクトル集合、第1下位偶数スペクトル集合を含む各偶数窓スペクトルに対して周波数逆変換を行って、改変音響フレームを生成する周波数逆変換手段と、前記生成された改変音響フレームを順次出力する改変音響フレーム出力手段と、を有することを特徴とする音響信号に対する妨害信号の埋め込み装置を提供する
本発明第3の態様によれば、第1の周波数範囲より低い第2の周波数範囲を設定し、第2の周波数範囲における互いに重複しない2つの周波数帯である第2上位周波数帯、第2下位周波数帯から、スペクトル集合を各々抽出し、第2下位周波数帯に対応する下位スペクトル集合の各周波数成分の平均強度に所定の係数γを乗じたものを、第2上位周波数帯に対応する上位スペクトル集合の各周波数成分の強度に加算するようにしたので、スピーカから発せられた音を人が聞いた場合には、下位スペクトル集合の各周波数成分をマスカーとして上位スペクトル集合の各周波数成分に加算された周波数成分に対して聴覚マスキングが働き、マスキーである上位スペクトル集合の各周波数成分に加算された周波数成分は聴取されなくなるため、加算された信号成分が雑音として聞こえないが、第2の周波数範囲における第2上位周波数帯と第2下位周波数帯の間付近の周波数を録音下限周波数とする録音機器で、スピーカから発せられた音を録音した場合には、マスカーである第2下位周波数帯のスペクトル集合が欠落し、マスキーである第2上位周波数帯のスペクトル集合のみとなるため、聴覚マスキングが働かず、再生時に1フレーム置きに上位周波数帯のスペクトル集合の周波数成分に加算された信号成分が雑音として聞こえ、妨害音として再生されるため、録音機器の下限周波数側においても原音と同等な品質で再生可能な状態での録音を防止することが可能になる。本発明第3の態様においても、本発明第の態様と同様、高周波側の第1の周波数範囲と低周波側の第2の周波数範囲において妨害信号を埋め込むことにより、録音後再生した場合に高周波側、低周波側の双方において妨害信号に基づく雑音が発生される。また、録音機器の上限周波数または下限周波数が、高周波側の補間信号まで含んでしまう場合または妨害信号を含まない場合があっても、あるいは低周波側の妨害信号より下方の周波数成分を含んでしまう場合または妨害信号を含まない場合があっても、他方において妨害信号のみを含むような状況になれば、録音した音は正常な複製にはならず、複製を防止することが可能となる。
本発明第4の態様では、本発明第1から第3のいずれかの態様の音響信号に対する妨害信号の埋め込み装置において、前記音響信号に対して、さらに付加情報を聴取不能な状態で埋め込む装置であって、前記周波数変換手段は、前記所定の窓関数として互いに異なる第1窓関数と第2窓関数を用い、奇数番目および偶数番目の音響フレームの一方に対しては第1窓関数を用いて周波数変換を行い、他方に対しては第2窓関数を用いて周波数変換を行うものであり、前記周波数成分変更手段は、前記生成された各奇数窓スペクトルおよび偶数窓スペクトルにおける、前記第1の周波数範囲、前記第2の周波数範囲のいずれとも重複しない第3の周波数範囲において互いに重複しない2つの周波数帯である第3上位周波数帯、第3下位周波数帯から、スペクトル集合を各々抽出し、奇数窓スペクトルの第3下位周波数帯に対応する第3下位奇数スペクトル集合と、偶数窓スペクトルの上位周波数帯に対応する第3上位偶数スペクトル集合を1つの組、奇数窓スペクトルの第3上位周波数帯に対応する第3上位奇数スペクトル集合と、偶数窓スペクトルの第3下位周波数帯に対応する第3下位偶数スペクトル集合を1つの組とし、埋め込むべきビット配列に基づいて、一方の組の各スペクトル集合の強度に対して相対的に大きい係数を乗じ、他方の組の各スペクトル集合の強度に対して相対的に小さい係数を乗じて、第3上位奇数スペクトル集合、第3下位奇数スペクトル集合、第3上位偶数スペクトル集合、第3下位偶数スペクトル集合の各強度を変更するものであることを特徴とする。
本発明第4の態様によれば、第1の周波数範囲より低い第3の周波数範囲を設定し、第3の周波数範囲における互いに重複しない2つの周波数帯である第3上位周波数帯、第3下位周波数帯から、スペクトル集合を各々抽出し、奇数窓スペクトルの第3下位周波数帯に対応する第3下位奇数スペクトル集合と、偶数窓スペクトルの第3上位周波数帯に対応する第3上位偶数スペクトル集合を1つの組、奇数窓スペクトルの第3上位周波数帯に対応する第3上位奇数スペクトル集合と、偶数窓スペクトルの第3下位周波数帯に対応する第3下位偶数スペクトル集合を1つの組とし、埋め込むべきビット配列に基づいて、一方の組の各スペクトル集合の強度に対して相対的に大きい係数を乗じ、他方の組の各スペクトル集合の強度に対して相対的に小さい係数を乗じて、第3上位奇数スペクトル集合、第3下位奇数スペクトル集合、第3位偶数スペクトル集合、第3下位偶数スペクトル集合の各強度を変更するようにしたので、スピーカから発せられた音を人が聞いた場合には、音脈分凝により互いに補間されるため、聴取不能であるが、周波数成分が識別し易い所定の状態に変更されているため、携帯電話(スマートフォンではなくフィーチャーフォン)など録音可能な上限周波数が低く下限周波数が高い帯域幅の狭い録音機器を抽出装置として使用した場合でも、埋め込まれた付加情報を抽出することができる。所定の周波数範囲において妨害信号および補間信号を埋め込んだ手法と同様の手法により周波数成分を変更するため、妨害信号の埋め込みと付加情報の埋め込みを一括して効率的に行うことが可能となる。また、同時に付加情報として著作権者情報を埋め込むことができ、万が一、第1の周波数範囲および第2の周波数範囲を完全に削除するような改変が行われても、コピー元を追跡することが可能となる。
本発明第5の態様では、本発明第1から第3のいずれかの態様の音響信号に対する妨害信号の埋め込み装置において、前記音響信号に対して、さらに付加情報を聴取不能な状態で埋め込む装置であって、前記周波数変換手段は、前記所定の窓関数として互いに異なる第1窓関数と第2窓関数を用い、奇数番目および偶数番目の音響フレームの一方に対しては第1窓関数を用いて周波数変換を行い、他方に対しては第2窓関数を用いて周波数変換を行うものであり、前記周波数成分変更手段は、前記生成された各奇数窓スペクトルおよび偶数窓スペクトルにおける、前記第1の周波数範囲、前記第2の周波数範囲のいずれとも重複しない第3の周波数範囲において互いに重複しない4つの周波数帯である最上位周波数帯、中上位周波数帯、中下位周波数帯、最下位周波数帯から、スペクトル集合を各々抽出し、中上位周波数帯以上においては、奇数窓スペクトルの中上位周波数帯に対応する中上位奇数スペクトル集合と、偶数窓スペクトルの最上位周波数帯に対応する最上位偶数スペクトル集合を1つの組、奇数窓スペクトルの最上位周波数帯に対応する最上位奇数スペクトル集合と、偶数窓スペクトルの中上位周波数帯に対応する中上位偶数スペクトル集合を1つの組とし、一方の組の各スペクトル集合の強度に対して相対的に大きい係数を乗じ、他方の組の各スペクトル集合の強度に対して相対的に小さい係数を乗じて、最上位奇数スペクトル集合、中上位奇数スペクトル集合、最上位偶数スペクトル集合、中上位偶数スペクトル集合の各強度を変更し、中下位周波数帯以下においては、奇数窓スペクトルの最下位周波数帯に対応する最下位奇数スペクトル集合と、偶数窓スペクトルの中下位周波数帯に対応する中下位偶数スペクトル集合を1つの組、奇数窓スペクトルの中下位周波数帯に対応する中下位奇数スペクトル集合と、偶数窓スペクトルの最下位周波数帯に対応する最下位偶数スペクトル集合を1つの組とし、一方の組の各スペクトル集合の強度に対して相対的に大きい係数を乗じ、他方の組の各スペクトル集合の強度に対して相対的に小さい係数を乗じて、中下位奇数スペクトル集合、最下位奇数スペクトル集合、中下位偶数スペクトル集合、最下位偶数スペクトル集合の各強度を変更するものであることを特徴とする。
本発明第5の態様によれば、第1の周波数範囲より低い第3の周波数範囲を設定し、互いに重複しない4つの周波数帯である最上位周波数帯、中上位周波数帯、中下位周波数帯、最下位周波数帯から、スペクトル集合を各々抽出し、中上位周波数帯以上においては、奇数窓スペクトルの中上位周波数帯に対応する中上位奇数スペクトル集合と、偶数窓スペクトルの最上位周波数帯に対応する最上位偶数スペクトル集合を1つの組、奇数窓スペクトルの最上位周波数帯に対応する最上位奇数スペクトル集合と、偶数窓スペクトルの中上位周波数帯に対応する中上位偶数スペクトル集合を1つの組とし、一方の組の各スペクトル集合の強度に対して相対的に大きい係数を乗じ、他方の組の各スペクトル集合の強度に対して相対的に小さい係数を乗じて、最上位奇数スペクトル集合、中上位奇数スペクトル集合、最上位偶数スペクトル集合、中上位偶数スペクトル集合の各強度を変更し、中下位周波数帯以下においては、奇数窓スペクトルの最下位周波数帯に対応する最下位奇数スペクトル集合と、偶数窓スペクトルの中下位周波数帯に対応する中下位偶数スペクトル集合を1つの組、奇数窓スペクトルの中下位周波数帯に対応する中下位奇数スペクトル集合と、偶数窓スペクトルの最下位周波数帯に対応する最下位偶数スペクトル集合を1つの組とし一方の組の各スペクトル集合の強度に対して相対的に大きい係数を乗じ、他方の組の各スペクトル集合の強度に対して相対的に小さい係数を乗じて、中下位奇数スペクトル集合、最下位奇数スペクトル集合、中下位偶数スペクトル集合、最下位偶数スペクトル集合の各強度を変更するようにしたので、スピーカから発せられた音を人が聞いた場合には、音脈分凝により互いに補間されるため、聴取不能であるが、周波数成分が識別し易い所定の状態に変更されているため、携帯電話(スマートフォンではなくフィーチャーフォン)など録音可能な上限周波数が低く下限周波数が高い帯域幅の狭い録音機器を抽出装置として使用した場合でも、埋め込まれた付加情報を抽出することができる。所定の周波数範囲において妨害信号および補間信号を埋め込んだ手法と同様の手法により周波数成分を変更するため、妨害信号の埋め込みと付加情報の埋め込みを一括して効率的に行うことが可能となる。第5の態様では、第4の態様に比べてより多くの周波数帯を用いているため、多くの情報を埋め込むことが可能になり、より安定して抽出することが可能になる。
本発明第6の態様では、本発明第4または第5の態様の音響信号に対する妨害信号の埋め込み装置において、前記第3の周波数範囲は850Hzから3.4kHzであり、スピーカにより出力可能であって、マイクロフォン入力や音声圧縮処理により減衰の少ない範囲に設定されていることを特徴とする。
本発明第6の態様によれば、第3の周波数範囲を850Hzから3.4kHzとし、スピーカにより出力可能であって、マイクロフォン入力や音声圧縮処理により減衰の少ない範囲に設定するようにしたので、携帯電話(スマートフォンではなくフィーチャーフォン)など抽出装置の感度領域が特別広いものでなくても、付加情報を抽出することが可能になる。
本発明第7の態様では、本発明第4または第5の態様の音響信号に対する妨害信号の埋め込み装置において、前記第1窓関数および第2窓関数は、前記1つの音響フレームのサンプル数をNとして、サンプル位置i(0≦i≦N−1)におけるにおける重みW(i)(0≦W(i)≦1)が、W(i)=0.5−0.5cos(2πi/N)で定義されるハニング窓関数を時間軸方向の中心N/2から非対称に2分割したものであり、前記第1窓関数は、前半分(0≦i≦N/2−1)に重みの最大値が存在し、前記第2窓関数は、後半分(N/2≦i≦N−1)に重みの最大値があることを特徴とする。
本発明第7の態様によれば、第1窓関数、第2窓関数として、ハニング窓関数を時間軸方向に非対称に分割したものを奇数番目、偶数番目の音響フレームに交互に用いるようにしたので、奇数番目、偶数番目の音響フレームで最大値をとる位置が異なり、奇数番目と偶数番目を互いに誤って認識しないようになり、高精度に付加情報を抽出可能になる。
本発明第8の態様では、本発明第から第7のいずれかの態様の音響信号に対する妨害信号の埋め込み装置において、前記第2の周波数範囲は20Hzから600Hzであり、前記第2下位周波数帯が、スピーカにより出力可能であって、マイクロフォン入力や音声圧縮処理により、前記第2上位周波数帯に比べて顕著に減衰する範囲に設定されることを特徴とする。
本発明第8の態様によれば、第2の周波数範囲を20Hzから600Hzとし、第2下位周波数帯が、スピーカにより出力可能であって、マイクロフォン入力や音声圧縮処理により、第2上位周波数帯に比べて顕著に減衰する範囲に設定するようにしたので、一般的な録音機器により録音した場合に、妨害信号のみが記録されることになる。
本発明第9の態様では、本発明第1から第3のいずれかの態様の音響信号に対する妨害信号の埋め込み装置において、前記所定の窓関数は、前記1つの音響フレームのサンプル数をNとして、サンプル位置i(0≦i≦N−1)における重みW(i)(0≦W(i)≦1)が、W(i)=0.5−0.5cos(2πi/N)で定義されるハニング窓関数であることを特徴とする。
本発明第9の態様によれば、所定の窓関数として、奇数番目、偶数番目の音響フレームいずれに対しても、共通のハニング窓関数を用いるようにしたので、妨害信号を埋め込む場合に、原信号に与えるダメージを低減でき、改変による再生品質への影響を抑えることが可能となる。
本発明第10の態様では、本発明第1から第9のいずれかの態様の音響信号に対する妨害信号の埋め込み装置において、前記第1の周波数範囲は4kHzから18kHzであり、前記第1上位周波数帯が、スピーカにより出力可能であって、マイクロフォン入力や音声圧縮処理により、前記第1下位周波数帯に比べて顕著に減衰する範囲に設定されることを特徴とする。
本発明第10の態様によれば、第1の周波数範囲を4kHzから18kHzとし、第1上位周波数帯が、スピーカにより出力可能であって、マイクロフォン入力や音声圧縮処理により、第1下位周波数帯に比べて顕著に減衰する範囲に設定するようにしたので、一般的な録音機器により録音した場合に、妨害信号のみが記録されることになる。
本発明によれば、音響信号に所定の改変を加えることにより改変を加えた音響信号の再生時に聴取されないように妨害信号を埋め込み、改変を加えた音響信号の再生により発せられた音を録音された場合に、録音信号に妨害信号が残るようにし、かつ録音信号の再生時に妨害信号が聴取されるようにすることにより、原音と同等な品質で再生可能な状態での複製を防止することが可能となる。
本発明の基本概念を説明するための図である。 人間の聴覚心理特性である音脈分凝の原理の説明図である。 埋め込み時の各音響フレームの強度変化の様子を示す図である。 本発明に係る音響信号に対する妨害信号の埋め込み装置のハードウェア構成図である。 音響信号に対する妨害信号の埋め込み装置の機能ブロック図である。 本発明で用いる時間方向窓関数を示す図である。 第1の周波数範囲における妨害信号・補間信号の埋め込みによる周波数成分の変化を示す図である。 第2の周波数範囲における音脈分凝に対応した妨害信号・補間信号の埋め込みによる周波数成分の変化を示す図である。 第2の周波数範囲における聴覚マスキングに対応した妨害信号の埋め込みによる周波数成分の変化を示す図である。 第3の周波数範囲における単一音脈分凝に対応した付加情報の埋め込みによる周波数成分の変化を示す図である。 第3の周波数範囲における二重音脈分凝に対応した付加情報の埋め込みによる周波数成分の変化を示す図である。 図5に示した装置の処理概要を示すフローチャートである。 第1の周波数範囲に音脈分凝、第2の周波数範囲に聴覚マスキングに対応した妨害信号の埋め込みを行った場合の周波数成分の変化を示す図である。 図13(b)に示した妨害信号・補間信号埋め込み後の音響信号を再生した場合の、人の聴取状態、録音機器で録音された音響信号を示す図である。
以下、本発明の実施形態について図面を参照して詳細に説明する。
(1.本発明の基本概念)
最初に、本発明の基本概念について説明しておく。本発明では、違法コピーにおいて利用が想定されるマイクロフォン等の録音機器の感度上限周波数付近または違法コピーにおいて利用が想定される音声・音楽非可逆圧縮ツールの符号化上限周波数付近の所定の周波数範囲に妨害信号を埋め込む。そして、好適な実施形態として、さらにマイクロフォン等の録音機器の感度下限周波数付近の所定の周波数範囲にも妨害信号を埋め込む。
図1は、本発明の基本概念を説明するための図である。図1(a)(b)(c)は、それぞれヒトの聴覚により取得された音、音響コンテンツ、録音機器により取得された音、の周波数範囲別の構成を示している。図1において左右方向は周波数を示し、左側が低周波、右側が高周波である。ヒトの聴覚の感度領域は20Hz〜20kHzであり、一般的な音響コンテンツ(音響信号)もヒトの聴覚の感度領域に合わせて20Hz〜20kHzで構成されている。違法コピーでの使用が想定されるボイスレコーダ・ビデオレコーダなど超小型の録音機器(スタジオ収録用の業務用録音機器等、感度領域が人の聴覚域に近いまたは聴覚域より広いものを除く)については、機器により若干のバラツキはあるが、大半の録音機器の感度領域は250Hz〜12kHzである。
後述する本発明の好適な一実施形態では、図1(b)に示すように、6kHz〜12kHzに妨害信号を埋め込み、12kHz〜18kHzに雑音補間信号を埋め込む。さらに、250Hz〜450Hzにも妨害信号を埋め込む。高域側の6kHz〜12kHzと、低域側の250Hz〜450Hzでは、高域側に合わせた同一の埋め込み手法をとることも可能であるが(ただし、図1の低域側と同一の埋め込み手法を高域側に適用することはできない)、より妨害雑音の再生効果を高めることが可能な好適な実施形態としては、図1に示すように異なる埋め込み手法を用いる方が良い。図1に示される例では、妨害信号を埋め込む手法が異なり、妨害信号の状態も異なったものとなる。高域側では、音脈分凝の原理を利用して妨害信号と雑音補間信号を埋め込み、低域側では、聴覚マスキングが働くように妨害信号を埋め込む。
図1(b)に示したような音響コンテンツが再生されると、高域側においては、12kHz〜18kHzに記録された雑音補間信号から出る音と、6kHz〜12kHzに記録された妨害信号から出る音との間でヒト聴覚系(大脳聴覚野)で音脈分凝が働き、上下2パートの音脈が流れていると判断され、双方において加えられている時間軸方向の振幅変化を補間し、平坦な流れとして聴取されるようになる。これが音脈分凝の原理である。また、低域側においては、250Hz以下に記録された正規の音がマスカーとして、250Hz〜450Hzに記録された妨害信号から出る音をマスキーとしてかき消す。これがヒト聴覚系(内耳の蝸牛)で働く聴覚マスキングの原理である。この結果、高域側においても低域側においても、ヒトの耳には、妨害信号が聞こえなくなり、本来の音響コンテンツを聴くことが可能となる。
図1(b)に示したような音響コンテンツ(音響信号)を、感度領域が250Hz〜12kHzの一般的な録音機器で録音すると、図1(c)に示すように、250Hz〜12kHzの範囲の音響信号として録音される。図1(c)に示したような音響信号を再生すると、高域側においては、雑音補間信号が存在しないため、ヒト聴覚系(大脳聴覚野)の音脈分凝が働かなくなり、下側の単一パートの音脈において加えられている時間軸方向の振幅変化がそのまま聴取されるようになり、妨害信号が出力される。また、低域側においても、聴覚マスキングを働かせるためのマスカー音が存在しないため、マスキー音である妨害信号がそのまま聴取される。その結果、ヒトの聴覚系には、高域側・低域側双方の妨害信号が聞こえることになり、一般的な録音機器では、原音と同等な品質を保つ複製という意味での録音が不可能となる。
(1.2.音脈分凝の原理)
次に、音脈分凝の原理について説明しておく。本発明では、人間の聴覚心理特性である音脈分凝の原理を利用する。音脈分凝とは、時系列に高い音と低い音が交互に進行するパターンに対して、人間が、あたかも高低2つのトラックが連続して流れるように音を補間して聞いてしまう錯覚現象である。
たとえば、図2(a)に示すように、3つの低い音である低音1、低音3、低音5と3つの高い音である高音2、高音4、高音6が、低音1、高音2、低音3、高音4、低音5、高音6の順に演奏されている場合を考えてみる。低音1、低音3、低音5と高音2、高音4、高音6は1オクターブ程度離れており、低い音と高い音は同時に演奏されることはないが、時間的間隔は、ほぼ連続しているものとする。この場合、人間には、図2(b)に示すように、低い音と高い音が演奏されていない部分も補間されて演奏されているように聞こえる。すなわち、実際の演奏は単旋律であるのに、人間には、図2(b)に示すように、高音1´、高音3´、高音5´、低音2´、低音4´、低音6´が補間されて複旋律であるように聞こえる。例えば、高音3´は高音2と高音4が連続的につながるように、高音2と高音4の平均的な成分に聞こえる。また、末端部の高音1´と低音6´についても、隣接する高音2と低音5に近い成分で、各々低音1と高音6に対応するように聞こえる。しかし、マイクロフォン等の電気音響装置は、図2(a)に示したものをそのままの音として取得することになる。本発明および特許文献3、4の発明は、このような性質を利用するのである。なお、補間された音は、心理的な錯覚現象であるため定量的に計測することは困難であるが、前後に演奏されている音と必ずしも同じレベルに補間されて聴こえるのではなく、大雑把に言って、前後に演奏されている音の50%程度があたかも補間されているように聞こえる。特許文献3、4に記載の発明では、この音脈分凝の原理を利用して付加情報の埋め込みを行っている。
本発明および特許文献3、4に記載の発明のいずれにおいても、音響信号をサンプリングすることにより得られた所定数のサンプルを1音響フレームとして、処理を行う。先頭から奇数番目と偶数番目の音響フレームは、互いに半分のサンプルを重複する形で設定される。ここで、特許文献3の発明における埋め込み時の各音響フレームの強度変化の様子を図3に示す。ステレオ音響信号の場合は、L-ch(左チャンネル)、R-ch(右チャンネル)とも同様に処理が行われるが、図3においては、L-ch(左チャンネル)のみを示している。また、u、dはそれぞれ相対的に高周波、低周波成分を示し、1〜6は先頭からの音響フレームの順番を示している。したがって、図3の例では、6個の音響フレームを示しており、例えば、“Uu1”は、1番目の音響フレームの高周波側成分を示していることになる。また、奇数番目と偶数番目の音響フレームは、実際に半分のサンプルが重複して設定されるが、図3では、説明の便宜上独立した形態で示している。また、図3において、“Uu1”等の各周波数成分の文字の大きさは、相対的な強度の大小を示している。
図3においては、図3(a)は元の音響信号を示しており、図3(b)は埋め込み処理後の音響信号を示している。特許文献3に記載の発明では、奇数番目の音響フレームの高周波側と低周波側の成分強度の大小関係と、偶数番目の音響フレームの高周波側と低周波側の成分強度の大小関係が逆転するように処理を行う。奇数番目と偶数番目のどちらの音響フレームの高周波側を大きくするかによって、埋め込むビット値を変化させることができる。図3の例では、偶数番目の音響フレームの高周波側を大きくすることにより“0”、奇数番目の音響フレームの高周波側を大きくすることにより“1”を埋め込むことを示している。したがって、元の音響信号に“010”という3ビットの情報を埋め込んだ場合、音響フレームの状態は、図3(b)に示すように変化する。
特許文献3、4に記載の発明では、奇数番目と偶数番目の音響フレームで高周波側の強度と低周波側の強度を逆転させるので、図3(b)に示すように、2音響フレーム単位で見た場合、高周波側にも低周波側にも必ず信号強度の強い部分が交互に存在する。このため、音脈分凝の原理により、人間には、音が途切れたようには聞こえないが、抽出装置では、その明確な変化を認識することができる。
(2.1.埋め込み装置の構成)
次に、本発明に係る音響信号に対する妨害信号の埋め込み装置について説明する。図4は、本発明に係る音響信号に対する妨害信号の埋め込み装置のハードウェア構成図である。音響信号に対する妨害信号の埋め込み装置は、汎用のコンピュータで実現することができ、図4に示すように、CPU1(CPU: Central Processing Unit)と、コンピュータのメインメモリであるRAM2(RAM: Random Access Memory)と、CPU1が実行するプログラムやデータを記憶するための大容量の記憶装置3(例えば、ハードディスク、フラッシュメモリ等)と、キーボード、マウス等のキー入力I/F(インターフェース)4と、外部装置(データ記憶媒体等)とデータ通信するためのデータ入出力I/F(インターフェース)5と、表示装置(ディスプレイ)に情報を送出するための表示出力I/F(インターフェース)6と、を備え、互いにバスを介して接続されている。
図5は、本発明に係る音響信号に対する妨害信号の埋め込み装置の構成を示す機能ブロック図である。図5において、10は音響フレーム読込手段、20は周波数変換手段、30は周波数成分変更手段、40は周波数逆変換手段、50は改変音響フレーム出力手段、60は記憶手段、61は音響信号記憶部、62は付加情報記憶部、63は改変音響信号記憶部、70はビット配列作成手段、である。なお、図5に示す装置は、ステレオ音響信号、モノラル音響信号の両方に対応可能であるが、ここでは、ステレオ音響信号に対して処理を行う場合について説明していく。
音響フレーム読込手段10は、付加情報の埋め込み対象とする元のステレオ音響信号の各チャンネルから所定数のサンプルを1フレームとして読み込む機能を有している。周波数変換手段20は、音響フレーム読込手段10が読み込んだ音響信号のフレームをフーリエ変換等により周波数変換して複素数のスペクトルを生成する機能を有している。周波数成分変更手段30は、生成されたスペクトルから第1の周波数範囲、第2の周波数範囲に相当するスペクトル集合を複数抽出し、妨害信号および補間信号を埋め込むように、スペクトル集合の状態を変更する機能を有している。このとき、スペクトル集合の状態を変更する規則は1フレームごとに画一的に行われるが、付加情報を埋め込む場合は、埋め込むビット配列に基づいて変化する。付加情報を埋め込む場合には、さらに第3の周波数範囲に相当するスペクトル集合を複数抽出し、付加情報記憶部62から抽出した付加情報よりビット配列作成手段70が作成したビット配列に基づいて、スペクトル集合の状態を変更する機能を有している。周波数逆変換手段40は、変更されたスペクトル集合を含む複数の複素数のスペクトルに対して周波数逆変換を行うことにより、改変前の音響フレームの位相を維持しながら改変音響フレームを生成する機能を有している。改変音響フレーム出力手段50は、生成された改変音響フレームを順次出力する機能を有している。
記憶手段60は、妨害信号、補間信号、付加情報を埋め込む対象とするステレオ音響信号を記憶した音響信号記憶部61と、ビット列として構成され、ステレオ音響信号に埋め込まれる付加情報を記憶した付加情報記憶部62と、妨害信号、補間信号、付加情報埋め込み後の改変音響信号を記憶する改変音響信号記憶部63を有しており、その他処理に必要な各種情報を記憶するものである。ビット配列作成手段70は、付加情報記憶部62から付加情報を抽出し、付加情報の各ワードについて、対応するビット配列を作成する機能を有している。
なお、付加情報とは、音響情報に付加して埋め込むべき情報であり、タイトルやアーティスト名等の属性情報、および属性情報以外の他の情報を含むものである。図5に示した各構成手段は、現実には図4に示したように、コンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。
図4の記憶装置3には、CPU1を動作させ、コンピュータを、音響信号に対する妨害信号の埋め込み装置として機能させるための専用のプログラムが実装されている。この専用のプログラムを実行することにより、CPU1は、音響フレーム読込手段10、周波数変換手段20、周波数成分変更手段30、周波数逆変換手段40、改変音響フレーム出力手段50、記憶手段60、音響信号記憶部61、付加情報記憶部62、改変音響信号記憶部63、ビット配列作成手段70としての機能を実現することになる。また、記憶装置3は、処理に必要な様々なデータを記憶する。
(2.2.埋め込み装置の処理動作)
(2.2.1.周波数変換)
次に、図5に示した音響信号に対する妨害信号の埋め込み装置の処理動作について説明する。音響フレーム読込手段10は、音響信号記憶部61に記憶されたステレオ音響信号の左右の各チャンネルから、それぞれ所定数Nのサンプルを1音響フレームとして読み込む。音響フレーム読込手段10が読み込む1音響フレームのサンプル数Nは、適宜設定することができるが、設定値により妨害雑音の聴取具合、音脈分凝の働き方、埋め込み可能な付加情報の容量、付加情報の抽出精度が変化する。サンプリング周波数が44.1kHzの場合、4096サンプル程度とすると、最も原音に対するダメージを少なくできることが分かっているので、以下この設定値で説明する。(実用的には音脈分凝が最も働きやすい2048サンプルに設定することが多い。)したがって、音響フレーム読込手段10は、左チャンネル、右チャンネルについてそれぞれ4096サンプルずつ、順次音響フレームとして読み込んでいくことになる。
本発明では、奇数番目の音響フレームと、偶数番目の音響フレームに対して異なった処理を行う。また、奇数番目の音響フレーム、偶数番目の音響フレームは、互いに所定数(本実施形態では2048)のサンプルを重複して設定される。したがって、奇数番目の音響フレームを先頭からA1、A2、A3…とし、偶数番目の音響フレームを先頭からB1、B2、B3…とすると、A1はサンプル1〜4096、A2はサンプル4097〜8192、A3はサンプル8193〜12288、B1はサンプル2049〜6144、B2はサンプル6145〜10240、B3はサンプル10241〜14336となる。なお、奇数番目と偶数番目は相対的なものであるので、奇数番目と偶数番目に対して異なる処理が行われれば良い。すなわち、交互に異なる処理が行われれば良い。例えば、後述する処理において、奇数番目には第1窓関数、偶数番目には第2窓関数が用いられるが、逆であっても良い。したがって、偶数番目の音響フレームから処理を行うようにしても良いが、以下では、奇数番目の音響フレームから処理を行う場合を例にとって説明する。
周波数変換手段20は、振幅変換後の音響フレームに対して周波数変換を行って、その音響フレームの複素数のスペクトルを得る。具体的には、窓関数を利用して周波数変換を行う。周波数変換としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができるが、複素数のスペクトルを得られる手法である必要がある。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。
一般に、所定の信号に対してフーリエ変換を行う場合、信号を所定の長さに区切って行う必要があるが、この場合、所定長さの信号に対してそのままフーリエ変換を行うと、擬似高調波成分が発生する。そこで、一般にフーリエ変換を行う場合には、ハニング窓と呼ばれる窓関数を用いて、信号の値を変化させた後、変化後の値に対してフーリエ変換を実行する。
本実施形態においても、窓関数を利用しているが、奇数番目の音響フレーム、偶数番目の音響フレームで、使用する窓関数を分けている。本実施形態では、図6(a)(b)に示したような第1窓関数W(1,i)、第2窓関数W(2,i)を用意し、抽出側で認識し易いようにした。第1窓関数W(1,i)は、奇数番目の音響フレームに対して用いるためのものであり、図6(a)に示すように所定のサンプル番号iの位置において、最大値1をとり、後部においては、最小値0をとるように設定されている。どのサンプル番号の場合に最大値をとるかについては、第1窓関数W(1,i)の設計によって異なってくるが、本実施形態では、後述する〔数式1〕で定義される。奇数番目の音響フレームについてのフーリエ変換は、この第1窓関数W(1,i)を乗じたものに対して行われることになる。
また、第2窓関数W(2,i)は、偶数番目の音響フレームに対して用いるためのものであり、図6(b)に示すように、所定のサンプル番号iの位置において、最大値1をとり、前部においては、最小値0をとるように設定されている。どのサンプル番号の場合に最大値をとるかについては、第2窓関数W(2,i)の設計によって異なってくるが、本実施形態では、後述する〔数式2〕で定義される。偶数番目の音響フレームについてのフーリエ変換は、この第2窓関数W(2,i)を乗じたものに対して行われることになる。
なお、上述のように、本実施形態においては、音響フレームは重複して読み込まれる。すなわち、奇数番目の音響フレームと偶数番目の音響フレームは、所定数のサンプルを重複して読み込む。上記のように、奇数番目の音響フレームと偶数番目の音響フレームでは、用いられる窓関数が異なるが、奇数番目の音響フレームと偶数番目の音響フレームは単に奇数か偶数かの違いだけであるため、どちらに対してどちらの処理を行っても良い。
本実施形態では、窓関数W(1,i)、W(2,i)は、以下の〔数式1〕〔数式2〕で定義される。なお、図6において、横軸は時間軸(i)である。iは、後述するように、各音響フレーム内のN個のサンプルに付した通し番号であるため時刻tに比例している。また、図6(a)(b)において縦軸は信号の振幅値(レベル)を示す。図6(a)(b)において縦軸は窓関数W(1,i)、W(2,i)の値を示しており、W(1,i)、W(2,i)の最大値はいずれも1である。
〔数式1〕
i≦N/8のとき、W(1,i)=0.0
N/8<i≦3N/8のとき、W(1,i)=0.5−0.5cos(4π(i−N/8)/N)
3N/8<i≦11N/16のとき、W(1,i)=1.0
11N/16<i≦13N/16のとき、W(1,i)=0.5+0.5cos(8π(i−11N/16)/N)
i>13N/16のとき、W(1,i)=0.0
〔数式2〕
i≦3N/16のとき、W(2,i)=0.0
3N/16<i≦5N/16のとき、W(2,i)=0.5−0.5cos(8π(i−3N/16)/N)
5N/16<i≦5N/8のとき、W(2,i)=1.0
5N/8<i≦7N/8のとき、W(2,i)=0.5+0.5cos(4π(i−5N/8)/N)
i>7N/8のとき、W(2,i)=0.0
なお、図6および上記〔数式1〕〔数式2〕から明らかなように、窓関数W(1,i)とW(2,i)は、互いに非対称な形状である。これは、抽出側において、両者の識別を容易にするためである。
本発明においては、奇数番目の音響フレームと偶数番目の音響フレームを、所定サンプルずつ重複して読み込むため、情報の埋め込みを行った後、音響信号に復元する際に、窓関数を乗じた奇数番目の音響フレームと、窓関数を乗じた偶数番目の音響フレームの重複サンプルを加算した場合に、ほぼ元の値に戻るようにしなければならない。このため、奇数番目の音響フレームと偶数番目の音響フレームの重複部分において、窓関数W(1,i)、W(2,i)を加算すると、全区間固定値1になるように定義されている。
付加情報を埋め込まず、妨害信号および補間信号の埋め込みのみを行う場合には、以降の処理において、W(1,i)=W(2,i)=W(i)=0.5−0.5cos(2πi/N)で定義される窓関数W(i)を奇数番目の音響フレーム、偶数番目の音響フレーム双方に適用する。
周波数変換手段20が、奇数番目の音響フレームに対してフーリエ変換を行う場合は、左チャンネル信号Xl(i)、右チャンネル信号Xr(i)(i=0,…,N−1)に対して、第1窓関数W(1,i)を用いて、以下の〔数式3〕に従った処理を行い、左チャンネルに対応する変換データの実部Al(1,j)、虚部Bl(1,j)、右チャンネルに対応する変換データの実部Ar(1,j)、虚部Br(1,j)を得る。
〔数式3〕
Al(1,j)=Σi=0,…,N-1W(1,i)・Xl(i)・cos(2πij/N)
Bl(1,j)=Σi=0,…,N-1W(1,i)・Xl(i)・sin(2πij/N)
Ar(1,j)=Σi=0,…,N-1W(1,i)・Xr(i)・cos(2πij/N)
Br(1,j)=Σi=0,…,N-1W(1,i)・Xr(i)・sin(2πij/N)
周波数変換手段20が、偶数番目の音響フレームに対してフーリエ変換を行う場合は、左チャンネル信号Xl(i+N/2)、右チャンネル信号Xr(i+N/2)(i=0,…,N−1)に対して、第2窓関数W(2,i)を用いて、以下の〔数式4〕に従った処理を行い、左チャンネルに対応する変換データの実部Al(2,j)、虚部Bl(2,j)、右チャンネルに対応する変換データの実部Ar(2,j)、虚部Br(2,j)を得る。
〔数式4〕
Al(2,j)=Σi=0,…,N-1W(2,i)・Xl(i+N/2)・cos(2πij/N)
Bl(2,j)=Σi=0,…,N-1W(2,i)・Xl(i+N/2)・sin(2πij/N)
Ar(2,j)=Σi=0,…,N-1W(2,i)・Xr(i+N/2)・cos(2πij/N)
Br(2,j)=Σi=0,…,N-1W(2,i)・Xr(i+N/2)・sin(2πij/N)
上記〔数式3〕〔数式4〕において、iは、各音響フレーム内のN個のサンプルに付した通し番号であり、i=0,1,2,…N−1の整数値をとる。また、jは周波数の値について、値の小さなものから順に付した通し番号であり、iと同様にj=0,1,2,…N/2−1の整数値をとる。サンプリング周波数が44.1kHz、N=4096の場合、jの値が1つ異なると、周波数が10.8Hz異なることになる。
上記〔数式3〕〔数式4〕に従った処理を実行することにより、各音響フレームの各窓関数に対応するスペクトルが得られる。続いて、周波数成分変更手段30が、生成されたスペクトルから所定周波数範囲のスペクトル集合を抽出する。本実施形態では、第1の周波数範囲、第2の周波数範囲、第3の周波数範囲のものを抽出する。
(2.2.2.振幅変換)
同時に付加情報の埋め込みを行う場合には、周波数変換手段20は、周波数変換を実行した後に、各スペクトル集合の平均値が設定値になるように変換する。いわゆる振幅を変換する処理を行う。この振幅変換は、各フレームごとのレベル差を軽減し、適切な情報の埋め込みが可能になるようにすることを目的としているため、設定値Yoとしては適宜設定することができる。逆に、妨害信号の埋め込みのみを行う場合には、原信号へのダメージを大きくするだけのデメリットしかないため、本振幅変換を行わない。
周波数変換手段20は、得られたスペクトル集合に対して、振幅変換を行うにあたり、まず変換倍率の算出を行う。変換倍率の算出は、所定周波数範囲のスペクトル集合の実効強度値の平均である平均実効値で上記設定値を除算することにより行う。具体的には、Lチャンネルの奇数番目の音響フレーム、偶数番目の音響フレーム、Rチャンネルの奇数番目の音響フレーム、偶数番目の音響フレームのスペクトル集合についての変換倍率Yl(1)、Yl(2)、Yr(1)、Yr(2)は、以下の〔数式5〕に従った処理により算出される。対象音響フレームが無音に近く、分母の二乗総和値が所定の値に満たない場合は、変換倍率を1.0に設定し、振幅変換は行わないようにする。振幅変換が実行されることにより、全ての音響フレームは、元の状態における信号強度に関わらず、各音響フレームのスペクトル集合の平均実効値が設定値となるように振幅変換された状態で、情報の埋め込みが行われることになる。
〔数式5〕
Yl(1)=Yo/[Σj=m,…,M-1{Al(1,j)2+Bl(1,j)2}]1/2
Yl(2)=Yo/[Σj=m,…,M-1{Al(2,j)2+Bl(2,j)2}]1/2
Yr(1)=Yo/[Σj=m,…,M-1{Ar(1,j)2+Br(1,j)2}]1/2
Yr(2)=Yo/[Σj=m,…,M-1{Ar(2,j)2+Br(2,j)2}]1/2
上記〔数式5〕において、mおよびMは後述する付加情報埋め込みのための第3の周波数範囲の下限および上限で、Yo=M−mであり、本実施形態では、Yo=240である。
さらに、j=m,…,M−1(後述する周波数F3D,...,F3Hに相当)の範囲で、Al(1,j)およびBl(1,j)の各々の要素に対してYl(1)を乗じ、Al(2,j)およびBl(2,j)の各々の要素に対してYl(2)を乗じ、Ar(1,j)およびBr(1,j)の各々の要素に対してYr(1)を乗じ、Ar(2,j)およびBr(2,j)の各々の要素に対してYr(2)を乗じることにより、振幅変換を行う。以下説明において、Al(1,j)、Bl(1,j)、Al(2,j)、Bl(2,j)、Ar(1,j)、Br(1,j)、Ar(2,j)、Br(2,j)はこれらの振幅変換を行った値とする。
(2.2.3.高周波成分の変換(音脈分凝))
周波数成分変更手段30は、妨害信号を埋め込むため、奇数番目および偶数番目の音響フレームについて、均一な規則で比較的高域に位置する所定周波数成分の強度を変更する処理を行う。
具体的には、埋め込み装置で、音響信号から抽出した所定数のサンプルで構成される音響フレーム内の所定周波数範囲の周波数成分を変更するに際し、その強弱が音脈分凝を発生させるような状態に変更する。これにより、人間には、音の振幅ゆらぎ雑音が聞こえないが、変更された周波数成分のうち、低い方の周波数成分のみを抽出して録音した場合には、再生すると妨害信号による振幅ゆらぎ雑音が発生することになる。
本実施形態では、音脈分凝の原理を利用して、音響フレームの第1の周波数範囲の成分を変更し、妨害信号および補間信号を埋め込むようにしている。ここで、埋め込み処理の前後における音響フレームの所定周波数成分の変化の状態について説明する。図7に、本実施形態による奇数番目、偶数番目のLチャンネル1音響フレームの第1の周波数範囲における周波数成分の状態を示す。Rチャンネルについては、Lチャンネルと同様であるので省略してある。図7に示す各音響フレームにおいて、横軸は時間方向、縦軸は周波数方向を示している。
図7においては、縦軸の周波数方向において、周波数領域が4つに区分されているが、上から2番目、3番目の領域、すなわち、周波数F1D以上F1H未満の間が変更対象となる第1の周波数範囲であり、最上部すなわち周波数F1H超、最下部すなわちF1D未満は、変更対象でない周波数範囲である。なお、ここでいう「変更対象でない」とは、音脈分凝の原理を利用した妨害信号および補間信号の埋め込みのための変更対象でないということであり、F1D未満の周波数帯においては、後述するように、付加情報の埋め込みや低周波数帯における妨害信号の埋め込みを行う場合もある。本実施形態では、周波数F1D以上F1H未満を第1の周波数範囲として、スペクトル集合の強度を変更することになる。第1の周波数範囲のうち、周波数F1M以上を上位周波数帯、周波数F1Mより下を下位周波数帯として区別する。図7(a)に示すように、奇数番目の音響フレームの変更対象周波数帯については、周波数が低い順に、そのスペクトル集合をk1L、k1Hで表現することとする。また、図7(b)に示すように、偶数番目の音響フレームの変更対象周波数帯については、周波数が低い順に、そのスペクトル集合をg1L、g1Hで表現することとする。
妨害信号および補間信号を埋め込む場合、図7(c)(d)に示すように、上位周波数帯におけるスペクトル集合k1H、g1Lそれぞれの強度を相対的に強い状態に変更し、下位周波数帯におけるスペクトル集合k1L、g1Hそれぞれの強度を相対的に弱い状態に変更する。図7においては、網掛けの色が濃い方が相対的に強度が強い状態に変更されるスペクトル集合を示している。
図7に示すように、本発明では、奇数番目、偶数番目の音響フレームの上位周波数帯、下位周波数帯におけるスペクトル集合の強度を交互に強弱が逆転するように変更する。これを全ての音響フレームに対して実行することにより、図2(a)に示したように、低音と高音が交互に入れ替わる状態が実現でき、これを再生すると、図2(b)に示したように、音脈分凝が発生する。
本実施形態では、上記第1の周波数範囲の下限F1D、中間F1M、上限F1Hを、それぞれ6kHz、12kHz、18kHzに設定する。これは、一般的な録音機器が取得可能な高周波の上限が12kHzであるためである。したがって、中間F1Mは、一般的な録音機器の感度領域上限に位置する範囲で設定することができる(例えば、11kHz〜13kHz)。音声・音楽非可逆圧縮ツールによる複製を防ぐためには、その再サンプリング周波数に合わせて設定しておくことができる。例えばMPEG−1/Layer3方式による複製を防ぐためには、再サンプリング周波数24または32kHzに合わせて、中間F1Mを12kHzまたは16kHzに設定しておくことが望ましい。妨害信号および補間信号が埋め込まれた音響信号を再生したものを、一般的な録音機器で録音したり、非可逆圧縮を行ったりした場合、妨害信号のみが記録されることになり、録音または圧縮された音響信号を再生すると、妨害信号に基づく騒音が再生されることになる。また、下限F1Dとしては、4kHz程度まで下げて設定することも可能である。妨害信号を埋め込む下位周波数帯を幅広く確保できることが望ましいが、4kHz未満になると記録されている音楽や音声の周波数領域と重複してしまうためである。なお、6kHz、12kHz、18kHzという値は、画一的に設定することは難しく、再生環境、再生時に使用されるスピーカ、録音に使用されることが想定される録音機器によって調整する必要があるため、必ずしも固定の値である必要はなく、適宜変更した値であっても良い。
下位周波数帯におけるスペクトル集合k1L、g1Lの強度の変更は、j=D1,・・・,M1−1の各周波数成分Al(1,j)、Bl(1,j)、Al(2,j)、Bl(2,j)、Ar(1,j)、Br(1,j)、Ar(2,j)、Br(2,j)に対して、以下の〔数式6〕に従った処理を実行することにより行う。本実施形態では、D1=556、M1=1111に設定し、約6kHz〜約12kHzの周波数成分の強度を変更する。
〔数式6〕
Al´(1,j)←Al(1,j)・γl
Bl´(1,j)←Bl(1,j)・γl
Al´(2,j)←Al(2,j)・γh
Bl´(2,j)←Bl(2,j)・γh
Ar´(1,j)←Ar(1,j)・γl
Br´(1,j)←Br(1,j)・γl
Ar´(2,j)←Ar(2,j)・γh
Br´(2,j)←Br(2,j)・γh
また、上位周波数帯におけるスペクトル集合k1H、g1Hの強度の変更は、j=M1,・・・,H1−1の各周波数成分Al(1,j)、Bl(1,j)、Al(2,j)、Bl(2,j)、Ar(1,j)、Br(1,j)、Ar(2,j)、Br(2,j)に対して、以下の〔数式7〕に従った処理を実行することにより行う。本実施形態では、M1=1111、H1=1667に設定し、約12kHz〜約18kHzの周波数成分の強度を変更する。
〔数式7〕
Al´(1,j)←Al(1,j)・γh
Bl´(1,j)←Bl(1,j)・γh
Al´(2,j)←Al(2,j)・γl
Bl´(2,j)←Bl(2,j)・γl
Ar´(1,j)←Ar(1,j)・γh
Br´(1,j)←Br(1,j)・γh
Ar´(2,j)←Ar(2,j)・γl
Br´(2,j)←Br(2,j)・γl
上記〔数式6〕〔数式7〕において、γh、γlは、それぞれγh>1、0<γl<1を満たす実数であり、その範囲内で適宜設定可能であるが、本実施形態では、γh=2.0、γl=0.5に設定してある。従って、強くされる周波数成分は2倍に、弱くされる周波数成分は1/2に変更されることになる。
(2.2.4.低周波成分の変換(音脈分凝))
周波数成分変更手段30は、低周波成分にも妨害信号を埋め込むことが可能である。低周波成分に妨害信号を埋め込むためには、上記(2.2.3.高周波成分の変換(音脈分凝))において説明した処理と同様の処理を低周波成分に対して実行し、比較的低域に位置する所定周波数成分の割合を変更する。
図8に、本実施形態による奇数番目、偶数番目のLチャンネル1音響フレームの第2の周波数範囲における周波数成分の状態を示す。図7と同様、Rチャンネルについては、Lチャンネルと同様であるので省略してある。図8に示す各音響フレームにおいて、横軸は時間方向、縦軸は周波数方向を示している。
図8においては、縦軸の周波数方向において、周波数領域が4つに区分されているが、上から2番目、3番目の領域、すなわち、周波数F2D以上F2H未満の間が変更対象となる第2の周波数範囲であり、最下部すなわちF2D未満は、変更対象でない周波数帯である。図7を用いて説明したように、F2Hより高い高周波成分においては、並行して周波数成分の変更が行われる。本実施形態では、周波数F2D以上F2H未満においても、スペクトル集合の強度を変更することになる。第2の周波数範囲のうち、周波数F1M以上を第2上位周波数帯、周波数F1Mより下を第2下位周波数帯として区別する。図8(a)に示すように、奇数番目音響フレームの第2の周波数範囲については、第2下位周波数帯、第2上位周波数帯のスペクトル集合をそれぞれk2L、k2Hで表現することとする。また、図8(b)に示すように、偶数番目音響フレームの第2の周波数範囲については、第2下位周波数帯、第2上位周波数帯のスペクトル集合をそれぞれg2L、g2Hで表現することとする。
妨害信号および補間信号を埋め込む場合、図8(c)(d)に示すように、スペクトル集合k2H、g2Lそれぞれの強度を相対的に強い状態に変更し、スペクトル集合k2L、g2Hそれぞれの強度を相対的に弱い状態に変更する。図8においても、図7と同様に、網掛けの色が濃い方が相対的に強度が強い状態に変更されるスペクトル集合を示している。
図8に示すように、本実施形態では、奇数番目、偶数番目の音響フレームの第2上位周波数帯、第2下位周波数帯におけるスペクトル集合の強度を交互に強弱が逆転するように変更する。これを全ての音響フレームに対して実行することにより、図2(a)に示したように、低音と高音が交互に入れ替わる状態が実現でき、これを再生すると、図2(b)に示したように、音脈分凝が発生する。
本実施形態では、上記変更対象周波数帯の下限F2D、中間F2M、上限F2Hを、それぞれ50Hz、250Hz、450Hzに設定する。これは、一般的な録音機器が取得可能な高周波の下限が250Hzであるためである。したがって、中間F2Mは、一般的な録音機器の感度領域下限に位置する範囲で設定することができる(例えば、150Hz〜350Hz)。音声・音楽非可逆圧縮ツールによる複製を防ぐためには、その再サンプリング周波数に合わせて設定しておくことができる。例えば3GPP音声圧縮モードによる複製を防ぐためには、中間F2Mを300Hzに設定しておくことが望ましい。3GPP音声圧縮モードでは300Hz以下の成分が削除されるためである。また、再サンプリング周波数8kHzに合わせて、中間F1Mを4kHzに設定しておくことが望ましい。妨害信号および補間信号が埋め込まれた音響信号を再生したものを、一般的な録音機器で録音したり、非可逆圧縮を行ったりした場合、妨害信号のみが記録されることになり、録音または圧縮された音響信号を再生すると、妨害信号に基づく雑音が再生されることになる。また、下限F2Dとしては、20Hz程度まで下げて設定することも可能であり、上限F2Hとしては、600Hz程度まで上げて設定することも可能である。妨害信号を埋め込む第2上位周波数帯を幅広く確保できることが望ましいが、600Hz以上になると記録されている音楽や音声の周波数領域と重複してしまうためである。なお、50Hz、250Hz、450Hzという値は、画一的に設定することは難しく、再生環境、再生時に使用されるスピーカ、録音に使用されることが想定される録音機器によって調整する必要があるため、必ずしも固定の値である必要はなく、適宜変更した値であっても良い。
第2下位周波数帯におけるスペクトル集合k2L、g2Lの強度の変更は、j=D2,・・・,M2−1の各周波数成分Al(1,j)、Bl(1,j)、Al(2,j)、Bl(2,j)、Ar(1,j)、Br(1,j)、Ar(2,j)、Br(2,j)に対して、上記〔数式6〕に従った処理を実行することにより行う。本実施形態では、D2=5、M2=23に設定し、約50Hz〜約250Hzの周波数成分の強度を変更する。
また、第2上位周波数帯におけるスペクトル集合k2H、g2Hの強度の変更は、j=M2,・・・,H2−1の各周波数成分Al(1,j)、Bl(1,j)、Al(2,j)、Bl(2,j)、Ar(1,j)、Br(1,j)、Ar(2,j)、Br(2,j)に対して、上記〔数式7〕に従った処理を実行することにより行う。本実施形態では、M2=23、H2=42に設定し、約250Hz〜約450Hzの周波数成分の強度を変更する。
第2の周波数範囲における周波数成分の変更の際、どちらのスペクトル集合を強くするかについては、第1の周波数範囲と同期させるか、反対にするかの2通りを選択することができる。前者に設定すると、聴取される妨害雑音の音量が大きくなるので、通常は、第1の周波数範囲のスペクトル集合k1Hが強く変更されたときに、第2の周波数範囲のスペクトル集合k2Hも強く変更した方が効果的である。
(2.2.5.低周波成分の変換(聴覚マスキング))
他の実施形態として、周波数成分変更手段30は、上記(2.2.4)で説明した音脈分凝に代えて、低周波成分に聴覚マスキングを利用した妨害信号を埋め込むことが可能である。
具体的には、埋め込み装置で、音響信号から抽出した所定数のサンプルで構成される音響フレーム内の第2の周波数範囲の周波数成分を変更するに際し、その強弱が聴覚マスキングを発生させるような状態に変更する。これにより、人間には、付加された妨害信号が聞こえないが、変更された第2の周波数範囲の周波数成分のうち、第2上位周波数帯の周波数成分のみを抽出して録音した場合には、再生すると妨害信号による音が発生することになる。
本実施形態では、聴覚マスキングが発生するように、音響フレームの変更対象となる第2の周波数範囲の成分を変更し、妨害信号を埋め込むようにしている。ここで、埋め込み処理の前後における音響フレームの第2の周波数範囲における周波数成分の変化の状態について説明する。図9に、本実施形態による奇数番目のLチャンネル1音響フレームの第2の周波数範囲における周波数成分の状態を示す。Rチャンネルについては、Lチャンネルと同様であるので省略してある。図9に示す各音響フレームにおいて、横軸は時間方向、縦軸は周波数方向を示している。
図9においては、縦軸の周波数方向において、3つの周波数F2D、F2M、F2Hにより周波数領域が4つに区分されている。この区分は、図8と同一である。したがって、埋め込み前の原状態を示す図9(a)は、図8(a)と同一である。図9においては、奇数番目音響フレームの第2上位周波数帯におけるスペクトル集合k2Hのみを変更対象とする。図7を用いて説明したように、F2Hより高い高周波成分においては、並行して周波数成分の変更が行われる。
聴覚マスキングによる妨害信号を埋め込む場合、図9(b)に示すように、スペクトル集合k2Lの強度に応じた割合だけ、スペクトル集合k2Hの強度を強くする。図9(b)においては、網掛けの色が濃い方が相対的に強度が強く変更されることを示している。
聴覚マスキングによる妨害信号を埋め込む場合、スペクトル集合k2Lの成分に応じた分をk2Hの強度に付加するように変更する。これを全ての奇数番目音響フレームに対して実行することにより、1音響フレームおきに高い方の強度が強く変化する状態が実現でき、これを単独で再生すると雑音が発生してしまうが、k2Lの強度より所定の割合だけ減弱させた信号成分をk2Hに付加するようにしているため、k2Lの信号成分とk2H信号成分とを同時に再生すると、k2Lの信号成分がマスカーとなり、k2Hに付加された信号成分が聴覚マスキングによりかき消される。
具体的な処理としては、周波数成分変更手段30は、まず、参照周波数領域となる第2下位周波数帯におけるスペクトル集合k2Lのエネルギー平均値Zl、Zrを、以下の〔数式8〕に従った処理を実行することにより算出する。
〔数式8〕
Zl=[Σj=D2,…,M2-1{Al(1,j)2+Bl(1,j)2}/(M2−D2)]1/2
Zr=[Σj=D2,…,M2-1{Ar(1,j)2+Br(1,j)2}/(M2−D2)]1/2
続いて、周波数成分変更手段30は、算出されたエネルギー平均値Zl、Zrを用いて、以下の〔数式9〕に従った処理を実行することによりスペクトル集合k2Hの強度の絶対値を増強させるように変更を行う。
〔数式9〕
Al(1,j)≧0の場合、Al´(1,j)←Al(1,j)+γ・Zl
Al(1,j)<0の場合、Al´(1,j)←Al(1,j)−γ・Zl
Bl(1,j)≧0の場合、Bl´(1,j)←Bl(1,j)+γ・Zl
Bl(1,j)<0の場合、Bl´(1,j)←Bl(1,j)−γ・Zl
Ar(1,j)≧0の場合、Ar´(1,j)←Ar(1,j)+γ・Zr
Ar(1,j)<0の場合、Ar´(1,j)←Ar(1,j)−γ・Zr
Br(1,j)≧0の場合、Br´(1,j)←Br(1,j)+γ・Zr
Br(1,j)<0の場合、Br´(1,j)←Br(1,j)−γ・Zr
上記〔数式9〕において、γは、0≦γ≦1を満たす実数であり、その範囲内で適宜設定可能であるが、本実施形態では、γ=0.5に設定してある。従って、参照周波数領域であるスペクトル集合k2Lのエネルギー平均値Zl、Zrの1/2の強度が、スペクトル集合k2Hに加算されることになる。
(2.2.6.付加情報の埋め込み1.単一音脈分凝)
周波数成分変更手段30は、上記妨害信号の埋め込みに加えて、付加情報を埋め込むことも可能である。付加情報を埋め込む場合、奇数番目の音響フレームについて、ビット配列作成手段70が作成したビット配列に応じて、所定周波数成分の割合を変更する処理を行う。本実施形態では、ビット配列を1ビットずつ読み込み、奇数番目、偶数番目の1対の音響フレームに対して1ビットの情報を埋め込む。埋め込まれる1ビットの値は、“0” “1”の2通りがある。本実施形態では、これらを値1、値2と定義する。2種類の符号を埋め込むことができるという点で、これらを符号1、符号2と表現することも可能である。この際、“0”“1”の2通りのうち、いずれを値1、値2(符号1、符号2)と定義しても良い。抽出側において、埋め込み側で埋め込まれた1ビットが特定できれば良いためである。したがって、この定義は、埋め込み側と抽出側で一致している必要がある。
具体的には、埋め込み装置で、音響信号から抽出した所定数のサンプルで構成される音響フレーム内の所定周波数範囲の周波数成分を変更するに際し、その強弱が音脈分凝を発生させるような状態に変更する。これにより、人間には、音が途切れたようには聞こえないが、抽出装置では、その明確な変化を認識することができる。
本実施形態では、音脈分凝の原理を利用して、音響フレームの第3の周波数範囲の成分を2つの状態に変更し、1ビットの情報を埋め込むようにしている。ここで、埋め込み処理の前後における音響フレームの第3の周波数範囲における周波数成分の変化の状態について説明する。
図10に、本実施形態による奇数番目、偶数番目のLチャンネル1音響フレームの所定周波数成分の状態を示す。Rチャンネルについては、Lチャンネルと同様であるので省略してある。図10に示す各音響フレームにおいて、横軸は時間方向、縦軸は周波数方向を示している。また、網掛けされた部分は、周波数成分が存在している部分を示し、網掛けが濃いほど成分強度が強いことを示している。
図10においては、縦軸の周波数方向において、周波数領域が4つに区分されているが、上から2番目と3番目の領域、すなわち、周波数F3D以上F3H未満の間が変更対象となる第3の周波数範囲であり、最上部すなわち周波数F3H超と、最下部すなわちF3D未満は、変更対象でない周波数帯である。すなわち、本実施形態では、周波数F3D以上F3H未満を所定周波数範囲として、スペクトル集合の強度を変更することになる。第3の周波数範囲のうち、周波数F3M以上を第3上位周波数帯、周波数F3Mより下を第3下位周波数帯として区別する。図10(a)に示すように、奇数番目音響フレームの第3の周波数範囲については、第3上位周波数帯におけるスペクトルを1U、第3下位周波数帯におけるスペクトルを1Dで表現することとする。また、図10(b)に示すように、偶数番目音響フレームの第3の周波数範囲については、第3上位周波数帯におけるスペクトルを2U、第3下位周波数帯におけるスペクトルを2Dで表現することとする。
本実施形態で、符号1を埋め込む場合、図10(c)(e)に示すように、1D、2Uの成分を相対的に強い状態に変更し、1U、2Dの成分を相対的に弱い状態に変更する。この状態を“状態1”と呼ぶことにする。符号2を埋め込む場合は、図10(d)(f)に示すように、1U、2Dの成分を相対的に強い状態に変更し、1D、2Uの成分を相対的に弱い状態に変更する。この状態を“状態2”と呼ぶことにする。
本実施形態では、図10(c)(e)または(d)(f)に示すような2つの状態に奇数番目、偶数番目の音響フレームの周波数成分を変更することにより、情報の埋め込みを行っている。2つの状態であるので1ビット分の情報量に相当する。
本実施形態では、上記第3の周波数範囲F3D〜F3Hを、“1.7kHz〜3.4kHz”に設定する。これは、以下のような理由による。
すなわち、音声通信として普及度の高い携帯電話機を受信端末として利用する場合、上限については、電話回線帯域および携帯電話機の上限である3.4kHzとする必要がある。そして、下限については、1オクターブ下(周波数1/2)の、1.7kHzとした。なお、“1.7kHz”“3.4kHz”という値は、代表的な値であり、必ずしも正確な値である必要はなく、そこから若干ずれた値であっても良い。
図10に示した例では、相対的に強い状態と弱い状態に変更することについて説明したが、この強弱の程度については、状況に応じて設定することが可能である。両者の割合は、以下に述べるように、大きいほど抽出時の精度が高くなるが、補間される割合は不完全になり、再生時に不連続成分によるノイズが聞こえる。一方、両者の割合が均等であるほど再生品質は原音に近付くが、埋め込んだビットの抽出ができなくなり、再生品質と抽出精度はトレードオフの関係になる。例えば、強い方を100%、弱い方を0%とした場合、音脈分凝により、補間される部分の音は図10のような変更を行なう前に原音響信号で鳴っていた音の50%程度となることが確認されている。そこで、強い方を70%、弱い方を30%とした場合、音脈分凝により、補間される部分の音は図10のような変更を行なう前に原音響信号で鳴っていた音とほぼ同程度となり、この割合が抽出精度を維持できる限界であることが確認されている。このため、相対的に強いスペクトル集合と、相対的に弱いスペクトル集合の強度の割合を70%と30%とすることを目標に設定することが好ましい。これを実現するため、本実施形態では、後述する具体的な処理において、強い状態を設定するための係数α=0.7、弱い状態を設定するための係数β=0.3とする。ただし、強い状態に変更すべきスペクトル集合の強度が元々小さい場合には、係数α、βを補正する必要が生じる。このため、周波数成分変更手段30は、まず、以下の〔数式10〕に従った処理を実行することにより、弱い状態に変更すべきスペクトル集合に対する強い状態に変更すべきスペクトル集合の強度割合εを算出する。
〔数式10〕
E1d=Σj=m,…,m+G-1{Al(1,j)2+Bl(1,j)2
E2d=Σj=m,…,m+G-1{Al(2,j)2+Bl(2,j)2
E1u=Σj=m+G,…,m+2G-1{Al(1,j)2+Bl(1,j)2
E2u=Σj=m+G,…,m+2G-1{Al(2,j)2+Bl(2,j)2
埋め込みデータが値1の場合、ε=(E1d+E2u)/(E1u+E2d)
埋め込みデータが値2の場合、ε=(E1u+E2d)/(E1d+E2u)
上記〔数式10〕において、mは第3の周波数範囲の下限の成分の番号、m+2Gは第3の周波数範囲の上限の成分の番号である。例えば、第3の周波数範囲として、1.7kHz〜3.4kHzを設定する場合、m=160、m+2G=320となる。したがって、1つの周波数領域の幅G=80である。
そして、さらに強度割合εの値に応じて、周波数成分変更手段30は、以下の〔数式11〕に従った処理を実行することにより、係数α、βを補正して係数α´、β´を得る。
〔数式11〕
ε<1.0の場合、α´=α・ε-1/2、β´=β・ε1/2
ε≧1.0の場合、α´=α・ε1/2、β´=β・ε-1/2
なお、ε≧1.0の場合は、補正を行わないような設定にしておいても良い。さらに、周波数成分変更手段30は、埋め込むべき情報が“値1”である場合、以下の〔数式12〕に従った処理を実行することにより、周波数成分の状態を“状態1”、すなわち、図10(c)(e)に示したような状態に変更する。
〔数式12〕
j=m〜m+G−1の各成分に対して
E(1,j)={Al(1,j)2+Bl(1,j)2+Ar(1,j)2+Br(1,j)21/2
Al´(1,j)=Al(1,j)・E(1,j)・α/{Al(1,j)2+Bl(1,j)21/2
Bl´(1,j)=Bl(1,j)・E(1,j)・α/{Al(1,j)2+Bl(1,j)21/2
Ar´(1,j)=Ar(1,j)・E(1,j)・α/{Ar(1,j)2+Br(1,j)21/2
Br´(1,j)=Br(1,j)・E(1,j)・α/{Ar(1,j)2+Br(1,j)21/2
E(2,j)={Al(2,j)2+Bl(2,j)2+Ar(2,j)2+Br(2,j)21/2
Al´(2,j)=Al(2,j)・E(2,j)・β/{Al(2,j)2+Bl(2,j)21/2
Bl´(2,j)=Bl(2,j)・E(2,j)・β/{Al(2,j)2+Bl(2,j)21/2
Ar´(2,j)=Ar(2,j)・E(2,j)・β/{Ar(2,j)2+Br(2,j)21/2
Br´(2,j)=Br(2,j)・E(2,j)・β/{Ar(2,j)2+Br(2,j)21/2
j=m+G〜m+2G−1の各成分に対して
E(1,j)={Al(1,j)2+Bl(1,j)2+Ar(1,j)2+Br(1,j)21/2
Al´(1,j)=Al(1,j)・E(1,j)・β/{Al(1,j)2+Bl(1,j)21/2
Bl´(1,j)=Bl(1,j)・E(1,j)・β/{Al(1,j)2+Bl(1,j)21/2
Ar´(1,j)=Ar(1,j)・E(1,j)・β/{Ar(1,j)2+Br(1,j)21/2
Br´(1,j)=Br(1,j)・E(1,j)・β/{Ar(1,j)2+Br(1,j)21/2
E(2,j)={Al(2,j)2+Bl(2,j)2+Ar(2,j)2+Br(2,j)21/2
Al´(2,j)=Al(2,j)・E(2,j)・α/{Al(2,j)2+Bl(2,j)21/2
Bl´(2,j)=Bl(2,j)・E(2,j)・α/{Al(2,j)2+Bl(2,j)21/2
Ar´(2,j)=Ar(2,j)・E(2,j)・α/{Ar(2,j)2+Br(2,j)21/2
Br´(2,j)=Br(2,j)・E(2,j)・α/{Ar(2,j)2+Br(2,j)21/2
埋め込むべき情報が“値2”である場合は、以下の〔数式13〕に従った処理を実行することにより、周波数成分の状態を“状態2” 、すなわち、図10(d)(f)に示したような状態に変更する。
〔数式13〕
j=m〜m+G−1の各成分に対して
E(1,j)={Al(1,j)2+Bl(1,j)2+Ar(1,j)2+Br(1,j)21/2
Al´(1,j)=Al(1,j)・E(1,j)・β/{Al(1,j)2+Bl(1,j)21/2
Bl´(1,j)=Bl(1,j)・E(1,j)・β/{Al(1,j)2+Bl(1,j)21/2
Ar´(1,j)=Ar(1,j)・E(1,j)・β/{Ar(1,j)2+Br(1,j)21/2
Br´(1,j)=Br(1,j)・E(1,j)・β/{Ar(1,j)2+Br(1,j)21/2
E(2,j)={Al(2,j)2+Bl(2,j)2+Ar(2,j)2+Br(2,j)21/2
Al´(2,j)=Al(2,j)・E(2,j)・α/{Al(2,j)2+Bl(2,j)21/2
Bl´(2,j)=Bl(2,j)・E(2,j)・α/{Al(2,j)2+Bl(2,j)21/2
Ar´(2,j)=Ar(2,j)・E(2,j)・α/{Ar(2,j)2+Br(2,j)21/2
Br´(2,j)=Br(2,j)・E(2,j)・α/{Ar(2,j)2+Br(2,j)21/2
j=m+G〜m+2G−1の各成分に対して
E(1,j)={Al(1,j)2+Bl(1,j)2+Ar(1,j)2+Br(1,j)21/2
Al´(1,j)=Al(1,j)・E(1,j)・α/{Al(1,j)2+Bl(1,j)21/2
Bl´(1,j)=Bl(1,j)・E(1,j)・α/{Al(1,j)2+Bl(1,j)21/2
Ar´(1,j)=Ar(1,j)・E(1,j)・α/{Ar(1,j)2+Br(1,j)21/2
Br´(1,j)=Br(1,j)・E(1,j)・α/{Ar(1,j)2+Br(1,j)21/2
E(2,j)={Al(2,j)2+Bl(2,j)2+Ar(2,j)2+Br(2,j)21/2
Al´(2,j)=Al(2,j)・E(2,j)・β/{Al(2,j)2+Bl(2,j)21/2
Bl´(2,j)=Bl(2,j)・E(2,j)・β/{Al(2,j)2+Bl(2,j)21/2
Ar´(2,j)=Ar(2,j)・E(2,j)・β/{Ar(2,j)2+Br(2,j)21/2
Br´(2,j)=Br(2,j)・E(2,j)・β/{Ar(2,j)2+Br(2,j)21/2
なお、上記〔数式11〕に従った処理を実行して係数α´、β´を得た場合は、上記〔数式12〕〔数式13〕において、係数α、βに代えて係数α´、β´を用いる。
(2.2.7.付加情報の埋め込み2.二重音脈分凝)
図11に、本実施形態による奇数番目、偶数番目のLチャンネル1音響フレームの所定周波数成分の状態を示す。Rチャンネルについては、Lチャンネルと同様であるので省略してある。図11に示す各音響フレームにおいて、横軸は時間方向、縦軸は周波数方向を示している。
図11においては、縦軸の周波数方向において、周波数領域が6つに区分されているが、上から2番目〜5番目の領域、すなわち、周波数F3D以上F3H未満の間が変更対象となる第3の周波数範囲であり、最上部すなわち周波数F3H超と、最下部すなわちF3D未満は、変更対象でない周波数帯である。すなわち、本実施形態では、周波数F3D以上F3H未満を第3の周波数範囲として、スペクトル集合の強度を変更することになる。二重音脈分凝を利用して付加情報を埋め込む場合には、第3の周波数範囲における4つの周波数帯を、周波数が高い方から順に最上位周波数帯、中上位周波数帯、中下位周波数帯、最下位周波数帯として区別する。図11(a)に示すように、奇数番目音響フレームの第3の周波数範囲については、周波数が低い順に、そのスペクトル集合を1D1、1D2、1U1、1U2で表現することとする。また、図11(b)に示すように、偶数番目音響フレームの第3の周波数範囲については、周波数が低い順に、そのスペクトル集合を2D1、2D2、2U1、2U2で表現することとする。
図11(a)(b)に示される2フレームの対に1ビットまたは2ビットの情報を埋め込むことが可能であるが、1ビット埋め込み方式で、符号1を埋め込む場合、図11(c)(e)に示すように、1D1と2D2の強度の積、1U1と2U2の強度の積を相対的に強い状態に変更し、1D2と2D1の強度の積、1U2と2U1の強度の積を相対的に弱い状態に変更する。この状態を“状態1”と呼ぶことにする。符号2を埋め込む場合は、図11(d)(f)に示すように、1D2と2D1の強度の積、1U2と2U1の強度の積を相対的に強い状態に変更し、1D1と2D2の強度の積、1U1と2U2の強度の積を相対的に弱い状態に変更する。この状態を“状態2”と呼ぶことにする。網掛けされた部分の濃さは、同濃度のものは、積を求めるための組となるスペクトル集合であることを示している。網掛けの色が濃い方が相対的に強度が強い状態に変更される組を示している。
1ビット埋め込み方式では、図11(c)(e)または(d)(f)に示すような2つの状態に奇数番目、偶数番目の音響フレームの周波数成分を変更することにより、情報の埋め込みを行っている。2つの状態であるので1ビット分の情報量に相当する。図11(c)〜(f)に示したように、1ビット埋め込み方式の場合、第3の周波数範囲の最上位周波数帯と中上位周波数帯の組み合わせと、中下位周波数帯と最下位周波数帯の組み合わせが全く同一のパターンとなっている。2ビット埋め込み方式の場合は、最上位周波数帯と第3上位周波数帯の組み合わせと、中下位周波数帯と最下位周波数帯の組み合わせを独立に変更することにより、最上位周波数帯と中上位周波数帯の組み合わせで1ビット、と、中下位周波数帯と最下位周波数帯の組み合わせで1ビットの表現が可能となる。
本実施形態では、上記第3の周波数範囲F3D〜F3Hを、“850Hz〜3.4kHz”に設定する。これは、以下のような理由による。すなわち、音声通信として普及度の高い携帯電話機を受信端末として利用する場合、上限については、電話回線帯域および携帯電話機の上限である3.4kHzとする必要がある。これは、携帯電話機の内部に搭載されているローパスフィルターが、電話交換機に合わせて、3.4kHz以下に対応したものとなっているためである。また、中上位周波数帯の下限F3Mについては、最上位周波数帯上限の3.4kHzから1オクターブ下がった1.7kHzとすることとした。そして、中下位周波数帯の上限を中上位周波数帯の下限と同じく、1.7kHzとし、最下位周波数帯の下限については、中下位周波数帯の上限の1/2である850Hzとすることとした。中下位周波数帯と最下位周波数帯を合わせた周波数範囲は、最上位周波数帯と中上位周波数帯を合わせた周波数範囲に比べ1/2になるが、分布している信号成分の強度は平均4倍程度になるため、むしろ第3最上位周波数帯と中上位周波数帯より中下位周波数帯と最下位周波数帯の方が大きな感度を持つと推定できる。なお、“850Hz”“1.7kHz”“3.4kHz”という値は、代表的な値であり、必ずしも固定な値である必要はなく、使用環境に応じて適宜調整されても良い。
図11に示した例では、相対的に強い状態と弱い状態に変更することについて説明したが、この強弱の程度については、状況に応じて設定することが可能である。両者の割合は、以下に述べるように、大きいほど抽出時の精度が高くなるが、補間される割合は不完全になり、再生時に不連続成分によるノイズが聞こえる。一方、両者の割合が均等であるほど再生品質は原音に近付くが、埋め込んだビットの抽出ができなくなり、再生品質と抽出精度はトレードオフの関係になる。例えば、強い方を100%、弱い方を0%とした場合、音脈分凝により、補間される部分の音は図11のような変更を行なう前に原音響信号で鳴っていた音の50%程度となることが確認されている。そこで、強い方を70%、弱い方を30%とした場合、音脈分凝により、補間される部分の音は図11のような変更を行なう前に原音響信号で鳴っていた音とほぼ同程度となり、この割合が抽出精度を維持できる限界であることが確認されている。このため、相対的に強いスペクトル集合と、相対的に弱いスペクトル集合の強度の割合を70%と30%とすることを目標に設定することが好ましい。これを実現するため、本実施形態では、後述する具体的な処理において、強い状態を設定するための係数α=0.7、弱い状態を設定するための係数β=0.3とする。ただし、強い状態に変更すべきスペクトル集合の強度が元々小さい場合には、係数α、βを補正する必要が生じる。このため、周波数成分変更手段30は、まず、以下の〔数式14〕に従った処理を実行することにより、各スペクトル集合の強度E1D1、E2D1、E1D2、E2D2、E1U1、E2U1、E1U2、E2U2を算出する。
〔数式14〕
1D1=Σj=m,…,m+G-1{Al(1,j)2+Bl(1,j)2
2D1=Σj=m,…,m+G-1{Al(2,j)2+Bl(2,j)2
1D2=Σj=m+G,…,m+2G-1{Al(1,j)2+Bl(1,j)2
2D2=Σj=m+G,…,m+2G-1{Al(2,j)2+Bl(2,j)2
1U1=Σj=m+2G,…,m+2G+Gu-1{Al(1,j)2+Bl(1,j)2
2U1=Σj=m+2G,…,m+2G+Gu-1{Al(2,j)2+Bl(2,j)2
1U2=Σj=m+2G+Gu,…,m+2G+2Gu-1{Al(1,j)2+Bl(1,j)2
2U2=Σj=m+2G+Gu,…,m+2G+2Gu-1{Al(2,j)2+Bl(2,j)2
上記〔数式14〕において、mは第3の周波数範囲の下限の成分の番号、Gは中下位周波数帯、最下位周波数帯の幅で、Guは変更対象周波数帯内の最上位周波数帯、中上位周波数帯の幅で、m+2G+2Guは第3の周波数範囲の上限の成分の番号である。例えば、第3の周波数範囲として、850Hz〜3.4kHzを設定する場合、m=80、m+2G+2Gu=320(=M)となる。したがって、中下位周波数帯、最下位周波数帯の幅G(=(M/2−m)/2)=64で、最上位周波数帯、中上位周波数帯の幅Gu(=(M−M/2)/2)=80である。
さらに、周波数成分変更手段30は、算出された各スペクトル集合の強度を利用して、弱い状態に変更すべきスペクトル集合に対する強い状態に変更すべきスペクトル集合の強度割合γを算出する。これは、1音響フレームに1ビット埋め込む場合と、2ビット埋め込む場合により異なる。1音響フレームに1ビット埋め込む場合は、以下の〔数式15〕に従って強度割合εを算出する。
〔数式15〕
埋め込みデータが値1の場合、ε=(E1D1・E1U1・E2D2・E2U2)/(E1D2・E1U2・E2D1・E2U1
埋め込みデータが値2の場合、ε=(E1D2・E1U2・E2D1・E2U1)/(E1D1・E1U1・E2D2・E2U2
1音響フレームに1ビット埋め込む場合、さらに強度割合εの値に応じて、周波数成分変更手段30は、以下の〔数式16〕に従った処理を実行することにより、係数α、βを補正して係数α´、β´を得る。
〔数式16〕
0.01≦ε<1.0の場合、α´=α・ε-1/4、β´=β・ε1/4
ε<0.01の場合、α´=10.0・α、β´=0.1・β
ε≧1.0の場合、補正を行わない。
一方、1音響フレームに2ビット埋め込む場合は、以下の〔数式17〕に従って強度割合ε1、ε2を算出する。
〔数式17〕
第1埋め込みデータが値1の場合、ε1=(E1D1・E2D2)/(E1D2・E2D1
第1埋め込みデータが値2の場合、ε1=(E1D2・E2D1)/(E1D1・E2D2
第2埋め込みデータが値1の場合、ε2=(E1U1・E2U2)/(E1U2・E2U1
第2埋め込みデータが値2の場合、ε2=(E1U2・E2U1)/(E1U1・E2U2
1音響フレームに2ビット埋め込む場合、さらに強度割合ε1、ε2の値に応じて、周波数成分変更手段30は、以下の〔数式18〕に従った処理を実行することにより、係数α、βを補正して係数α1´、β1´、α2´、β2´を得る。
〔数式18〕
0.01≦ε1<1.0の場合、α1´=α・ε1 -1/2、β1´=β・ε1 1/2
ε<0.01の場合、α1´=10.0・α、β1´=0.1・β
ε≧1.0の場合、補正を行わない。
0.01≦ε2<1.0の場合、α2´=α・ε2 -1/2、β2´=β・ε2 1/2
ε<0.01の場合、α2´=10.0・α、β2´=0.1・β
ε≧1.0の場合、補正を行わない。
さらに、周波数成分変更手段30は、連続する奇数番目音響フレーム、偶数番目音響フレームにおける実部Al(1,j)、Ar(1,j)、Al(2,j)、Ar(2,j)、Bl(1,j)、Br(1,j)、Bl(2,j)、Br(2,j)に対して、周波数領域パラメータとして、下限m(=32)から上限M(=320)を設定し、mからM/2を幅G(=(M/2−m)/2)をもつ2個の領域に分割し、m+2GからMを幅Gu(=(M−M/2)/2)をもつ2個の領域に分割し、埋め込むべきビット値に応じて、各々改変を加える。一例として、1音響フレームに2ビット埋め込む方式で、埋め込むべきビット値が1ビット目、2ビット目ともに“値1”である場合、以下の〔数式19〕に従った処理を実行することにより、周波数成分の状態を“状態1”、すなわち、図11(c)(e)に示したような状態に変更する。
〔数式19〕
j=m〜m+G−1の各成分に対して
E(1,j)={Al(1,j)2+Bl(1,j)2+Ar(1,j)2+Br(1,j)21/2
Al´(1,j)=Al(1,j)・E(1,j)・α1/{Al(1,j)2+Bl(1,j)21/2
Bl´(1,j)=Bl(1,j)・E(1,j)・α1/{Al(1,j)2+Bl(1,j)21/2
Ar´(1,j)=Ar(1,j)・E(1,j)・α1/{Ar(1,j)2+Br(1,j)21/2
Br´(1,j)=Br(1,j)・E(1,j)・α1/{Ar(1,j)2+Br(1,j)21/2
E(2,j)={Al(2,j)2+Bl(2,j)2+Ar(2,j)2+Br(2,j)21/2
Al´(2,j)=Al(2,j)・E(2,j)・β1/{Al(2,j)2+Bl(2,j)21/2
Bl´(2,j)=Bl(2,j)・E(2,j)・β1/{Al(2,j)2+Bl(2,j)21/2
Ar´(2,j)=Ar(2,j)・E(2,j)・β1/{Ar(2,j)2+Br(2,j)21/2
Br´(2,j)=Br(2,j)・E(2,j)・β1/{Ar(2,j)2+Br(2,j)21/2
j=m+G〜m+2G−1の各成分に対して
E(1,j)={Al(1,j)2+Bl(1,j)2+Ar(1,j)2+Br(1,j)21/2
Al´(1,j)=Al(1,j)・E(1,j)・β1/{Al(1,j)2+Bl(1,j)21/2
Bl´(1,j)=Bl(1,j)・E(1,j)・β1/{Al(1,j)2+Bl(1,j)21/2
Ar´(1,j)=Ar(1,j)・E(1,j)・β1/{Ar(1,j)2+Br(1,j)21/2
Br´(1,j)=Br(1,j)・E(1,j)・β1/{Ar(1,j)2+Br(1,j)21/2
E(2,j)={Al(2,j)2+Bl(2,j)2+Ar(2,j)2+Br(2,j)21/2
Al´(2,j)=Al(2,j)・E(2,j)・α1/{Al(2,j)2+Bl(2,j)21/2
Bl´(2,j)=Bl(2,j)・E(2,j)・α1/{Al(2,j)2+Bl(2,j)21/2
Ar´(2,j)=Ar(2,j)・E(2,j)・α1/{Ar(2,j)2+Br(2,j)21/2
Br´(2,j)=Br(2,j)・E(2,j)・α1/{Ar(2,j)2+Br(2,j)21/2
j=m+2G〜m+2G+Gu−1の各成分に対して
E(1,j)={Al(1,j)2+Bl(1,j)2+Ar(1,j)2+Br(1,j)21/2
Al´(1,j)=Al(1,j)・E(1,j)・α2/{Al(1,j)2+Bl(1,j)21/2
Bl´(1,j)=Bl(1,j)・E(1,j)・α2/{Al(1,j)2+Bl(1,j)21/2
Ar´(1,j)=Ar(1,j)・E(1,j)・α2/{Ar(1,j)2+Br(1,j)21/2
Br´(1,j)=Br(1,j)・E(1,j)・α2/{Ar(1,j)2+Br(1,j)21/2
E(2,j)={Al(2,j)2+Bl(2,j)2+Ar(2,j)2+Br(2,j)21/2
Al´(2,j)=Al(2,j)・E(2,j)・β2/{Al(2,j)2+Bl(2,j)21/2
Bl´(2,j)=Bl(2,j)・E(2,j)・β2/{Al(2,j)2+Bl(2,j)21/2
Ar´(2,j)=Ar(2,j)・E(2,j)・β2/{Ar(2,j)2+Br(2,j)21/2
Br´(2,j)=Br(2,j)・E(2,j)・β2/{Ar(2,j)2+Br(2,j)21/2
j=m+2G+Gu〜M−1の各成分に対して
E(1,j)={Al(1,j)2+Bl(1,j)2+Ar(1,j)2+Br(1,j)21/2
Al´(1,j)=Al(1,j)・E(1,j)・β2/{Al(1,j)2+Bl(1,j)21/2
Bl´(1,j)=Bl(1,j)・E(1,j)・β2/{Al(1,j)2+Bl(1,j)21/2
Ar´(1,j)=Ar(1,j)・E(1,j)・β2/{Ar(1,j)2+Br(1,j)21/2
Br´(1,j)=Br(1,j)・E(1,j)・β2/{Ar(1,j)2+Br(1,j)21/2
E(2,j)={Al(2,j)2+Bl(2,j)2+Ar(2,j)2+Br(2,j)21/2
Al´(2,j)=Al(2,j)・E(2,j)・α2/{Al(2,j)2+Bl(2,j)21/2
Bl´(2,j)=Bl(2,j)・E(2,j)・α2/{Al(2,j)2+Bl(2,j)21/2
Ar´(2,j)=Ar(2,j)・E(2,j)・α2/{Ar(2,j)2+Br(2,j)21/2
Br´(2,j)=Br(2,j)・E(2,j)・α2/{Ar(2,j)2+Br(2,j)21/2
1音響フレームに2ビット埋め込む方式で、1ビット目、2ビット目のいずれかもしくは両方の埋め込むべきビット値が“値2”である場合は、それに応じて上記〔数式19〕において、α1とβ1を互いに交換するか、α2とβ2を互いに交換して処理を実行する。また、1音響フレームに1ビット埋め込む方式の場合は、上記〔数式19〕において、α1=α2=α、β1=β2=βとして処理を実行する。この場合は、スペクトル集合単位の強弱パターンは、高周波側と低周波側で同一となる。
なお、上記〔数式16〕〔数式18〕に従った処理を実行して係数α´、β´、α1´、β1´、α2´、β2´を得た場合は、上記〔数式19〕において、係数α、β、α1、β1、α2、β2に代えて係数α´、β´、α1´、β1´、α2´、β2´を用いる。
(2.2.8.周波数成分変更後の処理)
周波数逆変換手段40は、上記のようにして、妨害信号、付加情報を埋め込むために周波数成分の状態が変更されたフレームスペクトルを周波数逆変換して改変音響フレームを得る処理を行う。この周波数逆変換は、当然のことながら、周波数変換手段20が実行した手法に対応していることが必要となる。本実施形態では、周波数変換手段20において、フーリエ変換を施しているため、周波数逆変換手段40は、フーリエ逆変換を実行することになる。
具体的には、奇数番目の音響フレームに対しては、周波数逆変換手段40は、周波数成分変更手段30により得られたスペクトルの左チャンネルの実部Al´(1,j)等、虚部Bl´(1,j)等、右チャンネルの実部Ar´(1,j)等、虚部Br´(1,j)等を用いて、以下の〔数式20〕に従った処理を行い、Xl´(i)、Xr´(i)を算出する。なお、周波数成分変更手段30において改変されていない周波数成分については、Al´(1,j)等として、元の周波数成分であるAl(1,j)等を用いる。付加情報の埋め込みを同時に行っている場合のみ、周波数逆変換を計算するにあたり、Al´(1,j)およびBl´(1,j)に対しては〔数式5〕におけるYl(1)を、Ar´(1,j)およびBr´(1,j)に対しては〔数式5〕におけるYr(1)を除することにより、同時に振幅逆変換を施す必要がある。逆に、妨害信号の埋め込みのみを行う場合には振幅逆変換を行わず、〔数式20〕におけるYl(1)=Yr(1)=1.0とする。
〔数式20〕
Xl´(i)=1/N・{ΣjAl´(1,j)・cos(2πij/N)/Yl(1)−ΣjBl´(1,j)・sin(2πij/N)/Yl(1)}+Xlp(i+N/2)
Xr´(i)=1/N・{ΣjAr´(1,j)・cos(2πij/N)/Yr(1)−ΣjBr´(1,j)・sin(2πij/N)/Yr(1)}+Xrp(i+N/2)
上記〔数式20〕においては、式が繁雑になるのを防ぐため、Σj=0,,N-1をΣjとして示している。上記〔数式20〕における第1式の“+Xlp(i+N/2)”、第2式の“+Xrp(i+N/2)”の項は、直前に改変された改変音響フレームのデータXlp(i)、Xrp(i)が存在する場合に、時間軸上N/2サンプル分重複することを考慮して加算するためのものである。上記〔数式20〕により奇数番目の改変音響フレームの左チャンネルの各サンプルXl´(i)、右チャンネルの各サンプルXr´(i)、が得られることになる。
偶数番目の音響フレームに対しては、周波数逆変換手段40は、上記〔数式19〕により得られたスペクトルの左チャンネルの実部Al´(2,j)、虚部Bl´(2,j)、右チャンネルの実部Ar´(2,j)、虚部Br´(2,j)を用いて、以下の〔数式21〕に従った処理を行い、Xl´(i)、Xr´(i)を算出する。なお、周波数成分変更手段30において改変されていない周波数成分については、以下の〔数式21〕においてはAl´(2,j)、Bl´(2,j)、Ar´(2,j)、Br´(2,j)として、元の値であるAl(2,j)、Bl(2,j)、Ar(2,j)、Br(2,j)を用いる。付加情報の埋め込みを同時に行っている場合のみ、周波数逆変換を計算するにあたり、Al´(2,j)およびBl´(2,j)に対しては〔数式5〕におけるYl(2)を、Ar´(2,j)およびBr´(2,j)に対しては〔数式5〕におけるYr(2)を除することにより、同時に振幅逆変換を施す必要がある。逆に、妨害信号の埋め込みのみを行う場合には振幅逆変換を行わず、〔数式21〕におけるYl(2)=Yr(2)=1.0とする。
〔数式21〕
Xl´(i+N/2)=1/N・{ΣjAl´(2,j)・cos(2πij/N)/Yl(2)−ΣjBl´(2,j)・sin(2πij/N)/Yl(2)}+Xlp(i+N)
Xr´(i+N/2)=1/N・{ΣjAr´(2,j)・cos(2πij/N)/Yr(2)−ΣjBr´(2,j)・sin(2πij/N)/Yr(2)}+Xrp(i+N)
上記〔数式21〕により偶数番目の改変音響フレームの左チャンネルの各サンプルXl´(i)、右チャンネルの各サンプルXr´(i)、が得られることになる。
改変音響フレーム出力手段50は、周波数逆変換手段40の処理により得られた奇数番目の改変音響フレーム、偶数番目の改変音響フレームを順次出力ファイルに出力する。
(2.3.処理の全体的な流れ)
次に、図5に示した音響信号に対する情報の埋め込み装置の処理の全体的な流れを、図12のフローチャートに従って説明する。図5に示した装置を構成する各構成要素は、連携して図12に従った処理を実行する。図12は、付加情報1ワード分の処理に対応したものとなっている。1ワードのビット数Nwとしては、任意のビット数に設定することができるが、上述のように、本実施形態では、ASCIIコードの実質7ビットに設定されている。
図12においては、まず、ビット配列作成手段70は、付加情報記憶部62から抽出した付加情報の各ワードについて、対応するビット配列を作成する(S101)。ただし、付加情報の埋め込みを行わない場合には、以下S101の処理は行わない。具体的には、まず、付加情報記憶部62から1ワード(7ビット)単位で抽出し、事前に準備された符号変換テーブルを参照し、対応するハミング符号で構成される所定ビット数Nh(例えば16ビット)のビット配列を抽出する。このように、ハミング符号で構成される所定ビット数に変換することにより各符号のハミング距離を所定数以上とすることができ、抽出側で埋め込まれていた値を特定するのに役立つ。このような符号変換テーブルの作成や符号変換テーブルを用いたビット配列の作成は、特許文献3、4等に開示されている手法により行われる。
そして、この16ビットが、音響信号に対する情報の埋め込み装置として用いられるコンピュータ内のレジスタに読み込まれることになる。このように、付加情報記憶部62においては、1ワードは7ビットであるが、埋め込み処理時は、この16ビットの配列で、付加情報内の1ワード分の処理を行う。
次に、周波数成分変更手段30が、レジスタに保持されたNh(=16)ビットから1ビットを読み込む処理を行う(S102)。付加情報の埋め込みを行わない場合には、同様にS102の処理は行わない。続いて、音響フレーム読込手段10が、音響信号記憶部61に記憶されたステレオ音響信号の左右の各チャンネルから、それぞれ所定数のサンプルを奇数番目の1音響フレームとして読み込み、周波数変換手段20が周波数変換を行う(S103)。具体的には、まず、読み込んだ音響フレームに対して、周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る。すなわち、各音響フレームについて、窓関数W(1,i)を用いて、上記〔数式2〕に従った処理を行う。さらに、付加情報を埋め込む場合には、上記〔数式5〕に従った処理を実行してYl(1)、Yr(1)を算出し振幅変換を行う。同様に、音響フレーム読込手段10が、音響信号記憶部61に記憶されたステレオ音響信号の左右の各チャンネルから、それぞれ所定数のサンプルを偶数番目の1音響フレームとして読み込み、周波数変換手段20が周波数変換を行う(S104)。具体的には、まず、読み込んだ音響フレームに対して、周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る。すなわち、各音響フレームについて、窓関数W(2,i)を用いて、上記〔数式3〕に従った処理を行う。さらに、付加情報を埋め込む場合には、上記〔数式5〕に従った処理を実行してYl(2)、Yr(2)を算出し振幅変換を行う。続いて、付加情報を埋め込む場合には、周波数成分変更手段30が、読み込んだビット値に応じて奇数番目音響フレームおよび偶数番目音響フレームの周波数成分の状態を変更するにあたり、〔数式11〕〔数式16〕〔数式18〕に従った処理を実行して変換割合α、β等を決定する処理を行う(S105)。付加情報を埋め込まない場合には、S105の処理は行わない。そして、周波数成分変更手段30は、妨害信号を埋め込むために、上記〔数式6〕〜〔数式9〕に従った処理を実行し、第1の周波数範囲、第2の周波数範囲の周波数成分の状態を変更する。付加情報を1ビット埋め込み方式で埋め込む場合には、周波数成分変更手段30は、併せて、S105において決定された変換割合を用いて、ビット配列作成手段70から受け取った値1、値2に応じて上記〔数式19〕に従った処理を実行し、第3の周波数範囲の成分の状態を“状態1”、“状態2”に応じた状態のいずれかに変更する(S106)。
次に、周波数逆変換手段40が、上記S106の処理により奇数番目の音響フレームに対応する各スペクトル集合の強度が変更されたスペクトルを振幅逆変換(付加情報を埋め込む場合のみ)、周波数逆変換して改変音響フレームを得る処理を行う(S107)。この振幅逆変換は〔数式5〕で算出したYl(1)、Yr(1)の逆数をスペクトルに乗じることにより行ない、この周波数逆変換は、当然のことながら、周波数変換手段20がS103において実行した手法に対応していることが必要となる。本実施形態では、周波数変換手段20において、フーリエ逆変換を施しているため、周波数逆変換手段40は、フーリエ逆変換を実行することになる。具体的には、上記〔数式19〕により得られたスペクトルの左チャンネルの実部Al´(1,j)等、虚部Bl´(1,j)等、右チャンネルの実部Ar´(1,j)等、虚部Br´(1,j)等を用いて、上記〔数式20〕に従った処理を行い、Xl´(i)、Xr´(i)を算出する。改変音響フレーム出力手段50は、得られた改変音響フレームを順次出力ファイルに出力する。
同様に、周波数逆変換手段40が、上記S106の処理により偶数番目の音響フレームに対応する各スペクトル集合の強度が変更されたスペクトルを振幅逆変換(付加情報を埋め込む場合のみ)、周波数逆変換して改変音響フレームを得る処理を行う(S108)。具体的には、振幅逆変換は〔数式5〕で算出したYl(2)、Yr(2)の逆数をスペクトルに乗じることにより行ない、上記〔数式19〕により得られたスペクトルの左チャンネルの実部Al´(2,j)等、虚部Bl´(2,j)等、右チャンネルの実部Ar´(2,j)等、虚部Br´(2,j)等を用いて、上記〔数式21〕に従った処理を行い、Xl´(i)、Xr´(i)を算出する。
改変音響フレーム出力手段50は、得られた改変音響フレームを順次出力ファイルに出力する。こうして各チャンネルについて、奇数番目および偶数番目の2つの音響フレームに対する処理を終えたら、付加情報を埋め込む場合には、周波数成分変更手段30がビット配列中の次の1ビットを読み込む(S102)。以上のような処理を音響信号の両チャンネルの全サンプルに渡って実行していく。すなわち、所定数のサンプルを音響フレームとして読み込み、音響信号から読み込むべき音響フレームがなくなったら(S103、S104)、処理を終了する。なお、付加情報を埋め込む場合には、S101において読み込んだ1ワード分のビット配列(Nh=16ビット)の各ビットに対応する処理を終えた場合、S102からS101に戻り、付加情報の次のワードを読み込んでビット配列を作成する処理を行うことになる。付加情報の全ワードに対して処理が終了した場合は、付加情報の先頭ワードに戻って処理を行う。この結果、全ての音響フレームに対して処理を行った全ての改変音響フレームが出力ファイルに記録されて、改変音響信号として得られる。得られた改変音響信号は、記憶手段60内の改変音響信号記憶部63に出力され、記憶される。
なお、本実施形態では、付加情報を埋め込む場合には、付加情報を1ワード7ビットとし、符号変換テーブルにより16ビットのビット配列に変換して、付加情報1ワード分の処理をする場合について説明したが、本発明では、抽出側と取り決めがある限り、付加情報の1ワードを他のビット数単位で記録することが可能である。
上記のようにして得られた改変音響信号のうち、第1の周波数範囲においては、多少の強度の差はあるものの、上位周波数帯、下位周波数帯ともに1フレーム間隔で強弱パターンを繰り返す分布になる。また、第2の周波数範囲においては、音脈分凝を適用する場合は、第1の周波数範囲と同様、上位周波数帯、下位周波数帯ともに1フレーム間隔で強弱パターンを繰り返す分布となり、聴覚マスキングを適用する場合は、上位周波数帯のみ1フレーム間隔で狭帯域の白色雑音が付加される分布となる。また、付加情報が埋め込まれている第3の周波数範囲については、変更対象周波数帯の成分は、1ビット埋め込み方式の場合は、状態1、状態2の2通り、2ビット埋め込み方式の場合は、それぞれのビットについて2通りの計4通りの分布しかないことになる。しかし、第1〜第3の周波数範囲の成分以外については、元の音響信号のままであるので、制作者の設定に基づいた種々な分布になる。
以上のようにして、妨害信号、補間信号が埋め込まれた音響信号が再生されると、上述のように、高周波側の第1の周波数範囲では音脈分凝、低周波側の第2の周波数範囲では音脈分凝または聴覚マスキングにより妨害信号が補間またはかき消され知覚されなくなるため、スピーカから発せられた音を聴いた人には、妨害音は聞こえない。しかし、その音を一般的な録音機器により録音すると、その感度領域に含まれる第1の周波数範囲の下位側、第2の周波数範囲の上位側の音を比較的減衰されずに取得し、第1の周波数範囲の上位側、第2の周波数範囲の下位側の音を比較的減衰された状態で取得するか、または取得しない。そのため、録音により得られた音響信号を再生すると、補間信号が殆ど存在しないため、妨害音が聞こえることになり、少なくとも複製品を商品(海賊版)として出荷することは困難になる。この結果、ビデオカメラやボイスレコーダ等のマイクを介した録音により音響信号を複製することを防止することが可能となる。
また、ビデオカメラやボイスレコーダで記録される際に、MPEGなど公知の音声または音楽非可逆圧縮が施されることが多い。妨害信号、補間信号が埋め込まれた音響信号に対して、音声または音楽非可逆圧縮を施すと、圧縮仕様によっては、第1の周波数範囲の上位側の成分が符号化対象にならず完全に削除されることが多く、更に第2の周波数範囲の下位側の成分も符号化対象にならず削除されることがある。(例えば、MPEG−1/Layer3方式では、24または32kHzで再サンプリングされるため、12kHzまたは16kHz以上の成分は完全に削除される。更に3GPP音声圧縮モードでは、8kHzで再サンプリングされるため、4kHz以上の成分は完全に削除されるとともに、300Hz以下の成分も削除される。)そのため、たとえマイクロフォンの感度領域が広帯域であっても、符号化・記録の段階で同様に帯域圧縮がなされ、記録された音響信号を再生すると、妨害音が聞こえることになり、同様に複製品を商品(海賊版)として出荷することは困難になる。
一方、第3の周波数範囲に埋め込まれた付加情報については、特許文献3、4に開示の抽出装置により抽出することが可能となる。
(3.妨害信号の埋め込みと録音により得られる音)
ここで、妨害信号の埋め込みによる音のパターンの変化と、妨害信号が埋め込まれた音響信号の再生音を録音した場合に得られる音について説明する。図13は、第1の周波数範囲に音脈分凝、第2の周波数範囲に聴覚マスキングに対応した妨害信号の埋め込みを行った場合の周波数成分の変化の様子を概念的に示した図である。
図13においては、L-ch(左チャンネル)のみを示している。また、u、dはそれぞれ相対的に高周波、低周波成分を示し、1〜6は先頭からの音響フレームの順番を示している。したがって、図13の例では、6個の音響フレームを示しており、例えば、“Hu1”は、1番目の音響フレームの高周波側成分を示していることになる。また、奇数番目と偶数番目の音響フレームは、実際に半分のサンプルが重複して設定されるが、図13では、説明の便宜上独立した形態で示している。また、図13において、“Hu1”等の各周波数成分の文字の大きさは、相対的な強度の大小を示している。
図13においては、図13(a)は元の音響信号を示しており、図13(b)は埋め込み処理後の音響信号を示している。図13(a)と図13(b)を比較するとわかるように、第1の周波数範囲では、第1上位周波数帯のスペクトル集合と第1下位周波数帯のスペクトル集合の強度が交互に強弱が入れ替わるように変更される。また、第2の周波数範囲では、奇数番目の音響フレームの第2上位周波数帯のスペクトル集合に第2下位周波数帯に基づく強度が加算される。
図14は、図13(b)に示した妨害信号・補間信号埋め込み後の音響信号を再生した場合における、人の聴取状態、録音機器により録音された音響信号を示す図である。図14(a)は、図13(b)に示した埋め込み後の音響信号の再生音が人に聞こえる状態、図14(b)は、録音機器により録音された音響信号を示す。図14(a)に示すように、図13(b)の埋め込み音響信号は、そのまま人の耳に入る。しかし、音脈分凝および聴覚マスキングにより補間されて人には妨害信号による雑音は聞こえない。しかし、図14(b)に示すように、第1上位周波数帯と第2下位周波数帯の成分は録音機器により録音されない。そのため、第1下位周波数帯では音脈分凝が働かず、振幅揺らぎが可聴化されて雑音となる。また、第2上位周波数帯では聴覚マスキングが働かず、雑音が可聴化される。
(4.変形例等)
以上、本発明の好適な実施形態について限定したが、本発明は上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、第3の周波数範囲に付加情報を埋め込むようにしたが、これは必須の処理ではない。第1の周波数範囲に音脈分凝に対応した妨害信号および補間信号を埋め込むだけでも、一般的な録音機器の感度領域の上限に埋め込まれた妨害信号により複製という意味での録音を防止することができる。また、第2の周波数範囲に聴覚マスキングに対応した妨害信号を埋め込むだけでも、一般的な録音機器の感度領域の下限に埋め込まれた妨害信号により複製という意味での録音を防止することができる。第1の周波数範囲に妨害信号および補間信号を埋め込み、第2の周波数範囲に妨害信号および補間信号(聴覚マスキングの場合は妨害信号のみ)を埋め込んだ場合は、一般的な録音機器の感度領域の上限および下限に埋め込まれた妨害信号により複製という意味での録音を防止することができる。第3の周波数範囲に付加情報を埋め込む場合、同時に著作権者情報を抽出することができ、万が一、第1の周波数範囲および第2の周波数範囲を完全に削除するような改変が行われても、コピー元を追跡することが可能となる。
また、上記実施形態では、商品として一般に流通している2チャンネルのステレオ音響信号を利用した場合を例にとって説明したが、5.1チャンネルのサラウンド音響信号に対してもLFCを除く5チャンネルの各音響信号に同様な処理を施せば良く(LFC重低音チャンネルに対しては、第2の周波数範囲のみ適用)、逆に1チャンネルのモノラル音響信号を利用しても良い。この場合は、上記LチャンネルまたはRチャンネルのいずれか一方に対して行った処理を実行すれば良い。
10・・・音響フレーム読込手段
20・・・周波数変換手段
30・・・周波数成分変更手段
40・・・周波数逆変換手段
50・・・改変音響フレーム出力手段
60・・・記憶手段
61・・・音響信号記憶部
62・・・付加情報記憶部
63・・・改変音響信号記憶部
70・・・ビット配列作成手段

Claims (11)

  1. 時系列のサンプル列で構成される音響信号に対して、雑音を発する妨害信号および当該妨害信号による雑音を打ち消す補間信号を聴取不能な状態で埋め込み、埋め込まれた音響信号に対して周波数帯域幅を狭めて取得された場合に、前記埋め込まれた補間信号が欠落することにより、前記埋め込まれた妨害信号が聴取可能になるように埋め込む装置であって、
    前記音響信号より、所定数のサンプルを1つの音響フレームとして読み込む音響フレーム読込手段と、
    前記読み込んだ音響フレームのうち、奇数番目および偶数番目の双方の音響フレームに対して所定の窓関数を用いて周波数変換を行い、複素周波数成分である奇数窓スペクトルおよび偶数窓スペクトルを得る周波数変換手段と、
    前記生成された各奇数窓スペクトルおよび偶数窓スペクトルの第1の周波数範囲における互いに重複しない2つの周波数帯である第1上位周波数帯、第1下位周波数帯から、スペクトル集合を各々抽出し、奇数窓スペクトルの第1下位周波数帯に対応する第1下位奇数スペクトル集合と、偶数窓スペクトルの第1上位周波数帯に対応する第1上位偶数スペクトル集合を1つの組、奇数窓スペクトルの第1上位周波数帯に対応する第1上位奇数スペクトル集合と、偶数窓スペクトルの第1下位周波数帯に対応する第1下位偶数スペクトル集合を1つの組とし、一方の組の各スペクトル集合の強度を減弱させるように所定の1未満の係数を乗算するとともに、他方の組の各スペクトル集合の強度を増強させるように所定の1以上の係数を乗算することにより、第1上位奇数スペクトル集合、第1下位奇数スペクトル集合、第1上位偶数スペクトル集合、第1下位偶数スペクトル集合の各強度を変更するとともに、前記生成された各奇数窓スペクトルおよび偶数窓スペクトルにおける、前記第1の周波数範囲より低い第2の周波数範囲において互いに重複しない2つの周波数帯である第2上位周波数帯、第2下位周波数帯から、スペクトル集合を各々抽出し、奇数窓スペクトルの第2下位周波数帯に対応する第2下位奇数スペクトル集合と、偶数窓スペクトルの第2上位周波数帯に対応する第2上位偶数スペクトル集合を1つの組、奇数窓スペクトルの第2上位周波数帯に対応する第2上位奇数スペクトル集合と、偶数窓スペクトルの第2下位周波数帯に対応する第2下位偶数スペクトル集合を1つの組とし、一方の組の各スペクトル集合の強度を減弱させるように所定の1未満の係数を乗算するとともに、他方の組の各スペクトル集合の強度を増強させるように所定の1以上の係数を乗算することにより、第2上位奇数スペクトル集合、第2下位奇数スペクトル集合、第2上位偶数スペクトル集合、第2下位偶数スペクトル集合の各強度を変更する周波数成分変更手段と、
    前記周波数成分が変更された第1上位奇数スペクトル集合、第1下位奇数スペクトル集合、第2上位奇数スペクトル集合、第2下位奇数スペクトル集合を含む各奇数窓スペクトル、および前記周波数成分が変更された上位第1偶数スペクトル集合、第1下位偶数スペクトル集合、第2上位偶数スペクトル集合、第2下位偶数スペクトル集合を含む各偶数窓スペクトルに対して周波数逆変換を行って、改変音響フレームを生成する周波数逆変換手段と、
    前記生成された改変音響フレームを順次出力する改変音響フレーム出力手段と、を有し、
    前記第1上位周波数帯が、スピーカにより出力可能であって、マイクロフォン入力や音声圧縮処理により、前記第1下位周波数帯に比べて減衰する範囲に設定され、前記第2下位周波数帯が、スピーカにより出力可能であって、マイクロフォン入力や音声圧縮処理により、前記第2上位周波数帯に比べて減衰する周波数範囲に設定されることを特徴とする音響信号に対する妨害信号の埋め込み装置。
  2. 請求項1において、
    前記第1上位周波数帯と第1下位周波数帯の境界は11kHz〜13kHzの範囲で設定され、前記第2上位周波数帯と第2下位周波数帯の境界は150Hz〜350Hzの範囲で設定されることを特徴とする音響信号に対する妨害信号の埋め込み装置。
  3. 時系列のサンプル列で構成される音響信号に対して、雑音を発する妨害信号および当該妨害信号による雑音を打ち消す補間信号を聴取不能な状態で埋め込み、埋め込まれた音響信号に対して周波数帯域幅を狭めて取得された場合に、前記埋め込まれた補間信号が欠落することにより、前記埋め込まれた妨害信号が聴取可能になるように埋め込む装置であって、
    前記音響信号より、所定数のサンプルを1つの音響フレームとして読み込む音響フレーム読込手段と、
    前記読み込んだ音響フレームのうち、奇数番目および偶数番目の双方の音響フレームに対して所定の窓関数を用いて周波数変換を行い、複素周波数成分である奇数窓スペクトルおよび偶数窓スペクトルを得る周波数変換手段と、
    前記生成された各奇数窓スペクトルおよび偶数窓スペクトルの第1の周波数範囲における互いに重複しない2つの周波数帯である第1上位周波数帯、第1下位周波数帯から、スペクトル集合を各々抽出し、奇数窓スペクトルの第1下位周波数帯に対応する第1下位奇数スペクトル集合と、偶数窓スペクトルの第1上位周波数帯に対応する第1上位偶数スペクトル集合を1つの組、奇数窓スペクトルの第1上位周波数帯に対応する第1上位奇数スペクトル集合と、偶数窓スペクトルの第1下位周波数帯に対応する第1下位偶数スペクトル集合を1つの組とし、一方の組の各スペクトル集合の強度を減弱させるように所定の1未満の係数を乗算するとともに、他方の組の各スペクトル集合の強度を増強させるように所定の1以上の係数を乗算することにより、第1上位奇数スペクトル集合、第1下位奇数スペクトル集合、第1上位偶数スペクトル集合、第1下位偶数スペクトル集合の各強度を変更するとともに、前記生成された各奇数窓スペクトル、偶数窓スペクトルのいずれか一方における、前記第1の周波数範囲より低い第2の周波数範囲において互いに重複しない2つの周波数帯である第2上位周波数帯、第2下位周波数帯から、スペクトル集合を各々抽出し、第2下位周波数帯に対応する第2下位スペクトル集合の各周波数成分の平均強度に所定の係数γを乗じたものを、第2上位周波数帯に対応する第2上位スペクトル集合の各周波数成分の強度に加算することにより、第2上位スペクトル集合の強度を変更する周波数成分変更手段と、
    前記周波数成分が変更された第1上位奇数スペクトル集合、第1下位奇数スペクトル集合を含む各奇数窓スペクトル、および前記周波数成分が変更された第1上位偶数スペクトル集合、第1下位偶数スペクトル集合を含む各偶数窓スペクトルに対して周波数逆変換を行って、改変音響フレームを生成する周波数逆変換手段と、
    前記生成された改変音響フレームを順次出力する改変音響フレーム出力手段と、
    を有することを特徴とする音響信号に対する妨害信号の埋め込み装置。
  4. 請求項1から請求項3のいずれか一項において、
    前記音響信号に対して、さらに付加情報を聴取不能な状態で埋め込む装置であって、
    前記周波数変換手段は、前記所定の窓関数として互いに異なる第1窓関数と第2窓関数を用い、奇数番目および偶数番目の音響フレームの一方に対しては第1窓関数を用いて周波数変換を行い、他方に対しては第2窓関数を用いて周波数変換を行うものであり、
    前記周波数成分変更手段は、前記生成された各奇数窓スペクトルおよび偶数窓スペクトルにおける、前記第1の周波数範囲、前記第2の周波数範囲のいずれとも重複しない第3の周波数範囲において互いに重複しない2つの周波数帯である第3上位周波数帯、第3下位周波数帯から、スペクトル集合を各々抽出し、奇数窓スペクトルの第3下位周波数帯に対応する第3下位奇数スペクトル集合と、偶数窓スペクトルの第3上位周波数帯に対応する第3上位偶数スペクトル集合を1つの組、奇数窓スペクトルの第3上位周波数帯に対応する第3上位奇数スペクトル集合と、偶数窓スペクトルの第3下位周波数帯に対応する第3下位偶数スペクトル集合を1つの組とし、埋め込むべきビット配列に基づいて、一方の組の各スペクトル集合の強度に対して相対的に大きい係数を乗じ、他方の組の各スペクトル集合の強度に対して相対的に小さい係数を乗じて、第3上位奇数スペクトル集合、第3下位奇数スペクトル集合、第3上位偶数スペクトル集合、第3下位偶数スペクトル集合の各強度を変更するものであることを特徴とする音響信号に対する妨害信号の埋め込み装置。
  5. 請求項1から請求項3のいずれか一項において、
    前記音響信号に対して、さらに付加情報を聴取不能な状態で埋め込む装置であって、
    前記周波数変換手段は、前記所定の窓関数として互いに異なる第1窓関数と第2窓関数を用い、奇数番目および偶数番目の音響フレームの一方に対しては第1窓関数を用いて周波数変換を行い、他方に対しては第2窓関数を用いて周波数変換を行うものであり、
    前記周波数成分変更手段は、前記生成された各奇数窓スペクトルおよび偶数窓スペクトルにおける、前記第1の周波数範囲、前記第2の周波数範囲のいずれとも重複しない第3の周波数範囲において互いに重複しない4つの周波数帯である最上位周波数帯、中上位周波数帯、中下位周波数帯、最下位周波数帯から、スペクトル集合を各々抽出し、中上位周波数帯以上においては、奇数窓スペクトルの中上位周波数帯に対応する中上位奇数スペクトル集合と、偶数窓スペクトルの最上位周波数帯に対応する最上位偶数スペクトル集合を1つの組、奇数窓スペクトルの最上位周波数帯に対応する最上位奇数スペクトル集合と、偶数窓スペクトルの中上位周波数帯に対応する中上位偶数スペクトル集合を1つの組とし、一方の組の各スペクトル集合の強度に対して相対的に大きい係数を乗じ、他方の組の各スペクトル集合の強度に対して相対的に小さい係数を乗じて、最上位奇数スペクトル集合、中上位奇数スペクトル集合、最上位偶数スペクトル集合、中上位偶数スペクトル集合の各強度を変更し、中下位周波数帯以下においては、奇数窓スペクトルの最下位周波数帯に対応する最下位奇数スペクトル集合と、偶数窓スペクトルの中下位周波数帯に対応する中下位偶数スペクトル集合を1つの組、奇数窓スペクトルの中下位周波数帯に対応する中下位奇数スペクトル集合と、偶数窓スペクトルの最下位周波数帯に対応する最下位偶数スペクトル集合を1つの組とし、一方の組の各スペクトル集合の強度に対して相対的に大きい係数を乗じ、他方の組の各スペクトル集合の強度に対して相対的に小さい係数を乗じて、中下位奇数スペクトル集合、最下位奇数スペクトル集合、中下位偶数スペクトル集合、最下位偶数スペクトル集合の各強度を変更するものであることを特徴とする音響信号に対する妨害信号の埋め込み装置。
  6. 請求項4または請求項5において、
    前記第3の周波数範囲は850Hzから3.4kHzであり、スピーカにより出力可能であって、マイクロフォン入力や音声圧縮処理により減衰の少ない範囲に設定されていることを特徴とする音響信号に対する妨害信号の埋め込み装置。
  7. 請求項4または請求項5において、
    前記第1窓関数および第2窓関数は、前記1つの音響フレームのサンプル数をNとして、サンプル位置i(0≦i≦N−1)におけるにおける重みW(i)(0≦W(i)≦1)が、W(i)=0.5−0.5cos(2πi/N)で定義されるハニング窓関数を時間軸方向の中心N/2から非対称に2分割したものであり、前記第1窓関数は、前半分(0≦i≦N/2−1)に重みの最大値が存在し、前記第2窓関数は、後半分(N/2≦i≦N−1)に重みの最大値があることを特徴とする音響信号に対する妨害信号の埋め込み装置。
  8. 請求項から請求項7のいずれか一項において、
    前記第2の周波数範囲は20Hzから600Hzであり、
    前記第2下位周波数帯が、スピーカにより出力可能であって、マイクロフォン入力や音声圧縮処理により、前記第2上位周波数帯に比べて顕著に減衰する範囲に設定されることを特徴とする音響信号に対する妨害信号の埋め込み装置。
  9. 請求項1から請求項3のいずれか一項において、
    前記所定の窓関数は、前記1つの音響フレームのサンプル数をNとして、サンプル位置i(0≦i≦N−1)における重みW(i)(0≦W(i)≦1)が、W(i)=0.5−0.5cos(2πi/N)で定義されるハニング窓関数であることを特徴とする音響信号に対する妨害信号の埋め込み装置。
  10. 請求項1から請求項9のいずれか一項において、
    前記第1の周波数範囲は4kHzから18kHzであり、
    前記第1上位周波数帯が、スピーカにより出力可能であって、マイクロフォン入力や音声圧縮処理により、前記第1下位周波数帯に比べて顕著に減衰する範囲に設定されることを特徴とする音響信号に対する妨害信号の埋め込み装置。
  11. 請求項1から請求項10のいずれか一項に記載の音響信号に対する妨害信号の埋め込み装置として、コンピュータを機能させるためのプログラム。
JP2011232068A 2011-10-21 2011-10-21 音響信号に対する妨害信号の埋め込み装置 Expired - Fee Related JP5906659B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011232068A JP5906659B2 (ja) 2011-10-21 2011-10-21 音響信号に対する妨害信号の埋め込み装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011232068A JP5906659B2 (ja) 2011-10-21 2011-10-21 音響信号に対する妨害信号の埋め込み装置

Publications (2)

Publication Number Publication Date
JP2013088771A JP2013088771A (ja) 2013-05-13
JP5906659B2 true JP5906659B2 (ja) 2016-04-20

Family

ID=48532699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011232068A Expired - Fee Related JP5906659B2 (ja) 2011-10-21 2011-10-21 音響信号に対する妨害信号の埋め込み装置

Country Status (1)

Country Link
JP (1) JP5906659B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5987511B2 (ja) * 2012-07-10 2016-09-07 大日本印刷株式会社 音響信号に対する妨害音の埋め込み装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4867765B2 (ja) * 2007-04-05 2012-02-01 大日本印刷株式会社 音響信号に対する情報の埋め込み装置および音響信号からの情報の抽出装置
WO2011100802A1 (en) * 2010-02-19 2011-08-25 The Bionic Ear Institute Hearing apparatus and method of modifying or improving hearing
JP5569033B2 (ja) * 2010-02-26 2014-08-13 大日本印刷株式会社 音響信号に対する情報の埋め込み装置

Also Published As

Publication number Publication date
JP2013088771A (ja) 2013-05-13

Similar Documents

Publication Publication Date Title
US9361898B2 (en) Three-dimensional sound compression and over-the-air-transmission during a call
CN101133680B (zh) 用于产生已编码立体声信号的设备及方法
TWI352971B (en) Apparatus and method for generating an ambient sig
JP4664431B2 (ja) アンビエンス信号を生成するための装置および方法
WO2007137232A2 (en) Method of modifying audio content
JP2010538572A (ja) オーディオ信号デコーディング方法及び装置
JP5611970B2 (ja) オーディオ信号を変換するためのコンバータ及び方法
JP2012509632A5 (ja) オーディオ信号を変換するためのコンバータ及び方法
JP4867765B2 (ja) 音響信号に対する情報の埋め込み装置および音響信号からの情報の抽出装置
KR20140017639A (ko) 부가적인 출력 채널들을 제공하기 위하여 스테레오 출력 신호를 발생시키기 위한 장치와 방법 및 컴퓨터 프로그램
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
JP2006323182A (ja) 音響信号に対する情報の埋め込み装置、音響信号からの情報の抽出装置、および音響信号再生装置
JP5906659B2 (ja) 音響信号に対する妨害信号の埋め込み装置
US20110261971A1 (en) Sound Signal Compensation Apparatus and Method Thereof
JP4910920B2 (ja) 音響信号に対する情報の埋め込み装置および音響信号からの情報の抽出装置
JP6078993B2 (ja) 音響信号に対する妨害音の埋込み装置
JP2010169443A (ja) 音響信号に対する情報の埋め込み装置および音響信号を利用した位置検出装置
JP5569033B2 (ja) 音響信号に対する情報の埋め込み装置
JP4910959B2 (ja) 音響信号に対する情報の埋め込み装置および音響信号からの情報の抽出装置
JP6003098B2 (ja) 音響信号に対する妨害雑音の埋め込み装置
JP5987511B2 (ja) 音響信号に対する妨害音の埋め込み装置
JP5310498B2 (ja) 音響信号に対する情報の埋め込み装置
JP6003107B2 (ja) 音響信号に対する第2の音響信号の埋め込み装置および音響信号に対する妨害音の埋め込み装置
JP4968468B2 (ja) 音響信号に対する情報の埋め込み装置および音響信号からの情報の抽出装置
JP6003099B2 (ja) 音響信号に対する異なる音響信号の埋め込み装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20130823

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150728

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160223

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160307

R150 Certificate of patent or registration of utility model

Ref document number: 5906659

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees