JP5987511B2

JP5987511B2 - 音響信号に対する妨害音の埋め込み装置

Info

Publication number: JP5987511B2
Application number: JP2012154254A
Authority: JP
Inventors: 茂出木　敏雄; 敏雄茂出木; 慎一宮崎; 関口　剛; 剛関口; 祐二小須田
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2012-07-10
Filing date: 2012-07-10
Publication date: 2016-09-07
Anticipated expiration: 2032-07-10
Also published as: JP2014017687A

Description

本発明は、ＣＤ・ＤＶＤ・ＢＤ等を用いた民生・業務用途における鑑賞用のパッケージ音楽分野、および音楽コンテンツプロバイダー等が商業目的で配信するネットワーク音楽配信分野に関し、特に、映画館・劇場等における音の盗音を防止する技術に関する。

従来、音楽コンテンツの複製防止のため、様々な技術が開発されている。例えば、ＤＲＭ（ＤｉｇｉｔａｌＲｉｇｈｔｓＭａｎａｇｅｍｅｎｔ:特許文献１参照）という方式では、デジタルの音楽コンテンツに暗号化を施すことにより音楽コンテンツの複製を防止している。しかし、ＤＲＭ方式では、デジタルコンテンツのコピーを防止することは可能であるが、アナログコンテンツのコピーを防止することはできない。すなわち、再生信号をスピーカ出力よりボイスレコーダまたはマイクロフォンで録音することにより複製可能となる。この時、録音機器はポケットやカバンに収納した状態で複製行為が実行できるため、音楽コンテンツの違法複製の取り締まりを困難にしている。

現状、国内における最も大きな問題は、海外の映画館で違法録画された映像コンテンツの日本語版が上映されている映画館にポケットに収納可能な携帯型ボイスレコーダまたはスマートフォンを持ち込み、スピーカから流れるサウンドトラックだけを隠し録りし、先の海外で違法録画された映像コンテンツのサウンドトラックを差し替えて、ネットに配信する行為により、映画館の興業収入や正規版のＤＶＤ・ＢＤの売り上げにダメージを与えていることである。日本国内で行われる映画の盗撮行為は海賊版作成といった商業目的ではなく、動画投稿サイトにアップするといったボランティア目的である。スクリーンの盗撮は、犯行が目立ちやすく、法整備により検挙されたときの罰則が厳しくなったため、リスクを背負ってまでボランティア目的で犯行する人はいなくなった。しかし、サウンドトラックの違法録音については、暗い映画館の中で目撃されるリスクは殆どないため、前述のような行為がポピュラーになり、業界関係者は対策に苦慮している。

特表２００３−５１７７６７号公報特開２００８−２５６９４８号公報特開２００９−７５３３２号公報

アナログ的な音響コンテンツの複製を防止する手法として、出願人は、音響信号に所定の改変を加えることにより、付加情報を聴取不能な状態で埋め込む技術を開発している。特に、ヒトの聴覚感度が高い周波数範囲においても、音脈分凝の原理により不快感なく付加情報の埋め込みを行う技術も提案している（特許文献２、３参照）。この方法では、スピーカから再生される音波に対してマイクロフォンで再録音した音響コンテンツや、種々な方法で圧縮が施された音響コンテンツからも所定の付加情報を抽出することができ、付加情報として著作権者を特定する情報を埋め込んでおけば、違法コピーであることを証明することができる。しかし、違法コピー行為自体を阻止することはできず、違法コピーされた音響コンテンツに埋め込まれている付加情報は聴取されないため、違法コピーされた音響コンテンツは商用品質を維持できないかもしれないが、通常の鑑賞には支障をきたさないという問題がある。

そこで、本発明は、音響信号に所定の改変を加えることにより改変を加えた音響信号の再生時に聴取されないように妨害音を埋め込み、改変を加えた音響信号の再生により発せられた音をアナログ的に録音または圧縮処理により帯域圧縮が施された場合に、帯域圧縮された複製音響信号の再生時に発生された妨害音が聴取されるようにすることが可能な音響信号に対する妨害音の埋め込み装置を提供することを課題とする。

上記課題を解決するため、本発明第１の態様では、時系列のサンプル列で構成される音響信号に対して、改変対象の周波数帯である改変周波数帯に対して改変を加え、改変を加えて得られる改変音響信号を再生した場合には聴取不能であり、前記改変音響信号を改変周波数帯に対して高域または低域の所定の成分を除いて複製した複製音響信号を再生した場合に可聴となるように妨害音を埋め込む装置であって、前記音響信号より、所定数のサンプルを１つの音響フレームとして読み込む音響フレーム読込手段と、前記読み込んだ音響フレームに対して、所定の窓関数を用いて時間−周波数変換を行い、周波数成分である窓スペクトルを得る時間−周波数変換手段と、前記窓スペクトルの中で奇数番目の音響フレームに対応する奇数窓スペクトルから前記改変周波数帯における奇数スペクトル集合を抽出し、前記奇数番目の音響フレームに隣接する偶数番目の音響フレームに対応する偶数窓スペクトルから前記改変周波数帯における偶数スペクトル集合を抽出し、互いに対応する前記奇数スペクトル集合の成分と偶数スペクトル集合の成分を、両者が互いの値を所定の割合だけ反映するように改変を加える周波数成分改変手段と、前記周波数成分が改変された奇数スペクトル集合を含む奇数窓スペクトル、および前記周波数成分が改変された偶数スペクトル集合を含む偶数窓スペクトルに対して周波数−時間変換を行って、改変音響フレームを生成する周波数−時間変換手段と、前記生成された改変音響フレームを順次出力する改変音響フレーム出力手段と、を有することを特徴とする音響信号に対する妨害音の埋め込み装置を提供する。

本発明第１の態様によれば、音響信号において、奇数番目および偶数番目の音響フレームに対して周波数変換を行って、奇数窓スペクトルおよび偶数窓スペクトルを得て、改変周波数帯における互いに対応する前記奇数スペクトル集合の成分と偶数スペクトル集合の成分を、両者が互いの値を所定の割合だけ反映するように改変を加えるようにしたので、改変周波数帯における音脈が局所的に逆転することになり、音響信号の逆回し再生に類似した顕著な雑音（妨害音）が発生するが、スピーカから発せられた音を人が聞いた場合には、改変周波数帯における音脈の局所的な逆転成分は、音脈分凝に類似の作用により改変周波数帯に隣接する上下の周波数帯からの原音の音脈に揃うように補間されるため、妨害音は聞こえない。しかし、録音機器で、スピーカから発せられた音を録音した場合には、録音機器等の感度特性に基づいて帯域幅が圧縮された複製音響信号が得られるため、その複製音響信号を再生した場合には、改変周波数帯に記録された妨害信号に隣接する上下いずれかの周波数成分が欠落するため、改変周波数帯における音脈の局所的な逆転成分に対する前記補間作用は働かなくなり、妨害音として再生されるため、鑑賞に堪える品質で再生可能な録音を防止することが可能になる。

本発明第２の態様では、本発明第１の態様の音響信号に対する妨害音の埋め込み装置において、前記改変周波数帯として互いに他の改変周波数帯と重ならないように複数個の改変周波数帯を設定し、前記周波数成分改変手段は、前記複数個の改変周波数帯に対して、改変を加えることを特徴とする。

本発明第２の態様によれば、改変周波数帯を複数個設定し、複数個の改変周波数帯に対して、改変を加えるようにしたので、録音機器の周波数感度の上限と下限の一方が、１つの改変周波数帯付近でない場合であっても、録音機器の周波数感度の上限と下限の他方が、別の改変周波数帯付近となる確率が高まり、複製音響信号において、改変周波数帯に隣接し、録音機器等の感度を超える成分を欠落させることができる可能性も高くなる。即ち、種々の入力周波数特性をもつ録音機器に対して所望の妨害音を発生させる効果をもたせることができる。

本発明第３の態様では、本発明第１または第２の態様の音響信号に対する妨害音の埋め込み装置において、前記周波数成分改変手段は、前記改変周波数帯における奇数スペクトル集合の成分と偶数スペクトル集合の成分を、それぞれ自身の割合と他方の割合を加えて１になる範囲で、両者が互いの値を所定の割合だけ反映するように改変を加えることを特徴とする。

本発明第３の態様によれば、改変周波数帯における処理で、奇数スペクトル集合の成分と偶数スペクトル集合の成分を、両者が互いの値を所定の割合だけ反映する改変を行う際に、奇数スペクトル集合の成分、偶数スペクトル集合の成分、それぞれについて一方の割合と他方の割合を加えて１になる範囲で反映させるようにしたので、音響信号の平均的な振幅は原音と大きく変化させることなく、２つの音響フレーム間における流れを逆転させることが可能となる。

本発明第４の態様では、本発明第３の態様の音響信号に対する妨害音の埋め込み装置において、前記周波数成分改変手段は、前記改変周波数帯における奇数スペクトル集合の成分と偶数スペクトル集合の成分を、それぞれ自身の割合を０、他方の割合を１として成分を交換するように改変を加えることを特徴とする。

本発明第４の態様によれば、改変周波数帯における奇数スペクトル集合の成分と偶数スペクトル集合の成分を、それぞれ自身の割合を０、他方の割合を１として成分を交換するようにしたので、連続する２つの音響フレーム間で流れが完全に逆転し、妨害音を明瞭に発生させることが可能となる。

本発明第５の態様では、本発明第１から第４のいずれかの態様の音響信号に対する妨害音の埋め込み装置において、前記改変周波数帯として、１００Ｈｚから５００Ｈｚの範囲、６ｋＨｚから１６ｋＨｚの範囲のいずれか一方、または双方を少なくとも設定することを特徴とする。

本発明第５の態様によれば、改変周波数帯として、低域側については、１００Ｈｚから５００Ｈｚの範囲、高域側については６ｋＨｚから１６ｋＨｚの範囲を設定するようにしたので、一般的な録音機器の下限、上限である２５０Ｈｚ、１２ｋＨｚを超える成分が欠落して複製された音響信号を再生した場合に、妨害音を発生させることができる。また、スピーカにより出力可能な周波数範囲であり、ほとんどの録音機器の周波数感度の下限、上限であり、音声圧縮処理の場合でも下限、上限となる１００Ｈｚ、１６ｋＨｚを改変周波数帯の各々下限、上限としているため、精度の高い録音機器を用いて複製されたり、圧縮されたりした場合であっても、複製された音響信号の再生時に妨害音を発生させることが可能となる。発明者等による実験の結果、低域側については４００Ｈｚから６００Ｈｚの範囲、高域側については６ｋＨｚから８ｋＨｚの範囲に設定した場合に、最も効果的に妨害音を埋め込むことができることを確認したため、これらの範囲に設定することがより望ましい。

本発明第６の態様では、本発明第１から第５のいずれかの態様の音響信号に対する妨害音の埋め込み装置において、前記所定の窓関数は、前記１つの音響フレームのサンプル数をＮとして、サンプル位置ｉ（０≦ｉ≦Ｎ−１）における重みＷ（ｉ）（０≦Ｗ（ｉ）≦１）が、Ｗ（ｉ）＝０．５−０．５ｃｏｓ（２πｉ／Ｎ）で定義されるハニング窓関数であることを特徴とする。

本発明第６の態様によれば、所定の窓関数として、奇数番目、偶数番目の音響フレームいずれに対しても、共通のハニング窓関数を用いるようにしたので、妨害音を埋め込む場合に、原音響信号に与えるダメージを低減でき、改変による再生品質への影響を抑えることが可能となる。

本発明によれば、音響信号に所定の改変を加えることにより改変を加えた音響信号の再生時に聴取されないように妨害音を埋め込み、改変を加えた音響信号の再生により発せられた音を録音または圧縮処理することにより帯域圧縮が施された場合に、帯域圧縮された複製音響信号の再生時に埋め込まれた妨害音が聴取されるようにすることが可能となる。

本発明の基本概念を説明するための図である。２つの改変周波数帯に妨害音を埋め込んだ場合の周波数成分の変化を示す図である。図２（ｂ）に示した妨害音埋め込み後の改変音響信号を再生した場合の、人の聴取状態、録音機器等で複製された複製音響信号を示す図である。本発明に係る音響信号に対する妨害音の埋め込み装置のハードウェア構成図である。本発明に係る音響信号に対する妨害音の埋め込み装置の機能ブロック図である。奇数番目の音響フレームと偶数番目の音響フレームの改変の概念図である。本発明に係る音響信号に対する妨害音の埋め込み装置の処理概要を示すフローチャートである。

以下、本発明の実施形態について図面を参照して詳細に説明する。
（１．本発明の基本概念）
最初に、本発明の基本概念について説明しておく。本発明では、違法録音において利用が想定されるマイクロフォン等の録音機器の感度上限もしくは下限周波数付近、または違法録音において利用が想定される音声・音楽非可逆圧縮ツールの符号化上限もしくは下限周波数付近の所定の周波数範囲に妨害音を発生させるための妨害信号を記録する。そして、好適な実施形態として、さらにマイクロフォン等の録音機器の感度上限および下限双方の周波数付近の所定の周波数範囲にも妨害信号を記録する。妨害音とは、本来、原音響信号に記録された音を人が聴取するのを妨害するための音である。妨害信号とは、妨害音を発生させるための信号である。

図１は、本発明の基本概念を説明するための図である。図１（ａ）（ｂ）（ｃ）は、それぞれヒトの聴覚により取得された音、原音響信号、録音機器により取得され複製された音響信号、の周波数範囲別の構成を示している。図１において左右方向は周波数を示し、左側が低周波、右側が高周波である。ヒトの聴覚の感度領域は２０Ｈｚ〜２０ｋＨｚであり、一般的な音響コンテンツに含まれる音響信号もヒトの聴覚の感度領域に合わせて２０Ｈｚ〜２０ｋＨｚで構成されている。違法録音での使用が想定されるスマートフォン（ボイスレコーダ・アプリ）・ボイスレコーダなど録音時にポケットに収納可能な超小型の録音機器（スタジオ収録用の業務用録音機器等、感度領域がヒトの聴覚域に近いまたは聴覚域より広いものを除く）については、機器により若干のバラツキはあるが、大半の録音機器の感度領域は２５０Ｈｚ〜１２ｋＨｚであり、精度の高いものでも１００Ｈｚ〜１６ｋＨｚである。

後述する本発明の好適な一実施形態では、図１（ｂ）に示すように、６ｋＨｚ〜１６ｋＨｚ内の所定の範囲に妨害信号を記録する。さらに、１００Ｈｚ〜５００Ｈｚ内の所定の範囲にも妨害信号を記録する。妨害信号を記録するために周波数成分の内容を改変することになるが、改変対象とする周波数帯を改変周波数帯と呼ぶことにする。また、２つ以上の改変周波数帯を設定する場合、高周波側の改変周波数帯を上位改変周波数帯、低周波側の改変周波数帯を下位改変周波数帯と呼ぶことにする。図１（ｂ）の例では、１００Ｈｚ〜５００Ｈｚ、６ｋＨｚ〜１６ｋＨｚが改変周波数帯となる。高域側の６ｋＨｚ〜１６ｋＨｚと、低域側の１００Ｈｚ〜５００Ｈｚの双方に埋め込むことが好ましいが、どちらか一方であっても良い。また、通常再生時における妨害音の発生をより抑えるため、各々を１００Ｈｚ〜２００Ｈｚと４００Ｈｚ〜５００Ｈｚ、および６ｋＨｚ〜９ｋＨｚと１３ｋＨｚ〜１６ｋＨｚのように２分割し、トータル４種の改変周波数帯を設定するようにしても良い。更に、携帯電話やスマートフォンのボイスレコーダ・アプリが使用されることを想定して、高域側より低い中域の、３ｋＨｚ〜５ｋＨｚに改変周波数帯を追加しても良い。

図１（ｂ）に示したような音響信号が再生されると、高域側においては、６ｋＨｚ〜１６ｋＨｚ内の所定の範囲の音脈が一部逆転しているが、前記周波数範囲より低域および高域に存在する原音信号の音脈に揃うように補正され、原音と同様に聴取されてしまう（音脈分凝、音の群化または補間作用とよばれる大脳聴覚野より高次の大脳連合野での錯覚現象）。しかし、前記周波数範囲より低域または高域の成分のいずれかが欠落すると、前記補正作用は働かなくなり、前記周波数範囲における逆転音脈は逆回し再生雑音と類似した不快な雑音（妨害音）が聴取される。また、低域側においても、１００Ｈｚ〜５００Ｈｚ内の所定の範囲の音脈が一部逆転しているが、前記周波数範囲より低域または高域に存在する原音信号の音脈に揃うように補正され、原音と同様に聴取されてしまう。しかし、前記周波数範囲より低域または高域の成分のいずれかが欠落すると、同様に前記補正作用は働かなくなり、前記周波数範囲における逆転音脈は逆回し再生雑音と類似した不快な雑音（妨害音）が聴取される。この結果、通常の再生条件では、高域側においても低域側においても、ヒトの耳には、音脈の一部逆転により発せられる妨害音が聞こえなくなり、本来の音響信号により発せられる音を正常な状態で聴くことが可能となる。しかし、録音または圧縮処理により帯域圧縮が施され、高域側の所定の範囲６ｋＨｚ〜１６ｋＨｚより高域の信号成分が欠落したり、低域側の所定の範囲１００Ｈｚ〜５００Ｈｚより低域の信号成分が欠落すると、各々の周波数範囲における音脈の一部逆転により発せられる妨害音が聞こえるようになり、本来の音響信号により発せられる音を正常な状態で聴くことが不可能となる。

図１（ｂ）に示したような音響信号を、感度領域が２５０Ｈｚ〜１２ｋＨｚの一般的な録音機器で録音すると、図１（ｃ）に示すように、２５０Ｈｚ〜１２ｋＨｚの範囲の音響信号として録音される。図１（ｃ）に示したような音響信号を再生すると、高域側においては、音響信号本来の信号成分が存在しないため、ヒト聴覚系（大脳聴覚野）の音脈分凝が働かなくなり、下側の周波数帯において加えられている音脈の局所的な逆転がそのまま聴取されるようになり、妨害信号が出力される。また、低域側においても、音響信号本来の信号成分が存在しないため、ヒト聴覚系（大脳聴覚野）の音脈分凝が働かなくなり、上側の周波数帯において加えられている音脈の局所的な逆転がそのまま聴取されるようになり、妨害信号が出力される。その結果、ヒトの聴覚系には、高域側・低域側双方の妨害信号に基づく妨害音が聞こえることになり、一般的な録音機器では、原音と同等な品質を保つ複製という意味での録音が不可能となる。

（１．２．音脈分凝の原理）
次に、図２、図３を用いて音脈分凝の原理について説明しておく。本発明では、人間の聴覚心理特性である音脈分凝の原理を利用する。音脈分凝には、様々な現象が知られているが、特許文献２・３に記載の現象とは異なり、ここでは、特定の周波数帯に対して意図的に逆転させた音脈が前記周波数帯より上下に位置する原音と同じ順方向の音脈に揃うように補正されながら聴取される錯覚現象を利用している。図２は、元の音響信号の下位改変周波数帯、上位改変周波数帯双方に、妨害音の埋め込みを行った場合の周波数成分の変化の様子を概念的に示した図である。図２（ａ）に示される信号に対して、Ｌｕ１とＬｕ２、Ｌｕ３とＬｕ４、Ｌｕ５とＬｕ６、Ｈｄ１とＨｄ２、Ｈｄ３とＨｄ４、Ｈｄ５とＨｄ６の各周波数成分を時間軸方向に逆転させたのが図２（ｂ）である。図３は、図２（ｂ）に示した妨害音埋め込み後の改変音響信号を再生した場合の、人の聴取状態、録音機器等で複製された複製音響信号を示す図である。図３（ａ）（ｂ）の横方向の矢印は音脈を示しているが、図３（ｂ）では上記逆転させた信号成分間の音脈が上下の音脈に揃うように逆転補正されて聴取されることを示している。しかし、図３（ｂ）のようにＬｕ１の列より下側のＬｄ１の列が欠落し、Ｈｄ１の列より上側のＨｕ１の列が欠落すると、Ｌｕ１とＬｕ２、Ｌｕ３とＬｕ４、Ｌｕ５とＬｕ６、Ｈｄ１とＨｄ２、Ｈｄ３とＨｄ４、Ｈｄ５とＨｄ６の各周波数成分間の音脈における逆転補正は働かなくなり、逆転した状態のまま、顕著な妨害音として聴取される。

（２．１．装置構成）
次に、本発明に係る音響信号に対する妨害音の埋め込み装置について説明する。図４は、本発明に係る音響信号に対する妨害音の埋め込み装置のハードウェア構成図である。音響信号に対する妨害音の埋め込み装置は、汎用のコンピュータで実現することができ、図４に示すように、ＣＰＵ（Central Processing Unit）１と、コンピュータのメインメモリであるＲＡＭ（Random Access Memory）２と、ＣＰＵ１が実行するプログラムやデータを記憶するための大容量の記憶装置（例えば、ハードディスク、フラッシュメモリ等）３と、キーボード、マウス等のキー入力Ｉ／Ｆ（インターフェース）４と、外部装置（データ記憶媒体等）とデータ通信するためのデータ入出力Ｉ／Ｆ（インターフェース）５と、表示装置（ディスプレイ）に情報を送出するための表示出力Ｉ／Ｆ（インターフェース）６と、を備え、互いにバスを介して接続されている。

図５は、本発明に係る音響信号に対する妨害音の埋め込み装置の構成を示す機能ブロック図である。図５において、１０は音響フレーム読込手段、２０は時間−周波数変換手段、３０は周波数成分改変手段、４０は周波数−時間変換手段、５０は改変音響フレーム出力手段、６０は記憶手段、６１は音響信号記憶部、６２は改変音響信号記憶部である。なお、図５に示す装置は、ステレオ音響信号、モノラル音響信号の両方に対応可能であるが、本実施形態では、ステレオ音響信号に対して処理を行う場合について説明していく。

音響フレーム読込手段１０は、妨害音の埋め込み対象とする元のステレオ音響信号の各チャンネルから所定数のサンプルを１フレームとして読み込む機能を有している。時間−周波数変換手段２０は、音響フレーム読込手段１０が読み込んだ音響信号のフレームをフーリエ変換等により時間−周波数変換して複素数のスペクトルを生成する機能を有している。周波数成分改変手段３０は、生成されたスペクトルから改変周波数範囲に相当するスペクトル集合を複数抽出し、妨害信号を埋め込むように、スペクトル集合の状態を改変する機能を有している。周波数−時間変換手段４０は、改変されたスペクトル集合を含む複数の複素数のスペクトルに対して周波数−時間変換を行うことにより、改変前の音響フレームの位相を維持しながら改変音響フレームを生成する機能を有している。改変音響フレーム出力手段５０は、生成された改変音響フレームを順次出力する機能を有している。

記憶手段６０は、妨害音を埋め込む対象とするステレオ音響信号を記憶した音響信号記憶部６１と、妨害音埋め込み後の改変音響信号を記憶する改変音響信号記憶部６２を有しており、その他処理に必要な各種情報を記憶するものである。

図５に示した各構成手段は、現実には図４に示したように、コンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。

図４の記憶装置３には、ＣＰＵ１を動作させ、コンピュータを、音響信号に対する妨害音の埋め込み装置として機能させるための専用のプログラムが実装されている。この専用のプログラムを実行することにより、ＣＰＵ１は、音響フレーム読込手段１０、時間−周波数変換手段２０、周波数成分改変手段３０、周波数−時間変換手段４０、改変音響フレーム出力手段５０、記憶手段６０、音響信号記憶部６１、改変音響信号記憶部６２としての機能を実現することになる。また、記憶装置３は、処理に必要な様々なデータを記憶する。

（２．２．処理動作）
次に、図４、図５に示した音響信号に対する妨害音の埋め込み装置の処理動作について説明する。音響フレーム読込手段１０は、音響信号記憶部６１に記憶されたステレオ音響信号の左右の各チャンネルから、それぞれ所定数Ｎのサンプルを１音響フレームとして読み込む。音響フレーム読込手段１０が読み込む１音響フレームのサンプル数Ｎは、適宜設定することができるが、設定値により妨害音の聴取具合、音脈分凝の働き方が変化する。サンプリング周波数が４４．１ｋＨｚの場合、４０９６サンプル程度とすると、最も原音に対するダメージを少なくできることが分かっているので、以下この設定値で説明する。（実用的には音脈分凝が最も働きやすい２０４８サンプルに設定することが多い。）したがって、音響フレーム読込手段１０は、左チャンネル、右チャンネルについてそれぞれ４０９６サンプルずつ、順次音響フレームとして読み込んでいくことになる。

本実施形態では、奇数番目の音響フレーム、偶数番目の音響フレームは、互いに所定数（本実施形態では２０４８）のサンプルを重複して設定される。したがって、奇数番目の音響フレームを先頭からＡ１、Ａ２、Ａ３…とし、偶数番目の音響フレームを先頭からＢ１、Ｂ２、Ｂ３…とすると、Ａ１はサンプル１〜４０９６、Ａ２はサンプル４０９７〜８１９２、Ａ３はサンプル８１９３〜１２２８８、Ｂ１はサンプル２０４９〜６１４４、Ｂ２はサンプル６１４５〜１０２４０、Ｂ３はサンプル１０２４１〜１４３３６となる。したがって、偶数番目の音響フレームから処理を行うようにしても良いが、以下では、奇数番目の音響フレームから処理を行う場合を例にとって説明する。

時間−周波数変換手段２０は、振幅変換後の音響フレームに対して時間−周波数変換を行って、その音響フレームの複素数のスペクトルを得る。時間−周波数変換とは、時間次元から周波数次元への変換である。時間−周波数変換は、窓関数を利用して行う。時間−周波数変換としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができるが、複素数のスペクトルを得られる手法である必要がある。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。

一般に、所定の信号に対してフーリエ変換を行う場合、信号を所定の長さに区切って行う必要があるが、この場合、所定長さの信号に対してそのままフーリエ変換を行うと、擬似高調波成分が発生する。そこで、一般にフーリエ変換を行う場合には、ハニング窓と呼ばれる窓関数を用いて、信号の値を変化させた後、変化後の値に対してフーリエ変換を実行する。

本実施形態においても、ハニング窓関数Ｗ（ｉ）を利用している。ハニング窓関数Ｗ（ｉ）は、中央の所定のサンプル番号ｉの位置において最大値１をとり、両端付近のサンプル番号ｉの位置において最小値０をとるように設定されている。どのサンプル番号の場合に最大値をとるかについては、ハニング窓関数Ｗ（ｉ）の設計によって異なってくるが、本実施形態では、後述する〔数式１〕で定義される。音響フレームについてのフーリエ変換は、このハニング窓関数Ｗ（ｉ）を乗じたものに対して行われることになる。

なお、上述のように、本実施形態においては、音響フレームは重複して読み込まれる。すなわち、奇数番目の音響フレームと偶数番目の音響フレームは、所定数のサンプルを重複して読み込む。本実施形態では、ハニング窓関数Ｗ（ｉ）は、以下の〔数式１〕で定義される。

〔数式１〕
０＜ｉ≦Ｎ−１のとき、Ｗ（ｉ）＝０．５−０．５ｃｏｓ（２πｉ／Ｎ）

本実施形態においては、奇数番目の音響フレームと偶数番目の音響フレームを、所定サンプルずつ重複して読み込むため、妨害信号の記録を行った後、時系列の音響信号の形態に復元する際に、窓関数を乗じた奇数番目の音響フレームと、窓関数を乗じた偶数番目の音響フレームの重複サンプルを加算した場合に、ほぼ元の値に戻るようにしなければならない。このため、奇数番目の音響フレームと偶数番目の音響フレームの重複部分において、両者の窓関数Ｗ（ｉ）を加算すると、全区間固定値１になるように定義されている。

時間−周波数変換手段２０が、奇数番目および偶数番目の音響フレームに対してフーリエ変換を行う場合は、左チャンネル信号Ｘｌ（ｉ）、右チャンネル信号Ｘｒ（ｉ）（ｉ＝０，…，Ｎ−１）に対して、窓関数Ｗ（ｉ）を用いて、以下の〔数式２〕に従った処理を行い、左チャンネルに対応する変換データの実部Ａｌ（ｊ，ｔ）、虚部Ｂｌ（ｊ，ｔ）、右チャンネルに対応する変換データの実部Ａｒ（ｊ，ｔ）、虚部Ｂｒ（ｊ，ｔ）を得る。

〔数式２〕
Ａｌ（ｊ，ｔ）＝Σ_i=0,…,N-1Ｗ（ｉ）・Ｘｌ（ｉ，ｔ）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂｌ（ｊ，ｔ）＝Σ_i=0,…,N-1Ｗ（ｉ）・Ｘｌ（ｉ，ｔ）・ｓｉｎ（２πｉｊ／Ｎ）
Ａｒ（ｊ，ｔ）＝Σ_i=0,…,N-1Ｗ（ｉ）・Ｘｒ（ｉ，ｔ）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂｒ（ｊ，ｔ）＝Σ_i=0,…,N-1Ｗ（ｉ）・Ｘｒ（ｉ，ｔ）・ｓｉｎ（２πｉｊ／Ｎ）

上記〔数式２〕において、ｉは、全Ｔ個の音響フレームのうちｔ番目の音響フレームｔ内のＮ個のサンプルに付した通し番号であり、ｉ＝０，１，２，…Ｎ−１の整数値をとる。ｔはｔ＝０，１，２，…Ｔ−１の整数値である。また、ｊは周波数の値について、値の小さなものから順に付した通し番号であり、ｉと同様にｊ＝０，１，２，…Ｎ−１の整数値をとる。サンプリング周波数が４４．１ｋＨｚ、Ｎ＝４０９６の場合、ｊの値が１つ異なると、周波数が１０．８Ｈｚ異なることになる。

上記〔数式２〕に従った処理を実行することにより、各音響フレームの各窓関数に対応する複素数のスペクトルが得られる。続いて、周波数成分改変手段３０が、生成されたスペクトルから改変周波数帯に相当する周波数範囲のスペクトル集合を抽出する。本実施形態では、上位改変周波数帯、下位改変周波数帯の双方について抽出する。

周波数成分改変手段３０は、妨害信号を埋め込むため、奇数番目および偶数番目の音響フレームについて、改変周波数帯の周波数成分を改変する処理を行う。

具体的には、埋め込み装置で、音響信号から抽出した所定数のサンプルで構成される音響フレーム内の改変周波数帯の周波数成分を改変するに際し、隣接する２つの音響フレームの成分を所定の割合で互いに反映させる処理を行う。これにより、改変周波数帯の信号成分には、本来の音脈と逆転した成分が加算されるが、改変周波数帯よりも低い周波数および高い周波数の音脈に揃うように補正されることにより、人間には、音脈の逆転による雑音が聞こえない。しかし、改変周波数帯の下限よりも高い方の周波数成分のみを抽出して録音した場合、または改変周波数帯の上限よりも低い方の周波数成分のみを抽出して録音した場合には、録音信号を再生すると逆転した音脈に伴う雑音が妨害音として発生することになる。

本実施形態では、音響フレームの改変周波数帯の成分を改変し、妨害信号を埋め込むようにしている。ここで、奇数番目の音響フレームと偶数番目の音響フレームの改変の概念図を図６に示す。図６は、左チャンネルのものを示しており、右チャンネルについては、左チャンネルと同様であるので省略してある。図６に示す各音響フレームにおいて、縦軸は周波数方向を示している。

図６においては、縦軸の周波数方向において、周波数領域が５つに区分されているが、上から２番目、４番目の領域、すなわち、周波数７ｋＨｚ以上８ｋＨｚ未満の間が改変対象となる上位改変周波数帯であり、周波数２００Ｈｚ以上４００Ｈｚ未満の間が改変対象となる下位改変周波数帯である。

妨害信号を記録する場合、図６（ａ）（ｂ）に示すように、網掛けを施した下位改変周波数帯について、互いに隣接する音響フレームの成分をαだけ反映させる。同様に、図６（ａ）（ｂ）に示すように、網掛けを施した上位改変周波数帯について、互いに隣接する音響フレームの成分をβだけ反映させる。

図６の例では、上記下位改変周波数帯の下限Ｆ_L1、上限Ｆ_L2を、それぞれ２００Ｈｚ、４００Ｈｚに設定する。下位改変周波数帯の下限Ｆ_H2を２００Ｈｚとしたのは、一般的な録音機器が取得可能な高周波の下限が２５０Ｈｚであり、それに近い値にするためである。このようにして妨害信号が埋め込まれた改変音響信号を再生したものを、一般的な録音機器で録音したり、非可逆圧縮を行ったりした場合、２５０Ｈｚ未満の信号成分は複製信号に記録されない。したがって、妨害信号を補間する信号成分は、存在しなくなり、複製信号を再生した場合、妨害信号を補間することができず、妨害音が可聴な状態となる。また、上記上位改変周波数帯の下限Ｆ_H1、上限Ｆ_H2を、それぞれ７ｋＨｚ、８ｋＨｚに設定する。上位改変周波数帯の上限Ｆ_H2を８ｋＨｚとしたのは、一般的な録音機器が取得可能な高周波の上限が１２ｋＨｚであり、それ以下にするためである。このようにして妨害信号が記録された改変音響信号を再生したものを、一般的な録音機器で録音したり、非可逆圧縮を行ったりした場合、１２ｋＨｚ〜２２．０５ｋＨｚの範囲の信号成分は複製信号に記録されない。したがって、妨害信号を補間する信号成分は、８ｋＨｚ〜１２ｋＨｚのみとなり、複製音響信号を再生した場合、妨害信号を完全に補間することができず、妨害音が可聴な状態となる。

下位改変周波数帯における周波数成分の改変は、ｊ＝Ｌ１，・・・，Ｌ２の各周波数成分Ａｌ（ｊ，ｔ）、Ｂｌ（ｊ，ｔ）、Ａｒ（ｊ，ｔ）、Ｂｒ（ｊ，ｔ）に対して、ｔ＝２ｋまたは２ｋ＋１とし、以下の〔数式３〕に従った処理を実行することにより行う。ｊ＝Ｌ１，・・・，Ｌ２の各周波数成分Ａｌ（ｊ，２ｋ＋１）、Ｂｌ（ｊ，２ｋ＋１）、Ａｒ（ｊ，２ｋ＋１）、Ｂｒ（ｊ，２ｋ＋１）が奇数スペクトル集合、ｊ＝Ｌ１，・・・，Ｌ２の各周波数成分Ａｌ（ｊ，２ｋ）、Ｂｌ（ｊ，２ｋ）、Ａｒ（ｊ，２ｋ）、Ｂｒ（ｊ，２ｋ）が偶数スペクトル集合である。本実施形態では、Ｌ１＝１８、Ｌ２＝３７に設定し、約２００Ｈｚ〜約４００Ｈｚの周波数成分の強度を変更する。

〔数式３〕
Ａｌ´（ｊ，２ｋ）←Ａｌ（ｊ，２ｋ）・（１．０−α）＋Ａｌ（ｊ，２ｋ＋１）・α
Ａｌ´（ｊ，２ｋ＋１）←Ａｌ（ｊ，２ｋ＋１）・（１．０−α）＋Ａｌ（ｊ，２ｋ）・α
Ｂｌ´（ｊ，２ｋ）←Ｂｌ（ｊ，２ｋ）・（１．０−α）＋Ｂｌ（ｊ，２ｋ＋１）・α
Ｂｌ´（ｊ，２ｋ＋１）←Ｂｌ（ｊ，２ｋ＋１）・（１．０−α）＋Ｂｌ（ｊ，２ｋ）・α
Ａｒ´（ｊ，２ｋ）←Ａｒ（ｊ，２ｋ）・（１．０−α）＋Ａｒ（ｊ，２ｋ＋１）・α
Ａｒ´（ｊ，２ｋ＋１）←Ａｒ（ｊ，２ｋ＋１）・（１．０−α）＋Ａｒ（ｊ，２ｋ）・α
Ｂｒ´（ｊ，２ｋ）←Ｂｒ（ｊ，２ｋ）・（１．０−α）＋Ｂｒ（ｊ，２ｋ＋１）・α
Ｂｒ´（ｊ，２ｋ＋１）←Ｂｒ（ｊ，２ｋ＋１）・（１．０−α）＋Ｂｒ（ｊ，２ｋ）・α

上位改変周波数帯における周波数成分の改変は、ｊ＝Ｈ１，・・・，Ｈ２の各周波数成分Ａｌ（ｊ，ｔ）、Ｂｌ（ｊ，ｔ）、Ａｒ（ｊ，ｔ）、Ｂｒ（ｊ，ｔ）に対して、ｔ＝２ｋまたは２ｋ＋１とし、以下の〔数式４〕に従った処理を実行することにより行う。ｊ＝Ｈ１，・・・，Ｈ２の各周波数成分Ａｌ（ｊ，２ｋ＋１）、Ｂｌ（ｊ，２ｋ＋１）、Ａｒ（ｊ，２ｋ＋１）、Ｂｒ（ｊ，２ｋ＋１）が奇数スペクトル集合、ｊ＝Ｌ１，・・・，Ｌ２の各周波数成分Ａｌ（ｊ，２ｋ）、Ｂｌ（ｊ，２ｋ）、Ａｒ（ｊ，２ｋ）、Ｂｒ（ｊ，２ｋ）が偶数スペクトル集合である。本実施形態では、Ｈ１＝６５０、Ｈ２＝７４３に設定し、約７ｋＨｚ〜約８ｋＨｚの周波数成分の強度を変更する。

〔数式４〕
Ａｌ´（ｊ，２ｋ）←Ａｌ（ｊ，２ｋ）・（１．０−β）＋Ａｌ（ｊ，２ｋ＋１）・β
Ａｌ´（ｊ，２ｋ＋１）←Ａｌ（ｊ，２ｋ＋１）・（１．０−β）＋Ａｌ（ｊ，２ｋ）・β
Ｂｌ´（ｊ，２ｋ）←Ｂｌ（ｊ，２ｋ）・（１．０−β）＋Ｂｌ（ｊ，２ｋ＋１）・β
Ｂｌ´（ｊ，２ｋ＋１）←Ｂｌ（ｊ，２ｋ＋１）・（１．０−β）＋Ｂｌ（ｊ，２ｋ）・β
Ａｒ´（ｊ，２ｋ）←Ａｒ（ｊ，２ｋ）・（１．０−β）＋Ａｒ（ｊ，２ｋ＋１）・β
Ａｒ´（ｊ，２ｋ＋１）←Ａｒ（ｊ，２ｋ＋１）・（１．０−β）＋Ａｒ（ｊ，２ｋ）・β
Ｂｒ´（ｊ，２ｋ）←Ｂｒ（ｊ，２ｋ）・（１．０−β）＋Ｂｒ（ｊ，２ｋ＋１）・β
Ｂｒ´（ｊ，２ｋ＋１）←Ｂｒ（ｊ，２ｋ＋１）・（１．０−β）＋Ｂｒ（ｊ，２ｋ）・β

上記〔数式３〕〔数式４〕において、α、βは、それぞれ、０＜α≦１、０＜β≦１を満たす実数であり、その範囲内で適宜設定可能であるが、α、βは少なくとも０．５以上に設定することが望ましい。α＝１である場合は、下位改変周波数帯において、隣接する音響フレームの信号成分を完全に交換することを示し、β＝１である場合は上位改変周波数帯において、隣接する音響フレームの信号成分を完全に交換することを示す。

周波数−時間変換手段４０は、上記のようにして、妨害信号を記録するために周波数成分の状態が変更されたフレームスペクトルを周波数−時間変換して改変音響フレームを得る処理を行う。この周波数−時間変換は、当然のことながら、時間−周波数変換手段２０が実行した手法に対応していることが必要となる。本実施形態では、時間−周波数変換手段２０において、フーリエ変換を施しているため、周波数−時間変換手段４０は、フーリエ逆変換を実行することになる。

具体的には、奇数番目の音響フレームに対しては、周波数−時間変換手段４０は、周波数成分改変手段３０により得られたスペクトルの左チャンネルの実部Ａｌ´（ｊ，ｔ）等、虚部Ｂｌ´（ｊ，ｔ）等、右チャンネルの実部Ａｒ´（ｊ，ｔ）等、虚部Ｂｒ´（ｊ，ｔ）等を用いて、以下の〔数式５〕に従った処理を行い、Ｘｌ´（ｉ，ｔ）、Ｘｒ´（ｉ，ｔ）を算出する。なお、周波数成分改変手段３０において改変されていない周波数成分については、Ａｌ´（ｊ，ｔ）等として、元の周波数成分であるＡｌ（ｊ，ｔ）等を用いる。

〔数式５〕
Ｘｌ´（ｉ，ｔ）＝１／Ｎ・｛Σ_jＡｌ´（ｊ，ｔ）・ｃｏｓ（２πｉｊ／Ｎ）−Σ_jＢｌ´（ｊ，ｔ）・ｓｉｎ（２πｉｊ／Ｎ）｝＋Ｘｌ´（ｉ＋Ｎ／２，ｔ−１）
Ｘｒ´（ｉ，ｔ）＝１／Ｎ・｛Σ_jＡｒ´（ｊ，ｔ）・ｃｏｓ（２πｉｊ／Ｎ）−Σ_jＢｒ´（ｊ，ｔ）・ｓｉｎ（２πｉｊ／Ｎ）｝＋Ｘｒ´（ｉ＋Ｎ／２，ｔ−１）

上記〔数式５〕においては、式が繁雑になるのを防ぐため、Σ_j=0,…,N-1をΣ_jとして示している。上記〔数式５〕における第１式の“＋Ｘｌ´（ｉ＋Ｎ／２，ｔ−１）”、第２式の“＋Ｘｒ´（ｉ＋Ｎ／２，ｔ−１）”の項は、直前に改変された改変音響フレームのデータＸｌ´（ｉ，ｔ−１）、Ｘｒ´（ｉ，ｔ−１）が存在する場合に、時間軸上Ｎ／２サンプル分重複することを考慮して加算するためのものである。上記〔数式５〕により奇数番目の改変音響フレームの左チャンネルの各サンプルＸｌ´（ｉ，ｔ−１）、右チャンネルの各サンプルＸｒ´（ｉ，ｔ−１）、が得られることになる。

改変音響フレーム出力手段５０は、周波数−時間変換手段４０の処理により得られた奇数番目の改変音響フレーム、偶数番目の改変音響フレームを順次出力ファイルに出力する。

（２．３．処理の全体的な流れ）
次に、図５に示した音響信号に対する情報の埋め込み装置の処理の全体的な流れを、図７のフローチャートに従って説明する。図５に示した装置を構成する各構成要素は、連携して図７に従った処理を実行する。

図７においては、まず、音響フレーム読込手段１０が、音響信号記憶部６１に記憶されたステレオ音響信号の左右の各チャンネルから、それぞれ所定数のサンプルを奇数番目の１音響フレームとして読み込み、時間−周波数変換手段２０が時間−周波数変換を行う（Ｓ１０１）。具体的には、まず、読み込んだ音響フレームに対して、時間−周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る。すなわち、各音響フレームについて、窓関数Ｗ（ｉ）を用いて、上記〔数式２〕に従った処理を行う。同様に、音響フレーム読込手段１０が、音響信号記憶部６１に記憶されたステレオ音響信号の左右の各チャンネルから、それぞれ所定数のサンプルを偶数番目の１音響フレームとして読み込み、時間−周波数変換手段２０が周波数変換を行う（Ｓ１０２）。具体的には、上記ステップＳ１０１と同様、読み込んだ音響フレームに対して周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る。

次に、周波数成分改変手段３０は、妨害信号を埋め込むために、上記〔数式３〕〔数式４〕に従った処理を実行し、下位改変周波数帯、上位改変周波数帯の周波数成分の状態を改変する。（Ｓ１０３）。

次に、周波数−時間変換手段４０が、上記Ｓ１０３の処理により奇数番目の音響フレームに対応する各スペクトル集合の成分が改変されたスペクトルを、周波数−時間変換して改変音響フレームを得る処理を行う（Ｓ１０４）。この周波数−時間変換は、当然のことながら、時間−周波数変換手段２０がＳ１０１において実行した手法に対応していることが必要となる。本実施形態では、時間−周波数変換手段２０において、フーリエ変換を施しているため、周波数−時間変換手段４０は、フーリエ逆変換を実行することになる。具体的には、上記〔数式３〕〔数式４〕により得られたスペクトルの左チャンネルの実部Ａｌ´（ｊ，ｔ）、虚部Ｂｌ´（ｊ，ｔ）、右チャンネルの実部Ａｒ´（ｊ，ｔ）、虚部Ｂｒ´（ｊ，ｔ）を用いて、上記〔数式５〕に従った処理を行い、Ｘｌ´（ｉ，ｔ）、Ｘｒ´（ｉ，ｔ）を算出する。改変音響フレーム出力手段５０は、得られた改変音響フレームを順次出力ファイルに出力する。

同様に、周波数−時間変換手段４０が、上記Ｓ１０３の処理により偶数番目の音響フレームに対応する各スペクトル集合の成分が改変されたスペクトルを、周波数−時間変換して改変音響フレームを得る処理を行う（Ｓ１０５）。具体的には、上記ステップＳ１０４と同様、上記〔数式３〕〔数式４〕により得られたスペクトルの左チャンネルの実部Ａｌ´（ｊ，ｔ）、虚部Ｂｌ´（ｊ，ｔ）、右チャンネルの実部Ａｒ´（ｊ，ｔ）、虚部Ｂｒ´（ｊ，ｔ）を用いて、上記〔数式５〕に従った処理を行い、Ｘｌ´（ｉ，ｔ）、Ｘｒ´（ｉ，ｔ）を算出する。

改変音響フレーム出力手段５０は、得られた改変音響フレームを順次出力ファイルに出力する。こうして各チャンネルについて、奇数番目および偶数番目の２つの音響フレームに対する処理を終えたら、以上のような処理を音響信号の両チャンネルの全サンプルに渡って実行していく。すなわち、所定数のサンプルを音響フレームとして読み込み、音響信号から読み込むべき音響フレームがなくなったら（Ｓ１０１、Ｓ１０２）、処理を終了する。この結果、全ての音響フレームに対して処理を行った全ての改変音響フレームが出力ファイルに記録されて、改変音響信号として得られる。得られた改変音響信号は、改変音響フレーム出力手段５０により記憶手段６０内の改変音響信号記憶部６２に出力され、記憶される。

上記のようにして得られた改変音響信号のうち、下位改変周波数帯、上位改変周波数帯ともに１対の隣接する２フレーム間で本来記録された信号と逆転する流れを示す分布になる。

以上のようにして、妨害信号が埋め込まれた改変音響信号が再生されると、上述のように、下位改変周波数帯、上位改変周波数帯では音脈分凝に類似の作用により妨害信号が補間され知覚されなくなるため、スピーカから発せられた音を聴いた人には、妨害音は聞こえない。しかし、その音を一般的な録音機器により録音すると、その感度領域に含まれる下位改変周波数帯、上位改変周波数帯の音を比較的減衰されずに取得し、下位改変周波数帯より低周波側、上位改変周波数帯より高周波側の音を取得しない。そのため、録音により得られた複製音響信号を再生すると、妨害信号が記録された下位改変周波数帯、上位改変周波数帯の逆転音脈に対する補正が働かず、妨害音が聞こえることになり、鑑賞に堪えない再生音になる。この結果、ボイスレコーダ等のマイクを介した録音により音響信号を複製することを防止することが可能となる。

また、ボイスレコーダで記録される際に、MPEGなど公知の音声または音楽非可逆圧縮が施されることが多い。妨害信号が埋め込まれた音響信号に対して、音声または音楽非可逆圧縮を施すと、圧縮仕様によっては、上位改変周波数帯より高周波側の成分が符号化対象にならず完全に削除されることが多く、更に下位改変周波数帯の低周波側の成分も符号化対象にならず削除されることがある。（例えば、ＭＰＥＧ−１／Ｌａｙｅｒ３方式では、２４または３２ｋＨｚで再サンプリングされるため、１２ｋＨｚまたは１６ｋＨｚ以上の成分は完全に削除される。更に３ＧＰＰ音声圧縮モードでは、８ｋＨｚで再サンプリングされるため、４ｋＨｚ以上の成分は完全に削除されるとともに、３００Ｈｚ以下の成分も削除される。）そのため、たとえマイクロフォンの感度領域が広帯域であっても、符号化・記録の段階で同様に帯域圧縮がなされ、記録された複製音響信号を再生すると、妨害音が聞こえることになり、同様に鑑賞に堪えない再生音になる。

（３．妨害信号の埋め込みと録音により得られる音）
ここで、妨害信号の埋め込みによる音のパターンの変化と、妨害信号が埋め込まれた改変音響信号の再生音を録音した場合に得られる音について説明する。図２は、上述のように、元の音響信号の下位改変周波数帯、上位改変周波数帯双方に、妨害音の埋め込みを行った場合の周波数成分の変化の様子を概念的に示した図である。

図２においては、Ｌ-ch（左チャンネル）のみを示している。また、図２においては、２０Ｈｚ〜２２．０５ｋＨｚの周波数範囲を、５つの周波数帯“Ｌｄ” “Ｌｕ” “Ｍ” “Ｈｄ” “Ｈｕ”に分けて示している。下から２番目の“Ｌｕ”、下から４番目の“Ｈｄ”は、それぞれ下位改変周波数帯、上位改変周波数帯を示している。下から１番目の“Ｌｄ”、下から５番目の“Ｈｕ”は、それぞれ下位改変周波数帯、上位改変周波数帯による妨害信号を補間するための周波数帯である。また、１〜６は先頭からの音響フレームの順番を示している。したがって、図２の例では、６個の音響フレームを示しており、例えば、“Ｈｄ１”は、１番目の音響フレームの上位改変周波数帯の成分を示していることになる。また、奇数番目と偶数番目の音響フレームは、実際に半数のサンプルが重複して設定されるが、図２では、説明の便宜上独立した形態で示している。

図２においては、図２（ａ）は元の音響信号を示しており、図２（ｂ）は埋め込み処理後の改変音響信号を示している。図２（ａ）と図２（ｂ）を比較するとわかるように、下位改変周波数帯“Ｌｕ”、上位改変周波数帯“Ｈｄ”では、隣接する音響フレーム間において、音響フレームを示す数字が入れ替わっている。ただし、図２（ａ）のように、完全に隣接する音響フレーム間で成分が完全に入れ替わるのは、下位改変周波数帯“Ｌｕ”においてはα＝１．０のとき、上位改変周波数帯“Ｈｄ”においてはβ＝１．０のときのみである。

図３は、上述のように、図２（ｂ）に示した妨害音埋め込み後の改変音響信号を再生した場合の、人の聴取状態、録音機器等で複製された複製音響信号を示す図である。図３（ａ）は、図２（ｂ）に示した埋め込み後の改変音響信号の再生音が人に聞こえる状態、図３（ｂ）は、録音機器により録音された複製音響信号を示す。図３（ａ）に示すように、図２（ｂ）の改変音響信号は、そのまま人の耳に入る。図３においては、各周波数帯における本来の音の流れるべき方向（音脈）を矢印で示している。図３（ａ）では、下位改変周波数帯“Ｌｕ”、上位改変周波数帯“Ｈｄ”において、信号成分の流れが逆転している箇所が存在する。しかし、矢印（音脈）は、下位改変周波数帯“Ｌｕ”に対しては、より低周波側の周波数帯“Ｌｄ”に合わせ、上位改変周波数帯“Ｈｄ”に対しては、より高周波側の周波数帯“Ｈｕ”に合わせるように、逆転補正されている。この逆転補正により妨害信号は聴取されなくなる。尚、他の周波数帯“Ｌｄ” “Ｍ” “Ｈｕ”については、信号成分の流れが逆転している箇所は存在せず、元のままである。したがって、図３（ａ）の信号からは、人には音脈逆転による妨害音は聞こえない。

しかし、図３（ｂ）に示すように、録音機器により録音された複製音響信号では、マイクロフォンの感度外である周波数帯“Ｌｄ”“Ｈｕ”が、記録されない。このため、複製音響信号を再生すると、下位改変周波数帯“Ｌｕ”、上位改変周波数帯“Ｈｄ”において、流れが逆転している箇所が補正されずにそのまま人に聴こえる。すなわち、妨害音として聴こえることになる。

（４．変形例等）
以上、本発明の好適な実施形態について限定したが、本発明は上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、下位改変周波数帯、上位改変周波数帯の双方に妨害信号を埋め込むようにしたが、どちらか一方であっても良い。違法録音に用いられる録音機器によっては、その周波数感度の下限または上限が、改変音響信号の下位改変周波数帯、上位改変周波数帯に近いものであれば、どちらか一方に埋め込まれている場合でも、十分に妨害音を発生させることができる。しかし、録音機器の周波数感度の下限または上限が、下位改変周波数帯、上位改変周波数帯に必ずしも近いものになるとは限らないため、下位改変周波数帯、上位改変周波数帯双方に埋め込んでおくことにより、妨害音を発生させることができる確率が高まる。また、通常再生状態における音脈逆転に対する補正効果を高めるため、下位改変周波数帯、上位改変周波数帯の各々を２分割する方法もとれる。（２分割する場合は、２つの改変周波数帯の間に改変しない周波数帯を設ける。）更に、超低ビットレートの録音機器（携帯電話やスマートフォンでのボイスレコーダ・アプリ）で録音される場合に対応するため、下位改変周波数帯と上位改変周波数帯の中間に中位改変周波数帯を設けることもできる。ボイスレコーダ・アプリでは上限が４ｋＨｚであることが一般的であるため、中位改変周波数帯を２ｋＨｚ〜４ｋＨｚに設定する。

また、上記実施形態では、商品として一般に流通している２チャンネルのステレオ音響信号を利用した場合を例にとって説明したが、５．１チャンネルのサラウンド音響信号に対しても、ＬＦＣ重低音チャンネルを除く５チャンネルの各音響信号に同様な処理を施せば良く（ＬＦＣ重低音チャンネルに対しては、下位改変周波数帯のみ適用）、逆に１チャンネルのモノラル音響信号を利用しても良い。モノラル音響信号の場合は、上記左チャンネルまたは右チャンネルのいずれか一方に対して行った処理を実行すれば良い。

１・・・ＣＰＵ（Central Processing Unit）
２・・・ＲＡＭ（Random Access Memory）
３・・・記憶装置
４・・・キー入力Ｉ／Ｆ
５・・・データ入出力Ｉ／Ｆ
６・・・表示出力Ｉ／Ｆ
１０・・・音響フレーム読込手段
２０・・・時間−周波数変換手段
３０・・・周波数成分改変手段
４０・・・周波数−時間変換手段
５０・・・改変音響フレーム出力手段
６０・・・記憶手段
６１・・・音響信号記憶部
６２・・・改変音響信号記憶部

Claims

時系列のサンプル列で構成される音響信号に対して、改変対象の周波数帯である改変周波数帯に対して改変を加え、改変を加えて得られる改変音響信号を再生した場合には聴取不能であり、前記改変音響信号を改変周波数帯に対して高域または低域の所定の成分を除いて複製した複製音響信号を再生した場合に可聴となるように妨害音を埋め込む装置であって、
前記音響信号より、所定数のサンプルを１つの音響フレームとして読み込む音響フレーム読込手段と、
前記読み込んだ音響フレームに対して、所定の窓関数を用いて時間−周波数変換を行い、周波数成分である窓スペクトルを得る時間−周波数変換手段と、
前記窓スペクトルの中で奇数番目の音響フレームに対応する奇数窓スペクトルから前記改変周波数帯における奇数スペクトル集合を抽出し、前記奇数番目の音響フレームに隣接する偶数番目の音響フレームに対応する偶数窓スペクトルから前記改変周波数帯における偶数スペクトル集合を抽出し、互いに対応する前記奇数スペクトル集合の成分と偶数スペクトル集合の成分を、両者が互いの値を所定の割合だけ反映するように改変を加える周波数成分改変手段と、
前記周波数成分が改変された奇数スペクトル集合を含む奇数窓スペクトル、および前記周波数成分が改変された偶数スペクトル集合を含む偶数窓スペクトルに対して周波数−時間変換を行って、改変音響フレームを生成する周波数−時間変換手段と、
前記生成された改変音響フレームを順次出力する改変音響フレーム出力手段と、
を有することを特徴とする音響信号に対する妨害音の埋め込み装置。
請求項１において、
前記改変周波数帯として互いに他の改変周波数帯と重ならないように複数個の改変周波数帯を設定し、
前記周波数成分改変手段は、前記複数個の改変周波数帯に対して、改変を加えることを特徴とする音響信号に対する妨害音の埋め込み装置。
請求項１または請求項２において、
前記周波数成分改変手段は、前記改変周波数帯における奇数スペクトル集合の成分と偶数スペクトル集合の成分を、それぞれ自身の割合と他方の割合を加えて１になる範囲で、両者が互いの値を所定の割合だけ反映するように改変を加えることを特徴とする音響信号に対する妨害音の埋め込み装置。
請求項３において、
前記周波数成分改変手段は、前記改変周波数帯における奇数スペクトル集合の成分と偶数スペクトル集合の成分を、それぞれ自身の割合を０、他方の割合を１として成分を交換するように改変を加えることを特徴とする音響信号に対する妨害音の埋め込み装置。
請求項１から請求項４のいずれか一項において、
前記改変周波数帯として、
１００Ｈｚから５００Ｈｚの範囲、６ｋＨｚから１６ｋＨｚの範囲、のいずれか一方、または双方を少なくとも設定することを特徴とする音響信号に対する妨害音の埋め込み装置。
請求項１から請求項５のいずれか一項において、
前記所定の窓関数は、前記１つの音響フレームのサンプル数をＮとして、サンプル位置ｉ（０≦ｉ≦Ｎ−１）における重みＷ（ｉ）（０≦Ｗ（ｉ）≦１）が、Ｗ（ｉ）＝０．５−０．５ｃｏｓ（２πｉ／Ｎ）で定義されるハニング窓関数であることを特徴とする音響信号に対する妨害音の埋め込み装置。
請求項１から請求項６のいずれか一項に妨害音の埋め込み装置として、コンピュータを機能させるためのプログラム。