JP2011247956A

JP2011247956A - 音声信号に埋め込まれた電子透かし情報を除去する装置、および音声信号に電子透かし情報を埋め込む装置

Info

Publication number: JP2011247956A
Application number: JP2010118608A
Authority: JP
Inventors: Eiji Akazawa; 英治赤澤; Kazunobu Kondo; 多伸近藤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-05-24
Filing date: 2010-05-24
Publication date: 2011-12-08
Anticipated expiration: 2030-05-24
Also published as: JP5459069B2

Abstract

【課題】電子透かし情報が埋め込まれた音声信号を音として再生する際に、電子透かし情報の埋め込みに起因した雑音を低減し、高品位な音の再生を可能にする。
【解決手段】電子透かし情報を構成する各シンボルに応じた擬似雑音信号が埋め込まれた音声信号を解析してその電子透かし情報を推定し、埋め込まれていると推定されるシンボル列に対応する擬似雑音信号をスペクトラム減算により当該音声信号から減算した後に音として再生する。
【選択図】図５

Description

この発明は、電子透かし情報が埋め込まれた音声信号を音として再生する際の雑音を低減する技術に関する。

近年では、楽曲や人の話し声を表す音声信号にその出所等を示す電子透かし情報を埋め込んで不正利用（著作権に抵触する利用や犯罪行為への利用など）に備えることが提案されている。この種の電子透かし情報の埋め込み技術の一例としては、特許文献１〜３に開示されたものが挙げられる。特許文献１に開示された技術は、音声合成技術により合成された音声の音声素片毎に、電子透かし情報として埋め込む情報に基づいて振幅、位相あるいはピッチを変調することにより電子透かし情報の埋め込みを行う技術である。特許文献２に開示された技術は、電子透かし情報の埋め込み先となるデジタルデータ（音声の時間波形のサンプリングデータ列）にフーリエ変換を施し、フーリエ変換により得られた各周波数成分を各周波数成分が属する帯域と埋め込み対象である付加情報（電子透かし情報）のビットとに基づいて変調（振幅変調、位相変調）するものである。そして、特許文献３には、電子透かし情報の埋め込み先である情報信号に対し、電子透かし情報を示す基本数列を畳み込んで畳み込み数列を生成し、この畳み込み数列を情報信号と混合する技術が開示されている。また、近年では、電子透かし情報の頑健性を高めるために、電子透かし情報として埋め込む情報を構成する各シンボルを表す擬似雑音信号を音声信号の特定の周波数帯域に重畳させるなどのスペクトル拡散方式の埋め込み技術も提案されている。

特開２００３−２９５８７８号公報特許第３６５９３２１号特表２００４−５２６２０７号公報

ところで、電子透かし情報が埋め込まれた音声信号をそのまま音として再生すると、その電子透かし情報に起因した耳障りな雑音が聴こえる場合がある。スペクトル拡散方式の埋め込み方式では、電子透かし情報が埋め込まれている周波数帯域のゲインを引き下げて再生することで、上記雑音を緩和することが可能ではあるが、この場合には、元の音声の周波数成分も同様に引き下げられ、聴感上の違和感を聴者に与える虞がある。もっとも、スペクトル拡散方式の埋め込み技術においては、上記擬似雑音信号の強度を引き下げて音声信号に埋め込むことも考えられるが、このような態様では電子透かし情報の頑健性が損なわれる虞がある。

この発明は、以上説明した事情に鑑みてなされたものであり、電子透かし情報が埋め込まれた音声信号を音として再生する際に、電子透かし情報に起因した雑音を低減し、高品位な音の再生を可能にする技術を提供することを目的とする。

上記課題を解決するために、本発明は、電子透かし情報を構成する各シンボルに応じた擬似雑音信号が所定の周波数帯域に重畳された音声信号のサンプル列を、少なくとも１つのシンボルに対応する数分のサンプルを含むブロックに区切り、ブロック毎にフーリエ変換を施して、各周波数成分の強度を示すスペクトラム列をブロック毎に生成する時間／周波数変換部と、前記時間／周波数変換部によって生成されたスペクトラム列の各々に対して前記所定の周波数帯域に属する周波数成分を強調するフィルタ処理を施すバンドパスフィルタと、前記所定の周波数帯域に属する周波数成分からなる擬似雑音信号であって、所定のシンボルを示す擬似雑音信号のスペクトラム列と、前記フィルタ処理が施されたスペクトラム列との相互相関係数を算出する相関算出部と、前記相関算出部により算出される相互相関係数に基づき、各ブロックに埋め込まれたシンボルを判定するシンボル判定部と、前記時間／周波数変換部によってブロック毎に生成されたスペクトラム列の各々から、当該ブロックに埋め込まれていると前記シンボル判定部により判定されたシンボルに対応する擬似雑音信号のスペクトラム列をスペクトラム減算するスペクトラム減算部と、前記減算部によるスペクトラム減算の結果得られる各スペクトラム列に逆フーリエ変換を施して音声信号のサンプル列に戻し、当該サンプル列を出力する時間／周波数逆変換部とを有することを特徴とする音声信号に埋め込まれた電子透かし情報を除去する装置（以下、単に「除去装置」と呼ぶ）、を提供する。

このような除去装置によれば、電子透かし情報を構成する各シンボルに応じた擬似雑音信号が重畳された音声信号からそのシンボルに対応する擬似雑音信号がスペクトラム減算により除去される。このため、当該除去装置から出力される音声信号を音として再生しても、上記擬似雑音信号の信号成分が音として聴こえることはなく、電子透かし情報を埋め込んで伝送された音声信号を用いて高品質な音の再生を行うことが可能になる。なお、本発明の別の態様としては、上記時間／周波数変換部、上記バンドパスフィルタ、上記相関算出部、上記シンボル判定部、上記スペクトラム減算部および上記時間／周波数逆変換部の各々における処理を、コンピュータに実行させるプログラムを提供する態様も考えられる。そして、このようなプログラムの具体的な提供態様としては、例えばＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）やＵＳＢ（Universal
Serial Bus）メモリスティック（登録商標）などのコンピュータ読み取り可能な記録媒体に書き込んで配布する態様や、インターネットなどの電気通信回線経由のダウンロードにより配布する態様が考えられる。

より好ましい態様においては、上記音声信号には複数の電子透かし情報が埋め込まれているとともに、各電子透かし情報にはその埋め込み位置（時間軸上の位置）に応じて定まる情報と各電子透かし情報に共通の情報とが含まれており、上記除去装置のシンボル判定部は、ブロックに埋め込まれたシンボルを相互相関係数からは判定することができなかた場合には、１つ手前までに抽出した１または複数の電子透かし情報の各々のシンボル列を参照して当該シンボルの値を定めることを特徴とする。相互相関係数に基づくシンボルの判定では、音声信号の伝送過程で重畳した雑音等の影響により、そのシンボルを一意に特定することが難しい場合がある。しかし、上記態様によれば、相互相関係数に基づいてシンボルを判定することが困難な場合には、１つ手前までに抽出した１または複数の電子透かし情報を参照して当該シンボルを推定し、電子透かし情報を除去することが可能になる。

また、別の好ましい態様においては、上記除去装置のスペクトラム減算部は、前記時間／周波数変換部により生成されたスペクトラム列から前記シンボル判定部により判定されたシンボルに対応する擬似雑音信号のスペクトラム列を減算する際に、その減算後のスペクトラム列におけるスペクトラムエンベロープが滑らかなものとなるように後者のスペクトラム列の強度を調整して減算することを特徴とする。このような態様によれば、電子透かし情報の除去に起因してスペクトラムエンベロープに大きな段差が生じ、聴感上の違和感が発生することを緩和することができると期待される。

また、本発明の別の態様においては、電子透かし情報を構成するシンボル列の埋め込み先となる音声信号のサンプル列にフーリエ変換を施し、各周波数成分の強度を示すスペクトラム列をフレーム毎に生成する時間／周波数変換部と、前記時間／周波数変換部により生成されたスペクトラム列の各々について、前記電子透かし情報の埋め込み先となる周波数帯域の強度を引き下げた後に逆フーリエ変換を施して音声信号のサンプル列に戻す時間／周波数逆変換部と、前記電子透かし情報を構成する各シンボルを示す擬似雑音信号であって、前記周波数帯域に属する周波数成分からなる擬似雑音信号を生成し、当該擬似雑音信号のスペクトラムエンベロープが所定の形状となるように加工した後に、当該加工後の擬似雑音信号を前記時間／周波数逆変換部により生成された音声信号に加算して出力する電子透かし情報埋め込み部とを有することを特徴とする音声信号に電子透かし情報を埋め込む装置（以下、単に「埋め込み装置」と呼ぶ）、を提供する。

このような埋め込み装置によれば、擬似雑音信号に付与するエンベロープの形状によっては、電子透かし情報を埋め込んだ音声信号をそのまま音として再生してもその埋め込みに起因した雑音が際立つことがないようにしたり、上記除去装置による電子透かし情報の除去に適した態様で電子透かし情報を埋め込んだりすることが可能になる。具体的には、音声信号に加算する擬似音声信号に付与するスペクトラムエンベロープの形状を、電子透かし情報の埋め込み先（音声信号の所定の周波数帯域）のスペクトラムエンベロープと同一の形状とすれば前者の効果が得られ、上記音声信号における当該周波数帯域のスペクトラムエンベロープの平均的な形状或いは一定値を表す形状とすれば後者の効果が得られる、と考えられる。また、本発明のさらに別の態様としては、上記時間／周波数変換部、上記時間／周波数逆変換部、および電子透かし情報埋め込み部の各々における処理をコンピュータに実行させるプログラムを提供する態様も考えられる。

より好ましい態様においては、上記電子透かし情報埋め込み部は、複数系統の擬似雑音信号を生成し、電子透かし情報を構成するシンボル列において隣り合うシンボル間で互いに異なる系統の擬似雑音信号を使用することを特徴とする。詳細については後述するが、このような態様によれば、１系統の擬似雑音信号（シンボル“０”を表す１つの擬似雑音信号と、この擬似雑音信号とは無相関（或いは相関の低い）のシンボル“１”を表す１つの擬似雑音信号との組み合わせ）を使用する場合に比較して、電子透かし情報を埋め込まれた音声信号をそのまま音として再生した場合に現れる擬似雑音信号に起因した繰り返し感（周期的な雑音が聴こえるような感じ）を和らげることができる、と期待される。

この発明の一実施形態の電子透かし情報の埋め込み装置１００を含む音声合成装置の構成を示すブロック図である。本実施形態において合成音声信号に埋め込まれる電子透かし情報を説明するための図である。同埋め込み装置１００の各部の処理内容を示す図である。本実施形態における電子透かし情報の埋め込み、および同電子透かし情報の除去を説明するための図である。同実施形態の電子透かし情報の除去装置２００の構成を示すブロック図である。同除去装置２００の各部の処理内容を示す図である。

＜Ａ：実施形態＞
図１は、本発明の一実施形態の埋め込み装置１００を含む音声合成装置の構成を示すブロック図である。この音声合成装置は、音声合成部１０と、本実施形態による埋め込み装置１００とにより構成されている。音声合成部１０は、入力されるテキスト情報に基づいて音声信号を合成する装置である。埋め込み装置１００は、音声合成部１０が出力する合成音声信号を用いて、電子透かし情報が埋め込まれた音声信号を合成し、この合成した音声信号を元の合成音声信号に加算し、埋め込み済み合成音声信号として出力する装置である。なお、音声合成装置またはその一部である埋め込み装置１００は、電子透かし情報の埋め込まれた合成音声信号を生成する処理または音声信号に電子透かし情報を埋め込む処理を実行する専用のハードウェアとして実現してもよいし、そのような処理をコンピュータに実行させるコンピュータプログラムとして実現してもよい。また、本実施形態では、電子透かし情報の埋め込み先の音声信号として、テキスト情報に基づく音声合成により生成される合成音声信号を用いたが、楽器の演奏音や歌唱音声、人の話し声などの発話音声を録音して得られる音声信号を電子透かし情報の埋め込み先としても良いことは勿論である。

埋め込み装置１００は、図１に示すように、擬似雑音生成部１１０、埋め込み雑音合成部１２０、加算器１３０、信号加工部１４０、および時間／周波数逆変換部１５０により構成されている。擬似雑音生成部１１０は、２値のシンボル（すなわち、ｂｉｔ）を示すＭ系列、Ｇｏｌｄ系列等の一定符号長の擬似雑音信号を各々生成する機能を有している。本実施形態の擬似雑音生成部１１０は、上記擬似雑音信号として電子透かし情報の埋め込み先である合成音声信号の周波数帯域よりも狭い所定の周波数帯域に属する周波数成分のみを含み、かつ平坦な振幅スペクトラムを有する信号を生成する。音声合成部１０により生成される合成音声信号の周波数帯域は、人間の音声帯域（８０Ｈｚから２０ｋＨｚの周波数帯域）に略等しく、本実施形態では上記所定の周波数帯域として１３ｋＨｚから１６ｋＨｚの周波数帯域が用いられる。なお、本実施形態では、上記所定の周波数帯域として、１３ｋＨｚから１６ｋＨｚの周波数帯域を用いるが、例えば１１ｋＨｚから１６ｋＨｚなど他の周波数帯域を用いても勿論良い。

図１の擬似雑音生成部１１０は、埋め込み装置１００が合成音声信号への電子透かし情報の埋め込みを行う場合に、埋め込み対象である電子透かし情報を示すシンボル列を事前に取得し、同シンボル列を構成する各シンボルに対応した擬似雑音信号を順次生成する。従来、音声信号への電子透かし情報の埋め込みは、その音声信号の不正利用に対処する目的で行われることが多かったのであるが、本実施形態では、合成音声信号と他のコンテンツ（映像信号や他の音声信号）の同期再生や、電子楽器の同期演奏を実現する目的でその埋め込みが行われる。

より詳細に説明すると、本実施形態では、合成音声信号に互いに異なる複数の電子透かし情報が埋め込まれる。具体的には、図２に示すように、合成音声信号の１フレーム（２５６サンプル）あたり１つのシンボルが埋め込まれ、１つの電子透かし情報は１５３フレームに亘って埋め込まれる。以下、１つの電子透かし情報の埋め込みに使用されるフレーム数を「１透かし長」と呼ぶ。図２に示すように、本実施形態において合成音声信号に埋め込まれる電子透かし情報は、「識別子」と「タイムコード」とを含んでいる。「識別子」は、合成音声信号に埋め込まれる各電子透かし情報に共通の情報であり、例えば、上記合成音声信号を電子データとして伝送する際に付与されるファイル名称など、その合成音声信号を一意に識別するための情報である。一方、タイムコードは、合成音声信号において電子透かし情報が埋め込まれている時間軸上の位置を示すもの（すなわち、電子透かし情報毎に異なるもの）である。このタイムコードは、電子透かし情報の埋め込み先の合成音声信号と同期再生するべき映像の再生開始タイミングの制御や、当該合成音声信号の再生と同期させて電子楽器の演奏制御を行う際の演奏タイミングの制御等に利用される。

擬似雑音生成部１１０における擬似雑音信号の具体的な生成態様としては種々のものが考えられる。例えば、シンボル“０”に対応した擬似雑音信号およびシンボル“１”に対応した擬似雑音信号として、＋１または−１の信号の羅列であって、互いに無相関のまたは相互相関係数が極めて低い別個の擬似雑音信号を擬似雑音生成部１１０に生成させる態様が考えられる。また、他の好ましい態様としては、ある内容の擬似雑音信号をシンボル“０”に対応した擬似雑音信号として擬似雑音生成部１１０に生成させ、このシンボル“０”に対応した擬似雑音信号を極性反転したものをシンボル“１”に対応した擬似雑音信号として擬似雑音生成部１１０に生成させる態様も考えられる。後者の態様においては、シンボル“０”に対応した擬似雑音信号とシンボル“１”に対応した擬似雑音信号は負の相関を持つことになる。なお、電子透かし情報の埋め込み伝送の信頼性を高めるために、電子透かし情報を示すシンボル列を誤り訂正符号化し、この電子透かし情報の誤り訂正符号列を擬似雑音生成部１１０に与えるようにしてもよい。また、電子透かし情報の秘匿性を高めるために、電子透かし情報を示すシンボル列を暗号化し、暗号化されたシンボル列を擬似雑音生成部１１０に与えるようにしてもよい。

埋め込み雑音合成部１２０は、擬似雑音生成部１１０が出力する電子透かし情報の各シンボルに対応した擬似雑音信号を用いて、音声合成部１０が出力する合成音声信号における上記所定の周波数帯域と同様のスペクトラムエンベロープを持った埋め込み雑音信号を合成する装置である。図３は、この埋め込み雑音合成部１２０の処理内容を示す図である。以下、図１および図３を参照し、埋め込み雑音合成部１２０の各部について説明する。

窓掛け部１２１は、音声合成部１０が出力する合成音声信号のサンプルｘｐ（ｎ）の列を１ハーフフレーム当たりＮサンプル（Ｎ＝Ｍ／２：なお、本実施形態では１フレーム＝２５６サンプルであるから、Ｍ＝２５６、すなわち、Ｎ＝１２８）のハーフフレームｘｐ（ｎ）（ｎ＝０〜Ｎ−１）に区切る処理と、現時点から１／２ハーフフレーム（Ｎ／２サンプル）遅れた位置から始まる２ハーフフレーム（＝１フレーム）分のサンプルｘｐ（ｎ）（ｎ＝０〜２Ｎ−１）に窓関数を乗算して時間／周波数変換部１２２に供給する処理を繰り返す。図３では、窓掛け部１２１がハーフフレームＨＦ３まで合成音声信号のサンプルｘｐ（ｎ）の列を区切ったとき、ハーフレームＨＦ３の中央からハーフフレームＨＦ１の中央までの２ハーフフレーム（＝１フレーム）分のサンプル列ｘｐ（ｎ）（ｎ＝０〜２Ｎ−１）に窓関数を乗じて時間／周波数変換部１２２に供給する例が示されている。

時間／周波数変換部１２２は、１フレーム（２Ｎサンプル）分の窓掛け済みのサンプル列が供給される都度、そのサンプル列に２Ｎ点ＦＦＴ（Fast Fourier Transform；高速フーリエ変換）を施して２Ｎ個の複素スペクトラムの列を生成する。図１に示すように、時間／周波数変換部１２２により生成される複素スペクトラム列は、信号加工部１４０に与えられるとともに、バンドパスフィルタ１２９を介して絶対値算出部１２３に与えられる。

信号加工部１４０は、例えばイコライザであり、時間／周波数変換部１２２により生成される複素スペクトラム列に対して、前述した所定の周波数帯域に属する周波数成分の強度を引き下げる処理を施し（図４（Ａ）および図４（Ｂ）参照）、時間／周波数逆変換部１５０に出力する。図４（Ｂ）に示すように上記所定の周波数帯域に属する周波数成分の強度を引き下げるのは、当該周波数帯域には電子透かし情報を表す擬似雑音信号が重畳されるため、その重畳後の信号強度が強くなり過ぎないようにするためである。時間／周波数逆変換部１５０は、信号加工部１４０が出力する複素スペクトラム列に対してＩＦＦＴ（Inverse Fast Fourier Transform；逆高速フーリエ変換）等の時間／周波数逆変換を施し、信号加工部１４０による加工が施された合成音声信号の時間波形を表すサンプル列を生成し、加算器１３０に出力する。バンドパスフィルタ１２９は、上記所定の周波数帯域を通過域としている。このため、バンドパスフィルタ１２９は、時間／周波数変換部１２２により生成される複素スペクトラム列のうちで上記所定の周波数帯域に属する周波数成分のみを通過させる。

絶対値算出部１２３は、バンドパスフィルタ１２９を通過した複素スペクトラムの各々について、各々の実部の２乗と虚部の２乗の和の平方根を演算することにより、複素スペクトラムの絶対値、すなわち、振幅スペクトラムを算出する。

スペクトラムエンベロープ算出部１２４は、絶対値算出部１２３が出力する振幅スペクトラムの列を周波数軸上に並べたときの各振幅スペクトラムのエンベロープ、すなわち、音声合成部１０により生成された合成音声信号の上記所定の周波数帯域のスペクトラムエンベロープを算出する。時間／周波数逆変換部１２５は、スペクトラムエンベロープ算出部１２４が算出したスペクトラムエンベロープに２Ｎ点ＩＦＦＴ（Inverse Fast Fourier Transform；逆高速フーリエ変換）等の時間／周波数逆変換を施し、時間領域の２Ｎ個のフィルタ係数の列ｆ（ｎ）（ｎ＝−Ｎ〜Ｎ−１）を生成する。この時間領域のフィルタ係数列は、時間軸上において時間ｔ＝０を対称軸として対称な偶関数のサンプル列である。

以上のように、埋め込み雑音合成部１２０における窓掛け部１２１から時間／周波数逆変換部１２５までの各要素からなる部分は、音声合成部１０が１ハーフフレーム分の合成音声信号のサンプル列を出力する毎に、過去１フレーム分の合成音声信号における上記所定の周波数帯域のスペクトラムエンベロープに対応した時間領域の情報であるフィルタ係数列を出力する。

畳み込み部１２６は、擬似雑音生成部１１０が出力する擬似雑音信号のサンプル列に時間／周波数逆変換部１２５が出力するフィルタ係数列を畳み込む。さらに詳述すると、本実施形態において、擬似雑音生成部１１０は、音声合成部１０が１ハーフフレーム（Ｎサンプル）分の合成音声信号のサンプル列を出力し、埋め込み雑音合成部１２０の時間／周波数逆変換部１２５が１フレーム（２Ｎサンプル）分の合成音声信号のスペクトラムエンベロープに対応したフィルタ係数列を出力するのに同期し、１シンボルフレーム（Ｎサンプル）分の擬似雑音信号のサンプル列を出力する。畳み込み部１２６は、時間／周波数逆変換部１２５が２Ｎサンプルからなるフィルタ係数列ｆ（ｎ）（ｎ＝−Ｎ〜Ｎ−１）を出力した場合に、１シンボルフレーム（Ｎサンプル）分の擬似雑音信号のサンプル列とそのフィルタ係数列ｆ（ｎ）（ｎ＝−Ｎ〜Ｎ−１）との畳み込み演算を行い、畳み込み演算結果である３Ｎ−１個のサンプルの列を生成する。

具体的には、１シンボルフレーム（Ｎサンプル）分の擬似雑音信号のサンプル列に対する１フレーム（２Ｎサンプル）分のフィルタ係数列ｆ（ｎ）（ｎ＝−Ｎ〜Ｎ−１）の位相関係をずらしながら擬似雑音信号のＮ個のサンプル列の各々とそれらに対応するフィルタ係数との乗算を行うとともにＮ個の乗算結果の加算を行い、１個の畳み込み演算結果を生成する動作を繰り返す。図３に示す例では、フィルタ係数列ｆ（ｎ）（ｎ＝−Ｎ〜Ｎ−１）における最後尾のフィルタ係数ｆ（Ｎ−１）が擬似雑音信号のサンプル列ＰＮ２の先頭のサンプルと対向している状態からフィルタ係数列ｆ（ｎ）（ｎ＝−Ｎ〜Ｎ）における先頭のフィルタ係数ｆ（−Ｎ）が擬似雑音信号のサンプル列ＰＮ２の最後尾のサンプルと対向している状態になるまでフィルタ係数列ｆ（ｎ）（ｎ＝−Ｎ〜Ｎ−１）の位相を１サンプルずつシフトしつつ、擬似雑音信号のＮ個のサンプル列の各々とそれらに対応するフィルタ係数との乗算およびＮ個の乗算結果の加算を繰り返す様子が示されている。なお、擬似雑音信号のサンプルと対向するフィルタ係数ｆ（ｎ）がない場合には、０値がフィルタ係数の代わりに擬似雑音信号のサンプルに乗算される。

そして、畳み込み部１２６は、１フレーム（２Ｎサンプル）分のフィルタ係数列と１シンボルフレーム分の擬似雑音信号のサンプル列とが発生する毎にこのような畳み込み演算を実行し、各畳み込み演算において得られる３Ｎ−１個のサンプルの列の最後尾に０値サンプルを１個追加して３Ｎ個のサンプルの列とする。そして、このようにして得られる各３Ｎ個のサンプルの各列を、先行するサンプル列の最後尾のＮ個のサンプルと後続のサンプル列の先頭のＮサンプルとを互いにオーバラップさせて出力する。その際、オーバラップ部分は各畳み込み演算結果を加算して１つの出力サンプルとする。図３には、先行する擬似雑音信号のサンプル列ＰＮ２に対する３Ｎサンプル分の畳み込み演算結果と後続の擬似雑音信号のサンプル列ＰＮ３に対する３Ｎサンプル分の畳み込み演算結果とがＮサンプル（＝１シンボルフレーム）だけオーバラップして出力される様子が示されている。

このような畳み込み演算が行われることにより、周波数軸上において合成音声信号の上記所定の周波数帯域のスペクトラムエンベロープと同様なスペクトラムエンベロープを持ち、かつ、時間軸上におけるスペクトラムエンベロープの変化が緩和されたサンプル列が得られる。ここで、時間／周波数逆変換部１２５が出力するフィルタ係数列ｆ（ｎ）（ｎ＝−Ｎ〜Ｎ−１）は、前述した通り、時間軸上において時間ｔ＝０を対称軸として対称な偶関数のサンプル列であるので、このフィルタ係数列の畳み込みを行うフィルタ処理は、直線位相特性を持つ。従って、畳み込み部１２６によるフィルタ処理では、位相歪みは発生しない。

なお、以上の説明では、時間領域においてフィルタ係数列ｆ（ｎ）（ｎ＝−Ｎ〜Ｎ−１）と擬似雑音信号のサンプル列との畳み込み演算を行ったが、この畳み込み演算を次のような周波数領域の操作に置き換えてもよい。
ａ１．フィルタ係数列ｆ（ｎ）（ｎ＝−Ｎ〜Ｎ−１）の後にＮ−１個の０値サンプルを追加して３Ｎ−１個のフィルタ係数列とし、この３Ｎ−１個のフィルタ係数列に３Ｎ−１点ＦＦＴを施して、３Ｎ−１個のフーリエ変換係数を生成する。
ｂ１．畳み込み演算の対象となる１シンボルフレーム（Ｎサンプル）分の擬似雑音信号のサンプル列の後に２Ｎ−１個の０値サンプルを追加して、３Ｎ−１個のサンプル列とし、この３Ｎ−１個のサンプル列に３Ｎ−１点ＦＦＴを施して、３Ｎ−１個のフーリエ変換係数を生成する。
ｃ１．上記ａ１．により得られる３Ｎ−１個のフーリエ変換係数と上記ｂ１．により得られる３Ｎ−１個のフーリエ変換係数とを同一周波数に対応したもの同士乗算し、乗算結果である３Ｎ−１個のフーリエ変換係数にＩＦＦＴを施し、時間領域の３Ｎ−１個のサンプルの列を生成する。
ｄ１．上記ａ１．〜ｃ１．が繰り返される毎に得られる３Ｎ−１個のサンプルの列の最後尾に１個の０値サンプルを追加して３Ｎ個のサンプルの列とし、先行するサンプル列と後続のサンプル列を時間軸上においてＮサンプルだけオーバラップさせて出力する。

ゲイン算出部１２７は、次式に従い、乗算器１２８に供給するゲインαを算出し、乗算器１２８はこのゲインαを畳み込み部１２６が出力するサンプル列に乗算し、埋め込み雑音信号のサンプル列として出力する。
α＝√｛（Ｐｓ／Ｐｗ）１０^{−ＳＷＲ／１０}｝ ……（１）
ここで、Ｐｓは、１フレーム分の合成音声信号のうち上記所定の周波数帯域に属する周波数成分の平均パワー、具体的には絶対値算出部１２３により算出された全ての振幅スペクトラムの平均２乗和である。また、Ｐｗは、擬似雑音生成部１１０が出力する擬似雑音信号の平均パワーである。そして、ＳＷＲは、埋め込み先である合成音声信号の上記所定の周波数帯域のパワーを基準とした埋め込み雑音信号のパワーの減衰量の目標値であり、例えば２０ｄＢである。

以上のように、埋め込み雑音合成部１２０は、音声合成部１０が出力する合成音声信号の所定の周波数帯域と同様のスペクトラムエンベロープを有し、かつ、同周波数帯域の信号成分よりもＳＷＲだけ平均パワーの減衰した埋め込み雑音信号を擬似雑音信号を用いて合成する。加算器１３０は、この埋め込み雑音信号を前述した加工済み合成音声信号と加算し（図４（Ｃ）参照）、埋め込み済み合成音声信号として出力する。以上が本実施形態による埋め込み装置１００を備えた音声合成装置の詳細である。

図５は、本実施形態による電子透かし情報の除去装置２００の構成を示すブロック図である。また、図６は除去装置２００の各部の処理内容を示す図である。この除去装置２００は、本実施形態による埋め込み装置１００から出力された埋め込み済み合成音声信号から電子透かし情報のシンボル列を抽出するとともに、このシンボル列を構成する各シンボルに対応する擬似雑音信号を上記埋め込み済み合成音声信号からスペクトラム減算により除去して出力する。

バッファ２１０は、埋め込み済み合成音声信号を蓄積する装置である。前述した埋め込み装置１００により出力された埋め込み済み合成音声信号のサンプル列は、例えばアナログ信号に変換された後、音として空気中に放音され、図示しない収音装置により収音されてデジタル化され、バッファ２１０に蓄積される。あるいは、埋め込み済み合成音声信号のサンプル列は、一旦、何らかの記録媒体に記録され、その記録媒体から読み出されてバッファ２１０に蓄積される場合もあり得る。

バッファ２１０内の埋め込み済み合成音声信号のサンプル列は、古いものから順に読み出され、窓掛け部２１１の処理を経て時間／周波数変換部２１２に供給される。なお、バッファ２１０から埋め込み済み合成音声信号のサンプル列を読み出す手段については後述する。

窓掛け部２１１は、埋め込み装置１００の窓掛け部１２１と同様の構成のものであり、バッファ２１０から読み出される埋め込み済み合成音声信号のサンプルｘｐ’（ｎ）の列を先頭から順にＮサンプルのハーフフレームに区切る処理と、現時点までに区切った最新の１ハーフフレーム（１シンボルフレーム）分のオーディオサンプルｘｐ’（ｎ）（ｎ＝０〜Ｎ−１）に窓関数を乗じて時間／周波数変換部２１２に供給する処理を繰り返す。

時間／周波数変換部２１２は、埋め込み装置１００の時間／周波数変換部１２２と同様の構成のものであり、１ハーフフレーム分の窓掛け済みのサンプル列が供給される都度、そのサンプル列にＦＦＴを施し、複素スペクトラム列を生成する。バンドパスフィルタ２１４は、時間／周波数変換部２１２が１ハーフフレーム分のサンプル列から生成する各複素スペクトラムのうち上記所定の周波数帯域に属する周波数成分の複素スペクトラム列のみを通過させる。スペクトラム振幅平坦化部２１３は、バンドパスフィルタ２１４から出力される各複素スペクトラムについて、各々の振幅が１となるように実部と虚部の大きさを調整する。具体的には、各複素スペクトラムについて、実部と虚部の２乗和の平方根（すなわち、複素スペクトラムの振幅値（絶対値））を求め、実部と虚部をこの平方根により除算する。

擬似雑音生成部２２０は、埋め込み装置１００の擬似雑音生成部１１０が生成するものと同様なシンボル“０”に対応した擬似雑音信号とシンボル“１”に対応した擬似雑音信号であって、上記所定の周波数帯域に属する周波数成分のみを含み、各周波数成分の振幅が１であるもの（すなわち、平坦なスペクトラムエンベロープを有するもの）を生成する機能を備えている。時間／周波数変換部２２１は、シンボル“０”に対応した擬似雑音信号とシンボル“１”に対応した擬似雑音信号の各々にＦＦＴを施し、シンボル“０”に対応した擬似雑音信号の複素スペクトラム列とシンボル“１”に対応した擬似雑音信号の複素スペクトラム列とを生成する。複素共役化部２２２は、シンボル“０”に対応した擬似雑音信号の複素スペクトラム列とシンボル“１”に対応した擬似雑音信号の複素スペクトラム列の各複素スペクトラムについて、各々の虚部の符号を反転し、元の複素スペクトラムと複素共役をなす複素スペクトラムに変換する。

相関算出部２３０は、スペクトラム振幅平坦化部２１３から出力された複素スペクトラム列の各複素スペクトラムと、複素共役化部２２２の処理を経たシンボル“０”に対応した擬似雑音信号の複素スペクトラム列の各複素スペクトラムとを同一周波数に対応したもの同士乗算し、各乗算結果にＩＦＦＴを施して時間領域のサンプル列に変換する。そして、その中で最も高いピーク値を第１の相互相関係数として出力する。同様に、相関算出部２３０は、バンドパスフィルタ２１４から出力された複素スペクトラム列の各複素スペクトラムと、複素共役化部２２２の処理を経たシンボル“１”に対応した擬似雑音信号の複素スペクトラム列の各複素スペクトラムとを同一周波数に対応したもの同士乗算し、各乗算結果にＩＦＦＴを施して時間領域のサンプル列に変換する。そして、その中で最も高いピーク値を第２の相互相関係数として出力する。

ここで、仮に窓掛け部２１１が埋め込み装置１００の窓掛け部１２１と同じ区切り位置において、バッファ２１０から読み出される合成音声信号をフレームに区切るとした場合、スペクトラム振幅平坦化部２１３から出力される複素スペクトラム列は、上述の畳み込み部１２６が出力した埋め込み雑音信号の複素スペクトラムの振幅を１にしたものと、上述の音声合成部１０が出力した合成音声信号の複素スペクトラムの振幅を１にしたものを含んでいる。

そして、スペクトラム振幅平坦化部２１３から出力される複素スペクトラム列がシンボル“０”に対応した擬似雑音信号から得られた埋め込み雑音信号の各複素スペクトラムであって振幅が１であるものを含む場合には、これらの各複素スペクトラムと複素共役化部２２２の処理を経たシンボル“０”に対応した擬似雑音信号の各複素スペクトラムとの乗算結果が各々１となる。この結果、第１の相互相関係数が大きな値となる。また、スペクトラム振幅平坦化部２１３から出力される複素スペクトラム列がシンボル“１”に対応した擬似雑音信号から得られた埋め込み雑音信号の各複素スペクトラムであって振幅が１であるものを含む場合には、これらの各複素スペクトラムと複素共役化部２２２の処理を経たシンボル“１”に対応した擬似雑音信号の各複素スペクトラムとの乗算結果が各々１となる。この結果、第２の相互相関係数が大きな値となる。なお、音声合成部１０が出力する合成音声信号の複素スペクトラムと、シンボル“０”および“１”に対応した各擬似雑音信号から得られる埋め込み雑音信号の各複素スペクトラムとの相互相関係数が低い場合、合成音声信号の複素スペクトラムの第１の相互相関係数および第２の相互相関係数に与える影響は少ない。

同期化制御部２３１は、以上説明した各部に同期探索フェーズでの動作を行わせ、その後、データ抽出フェーズでの動作を行わせる制御を行う。ここで、同期化制御部２３１は、同期探索フェーズでは、バッファ２１０内の埋め込み済み合成音声信号のサンプル列における読み出し開始位置を更新しつつ、バッファ２１０からサンプル列を繰り返し読み出し、窓掛け部２１１、時間／周波数変換部２１２、バンドパスフィルタ２１４、スペクトラム振幅平坦化部２１３、擬似雑音生成部２２０、時間／周波数変換部２２１、複素共役化部２２２および相関算出部２３０に上述した動作を行わせ、第１の相互相関係数および第２の相互相関係数を算出させる制御を繰り返す。この制御の過程において、窓掛け部２１１が埋め込み装置１００の窓掛け部１２１と同じ区切り位置において、バッファ２１０から読み出される合成音声信号をシンボルフレームに区切ると、その時点において、第１の相互相関係数または第２の相互相関係数が最大となる。これを以って同期化制御部２３１は、データ抽出フェーズでの制御に移行する。

同期化制御部２３１は、このデータ抽出フェーズでは、第１の相互相関係数または第２の相互相関係数の実部が最大となる区切り位置において窓掛け部２１１がバッファ２１０から読み出される合成音声信号をシンボルフレームに区切るようにバッファ２１０から合成音声信号のサンプル列を読み出し、窓掛け部２１１、時間／周波数変換部２１２、バンドパスフィルタ２１４、スペクトラム振幅平坦化部２１３、擬似雑音生成部２２０、時間／周波数変換部２２１、複素共役化部２２２および相関算出部２３０に上述した動作を行わせ、第１の相互相関係数および第２の相互相関係数を算出させる制御を繰り返す。シンボル判定部２３２は、相関算出部２３０により算出される第１の相互相関係数および第２の相互相関係数に基づいて、埋め込み済み合成音声信号から電子透かし情報のシンボル列を抽出し出力する。より詳細に説明すると、シンボル判定部２３２は、相関算出部２３０が第１の相互相関係数および第２の相互相関係数を出力する毎に、第１の相互相関係数および第２の相互相関係数を比較し、第１の相互相関係数が第２の相互相関係数よりも大きければ埋め込み済み合成音声信号に埋め込まれたシンボルは“０”であると判定し、第２相互相関係数が第１の相互相関係数よりも大きければ埋め込み済み合成音声信号に埋め込まれたシンボルは“１”であると判定する。このようにして抽出される電子透かし情報のシンボル列は、埋め込み済み合成音声信号の表す音声と映像などとの同期再生、或いは電子楽器の同期演奏の制御に利用されるとともに、スペクトラム減算部３１０に与えられる。

スペクトラム減算部３１０には、時間／周波数変換部２１２から出力される複素スペクトラム列（すなわち、埋め込み済み合成音声信号のサンプル列にＦＦＴを施して得られる複素スペクトラム列）と、時間／周波数変換部２２１から出力される２種類の複素スペクトラム列（すなわち、シンボル“１”を表す擬似雑音信号の複素スペクトラム列と、シンボル“０”を表す擬似雑音信号の複素スペクトラム列）と、シンボル判定部２３２の判定結果とが与えられる。スペクトラム減算部３１０は、シンボル判定部２３２の判定結果がシンボル“１”を示すものである場合には、埋め込み済み合成音声信号の複素スペクトラム列からシンボル“１”を表す擬似雑音信号の複素スペクトラム列をスペクトラム減算して時間／周波数逆変換部３２０に出力する。これに対して、シンボル判定部２３２の判定結果がシンボル“０”を示すものである場合には、スペクトラム減算部３１０は、埋め込み済み合成音声信号の複素スペクトラム列からシンボル“０”を表す擬似雑音信号の複素スペクトラム列をスペクトラム減算して時間／周波数逆変換部３２０に出力する。その結果、図４（Ｃ）および図４（Ｂ）に示すように擬似雑音信号の除去が行われるのである。時間／周波数逆変換部３２０は、スペクトラム減算部３１０から出力される複素スペクトラム列（すなわち、擬似雑音信号に相当する信号成分を減算済みの複素スペクトラム列）にＩＦＦＴを施して時間波形を表すサンプル列に戻し、当該サンプル列を雑音除去済みの合成音声信号を表すものとして出力する。
以上が本実施形態による電子透かし情報の除去装置２００の詳細である。

なお、以上説明した態様では、演算量を削減するために、除去装置２００の窓掛け部２１１は埋め込み済み合成音声信号のサンプル列を１ハーフフレーム（１シンボルフレーム）のサンプル列に区切って窓関数の乗算を行い、この１ハーフフレーム分のサンプル列を１ブロックとして時間／周波数変換部２１２および２２１はＮ点のＦＦＴを実行した。しかし、演算量の削減よりも演算精度（電子透かし情報の抽出精度、すなわち、雑音除去の精度）を重視する場合、窓掛け部２１１には、１ハーフフレーム分の埋め込み済み合成音声信号のサンプル列がバッファ２１０から読み出される都度、過去３ハーフフレーム分のサンプル列を１ブロックとして窓関数の乗算を行わせ、時間／周波数変換部２１２および２２１には、この１ブロック分のサンプル列に対して３Ｎ点のＦＦＴを実行させるようにしてもよい。

以上説明した本実施形態によれば次の効果が得られる。まず、埋め込み装置１００では、合成音声信号の所定の周波数帯域のスペクトラムエンベロープを持った埋め込み雑音信号を生成し、これを合成音声信号に加算して埋め込み済み合成音声信号として出力する。このため、埋め込み済み合成音声信号がそのまま音として再生された場合であっても、電子透かし情報の埋め込みに起因した雑音が極端に際立つことが回避される。そして、除去装置２００側では、埋め込み済み合成音声信号の各フレームの複素スペクトラム列からそのフレームに埋め込まれているシンボルを表す擬似雑音信号の複素スペクトラム列を減算した後に時間／周波数逆変換を施して雑音除去済み合成音声信号を生成し、その合成音声信号を音として出力する処理が行われる。このため、電子透かし情報のシンボル列を表す擬似雑音信号が音として再生されることはなく、高い音質で合成音声信号の再生を行うことが可能になる。加えて、本実施形態の除去装置２００では、電子透かし情報の抽出過程で生成した合成音声信号の複素スペクトラム列、および擬似雑音信号の複素スペクトラム列を利用して電子透かし情報の除去を行うため、従来技術に比較して処理負荷が極端に高くなることもない。

＜Ｂ：変形＞
以上、この発明の実施形態を説明したが、この実施形態を以下のように変形しても勿論良い。
（１）上記実施形態のシンボル判定部２３２は、第１の相互相関係数と第２の相互相関係数との比較により、各ハーフフレームに埋め込まれているシンボルが“０”であるのか“１”であるのかを判定した。しかし、第１の相互相関係数の大きさと第２の相互相関係数の大きさに充分な差がない場合（ノイズ等に起因した誤差程度の差しかないなど有意な差がない場合）には、シンボルの判定に支障が生じる。このような場合には１つ手前までに抽出した１または複数の電子透かし情報を構成するシンボル列との関係でシンボル値を推定するようにしても良い。

より詳細に説明すると、上記実施形態において合成音声信号に埋め込まれる電子透かし情報は「識別子」と「タイムコード」とにより構成されている。これら電子透かし情報の構成要素のうち「識別子」については各電子透かし情報間で共通であるから、相互相関係数に基づいて“０”または“１”の何れであるのかを判定することができなかったシンボルが「識別子」を構成するものであり、かつ、その１つ手前に抽出した電子透かし情報のシンボルが全て特定されている場合には、当該１つ手前に抽出した電子透かし情報において該当するシンボルのシンボル値を当該シンボルのシンボル値とすれば良い。また、「タイムコード」については電子透かし情報毎に異なるのであるが、当該「タイムコード」は合成音声の先頭からの時間を表すことに着目し、１つ手前に抽出した電子透かし情報のタイムコードと比較してより遅い時間を表し、かつそのタイムコードの表す時刻との時間差がフレーム間隔や合成音声全体の時間長との関係で長くなりすぎたり、短くなりすぎたりすることがないように、それまでに抽出した複数の電子透かし情報のタイムコードを参照して統計的に当該シンボルの値を定めるようにすれば良い。

（２）上記実施形態では、擬似雑音生成部１１０および擬似雑音生成部２２０にシンボル“０”を表す擬似雑音信号と同“１”を表す擬似雑音信号を各々１つずつ生成させた。しかし、シンボル“０”を表すものとして、１および−１の配列が互いに異なる複数系統の擬似雑音信号を擬似雑音生成部１１０および擬似雑音生成部２２０に生成させ、同様に、シンボル“１”を表す擬似雑音信号についても、１および−１の配列が互いに異なるものを、その系統数分だけ擬似雑音生成部１１０および擬似雑音生成部２２０に生成させ、それら複数系統の擬似雑音信号を用いて電子透かし情報を埋め込むようにしても良い。例えば、電子透かし情報を表すシンボル列が“１１１０１０１０００・・・”である場合には、１番目のシンボルについては第１の系統の擬似雑音信号を用いて合成音声信号への埋め込みを行い、２番目のシンボルについては第２の系統の擬似雑音信号を用いて合成音声信号への埋め込みを行い、３番目のシンボルについては第３の系統の擬似雑音信号を用いて合成音声信号への埋め込みを行う、といった具合である。１系統の擬似雑音信号のみを用いて電子透かし情報の埋め込みを行うと、上記シンボル列の先頭部分のように同一シンボルが連続して表れた場合に同一の擬似雑音信号が連続して合成音声信号へ加算されることになり、雑音の繰り返し感が際立つ虞がある。しかし、上記のように複数系統の擬似雑音信号を発生させ、隣接するシンボル間で異なる系統の雑音信号を用いるようにすることで、上記のような雑音の繰り返し感が際立つことを回避することができる。なお、複数系統の擬似雑音信号を擬似雑音生成部２２０に発生させる場合には、各系統における“０”を表す擬似雑音信号と同“１”を表す擬似雑音信号との相互相関値を相関算出部２３０に算出させ、埋め込み済み合成音声信号に埋め込まれている擬似雑音信号の系統およびその擬似雑音信号の表すシンボル値をシンボル判定部２３２に判定させるようにすれば良い。また、スペクトラム減算部３１０においては、シンボル判定部２３２により判定された系統およびシンボル値に対応する擬似雑音信号をスペクトラム減算する処理を行わせるようにすれば良い。

（３）上記実施形態では、電子透かし情報の抽出時に、擬似雑音生成部２２０が出力する擬似雑音信号を時間／周波数変換部２２１および複素共役化部２２２に処理させるようにした。しかし、予め各種の擬似雑音信号を生成して、時間／周波数変換部２２１に処理させた結果得られる複素スペクトラム列をメモリに記憶させておき、電子透かし情報の抽出時には、このメモリに記憶された複素スペクトラム列を複素共役化部２２２とスペクトラム減算部３１０に供給するように構成してもよい。この態様では、除去装置２００から時間／周波数変換部２２１を削除することができる。また、予め生成した各種の擬似雑音信号に時間／周波数変換部２２１による処理を施して得られる複素スペクトラム列をメモリに記憶させておくとともに、同複素スペクトラム列に複素共役化部２２２による処理を施して得られる複素スペクトラム列を同メモリに記憶させておき、相関算出部２３０には後者の複素スペクトラム列を、スペクトラム減算部３１０には前者の複素スペクトラム列を供給するように構成しても良い。この態様では、時間／周波数変換部２２１に加えて複素共役化部２２２を除去装置２００から削除することができる。

（４）上記実施形態では、電子透かし情報のシンボルを示すものとして合成音声信号に埋め込む擬似雑音信号に埋め込み先の周波数帯域のスペクトラムエンベロープを付けて埋め込んだが、過去複数フレームに亘る当該周波数帯域のスペクトラムエンベロープの平均の形状或いは所定の形状（例えば、一定値を表す形状）のスペクトラムエンベロープを付けて埋め込むようにしても良い。埋め込み先の周波数帯域との関係では、このような態様のほうがシンボルの推定を行いやすい場合があるからである。

（５）上記実施形態では、電子透かし情報の各シンボルに応じた擬似雑音信号が埋め込まれた合成音声信号を解析してその電子透かし情報のシンボル列を推定し、その推定結果に応じた擬似雑音信号をスペクトラム減算により当該合成音声信号から減算した後に音として再生した。しかし、スペクトラム減算の対象となった周波数帯域の強度を引き上げる処理を施した後に音として再生するようにしても良く、また、スペクトラム減算を行う際に、減算後のスペクトラム列におけるスペクトラムエンベロープが滑らかなものとなるように擬似雑音信号のスペクトラム列の強度を調整してからスペクトラム減算を行うようにしても良い。当該周波数帯域の信号成分に関しては、信号加工部１４０による処理においてその強度が引き下げられているため、電子透かし情報の除去に起因してスペクトラムエンベロープに大きな段差が生じ、その段差に起因した聴感上の違和感が発生する虞があるが本変形例によれば、そのような不具合を緩和（或いは解消）することができると期待される。

（６）上記実施形態において、除去装置２００側において埋め込み済み合成音声信号から電子透かし情報のシンボルを抽出する際の時間精度を高めるために、埋め込み装置１００側において電子透かし情報であるデータシンボルを示す擬似雑音信号とともに除去装置２００側において内容が既知である同期用のパイロットシンボルを示す擬似雑音信号を合成音声信号に埋め込むようにしてもよい。この場合、除去装置２００側では、埋め込み済み合成音声信号内においてパイロットシンボルを示す擬似雑音信号が埋め込まれた区間を探索する制御を行い、この探索により求めた区間から電子透かし情報であるデータシンボルを抽出すればよい。なお、このようなパイロットシンボルを用いる態様においては、埋め込み済み合成音声信号からパイロットシンボルを示す擬似雑音信号とデータシンボルを示す擬似雑音信号の各々をスペクトル減算により除去するようにすれば良い。パイロットシンボルを示す擬似雑音信号を合成音声信号に埋め込む態様に関しては各種考えられるが、例えば帯域分割を利用してもよい。この態様では、埋め込み装置１００側では、データシンボルを示す擬似雑音信号およびパイロットシンボルを示す擬似雑音信号を互いにオーバラップしない高域と低域に帯域制限し、帯域制限された両擬似雑音信号を合成音声信号に埋め込んで伝送する。そして、除去装置２００側では、埋め込み済み合成音声信号を高域と低域に分割し、一方の帯域の埋め込み済み合成音声信号内においてパイロットシンボル列の所在区間を探索し、他方の帯域の埋め込み済み合成音声信号においてパイロットシンボル列の所在区間に対応する区間からデータシンボルの抽出を行うのである。さらに、除去装置２００は、埋め込み済み合成音声信号の上記一方の帯域からパイロットシンボルを示す擬似雑音信号をスペクトラム減算によって除去し、他方の帯域からデータシンボルを示す擬似雑音信号をスペクトラム減算によって除去するのである。

（７）上記実施形態では、各々が識別子とタイムコードとからなる複数の電子透かし情報を合成音声信号に埋め込み、その合成音声信号と他のコンテンツとの同期再生にそれら電子透かし情報を利用する場合について説明した。しかし、従来と同様に音声信号の不正利用に対処するために１または複数の電子透かし情報を音声信号に埋め込むとしても良く、この場合は、複数の電子透かし情報を埋め込む場合であっても、それら電子透かし情報は全て同一のものであってもかまわない。

１０……音声合成部、１００……埋め込み装置、２００……除去装置、１１０，２２０……擬似雑音生成部、１２０……埋め込み雑音合成部、１２１，２１１……窓掛け部、１２２，２１２，２２１……時間／周波数変換部、１２３……絶対値算出部、１２４……スペクトラムエンベロープ算出部、１２５，１５０，３２０……時間／周波数逆変換部、１２６……畳み込み部、１２７……ゲイン算出部、１２８……乗算器、１２９，２１４……バンドパスフィルタ、１３０……加算器、１４０……信号加工部、２１０……バッファ、２１３……スペクトラム振幅平坦化部、２２２……複素共役化部、２３０……相関算出部、２３１……同期化制御部、２３２……シンボル判定部、３１０……スペクトラム減算部。

Claims

電子透かし情報を構成する各シンボルに応じた擬似雑音信号が所定の周波数帯域に重畳された音声信号のサンプル列を、少なくとも１つのシンボルに対応する数分のサンプルを含むブロックに区切り、ブロック毎にフーリエ変換を施して、各周波数成分の強度を示すスペクトラム列をブロック毎に生成する時間／周波数変換部と、
前記時間／周波数変換部によって生成されたスペクトラム列の各々に対して前記所定の周波数帯域に属する周波数成分を強調するフィルタ処理を施すバンドパスフィルタと、
前記所定の周波数帯域に属する周波数成分からなる擬似雑音信号であって、所定のシンボルを示す擬似雑音信号のスペクトラム列と、前記フィルタ処理が施されたスペクトラム列との相互相関係数を算出する相関算出部と、
前記相関算出部により算出される相互相関係数に基づき、各ブロックに埋め込まれたシンボルを判定するシンボル判定部と、
前記時間／周波数変換部によってブロック毎に生成されたスペクトラム列の各々から、当該ブロックに埋め込まれていると前記シンボル判定部により判定されたシンボルに対応する擬似雑音信号のスペクトラム列をスペクトラム減算するスペクトラム減算部と、
前記スペクトラム減算の結果得られる各スペクトラム列に逆フーリエ変換を施して音声信号のサンプル列に戻し、当該サンプル列を出力する時間／周波数逆変換部と、
を有することを特徴とする音声信号に埋め込まれた電子透かし情報を除去する装置。
前記音声信号には複数の電子透かし情報が埋め込まれているとともに、各電子透かし情報にはその埋め込み位置に応じて定まる情報と各電子透かし情報に共通の情報とが含まれており、
前記シンボル判定部は、前記相関算出部により算出された相互相関係数から当該ブロックに埋め込まれたシンボルの値を判定することができなかった場合には、その１つ手前までに抽出した電子透かし情報を構成するシンボル列を参照して当該シンボルの値を定めることを特徴とする請求項１に記載の装置。
前記スペクトラム減算部は、前記時間／周波数変換部により生成されたスペクトラム列から前記シンボル判定部により判定されたシンボルに対応する擬似雑音信号のスペクトラム列を減算する際に、減算後のスペクトラム列におけるスペクトラムエンベロープが滑らかなものとなるように後者のスペクトラム列の強度を調整して減算することを特徴とする請求項１または２の何れかに記載の装置。
電子透かし情報を構成するシンボル列の埋め込み先となる音声信号のサンプル列にフーリエ変換を施し、各周波数成分の強度を示すスペクトラム列をフレーム毎に生成する時間／周波数変換部と、
前記時間／周波数変換部により生成されたスペクトラム列の各々について、前記電子透かし情報の埋め込み先となる所定の周波数帯域の強度を引き下げた後に逆フーリエ変換を施して音声信号のサンプル列に戻す時間／周波数逆変換部と、
前記電子透かし情報を構成する各シンボルを示す擬似雑音信号であって、前記所定の周波数帯域に属する周波数成分からなる擬似雑音信号を生成し、当該擬似雑音信号のスペクトラムエンベロープが所定の形状となるように加工した後に、当該加工後の擬似雑音信号を前記時間／周波数逆変換部により生成された音声信号に加算して出力する電子透かし情報埋め込み部と、
を有することを特徴とする音声信号に電子透かし情報を埋め込む装置。