JP2010530154A - 音声信号中に埋め込まれた隠れデータの回復 - Google Patents

音声信号中に埋め込まれた隠れデータの回復 Download PDF

Info

Publication number
JP2010530154A
JP2010530154A JP2010509891A JP2010509891A JP2010530154A JP 2010530154 A JP2010530154 A JP 2010530154A JP 2010509891 A JP2010509891 A JP 2010509891A JP 2010509891 A JP2010509891 A JP 2010509891A JP 2010530154 A JP2010530154 A JP 2010530154A
Authority
JP
Japan
Prior art keywords
data
hidden
audio
speech
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010509891A
Other languages
English (en)
Other versions
JP2010530154A5 (ja
JP5226777B2 (ja
Inventor
レイモンド レイノルズ,マイケル
ジョン ケリー,ピーター
ライ,ジョン
マイケル ホスキング,イアン
Original Assignee
イントラソニックス ソシエテ パール アクシオン デ ラ レスポンサビリテ リミテ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イントラソニックス ソシエテ パール アクシオン デ ラ レスポンサビリテ リミテ filed Critical イントラソニックス ソシエテ パール アクシオン デ ラ レスポンサビリテ リミテ
Publication of JP2010530154A publication Critical patent/JP2010530154A/ja
Publication of JP2010530154A5 publication Critical patent/JP2010530154A5/ja
Application granted granted Critical
Publication of JP5226777B2 publication Critical patent/JP5226777B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Telephonic Communication Services (AREA)
  • Traffic Control Systems (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

携帯電話機は、入力音響信号中に埋め込まれた、隠れデータを回復するために備えられる。電話機は、音響信号を電話機の音声コーダを通過させて、音声コーダによって生成された圧縮音声を処理し、隠れデータを回復する。同様な電話機は、また、音声コーダの圧縮した出力から音声信号を識別するために備えられる。種々のコーディング技術が、また、音声の中にデータを隠すために記述されている。

Description

本発明は、通信システムに関する。本発明は、特に、携帯電話のような電話装置が音響データチャネルを介したデータを備えた、通信システムに独占的に関連しているのではない。
特許文献1は、隠れデータがテレビやラジオ番組の音声の中に携帯電話に伝送され得る、携帯電話システムを記載している。この文脈において、データは、それがユーザに目立たず、音声によってある程度隠されるように音声中にデータを隠すのを試みるために符号化されているという意味で、隠されている。当業者が認識するように、データの可聴度の容認できるレベルは、応用と関連するユーザに依存して変化するだろう。種々の技術が、スペクトラム拡散符号化、エコー変調、臨界帯域符号化などを含む、音声内にデータを符号化するための初期の応用において記載されている。しかしながら、本発明者らは、この応用のソフトウェアは、隠れデータを回復することができるために、重要な処理を実行しなければならいことを見つけ出した。
国際公開公報第02/45273号
したがって、1つの実施形態の1つの目的は、ソフトウェア応用の処理要求を減じることにある。
1つの実施形態において、方法は、通信ネットワークへの伝送用の入力音声信号を圧縮するための音声コーダを持つ通信装置を使用して、入力音声信号から隠れデータを回復又は入力音声信号を識別するために備えられ、この方法は、入力音声信号を音声コーダを通過させて圧縮音声データを生成し、圧縮音声データを処理して、隠れデータを回復又は入力音声信号を識別することを特徴する。本発明者らは、入力音声を音声コーダを通過させることによって、隠れデータを回復し又は入力音声を識別するために必要な処理量が著しく減少され得ることを発見した。特に、この処理は、音声サンプルを再生することに実行され得、隠れデータを回復し又は音声信号を識別するための従来の技術で始動でき得る。
1つの実施形態において、音声コーダは、入力音声に対して線形予測(LP)分析を実行して、入力音声を表すLPデータを生成し、処理工程は、LPデータを処理して、隠れデータを回復又は入力音声信号を識別する。好ましくは、音声コーダは、LPデータを圧縮して、その圧縮LPデータを生成し、処理工程は、圧縮音声データからLPデータを再生する構成を含む。
コーダによって生成されたLPデータは、LPCフィルタ係数、フィルタ極、又は線スペクトル周波数のような、LPフィルタデータを含んでよく、処理工程は、LPフィルタデータを使用して、隠れデータを回復又は音声信号を識別する。
処理工程は、LP合成フィルタのインパルス応答を生成する工程又はLPフィルタデータに対して逆レビンソーンダービン(Levinson-Durbin)アルゴリズムを実行する工程を含んでよい。インパルス応答を生成する場合、その自己相関が、エコーの有無がそのインパルス応答それ自身からよりもより容易に識別され得ることから、好ましく使用される。
音声コーダによって生成されたLPデータは、(コードブック指標、励起パルス位置、パルス符号等のような)LP励起データを含んでよく、処理工程は、LP励起データを使用して、隠れデータを回復するか又は音声信号を識別してよい。
たいていの場合、LPデータは、LPフィルタデータとLP励起データの両方を含み、処理工程は、前記LPフィルタデータおよび前記LP励起データの1つに対応する圧縮音声データのすべて又は部分集合を処理して、隠れデータを回復してよい。
データは、多数の技術を使用して、音声信号中に隠されて得る。しかしながら、好ましい実施の形態において、データは、音声信号の1つ以上のエコーとして音声中に隠される。それから、隠れデータは、エコーを検出することによって回復され得る。隠されるべきデータの各記号は、音声信号中に(同じ時間で)エコーの組み合わせによって、又は、エコーの系列として表されてよく、処理工程は、エコーの組み合わせを処理して隠れデータを回復する工程か又は音声中のエコーの系列を追跡して隠れデータを回復する工程を含んでよい。
1つの実施形態において、音声コーダは、予め規定された動作周波数帯域を持ち、エコーは、動作周波数帯域の予め定められた部分、好ましくは動作周波数帯域の上側部分の中の音声中に隠されており、処理工程は、この予め定められた部分の外側の周波数を濾波するフィルタリング工程を含む。例えば、音声コーダが300Hz〜3.4kHzの動作周波数を持ち、エコーが、1kHzと3.4kHzとの間の帯域にのみ、より好ましくは、2kHz〜3kHzとの間にのみ含まれる場合、これは、エネルギが典型的に動作帯域幅の下側の部分にのみある音声信号の効果を減少できる。他の実施形態において、エコーは動作帯域幅の致る所に含まれるが、処理工程がまだそのフィルタリングを実行して、音声の効果を減少する。これは、エコー信号の部分がなおフィルタリングにおいて失われるので、好ましくない。
音声コーダ出力におけるエコーの存在の識別を助けるために、処理工程は、エコーを強調するのを助ける、1つ以上の自己相関値を決定してよい。自己相関値のフレーム間フィルタリングは、また、音声成分がゆっくり変動する効果を減少するために実行されてよい。
使用される音声コーダは、CELPコーダ、AMRコーダ、広帯域AMRコーダなどのような多数の公知のコーダのいずれかであってよい。
1つの実施形態において、処理工程は、コーダからの圧縮音声データ出力からスペクトログラフを決定し、それからそのスペクトログラフ内の(指紋のような)特性特徴を識別してよい。これらの特性特徴は、音声出力を識別し、例えば、音声に関連するサブタイトルを出力するために、通信装置を音声信号に同期させるために使用され得る、ユーザへの出力のまえの音声用のトラック情報を決定するために使用され得る。
他の実施形態は、音響信号を受信して、この受信した音響信号を対応する電気音声信号に変換する手段と、電気音声信号をサンプリングして、デジタル音声サンプルを出力する手段と、デジタル音声サンプルを圧縮して、通信装置への伝送用の圧縮音声データを生成する音声コーディング手段と、前記音声コーディング手段に接続され、圧縮音声データを処理して、受信した音響信号の中で運ばれる隠れデータを復元又は受信した音響信号を識別する手段と、を備える通信装置を提供する。
本発明の1つの実施形態は、また、音声信号を表すデジタル音声サンプルを受信および圧縮して、圧縮音声データを生成する音声コーディング手段と、音声信号中に隠されるべきデータを受信し、その受信したデータに依存して圧縮音声データを変化させて、変更圧縮音声データを生成する手段と、変更圧縮音声データを使用して音声サンプルを生成する手段とを備え、音声サンプルは、原音声信号を表し、かつ隠れデータを運ぶ、データ隠蔽装置を提供する。
他の実施形態は、音声信号中にデータを隠す方法であって、その方法は、音声信号中に隠されるべきデータに依存して音声に1つ以上のエコーを加えるステップを含み、エコーを音声信号と合成する前にエコーの高域通過フィルタリングをする、方法を提供する。本発明者は、音声信号の高域周波数帯域にのみエコーを加えることによって、エコーがより容易に検出され得、音声帯域の至る所にエコーを加えると無駄なエネルギを減少することを発見した。
本発明のこれらおよび他の態様は、添付した図面を参照して説明される、次の実施例の説明から明らかになるだろう。
テレビ信号の音声部分を介して携帯電話機にデータを通信するための信号システムを概略的に示す図である。 受信音声信号中に隠れたデータを受信するためのソフトウェアアプリケーションを含む携帯電話機の主な構成要素を図示する概略ブロック図である。 図2に示された携帯電話機の音声コーデック形成部によって実行される処理を示すブロック概略図である。 音声信号のLPコーディングの基礎となるソースフィルタモデルを示す図である。 逆LPCフィルタが入力音声信号から励起又は残余信号を生成するために使用される方法を示す図である。 音声信号中に隠されたデータを回復するために、音声コーディックから出力に対して実行される処理を示す概略ブロック図である。 隠れデータが決定され得る、自己相関プロットである。 隠れデータを回復するために実行され得る、代わりの処理を示すブロック概略図である。 隠れデータが音声コーディックからの出力から回復される、更に他の方法を示すブロック概略図である。 隠れデータが音声コーディックによって出力された自己相間パラメータから回復される、方法を示すブロック概略図である。 隠れデータが識別され得る、図8に示された回路の自己相関部形成部によって出力される自己相関プロットである。 LPC合成フィルタのインパルス応答が低域周波数音声成分の効果を減少するためのハイパスフィルタされた、図4に示された処理回路に対する改良を示すブロック概略図である。 LPC係数が低域周波数音声成分に関連する低次係数を除くためにハイパスフィルタされた、図4に示された処理回路の更なる改良を示すブロック概略図である。 図5に示された自己相関プロットが遅く変化する自己相関を除くためにハイパスフィルタされた、図4に示された処理回路の更なる改良を示す図である。 隠れデータが、携帯電話機によって受信される前に、音声中で符号化され得る、1つの方法を示す一般的な概略ブロック図である。 携帯電話機が、図13に示されたシステムを使用して符号化されたデータを回復する、方法を示す一般的なブロック図である。 LPCコーダによって生成されたパラーメタが、携帯電話機への伝送用の変更音声を形成するために、残余信号に変更されおよび再合成され得る、1つの方法を示すブロック図である。 LPCコーダから得られた励起パラメータが変更され、残余信号がLPCコーダから得られたLPC係数と変更音声を合成に使用するために生成される、代わりに方法を示す図である。 入力音声信号を識別し又は特徴づけるために使用される、入力音声用のスペクトログラフを回復するために、音声コーディックの出力が処理され得る、方法を示すブロック図である。
[概要]
図1は本発明の第1の実施形態を示し、データ源1によって生成された、データ信号F(t)が、エンコーダ5によって音声源3からの音声トラック内でエンコードされ、テレビ番組用の変更音声トラックを形成する。この実施形態において、データ信号F(t)は、ユーザの移動電話機21上でテレビ番組を流すソフトウェアアプリケーションの動作を同期させるトリガ信号を運ぶ。図1に示されるように、エンコーダ5から出力された変更音声トラックは、信号発生器9において、ビデオ源7からの対応するビデオトラックと合成され、テレビ番組を運ぶテレビ信号を形成する。この実施形態において、データ源1、音声源3、ビデオ源7およびエンコーダ5は、全てテレビスタジオに置かれ、テレビ信号は、配給網11によって分配され、この実施形態において、無線周波数(FR)信号13となる。RF信号13は、テレビアンテナ15によって受信され、そのテレビアンテナは、テレビ信号を従来のテレビ受像機17へ提供する。テレビ受像機17は、ビデオトラックを示す表示器(図示せず)と、変更音声トラックを音響信号19として出力するための、図示しないスピーカとを持つ。
示されるように、この実施形態において、携帯電話機21は、マイクロフォン23を使用して、テレビ受像機17から放出された音響信号19を検出し、マイクロフォンは、検出した音響信号を対応する電気信号に変換する。携帯電話機21は、スピーカ25、携帯基地局35と通信するためのアンテナ27、表示器29、数字や文字を入力するためのキーパッド31、およびメニュー選択をアクセスするためのメニューキー33のような、従来の構成要素を持つ。音声信号から復元されたデータは、国際公開第02/45273号において説明されているような、多くの異なった目的に使用され得る。1つの応用は、携帯電話機21上で、テレビ受像機17上に表示されたテレビ番組を流すソフトウェアアプリケーションの同期用である。例えば、テレビ受像機17上で表示されたクイズショーがあり、携帯電話機21は、クイズショーと同期して表示されたクイズと関連する質問を生成し、表示するように示し合わせてよい。質問は、例えば、携帯電話機21上に予め格納され、適当な同期コードがデータ信号F(t)から復元されたとき、出力してよい。クイズショーの終わりで、携帯電話機21に(キーパッド31を介して)ユーザによって入力された答えは、携帯電話基地局35および通信網39を介してリモートサーバ41に伝送され得る。サーバ41は、非常に多くのユーザから受信した答えを集め、それらを、与えられた正しい答えの数と答えを入力するのにかかった時間とに基いて、ランクする。このタイミング情報は、携帯電話機21によって決定され、ユーザの答えと共にサーバ41へ伝送されてもよい。当業者によって分かるように、サーバ41は、異なったユーザからの受信した情報を処理し、種々のユーザプロフィール情報を収集することができ、それはデータベース43に格納される。このユーザプロフィール情報は、例えば、標的にされた公告用に使用される。
サーバ41が1つ以上の「勝利」ユーザを識別した後、情報又は賞金がこれらユーザに送れてよい。例えば、メッセージが、クーポン又は他の商品引換券と共に通信網39上にそれらへ送られてよい。図1において破線44によって示されるように、サーバ41は、データ源1にデータを供給して、音声中に符号化されてもよい。
上述したように、本発明者らは、携帯電話機21上を流れるソフトウェアによって実行されるために必要な処理が、専用の音声コーデックチップによって実行される符号化を使用することによって減少され得る、ことを理解した。特に、本発明者らは、音声コーデックにおいて固有の符号化処理を、隠れデータを復元するための復号処理の初期工程として使用すると、隠れデータを復元するためのソフトウェアにおいて必要とされる処理を減少する、ことを見出した。
[携帯電話機]
図2は、この実施形態において使用される携帯電話機21の主要構成要素を示す。示されるように、携帯電話機21は、音響信号を受信して、それを電気等価信号に変換するマクロフォン23を含む。これらの電気信号は、それからフィルタ51によって濾波され、(ETSIによって公表されている、標準文献EN300−903において規定されているような)典型的には300Hz〜3.4kHzの周波数帯域の外側の不必要な周波数を取り除く。濾波された音声は、それからA/D変換器53によってディジタル化され、AD変換器は、濾波された音声を8kHzのサンプリング周波数でサンプリングし、各サンプルを典型的には13〜16ビットのディジタル値によって表現する。ディジタル化された音声ストリーム(D(t))は、それから音声コーデック55に入力され、その音声コーデックは適応多重レート(ADR)コーデックであり、その動作を以下に説明する。ADRコーデック55によって出力された圧縮音声は、それからRF処理装置57へ渡され、RF処理装置は、圧縮音声で1つ以上のRF搬送信号を変調し、アンテナ27を介して基地局35へ伝送される。同様に、アンテナ27を介して受信した圧縮音声信号は、RF処理装置57へ送られ、RF処理装置は、受信したRF信号を復調して、RF搬送信号から圧縮音声データを復元し、それはAMRコーデック55へ渡される。AMRコーデック55は、それから圧縮音声データを復号して、それによって表される音声サンプルを再生し、それは、D/A変換器59および増幅器61を介してスピーカ25へ出力される。
図2に示されるように、AMRコーデック55(又はRF処理装置57)から出力された圧縮音声データは、またプロセッサ63へ渡され、プロセッサは、メモリ65に格納されているソフトウェアによって制御される。ソフトウェアは、(携帯電話機21の一般的な動作を制御するための)オペレーティングシステムソフトウェア67と、インターネットへアクセスするためのブラウザ68と、携帯電話機21へ付加的な機能を提供するアプリケーションソフトウェア69とを含む。この実施形態において、アプリケーションソフトウェア69は、携帯電話機21に、上述したようなテレビ版組と対話させるように構成されている。これをするために、アプリケーションソフトウェア69は、AMRコーデック55から出力された圧縮音声データを受信し処理して、アプリケーションソフトウェア69を制御する、隠れデータF(t)を復元するように構成されている。以下でより詳細に説明するように、隠れデータF(t)を復元するための圧縮音声データの処理は、ディジタル化された音声サンプルを再生することなしに実行され得、アプリケーションソフトウェア69によって要求される処理を減少させて、ディジタル音声サンプルから直接隠れデータを復元する。
隠れデータの復元に応答して、アプリケーションソフトウェア69は、表示器29上にデータ(例えば、ユーザ用の質問)を生成して出力し、キーパッド31を介してユーザによって入力された答えを受信するように構成されている。アプリケーションソフトウェア69は、それからユーザの答えを、((図示しない)内部タイマーを使用してアプリケーションソフトウェア69によって計算された)各答えを入力するためにユーザによってかかった時間を表すタイミングデータと共に(予め格納されたURL、E.164番号等によって識別される)リモートサーバ41へ伝送する。アプリケーションソフトウェア69は、また、クイズに加わっている他のユーザと関連してそのユーザがどの程度よかったかを示す、サーバ41から戻って受信された結果情報を表示してもよい。
[AMRコーデック]
AMRコーデック55は、良く知られ、(標準文献TS26.090版3.1.0において)3GPP標準本文によって規定されているが、それが実行する処理の一般的な説明を、読者がアプリケーションソフトウェア69によって実行される処理のその後の説明を理解できるように、図3を参照して述べる。
AMRコーデック55(Adaptive-Multi-Rate coder-decoder)は、300Hzから3.4kHzの帯域において、8kHzのサンプルされたデータ音声を、多数の異なったビットレートでビットストリームに変換する。したがって、コーデック55は、伝送レートが変化するのが必要とされてもよいような、状況で非常にふさわしい。その出力ビットレートは、優勢な伝送条件と一致するように適合され得、この理由のために、それは3G標準で、現在、大部分の携帯電話機21において使用されている。
ビットレートは可変であるけれども、同じ基本的な符号化処理が、コーデック55によってすべてのレートで使用される。量子化処理、そのパラメータの選択は伝送されるべきであり、伝送のレートは、8つのビットレートすなわちモード:12.2,10.2,7.95,6.70,5.90,5.15および4.75Kビット/秒、における動作を達成するために変化される。この実施形態において、最も高いビットレートのモードが使用される(12.2Kビット/秒)。
以下に説明する、AMRコーデック55における4つの主要な構成要素のサブシステムがある。それらは、
・ピッチ予測
・LPC分析
・固定コードブック探索
・適応コードブック
である。
AMRコーデック55は、それらをその順番に適用し、本目的のために、それは、ピッチ予測を最後におよび適応コードブック処理の一部として処理することは容易である。AMRコーデック55は、CELP(Codebook Exited Linear Prediction)コーティングシステムの回りに作られる。入力音声信号は、160のサンプルフレーム(f)に分割され、それらフレームは、線形予測分析されて、フレーム毎に少ない数の係数を抽出して、符号化し送信する。これら係数は、フレーム内の信号の短期スペクトラムを特徴づける。これら係数に加えて、AMRコーデック55は、また、LPC残余(また励起とも呼ばれる)を計算し、それは、ピッチ予測器によって手助けされる適応および固定コードブックを使用してコーディングされる。これらのサブシステムを以下に説明する。
[LPC分析]
LPC分析は、図3aに示されるLPC分析部71によって実行される。LPCは、(図3bに図示される)音声生産の古典的な源フィルタモデルを仮定しており、そこでは、音声は、ゆっくりと時間と共に変化するフィルタ(LPC合成フィルタ72)の出力とみなされており、そのフィルタは、母音のような、有声音声に対して規則的な声門パルスによって励振され、例えば、/sh/の無声音声に対して雑音或いは(励起ブロック74によって表される)/z/のような混合音声音に対しては2つの混合とされる。音声生産のモデルに基いているけれども、それは、また、全ての音を符号化するための有効なモデルを提供する。合成フィルタ72は、全極であると仮定され、例えば、それは共振のみ持つ。この仮定は、LPC分析方法の基礎である。サンプルされたデータ(z面)表記法において、伝達関数は、式(1)の伝達関数H(z)の分母におけるz−1の純粋に多項式である。
Figure 2010530154
入力励起eに対するこのフィルタの時系列応答sはそのとき式(2)となる。
Figure 2010530154
それは、システムの出力sが、入力eにp前の出力の重み線形和を加えたものであることを示す。これは、LPCの理論的な基礎である。範囲pは、LPC「次数」であり、それは、通常固定され、AMRコーデック55において、pは10に等しい。AMRコーデック55(および他のLPC基底システム)において、線形予測分析は、入力音声の各フレームに対してフィルタ重み、すなわち、係数aを推定するために用いられる。一度推定されると、それらは、それから、量子化および伝送に適した形式に変換される。
係数aを効率的に推定することは、近似およびなすべき仮定を必要とする。係数を解く全ての方法は、上記式(2)におけるeの寄与を最小化するのをめざす。AMRコーデック55は、自己相関法を使用し、その自己相関法は、行列の形式で、式(3)のp連立線形方程式を解くことを意味する。
Figure 2010530154
または、より省略した形式では、式(4)を解くことである。
Figure 2010530154
行列Rの要素rijは、遅れ|i−j|での入力音声信号に対する自己相関値である。行列Rが対称行列で、かつ、各対角線の全ての要素が等しいなら、それは、その逆行列を見つけるための急速再帰法に対してオープンしている。レビンソーンダービン(Levinson-Durbin)アルゴリズムがAMRコーデック55において使用される。
[線スペクトル周波数]
係数aは、実際には、量子化するのが容易ではない。それらは、時間とともにかなり予測できなく変化し、定まらない範囲上で正および負の値を持つ。従って、AMRコーデック55は、それらの不利益を取り除き、LPC係数の効率的なコーディングを可能にする、量子化の前に、それらの係数を線スペクトル周波数に変換するLSF決定部73を使用する。係数aは、全極合成フィルタ72の重みであり、その根を見つけるために因数に分解され得る、z−1の第P次多項式の係数である。それらの根は、合成フィルタ72における共振すなわち極である。それの極は、それらが適度に整えられたとき伝送のためにしばしば量子化され、平均意を持ち、フレームからフレームへより予想どおりに変化し、そのフレームは、aのコーディングがなされない、ビットを省くために機会を与える。線スペクトル周波数(LSF)は、極よりこのためにさらによい。それは、全極モデルの極と同じでないが、それらが関連される、LSPを実現するために重要である。それらの導出は、複雑であるが、質的に、それは、合成フィルタの特別な表現における2組の境界条件の選択を必要とし、一方の境界条件は、声門が完全に開いているときに対応し、他方の境界条件は、声門が完全に閉じているときに対応する。これは結果として、2組の仮想の極における零帯域幅、すなわち、完全な共鳴器を生じる。
LSFの主要な利点は、次の通りである。
・LSFは周波数のみから成り、それらの帯域幅は常に零である(極と同数のLPFの2倍であるけれども)。
・LSFは、理論的には極よりもより整えられている。
したがって、LSFは、非常に低いビットレートのコーディングに適している。特に、図3aに示されるように、各LSFの(予め計算されて、データ記憶装置75に格納されている)平均は、平均減算部77によって減算され得る。さらに、結果として生じるデルタLSFが時間とともに急速に変化しないなら、予測器79は、そのとき、現在のデルタ値を予測するために使用され得、現在のデルタ値は、予測減算部81によって実際のデルタから減算される。結果として生じるデータは、それから、ベクトル量子化(VQ)部83によって付加的に符号化され、そのVQ部は、単一の指標によって一度に2つの値を符号化し、結果として、ある場合には値当り1ビットより少ない。従って、AMRコーデック55は、基地局35への伝送用のコード化LPCデータとして現在のフレームに対して得られたVQ指標を出力する。
[LP励起]
上述したように、AMRコーデック55は、また、図3bに図示されているモデルの励起部74を有する。これをするために、AMRコーデック55は、それがそれを符号化できるように、励起信号の表現を生成する。図3cに図示されるように、それは、入力音声信号を濾波することによって励起信号を生成し得る「逆」LPCフィルタ76を生成することによってこれをする。逆LPCフィルタ76から得られた励起信号は、また、時々、残余と呼ばれる。この逆LPCフィルタ78は、実際には、上述したように決定れた、同じ係数aから規定れるが、それらを、式(5)の伝達関数を持つ全極モデルを規定するために使用する。
Figure 2010530154
これは、時間領域で、式(6)のフィルタに対応する。
Figure 2010530154
式(6)によって規定される逆LPCフィルタ76は、式(2)によって規定される全極合成フィルタ72における極を相殺する零から成る。理論上、もし入力音声信号が逆フィルタ76を使用して濾波され、生成された励起信号が合成フィルタ72によって濾波されると、入力音声信号にもとに戻る(従って、名前が「逆」LPCフィルタである)。これは、元音声信号が完全な復元を起こすための音声である必要がない、ことに注意することが重要である。もしLPC分析が入力音声信号を表す良好な仕事をしないなら、残余においてより情報があるだろう。
それは、励起信号を符号化するための、AMRコーデック55の固定コードブック部87と適応コートブック部89の仕事である。比較的多くのビット数が、LPFをコーディングするために使用される数と比較して、AMRコーデック55において励起を符号化するために使用される。12.2Kビット/秒モードにおいてフレーム当り206〜244ビット(84%)、4.75Kビット/秒モードにおいて72〜95(74%)である。このビットの使用は、AMRコーデック55に、ある意味で非音声信号を符号化することを可能にさせる。
有声化された音声における励起は、音声ピッチ(通常の音声において成人男性では約100Hzから130Hz、女性および子供ではその二倍)で、クリック(パルス)の列によって特徴づけられる。無声音声において、それは(大体)白色雑音である。混合された音声おいて、それは混合物である。残余として励起について考える一つの方法は、LPC分析が音声短期スペクトルにおけるバンプを取り除き、多くのフラッタースペクトルを持つ残余を残すことを、実現することである。これは、どんな入力信号でも適用する。
AMRコーデック55において、励起信号は、固定コードブックおよび適応コードブックの出力の組み合わせとして符号化される。適応コードブックは、探索のために何も励起しないが、ピッチ予測器によって予測された機会で帰還された合成コードブック出力の以前の組み合わせのコピーである。
[固定コードブック]
固定コードブック部87は、上記式(6)で規定される逆フィルタ76の重みを設定するために、現在のフレームに対するLPC分析部71から出力されるLPC係数aを使用し、かつ、このフィルタで入力音声の現在のフレームを濾波することによって、現在のフレームに対する励起信号(e)を生成する。それから、固定コードブック部は、励起信号において起こる新しいことを最良に満たす(固定コードブック88に格納されている)固定コードブックパルス又はパターンを識別し、それは、適応コードブック部89からの以前のフレームの励起の遅れた(遅延した)コピーを効率的に変更するだろう。
各フレームは、4つのサブフレームに細分され、サブフレームの各々は、独立に符号化された固定コードブック出力を持つ。1つのサブフレームに対する固定コードブック励起は、励起を、単一の振幅パルスの対の5インターリーブされた列の系列として符号化する。パルスの各対に対する可能な位置は、MR122(AMRの12.2kb/sのモードの名前)に対して書きの表1に示される。上記に示されるように、このコーディングは有効な数のビットを使用する。
Figure 2010530154
各トラックにおける第1のパルスの符号は、また符号化され、第2のパルスの符号は、それが正のときに、トラック内に早く落ちなければ、第1と同じである。サブフレームに対する利得は、また符号化される。
[適応コードブック]
適応コードブックは、合成された励起の以前の位置の時間遅延されたコピーであり、有声音声を符号化する上で重要である。有声音声は規則的であるので、現在のピッチ周期と固定コードブック出力を使用する以前のピッチ周期との間の差のみを符号化することができる。以前の音声周期の蓄えられたコピーに加えられたとき、このフレームの励起の概算を得る。適応コードブックは伝送されず、コーダとデコーダは、以前の合成した出力と現在のピッチ遅延とから適応コードブックを計算する。
[ピッチ予測器]
ピッチ予測器(それは適応コードブック部89の一部を形成する)の目的は、適応コードブックの為に使用する最良の遅延を決定することにある。それは2段階の処理である。第1は、単一パス開ループピッチ予測であり、それは、もし音声が有声化されまたは誤差量を最小化する最良の繰り返しレートであるなら、有声期間の推定を見つけるために、音声を前のサンプルと関係づける。この後に、サンプルの(1/6)内の適応コードブックに対する最良の遅延を得るための繰り返し閉ループ予測が続く。この理由のために、ピッチ予測は、コーダにおける適応コードブック処理の一部である。この計算は、第2のより詳細なサーチのみが少ない数のサンプル上で起こったとき、2段階法によって制限される。AMRコーデック55は、合成法による分析を使用し、出力と候補遅延の入力音声との間の平均自乗誤差を最小化することによって最良の遅延を選択する。
従って、現在のフレームのための励起信号を表すために、AMRコーデック55は、現在のフレームに対して決定された固定コードブック指標(各サブフレームに1つ)、固定コードブック利得、適応コードブック遅延、および適応コードブック利得を出力する。それは、このデータとLPC符号化データであり、LPC符号化データは、携帯電話機21上を流れ、隠れデータが復元されるべきアプリケーションソフトウェア69に使用可能となる。
[データ隠蔽および復元]
データF(t)が音声信号中に隠され得る種々の方法があり、読者は、IBM Systems Journal, Vol 35, no 384, 1996の「データ隠蔽のための技術(Techniques For Data Hiding)」と題名のBenderによる論文を参照でき、そこでは、音声中にデータを隠蔽するための異なった技術の詳細に論じられている。本実施形態において、データは、エコーを音声に加えることによって音声中に隠され、エコーの時間遅延は、データを符号化するために変化される。この変化は、例えば、2進零に対応するエコーのないサンプルと、2進の1方式に対応するエコーとを使用することによって、実行され得る。代わりに、2進の1が、第1の遅延でエコーの付加によって表されてよく、2進の0が、第2の異なった遅延でエコーの付加によって表されてよい。また、エコーの符号は、隠されるべきデータで変化され得る。より複雑な符号化法において、2進の1が、第1のエコーの組み合わせ又は系列(同じ時間に2以上のエコー又は続けて印加される)によって表されてよく、2進の0が、第1の異なったエコーの組み合わせ又は系列によって表されてよい。
本実施形態において、エコーは0.75msおよび1.00msの遅延で加えられ、2進の1は、音声の第1の部分に対して減衰した0.75msのエコーを加え、引き続き、音声の第2の部分において減衰した1.00msのエコーを加えることによって表され、2進の0は、音声の第1の部分に対して減衰した1.00msのエコーを加え、引き続き、音声の第2の部分に対して減衰した0.75msのエコーを加えることによって表される。従って、隠れデータを復元するために、アプリケーションソフトウェアは、AMRコーデック55からの符号化されたデータを処理して、音声中に受信されたエコーの系列を識別し、従って、音声に隠されたデータを識別しなければならない。
典型的には、エコーは、音声サンプルの自己相関を実行し、任意のエコーに対応するピークを識別することによって、音声信号中に識別される。しかしながら、上述したように、隠れデータは、AMRコーデック55の出力から復元されなければならない。
[データ復元1]
図4は、エコーが検出され、隠れデータF(t)がAMRコーデック55の出力からアプリケーションソフトウェア69によって復元される、1つの方法を示す。示されるように、この技術において、アプリケーションソフトウェアは、図3に示されるVQ部83によって出力されたLPC符号化情報から単に隠れデータを復元する。図4に図示されるように、アプリケーションソフトウェア69によって実行される第1の処理は、VQ部91によって実行され、VQ部は、AMRコーデック55によって実行されるベクトル量子化を逆にする。それから、VQ部81の出力は、予測付加部93によって処理され、予測付加部は、(予測器95によって決定された)LSFデルタ予測をVQ部91からの出力に加える。それから、(データ記憶装置97から得られる)LSP平均は、平均付加部99によってもとに付加され、現在のフレームに対するLSFを復元する。それから、LSFは、LSF変換部101によってLPC係数にもとに変換される。したがって、決定された係数a^は、他のAMR処理段階において実行される近似や量子化のために、図3におけるLPC分析部71によって決定されたものと正確には同じでないだろう。
示されるように、本実施形態において、決定されたLPC係数a^は、上記式(2)に従ってLPC合成フィルタ103を構成するために使用される。それから、この合成フィルタ103のインパルス応答(h(n))は、(インパルス発生器105によって生成された)インパルスをこの構成されたフィルタ103に印加することによって得られる。本発明者らは、エコーが、このインパルス応答(h(n))内に存在し、エコーの遅延に対応する遅れのまわりのインパルス応答の自己相関から見つけられ得るということを、見出した。示されるように、自己相関部107は、データ記憶装置108において識別された遅れに対するこれらの自己相関計算を実行する。図5は、すべて正の遅れに対して得られた自己相関を図示する。プロットは、遅れを、零の遅れで主ピーク108からのサンプルとして識別する。8kHzのサンプリングレートなので、各サンプルは、0.125msの遅れに対応する。示されるように、零の遅れで初期ピーク108があり、それに続いて、(原点から9サンプルに対応する)約1.00msの遅れでピーク110があり、それは、現在のフレームが1.00msのエコーを持つことを示している。この当業者において分かるように、すべての遅れに対して自己相関を計算する必要はなく、エコーが見つけられるべきところ(例えば、約0.75msと1.00ms)に対応する遅れのまわりでのみ計算すればよい。
図4に示されるように、自己相関部107によって決定された自己相関値は、エコー識別部109に渡され、エコー識別部は、もし現在のフレームにエコーがあること(例えば、自己相関値を、関連のある遅れでピークを識別するために適当な閾値でスレショルドすることによって)を決定する。それから、識別されたピークは、データ復元部111に渡され、データ復元部は、隣接フレーム上の識別されたエコーの列を追跡して、隠れデータF(t)の2進の1又は2進の0の存在を検出する。この方法において、隠れデータは復元され、それから、上述した方法でアプリケーションソフトウェア69の動作を制御するために使用され得る。
本発明者らは、この方法おいて隠れデータを復元する計算要求は、ディジタル化された音声サンプルから直接的に隠れデータを復元するために要求されるものより、著しく少ないことを見つけ出した。
[データ復元2]
上述した実施形態において、LPC合成フィルタのインパルス応答の自己相関が決定され、エコーの存在が隠れデータを復元するために決定された。図6は、隠れデータを復元するための代わりの技術に従って実行され得る処理を図示する。図4と図6とを比較することによって分かるように、この実施形態と第1の実施形態との間の主な差違は、現在のフレームに対する再生されたLPC係数a^が、直接、LPC係数の列の自己相関を計算する、自己相関部107へ渡されていることである。従って、この実施形態は、第1の実施形態の簡易化である。しかしながら、エコー遅れでの自己相関出力におけるピークは、第1の実施形態におけるようにははっきりとは分からず、この理由のために、この簡単な実施形態は、十分な処理電力が使用可能であるとことでは好ましくない。
[データ復元3]
図7は、エコーの存在を識別しその後の隠れデータの復元のための第3の技術において実行され得る処理を図示する。図6と図7とを比較することによって分かるように、この実施形態と第2の実施形態との間の主な差異は、現在のフレームに対して再生されたLPC係数a^が、LPC係数から上記式(3)の自己相関行列Rijを再計算するために逆レビンソーンダービン(Levinson-Durbin)アルゴリズムを使用する、逆レビンソーンダービン部114に印加されていることである。決定された値は、それ自身、入力音声信号の自己相関値に対応し、したがって、エコー又は各エコーの遅延に対応する遅れでピークを含む。したがって、逆レビンソーンダービン部114からの出力は、隠れデータを復元する前に処理され得る。この実施形態の主な利点は、逆レビンソーンダービンアルゴリズムが、比較的計算的に強力であることであり、それ故、処理電力に制限がある場合には、この実施形態は好ましくない。
[データ復元4]
上記3つの実施形態において、隠れデータは、AMRコーデック55から出力された符号化されたLPCフィルタデータを処理することによって復元される。AMRコーデック55は、提供されたLPCフィルタデータにおいてエコーを符号化し、エコーの遅延は、LPCフィルタの長さより短い。上述したように、LPCフィルタは10サンプルの次数pを持つ。8kHzのサンプリング周波数で、これは、1.25msの最大遅延に対応する。もし長い遅延を持つエコーが加えられたなら、そのとき、それは、LPC係数に符号化され得ない。しかしながら、それは、残余すなわち励起信号内で符号化されるだろう。これを図示するために、2進の1と0が、2msと10msのエコーを使用して音声中に符号化された、実施形態について説明する。
図8は、隠れデータを復元するために、アプリケーションソフトウェア69によってこの実施形態において実行される処理を図示する。示されるように、本実施形態において、アプリケーションソフトウェア69は、AMRコーデック55によって出力されたとき、各フレームに対して励起符号化データを受信する。受信したデータ内の固定コードブック指標は、固定コードブック部121によって、固定コードブック123から現在のフレームに対する励起パルスを識別するために使用される。それから、これら励起パルスは、AMRコーデック55から受信された符号化データにおいて規定される対応する固定利得によって増幅される。それから、増幅した励起パルスは、加算器127に印加され、ここで、それらは、以前のフレームの励起パルスをゲイン129と適応コードブック遅延131と通過させることによって得られた、適当に増幅および遅延された以前の励起パルスのバージョンと加えられる。使用される適応コードブックの利得と遅延は、AMRコーデック55から受信した符号化データにおいて規定されている。加算器127からの出力は、現在にフレームに対する残余すなわち励起信号のパルス表現である。図8に示されるように、励起信号のパルス表現(e)は、それから、自己相関部107へ渡され、自己相関部は、遅れデータ記憶装置108において規定された異なった遅れに対するその自己相関を計算する。図9は、受信した音声において2msのエコーがあるとき、すべて正遅れに対する自己相関部107から出力された自己相関を図示する。示されるように、零遅れで主ピーク132と、2msに対応する遅れで他のピーク134とがある。従って、自己相関部107の出力は、前と同様にエコー識別部109によって処理され得、データ復元部111で隠れデータF(t)を復元する。
[改良]
上述した実施形態に対する多数の改良について、図10、図11および図12を参照して説明する。これら改良は、隠れデータの成功した復元を増加するためになされ、エコーの存在をマスクできる音声又は部屋音響の効果を抑制するのをねらっている。これら実施形態は、上記第1の実施形態に適用されているが、それらは他の実施形態に同様に適用されるだろう。
図4と図10とを比較することによって分かるように、第1の実施形態において、現在のフレームに対するLPC合成フィルタ103のインパルス応答(h(n))は、インパルス応答における低い周波数の効果を減少するためにハイパスフィルタ151によって濾波される。本発明者らは、エコー情報が典型的にインパルス応答の高い周波数帯域に符号化されることを見つけ出した。したがって、このハイパスフィルタリングは、エコーにおける自己相関ピークの鋭さを改良し、それらの存在を識別するのを容易にする。ハイパスフィルタ151は、好ましくは、(サンプリング周波数の4分の1の周波数に対応する)約2kHz以下の周波数を濾波して取り除く。しかし、ある利得がまだ約1kHz以下の周波数のみを濾波して取り除くことによって作られ得る。当業者において分かるように、このフィルタリングは、インパルス応答の低い周波数部分を濾波して取り除く、フレーム「内」フィルタリング(すなわち、フレーム内のみの濾波)であるが、しかし(例えば、フレーム間で起こるインパルス応答のゆっくり変化する特徴を濾波して取り除く)フレーム「間」フィルタリングが、また、実行されてもよい。
図11は同じ結果を達成する代わりの方法を図示する。特に、本実施形態において、現在のフレームに対するLPC係数a^が、LPC合成フィルタ103を構成するために使用される前に、ハイパスフィルタ153を通過される。この場合において、ハイパスフィルタ153は、合成フィルタ103の低い周波数極に対応する係数を取り除く。これは、極周波数および帯域幅を識別するためにLPC係数を因数に分解することによって達成される。低い限界以下の周波数の極は、捨てられ、残りの極は、高い周波数のみ合成フィルタ103を発生するために使用される。残りの処理は前と同様であり、更なる説明はしない。当業者において分かるように、このフィルタリングはまたフレーム内フィルタリングであるが、フレーム間フィルタリングがまた実行されてもよい。
図12は、隠れデータを回復する成功率を増加するために適用され得るさらなる改良を図示する。示されるように、この実施形態と図4に図示された実施形態との間の主な差違は、音声それ自身およびユーザの携帯電話機21が位置する部屋の音響によって典型的に起因する、自己損間出力におけるゆっくり変化する相関(例えば、フレームからフレームへとゆっくり変化する相関)を濾波して取り除くフレーム間フィルタリングを実行するハイパスフィルタ155の供給にある。そのようなフレーム間変化を濾波して取り除くことに加えてまたは代わりに、ハイパスフィルタ155は、各フレーム内の自己相関出力から低い周波数の相関を取り除くフレーム内フィルタリングを実行してもよい。これはエコーに起因する相関ピークを鋭くすることが分かり、識別をより容易にする。
[一般的な符号化法]
上記実施形態において、データは、異なった遅延を持つエコーを加えることによって音声信号中に隠されている。当業者において分かるように、データが音声内に隠され、さらにAMRコーデック55を通過される、種々の方法がある。一般的な用語において、上記データを隠し回復する処理は、それぞれ、図13および図14に示される一般的なブロック図によって表されてよい。図13に示されるように、一般的はデータを隠す処理は、AMRパラメータ(それは、AMR処理において生成される、最終的なAMR出力パラメータ又は中間パラメータであってよい)を生成する、AMRコーデックによって実行される類似コーデング動作161を必要とすると考えられ得る。それらパラメータの1つ以上は、それから、音声内に隠されるべきデータに依存して163で変化される。変更パラメータは、それから、165でデコードされて、変更音声信号を生成し、その変更音声信号は、音響信号として伝送され、携帯電話機のマイクロフォン23によって受信される。フィルタリングとAD変換の後、音声コーダ167は、それから、上述したようなディジタル化された音声サンプルを処理して、変更パラメータを生成する。変更パラメータは、それから、パラメータ処理部169によって処理され、パラメータに施された変更を検出し、そして隠れデータを復元する。
エコーを音声に加えて隠れデータを符号化する場合において、これは、テレビスタジオ(又は、データが音声中に隠されている所ならどこでも)における招待な符号化処理を実行することなしに、上述したように容易になされ得る。代わりに、エコーは、AMRコーディング処理の出力パラメータ又は中間パラメータを処理するこのよって加えられてもよい。例えば、エコーは、上記式(3)において規定された自己相関行列の1つ以上のエントリに定数を加えることによって、又は、LPC分析から決定されるLPC係数の1つ以上の値を直接処理することによって、音声に加えられてもよい。
データは、また、音声コーディングパラメータを変調する他のより直接的な方法によって隠されても良い。例えば、音声に対して生成された線スペクトル周波数は、(例えば、LPFの最下位ビットを隠されるべきデータで変化することによって)変更されてよく、又は、LPFが決定される極の周波数又は帯域幅が、隠されるべきデータに従って変更されてもよい。代わりにまだ、励起パラメータが隠れデータを運ぶために変更されてよい。AMRコーデック55は、可変のパルス位置および符号で、パルス列を規定する固定および適応コードブックを使用して、励起信号を符号化する。従って、データは、1つ以上のトラック又はサブフレーム内のパルス位置の最下位ビットを変化することによって、又は、選択されたトラック又はサブフレームの符号を変えることによって、隠されてよい。
音声中にデータを隠すためにエコーを適用する代わりに、音声信号の1つ以上の周波数成分の位相が、隠されるべきデータに依存して変化されてよい。音声からの位相情報は、固定および適応コードブックによって符号化されたパルスの位置におけるある程度保持される。従って、この位相符号化は、コードブックからの励起パルスを再生し、関連する周波数成分の位相変化を時間と共に検出することによって、AMRコーデック55の出力から検出され得る。
当業者において分かるように、テレビスタジオにおける音声品質がAMRコーデック55において使用されているものより良好であるなら、スタジオシステムが、実際のAMRエンコーダ及びデコーダモデルを使用するだろうことは、非常にありそうもないことである。従って、最高のスタジオシステムは、音声帯域を、(300Hzと3.4kHzの間の)AMR帯域とこの範囲の外の非AMR帯域とに分割するだろう。それから、それは、上記に示したAMR帯域を処理するだろうが、AMRデコーダを使用してAMR帯域信号を再現しないだろう。その代わりとして、それは、元音声信号と変更LPCデータから得られた実際のLPC残余からAMR帯域音声信号を合成し、より高い音声品質を生むだろう。代わりに、励起パラメータが隠れデータで変更されたところで、残余が、変更パラメータから構成され、それから、LPC分析から得られるLPC係数を使用する合成フィルタによって濾波されるだろう。それから、変更AMR帯域は、テレビ信号の一部として伝送するための非AMR帯域に加えられるだろう。この処理は、図15および図16に図示されている。
特に、図15は、元音声がAMR帯域と非AMR帯域とに分割された後、テレビスタジオ内に実行されてよい処理を図示する。示されるように、音声AMR帯域はLPCコーダ171に入力され、LPCコーダは、上記LPC分析を実行して、現在のフレームに対するLPC係数aを生成する。それから、これらの係数は、係数変化部173に渡され、係数変化部は、音声信号内に隠されるべきデータに依存してこれら係数の1つ以上を変化する。それから、変更LPC係数a^は、上で与えられた式(2)に従ってLPC合成フィルタ175を構成するために出力される。図15に示されるように、LPCコーダ171によって生成されたLPC係数aは、上記式(6)に従って逆LPCフィルタ177を構成するために使用される。LPC係数の現在の組が生成される音声のフレームは、それから、LPC残余(励起)を生成するために逆LPCフィルタを通過され、LPC残余(励起)は、それから、LPC合成フィルタ175に印加される。この結果、変更音声AMR帯域信号が生成され、それは、それから、分配のためにビデオトラックと合成される前に、非AMR帯域信号を合成される。
図16は、励起パラメータが隠されるべきデータで変化される、代わりのシナリオを図示する。特に、図16に示されるように、音声AMR帯域は、最初は、LPCコーダ171によって処理され、本実施形態においてこのLPCコーダは、残余すなわち励起信号を表す固定および適応コードブックデータを生成し出力する。このコードブックデータは、それから、変化部181を通過され、この変化部は、音声信号内に隠されるべきデータに従って固定データブックデータによって表される、1つ以上のパルスの位置及び/又は符号を変化させるために、コードブックデータを変化する。変更コードブックデータは、それから、残余発生器183へ出力され、この残余発生器は、AMRコーデック55によって処理されるときに、変更固定及び適応コードブックデータを再生するだろう、対応する残余信号を再生する。これは、例えば、変化部181によって結果として生じる変更コードブックデータ出力のコーディングまで、開始残余を適合させるために繰り返しルーチンを実行することによって、達成されてよい。代わりに、変更コードブックデータは、残余信号として直接的に使用されるパルス列を生成するために使用されてよい。パルス間のギャップは、雑音または逆LPCフィルタと現在のフレームに対するLPC係数とを使用して生成され得る、残余信号の一部で満たされてよい。用いられた技術にかかわらず、そのように生成された残余信号は、それから、LPC合成フィルタ175へ渡され、そのLPC合成フィルタは、LPCコーダ171によって生成されたLPC係数を使用して構成される。LPC合成フィルタ175は、それから、印加された残余信号を濾波して変更音声AMR帯域を生成し、その変更音声AMR帯域は、それから、非AMR帯域と合成されて、ビデオトラックと合成するための音声を再生する。
[音声識別]
上記実施形態において、データは、テレビ番組の音声内に隠され、このデータは、携帯電話機での適当な処理によって復元された。隠れデータを回復するために実行される処理は、携帯電話機の音声コーデックによって既に実行されている、処理の少なくとも一部を利用する。上述したように、本発明者らは、これが、隠れデータを復元するために必要な計算上のオーバヘッドを減少することを見つけ出した。同様の利点は、音声内に隠された実際のデータがない場合の他の応用において得られることができるが、例えば、音声は、音声それ自体の音響パターン(指紋)から識別される。これが達成され得る方法について、次に、音楽識別システムを参照して説明する。
現在、多くの音楽識別サービスがあるが、そのような1つがShazamによって提供されている。これらの音楽識別サービスは、携帯電話機21にユーザに、番号をダイヤルし、送受話器に音楽を再生することによって、現在演奏している音楽トラックを識別するのを可能とする。サービスは、それから、トラックの名前を電話機にテキストバックする。典型的には、このシステムは、電話機に音楽を再生している間、携帯電話機からリモートサーバに電話呼出をセットアップすることによって動作する。リモートサーバは、予め定められた期間の後、呼出を落とし、音楽を識別するためにデータベースに格納されたパターンに対して受信した音とのあるマッチングを実行し、それから、テキストメッセージを電話機へ識別された音楽トラックの題名と一緒に送る。
Shazamシステムや他の発明者らから公開された資料か、トラックを識別するために使用される一般的なプロセスは、次の通りである。
1. 生の音声信号を、重複する高速フーリエ変換(FET)の系列を計算することによって通常達成される、スペクトログラフに変換し、
2. スペクトログラフを分析して、それらの時間と周波数によって特徴づけられる、通常、エネルギーのピーク位置である、特性特徴を決定し、
3. これら特徴のハッシュ関数を使用し、データベースを探索してハッシュ関数の結果を使用し、音声信号とマッチする一組のエントリを決定し、
4. これら潜在マッチに対してさらなるパターンマッチングを実行して、音声信号が実際にデータベースから識別されたものといずれとマッチしているかを決定する。
従来においては、音声用のスペクトログラフは、音声信号用のディジタル化された音声サンプルのブロックと重複する、高速フーリエ変換の系列から決定されている。携帯電話網上で動作するとき、入力音声は、携帯電話網35に対する空気インタフェース37上の伝送のための携帯電話機内のAMRコーデックによって圧縮され、携帯電話網では、圧縮した音声が、ディジタル音声サンプルを再生するために復元される。サーバは、それから、ディジタル音声サンプルに対してフーリエ変換分析を実行し、音声信号に対するスペクトログラフを生成する。
本発明者らは、携帯電話システムによって実行されるこの符号化および復号化とそれからShazamによって実行される引き続く周波数分析とはむだであることと、同様のシステムが圧縮音声をデコードして音声サンプルに戻すことなしに実現され得ることを理解した。この方法において、トラック認識処理は、携帯電話機21内にもっぱら実行されてよい。従って、ユーザは、再生されたトラックを認識することができるようにするためにリモートサーバへ呼出をする必要がない。これが達成される方法を、図17を参照して次に説明する。
特に、図17は、携帯電話機21上を流れるトラック認識ソフトウェアアプリケーション(図示せず)によって実行される処理を図示するブロック図である。示されるように、本実施形態において、ソフトウェアアプリケーションは、AMRコーデック55からAMR符号化LPCデータとAMR符号化励起データとを受信する。AMR符号化LPCデータは、それから、前述したように、VQ部91、予測付加部93、平均付加部99およびLSF変換部101へ渡される。この処理の結果は、再生LPC係数a^である。現在のフレームに対するLPC係数は、それから、FFT部201に渡され、DDT部は、これらの高速フーリエ変換を計算する。
同様に、AMR符号化励起データは、固定コードブック部121、固定ゲイン125、加算器127、適応コードブック遅延131および適応ゲイン129によってデコードされ、入力フレームに対する残余を表す励起パルスを再生する。これらデコードされたデータは、それから、励起パルスのフーリエ変換を生成するためにFFT部203に入力される。図17に示されるように、2つのFFT部201および203の出力は、乗算器205によって一緒に乗算され、現在のフレームに対する合成周波数表現を生成する。乗算器205から出力されたこの合成周波数表現は、現在のフレーム内のディジタル音声サンプルのFFTに近似的に対応するはずである。その理由は、AMRコーデック55によって実行されるLPC分析の基礎となる源フィルタモデルのためである。特に、上述したように、LPC分析は、音声が、合成フィルタを通して適切な励起信号を濾波することによって生成される、ことを仮定している。換言すれば、音声は、合成フィルタのインパルス応答で励起信号を畳み込むことによって、又は周波数領域において、励起信号のスペクトルとLPC合成フィルタのスペクトルとを乗算することによって、生成される。
本実施形態において、LPC係数のスペクトルは、コードブック励起パルスのスペクトルと乗算される。それぞれ、LPC合成フィルタのスペクトルと励起信号のスペクトルとの近似値がある。従って、乗算器205から出力される合成スペクトルは、現在のフレーム内でのディジタル化された音声信号のスペクトルの近似値となるだろう。図17に示されるように、このスペクトルは、それから、スペクトログラフ生成部207に入力され、そのスペクトログラフ生成部は、入力音声信号の隣接フレームに対して受信されたスペクトルからスペクトログラフを生成する。このように生成されたスペクトログラフは、それから、パターンマッチング部209へ渡され、ここで、スペクトログラフからの特性特徴が、携帯電話機のマイクロフォン23によって抽出された音声トラックを識別するために、パターンデータベース211内に格納されたパターンを探索するために使用される。当業者において分かるように、このパターンマッチングは、Shazamシステムのサーバにおいて使用されているものと同様の処理技術を使用してよく、例えば、まず、パターンデータベース211の部分を識別するためにハッシュ関数を使用して、音声のスペクトログラフと付き合わせる。パターンマッチング部209によって出力された識別されたトラック情報は、それから、表示器29上にユーザへ表示するために出力される。
本発明者らは、この処理が、圧縮音声データをディジタル化した音声サンプルにもとに変換し、それから、音声サンプルの高速フーリエ変換を取るよりも、著しく少ない計算ですむ、ことを見つけ出した。実際に、本発明者らは、この処理が、元音声サンプルの高速フーリエ変換をとるよりも少ない処理ですむ、ことを見つけ出した。この理由は、LPC係数の高速フーリエ変換を取ることが、フレームごとに単に10の係数であるように、比較的簡単であり、コードブックの励起パルスの高速フーリエ変換が、パルス位置係数がパルス位置の差を取ることによって、又は、(コードブックによって規定された制限された数のパルス位置があるような)ルックアップテーブルにおいてそれらを再計算することによって、周波数領域に簡単に変換され得るように、比較的簡単だからでる。
当業者によって分かるように、この方法において結果として得られるスペクトログラフは、成される近似の為に、音声サンプルのFFTから得られるものと直接的に同等ではない。しかしながら、スペクトログラフは、従来のスペクトログラフと十分でかつ類似の情報を運ぶので、同じ又は同様のパターンマッチング技術が音声認識に対して使用され得る。最良の結果に対して、データベース211に格納されたパターン情報は、好ましくは、(例えば、音声サンプルから直接生成されたものを使用するよりも、AMRコーデック出力から)同様の方法で得られるスペクトログラフから生成される。
[変更および更なる代替]
多数の実施形態について、携帯電話機におけるコーデックが、隠れ情報を回復するため又は入力音声セグメントを識別するために、電話機の他の部品によって実行される引き続く処理を減少させるために使用される、方法を示して説明した。当業者は、種々の変更を認識するだろうし、改良が上記実施形態に対してなされ、それら変更の幾つかについて次に説明する。
上記音声認識の実施形態において、パターンデータベース211の全てが携帯電話機21内に格納された。代わりの実施形態において、パターンマッチング部209は、音声に対して生成されたスペクトログラフの特性特徴からハッシュ関数を生成するために構成されてよく、このハッシュ関数の結果は、それから、音声のスペクトログラフと突合せられるべき適切なパターン情報をダウンロードする、リモートサーバへ伝送されてよい。この方法において、携帯電話機21上のパターンデータベース211内に格納されるべきデータ量は、最小に維持され得、リモートデータベースから選択パターンを検索するための処理において比較的小さい遅延のみをもたらす。
上記音声認識の実施形態において、線スペクトル周波数がLPC係数に戻し変換され、そのLPC係数は、それから、FFTを使用して周波数領域に変換された。代わりの実施形態において、LPCデータ用のスペクトルは、線スペクトル周波数又はそれらから引出された極から直接決定されてよい。これは、音声認識を実行するために必要な処理を更に減少するだろう。
上述した初期の実施形態において、データは、音声内に隠され、ユーザによって見られるテレビ番組に対する電話機の操作と同期するために使用された。ほんの今記述した最後の実施形態において、音声内に隠れデータはなく、その代わりに、音声の特性特徴が、識別され、音声を認識するために使用される。当業者において分かるように、同様の音声認識技術が、同期の実施形態において使用され得る。例えば、電話機上で流れるソフトウェアアプリケーションは、音声サウンドトラック内の決定された位置を認識することによって、テレビ番組にそれ自体同期されてよい。この型の同期は、また、テレビ番組におけるサブタイトルの出力を制御するために使用され得る。
上述した初期の実施形態において、隠れデータは、LPC係数の自己相関値又は合成フィルタのインパルス応答を決定するために回復された。この相関処理は、隠れデータが、係数又はインパルス応答を直接監視することによって見つけ出せるとき、必須ではない。しかしながら、自己相関処理は、それがエコーを識別するのを容易にするとき、好ましい。
上記改良において、種々のハイパルフィルタリング技術が、音声および部屋音響と関係づけられた低い周波数成分を濾波して取り除くために使用された。そのようなハイパスフィルタリングが携帯電話機において実行される、好ましい実施形態において、エコー信号は、好ましくは、AMR帯域の高い周波数部分における音声にのみ(隠れ処理の間)加えられる。例えば、1kHzより上、好ましくは、2kHzより上のみに。これは、音声信号を濾波して低い周波数AMR帯域成分を取り除き、濾波された出力を元音声に必要な時間遅延をもって加算することによって、達成され得る。これは、それが、携帯電話機において実行されるハイパスフィルタリングによって濾波して取り除かれる(したがって、失われる)だろう、エコー信号におけるエネルギーを減少するとき、好ましい。
上記実施形態において、携帯電話機によって使用される音声コーデックがAMRコーデックであることを仮定した。しかしながら、当業者において分かるように、上述した原理と発想は、また、他の型の音声コーデックにも適用可能であり、特に、入力音声の線形予測分析を当てにするものに適用可能である。
上記実施形態において、音声コーデックから出力される圧縮音声データの種々の処理は、携帯電話機上を流れるソフトウェアによって実行された。当業者において分かるように、その処理の幾つか又は全ては、専用のハードウェア回路によって形成されてもよいが、ソフトウェアは、製造および更新されるべきその能力が一度ロードされた後、携帯電話機に加えられるべきその能力のために好ましい。携帯電話機を上述したように動作させるためのソフトウェアは、信号又はコンパクトディスクや他の担体媒体のような担体として提供されてよい。
上記実施形態において、処理は携帯電話機内で実行された。しかしながら、当業者において分かるように、その利益は、組込み音声コーデックを持つ任意の通信装置に適用されるだろう。
上述した初期の実施形態において、データは、音声中に隠され、ユーザによって見られるテレビショーを持つ携帯電話機の動作と同期させるために使用された。当業者において分かるように、及び国際公開第02/45273号において説明されているように、隠れデータに対する種々の他の用途がある。例えば、隠れデータは、リモート位置におけるURLを識別してよく、又は、解釈用に予め格納されたURLに送られるべきコードを識別してよい。そのような隠れデータは、ユーザに、例えば、テレビ番組についての付加情報を提供でき及び/又は特定のオファーやユーザ用の他の的を絞られた広告を提供できる。
上記実施形態において、テレビ番組は、RF通信リンク13を介してユーザに伝送された。当業者において分かるように、テレビ番組は、ケーブルTV、インターネット、衛星TVなどの、任意の適当な提供技術を介してユーザに分配されてよい。それは、また、DVDのような記憶媒体から得られ、適当なDVDプレーヤーによって読み出されて良い。
上記実施形態において、携帯電話機は、テレビ番組の音声を受信した。当業者において分かるように、上記技術は、また、音声がラジオや他のスピーカーシステムから得られるとことで使用され得る。
上記実施形態において、データがテレビシステムのテレビスタジオの末端で音声に隠されたことを仮定した。代わりの実施形態において、データは、テレビシステムのユーザの末端で、例えば、セットトップ・ボックスによって音声中に隠されてもよい。セットトップ・ボックスは、テレビ番組をユーザへ出力する前に、適当なデータを音声に隠すために改造されてよい。
上記実施形態において、ソフトウェアアプリケーションは、携帯電話機21中のAMRコーデックから受信した圧縮音声データを処理した。代わりの実施形態において、ソフトウェアアプリケーションは、電話網上で受信され、RF処理装置57によってプロセッサ63に提供された、圧縮音声データに同様の処理を実行してもよい。
上記実施形態において、音声コーデックの出力は、LPC係数それ自体を含まないが、線スペクトル周波数やLPC合成フィルタのフィルタ極のような、それらから導き出された他のパラメータを含む、ことを仮定している。当業者において分かるように、もし携帯電話機21において使用された音声コーデックが、それによって導き出されたLPC係数がプロセッサ63に使用可能であるものでるなら、LPC係数を回復するためにアプリケーションソフトウェアによって実行される初期の処理は必要でなく、ソフトウェアアプリケーションは、音声コーデックによって出力されたLPC係数に対して直接作動できる。これは、さらに必要な処理を減少するだろう。
当業者において分かるように、上記実施形態において述べられた、ビットレート、サンプリングレート等の正確な値は、本発明の必須の特徴ではなく、本発明から逸脱しないで変更され得る。

Claims (32)

  1. 通信ネットワークへの伝送用の入力音声信号を圧縮するための音声コーダを持つ通信装置を使用して、入力音声信号から隠れデータを回復する又は入力音声信号を識別する方法であって、前記方法は、前記通信装置によって実行されるものであり、前記入力音声信号を前記音声コーダを通過させて、圧縮音声データを発生する工程と、前記圧縮音声データを処理して、前記隠れデータを回復又は前記入力音声信号を識別する工程とを含むことを特徴とする方法。
  2. 前記音声コーダは、前記入力音声に対して線形予測(LP)を実行して前記入力音声を表すLPデータを生成し、前記処理工程は、前記LPデータを処理して前記隠れデータを回復又は前記入力音声信号を識別する、請求項1に記載の方法。
  3. 前記音声コーダは、前記LPデータを圧縮して該圧縮LPデータを生成し、前記処理工程は、前記圧縮音声データから前記LPデータを再生する工程を含む、請求項2に記載の方法。
  4. 前記LPデータはLPフィルタデータを有し、前記処理工程は、前記LPフィルタデータを使用して、前記隠れデータを回復又は前記入力音声信号を識別する、請求項2又は3に記載の方法。
  5. 前記処理工程は、合成フィルタのインパルス応答を生成する工程又は前記LPフィルタデータに対して逆レビンソーンダービン(Levinson-Durbin)アルゴリズムを実行する工程を含む、請求項4に記載の方法。
  6. 前記LPデータはLP励起データを有し、前記処理工程は、前記LP励起データを使用して、前記隠れデータを回復又は前記入力音声信号を識別する、請求項2又は3又は4に記載の方法。
  7. 前記LPデータは、LPフィルタデータとLP励起データとを有し、前記処理工程は、前記LPフィルタデータおよび前記LP励起データの1つに対応する圧縮音声データの部分集合を処理して、前記隠れデータを回復する、請求項2又は3に記載の方法。
  8. 前記音声信号は、該音声信号の1つ以上のエコーによって規定される隠れデータを含み、前記処理工程は、前記圧縮した音声を処理して前記音声信号の中のエコーの存在を識別して、前記隠れデータを回復する、請求項1乃至7のいずれか1項に記載の方法。
  9. 前記隠れデータの各データ記号は、前記音声信号の中のエコーの組み合わせ又はエコーの系列によって表され、前記処理工程は、前記エコーの組み合わせを識別して前記隠れデータを回復する工程又は前記音声内のエコーの系列をたどって前記隠れデータを回復する工程を含む、請求項1乃至8のいずれか1項に記載の方法。
  10. 前記音声コーダは、予め規定された動作周波数帯域を持ち、前記エコーは、前記動作周波数帯域の予め決められた部分、好ましくは、前記動作周波数帯域上側部分の中に隠れており、前記処理工程は、前記予め定められた部分の外側の周波数を濾波して取り除くフィルタ工程を含む、請求項8又は9に記載の方法。
  11. 前記処理工程は、前記音声信号の時間フレームの系列の各々に対して1つ以上の自己相関値を決定し、該決定された自己相関値を使用して前記隠れデータを回復する、請求項1乃至10のいずれか1項に記載の方法。
  12. 前記処理工程は、前記決定された自己相関値のハイパスフィルタリングを実行して、遅く変化する相関を取り除く、請求項11に記載の方法。
  13. 前記処理工程は、前記圧縮音声データからディジタル化された音声サンプルを生成することなしに、前記隠れデータを回復又は前記音声を識別する、請求項1乃至12のいずれか1項に記載の方法。
  14. 音響信号を受信し、該受信した音響信号を対応する電気音声信号に変換するマイクロフォン(23)と、
    前記電気音声信号をサンプリングして、デジタル音声サンプルを出力するA/D変換器(53)と、
    前記デジタル音声サンプルを圧縮して、通信ネットワーク(39)への伝送用の圧縮音声データを生成する音声コータ(55)と、
    前記音声コータ(55)に接続され、前記圧縮音声データを処理して、前記受信した音響信号内で運ばれた隠れデータを回復又は前記受信した音響信号を識別するデータ処理装置(115)と、
    を有する通信装置(21)。
  15. 前記音声コータ(55)は、前記入力音声に対して線形予測(LP)分析を実行して、前記入力音声を表すLPデータを生成するように動作し、前記データ処理装置は、前記LPデータを処理して、前記隠れデータを回復又は前記入力音声信号を識別するように動作する、請求項14に記載の通信装置。
  16. 前記音声コータは、前記LPデータを圧縮して、該圧縮LPデータを生成するように動作し、前記データ処理装置は、前記圧縮音声データから前記LPデータを再生するように動作する、請求項15に記載の通信装置。
  17. 前記LPデータはLPフィルタデータを有し、前記データ処理装置は、前記LPフィルタデータを使用して、前記隠れデータを回復又は前記音声信号を識別するように動作する、請求項15又は16に記載の通信装置。
  18. 前記データ処理装置は、合成フィルタのインパルス応答を生成又は前記LPフィルタデータに対して逆レビンソーンダービン(Levinson-Durbin)アルゴリズムを実行して、前記隠れデータを回復するように動作する、請求項17に記載の通信装置。
  19. 前記LPデータは、LP励起データを有し、前記データ処理装置は、前記LP励起データを使用して、前記隠れデータを回復又は前記音声信号を識別するように動作する、請求項15又は16又は17に記載の通信装置。
  20. 前記LPデータは、LPフィルタデータとLP励起データとを有し、前記データ処理装置は、前記LPフィルタデータおよび前記LP励起データの1つに対応する前記圧縮音声データの部分集合を処理して、前記隠れデータを回復するように動作する、請求項15又16に記載の通信装置。
  21. 前記音声信号は、該音声信号の1つ以上のエコーによって規定される隠れデータを含み、前記データ処理装置は、前記圧縮音声データを処理して、前記音声信号中のエコーの存在を識別し、前記隠れデータを回復するように動作する、請求項14乃至20のいずれか1項に記載の通信装置。
  22. 前記隠れデータの各データ記号は、前記音声信号の中のエコーの組み合わせ又はエコーの系列によって表され、前記データ処理装置は、前記エコーの組み合わせを識別して前記隠れデータを回復し、又は、前記音声中のエコーの系列を追跡して前記隠れデータを回復するように動作する、請求項14乃至21のいずれか1項に記載の通信装置。
  23. 前記音声コーダは、予め規定された動作周波数帯域を持ち、前記エコーは、前記動作周波数帯域の予め決められた部分、好ましくは、前記動作周波数帯域の上側部分の中に隠れており、前記データ処理装置は、前記予め定められた部分の外側の周波数を濾波するように動作する、請求項21又は22に記載の通信装置。
  24. 前記データ処理装置は、時間フレームの系列の各々に対して1つ以上の自己相関値を決定するように動作し、該決定された自己相関値を使用して前記隠れデータを回復するように動作する、請求項14乃至23のいずれか1項に記載の通信装置。
  25. 前記データ処理装置は、前記決定された自己相関値のハイパスフィルタリングを実行して、遅く変化する相関を取り除くように動作する、請求項24に記載の通信装置。
  26. 前記データ処理装置は、前記隠れデータを回復するとき、フレーム間及び/又はフレーム内高域通過フィルタリングを実行するように動作する、請求項14乃至25のいずれか1項に記載の通信装置。
  27. 前記データ処理装置は、前記圧縮した音声データからディジタル化された音声サンプルを再生することなしに、前記隠れデータを回復又は前記音声を識別する、請求項14乃至26のいずれか1項に記載の通信装置。
  28. 音声信号を表すデジタル音声サンプルを受信及び圧縮して、圧縮音声データを生成する音声コーディング手段(161)と、
    前記音声信号中に隠されるべきデータを受信し、該受信したデータに依存して前記圧縮音声データを変化させて、変更圧縮音声データを生成する手段(163)と、
    前記変更圧縮音声データを使用して、元音声信号を表しかつ前記隠れデータを回復した音声サンプルを生成する手段(165)と、
    を有するデータ隠蔽装置(5)。
  29. 音声信号の中にデータを隠す方法であって、前記方法は、前記音声信号中に隠されるべき前期データに依存して前記音声に1つ以上のエコーを加えるステップを有し、エコーを前記音声信号と合成する前に、前記エコーをハイパスフィルタリングする工程を含むことを特徴とする、データ隠蔽方法。
  30. 音声信号を受信する手段と、該受信した音声信号中にデータを隠す手段と、ユーザに対して前記隠れデータを持つ前記音声信号を出力する手段とを備えたセットトップボックスであって、前記セットトップボックスは、前記音声信号の中のエコーの組み合わせ又はエコーの系列によって隠されるべき前記データの各データ記号を表すように動作する、セットトップ・ボックス。
  31. 前記音声信号にそれらのエコーを加える前に、1つ以上のエコーのハイパスフィルタリングを実行するように動作する、請求項30に記載のセットトップ・ボックス。
  32. プログラマブル処理装置に、請求項1乃至13のいずれか1項に記載の処理工程を実行させるコンピュータ実現可能命令を有する、コンピュータ実現可能命令製品。
JP2010509891A 2007-05-29 2008-05-29 音声信号中に埋め込まれた隠れデータの回復 Active JP5226777B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0710211.4 2007-05-29
GBGB0710211.4A GB0710211D0 (en) 2007-05-29 2007-05-29 AMR Spectrography
PCT/GB2008/001820 WO2008145994A1 (en) 2007-05-29 2008-05-29 Recovery of hidden data embedded in an audio signal

Publications (3)

Publication Number Publication Date
JP2010530154A true JP2010530154A (ja) 2010-09-02
JP2010530154A5 JP2010530154A5 (ja) 2011-07-14
JP5226777B2 JP5226777B2 (ja) 2013-07-03

Family

ID=38289454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010509891A Active JP5226777B2 (ja) 2007-05-29 2008-05-29 音声信号中に埋め込まれた隠れデータの回復

Country Status (8)

Country Link
US (1) US20100317396A1 (ja)
EP (1) EP2160583B1 (ja)
JP (1) JP5226777B2 (ja)
CN (1) CN101715549B (ja)
AT (1) ATE523878T1 (ja)
BR (1) BRPI0812029B1 (ja)
GB (1) GB0710211D0 (ja)
WO (1) WO2008145994A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9747907B2 (en) 2013-11-11 2017-08-29 Kabushiki Kaisha Toshiba Digital watermark detecting device, method, and program

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2460306B (en) * 2008-05-29 2013-02-13 Intrasonics Sarl Data embedding system
WO2010138777A1 (en) * 2009-05-27 2010-12-02 Arsh Technologies, Llc Automatic resource retrieval and use
CN101944360A (zh) * 2009-07-03 2011-01-12 邱剑 方便使用的方法和终端
JP5345737B2 (ja) 2009-10-21 2013-11-20 ドルビー インターナショナル アーベー 結合されたトランスポーザーフィルターバンクにおけるオーバーサンプリング
WO2012006171A2 (en) * 2010-06-29 2012-01-12 Georgia Tech Research Corporation Systems and methods for detecting call provenance from call audio
FR2966635A1 (fr) * 2010-10-20 2012-04-27 France Telecom Procede et dispositif d'affichage de donnees vocales d'un contenu audio
US20130053012A1 (en) * 2011-08-23 2013-02-28 Chinmay S. Dhodapkar Methods and systems for determining a location based preference metric for a requested parameter
WO2013144092A1 (en) * 2012-03-27 2013-10-03 mr.QR10 GMBH & CO. KG Apparatus and method for acquiring a data record, data record distribution system, and mobile device
GB201206564D0 (en) 2012-04-13 2012-05-30 Intrasonics Sarl Event engine synchronisation
CN103377165A (zh) * 2012-04-13 2013-10-30 鸿富锦精密工业(深圳)有限公司 具有usb接口的电子装置
US9786281B1 (en) * 2012-08-02 2017-10-10 Amazon Technologies, Inc. Household agent learning
US11184448B2 (en) 2012-08-11 2021-11-23 Federico Fraccaroli Method, system and apparatus for interacting with a digital work
US9473582B1 (en) 2012-08-11 2016-10-18 Federico Fraccaroli Method, system, and apparatus for providing a mediated sensory experience to users positioned in a shared location
US10419556B2 (en) 2012-08-11 2019-09-17 Federico Fraccaroli Method, system and apparatus for interacting with a digital work that is performed in a predetermined location
US20160380814A1 (en) * 2015-06-23 2016-12-29 Roost, Inc. Systems and methods for provisioning a battery-powered device to access a wireless communications network
GB2556023B (en) 2016-08-15 2022-02-09 Intrasonics Sarl Audio matching
CN114171035A (zh) * 2020-09-11 2022-03-11 海能达通信股份有限公司 抗干扰方法及装置
US20230368320A1 (en) * 2022-05-10 2023-11-16 BizMerlinHR Inc. Automated detection of employee career pathways

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08149163A (ja) * 1994-11-18 1996-06-07 Toshiba Corp 信号伝送装置及び受信装置及び方法
JPH10322291A (ja) * 1997-04-18 1998-12-04 Lucent Technol Inc 音データ受信器
US5893067A (en) * 1996-05-31 1999-04-06 Massachusetts Institute Of Technology Method and apparatus for echo data hiding in audio signals
US20020078359A1 (en) * 2000-12-18 2002-06-20 Jong Won Seok Apparatus for embedding and detecting watermark and method thereof
JP2003536094A (ja) * 2000-04-27 2003-12-02 クゥアルコム・インコーポレイテッド オーディオ信号に埋め込まれた隠れデータを抽出し、復号し、利用するためのシステムおよび方法
JP2004531103A (ja) * 2000-11-30 2004-10-07 サイエンティフィック ジェネリクス リミテッド 通信システム
JP2005049794A (ja) * 2003-07-31 2005-02-24 Fujitsu Ltd データ埋め込み装置及びデータ抽出装置
US20050219068A1 (en) * 2000-11-30 2005-10-06 Jones Aled W Acoustic communication system

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5457807A (en) * 1994-03-21 1995-10-10 Weinblatt; Lee S. Technique for surveying a radio or a television audience
ATE330420T1 (de) * 1997-03-21 2006-07-15 Thomson Licensing Datenfernladung
US6467089B1 (en) * 1997-12-23 2002-10-15 Nielsen Media Research, Inc. Audience measurement system incorporating a mobile handset
US6003004A (en) * 1998-01-08 1999-12-14 Advanced Recognition Technologies, Inc. Speech recognition method and system using compressed speech data
EP1043853B1 (en) * 1998-05-12 2005-06-01 Nielsen Media Research, Inc. Audience measurement system for digital television
US7155159B1 (en) * 2000-03-06 2006-12-26 Lee S. Weinblatt Audience detection
GB2365295A (en) * 2000-07-27 2002-02-13 Cambridge Consultants Watermarking key
US6674876B1 (en) * 2000-09-14 2004-01-06 Digimarc Corporation Watermarking in the time-frequency domain
KR20040048978A (ko) * 2001-10-25 2004-06-10 코닌클리케 필립스 일렉트로닉스 엔.브이. 감소된 대역폭을 가진 전송 채널 상에 광대역 오디오신호들을 전송하는 방법
CN101115124B (zh) * 2006-07-26 2012-04-18 日电(中国)有限公司 基于音频水印识别媒体节目的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08149163A (ja) * 1994-11-18 1996-06-07 Toshiba Corp 信号伝送装置及び受信装置及び方法
US5893067A (en) * 1996-05-31 1999-04-06 Massachusetts Institute Of Technology Method and apparatus for echo data hiding in audio signals
JP2002505758A (ja) * 1996-05-31 2002-02-19 マサチューセッツ・インスティテュート・オブ・テクノロジー オーディオ信号内にエコーによるデータ隠しを行うための方法及び装置
JPH10322291A (ja) * 1997-04-18 1998-12-04 Lucent Technol Inc 音データ受信器
JP2003536094A (ja) * 2000-04-27 2003-12-02 クゥアルコム・インコーポレイテッド オーディオ信号に埋め込まれた隠れデータを抽出し、復号し、利用するためのシステムおよび方法
JP2004531103A (ja) * 2000-11-30 2004-10-07 サイエンティフィック ジェネリクス リミテッド 通信システム
US20050219068A1 (en) * 2000-11-30 2005-10-06 Jones Aled W Acoustic communication system
US20020078359A1 (en) * 2000-12-18 2002-06-20 Jong Won Seok Apparatus for embedding and detecting watermark and method thereof
JP2005049794A (ja) * 2003-07-31 2005-02-24 Fujitsu Ltd データ埋め込み装置及びデータ抽出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9747907B2 (en) 2013-11-11 2017-08-29 Kabushiki Kaisha Toshiba Digital watermark detecting device, method, and program

Also Published As

Publication number Publication date
EP2160583A1 (en) 2010-03-10
CN101715549B (zh) 2013-03-06
CN101715549A (zh) 2010-05-26
GB0710211D0 (en) 2007-07-11
JP5226777B2 (ja) 2013-07-03
EP2160583B1 (en) 2011-09-07
ATE523878T1 (de) 2011-09-15
BRPI0812029A2 (pt) 2014-11-18
BRPI0812029B1 (pt) 2018-11-21
US20100317396A1 (en) 2010-12-16
WO2008145994A1 (en) 2008-12-04

Similar Documents

Publication Publication Date Title
JP5226777B2 (ja) 音声信号中に埋め込まれた隠れデータの回復
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
JP4132109B2 (ja) 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
JP3881946B2 (ja) 音響符号化装置及び音響符号化方法
US9293143B2 (en) Bandwidth extension mode selection
CN101006495A (zh) 语音编码装置、语音解码装置、通信装置以及语音编码方法
JP4445328B2 (ja) 音声・楽音復号化装置および音声・楽音復号化方法
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
EP2945158B1 (en) Method and arrangement for smoothing of stationary background noise
JPH1097296A (ja) 音声符号化方法および装置、音声復号化方法および装置
JP5027966B2 (ja) 入力信号をボコーディングする方法および装置およびそのためのコンピュータ読み出し可能信号を有する媒体を含む製造物品
JPH11177434A (ja) 音声符号化復号方式
JP2000357000A (ja) 雑音信号符号化装置および音声信号符号化装置
Schnell et al. LC3 and LC3plus: The new audio transmission standards for wireless communication
JP4420562B2 (ja) 背景ノイズが共存する符号化音声の品質を向上させるためのシステムおよび方法
WO2004097798A1 (ja) 音声復号化装置、音声復号化方法、プログラム、記録媒体
JPH11504733A (ja) 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
JP6713424B2 (ja) 音声復号装置、音声復号方法、プログラム、および記録媒体
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法
JP2002149198A (ja) 音声符号化装置及び音声復号化装置
JP4826580B2 (ja) 音声信号の再生方法及び装置
JPH034300A (ja) 音声符号化復号化方式
JP2000163097A (ja) 音声変換装置、音声変換方法および音声変換プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH01314300A (ja) 音声符号化復号化方法とその装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110527

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130314

R150 Certificate of patent or registration of utility model

Ref document number: 5226777

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160322

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250