JP2009104200A - 音声符号変換方法及び装置 - Google Patents
音声符号変換方法及び装置 Download PDFInfo
- Publication number
- JP2009104200A JP2009104200A JP2009029787A JP2009029787A JP2009104200A JP 2009104200 A JP2009104200 A JP 2009104200A JP 2009029787 A JP2009029787 A JP 2009029787A JP 2009029787 A JP2009029787 A JP 2009029787A JP 2009104200 A JP2009104200 A JP 2009104200A
- Authority
- JP
- Japan
- Prior art keywords
- code
- data
- speech
- embedded
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【構成】入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換装置103において、第1音声符号を第2音声符号に変換し、送信元から受信した第1音声符号に任意のデータが埋め込まれている場合、該該第1音声符号から埋め込みデータを抽出し、第2音声符号と抽出したデータを別々に送信先に送信する
【選択図】図7
Description
・符号器の構成及び動作
図18はITU-T勧告G.729A方式の符号器の構成図である。図18において、1フレーム当り所定サンプル数(=N)の入力信号(音声信号)Xがフレーム単位でLPC分析部1に入力する。サンプリング速度を8kHz、1フレーム期間を10msecとすれば、1フレームは80サンプルである。LPC分析部1は、人間の声道を次式
H(z)=1/[1+Σαi・z-i] (i=1〜P) (1)
で表される全極型フィルタと見なし、このフィルタの係数αi(i=1,・・・,p)を求める。ここで、Pはフィルタ次数である。一般に、電話帯域音声の場合はPとして10〜12の値が用いられる。LPC(線形予測)分析部1では、入力信号の80サンプルと先読み分の40サンプル及び過去の信号120サンプルの合計240サンプルを用いてLPC分析を行いLPC係数を求める。
LSPパラメータlspi(i=1,・・・,p)はLSP量子化部3でスカラー量子化やベクトル量子化などにより量子化された後、量子化インデックス(LSP符号)が復号器側へ伝送される。
EL=|X−β×A×PL|2 (2)
により求める。適応符号帳出力の重み付き合成出力をA×PLとし、A×PLの自己相関をRpp、A×PLと入力信号Xの相互相関をRxpとすると、式(2)の誤差電力が最小となるピッチラグLoptにおける適応符号ベクトルPLは、次式
PL=argmax(Rxp2/Rpp) (3)
により表わされる。すなわち、ピッチ合成信号A×PLと入力信号Xとの相互相関Rxpをピッチ合成信号の自己相関Rppで正規化した値が最も大きくなる読み出し開始点を最適な開始点とする。以上より、誤差電力評価部10は(3)式を満足するピッチラグLoptを求める。このとき、最適ピッチゲインβoptは次式
βopt=Rxp/Rpp (4)
で与えられる。
(1) パルス系統グループ1には8個のサンプル点 0,5,10,15,20,25,30,35が割り当てられ、
(2) パルス系統グループ2には8個のサンプル点1,6,11,16,21,26,31,36が割り当てられ、
(3) パルス系統グループ3には8個のサンプル点2,7,12,17,22,27,32,37が割り当てられ、
(4)パルス系統グループ4には16個のサンプル点3,4,8,9,13,14,18,19,23,24,28, 29,33,34,38,39が割り当てられている。
表1に示すように各パルス系統のパルス位置は限定されており、代数符号帳探索では各パルス系統のパルス位置の組み合わせの中から、再生領域で入力音声との誤差電力が最も小さくなるパルスの組み合わせを決定する。すなわち、適応符号帳探索で求めた最適ピッチゲインβoptとし、適応符号帳出力PLに該ゲインβoptを乗算して加算器11に入力する。これと同時に代数符号帳8より順次パルス性信号を加算器に11に入力し、加算器出力をLPC合成フィルタ6に入力して得られる再生信号と入力信号Xとの差が最小となるパルス性信号を特定する。具体的には、まず入力信号Xから適応符号帳探索で求めた最適な適応符号帳出力PL、最適ピッチゲインβoptから次式により代数符号帳探索のためのターゲットベクトルX′を生成する。
この例では、パルスの位置と振幅(正負)を前述のように17bitで表現するため、その組合わせは2の17乗通り存在する。ここで、k通り目の代数符号出力ベクトルをCkとすると、代数符号帳探索では次式
D=|X′−GC×A×Ck|2 (6)
の評価関数誤差電力Dを最小とする符号ベクトルCkを求める。GCは代数符号帳ゲインである。誤差電力評価部10は代数符号帳の探索において、代数合成信号A×Ckと入力信号X′の相互相関値Rcxの2乗を代数合成信号の自己相関値Rccで正規化して得られる正規化相互相関値(Rcx*Rcx/Rcc)が最も大きくなるパルス位置と極性の組み合わせを探索する。
ゲイン量子化器12の図示しないゲイン量子化テーブルには、適応符号帳ゲインGaと代数符号帳ゲインに対する補正係数γの組み合わせが128通り(=27)用意されている。ゲイン符号帳の探索方法は、(1)適応符号帳出力ベクトルと代数符号帳出力ベクトルに対して、ゲイン量子化テーブルの中から1組のテーブル値を取り出してゲイン可変部13、14に設定し、(2)ゲイン可変部13、14でそれぞれのベクトルにゲインGa、Gcを乗じてLPC合成フィルタ6に入力し、(3)誤差電力評価部10において入力信号Xとの誤差電力が最も小さくなる組み合わせを選択する、ことにより行なう。
図20はG.729A方式の復号器のブロック図である。符号器側から送られてきた回線データが回線復号部21へ入力されてLSP符号、ピッチラグ符号、代数符号、ゲイン符号が出力される。復号器ではこれらの符号に基づいて音声データを復号する。復号器の動作については、復号器の機能が符号器に含まれているため一部重複するが、以下で簡単に説明する。
LSP逆量子化部22はLSP符号が入力すると逆量子化し、LSP逆量子化値を出力する。LSP補間部23は現フレームの第2サブフレームにおけるLSP逆量子化値と前フレームの第2サブフレームのLSP逆量子化値から現フレームの第1サブフレームのLSP逆量子化値を補間演算する。次に、パラメータ逆変換部24はLSP補間値とLSP逆量子化値をそれぞれLPC合成フィルタ係数へ変換する。G.729A方式のLPC合成フィルタ25は、最初の第1サブフレームではLSP補間値から変換されたLPC係数を用い、次の第2サブフレームではLSP逆量子化値から変換されたLPC係数を用いる。
尚、初期状態では復号器側の適応符号帳26の内容は全て振幅0の信号が入っており、サブフレーム毎に時間的に一番古い信号をサブフレーム長だけ捨て、一方、現サブフレームで求めた音源信号を適応符号帳26に格納するように動作する。つまり、符号器と復号器の適応符号帳26は常に最新の同じ状態になるように維持される。
以上がG.729Aの符号化及び復号方式である。一方、AMR方式もG.729A方式と同様にCELP(Code Excited Linear Prediction;符号駆動線形予測符号化)と呼ばれる基本アルゴリズムを用いており、G.729A方式との違いは以下の通りである。
図21はG.729A方式とAMRの主要諸元を比較した結果である。なお、AMRの符号化モードは全部で8種類あるが図21の諸元は全ての符号化モードで共通である。G729A方式とAMR方式は、入力信号の標本化周波数(=8KHz)、サブフレーム長(=5msec)、線形予測次数(=10次)は同じであるが、フレーム長が異なり、1フレーム当りのサブフレーム数が異なっている。図22に示すようにG.729A方式では1フレームが2つの第0〜第1サブフレームで構成され、AMR方式では1フレームが4つの第0〜第3サブフレームで構成されている。
以上説明した通り、インターネットで音声を通信するVoIPで広く用いられているG.729A方式と携帯電話システムで採用されたAMR方式とでは、基本アルゴリズムが共通であるが、フレーム長が異なり、しかも、符号を表現するビット数が異なっている。
インターネットと携帯電話の普及に伴い、インターネットユーザと携帯電話網のユーザによる音声通話の通信量が今後ますます増えてくると考えられる。このような異なる通信システム間の音声通信には、図24に示すように中間に音声符号変換装置53が必要になる。すなわち、音声符号変換装置53において、一方の通信システム51の符号器52で第1音声符号化方式に従って符号化した音声符号を、他方の通信システム54で使用されている第2音声符号化方式の音声符号に変換する。このように音声符号変換すれば、通信システム54の第2音声符号化方式の復号器55はユーザ1の音声を正しく再生することができる。
端末71に組み込まれた符号化方式1の符号器71aはユーザAが発した音声信号を符号化方式1の音声符号に符号化して伝送路71bに送出する。音声符号変換部74は伝送路71bより入力した符号化方式1の音声符号を符号化方式2の音声符号に変換して伝送路72bに送出し、端末72の復号器72aは、伝送路72bを介して入力する符号化方式2の音声符号から再生音声を復号し、ユーザBはこの再生音声を聞くことができる。
近年コンピュータやインターネットが普及する中で、マルチメディアコンテンツ(静止画、動画、オーディオ、音声など)に特殊なデータを埋め込む「電子透かし技術」が注目を集めている。電子透かし技術とは、画像や動画、音声などのマルチメディアコンテンツ自体に、人間の知覚の特性を利用し、品質にはほとんど影響を与えずに別の任意の情報を埋め込む技術である。このような技術は、コンテンツに作成者や販売者などの名前を埋め込んで、不正コピーやデータの改ざんなどを防止するといった著作権保護を目的とすることが多いが、その他にもコンテンツに関する関連情報や付属情報を埋め込んで利用者のコンテンツ利用時における利便性を高めることを目的としても用いられる。
ピッチ音源に対応するピッチラグ符号と雑音音源に対応する代数符号に着目すると、これらのゲイン(ピッチゲイン、代数符号帳ゲイン)が各符号の寄与度を示すファクタとみなすことができ、ゲインが小さい場合は対応する符号の寄与度が小さくなる。そこで、ゲインを判定パラメータとして定義し、該ゲインがある閾値以下になる場合は対応する符号の寄与度が小さいと判断して、該符号のインデックスを任意のデータ系列で置き換える。これにより、置き換えの影響を小さく抑えながら、任意のデータを埋め込むことが可能となる。
図27に符号変換の原理図を示す。図27は第1符号化方式の符号化データCode1を第2符号化方式の符号化データCode2に変換する場合を示している。符号変換部91は、第1符号化方式による符号化の際に使用される第1量子化テーブル92と第2符号化方式による符号化の際に使用される第2量子化テーブル93をそれぞれ備えている。また、第1量子化テーブル92と第2量子化テーブル93はテーブルサイズおよびテーブル値が異なるが、図27では、説明の簡略化のためにテーブルサイズが2ビットと同じ場合を示す。
ここで入力符号Code1のデータ系列が、前述した埋め込み方法によって埋め込まれた任意のデータ("01"とする)である場合を考える。符号変換部91は、前述と同様の変換処理を行うため、入力データ系列"01"を"10"へ変換する。しかし、これでは、埋め込まれたデータ系列が"01"→"10"と変化してしまい保持されなくなり、受信側の第2符号化方式の復号器は埋め込まれたデータ系列を正常に復元することができない。
以上のように、従来の符号変換方式では、入力符号に任意のデータ系列が埋め込まれている場合、該埋め込みデータ系列を保持できず、結果として符号変換装置において埋め込みデータが損なわれる問題があった。
今後、第3世代携帯電話システムに代表されるように、音声通信に加え、データ通信等マルチメディア情報を対象とした通信システムの普及が予想される。このため、従来のような音声回線のみを持つ通信システムと、音声回線とその他のデータ回線を持つ通信システム間での通信が発生する。かかる場合、音声回線については従来の音声符号変換装置で両通信システム間の音声符号の相互変換を行うことによりユーザ間の音声通信が可能となる。しかし、データ回線については、一方がデータ回線を持たないため、ユーザ間のデータ通信は不可能である。以上のように音声回線のみを持つ通信システムと音声回線と他にデータ回線を持つ通信システム間では、ユーザ間で音声通信しか行うことが出来ない問題がある。
・音声符号変換方法
本発明の音声符号変換方法は、第1音声符号を受信するステップ、該第1音声符号に任意のデータが埋め込まれている場合、該第1音声符号を第2音声符号に変換すると共に、該第1音声符号から埋め込みデータを抽出するステップ、前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信するステップを有している。
本発明の音声符号変換装置は、第1音声符号を第2音声符号に変換する符号変換部、送信元から受信した第1音声符号に任意のデータが埋め込まれている場合、該該第1音声符号から埋め込みデータを抽出する埋め込みデータ抽出部、前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信する手段を有している。
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、前記埋め込みデータ抽出部は、送信元から受信した1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視する監視部、データ埋め込み条件が満たされていれば第1音声符号より前記埋め込みデータを抽出する抽出部を有している。
(a)第1のシステム
図1は本発明の第1のシステム概念図であり、任意のデータDTを埋め込んだ第1符号化方式の音声符号SP1を、該データDTを埋め込んだ第2符号化方式の音声符号SP2へ変換する場合を示している。
第1符号化方式の通信システム101と第2符号化方式の通信システム102間に音声符号変換装置103が設けられている。通信システム101における第1符号化方式の符号器104は、入力音声SP1を符号化する際、音声データ以外の任意のデータ系列DTを音声符号SCD1に埋め込んで伝送路105に送出する。この際、符号器104によるデータの埋め込みは、音声符号のフォーマットを変えずに音声符号自体に行われるため、音声符号の情報量の増加はない。
音声符号変換装置103は、符号器104から第1音声符号化方式に従って符号化した音声符号SCD1を受信すれば、該音声符号を通信システム102で使用されている第2音声符号化方式の音声符号SCD2に変換して伝送路106に送出する。この際、音声符号変換装置103は埋め込みデータを損なわずに音声符号変換を行う。
通信システム102における第2符号化方式の復号器107は音声符号SCD2に埋め込まれた任意のデータ系列DTを読み出して出力するとともに、音声符号に通常の復号器処理を施して再生音声SP2を出力する。このとき、再生音声SP2の品質にほとんど影響がないように埋め込みが行われるため、再生音声は埋め込みを行わない場合とほとんど差がない。
図4は本発明の第2のシステム概念図であり、変換元の通信システム101が音声回線105とデータ回線108を持ち、変換先の通信システム102が音声回線106のみ持つ場合を示している。図に示すように通信システム101における第1符号化方式の符号器104は、入力音声SP1を符号化して音声符号SCD1にし該音声符号を音声回線105に送出すると共に、音声符号以外の任意のデータ系列DTをデータ回線108に送出する。実際には音声符号SCDとデータ系列DTを時分割多重して多重回線に送出し、適当な箇所で分離して音声符号変換装置103に入力する。以上により、音声符号変換装置103には音声回線105から音声符号SCD1とデータ回線108からデータDTがそれぞれ入力する。音声符号変換装置103は第1符号化方式の音声符号SCD1を第2符号化方式の音声符号に変換するとともに該音声符号にデータDTを埋め込んで音声符号SCD2として変換先の通信システム102に音声回線106を介して伝送する。
図5は本発明の第2システムにおける符号変換装置103の構成図であり、図2の第1システムにおける符号変換装置と同一部分には同一符号を付している。異なる点は、(1)データDTが音声符号SCD1とは別の経路で入力する点、(2)埋め込みデータ抽出部がなく、埋め込みデータDTを直接データ埋め込み部113へ入力する点である。
変換元である通信システムは第1符号化方式に従って符号化した音声符号SCD1とデータDTを時分割多重して多重回線200に送出し、回線分離部201はこれら音声符号SCD1とデータDTを分離して音声回線105、データ回線108を介して符号変換装置103に入力する。
図7は本発明の第3のシステム概念図であり、第2のシステムとは逆に、変換元の通信システム101が音声回線105のみを持ち、変換先の通信システム102が音声回線106とデータ回線109を持つ場合を示している。
通信システム101における第1符号化方式の符号器104は、入力音声SP1を符号化すると共に該符号に音声データ以外の任意のデータ系列DTを埋め込み、音声符号SCD1として音声回線105に送出する。音声符号変換装置103は、第1符号化方式の音声符号SCD1を第2符号化方式の音声符号SCD2に変換するとともに、音声符号SCD1に埋め込まれているデータDTを抽出し、これら音声符号SCD2、データDTを各回線106,109に送出する。通信システム102はデータ回線109を介して入力したデータを出力すると共に、復号器107で音声符号SCD2を復号して再生音声SP2を出力する。なお、実際には音声符号SCD2、データDTは適所で時分割多重されて通信システム102に伝送され、通信システムで分離される。
変換元で第1符号化方式に従って符号化され、且つ、データDTが埋め込まれた音声符号SCD1は、フレーム単位で順番に符号変換部111と埋め込みデータ抽出部112に入力する。符号変換部111は第1符号化方式の音声符号SCD1を第2符号化方式の音声符号SCD2に変換して音声回線106に送出する。また、埋め込みデータ抽出部112は、音声符号SCD1に埋め込まれたデータDTを抽出してデータ回線109に送出する。回線多重部203は音声回線106 データ回線109を介して入力する音声符号SCD2及びデータDTを時分割多重して多重回線204に送出する。
(a)第1実施例
図10は本発明の第1システムにおける符号変換装置の構成図であり、埋め込み制御する場合の構成を示している。
この第1実施例では、任意のデータが埋め込まれているAMRの音声符号を、埋め込みデータを損なうことなくG.729Aの音声符号に変換する場合の例を示している。さらに、第1実施例では、変換元のAMRの符号器は、代数符号帳ゲインが設定値より小さければ、代数符号に割り当てられている17ビット/サブフレームすべてに任意のデータを埋め込み、代数符号帳ゲインが設定値より大きければ本来の代数符号データを埋め込むものとする。また、変換先のG.729Aの符号器も同様に代数符号帳ゲインに応じて代数符号に割り当てられている17bitすべてにデータを埋め込むものとする。
この第1実施例によれば、AMRの音声符号bst1(m)における代数符号に任意のデータが埋め込まれている場合、埋め込みデータを損なうことなく、該データをG.729Aの代数符号に埋め込んだ音声符号bst2(n)へと変換することができる。これによりAMRとG.729A間で音声フォーマットを変更することなく、音声通信に加えデータ通信を行うことが可能となる。
以上では、AMR→G.729Aへの変換について説明したが、第1実施例のデータ抽出、データ埋め込みに関連する部分の構成は、G.729AからAMRへの逆変換時にも適用可能である。
図11は本発明の第1システムにおける符号変換装置の別の構成図であり、埋め込み制御する場合の構成を示しており、図10の第1実施例と同一部分には同一符号を付している。異なる点は、第1実施例では、代数ゲインが設定値より小さければ、代数符号に割り当てられている17ビット/サブフレームすべてに任意のデータを埋め込むものとしているが、第2実施例では、ピッチゲインが設定値より小さければ、ピッチラグ符号に割り当てられている8ビットあるいは5ビット/サブフレームすべてに任意のデータを埋め込むものとする点である。
第2実施例によれば、AMRの音声符号bst1(m)のピッチラグ符号に任意のデータが埋め込まれている場合、埋め込みデータを損なうことなく、該データをG.729Aのピッチラグ符号に埋め込んだ音声符号bst2(n)へと変換することができる。これによりAMR(7.95kbps)とG.729A間で音声フォーマットを変更することなく、音声通信に加えデータ通信を行うことが可能となる。
以上では、AMR→G.729Aへの変換について説明したが、データ抽出、データ埋め込みに関連する部分の構成は、G.729AからAMRへの逆変換時やその他の符号変換時にも適用可能である。
図12は本発明の第1システムにおける符号変換装置の別の構成図であり、埋め込み制御を行なわない場合の構成を示している。この第3実施例では、AMRの音声符号を埋め込みデータを損なうことなく、G.729Aの音声符号に変換する場合の例を示している。AMRの音声符号は図21〜図23を参照すると1フレーム20msecであり、5msec毎の4つのサブフレームを備え、各サブフレーム毎に17ビットの代数符号を有している。一方、G.729Aの音声符号は1フレーム10msecであり、5msec毎の2つのサブフレームを備え、各サブフレーム毎に17ビットの代数符号を有している。AMR,G729Aともに、この17ビットにより4つのパルス系統(表1参照)のパルス位置m0〜m3と極性s0〜s3が表現される。パルス位置m0〜m3と極性s0〜s3に対するビット割当は図13に示す通りである。
また、第1のシステムによれば、変換元と変換先で適応的に埋め込み制御が行われる場合、各符号化方式の埋め込み制御方法の相違により、あるいは従来の音声符号変換部での変換誤差により生じるデータ抽出と埋め込みのタイミングの差をデータ保持部により吸収することで、音声符号SCD1に埋め込まれたデータを損なうことなく、同データを埋め込んだ音声符号SCD2に変換することができる。
また、第1のシステムによれば、データ埋め込み技術を適用した音声回線を持つ音声通信システム間において、埋め込まれたデータを損なうことなく、しかも、音声符号フォーマットを変更することなく音声回線を介して音声とデータの両方の通信を行うことが可能となる。
(a)第1実施例
図14は本発明の第2のシステムにおける音声符号変換装置の構成図であり、音声符号bst1(m)にデータDcodeが埋め込まれておらず、該データが音声符号と別回線で音声符号変換装置に入力される点が第1のシステムの実施例と異なる。回線多重部201は多重回線200を介して受信した多重データより音声符号bst1(m)とデータDcodeを分離し、端子1より音声符号bst1(m)を符号分離部114に入力し、端子3からデータDcodeを直接データ保持部122に入力する。
符号分離部114は、回線データbst1(m)をAMRの要素符号(LSP符号1、ピッチラグ符号1、ピッチゲイン符号1、代数符号1、代数ゲイン符号1)に分離し、これら要素符号を符号変換部111における各符号変換部(LSP符号変換部111a、ピッチラグ符号変換部111b、ピッチゲイン符号変換部111c、代数ゲイン符号変換部111d、代数符号変換部111e)へ入力する。各符号変換部111a〜111eは第1符号化方式の符号を第2符号化方式の符号に変換する。
図15は本発明の第2のシステムにおける音声符号変換装置の別の構成図であり、埋め込み制御を行なわない場合の構成を示している。この第2実施例では、音声符号bst1(m)にデータDcodeが埋め込まれておらず、該データが音声符号と別回線で音声符号変換装置に入力される。又、G729Aの代数符号は、17ビットにより4つのパルス系統の各パルス位置m0〜m3と極性s0〜s3を表現するから、第2実施例では例えば第4パス系統のパルス位置及び極性を示すm3, s3の5ビットにデータDcodeを埋め込むものとする。
回線多重部201は多重回線200を介して受信した多重データより音声符号bst1(m)とデータDcodeを分離し、端子1より音声符号bst1(m)を符号分離部114に入力し、端子3からデータDcodeを直接データ埋め込み部113に入力する。
符号分離部114は、回線データbst1(m)をAMRの要素符号(LSP符号1、ピッチラグ符号1、ピッチゲイン符号1、代数符号1、代数ゲイン符号1)に分離し、これら要素符号を符号変換部111における各符号変換部(LSP符号変換部111a、ピッチラグ符号変換部111b、ピッチゲイン符号変換部111c、代数ゲイン符号変換部111d、代数符号変換部111e)へ入力する。各符号変換部111a〜111eは第1符号化方式の符号を第2符号化方式の符号に変換する。
以上では、AMR→G.729Aへの変換について説明したが、G.729AからAMRへの逆変換時、その他の符号変換時にも適用可能である。又、以上では、代数ゲインに応じて代数符号にデータを埋め込む場合について説明したが、ピッチゲインに応じてピッチラグ符号にデータを埋め込むようにすることもできる。
(a)第1実施例
図16は本発明の第3のシステムにおける音声符号変換装置の構成図であり、埋め込みデータを適応的に抽出する場合の構成を示している。この実施例において、第1の符号化方式はG.729A、第2の符号化方式はAMR(7.95kbps)であり、符号変換装置はG.729Aの音声符号をAMRの音声符号に変換して伝送すると共に、G.729Aの音声符号に埋め込まれていたデータを抽出して音声符号と別々に伝送する。また、変換元のG.729Aの符号器(図示せず)は、代数ゲインが設定値より小さければ、代数符号に割り当てられている17ビット/サブフレームすべてに任意のデータを埋め込み、代数ゲインが設定値より大きければ本来の代数符号データを埋め込むものとする。
回線多重部203は入力する音声符号bst2(n)及びデータDcode を多重して多重回線204に送出する。
図17は本発明の第3のシステムにおける音声符号変換装置の別の構成図であり、埋め込みデータが代数符号に常に挿入されている場合である。この実施例において、第1の符号化方式はG.729A、第2の符号化方式はAMR(7.95kbps)であり、音声符号変換装置はG.729Aの音声符号をAMRの音声符号に変換して伝送すると共に、G.729Aの音声符号に埋め込まれていたデータを抽出して音声符号と別回線で伝送する。また、変換元のG.729Aの符号器は、代数符号のm3, s3の5ビット(図13参照)にデータDcodeを埋め込むものとする。
第3のシステムによれば、音声回線のみを持つ通信システムから音声回線と別にデータ回線を持つ通信システムへ音声符号フォーマットを変更することなく、音声通信とデータ通信を行うことが可能となる。
以上では、G.729A→AMRへの変換について説明したが、その他の符号変換時にも適用可能である。又、以上では、代数ゲインに応じて代数符号にデータを埋め込む場合について説明したが、ピッチゲインに応じてピッチラグ符号にデータを埋め込むようにすることもできる。
(付記1) 入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換方法において、第1音声符号に任意のデータが埋め込まれている場合、該第1音声符号を第2音声符号に変換すると共に、該第1音声符号から埋め込みデータを抽出し、前記変換により得られる第2音声符号に前記抽出したデータを埋め込む、ことを特徴とする音声符号変換方法。
(付記2)
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば第1音声符号より前記埋め込みデータを抽出する、ことを特徴とする付記1記載の音声符号変換方法。
(付記3)
前記抽出した埋め込みデータをデータ保持部に保存すると共に、該データ保持部より埋め込みデータを読み出して第2音声符号に埋め込む、ことを特徴とする付記2記載の音声符号変換方法。
(付記4)
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、送信元から受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば該第1音声符号より前記埋め込みデータを抽出し、該抽出した埋め込みデータを保持し、前記変換により得られた第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視し、満たされている場合、前記保持されているデータで該第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む、ことを特徴とする付記1記載の音声符号変換方法。
(付記5)
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換方法において、第1音声符号とデータを送信元から別々に受信し、第1音声符号を第2音声符号に変換し、該変換により得られた第2音声符号に前記データを埋め込んで送信先へ送信する、ことを特徴とする音声符号変換方法。
(付記6)
前記第1音声符号を音声回線より、前記データをデータ回線よりそれぞれ受信し、前記データが埋め込まれた第2音声符号を音声回線を介して送信先へ送信する、ことを特徴とする付記5記載の音声符号変換方法。
(付記7)
前記受信したデータをデータ保持部に保存し、前記第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視し、満たされている場合、前記データ保持部に保存されているデータで第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む、ことを特徴とする付記5記載の音声符号変換方法。
(付記8)
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換方法において、第1音声符号を受信し、該第1音声符号に任意のデータが埋め込まれている場合、該第1音声符号を第2音声符号に変換すると共に、該第1音声符号から埋め込みデータを抽出し、前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信する、ことを特徴とする音声符号変換方法。
(付記9)
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば該第1音声符号より前記埋め込みデータを抽出する、ことを特徴とする付記8記載の音声符号変換方法。
(付記10)
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換装置において、第1音声符号に任意のデータが埋め込まれている場合、第1音声符号を第2音声符号に変換する符号変換部、該第1音声符号から埋め込みデータを抽出する埋め込みデータ抽出部、前記変換により得られる第2音声符号に前記抽出したデータを埋め込むデータ埋め込み部、を備えたことを特徴とする音声符号変換装置。
(付記11)
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、前記埋め込みデータ抽出部は受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば第1音声符号より前記埋め込みデータを抽出する、ことを特徴とする付記10記載の音声符号変換装置。
(付記12)
更に、前記抽出した埋め込みデータを保存するデータ保持部を備え、前記埋め込みデータ抽出部は該データ保持部に前記抽出した埋め込みデータを保存すると共に、前記データ埋め込み部は該データ保持部より埋め込みデータを読み出して第2音声符号に埋め込む、ことを特徴とする付記11記載の音声符号変換装置。
(付記13)
前記埋め込みデータ抽出部は、前記第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視し、満たされている場合、前記データ保持部に保存されているデータで第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む、ことを特徴とする付記12記載の音声符号変換装置。
(付記14)
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換装置において、第1音声符号とデータを送信元から別々に受信する受信手段、第1音声符号を第2音声符号に変換する符号変換部、該変換により得られた第2音声符号に前記データを埋め込んで送信先へ送信するデータ埋め込み部、を有することを特徴とする音声符号変換装置。
(付記15)
音声符号変換装置は更に前記データを保存するデータ保持部を備え、データ埋め込み部は、前記第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視する手段、満たされている場合、前記データ保持部に保存されているデータで第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む手段、を有することを特徴とする付記14記載の音声符号変換装置。
(付記16)
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換装置において、送信元から受信した第1音声符号に任意のデータが埋め込まれている場合、該第1音声符号を第2音声符号に変換する符号変換部、該第1音声符号から埋め込みデータを抽出する埋め込みデータ抽出部、前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信する手段、を備えたことを特徴とする音声符号変換装置。
(付記17)
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、前記埋め込みデータ抽出部は、送信元から受信した1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば第1音声符号より前記埋め込みデータを抽出する、ことを特徴とする付記16記載の音声符号変換装置。
また、本発明によれば、変換元と変換先で適応的に埋め込み制御が行われる場合、各符号化方式の埋め込み制御方法の相違により、あるいは従来の音声符号変換部での変換誤差により生じるデータ抽出と埋め込みのタイミングの差をデータ保持部により吸収することで、第1符号化方式の音声符号に埋め込まれたデータを損なうことなく、同データを埋め込んだ第2符号化方式の音声符号に変換することができる。
また、本発明によれば、変換元のシステムより第1符号化方式の音声符号とデータが別回線で音声符号変換部に入力された場合、該音声符号変換部は符号変換後の第2符号化方式の音声符号に前記データを埋め込むことにより変換先へ音声回線のみで伝送することが可能となる。
また、本発明によれば、変換元のシステムより音声回線を介して任意のデータDTが埋め込まれた第1符号化方式の音声符号が入力された場合に、音声符号変換部は該音声符号から埋め込みデータを抽出してデータ回線に送出すると共に第1符号化方式の音声符号を第2符号化方式の音声符号に変換して音声回線に送出することにより、変換元の音声回線によって伝送された音声情報とデータ情報とを変換先の音声回線とデータ回線に分離して伝送することが可能となる。
今後、マルチメディア情報通信の普及を背景に、従来携帯電話システムと次世代携帯電話システム間の通信、またはVoIPと携帯電話等のモバイルシステム間の通信等、多様な通信システム間の通信において、データ埋め込み技術と音声符号変換技術を併用した技術の必要性は高いため、本発明の効果は大きい。
102 変換先の通信システム
103 音声符号変換装置
104 第1符号化方式の符号器
105 音声回線
106 音声回線
107 第2符号化方式の復号器
108 データ回線
Claims (4)
- 入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換方法において、
第1音声符号を受信し、
該第1音声符号に任意のデータが埋め込まれている場合、該第1音声符号を第2音声符号に変換すると共に、該第1音声符号から埋め込みデータを抽出し、
前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信する、
ことを特徴とする音声符号変換方法。 - 送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込み、
受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、
データ埋め込み条件が満たされていれば該第1音声符号より前記埋め込みデータを抽出する、
ことを特徴とする請求項1記載の音声符号変換方法。 - 入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換装置において、
第1音声符号を第2音声符号に変換する符号変換部、
送信元から受信した第1音声符号に任意のデータが埋め込まれている場合、該該第1音声符号から埋め込みデータを抽出する埋め込みデータ抽出部、
前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信する手段、
を備えたことを特徴とする音声符号変換装置。 - 送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、前記埋め込みデータ抽出部は、
送信元から受信した1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視する監視部、
データ埋め込み条件が満たされていれば第1音声符号より前記埋め込みデータを抽出する抽出部、
を有することを特徴とする請求項3記載の音声符号変換装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009029787A JP4900402B2 (ja) | 2009-02-12 | 2009-02-12 | 音声符号変換方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009029787A JP4900402B2 (ja) | 2009-02-12 | 2009-02-12 | 音声符号変換方法及び装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006199108A Division JP4347323B2 (ja) | 2006-07-21 | 2006-07-21 | 音声符号変換方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009104200A true JP2009104200A (ja) | 2009-05-14 |
JP4900402B2 JP4900402B2 (ja) | 2012-03-21 |
Family
ID=40705855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009029787A Expired - Fee Related JP4900402B2 (ja) | 2009-02-12 | 2009-02-12 | 音声符号変換方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4900402B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10224342A (ja) * | 1997-02-05 | 1998-08-21 | Nippon Telegr & Teleph Corp <Ntt> | 電子すかし作成方法および電子すかし読出し方法 |
JPH11205153A (ja) * | 1998-01-13 | 1999-07-30 | Kowa Co | 振動波の符号化方法及び復号化方法 |
JP2000115517A (ja) * | 1998-10-06 | 2000-04-21 | Canon Inc | 電子透かしを行なうことが可能な情報処理装置及び前記情報処理装置を接続可能な通信ネットワーク |
WO2000057399A1 (fr) * | 1999-03-19 | 2000-09-28 | Sony Corporation | Procede d'inclusion d'information additionnelle et dispositif a cet effet, et procede de decodage d'information additionnelle et dispositif a cet effet |
WO2001076253A1 (en) * | 2000-04-05 | 2001-10-11 | Sony United Kingdom Limited | Watermarked material processing |
-
2009
- 2009-02-12 JP JP2009029787A patent/JP4900402B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10224342A (ja) * | 1997-02-05 | 1998-08-21 | Nippon Telegr & Teleph Corp <Ntt> | 電子すかし作成方法および電子すかし読出し方法 |
JPH11205153A (ja) * | 1998-01-13 | 1999-07-30 | Kowa Co | 振動波の符号化方法及び復号化方法 |
JP2000115517A (ja) * | 1998-10-06 | 2000-04-21 | Canon Inc | 電子透かしを行なうことが可能な情報処理装置及び前記情報処理装置を接続可能な通信ネットワーク |
WO2000057399A1 (fr) * | 1999-03-19 | 2000-09-28 | Sony Corporation | Procede d'inclusion d'information additionnelle et dispositif a cet effet, et procede de decodage d'information additionnelle et dispositif a cet effet |
WO2001076253A1 (en) * | 2000-04-05 | 2001-10-11 | Sony United Kingdom Limited | Watermarked material processing |
Also Published As
Publication number | Publication date |
---|---|
JP4900402B2 (ja) | 2012-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8340973B2 (en) | Data embedding device and data extraction device | |
US7310596B2 (en) | Method and system for embedding and extracting data from encoded voice code | |
KR101513184B1 (ko) | 계층적 디코딩 구조에서의 디지털 오디오 신호의 송신 에러에 대한 은닉 | |
JP4263412B2 (ja) | 音声符号変換方法 | |
JP4583093B2 (ja) | ビット率拡張音声符号化及び復号化装置とその方法 | |
JP2020073986A (ja) | 音声符号化装置および方法 | |
JP2002202799A (ja) | 音声符号変換装置 | |
KR102302012B1 (ko) | 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램 | |
EP1333424B1 (en) | Embedding data in encoded voice and extracting data from encoded voice | |
WO2006009075A1 (ja) | 音声符号化装置および音声符号化方法 | |
JP5313967B2 (ja) | ビット率拡張音声符号化及び復号化装置とその方法 | |
JP4347323B2 (ja) | 音声符号変換方法及び装置 | |
JP2004069963A (ja) | 音声符号変換装置及び音声符号化装置 | |
JP4330303B2 (ja) | 音声符号変換方法及び装置 | |
JP4236675B2 (ja) | 音声符号変換方法および装置 | |
JP4900402B2 (ja) | 音声符号変換方法及び装置 | |
US20030158730A1 (en) | Method and apparatus for embedding data in and extracting data from voice code | |
JP6713424B2 (ja) | 音声復号装置、音声復号方法、プログラム、および記録媒体 | |
KR100542435B1 (ko) | 패킷 망에서의 프레임 손실 은닉 방법 및 장치 | |
JP4985743B2 (ja) | 音声符号変換方法 | |
JP2004053676A (ja) | 音声符号化装置および復号装置 | |
JP2004020675A (ja) | 音声符号化/復号化方法及び音声符号化/復号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111206 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111219 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150113 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |