JP2009104200A

JP2009104200A - 音声符号変換方法及び装置

Info

Publication number: JP2009104200A
Application number: JP2009029787A
Authority: JP
Inventors: Yoshiteru Tsuchinaga; 義照土永; Takashi Ota; 恭士大田; Masanao Suzuki; 政直鈴木; Masakiyo Tanaka; 正清田中
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-02-12
Filing date: 2009-02-12
Publication date: 2009-05-14
Anticipated expiration: 2022-02-04
Also published as: JP4900402B2

Abstract

【目的】音声回線のみを持つ通信システムと音声回線の外にデータ回線を持つ通信システム間で、音声通信とデータ通信の両方の通信ができるようにすることである。
【構成】入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換装置１０３において、第1音声符号を第2音声符号に変換し、送信元から受信した第1音声符号に任意のデータが埋め込まれている場合、該該第1音声符号から埋め込みデータを抽出し、第2音声符号と抽出したデータを別々に送信先に送信する
【選択図】図７

Description

本発明は音声符号変換方法及び音声符号変換装置に係わり、特に、インターネットなどのネットワークで用いられる音声符号化装置、又は自動車・携帯電話システム等で用いられる音声符号化装置によって符号化された音声符号を別の符号化方式の音声符号に変換する音声符号変換方法及び音声符号変換装置に関する。

近年、携帯電話システムの多様化や加入者の爆発的な増加、インターネットを使った音声通信(Voice over IP:VoIP)の普及等により、異なる通信システム間での通信量がますます増加すると考えられる。携帯電話やVoIPなどの音声通信システムでは、通信回線を有効利用するために音声を圧縮する音声符号化技術が用いられている。携帯電話では国によって、あるいはシステムによって異なる音声符号化技術が用いられており、W-CDMAでは世界共通の音声符号化方式としてAMR(Adaptive Multi-Rate;適応マルチレート)方式が採用されている。一方、VoIPでは音声符号化方式としてITU-T勧告G.729Aが広く用いられている。以下では、G.729Aの符号化方式及び復号方式を説明すると共に、G.729AとAMR方式の相違点について説明する。

G.729Aの符号化方式及び復号方式は次の通りである。
・符号器の構成及び動作
図18はITU-T勧告G.729A方式の符号器の構成図である。図18において、１フレーム当り所定サンプル数（＝Ｎ）の入力信号（音声信号）Ｘがフレーム単位でLPC分析部１に入力する。サンプリング速度を8kHz、1フレーム期間を10msecとすれば、1フレームは80サンプルである。LPC分析部１は、人間の声道を次式
H(z)=１／［１＋Σαi・ｚ^-i］（ｉ＝１〜P） (1)
で表される全極型フィルタと見なし、このフィルタの係数αi(i=1,・・・,p)を求める。ここで、Pはフィルタ次数である。一般に、電話帯域音声の場合はPとして10〜12の値が用いられる。LPC(線形予測)分析部１では、入力信号の80サンプルと先読み分の40サンプル及び過去の信号120サンプルの合計240サンプルを用いてLPC分析を行いLPC係数を求める。

パラメータ変換部２はLPC係数をLSP(線スペクトル対)パラメータに変換する。ここで、LSPパラメータは、LPC係数と相互に変換が可能な周波数領域のパラメータであり、量子化特性がLPC係数よりも優れていることから量子化はLSPの領域で行われる。LSP量子化部３は変換されたLSPパラメータを量子化してLSP符号とLSP逆量子化値を求める。LSP補間部４は、現フレームで求めたLSP逆量子化値と前フレームで求めたLSP逆量子化値によりLSP補間値を求める。すなわち、１フレームは5msecの第１、第２の２つのサブフレームに分割され、LPC分析部１は第２サブフレームのLPC係数を決定するが、第１サブフレームのLPC係数は決定しない。そこで、LSP補間部４は、現フレームで求めたLSP逆量子化値と前フレームで求めたLSP逆量子化値を用いて補間演算により第１サブフレームのLSP逆量子化値を予測する。

パラメータ逆変換部５はLSP逆量子化値とLSP補間値をそれぞれLPC係数に変換してLPC合成フィルタ６に設定する。この場合、LPC合成フィルタ６のフィルタ係数として、フレームの第１サブフレームではLSP補間値から変換されたLPC係数が用いられ、第２サブフレームではLSP逆量子化値から変換したLPC係数が用られる。尚、以降において1に添字があるもの、例えばlspi, li（ｎ）,・・・における1はアルファベットのエルである。
LSPパラメータlspi(i=1,・・・,p)はLSP量子化部３でスカラー量子化やベクトル量子化などにより量子化された後、量子化インデックス（LSP符号)が復号器側へ伝送される。

次に音源とゲインの探索処理を行なう。音源とゲインはサブフレーム単位で処理を行う。まず、音源信号をピッチ周期成分と雑音成分の２つに分け、ピッチ周期成分の量子化には過去の音源信号系列を格納した適応符号帳７を用い、雑音成分の量子化には代数符号帳や雑音符号帳などを用いる。以下では、音源符号帳として適応符号帳７と代数符号帳８の２つを使用する音声符号化方式について説明する。

適応符号帳７は、インデックス１〜Ｌに対応して順次１サンプル遅延したＮサンプル分の音源信号（周期性信号という）を出力するようになっている。Ｎは1サブフレームのサンプル数であり（N=40)、最新の(L+39)サンプルのピッチ周期成分を記憶するバッファを有している。インデックス１により第1〜第40サンプルよりなる周期性信号が特定され、インデックス２により第2〜第41サンプルよりなる周期性信号が特定され、・・・インデックスＬにより第Ｌ〜第L+39サンプルよりなる周期性信号が特定される。初期状態では適応符号帳７の中身は全ての振幅が0の信号が入っており、サブフレーム毎に時間的に一番古い信号をサブフレーム長だけ捨て、現サブフレームで求めた音源信号を適応符号帳７に格納するように動作する。

適応符号帳探索は、過去の音源信号を格納している適応符号帳７を用いて音源信号の周期性成分を同定する。すなわち、適応符号帳７から読み出す開始点を1サンプルづつ変えながら適応符号帳７内の過去の音源信号をサブフレーム長(=40サンプル)だけ取り出し、LPC合成フィルタ６に入力してピッチ合成信号β×A×PLを作成する。ただし、PLは適応符号帳７から取り出された遅れＬに相当する過去のピッチ周期性信号(適応符号ベクトル）、AはLPC合成フィルタ６のインパルス応答、βは適応符号帳ゲインである。

演算部９は入力音声Ｘとβ×A×PLの誤差電力ELを次式
EL＝｜X−β×A×PL｜² (2)
により求める。適応符号帳出力の重み付き合成出力をA×PLとし、A×PLの自己相関をＲpp、A×PLと入力信号Ｘの相互相関をＲxpとすると、式(2)の誤差電力が最小となるピッチラグＬoptにおける適応符号ベクトルPLは、次式
P_L=argmax（Rxp²／Rpp） (3)
により表わされる。すなわち、ピッチ合成信号A×PLと入力信号Ｘとの相互相関Ｒxpをピッチ合成信号の自己相関Ｒppで正規化した値が最も大きくなる読み出し開始点を最適な開始点とする。以上より、誤差電力評価部１０は(3)式を満足するピッチラグＬoptを求める。このとき、最適ピッチゲインβoptは次式
βopt＝Ｒxp／Ｒpp (4)
で与えられる。

次に代数符号帳８を用いて音源信号に含まれる雑音成分を量子化する。代数符号帳８は、振幅が1又は−1の複数のパルスから構成される。例として、サブフレーム長が40サンプルの場合のパルス位置を表1に示す。

代数符号帳８は、１サブフレームを構成するＮ(=40)サンプル点を複数のパルス系統グループ１〜４に分割し、各パルス系統グループから１つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で＋１あるいは−１のパルスを有するパルス性信号を雑音成分として順次出力する。この例では、基本的に1サブフレームあたり4本のパルスが配置される。

図1９は各パルス系統グループ１〜４に割り当てたサンプル点の説明図であり、
(1) パルス系統グループ１には8個のサンプル点 0,5,10,15,20,25,30,35が割り当てられ、
(2) パルス系統グループ２には8個のサンプル点1,6,11,16,21,26,31,36が割り当てられ、
(3) パルス系統グループ３には8個のサンプル点2,7,12,17,22,27,32,37が割り当てられ、
(4)パルス系統グループ４には16個のサンプル点3,4,8,9,13,14,18,19,23,24,28, 29,33,34,38,39が割り当てられている。

パルス系統グループ１〜３のサンプル点を表現するために３ビット、パルスの正負を表現するのに１ bit、トータル4 bit が必要であり、又、パルス系統グループ４のサンプル点を表現するために4 bit、パルスの正負を表現するのに1 bit、トータル5 bit 必要である。従って、表１のパルス配置を有する雑音符号帳８から出力するパルス性信号を特定するために17bitが必要になり、パルス性信号の種類は217(＝24×24×24×25)存在する。
表1に示すように各パルス系統のパルス位置は限定されており、代数符号帳探索では各パルス系統のパルス位置の組み合わせの中から、再生領域で入力音声との誤差電力が最も小さくなるパルスの組み合わせを決定する。すなわち、適応符号帳探索で求めた最適ピッチゲインβoptとし、適応符号帳出力PLに該ゲインβoptを乗算して加算器１１に入力する。これと同時に代数符号帳８より順次パルス性信号を加算器に１１に入力し、加算器出力をLPC合成フィルタ６に入力して得られる再生信号と入力信号Ｘとの差が最小となるパルス性信号を特定する。具体的には、まず入力信号Ｘから適応符号帳探索で求めた最適な適応符号帳出力ＰＬ、最適ピッチゲインβ_optから次式により代数符号帳探索のためのターゲットベクトルＸ′を生成する。

X′＝X−βopt×A×PL (5)
この例では、パルスの位置と振幅(正負)を前述のように17bitで表現するため、その組合わせは2の17乗通り存在する。ここで、k通り目の代数符号出力ベクトルをCｋとすると、代数符号帳探索では次式
Ｄ＝|Ｘ′−GC×A×Ｃk|² (6)
の評価関数誤差電力Ｄを最小とする符号ベクトルＣkを求める。GCは代数符号帳ゲインである。誤差電力評価部１０は代数符号帳の探索において、代数合成信号A×Ckと入力信号Ｘ′の相互相関値Rcxの２乗を代数合成信号の自己相関値Rccで正規化して得られる正規化相互相関値(Rcx*Rcx/Rcc)が最も大きくなるパルス位置と極性の組み合わせを探索する。

次にゲイン量子化について説明する。G.729A方式において代数符号帳ゲインは直接量子化されず、適応符号帳ゲインGa(＝βopt)と代数符号帳ゲインGcの補正係数γをベクトル量子化する。ここで、代数符号帳ゲインGCと補正係数γとの間には GC＝g′×γなる関係がある。ｇ′は過去の4サブフレームの対数利得から予測される現フレームの利得である。
ゲイン量子化器１２の図示しないゲイン量子化テーブルには、適応符号帳ゲインＧaと代数符号帳ゲインに対する補正係数γの組み合わせが128通り(＝２７)用意されている。ゲイン符号帳の探索方法は、(1)適応符号帳出力ベクトルと代数符号帳出力ベクトルに対して、ゲイン量子化テーブルの中から1組のテーブル値を取り出してゲイン可変部１３、１４に設定し、(2)ゲイン可変部１３、１４でそれぞれのベクトルにゲインＧa、Ｇcを乗じてLPC合成フィルタ６に入力し、(3)誤差電力評価部１０において入力信号Ｘとの誤差電力が最も小さくなる組み合わせを選択する、ことにより行なう。

以上より、回線符号化部１５は、(1)LSPの量子化インデックスであるLSP符号、(2)ピッチラグの量子化インデックスであるピッチラグ符号Ｌopt、(3) 代数符号帳インデックスである代数符号、(4) ゲインの量子化インデックスであるゲイン符号を多重して回線データを作成し、復号器に伝送する。

・復号器の構成及び動作
図２０はG.729A方式の復号器のブロック図である。符号器側から送られてきた回線データが回線復号部２１へ入力されてLSP符号、ピッチラグ符号、代数符号、ゲイン符号が出力される。復号器ではこれらの符号に基づいて音声データを復号する。復号器の動作については、復号器の機能が符号器に含まれているため一部重複するが、以下で簡単に説明する。
LSP逆量子化部２２はLSP符号が入力すると逆量子化し、LSP逆量子化値を出力する。LSP補間部２３は現フレームの第２サブフレームにおけるLSP逆量子化値と前フレームの第２サブフレームのLSP逆量子化値から現フレームの第１サブフレームのLSP逆量子化値を補間演算する。次に、パラメータ逆変換部２４はLSP補間値とLSP逆量子化値をそれぞれLPC合成フィルタ係数へ変換する。G.729A方式のLPC合成フィルタ２５は、最初の第１サブフレームではLSP補間値から変換されたLPC係数を用い、次の第２サブフレームではLSP逆量子化値から変換されたLPC係数を用いる。

適応符号帳２６はピッチラグ符号が指示する読み出し開始位置からサブフレーム長(=40サンプル)のピッチ信号を出力し、雑音符号帳２７は代数符号に対応する読出し位置からパルス位置とパルスの極性を出力する。また、ゲイン逆量子化部２８は入力されたゲイン符号より適応符号帳ゲイン逆量子化値と代数符号帳ゲイン逆量子化値を算出してゲイン可変部２９，３０に設定する。加算部３１は適応符号帳出力に適応符号帳ゲイン逆量子化値を乗じて得られる信号と、代数符号帳出力に代数符号帳ゲイン逆量子化値を乗じて得られる信号とを加え合わせて音源信号を作成し、この音源信号をLPC合成フィルタ２５に入力する。これにより、LPC合成フィルタ２５から再生音声を得ることができる。
尚、初期状態では復号器側の適応符号帳２６の内容は全て振幅0の信号が入っており、サブフレーム毎に時間的に一番古い信号をサブフレーム長だけ捨て、一方、現サブフレームで求めた音源信号を適応符号帳２６に格納するように動作する。つまり、符号器と復号器の適応符号帳２６は常に最新の同じ状態になるように維持される。
以上がG.729Aの符号化及び復号方式である。一方、AMR方式もG.729A方式と同様にCELP(Code Excited Linear Prediction;符号駆動線形予測符号化)と呼ばれる基本アルゴリズムを用いており、G.729A方式との違いは以下の通りである。

・G729A方式とAMR方式における符号化方法の相違
図２１はG.729A方式とAMRの主要諸元を比較した結果である。なお、AMRの符号化モードは全部で８種類あるが図２１の諸元は全ての符号化モードで共通である。G729A方式とAMR方式は、入力信号の標本化周波数(=8KHz)、サブフレーム長(=5msec)、線形予測次数(=10次)は同じであるが、フレーム長が異なり、１フレーム当りのサブフレーム数が異なっている。図２２に示すようにG.729A方式では１フレームが２つの第０〜第１サブフレームで構成され、AMR方式では１フレームが４つの第０〜第３サブフレームで構成されている。

図２３はG.729A方式とAMR方式におけるビット割り当ての比較結果を示すもので、AMR方式についてはG.729Aのビットレートに最も近い7.95kbit/sモードの場合を示した。図２３から明らかなように、1サブフレーム当りの代数符号帳のビット数(=17ビット)は同じであるが、その他の符号に必要なビット数の配分は全て異なっている。また、G.729A方式では適応符号帳ゲインと代数符号帳ゲインをまとめてベクトル量子化するため、ゲイン符号は１サブフレームにつき１種類であるが、AMR方式では１サブフレームにつき適応符号帳ゲインと代数符号帳ゲインの２種類が必要である。
以上説明した通り、インターネットで音声を通信するVoIPで広く用いられているG.729A方式と携帯電話システムで採用されたAMR方式とでは、基本アルゴリズムが共通であるが、フレーム長が異なり、しかも、符号を表現するビット数が異なっている。

・音声符号変換
インターネットと携帯電話の普及に伴い、インターネットユーザと携帯電話網のユーザによる音声通話の通信量が今後ますます増えてくると考えられる。このような異なる通信システム間の音声通信には、図２４に示すように中間に音声符号変換装置５３が必要になる。すなわち、音声符号変換装置５３において、一方の通信システム５1の符号器５２で第1音声符号化方式に従って符号化した音声符号を、他方の通信システム５４で使用されている第2音声符号化方式の音声符号に変換する。このように音声符号変換すれば、通信システム５４の第2音声符号化方式の復号器５５はユーザ1の音声を正しく再生することができる。

かかる符号変換技術としては、(1)各々のシステムの音声符号化方式で復号・符号を繰り返すタンデム接続方式や、（2）音声符号を、該音声符号を構成する各要素符号に分解し、各要素符号を個別に別の音声符号化方式の符号に変換する手法が提案されている（特願2001-75427参照）。図２５は後者の手法の説明図である。
端末71に組み込まれた符号化方式１の符号器71ａはユーザＡが発した音声信号を符号化方式１の音声符号に符号化して伝送路71ｂに送出する。音声符号変換部74は伝送路71ｂより入力した符号化方式１の音声符号を符号化方式２の音声符号に変換して伝送路72ｂに送出し、端末72の復号器72ａは、伝送路72ｂを介して入力する符号化方式２の音声符号から再生音声を復号し、ユーザＢはこの再生音声を聞くことができる。

符号化方式１は、(1)フレーム毎の線形予測分析により得られる線形予測係数(LPC係数)から求まるLSPパラメータを量子化することにより得られる第１のLＳＰ符号と、(2)周期性音源信号を出力するための適応符号帳の出力信号を特定する第１のピッチラグ符号と、(3)雑音性音源信号を出力するための代数符号帳(あるいは雑音符号帳)の出力信号を特定する第１の代数符号(雑音符号)と、(4)前記適応符号帳の出力信号の振幅を表すピッチゲインと前記代数符号帳の出力信号の振幅を表す代数符号帳ゲインとを量子化して得られる第１のゲイン符号とで音声信号を符号化する方式である。又、符号化方式２は、第１の音声符号化方式と異なる量子化方法により量子化して得られる(1)第２のLＳＰ符号、(2)第２のピッチラグ符号、(3)第２の代数符号（雑音符号）、(4)第２のゲイン符号とで音声信号を符号化する方式である。

音声符号変換部74は、符号分離部74ａ、LSP符号変換部74ｂ、ピッチラグ符号変換部74ｃ、代数符号変換部74ｄ、ゲイン符号変換部74ｅ、符号多重化部74ｆを有している。符号分離部74ａは、端末１の符号器71ａから伝送路71ｂを介して入力する符号化方式１の音声符号より、音声信号を再現するために必要な複数の成分の符号、すなわち、(1)LSP符号、(2)ピッチラグ符号、(3)代数符号、(4)ゲイン符号に分離し、それぞれを各符号変換部74ｂ〜74ｅに入力する。各符号変換部74ｂ〜74ｅは入力された音声符号化方式１によるLSP符号、ピッチラグ符号、代数符号、ゲイン符号をそれぞれ音声符号化方式２によるLSP符号、ピッチラグ符号、代数符号、ゲイン符号(ピッチゲイン符号、代数ゲイン符号)に変換し、符号多重化部74ｆは変換された音声符号化方式２の各符号を多重化して伝送路72ｂに送出する。

・データの埋め込み技術
近年コンピュータやインターネットが普及する中で、マルチメディアコンテンツ(静止画、動画、オーディオ、音声など)に特殊なデータを埋め込む「電子透かし技術」が注目を集めている。電子透かし技術とは、画像や動画、音声などのマルチメディアコンテンツ自体に、人間の知覚の特性を利用し、品質にはほとんど影響を与えずに別の任意の情報を埋め込む技術である。このような技術は、コンテンツに作成者や販売者などの名前を埋め込んで、不正コピーやデータの改ざんなどを防止するといった著作権保護を目的とすることが多いが、その他にもコンテンツに関する関連情報や付属情報を埋め込んで利用者のコンテンツ利用時における利便性を高めることを目的としても用いられる。

音声通信の分野でも、音声符号にこのような任意の情報を埋め込んで伝送する試みが行われている。図２６はデータ埋め込み技術を適用した音声通信システムの概念図である。符号器81は、入力音声SPを音声符号に符号化する際に、音声以外の任意のデータ系列DTを音声符号SCDに埋め込んで復号器８２へ伝送する。このときデータの埋め込みを音声符号のフォーマットを変えずに音声符号自体に行うため、音声符号の情報量の増加はない。復号器82は音声符号に埋め込まれた任意のデータ系列を読み出すとともに、音声符号に通常の復号器処理を施して再生音声SP′を出力する。このとき、再生音声SP′の品質にほとんど影響がないように埋め込みが行われるため、再生音声は埋め込みを行わない場合とほとんど差がない。以上の構成により、伝送量を増加させることなく音声とは別に任意のデータを伝送することが可能となる。また、データが埋め込まれていることを知らない第3者にとっては通常の音声通信としか認識されない。

データの埋め込み方法としては、さまざまな方法がある。特にCELP方式をベースとする高圧縮音声符号化方式では、符号化された音声符号に任意の情報を埋め込む方法がいくつか提案されている。例えば、代数符号帳および適応符号帳を用いて符号化を行う音声符号化方式において、ピッチラグ符号、代数符号に任意のデータを埋め込む技術が提案されている。この埋め込む技術は、ある規則に従って代数符号帳あるいは適応符号帳で量子化した符号（ピッチラグ符号、代数符号）に任意のデータ系列を埋め込むものである。
ピッチ音源に対応するピッチラグ符号と雑音音源に対応する代数符号に着目すると、これらのゲイン(ピッチゲイン、代数符号帳ゲイン)が各符号の寄与度を示すファクタとみなすことができ、ゲインが小さい場合は対応する符号の寄与度が小さくなる。そこで、ゲインを判定パラメータとして定義し、該ゲインがある閾値以下になる場合は対応する符号の寄与度が小さいと判断して、該符号のインデックスを任意のデータ系列で置き換える。これにより、置き換えの影響を小さく抑えながら、任意のデータを埋め込むことが可能となる。

今後、以上説明したようなデータ埋め込み技術を適用した通信システム間での通信が増大することが予想される。このとき音声符号変換装置はデータ埋め込みを施された音声符号を対象に符号変換を行う必要性がある。

・課題1
図２７に符号変換の原理図を示す。図２７は第1符号化方式の符号化データCode1を第2符号化方式の符号化データCode2に変換する場合を示している。符号変換部91は、第1符号化方式による符号化の際に使用される第1量子化テーブル92と第2符号化方式による符号化の際に使用される第2量子化テーブル93をそれぞれ備えている。また、第1量子化テーブル92と第2量子化テーブル93はテーブルサイズおよびテーブル値が異なるが、図２７では、説明の簡略化のためにテーブルサイズが2ビットと同じ場合を示す。

図２７において、符号変換部91に入力される第1符号化方式の符号化データCode1（図では"01"）は、第1量子化テーブル92のインデックス番号を表している。したがって、入力されたCode1に対応する第1量子化テーブル92の値（図では2.0）に最も誤差の小さい値を第2量子化テーブル93より選択し、それに対応する第2量子化テーブル93のインデックス番号（図では、"10"）を第2符号化方式の符号化データCode2として出力する。このように符号変換部91では、変換元、変換先の量子化テーブルを比較して誤差が最も小さくなるようにインデックス番号の対応付けを行っている。
ここで入力符号Code1のデータ系列が、前述した埋め込み方法によって埋め込まれた任意のデータ("01"とする)である場合を考える。符号変換部91は、前述と同様の変換処理を行うため、入力データ系列"01"を"10"へ変換する。しかし、これでは、埋め込まれたデータ系列が"01"→"10"と変化してしまい保持されなくなり、受信側の第2符号化方式の復号器は埋め込まれたデータ系列を正常に復元することができない。
以上のように、従来の符号変換方式では、入力符号に任意のデータ系列が埋め込まれている場合、該埋め込みデータ系列を保持できず、結果として符号変換装置において埋め込みデータが損なわれる問題があった。

・課題2
今後、第3世代携帯電話システムに代表されるように、音声通信に加え、データ通信等マルチメディア情報を対象とした通信システムの普及が予想される。このため、従来のような音声回線のみを持つ通信システムと、音声回線とその他のデータ回線を持つ通信システム間での通信が発生する。かかる場合、音声回線については従来の音声符号変換装置で両通信システム間の音声符号の相互変換を行うことによりユーザ間の音声通信が可能となる。しかし、データ回線については、一方がデータ回線を持たないため、ユーザ間のデータ通信は不可能である。以上のように音声回線のみを持つ通信システムと音声回線と他にデータ回線を持つ通信システム間では、ユーザ間で音声通信しか行うことが出来ない問題がある。

以上から、本発明の目的は、音声回線のみを持つ通信システムと音声回線の外にデータ回線を持つ通信システム間で、音声通信とデータ通信の両方の通信ができるようにすることである。

本発明は入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換方法および音声符号変換装置である。
・音声符号変換方法
本発明の音声符号変換方法は、第1音声符号を受信するステップ、該第1音声符号に任意のデータが埋め込まれている場合、該第1音声符号を第2音声符号に変換すると共に、該第1音声符号から埋め込みデータを抽出するステップ、前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信するステップを有している。

送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込み、音声符号変換部において、前記データ抽出ステップは、受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば該第1音声符号より前記埋め込みデータを抽出する。

・音声符号変換装置
本発明の音声符号変換装置は、第1音声符号を第2音声符号に変換する符号変換部、送信元から受信した第1音声符号に任意のデータが埋め込まれている場合、該該第1音声符号から埋め込みデータを抽出する埋め込みデータ抽出部、前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信する手段を有している。
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、前記埋め込みデータ抽出部は、送信元から受信した1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視する監視部、データ埋め込み条件が満たされていれば第1音声符号より前記埋め込みデータを抽出する抽出部を有している。

本発明によれば、変換元の音声回線によって伝送された音声情報とデータ情報とを、変換先の音声回線とデータ回線に分離して伝送することが可能となる。

本発明の第1のシステム概念図である。本発明の第1システムにおける音声符号変換装置の構成図である。本発明の第1システムにおける音声符号変換装置の別の概略構成図である。本発明の第２のシステム概念図である。本発明の第２システムにおける音声符号変換装置の概略構成図である。本発明の第２システムにおける音声符号変換装置の別の概略構成図である。本発明の第３のシステム概念図である。本発明の第３システムにおける音声符号変換装置の概略構成図である。本発明の第３システムにおける音声符号変換装置の別の概略構成図である。本発明の第1システムにおける音声符号変換装置の構成図である。本発明の第1システムにおける音声符号変換装置の別の実施例構成図である。本発明の第1システムにおける音声符号変換装置の更に別の実施例構成図である。代数符号の構成図である。本発明の第2のシステムにおける音声符号変換装置の実施例構成図である。本発明の第2のシステムにおける音声符号変換装置の別の実施例構成図である。本発明の第3のシステムにおける音声符号変換装置の実施例構成図である。本発明の第3のシステムにおける音声符号変換装置の別の実施例構成図である。 ITU-T勧告G.729A方式の符号器の構成図である。各パルス系統グループ１〜４に割り当てたサンプル点の説明図である。 G.729A方式の復号器のブロック図である。 G.729A方式とAMRの主要諸元の比較説明図である。 G.729A方式とAMRのフレーム構成説明図である。 G.729A方式とAMR方式におけるビット割り当ての比較説明図である。異なる通信システム間での音声符号変換説明図である。音声符号を別の音声符号化方式の符号に変換する従来技術の説明図である。データ埋め込み技術を適用した音声通信システムの概念図である。符号変換の原理図である。

(A)本発明の概略
(a)第1のシステム
図１は本発明の第1のシステム概念図であり、任意のデータDTを埋め込んだ第1符号化方式の音声符号ＳＰ1を、該データDTを埋め込んだ第2符号化方式の音声符号SP2へ変換する場合を示している。
第１符号化方式の通信システム101と第2符号化方式の通信システム102間に音声符号変換装置103が設けられている。通信システム101における第１符号化方式の符号器104は、入力音声SP１を符号化する際、音声データ以外の任意のデータ系列DTを音声符号SCD１に埋め込んで伝送路105に送出する。この際、符号器104によるデータの埋め込みは、音声符号のフォーマットを変えずに音声符号自体に行われるため、音声符号の情報量の増加はない。
音声符号変換装置103は、符号器104から第1音声符号化方式に従って符号化した音声符号SCD1を受信すれば、該音声符号を通信システム102で使用されている第2音声符号化方式の音声符号SCD2に変換して伝送路106に送出する。この際、音声符号変換装置103は埋め込みデータを損なわずに音声符号変換を行う。
通信システム102における第2符号化方式の復号器107は音声符号SCD2に埋め込まれた任意のデータ系列ＤＴを読み出して出力するとともに、音声符号に通常の復号器処理を施して再生音声SP２を出力する。このとき、再生音声SP２の品質にほとんど影響がないように埋め込みが行われるため、再生音声は埋め込みを行わない場合とほとんど差がない。

図２は本発明の第1システムにおける符号変換装置103の構成図である。変換元で第1符号化方式に従って符号化され、且つ、データDTが埋め込まれた音声符号SCD1は、フレーム単位で順番に符号変換部111と埋め込みデータ抽出部112に入力する。符号変換部111は図２５に示す従来と同様の構成を有し、第1符号化方式の音声符号SCD1を第２符号化方式の音声符号SCD２′に変換する。埋め込みデータ抽出部112は、音声符号SCD1に埋め込まれたデータDTを抽出してデータ埋め込み部113へ出力する。埋め込みデータ抽出部112によるデータ抽出方法は、第1符号化方式の復号器のデータ抽出方法と同じである。データ埋め込み部113は、符号変換部111で変換された第2符号化方式の音声符号SCD2′と音声符号SCD1から抽出したデータDTが入力すると、音声符号SCD2′へフレーム単位でデータDTの埋め込みを行い、音声符号SCD2として出力する。データ埋め込み部113によるデータ埋め込み方法は、第2符号化方式の符号器のデータ埋め込み方法と同じである。

図３は本発明の第1システムにおける符号変換装置103の別の構成図であり、図２の符号変換装置と同一部分には同一符号を付している。この符号変換装置103は、音声符号の性質に基いて適応的に音声符号SCD1から埋め込みデータDTを抽出すると共に音声符号SCD2′へデータDTの埋め込みを行う。たとえば、従来技術の項で説明したように、第1符号化方式の符号器は、ゲイン(ピッチゲイン、代数符号帳ゲイン)がある閾値以下であれば対応する符号(ピッチラグ符号、代数符号)の音声に対する寄与は小さいもの見なして、該符号のインデックスを任意のデータ系列DTで置き換える。このため、第1符号化方式の音声符号SCD1には、ゲインに応じてデータが埋め込まれている区間と埋め込まれていない区間が生じる。

埋め込み判定部121は、音声符号SCD1のゲインに基いてフレームあるいはサブフレーム単位で該符号に別のデータが埋め込まれているかどうかを判定し、データが埋め込まれていると判定した場合には、スイッチSW1を閉じて音声符号SCD1を埋め込みデータ抽出部112に入力する。埋め込みデータ抽出部112は音声符号SCD1よりデータを抽出し、FIFOバッファ構成のデータ保持部122に入力する。FIFOバッファはfirst-in first-outのバッファである。

埋め込み判定部123は、符号変換部111より出力された第2符号化方式の音声符号SCD2′のゲインに基いてフレームあるいはサブフレーム単位で該音声符号にデータを埋め込むかどうか判定し、データを埋め込むと判定すればスイッチSW2を閉じ、データ保持部122は保持しているデータを古いものからフレームあるいはサブフレーム単位でデータ埋め込み部113に入力する。この結果、データ埋め込み部113は、第2符号化方式の音声符号SCD2′にデータ保持部122から出力するデータDTをフレーム単位で埋め込み、音声符号SCD2として出力する。

各埋め込み判定の方法は、それぞれの符号化方式において使用されている方法と同じでよい。埋め込み判定部１２１と埋め込み判定部123の埋め込み判定方法が異なる場合、スイッチSW1,SW2の閉じるタイミングは必ずしも一致しない。さらに埋め込み判定方法が同じ場合でも、音声符号変換部111の変換誤差により変換前後で音声符号が異なるため、同様な現象が生じる。図3のデータ保持部122は上記スイッチングタイミングの差を吸収してデータの消失を防止する機能を有している。

すなわち、変換先が埋め込み対象区間でない場合には、データ保持部122により第1音声符号SCD1から抽出したデータDTを一旦保持する。逆に変換元が埋め込み対象区間でない場合には、データ保持部122に保持しているデータを取り出して第2音声符号SCD2′に埋め込む。さらに、変換元の埋め込み対象の符号データサイズが変換先よりも大きい場合は、埋め込み可能なデータ量のみを埋め込み、残りをデータ保持部122により一旦保持する。また、データ保持部122のデータ保持数が減少した場合、変換先のデータ埋め込みを一旦停止し、データ保持数を回復させる。以上により、スイッチングタイミングの差を吸収してデータの消失を防止する。

(b)第２のシステム
図４は本発明の第２のシステム概念図であり、変換元の通信システム101が音声回線105とデータ回線108を持ち、変換先の通信システム102が音声回線106のみ持つ場合を示している。図に示すように通信システム101における第１符号化方式の符号器104は、入力音声SP1を符号化して音声符号SCD1にし該音声符号を音声回線105に送出すると共に、音声符号以外の任意のデータ系列DTをデータ回線108に送出する。実際には音声符号SCDとデータ系列DTを時分割多重して多重回線に送出し、適当な箇所で分離して音声符号変換装置103に入力する。以上により、音声符号変換装置103には音声回線105から音声符号SCD1とデータ回線108からデータDTがそれぞれ入力する。音声符号変換装置103は第1符号化方式の音声符号SCD1を第２符号化方式の音声符号に変換するとともに該音声符号にデータDTを埋め込んで音声符号SCD2として変換先の通信システム102に音声回線106を介して伝送する。

通信システム102における第2符号化方式の復号器107は音声符号に埋め込まれた任意のデータ系列ＤＴを読み出して出力すると共に、音声符号に通常の復号器処理を施して再生音声SP2を出力する。このとき、再生音声SP2の品質にほとんど影響がないように埋め込みが行われるため、再生音声は埋め込みを行わない場合とほとんど差がない。
図5は本発明の第２システムにおける符号変換装置103の構成図であり、図2の第１システムにおける符号変換装置と同一部分には同一符号を付している。異なる点は、(1)データDTが音声符号SCD1とは別の経路で入力する点、(2)埋め込みデータ抽出部がなく、埋め込みデータDTを直接データ埋め込み部113へ入力する点である。

変換元である通信システムは第1符号化方式に従って符号化した音声符号SCD1とデータDTを時分割多重して多重回線200に送出し、回線分離部201はこれら音声符号SCD1とデータDTを分離して音声回線105、データ回線108を介して符号変換装置103に入力する。データ埋め込み部113は、符号変換部111で変換された第2符号化方式の音声符号SCD2′とデータDTが入力すると、音声符号SCD2′へフレーム単位でデータDTの埋め込みを行い、音声符号SCD2として音声回線106に送出する。

図６は本発明の第２システムにおける符号変換装置103の別の構成図であり、図３の第１システムにおける符号変換装置と同一部分には同一符号を付している。図3と異なる点は、(1)データDTが音声符号SCD1とは別の経路で入力する点、(2)埋め込み判定部、埋め込みデータ抽出部がなく、埋め込みデータDTを直接データ保持部122へ入力する点である。
変換元である通信システムは第1符号化方式に従って符号化した音声符号SCD1とデータDTを時分割多重して多重回線200に送出し、回線分離部201はこれら音声符号SCD1とデータDTを分離して音声回線105、データ回線108を介して符号変換装置103に入力する。

符号変換装置103は、音声符号の性質に基いて適応的に音声符号SCD′へデータDTの埋め込みを行う。すなわち、符号変換部111は第1符号化方式の音声符号SCD1を第２符号化方式の音声符号SCD２′に変換し、FIFOバッファ構成のデータ保持部122は入力されたデータDTを保持する。埋め込み判定部123は、符号変換部111より出力された第2符号化方式の音声符号SCD2′を基にフレームあるいはサブフレーム単位で該音声符号にデータを埋め込むかどうか判定し、データを埋め込むと判定すればスイッチSW2を閉じ、データ保持部122は保持しているデータを古いものからフレームあるいはサブフレーム単位でデータ埋め込み部113に入力する。この結果、データ埋め込み部113は、第2符号化方式の音声符号SCD2′にデータ保持部122から出力するデータDTをフレーム単位で埋め込み、音声符号SCD2として音声回線106に送出する。

(c)第３のシステム
図７は本発明の第３のシステム概念図であり、第2のシステムとは逆に、変換元の通信システム101が音声回線105のみを持ち、変換先の通信システム102が音声回線106とデータ回線109を持つ場合を示している。
通信システム101における第１符号化方式の符号器104は、入力音声SP1を符号化すると共に該符号に音声データ以外の任意のデータ系列DTを埋め込み、音声符号SCD1として音声回線105に送出する。音声符号変換装置103は、第1符号化方式の音声符号SCD1を第2符号化方式の音声符号SCD2に変換するとともに、音声符号SCD1に埋め込まれているデータDTを抽出し、これら音声符号SCD2、データDTを各回線106,109に送出する。通信システム102はデータ回線109を介して入力したデータを出力すると共に、復号器107で音声符号SCD2を復号して再生音声SP2を出力する。なお、実際には音声符号SCD2、データDTは適所で時分割多重されて通信システム102に伝送され、通信システムで分離される。

図8は本発明の第３システムにおける符号変換装置103の構成図であり、図2の第１システムにおける符号変換装置と同一部分には同一符号を付している。異なる点は、(1)データ埋め込み部がなく、符号変換部111から出力する第2符号化方式の音声符号SCD2に埋め込みデータ抽出部112で抽出したデータDTを埋め込まない点、(2)データDTが第2符号化方式の音声符号SCD２とは別々に送出される点である。
変換元で第1符号化方式に従って符号化され、且つ、データDTが埋め込まれた音声符号SCD1は、フレーム単位で順番に符号変換部111と埋め込みデータ抽出部112に入力する。符号変換部111は第1符号化方式の音声符号SCD1を第２符号化方式の音声符号SCD２に変換して音声回線106に送出する。また、埋め込みデータ抽出部112は、音声符号SCD1に埋め込まれたデータDTを抽出してデータ回線109に送出する。回線多重部203は音声回線106 データ回線109を介して入力する音声符号SCD2及びデータDTを時分割多重して多重回線204に送出する。

図９は本発明の第３システムにおける符号変換装置103の別の構成図であり、図３の第１システムにおける符号変換装置と同一部分には同一符号を付している。図3と異なる点は、(1)データ保持部、埋め込み判定部、データ埋め込み部がない点、(2)符号変換部111から出力する音声符号SCD2にデータDTを埋め込まない点、(3)データDTが音声符号SCD２とは別々に送出される点である。

送信側の通信システムの符号器は,ゲイン(ピッチゲイン、代数符号帳ゲイン)がある閾値以下の場合は対応する符号(ピッチラグ符号、代数符号)の音声に対する寄与は小さいもの見なして、該符号のインデックスを任意のデータ系列DTで置き換える。この結果、第1符号化方式の音声符号SCD1には、データが埋め込まれている区間と埋め込まれていない区間が生じる。埋め込み判定部121は、音声符号SCD1から求まるゲインを基にフレームあるいはサブフレーム単位で該符号に別のデータが埋め込まれているかどうかを判定し、データが埋め込まれていると判定した場合には、スイッチSW1を閉じて音声符号SCD1を埋め込みデータ抽出部112に入力する。埋め込みデータ抽出部112は音声符号SCD1より埋め込みデータを抽出し、データ回線109に送出する。又、以上と並行して音声符号変換部111は第1符号化方式の音声符号SCD1を第2符号化方式の音声符号SCD2に変換して音声回線106に送出する。回線多重部203は音声回線106、データ回線109を介して入力する音声符号SCD2及びデータDTを時分割多重して多重回線204に送出する。

（B）第1システムにおける実施例
(a)第1実施例
図10は本発明の第1システムにおける符号変換装置の構成図であり、埋め込み制御する場合の構成を示している。
この第1実施例では、任意のデータが埋め込まれているAMRの音声符号を、埋め込みデータを損なうことなくG.729Aの音声符号に変換する場合の例を示している。さらに、第1実施例では、変換元のAMRの符号器は、代数符号帳ゲインが設定値より小さければ、代数符号に割り当てられている17ビット／サブフレームすべてに任意のデータを埋め込み、代数符号帳ゲインが設定値より大きければ本来の代数符号データを埋め込むものとする。また、変換先のG.729Aの符号器も同様に代数符号帳ゲインに応じて代数符号に割り当てられている17bitすべてにデータを埋め込むものとする。

図10において、第mフレームのAMRの符号器出力である回線データbst1(m)が端子1を通して符号分離部114に入力すると、該符号分離部114は、回線データbst1(m)をAMRの要素符号(LSP符号1、ピッチラグ符号1、ピッチゲイン符号1、代数符号1、代数ゲイン符号1)に分離する。そして、これら要素符号を符号変換部111における各符号変換部(LSP符号変換部111a、ピッチラグ符号変換部111b、ピッチゲイン符号変換部111c、代数ゲイン符号変換部111d、代数符号変換部111e)へ入力する。各符号変換部111a〜111eは第１符号化方式の符号を第2符号化方式の符号に変換するが、その動作については従来技術と同じであるためここでは説明を省略する。以下では、データ埋め込みに関連した部分のみを説明する。

埋め込み判定部121は、代数ゲイン符号1から代数ゲイン逆量子化値(代数ゲイン)を求め、そのゲイン値に応じてスイッチSW1の切り替えを行う。すなわち、AMRの代数ゲイン値がある閾値よりも小さい場合は、埋め込みデータありと判定してスイッチSW1を閉じ、代数符号1を埋め込みデータ抽出部112に入力する。埋め込みデータ抽出部112は、代数符号に含まれる埋め込みデータDcodeを抽出してデータ保持部122へ出力する。本実施例では、AMRの代数符号(１７ビット／サブフレーム)すべてにデータが埋め込まれているので、１７bitのデータ系列を埋め込みデータDcodeとしてそのまま切り出す。FIFO構成のデータ保持部122は、入力されたデータ系列を古い順に格納して保持する。

一方、埋め込み判定部123は、代数ゲイン符号変換部111dより入力された変換後のG.729Aの代数ゲイン符号2から代数ゲイン逆量子化値を求め、そのゲイン値に応じてスイッチSW2の切り替えを行う。すなわち、G.729Aの代数ゲイン値がある閾値よりも小さい場合は、データを埋め込むと判断してスイッチSW2を閉じ、データ保持部122からデータをデータ埋め込み部113に入力する。本実施例では、G.729Aの代数符号(１７ビット／サブフレーム)すべてにデータを埋め込むため、データ保持部122は１７ビットのデータをデータ埋め込み部113に入力する。データ埋め込み部113は、代数符号2に割り当てられている１７ビットに入力されたデータを埋め込む。すなわち、G.729Aの代数符号(１７ビット)すべてをデータ系列(１７ビット)で置き換える。

データを埋め込まれた代数符号2は、その他の要素符号と共に符号多重部115で多重化され、埋め込みデータを含んだG.729Aの第ｎフレームの回線データbst2(n)として、端子2より出力される。
この第1実施例によれば、AMRの音声符号bst1(m)における代数符号に任意のデータが埋め込まれている場合、埋め込みデータを損なうことなく、該データをG.729Aの代数符号に埋め込んだ音声符号bst2(n)へと変換することができる。これによりAMRとG.729A間で音声フォーマットを変更することなく、音声通信に加えデータ通信を行うことが可能となる。
以上では、AMR→G.729Aへの変換について説明したが、第1実施例のデータ抽出、データ埋め込みに関連する部分の構成は、G.729AからAMRへの逆変換時にも適用可能である。

(b)第2実施例
図11は本発明の第1システムにおける符号変換装置の別の構成図であり、埋め込み制御する場合の構成を示しており、図10の第1実施例と同一部分には同一符号を付している。異なる点は、第1実施例では、代数ゲインが設定値より小さければ、代数符号に割り当てられている17ビット／サブフレームすべてに任意のデータを埋め込むものとしているが、第2実施例では、ピッチゲインが設定値より小さければ、ピッチラグ符号に割り当てられている8ビットあるいは５ビット／サブフレームすべてに任意のデータを埋め込むものとする点である。

埋め込み判定部121は、ピッチゲイン符号1からピッチゲイン逆量子化値(ピッチゲイン)を求め、そのゲイン値に応じてスイッチSW1の切り替えを行う。すなわち、AMRのピッチゲイン値がある閾値よりも小さい場合は、埋め込みデータありと判定してスイッチSW1を閉じ、ピッチラグ符号1を埋め込みデータ抽出部112に入力する。埋め込みデータ抽出部112は、ピッチラグ符号に含まれる埋め込みデータDcodeを抽出してデータ保持部122へ出力する。本実施例では、AMRのピッチラグ符号(8ビット又は６ビット／サブフレーム)すべてにデータが埋め込まれているので、8ビット又は６ビットのデータ系列を埋め込みデータDcodeとしてそのまま切り出す。FIFO構成のデータ保持部122は、入力されたデータ系列を古い順に格納して保持する。

一方、埋め込み判定部123は、ピッチゲイン符号変換部111cより入力された変換後のG.729Aのピッチゲイン符号2からピッチゲイン逆量子化値を求め、そのゲイン値に応じてスイッチSW2の切り替えを行う。すなわち、G.729Aのピッチゲイン値がある閾値よりも小さい場合は、データを埋め込むと判断してスイッチSW2を閉じ、データ保持部122からデータをデータ埋め込み部113に入力する。本実施例では、G.729Aのピッチラグ符号(8ビット又は５ビット／サブフレーム)すべてにデータを埋め込むため、データ保持部122はサブフレームに応じて8ビット又は５ビットのデータをデータ埋め込み部113に入力する。データ埋め込み部113は、ピッチラグ符号2に割り当てられている8ビット又は５ビットに入力されたデータを埋め込む。

データを埋め込まれたピッチラグ符号2は、その他の要素符号と共に符号多重部115で多重化され、埋め込みデータを含んだG.729Aの第ｎフレームの回線データbst2(n)として、端子2より出力される。
第2実施例によれば、AMRの音声符号bst1(ｍ)のピッチラグ符号に任意のデータが埋め込まれている場合、埋め込みデータを損なうことなく、該データをG.729Aのピッチラグ符号に埋め込んだ音声符号bst2(n)へと変換することができる。これによりAMR(7.95kbps)とG.729A間で音声フォーマットを変更することなく、音声通信に加えデータ通信を行うことが可能となる。
以上では、AMR→G.729Aへの変換について説明したが、データ抽出、データ埋め込みに関連する部分の構成は、G.729AからAMRへの逆変換時やその他の符号変換時にも適用可能である。

（ｃ）第3実施例
図12は本発明の第1システムにおける符号変換装置の別の構成図であり、埋め込み制御を行なわない場合の構成を示している。この第３実施例では、AMRの音声符号を埋め込みデータを損なうことなく、G.729Aの音声符号に変換する場合の例を示している。AMRの音声符号は図２１〜図２３を参照すると1フレーム20msecであり、5msec毎の4つのサブフレームを備え、各サブフレーム毎に１７ビットの代数符号を有している。一方、G.729Aの音声符号は1フレーム10msecであり、5msec毎の２つのサブフレームを備え、各サブフレーム毎に１７ビットの代数符号を有している。AMR,G729Aともに、この17ビットにより4つのパルス系統(表1参照)のパルス位置m0〜m3と極性s0〜s3が表現される。パルス位置m0〜m3と極性s0〜s3に対するビット割当は図13に示す通りである。

第3実施例において、変換元のAMRの符号器は例えば第4パス系統のパルス位置及び極性を示すm3,s3の5ビットにデータDcodeを埋め込む。埋め込みデータ抽出部112は常時、代数符号１に含まれる埋め込みデータDcodeを抽出してデータ埋め込み部113に入力する。データ埋め込み部113は、代数符号2に割り当てられている１７ビットのうちm3,s3の5ビットに入力されたデータDcodeを埋め込む。データを埋め込まれた代数符号2は、その他の要素符号と共に符号多重部115で多重化され、埋め込みデータを含んだG.729Aの第ｎフレームの回線データbst2(n)として、端子2より出力される。

以上第1のシステムによれば、変換元の第１符号化方式の音声符号SCD1から埋め込みデータDTを一旦抽出して、符号変換後の第２符号化方式の音声符号SCD2′に該データDTを再度埋め込むことにより、音声符号SCD1に埋め込まれたデータDTを損なうことなく、同データを埋め込んだ音声符号SCD2に変換することができる。
また、第1のシステムによれば、変換元と変換先で適応的に埋め込み制御が行われる場合、各符号化方式の埋め込み制御方法の相違により、あるいは従来の音声符号変換部での変換誤差により生じるデータ抽出と埋め込みのタイミングの差をデータ保持部により吸収することで、音声符号SCD1に埋め込まれたデータを損なうことなく、同データを埋め込んだ音声符号SCD2に変換することができる。
また、第1のシステムによれば、データ埋め込み技術を適用した音声回線を持つ音声通信システム間において、埋め込まれたデータを損なうことなく、しかも、音声符号フォーマットを変更することなく音声回線を介して音声とデータの両方の通信を行うことが可能となる。

（C）本発明の第2のシステムの実施例
(a)第1実施例
図14は本発明の第2のシステムにおける音声符号変換装置の構成図であり、音声符号bst1(m)にデータDcodeが埋め込まれておらず、該データが音声符号と別回線で音声符号変換装置に入力される点が第1のシステムの実施例と異なる。回線多重部201は多重回線200を介して受信した多重データより音声符号bst1(m)とデータDcodeを分離し、端子1より音声符号bst1(m)を符号分離部114に入力し、端子3からデータDcodeを直接データ保持部122に入力する。
符号分離部114は、回線データbst1(m)をAMRの要素符号(LSP符号1、ピッチラグ符号1、ピッチゲイン符号1、代数符号1、代数ゲイン符号1)に分離し、これら要素符号を符号変換部111における各符号変換部(LSP符号変換部111a、ピッチラグ符号変換部111b、ピッチゲイン符号変換部111c、代数ゲイン符号変換部111d、代数符号変換部111e)へ入力する。各符号変換部111a〜111eは第１符号化方式の符号を第2符号化方式の符号に変換する。

埋め込み判定部123は、代数ゲイン符号変換部111dより入力された変換後のG.729Aの代数ゲイン符号2から代数ゲイン逆量子化値を求め、そのゲイン値に応じてスイッチSW2の切り替えを行う。すなわち、G.729Aの代数ゲイン値がある閾値よりも小さい場合は、データを埋め込むと判断してスイッチSW2を閉じ、データ保持部122からデータをデータ埋め込み部113に入力する。データ埋め込み部113は、代数符号2に割り当てられている１７ビットに入力されたデータを埋め込む。データを埋め込まれた代数符号2は、その他の要素符号と共に符号多重部115で多重化され、埋め込みデータを含んだG.729Aの第ｎフレームの回線データbst2(n)として、端子2より出力される。

この実施例によれば、AMR側の通信システムにおいて、音声回線に加えデータ回線を持つ場合に、音声回線とデータ回線を介して別々に入力された音声符号bst1(m)とデータDcodeを、データを埋め込んだ音声符号bst2(n)に変換し、音声回線のみを持つG.729A側の通信システムへ伝送することができる。これにより、音声通信とデータ通信が可能な通信システム例えば第3世代携帯電話システム(音声符号化方式としてAMRが採用)から、音声回線のみを持つ通信システム例えば音声通信のみを行う従来の第2世代の携帯電話システム(G.729A)へ音声通信に加えてデータ通信を行うことが可能となる。

(a)第２実施例
図1５は本発明の第2のシステムにおける音声符号変換装置の別の構成図であり、埋め込み制御を行なわない場合の構成を示している。この第２実施例では、音声符号bst1(m)にデータDcodeが埋め込まれておらず、該データが音声符号と別回線で音声符号変換装置に入力される。又、G729Aの代数符号は、17ビットにより4つのパルス系統の各パルス位置m0〜m3と極性s0〜s3を表現するから、第2実施例では例えば第4パス系統のパルス位置及び極性を示すm3, s3の5ビットにデータDcodeを埋め込むものとする。
回線多重部201は多重回線200を介して受信した多重データより音声符号bst1(m)とデータDcodeを分離し、端子1より音声符号bst1(m)を符号分離部114に入力し、端子3からデータDcodeを直接データ埋め込み部113に入力する。
符号分離部114は、回線データbst1(m)をAMRの要素符号(LSP符号1、ピッチラグ符号1、ピッチゲイン符号1、代数符号1、代数ゲイン符号1)に分離し、これら要素符号を符号変換部111における各符号変換部(LSP符号変換部111a、ピッチラグ符号変換部111b、ピッチゲイン符号変換部111c、代数ゲイン符号変換部111d、代数符号変換部111e)へ入力する。各符号変換部111a〜111eは第１符号化方式の符号を第2符号化方式の符号に変換する。

データ埋め込み部113は、代数符号2に割り当てられている１７ビットのうちm3,s3の5ビットに入力されたデータDcodeを埋め込む。データを埋め込まれた代数符号2は、その他の要素符号と共に符号多重部115で多重化され、埋め込みデータを含んだG.729Aの第ｎフレームの回線データbst2(n)として、端子2より出力される。

以上第2のシステムによれば、音声回線と別にデータ回線を持つ通信システムから音声回線のみを持つ通信システムへ音声符号フォーマットを変更することなく、音声通信とデータ通信を行うことが可能となる。
以上では、AMR→G.729Aへの変換について説明したが、G.729AからAMRへの逆変換時、その他の符号変換時にも適用可能である。又、以上では、代数ゲインに応じて代数符号にデータを埋め込む場合について説明したが、ピッチゲインに応じてピッチラグ符号にデータを埋め込むようにすることもできる。

（D）本発明の第3のシステム
(a)第1実施例
図16は本発明の第3のシステムにおける音声符号変換装置の構成図であり、埋め込みデータを適応的に抽出する場合の構成を示している。この実施例において、第1の符号化方式はG.729A、第2の符号化方式はAMR(7.95kbps)であり、符号変換装置はG.729Aの音声符号をAMRの音声符号に変換して伝送すると共に、G.729Aの音声符号に埋め込まれていたデータを抽出して音声符号と別々に伝送する。また、変換元のG.729Aの符号器（図示せず)は、代数ゲインが設定値より小さければ、代数符号に割り当てられている17ビット／サブフレームすべてに任意のデータを埋め込み、代数ゲインが設定値より大きければ本来の代数符号データを埋め込むものとする。

第mフレームのG.729Aの符号器出力である回線データbst1(m)が端子1を通して符号分離部114に入力すると、該符号分離部114は、回線データbst1(m)をG.729Aの要素符号(LSP符号1、ピッチラグ符号1、ピッチゲイン符号1、代数符号1、代数ゲイン符号1)に分離する。そして、これら要素符号を符号変換部111における各符号変換部(LSP符号変換部111a、ピッチラグ符号変換部111b、ピッチゲイン符号変換部111c、代数ゲイン符号変換部111d、代数符号変換部111e)へ入力する。各符号変換部111a〜111eはG.729Aの符号をAMRの符号に変換し、符号多重部115は各AMRの符号を多重して音声符号bst2(n)として回線多重部203に入力する。

以上と並行して、埋め込み判定部121は、代数ゲイン符号1から代数ゲイン逆量子化値(代数ゲイン)を求め、そのゲイン値に応じてスイッチSW1の切り替えを行う。すなわち、G.729Aの代数ゲイン値がある閾値よりも小さい場合は、埋め込みデータありと判定してスイッチSW1を閉じ、代数符号1を埋め込みデータ抽出部112に入力する。埋め込みデータ抽出部112は、代数符号に含まれる埋め込みデータDcodeを抽出して回線多重部203に入力する。G.729Aの代数符号(１７ビット／サブフレーム)すべてにデータが埋め込まれているので、１７bitのデータ系列を埋め込みデータDcodeとしてそのまま切り出して回線多重部203に入力する。
回線多重部203は入力する音声符号bst2(n)及びデータDcode を多重して多重回線204に送出する。

(b)第2実施例
図17は本発明の第3のシステムにおける音声符号変換装置の別の構成図であり、埋め込みデータが代数符号に常に挿入されている場合である。この実施例において、第1の符号化方式はG.729A、第2の符号化方式はAMR(7.95kbps)であり、音声符号変換装置はG.729Aの音声符号をAMRの音声符号に変換して伝送すると共に、G.729Aの音声符号に埋め込まれていたデータを抽出して音声符号と別回線で伝送する。また、変換元のG.729Aの符号器は、代数符号のm3, s3の5ビット(図13参照)にデータDcodeを埋め込むものとする。

以上と並行して、埋め込みデータ抽出部112は、代数符号に含まれる埋め込みデータDcodeを抽出して回線多重部203に入力する。G.729Aの代数符号m3,s3ビット位置にデータが埋め込まれているので、該データを切り取って埋め込みデータDcodeとして回線多重部203に入力する。回線多重部203は入力する音声符号bst2(n)及びデータDcode を多重して多重回線204に送出する。
第3のシステムによれば、音声回線のみを持つ通信システムから音声回線と別にデータ回線を持つ通信システムへ音声符号フォーマットを変更することなく、音声通信とデータ通信を行うことが可能となる。
以上では、G.729A→AMRへの変換について説明したが、その他の符号変換時にも適用可能である。又、以上では、代数ゲインに応じて代数符号にデータを埋め込む場合について説明したが、ピッチゲインに応じてピッチラグ符号にデータを埋め込むようにすることもできる。

・付記
（付記１）入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換方法において、第1音声符号に任意のデータが埋め込まれている場合、該第1音声符号を第2音声符号に変換すると共に、該第1音声符号から埋め込みデータを抽出し、前記変換により得られる第2音声符号に前記抽出したデータを埋め込む、ことを特徴とする音声符号変換方法。
（付記２）
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば第1音声符号より前記埋め込みデータを抽出する、ことを特徴とする付記1記載の音声符号変換方法。
（付記３）
前記抽出した埋め込みデータをデータ保持部に保存すると共に、該データ保持部より埋め込みデータを読み出して第2音声符号に埋め込む、ことを特徴とする付記２記載の音声符号変換方法。
（付記４）
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、送信元から受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば該第1音声符号より前記埋め込みデータを抽出し、該抽出した埋め込みデータを保持し、前記変換により得られた第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視し、満たされている場合、前記保持されているデータで該第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む、ことを特徴とする付記１記載の音声符号変換方法。
（付記5）
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換方法において、第1音声符号とデータを送信元から別々に受信し、第1音声符号を第2音声符号に変換し、該変換により得られた第2音声符号に前記データを埋め込んで送信先へ送信する、ことを特徴とする音声符号変換方法。
（付記６）
前記第1音声符号を音声回線より、前記データをデータ回線よりそれぞれ受信し、前記データが埋め込まれた第2音声符号を音声回線を介して送信先へ送信する、ことを特徴とする付記５記載の音声符号変換方法。
（付記７）
前記受信したデータをデータ保持部に保存し、前記第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視し、満たされている場合、前記データ保持部に保存されているデータで第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む、ことを特徴とする付記５記載の音声符号変換方法。
（付記８）
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換方法において、第1音声符号を受信し、該第1音声符号に任意のデータが埋め込まれている場合、該第1音声符号を第2音声符号に変換すると共に、該第1音声符号から埋め込みデータを抽出し、前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信する、ことを特徴とする音声符号変換方法。
（付記９）
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば該第1音声符号より前記埋め込みデータを抽出する、ことを特徴とする付記8記載の音声符号変換方法。
（付記１０）
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換装置において、第1音声符号に任意のデータが埋め込まれている場合、第1音声符号を第2音声符号に変換する符号変換部、該第1音声符号から埋め込みデータを抽出する埋め込みデータ抽出部、前記変換により得られる第2音声符号に前記抽出したデータを埋め込むデータ埋め込み部、を備えたことを特徴とする音声符号変換装置。
（付記１１）
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、前記埋め込みデータ抽出部は受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば第1音声符号より前記埋め込みデータを抽出する、ことを特徴とする付記1０記載の音声符号変換装置。
（付記１２）
更に、前記抽出した埋め込みデータを保存するデータ保持部を備え、前記埋め込みデータ抽出部は該データ保持部に前記抽出した埋め込みデータを保存すると共に、前記データ埋め込み部は該データ保持部より埋め込みデータを読み出して第2音声符号に埋め込む、ことを特徴とする付記１１記載の音声符号変換装置。
（付記１３）
前記埋め込みデータ抽出部は、前記第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視し、満たされている場合、前記データ保持部に保存されているデータで第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む、ことを特徴とする付記１２記載の音声符号変換装置。
（付記１４）
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換装置において、第1音声符号とデータを送信元から別々に受信する受信手段、第1音声符号を第2音声符号に変換する符号変換部、該変換により得られた第2音声符号に前記データを埋め込んで送信先へ送信するデータ埋め込み部、を有することを特徴とする音声符号変換装置。
（付記１５）
音声符号変換装置は更に前記データを保存するデータ保持部を備え、データ埋め込み部は、前記第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視する手段、満たされている場合、前記データ保持部に保存されているデータで第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む手段、を有することを特徴とする付記１４記載の音声符号変換装置。
（付記１６）
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換装置において、送信元から受信した第1音声符号に任意のデータが埋め込まれている場合、該第1音声符号を第2音声符号に変換する符号変換部、該第1音声符号から埋め込みデータを抽出する埋め込みデータ抽出部、前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信する手段、を備えたことを特徴とする音声符号変換装置。
（付記１７）
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、前記埋め込みデータ抽出部は、送信元から受信した1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば第1音声符号より前記埋め込みデータを抽出する、ことを特徴とする付記１６記載の音声符号変換装置。

以上、本発明によれば、変換元の第１符号化方式の音声符号から埋め込みデータを一旦抽出して、符号変換後の第２符号化方式の音声符号に該データを再度埋め込むことにより、第１符号化方式の音声符号に埋め込まれたデータを損なうことなく、同データを埋め込んだ第２符号化方式の音声符号に変換することができる。
また、本発明によれば、変換元と変換先で適応的に埋め込み制御が行われる場合、各符号化方式の埋め込み制御方法の相違により、あるいは従来の音声符号変換部での変換誤差により生じるデータ抽出と埋め込みのタイミングの差をデータ保持部により吸収することで、第１符号化方式の音声符号に埋め込まれたデータを損なうことなく、同データを埋め込んだ第２符号化方式の音声符号に変換することができる。

また、本発明によれば、データ埋め込み技術を適用した音声回線を持つ音声通信システム間において、埋め込まれたデータを損なうことなく、しかも、音声符号フォーマットを変更することなく音声回線を介して音声とデータの両方の通信を行うことが可能となる。
また、本発明によれば、変換元のシステムより第１符号化方式の音声符号とデータが別回線で音声符号変換部に入力された場合、該音声符号変換部は符号変換後の第２符号化方式の音声符号に前記データを埋め込むことにより変換先へ音声回線のみで伝送することが可能となる。
また、本発明によれば、変換元のシステムより音声回線を介して任意のデータDTが埋め込まれた第１符号化方式の音声符号が入力された場合に、音声符号変換部は該音声符号から埋め込みデータを抽出してデータ回線に送出すると共に第１符号化方式の音声符号を第２符号化方式の音声符号に変換して音声回線に送出することにより、変換元の音声回線によって伝送された音声情報とデータ情報とを変換先の音声回線とデータ回線に分離して伝送することが可能となる。

また、本発明によれば、音声回線のみを持つ通信システムと音声回線と別にデータ回線を持つ通信システム間において、音声符号フォーマットを変更することなく、音声通信とデータ通信を行うことが可能となる。
今後、マルチメディア情報通信の普及を背景に、従来携帯電話システムと次世代携帯電話システム間の通信、またはVoIPと携帯電話等のモバイルシステム間の通信等、多様な通信システム間の通信において、データ埋め込み技術と音声符号変換技術を併用した技術の必要性は高いため、本発明の効果は大きい。

１０１変換元の通信システム
１０２変換先の通信システム
１０３音声符号変換装置
１０４第１符号化方式の符号器
１０５音声回線
１０６音声回線
１０７第2符号化方式の復号器
１０８データ回線

Claims

入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換方法において、
第1音声符号を受信し、
該第1音声符号に任意のデータが埋め込まれている場合、該第1音声符号を第2音声符号に変換すると共に、該第1音声符号から埋め込みデータを抽出し、
前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信する、
ことを特徴とする音声符号変換方法。
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込み、
受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、
データ埋め込み条件が満たされていれば該第1音声符号より前記埋め込みデータを抽出する、
ことを特徴とする請求項１記載の音声符号変換方法。
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換装置において、
第1音声符号を第2音声符号に変換する符号変換部、
送信元から受信した第1音声符号に任意のデータが埋め込まれている場合、該該第1音声符号から埋め込みデータを抽出する埋め込みデータ抽出部、
前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信する手段、
を備えたことを特徴とする音声符号変換装置。
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、前記埋め込みデータ抽出部は、
送信元から受信した1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視する監視部、
データ埋め込み条件が満たされていれば第1音声符号より前記埋め込みデータを抽出する抽出部、
を有することを特徴とする請求項３記載の音声符号変換装置。