JP4347323B2 - Speech code conversion method and apparatus - Google Patents
Speech code conversion method and apparatus Download PDFInfo
- Publication number
- JP4347323B2 JP4347323B2 JP2006199108A JP2006199108A JP4347323B2 JP 4347323 B2 JP4347323 B2 JP 4347323B2 JP 2006199108 A JP2006199108 A JP 2006199108A JP 2006199108 A JP2006199108 A JP 2006199108A JP 4347323 B2 JP4347323 B2 JP 4347323B2
- Authority
- JP
- Japan
- Prior art keywords
- code
- data
- speech
- voice
- embedded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は音声符号変換方法及び音声符号変換装置に係わり、特に、インターネットなどのネットワークで用いられる音声符号化装置、又は自動車・携帯電話システム等で用いられる音声符号化装置によって符号化された音声符号を別の符号化方式の音声符号に変換する音声符号変換方法及び音声符号変換装置に関する。 The present invention relates to a speech code conversion method and a speech code conversion device, and in particular, a speech code encoded by a speech encoding device used in a network such as the Internet or a speech encoding device used in an automobile / mobile phone system or the like. The present invention relates to a voice code conversion method and a voice code conversion apparatus for converting a voice code into a voice code of another encoding method.
近年、携帯電話システムの多様化や加入者の爆発的な増加、インターネットを使った音声通信(Voice over IP:VoIP)の普及等により、異なる通信システム間での通信量がますます増加すると考えられる。携帯電話やVoIPなどの音声通信システムでは、通信回線を有効利用するために音声を圧縮する音声符号化技術が用いられている。携帯電話では国によって、あるいはシステムによって異なる音声符号化技術が用いられており、W-CDMAでは世界共通の音声符号化方式としてAMR(Adaptive Multi-Rate;適応マルチレート)方式が採用されている。一方、VoIPでは音声符号化方式としてITU-T勧告G.729Aが広く用いられている。以下では、G.729Aの符号化方式及び復号方式を説明すると共に、G.729AとAMR方式の相違点について説明する。 In recent years, the amount of communication between different communication systems is expected to increase more and more due to the diversification of mobile phone systems, the explosion of subscribers, and the spread of voice communication using the Internet (Voice over IP: VoIP). . In a voice communication system such as a cellular phone or VoIP, a voice coding technique for compressing voice is used to effectively use a communication line. Mobile phones use different voice coding techniques depending on the country or system, and W-CDMA employs an AMR (Adaptive Multi-Rate) system as a world-wide voice coding system. On the other hand, in VoIP, ITU-T recommendation G.729A is widely used as a voice encoding method. Hereinafter, the G.729A encoding method and decoding method will be described, and differences between the G.729A and AMR methods will be described.
G.729Aの符号化方式及び復号方式は次の通りである。
・符号器の構成及び動作
図18はITU-T勧告G.729A方式の符号器の構成図である。図18において、1フレーム当り所定サンプル数(=N)の入力信号(音声信号)Xがフレーム単位でLPC分析部1に入力する。サンプリング速度を8kHz、1フレーム期間を10msecとすれば、1フレームは80サンプルである。LPC分析部1は、人間の声道を次式
H(z)=1/[1+Σαi・z-i] (i=1〜P) (1)
で表される全極型フィルタと見なし、このフィルタの係数αi(i=1,・・・,p)を求める。ここで、Pはフィルタ次数である。一般に、電話帯域音声の場合はPとして10〜12の値が用いられる。LPC(線形予測)分析部1では、入力信号の80サンプルと先読み分の40サンプル及び過去の信号120サンプルの合計240サンプルを用いてLPC分析を行いLPC係数を求める。
The G.729A encoding method and decoding method are as follows.
-Configuration and operation of encoder FIG. 18 is a configuration diagram of an encoder of the ITU-T recommendation G.729A system. In FIG. 18, an input signal (audio signal) X having a predetermined number of samples (= N) per frame is input to the
H (z) = 1 / [1 + Σαi · z −i ] (i = 1 to P) (1)
The coefficient αi (i = 1,..., P) of this filter is obtained. Here, P is the filter order. Generally, in the case of telephone band voice, a value of 10 to 12 is used as P. The LPC (Linear Prediction)
パラメータ変換部2はLPC係数をLSP(線スペクトル対)パラメータに変換する。ここで、LSPパラメータは、LPC係数と相互に変換が可能な周波数領域のパラメータであり、量子化特性がLPC係数よりも優れていることから量子化はLSPの領域で行われる。LSP量子化部3は変換されたLSPパラメータを量子化してLSP符号とLSP逆量子化値を求める。LSP補間部4は、現フレームで求めたLSP逆量子化値と前フレームで求めたLSP逆量子化値によりLSP補間値を求める。すなわち、1フレームは5msecの第1、第2の2つのサブフレームに分割され、LPC分析部1は第2サブフレームのLPC係数を決定するが、第1サブフレームのLPC係数は決定しない。そこで、LSP補間部4は、現フレームで求めたLSP逆量子化値と前フレームで求めたLSP逆量子化値を用いて補間演算により第1サブフレームのLSP逆量子化値を予測する。
The
パラメータ逆変換部5はLSP逆量子化値とLSP補間値をそれぞれLPC係数に変換してLPC合成フィルタ6に設定する。この場合、LPC合成フィルタ6のフィルタ係数として、フレームの第1サブフレームではLSP補間値から変換されたLPC係数が用いられ、第2サブフレームではLSP逆量子化値から変換したLPC係数が用られる。尚、以降において1に添字があるもの、例えばlspi, li(n),・・・における1はアルファベットのエルである。
LSPパラメータlspi(i=1,・・・,p)はLSP量子化部3でスカラー量子化やベクトル量子化などにより量子化された後、量子化インデックス(LSP符号)が復号器側へ伝送される。
The parameter
The LSP parameter lspi (i = 1,..., P) is quantized by scalar quantization or vector quantization in the
次に音源とゲインの探索処理を行なう。音源とゲインはサブフレーム単位で処理を行う。まず、音源信号をピッチ周期成分と雑音成分の2つに分け、ピッチ周期成分の量子化には過去の音源信号系列を格納した適応符号帳7を用い、雑音成分の量子化には代数符号帳や雑音符号帳などを用いる。以下では、音源符号帳として適応符号帳7と代数符号帳8の2つを使用する音声符号化方式について説明する。
Next, sound source and gain search processing is performed. Sound source and gain are processed in subframe units. First, the sound source signal is divided into a pitch period component and a noise component, the pitch code component is quantized using the
適応符号帳7は、インデックス1〜Lに対応して順次1サンプル遅延したNサンプル分の音源信号(周期性信号という)を出力するようになっている。Nは1サブフレームのサンプル数であり(N=40)、最新の(L+39)サンプルのピッチ周期成分を記憶するバッファを有している。インデックス1により第1〜第40サンプルよりなる周期性信号が特定され、インデックス2により第2〜第41サンプルよりなる周期性信号が特定され、・・・インデックスLにより第L〜第L+39サンプルよりなる周期性信号が特定される。初期状態では適応符号帳7の中身は全ての振幅が0の信号が入っており、サブフレーム毎に時間的に一番古い信号をサブフレーム長だけ捨て、現サブフレームで求めた音源信号を適応符号帳7に格納するように動作する。
The
適応符号帳探索は、過去の音源信号を格納している適応符号帳7を用いて音源信号の周期性成分を同定する。すなわち、適応符号帳7から読み出す開始点を1サンプルづつ変えながら適応符号帳7内の過去の音源信号をサブフレーム長(=40サンプル)だけ取り出し、LPC合成フィルタ6に入力してピッチ合成信号β×A×PLを作成する。ただし、PLは適応符号帳7から取り出された遅れLに相当する過去のピッチ周期性信号(適応符号ベクトル)、AはLPC合成フィルタ6のインパルス応答、βは適応符号帳ゲインである。
In the adaptive codebook search, the periodic component of the excitation signal is identified using the
演算部9は入力音声Xとβ×A×PLの誤差電力ELを次式
EL=|X−β×A×PL|2 (2)
により求める。適応符号帳出力の重み付き合成出力をA×PLとし、A×PLの自己相関をRpp、A×PLと入力信号Xの相互相関をRxpとすると、式(2)の誤差電力が最小となるピッチラグLoptにおける適応符号ベクトルPLは、次式
PL=argmax(Rxp2/Rpp) (3)
により表わされる。すなわち、ピッチ合成信号A×PLと入力信号Xとの相互相関Rxpをピッチ合成信号の自己相関Rppで正規化した値が最も大きくなる読み出し開始点を最適な開始点とする。以上より、誤差電力評価部10は(3)式を満足するピッチラグLoptを求める。このとき、最適ピッチゲインβoptは次式
βopt=Rxp/Rpp (4)
で与えられる。
The
EL = | X−β × A × PL | 2 (2)
Ask for. When the weighted composite output of the adaptive codebook output is A × PL, the autocorrelation of A × PL is Rpp, and the cross correlation between A × PL and the input signal X is Rxp, the error power in equation (2) is minimized. The adaptive code vector PL for the pitch lag Lopt is given by
P L = argmax (Rxp 2 / Rpp) (3)
Is represented by That is, the reading start point at which the value obtained by normalizing the cross-correlation Rxp between the pitch synthesized signal A × PL and the input signal X by the autocorrelation Rpp of the pitch synthesized signal becomes the optimum starting point. As described above, the error
Given in.
次に代数符号帳8を用いて音源信号に含まれる雑音成分を量子化する。代数符号帳8は、振幅が1又は−1の複数のパルスから構成される。例として、サブフレーム長が40サンプルの場合のパルス位置を表1に示す。
図19は各パルス系統グループ1〜4に割り当てたサンプル点の説明図であり、
(1) パルス系統グループ1には8個のサンプル点 0,5,10,15,20,25,30,35が割り当てられ、
(2) パルス系統グループ2には8個のサンプル点 1,6,11,16,21,26,31,36が割り当てられ、
(3) パルス系統グループ3には8個のサンプル点 2,7,12,17,22,27,32,37が割り当てられ、
(4)パルス系統グループ4には16個のサンプル点 3,4,8,9,13,14,18,19,23,24,28, 29,33,34,38,39が割り当てられている。
FIG. 19 is an explanatory diagram of sample points assigned to each of the
(1) Eight
(2) Eight
(3) Eight
(4) 16
パルス系統グループ1〜3のサンプル点を表現するために3ビット、パルスの正負を表現するのに1 bit、トータル4 bit が必要であり、又、パルス系統グループ4のサンプル点を表現するために4 bit、パルスの正負を表現するのに1 bit、トータル5 bit 必要である。従って、表1のパルス配置を有する雑音符号帳8から出力するパルス性信号を特定するために17bitが必要になり、パルス性信号の種類は217(=24×24×24×25)存在する。
表1に示すように各パルス系統のパルス位置は限定されており、代数符号帳探索では各パルス系統のパルス位置の組み合わせの中から、再生領域で入力音声との誤差電力が最も小さくなるパルスの組み合わせを決定する。すなわち、適応符号帳探索で求めた最適ピッチゲインβoptとし、適応符号帳出力PLに該ゲインβoptを乗算して加算器11に入力する。これと同時に代数符号帳8より順次パルス性信号を加算器に11に入力し、加算器出力をLPC合成フィルタ6に入力して得られる再生信号と入力信号Xとの差が最小となるパルス性信号を特定する。具体的には、まず入力信号Xから適応符号帳探索で求めた最適な適応符号帳出力PL、最適ピッチゲインβoptから次式により代数符号帳探索のためのターゲットベクトルX′を生成する。
3 bits are required to represent the sample points of
As shown in Table 1, the pulse position of each pulse system is limited, and in the algebraic codebook search, the pulse with the smallest error power from the input speech in the playback area is selected from the combinations of pulse positions of each pulse system. Determine the combination. That is, the optimum pitch gain βopt obtained by the adaptive codebook search is set, and the adaptive codebook output PL is multiplied by the gain βopt and input to the
X′=X−βopt×A×PL (5)
この例では、パルスの位置と振幅(正負)を前述のように17bitで表現するため、その組合わせは2の17乗通り存在する。ここで、k通り目の代数符号出力ベクトルをCkとすると、代数符号帳探索では次式
D=|X′−GC×A×Ck|2 (6)
の評価関数誤差電力Dを最小とする符号ベクトルCkを求める。GCは代数符号帳ゲインである。誤差電力評価部10は代数符号帳の探索において、代数合成信号A×Ckと入力信号X′の相互相関値Rcxの2乗を代数合成信号の自己相関値Rccで正規化して得られる正規化相互相関値(Rcx*Rcx/Rcc)が最も大きくなるパルス位置と極性の組み合わせを探索する。
X ′ = X−βopt × A × PL (5)
In this example, the position and amplitude (positive / negative) of the pulse are expressed in 17 bits as described above, so there are 2 17 combinations. Here, when the kth algebraic code output vector is Ck, in the algebraic codebook search, the following equation is obtained: D = | X′−GC × A × Ck | 2 (6)
The code vector Ck that minimizes the evaluation function error power D is obtained. GC is the algebraic codebook gain. In the search of the algebraic codebook, the error
次にゲイン量子化について説明する。G.729A方式において代数符号帳ゲインは直接量子化されず、適応符号帳ゲインGa(=βopt)と代数符号帳ゲインGcの補正係数γをベクトル量子化する。ここで、代数符号帳ゲインGCと補正係数γとの間には GC=g′×γなる関係がある。g′は過去の4サブフレームの対数利得から予測される現フレームの利得である。
ゲイン量子化器12の図示しないゲイン量子化テーブルには、適応符号帳ゲインGaと代数符号帳ゲインに対する補正係数γの組み合わせが128通り(=27)用意されている。ゲイン符号帳の探索方法は、(1)適応符号帳出力ベクトルと代数符号帳出力ベクトルに対して、ゲイン量子化テーブルの中から1組のテーブル値を取り出してゲイン可変部13、14に設定し、(2)ゲイン可変部13、14でそれぞれのベクトルにゲインGa、Gcを乗じてLPC合成フィルタ6に入力し、(3)誤差電力評価部10において入力信号Xとの誤差電力が最も小さくなる組み合わせを選択する、ことにより行なう。
Next, gain quantization will be described. In the G.729A system, the algebraic codebook gain is not directly quantized, and the adaptive codebook gain Ga (= βopt) and the correction coefficient γ of the algebraic codebook gain Gc are vector-quantized. Here, there is a relationship GC = g ′ × γ between the algebraic codebook gain GC and the correction coefficient γ. g ′ is the gain of the current frame predicted from the logarithmic gain of the past 4 subframes.
In the gain quantization table (not shown) of the
以上より、回線符号化部15は、(1)LSPの量子化インデックスであるLSP符号、(2)ピッチラグの量子化インデックスであるピッチラグ符号Lopt、(3) 代数符号帳インデックスである代数符号、(4) ゲインの量子化インデックスであるゲイン符号を多重して回線データを作成し、復号器に伝送する。 As described above, the line encoder 15 (1) LSP code that is an LSP quantization index, (2) pitch lag code Lopt that is a pitch lag quantization index, (3) an algebraic code that is an algebraic codebook index, ( 4) Multiplex the gain code, which is the gain quantization index, to create circuit data and transmit it to the decoder.
・復号器の構成及び動作
図20はG.729A方式の復号器のブロック図である。符号器側から送られてきた回線データが回線復号部21へ入力されてLSP符号、ピッチラグ符号、代数符号、ゲイン符号が出力される。復号器ではこれらの符号に基づいて音声データを復号する。復号器の動作については、復号器の機能が符号器に含まれているため一部重複するが、以下で簡単に説明する。
LSP逆量子化部22はLSP符号が入力すると逆量子化し、LSP逆量子化値を出力する。LSP補間部23は現フレームの第2サブフレームにおけるLSP逆量子化値と前フレームの第2サブフレームのLSP逆量子化値から現フレームの第1サブフレームのLSP逆量子化値を補間演算する。次に、パラメータ逆変換部24はLSP補間値とLSP逆量子化値をそれぞれLPC合成フィルタ係数へ変換する。G.729A方式のLPC合成フィルタ25は、最初の第1サブフレームではLSP補間値から変換されたLPC係数を用い、次の第2サブフレームではLSP逆量子化値から変換されたLPC係数を用いる。
Decoder Configuration and Operation FIG. 20 is a block diagram of a G.729A decoder. The line data sent from the encoder side is input to the
When the LSP code is input, the LSP
適応符号帳26はピッチラグ符号が指示する読み出し開始位置からサブフレーム長(=40サンプル)のピッチ信号を出力し、雑音符号帳27は代数符号に対応する読出し位置からパルス位置とパルスの極性を出力する。また、ゲイン逆量子化部28は入力されたゲイン符号より適応符号帳ゲイン逆量子化値と代数符号帳ゲイン逆量子化値を算出してゲイン可変部29,30に設定する。加算部31は適応符号帳出力に適応符号帳ゲイン逆量子化値を乗じて得られる信号と、代数符号帳出力に代数符号帳ゲイン逆量子化値を乗じて得られる信号とを加え合わせて音源信号を作成し、この音源信号をLPC合成フィルタ25に入力する。これにより、LPC合成フィルタ25から再生音声を得ることができる。
尚、初期状態では復号器側の適応符号帳26の内容は全て振幅0の信号が入っており、サブフレーム毎に時間的に一番古い信号をサブフレーム長だけ捨て、一方、現サブフレームで求めた音源信号を適応符号帳26に格納するように動作する。つまり、符号器と復号器の適応符号帳26は常に最新の同じ状態になるように維持される。
以上がG.729Aの符号化及び復号方式である。一方、AMR方式もG.729A方式と同様にCELP(Code Excited Linear Prediction;符号駆動線形予測符号化)と呼ばれる基本アルゴリズムを用いており、G.729A方式との違いは以下の通りである。
The
In the initial state, the contents of the
The above is the G.729A encoding and decoding scheme. On the other hand, the AMR system uses a basic algorithm called CELP (Code Excited Linear Prediction) as in the G.729A system, and the differences from the G.729A system are as follows.
・G729A方式とAMR方式における符号化方法の相違
図21はG.729A方式とAMRの主要諸元を比較した結果である。なお、AMRの符号化モードは全部で8種類あるが図21の諸元は全ての符号化モードで共通である。G729A方式とAMR方式は、入力信号の標本化周波数(=8KHz)、サブフレーム長(=5msec)、線形予測次数(=10次)は同じであるが、フレーム長が異なり、1フレーム当りのサブフレーム数が異なっている。図22に示すようにG.729A方式では1フレームが2つの第0〜第1サブフレームで構成され、AMR方式では1フレームが4つの第0〜第3サブフレームで構成されている。
-Difference in encoding method between G729A method and AMR method FIG. 21 shows the result of comparing the main specifications of the G.729A method and AMR. Although there are eight types of AMR encoding modes in total, the specifications in FIG. 21 are common to all encoding modes. The G729A method and the AMR method have the same sampling frequency (= 8KHz), subframe length (= 5msec), and linear prediction order (= 10th order) of the input signal, but the frame length is different and the subframe per frame The number of frames is different. As shown in FIG. 22, one frame is composed of two 0th to first subframes in the G.729A system, and one frame is composed of four 0th to third subframes in the AMR system.
図23はG.729A方式とAMR方式におけるビット割り当ての比較結果を示すもので、AMR方式についてはG.729Aのビットレートに最も近い7.95kbit/sモードの場合を示した。図23から明らかなように、1サブフレーム当りの代数符号帳のビット数(=17ビット)は同じであるが、その他の符号に必要なビット数の配分は全て異なっている。また、G.729A方式では適応符号帳ゲインと代数符号帳ゲインをまとめてベクトル量子化するため、ゲイン符号は1サブフレームにつき1種類であるが、AMR方式では1サブフレームにつき適応符号帳ゲインと代数符号帳ゲインの2種類が必要である。
以上説明した通り、インターネットで音声を通信するVoIPで広く用いられているG.729A方式と携帯電話システムで採用されたAMR方式とでは、基本アルゴリズムが共通であるが、フレーム長が異なり、しかも、符号を表現するビット数が異なっている。
FIG. 23 shows a comparison result of bit allocation between the G.729A system and the AMR system. The AMR system shows the case of the 7.95 kbit / s mode closest to the G.729A bit rate. As is clear from FIG. 23, the number of bits in the algebraic codebook per subframe (= 17 bits) is the same, but the distribution of the number of bits necessary for other codes is all different. In addition, in the G.729A system, the adaptive codebook gain and the algebraic codebook gain are vector quantized together, so that there is one type of gain code per subframe, but in the AMR system, the adaptive codebook gain and the adaptive codebook gain per subframe Two types of algebraic codebook gain are required.
As explained above, the basic algorithm is common between the G.729A system widely used in VoIP that communicates voice over the Internet and the AMR system adopted in mobile phone systems, but the frame length is different, The number of bits representing the code is different.
・音声符号変換
インターネットと携帯電話の普及に伴い、インターネットユーザと携帯電話網のユーザによる音声通話の通信量が今後ますます増えてくると考えられる。このような異なる通信システム間の音声通信には、図24に示すように中間に音声符号変換装置53が必要になる。すなわち、音声符号変換装置53において、一方の通信システム51の符号器52で第1音声符号化方式に従って符号化した音声符号を、他方の通信システム54で使用されている第2音声符号化方式の音声符号に変換する。このように音声符号変換すれば、通信システム54の第2音声符号化方式の復号器55はユーザ1の音声を正しく再生することができる。
・ Voice code conversion With the spread of the Internet and mobile phones, it is considered that the volume of voice calls between Internet users and mobile phone network users will increase in the future. For voice communication between such different communication systems, a
かかる符号変換技術としては、(1)各々のシステムの音声符号化方式で復号・符号を繰り返すタンデム接続方式や、(2)音声符号を、該音声符号を構成する各要素符号に分解し、各要素符号を個別に別の音声符号化方式の符号に変換する手法が提案されている(特願2001-75427参照)。図25は後者の手法の説明図である。
端末71に組み込まれた符号化方式1の符号器71aはユーザAが発した音声信号を符号化方式1の音声符号に符号化して伝送路71bに送出する。音声符号変換部74は伝送路71bより入力した符号化方式1の音声符号を符号化方式2の音声符号に変換して伝送路72bに送出し、端末72の復号器72aは、伝送路72bを介して入力する符号化方式2の音声符号から再生音声を復号し、ユーザBはこの再生音声を聞くことができる。
As such a code conversion technique, (1) a tandem connection system that repeats decoding / codes in each system's speech coding system, and (2) a speech code is decomposed into element codes constituting the speech code, There has been proposed a method for individually converting element codes into codes of different speech encoding methods (see Japanese Patent Application No. 2001-75427). FIG. 25 is an explanatory diagram of the latter method.
The
符号化方式1は、(1)フレーム毎の線形予測分析により得られる線形予測係数(LPC係数)から求まるLSPパラメータを量子化することにより得られる第1のLSP符号と、(2)周期性音源信号を出力するための適応符号帳の出力信号を特定する第1のピッチラグ符号と、(3)雑音性音源信号を出力するための代数符号帳(あるいは雑音符号帳)の出力信号を特定する第1の代数符号(雑音符号)と、(4)前記適応符号帳の出力信号の振幅を表すピッチゲインと前記代数符号帳の出力信号の振幅を表す代数符号帳ゲインとを量子化して得られる第1のゲイン符号とで音声信号を符号化する方式である。又、符号化方式2は、第1の音声符号化方式と異なる量子化方法により量子化して得られる(1)第2のLSP符号、(2)第2のピッチラグ符号、(3)第2の代数符号(雑音符号)、(4)第2のゲイン符号とで音声信号を符号化する方式である。
The
音声符号変換部74は、符号分離部74a、LSP符号変換部74b、ピッチラグ符号変換部74c、代数符号変換部74d、ゲイン符号変換部74e、符号多重化部74fを有している。符号分離部74aは、端末1の符号器71aから伝送路71bを介して入力する符号化方式1の音声符号より、音声信号を再現するために必要な複数の成分の符号、すなわち、(1)LSP符号、(2)ピッチラグ符号、(3)代数符号、(4)ゲイン符号に分離し、それぞれを各符号変換部74b〜74eに入力する。各符号変換部74b〜74eは入力された音声符号化方式1によるLSP符号、ピッチラグ符号、代数符号、ゲイン符号をそれぞれ音声符号化方式2によるLSP符号、ピッチラグ符号、代数符号、ゲイン符号(ピッチゲイン符号、代数ゲイン符号)に変換し、符号多重化部74fは変換された音声符号化方式2の各符号を多重化して伝送路72bに送出する。
The speech
・データの埋め込み技術
近年コンピュータやインターネットが普及する中で、マルチメディアコンテンツ(静止画、動画、オーディオ、音声など)に特殊なデータを埋め込む「電子透かし技術」が注目を集めている。電子透かし技術とは、画像や動画、音声などのマルチメディアコンテンツ自体に、人間の知覚の特性を利用し、品質にはほとんど影響を与えずに別の任意の情報を埋め込む技術である。このような技術は、コンテンツに作成者や販売者などの名前を埋め込んで、不正コピーやデータの改ざんなどを防止するといった著作権保護を目的とすることが多いが、その他にもコンテンツに関する関連情報や付属情報を埋め込んで利用者のコンテンツ利用時における利便性を高めることを目的としても用いられる。
Data Embedding Technology With the spread of computers and the Internet in recent years, “digital watermark technology” that embeds special data in multimedia content (still images, moving images, audio, audio, etc.) has attracted attention. The digital watermark technology is a technology that embeds other arbitrary information in multimedia content itself such as an image, a moving image, and sound by using the characteristics of human perception and hardly affecting the quality. Such technologies are often intended to protect copyrights by embedding the names of creators and sellers in the content to prevent unauthorized copying and data tampering. It is also used for the purpose of improving the convenience when the user uses the content by embedding the attached information.
音声通信の分野でも、音声符号にこのような任意の情報を埋め込んで伝送する試みが行われている。図26はデータ埋め込み技術を適用した音声通信システムの概念図である。符号器81は、入力音声SPを音声符号に符号化する際に、音声以外の任意のデータ系列DTを音声符号SCDに埋め込んで復号器82へ伝送する。このときデータの埋め込みを音声符号のフォーマットを変えずに音声符号自体に行うため、音声符号の情報量の増加はない。復号器82は音声符号に埋め込まれた任意のデータ系列を読み出すとともに、音声符号に通常の復号器処理を施して再生音声SP′を出力する。このとき、再生音声SP′の品質にほとんど影響がないように埋め込みが行われるため、再生音声は埋め込みを行わない場合とほとんど差がない。以上の構成により、伝送量を増加させることなく音声とは別に任意のデータを伝送することが可能となる。また、データが埋め込まれていることを知らない第3者にとっては通常の音声通信としか認識されない。
In the field of voice communication, attempts have been made to embed such arbitrary information in a voice code for transmission. FIG. 26 is a conceptual diagram of a voice communication system to which the data embedding technique is applied. When encoding the input speech SP into a speech code, the
データの埋め込み方法としては、さまざまな方法がある。特にCELP方式をベースとする高圧縮音声符号化方式では、符号化された音声符号に任意の情報を埋め込む方法がいくつか提案されている。例えば、代数符号帳および適応符号帳を用いて符号化を行う音声符号化方式において、ピッチラグ符号、代数符号に任意のデータを埋め込む技術が提案されている。この埋め込む技術は、ある規則に従って代数符号帳あるいは適応符号帳で量子化した符号(ピッチラグ符号、代数符号)に任意のデータ系列を埋め込むものである。
ピッチ音源に対応するピッチラグ符号と雑音音源に対応する代数符号に着目すると、これらのゲイン(ピッチゲイン、代数符号帳ゲイン)が各符号の寄与度を示すファクタとみなすことができ、ゲインが小さい場合は対応する符号の寄与度が小さくなる。そこで、ゲインを判定パラメータとして定義し、該ゲインがある閾値以下になる場合は対応する符号の寄与度が小さいと判断して、該符号のインデックスを任意のデータ系列で置き換える。これにより、置き換えの影響を小さく抑えながら、任意のデータを埋め込むことが可能となる。
There are various methods for embedding data. In particular, in the high-compression voice coding system based on the CELP system, several methods for embedding arbitrary information in the coded voice code have been proposed. For example, in a speech coding system that performs coding using an algebraic codebook and an adaptive codebook, a technique for embedding arbitrary data in pitch lag codes and algebraic codes has been proposed. This embedding technique embeds an arbitrary data sequence in a code (pitch lag code, algebraic code) quantized with an algebraic codebook or an adaptive codebook according to a certain rule.
Focusing on the pitch lag code corresponding to the pitch sound source and the algebraic code corresponding to the noise sound source, these gains (pitch gain, algebraic codebook gain) can be regarded as factors indicating the contribution of each code, and the gain is small. The contribution of the corresponding code becomes small. Therefore, a gain is defined as a determination parameter, and when the gain falls below a certain threshold, it is determined that the degree of contribution of the corresponding code is small, and the index of the code is replaced with an arbitrary data series. As a result, it is possible to embed arbitrary data while suppressing the influence of replacement small.
今後、以上説明したようなデータ埋め込み技術を適用した通信システム間での通信が増大することが予想される。このとき音声符号変換装置はデータ埋め込みを施された音声符号を対象に符号変換を行う必要性がある。 In the future, it is expected that communication between communication systems to which the data embedding technology as described above is applied will increase. At this time, it is necessary for the speech code conversion apparatus to perform code conversion on the speech code on which data is embedded.
・課題1
図27に符号変換の原理図を示す。図27は第1符号化方式の符号化データCode1を第2符号化方式の符号化データCode2に変換する場合を示している。符号変換部91は、第1符号化方式による符号化の際に使用される第1量子化テーブル92と第2符号化方式による符号化の際に使用される第2量子化テーブル93をそれぞれ備えている。また、第1量子化テーブル92と第2量子化テーブル93はテーブルサイズおよびテーブル値が異なるが、図27では、説明の簡略化のためにテーブルサイズが2ビットと同じ場合を示す。
・
FIG. 27 shows the principle of code conversion. FIG. 27 shows a case where encoded data Code1 of the first encoding method is converted into encoded data Code2 of the second encoding method. The
図27において、符号変換部91に入力される第1符号化方式の符号化データCode1(図では"01")は、第1量子化テーブル92のインデックス番号を表している。したがって、入力されたCode1に対応する第1量子化テーブル92の値(図では2.0)に最も誤差の小さい値を第2量子化テーブル93より選択し、それに対応する第2量子化テーブル93のインデックス番号(図では、"10")を第2符号化方式の符号化データCode2として出力する。このように符号変換部91では、変換元、変換先の量子化テーブルを比較して誤差が最も小さくなるようにインデックス番号の対応付けを行っている。
ここで入力符号Code1のデータ系列が、前述した埋め込み方法によって埋め込まれた任意のデータ("01"とする)である場合を考える。符号変換部91は、前述と同様の変換処理を行うため、入力データ系列"01"を"10"へ変換する。しかし、これでは、埋め込まれたデータ系列が"01"→"10"と変化してしまい保持されなくなり、受信側の第2符号化方式の復号器は埋め込まれたデータ系列を正常に復元することができない。
以上のように、従来の符号変換方式では、入力符号に任意のデータ系列が埋め込まれている場合、該埋め込みデータ系列を保持できず、結果として符号変換装置において埋め込みデータが損なわれる問題があった。
In FIG. 27, the encoded data Code1 (“01” in the figure) of the first encoding method input to the
Here, consider a case where the data sequence of the input code Code1 is arbitrary data (referred to as “01”) embedded by the above-described embedding method. The
As described above, in the conventional code conversion method, when an arbitrary data sequence is embedded in the input code, the embedded data sequence cannot be held, and as a result, there is a problem that the embedded data is damaged in the code conversion device. .
・課題2
今後、第3世代携帯電話システムに代表されるように、音声通信に加え、データ通信等マルチメディア情報を対象とした通信システムの普及が予想される。このため、従来のような音声回線のみを持つ通信システムと、音声回線とその他のデータ回線を持つ通信システム間での通信が発生する。かかる場合、音声回線については従来の音声符号変換装置で両通信システム間の音声符号の相互変換を行うことによりユーザ間の音声通信が可能となる。しかし、データ回線については、一方がデータ回線を持たないため、ユーザ間のデータ通信は不可能である。以上のように音声回線のみを持つ通信システムと音声回線と他にデータ回線を持つ通信システム間では、ユーザ間で音声通信しか行うことが出来ない問題がある。
・
In the future, as represented by third-generation mobile phone systems, it is expected that communication systems targeting multimedia information such as data communications will become widespread in addition to voice communications. For this reason, communication occurs between a conventional communication system having only a voice line and a communication system having a voice line and other data lines. In such a case, voice communication between users becomes possible by performing mutual conversion of voice codes between the two communication systems with a conventional voice code conversion device. However, since one of the data lines does not have a data line, data communication between users is impossible. As described above, there is a problem that only voice communication can be performed between users between a communication system having only a voice line and a communication system having a voice line and another data line.
以上から、本発明の目的は、音声回線のみを持つ通信システムと音声回線の外にデータ回線を持つ通信システム間で、音声通信とデータ通信の両方の通信ができるようにすることである。 Accordingly, an object of the present invention is to enable both voice communication and data communication between a communication system having only a voice line and a communication system having a data line outside the voice line.
本発明は入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換方法および音声符号変換装置である。
・音声符号変換方法
本発明の音声符号変換方法は、第1音声符号とデータを送信元から別々に受信する第1ステップ、第1音声符号を第2音声符号に変換する第2ステップ、該変換により得られた第2音声符号に前記データを埋め込んで送信先へ送信する第3ステップを備え、前記第3ステップは、前記受信したデータをデータ保持部に保存し、前記第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視し、満たされている場合、前記データ保持部に保存されているデータで第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む。
The present invention is a speech code conversion method and a speech code conversion device for converting a first speech code obtained by encoding an input speech by a first speech encoding method into a second speech code by a second speech encoding method.
・ Voice code conversion method
The speech code conversion method of the present invention includes a first step of separately receiving a first speech code and data from a transmission source, a second step of converting the first speech code into a second speech code, a first step obtained by the conversion A third step of embedding the data in two speech codes and transmitting the data to a transmission destination, wherein the third step stores the received data in a data holding unit, and a predetermined element code constituting the second speech code The data embedding condition is monitored by referring to the dequantized value of the data, and if satisfied, the data is replaced by replacing a part of the second speech code with the data stored in the data holding unit. Embed in the second audio code.
・音声符号変換装置
本発明の音声符号変換装置は、第1音声符号とデータを送信元から別々に受信する受信手段、第1音声符号を第2音声符号に変換する符号変換部、該変換により得られた第2音声符号に前記データを埋め込んで送信先へ送信するデータ埋め込み部を備え、前記データ埋め込み部は、前記データを保存するデータ保持部、前記第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視する手段、満たされている場合、前記データ保持部に保存されているデータで第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む手段、を有している。
・ Voice code converter
The speech code conversion device of the present invention is a receiving means for separately receiving a first speech code and data from a transmission source, a code conversion unit for converting the first speech code into a second speech code, a second obtained by the conversion A data embedding unit that embeds the data in a speech code and transmits the data to a transmission destination; the data embedding unit stores a data; a data holding unit that stores the data; and an inverse quantization of a predetermined element code constituting the second speech code Means for monitoring whether the data embedding condition is met with reference to the value, and if so, the data stored in the data holding unit is replaced with a part of the second voice code by replacing the second voice code Means for embedding in the code.
本発明によれば、変換元の通信システムより第1符号化方式の音声符号とデータが別々の回線あるいは多重回線で別々に音声符号変換部に入力された場合、音声符号変換部は符号変換後の第2符号化方式の音声符号にデータを埋め込むことにより変換先へ音声回線のみで伝送することが可能となる。 According to the present invention, when the voice code and data of the first encoding method are separately input to the voice code conversion unit via separate lines or multiple lines from the conversion source communication system, the voice code conversion unit performs post-code conversion. By embedding data in the voice code of the second encoding method, it becomes possible to transmit to the conversion destination only by the voice line.
(A)本発明の概略
(a)第1のシステム
図1は本発明の第1のシステム概念図であり、任意のデータDTを埋め込んだ第1符号化方式の音声符号SP1を、該データDTを埋め込んだ第2符号化方式の音声符号SP2へ変換する場合を示している。
第1符号化方式の通信システム101と第2符号化方式の通信システム102間に音声符号変換装置103が設けられている。通信システム101における第1符号化方式の符号器104は、入力音声SP1を符号化する際、音声データ以外の任意のデータ系列DTを音声符号SCD1に埋め込んで伝送路105に送出する。この際、符号器104によるデータの埋め込みは、音声符号のフォーマットを変えずに音声符号自体に行われるため、音声符号の情報量の増加はない。
(A) Outline of the present invention
(a) First System FIG. 1 is a conceptual diagram of a first system of the present invention, in which a first encoding speech code SP1 in which arbitrary data DT is embedded is converted into second encoding in which the data DT is embedded. This shows the case of conversion to the system voice code SP2.
A speech
音声符号変換装置103は、符号器104から第1音声符号化方式に従って符号化した音声符号SCD1を受信すれば、該音声符号を通信システム102で使用されている第2音声符号化方式の音声符号SCD2に変換して伝送路106に送出する。この際、音声符号変換装置103は埋め込みデータを損なわずに音声符号変換を行う。
通信システム102における第2符号化方式の復号器107は音声符号SCD2に埋め込まれた任意のデータ系列DTを読み出して出力するとともに、音声符号に通常の復号器処理を施して再生音声SP2を出力する。このとき、再生音声SP2の品質にほとんど影響がないように埋め込みが行われるため、再生音声は埋め込みを行わない場合とほとんど差がない。
When speech
The
図2は本発明の第1システムにおける符号変換装置103の構成図である。変換元で第1符号化方式に従って符号化され、且つ、データDTが埋め込まれた音声符号SCD1は、フレーム単位で順番に符号変換部111と埋め込みデータ抽出部112に入力する。符号変換部111は図25に示す従来と同様の構成を有し、第1符号化方式の音声符号SCD1を第2符号化方式の音声符号SCD2′に変換する。埋め込みデータ抽出部112は、音声符号SCD1に埋め込まれたデータDTを抽出してデータ埋め込み部113へ出力する。埋め込みデータ抽出部112によるデータ抽出方法は、第1符号化方式の復号器のデータ抽出方法と同じである。データ埋め込み部113は、符号変換部111で変換された第2符号化方式の音声符号SCD2′と音声符号SCD1から抽出したデータDTが入力すると、音声符号SCD2′へフレーム単位でデータDTの埋め込みを行い、音声符号SCD2として出力する。データ埋め込み部113によるデータ埋め込み方法は、第2符号化方式の符号器のデータ埋め込み方法と同じである。
FIG. 2 is a block diagram of the
図3は本発明の第1システムにおける符号変換装置103の別の構成図であり、図2の符号変換装置と同一部分には同一符号を付している。この符号変換装置103は、音声符号の性質に基いて適応的に音声符号SCD1から埋め込みデータDTを抽出すると共に音声符号SCD2′へデータDTの埋め込みを行う。たとえば、従来技術の項で説明したように、第1符号化方式の符号器は、ゲイン(ピッチゲイン、代数符号帳ゲイン)がある閾値以下であれば対応する符号(ピッチラグ符号、代数符号)の音声に対する寄与は小さいもの見なして、該符号のインデックスを任意のデータ系列DTで置き換える。このため、第1符号化方式の音声符号SCD1には、ゲインに応じてデータが埋め込まれている区間と埋め込まれていない区間が生じる。
FIG. 3 is another configuration diagram of the
埋め込み判定部121は、音声符号SCD1のゲインに基いてフレームあるいはサブフレーム単位で該符号に別のデータが埋め込まれているかどうかを判定し、データが埋め込まれていると判定した場合には、スイッチSW1を閉じて音声符号SCD1を埋め込みデータ抽出部112に入力する。埋め込みデータ抽出部112は音声符号SCD1よりデータを抽出し、FIFOバッファ構成のデータ保持部122に入力する。FIFOバッファはfirst-in first-outのバッファである。
The embedding
埋め込み判定部123は、符号変換部111より出力された第2符号化方式の音声符号SCD2′のゲインに基いてフレームあるいはサブフレーム単位で該音声符号にデータを埋め込むかどうか判定し、データを埋め込むと判定すればスイッチSW2を閉じ、データ保持部122は保持しているデータを古いものからフレームあるいはサブフレーム単位でデータ埋め込み部113に入力する。この結果、データ埋め込み部113は、第2符号化方式の音声符号SCD2′にデータ保持部122から出力するデータDTをフレーム単位で埋め込み、音声符号SCD2として出力する。
The embedding
各埋め込み判定の方法は、それぞれの符号化方式において使用されている方法と同じでよい。埋め込み判定部121と埋め込み判定部123の埋め込み判定方法が異なる場合、スイッチSW1,SW2の閉じるタイミングは必ずしも一致しない。さらに埋め込み判定方法が同じ場合でも、音声符号変換部111の変換誤差により変換前後で音声符号が異なるため、同様な現象が生じる。図3のデータ保持部122は上記スイッチングタイミングの差を吸収してデータの消失を防止する機能を有している。
Each embedding determination method may be the same as the method used in each encoding method. When the embedding
すなわち、変換先が埋め込み対象区間でない場合には、データ保持部122により第1音声符号SCD1から抽出したデータDTを一旦保持する。逆に変換元が埋め込み対象区間でない場合には、データ保持部122に保持しているデータを取り出して第2音声符号SCD2′に埋め込む。さらに、変換元の埋め込み対象の符号データサイズが変換先よりも大きい場合は、埋め込み可能なデータ量のみを埋め込み、残りをデータ保持部122により一旦保持する。また、データ保持部122のデータ保持数が減少した場合、変換先のデータ埋め込みを一旦停止し、データ保持数を回復させる。以上により、スイッチングタイミングの差を吸収してデータの消失を防止する。
That is, when the conversion destination is not the embedding target section, the data DT extracted from the first speech code SCD1 by the
(b)第2のシステム
図4は本発明の第2のシステム概念図であり、変換元の通信システム101が音声回線105とデータ回線108を持ち、変換先の通信システム102が音声回線106のみ持つ場合を示している。図に示すように通信システム101における第1符号化方式の符号器104は、入力音声SP1を符号化して音声符号SCD1にし該音声符号を音声回線105に送出すると共に、音声符号以外の任意のデータ系列DTをデータ回線108に送出する。実際には音声符号SCDとデータ系列DTを時分割多重して多重回線に送出し、適当な箇所で分離して音声符号変換装置103に入力する。以上により、音声符号変換装置103には音声回線105から音声符号SCD1とデータ回線108からデータDTがそれぞれ入力する。音声符号変換装置103は第1符号化方式の音声符号SCD1を第2符号化方式の音声符号に変換するとともに該音声符号にデータDTを埋め込んで音声符号SCD2として変換先の通信システム102に音声回線106を介して伝送する。
(b) Second System FIG. 4 is a conceptual diagram of the second system of the present invention. The conversion
通信システム102における第2符号化方式の復号器107は音声符号に埋め込まれた任意のデータ系列DTを読み出して出力すると共に、音声符号に通常の復号器処理を施して再生音声SP2を出力する。このとき、再生音声SP2の品質にほとんど影響がないように埋め込みが行われるため、再生音声は埋め込みを行わない場合とほとんど差がない。
図5は本発明の第2システムにおける符号変換装置103の構成図であり、図2の第1システムにおける符号変換装置と同一部分には同一符号を付している。異なる点は、(1)データDTが音声符号SCD1とは別の経路で入力する点、(2)埋め込みデータ抽出部がなく、埋め込みデータDTを直接データ埋め込み部113へ入力する点である。
The
FIG. 5 is a block diagram of the
変換元である通信システムは第1符号化方式に従って符号化した音声符号SCD1とデータDTを時分割多重して多重回線200に送出し、回線分離部201はこれら音声符号SCD1とデータDTを分離して音声回線105、データ回線108を介して符号変換装置103に入力する。データ埋め込み部113は、符号変換部111で変換された第2符号化方式の音声符号SCD2′とデータDTが入力すると、音声符号SCD2′へフレーム単位でデータDTの埋め込みを行い、音声符号SCD2として音声回線106に送出する。
The communication system that is the conversion source time-division-multiplexes the voice code SCD1 and data DT encoded according to the first encoding method and sends them to the
図6は本発明の第2システムにおける符号変換装置103の別の構成図であり、図3の第1システムにおける符号変換装置と同一部分には同一符号を付している。図3と異なる点は、(1)データDTが音声符号SCD1とは別の経路で入力する点、(2)埋め込み判定部、埋め込みデータ抽出部がなく、埋め込みデータDTを直接データ保持部122へ入力する点である。
変換元である通信システムは第1符号化方式に従って符号化した音声符号SCD1とデータDTを時分割多重して多重回線200に送出し、回線分離部201はこれら音声符号SCD1とデータDTを分離して音声回線105、データ回線108を介して符号変換装置103に入力する。
FIG. 6 is another configuration diagram of the
The communication system that is the conversion source time-division-multiplexes the voice code SCD1 and data DT encoded according to the first encoding method and sends them to the
符号変換装置103は、音声符号の性質に基いて適応的に音声符号SCD′へデータDTの埋め込みを行う。すなわち、符号変換部111は第1符号化方式の音声符号SCD1を第2符号化方式の音声符号SCD2′に変換し、FIFOバッファ構成のデータ保持部122は入力されたデータDTを保持する。埋め込み判定部123は、符号変換部111より出力された第2符号化方式の音声符号SCD2′を基にフレームあるいはサブフレーム単位で該音声符号にデータを埋め込むかどうか判定し、データを埋め込むと判定すればスイッチSW2を閉じ、データ保持部122は保持しているデータを古いものからフレームあるいはサブフレーム単位でデータ埋め込み部113に入力する。この結果、データ埋め込み部113は、第2符号化方式の音声符号SCD2′にデータ保持部122から出力するデータDTをフレーム単位で埋め込み、音声符号SCD2として音声回線106に送出する。
The
(c)第3のシステム
図7は本発明の第3のシステム概念図であり、第2のシステムとは逆に、変換元の通信システム101が音声回線105のみを持ち、変換先の通信システム102が音声回線106とデータ回線109を持つ場合を示している。
通信システム101における第1符号化方式の符号器104は、入力音声SP1を符号化すると共に該符号に音声データ以外の任意のデータ系列DTを埋め込み、音声符号SCD1として音声回線105に送出する。音声符号変換装置103は、第1符号化方式の音声符号SCD1を第2符号化方式の音声符号SCD2に変換するとともに、音声符号SCD1に埋め込まれているデータDTを抽出し、これら音声符号SCD2、データDTを各回線106,109に送出する。通信システム102はデータ回線109を介して入力したデータを出力すると共に、復号器107で音声符号SCD2を復号して再生音声SP2を出力する。なお、実際には音声符号SCD2、データDTは適所で時分割多重されて通信システム102に伝送され、通信システムで分離される。
(c) Third System FIG. 7 is a conceptual diagram of the third system of the present invention. Contrary to the second system, the conversion
The
図8は本発明の第3システムにおける符号変換装置103の構成図であり、図2の第1システムにおける符号変換装置と同一部分には同一符号を付している。異なる点は、(1)データ埋め込み部がなく、符号変換部111から出力する第2符号化方式の音声符号SCD2に埋め込みデータ抽出部112で抽出したデータDTを埋め込まない点、(2)データDTが第2符号化方式の音声符号SCD2とは別々に送出される点である。
変換元で第1符号化方式に従って符号化され、且つ、データDTが埋め込まれた音声符号SCD1は、フレーム単位で順番に符号変換部111と埋め込みデータ抽出部112に入力する。符号変換部111は第1符号化方式の音声符号SCD1を第2符号化方式の音声符号SCD2に変換して音声回線106に送出する。また、埋め込みデータ抽出部112は、音声符号SCD1に埋め込まれたデータDTを抽出してデータ回線109に送出する。回線多重部203は音声回線106 データ回線109を介して入力する音声符号SCD2及びデータDTを時分割多重して多重回線204に送出する。
FIG. 8 is a block diagram of the
The speech code SCD1 encoded at the conversion source according to the first encoding method and embedded with the data DT is input to the
図9は本発明の第3システムにおける符号変換装置103の別の構成図であり、図3の第1システムにおける符号変換装置と同一部分には同一符号を付している。図3と異なる点は、(1)データ保持部、埋め込み判定部、データ埋め込み部がない点、(2)符号変換部111から出力する音声符号SCD2にデータDTを埋め込まない点、(3)データDTが音声符号SCD2とは別々に送出される点である。
FIG. 9 is another configuration diagram of the
送信側の通信システムの符号器は,ゲイン(ピッチゲイン、代数符号帳ゲイン)がある閾値以下の場合は対応する符号(ピッチラグ符号、代数符号)の音声に対する寄与は小さいもの見なして、該符号のインデックスを任意のデータ系列DTで置き換える。この結果、第1符号化方式の音声符号SCD1には、データが埋め込まれている区間と埋め込まれていない区間が生じる。埋め込み判定部121は、音声符号SCD1から求まるゲインを基にフレームあるいはサブフレーム単位で該符号に別のデータが埋め込まれているかどうかを判定し、データが埋め込まれていると判定した場合には、スイッチSW1を閉じて音声符号SCD1を埋め込みデータ抽出部112に入力する。埋め込みデータ抽出部112は音声符号SCD1より埋め込みデータを抽出し、データ回線109に送出する。又、以上と並行して音声符号変換部111は第1符号化方式の音声符号SCD1を第2符号化方式の音声符号SCD2に変換して音声回線106に送出する。回線多重部203は音声回線106、データ回線109を介して入力する音声符号SCD2及びデータDTを時分割多重して多重回線204に送出する。
When the gain (pitch gain, algebraic codebook gain) is below a certain threshold, the encoder of the communication system on the transmitting side assumes that the contribution of the corresponding code (pitch lag code, algebraic code) to speech is small, and Replace the index with an arbitrary data series DT. As a result, a section in which data is embedded and a section in which data is not embedded are generated in the speech code SCD1 of the first encoding method. The embedding
(B)第1システムにおける実施例
(a)第1実施例
図10は本発明の第1システムにおける符号変換装置の構成図であり、埋め込み制御する場合の構成を示している。
この第1実施例では、任意のデータが埋め込まれているAMRの音声符号を、埋め込みデータを損なうことなくG.729Aの音声符号に変換する場合の例を示している。さらに、第1実施例では、変換元のAMRの符号器は、代数符号帳ゲインが設定値より小さければ、代数符号に割り当てられている17ビット/サブフレームすべてに任意のデータを埋め込み、代数符号帳ゲインが設定値より大きければ本来の代数符号データを埋め込むものとする。また、変換先のG.729Aの符号器も同様に代数符号帳ゲインに応じて代数符号に割り当てられている17bitすべてにデータを埋め込むものとする。
(B) Example in the first system
(a) First Embodiment FIG. 10 is a configuration diagram of a code conversion device in the first system of the present invention, and shows a configuration in the case of embedding control.
The first embodiment shows an example in which an AMR speech code in which arbitrary data is embedded is converted into a G.729A speech code without losing the embedded data. Further, in the first embodiment, the AMR encoder of the conversion source embeds arbitrary data in all 17 bits / subframes assigned to the algebraic code if the algebraic codebook gain is smaller than the set value, If the book gain is larger than the set value, the original algebraic code data is embedded. Similarly, the conversion destination G.729A encoder also embeds data in all 17 bits assigned to the algebraic code according to the algebraic codebook gain.
図10において、第mフレームのAMRの符号器出力である回線データbst1(m)が端子1を通して符号分離部114に入力すると、該符号分離部114は、回線データbst1(m)をAMRの要素符号(LSP符号1、ピッチラグ符号1、ピッチゲイン符号1、代数符号1、代数ゲイン符号1)に分離する。そして、これら要素符号を符号変換部111における各符号変換部(LSP符号変換部111a、ピッチラグ符号変換部111b、ピッチゲイン符号変換部111c、代数ゲイン符号変換部111d、代数符号変換部111e)へ入力する。各符号変換部111a〜111eは第1符号化方式の符号を第2符号化方式の符号に変換するが、その動作については従来技術と同じであるためここでは説明を省略する。以下では、データ埋め込みに関連した部分のみを説明する。
In FIG. 10, when the line data bst1 (m), which is the AMR encoder output of the m-th frame, is input to the
埋め込み判定部121は、代数ゲイン符号1から代数ゲイン逆量子化値(代数ゲイン)を求め、そのゲイン値に応じてスイッチSW1の切り替えを行う。すなわち、AMRの代数ゲイン値がある閾値よりも小さい場合は、埋め込みデータありと判定してスイッチSW1を閉じ、代数符号1を埋め込みデータ抽出部112に入力する。埋め込みデータ抽出部112は、代数符号に含まれる埋め込みデータDcodeを抽出してデータ保持部122へ出力する。本実施例では、AMRの代数符号(17ビット/サブフレーム)すべてにデータが埋め込まれているので、17bitのデータ系列を埋め込みデータDcodeとしてそのまま切り出す。FIFO構成のデータ保持部122は、入力されたデータ系列を古い順に格納して保持する。
The embedding
一方、埋め込み判定部123は、代数ゲイン符号変換部111dより入力された変換後のG.729Aの代数ゲイン符号2から代数ゲイン逆量子化値を求め、そのゲイン値に応じてスイッチSW2の切り替えを行う。すなわち、G.729Aの代数ゲイン値がある閾値よりも小さい場合は、データを埋め込むと判断してスイッチSW2を閉じ、データ保持部122からデータをデータ埋め込み部113に入力する。本実施例では、G.729Aの代数符号(17ビット/サブフレーム)すべてにデータを埋め込むため、データ保持部122は17ビットのデータをデータ埋め込み部113に入力する。データ埋め込み部113は、代数符号2に割り当てられている17ビットに入力されたデータを埋め込む。すなわち、G.729Aの代数符号(17ビット)すべてをデータ系列(17ビット)で置き換える。
On the other hand, the embedding
データを埋め込まれた代数符号2は、その他の要素符号と共に符号多重部115で多重化され、埋め込みデータを含んだG.729Aの第nフレームの回線データbst2(n)として、端子2より出力される。
この第1実施例によれば、AMRの音声符号bst1(m)における代数符号に任意のデータが埋め込まれている場合、埋め込みデータを損なうことなく、該データをG.729Aの代数符号に埋め込んだ音声符号bst2(n)へと変換することができる。これによりAMRとG.729A間で音声フォーマットを変更することなく、音声通信に加えデータ通信を行うことが可能となる。
以上では、AMR→G.729Aへの変換について説明したが、第1実施例のデータ抽出、データ埋め込みに関連する部分の構成は、G.729AからAMRへの逆変換時にも適用可能である。
The
According to the first embodiment, when arbitrary data is embedded in the algebraic code in the AMR speech code bst1 (m), the data is embedded in the algebraic code of G.729A without damaging the embedded data. It can be converted into a voice code bst2 (n). As a result, data communication can be performed in addition to voice communication without changing the voice format between AMR and G.729A.
Although the conversion from AMR to G.729A has been described above, the configuration of the portion related to data extraction and data embedding according to the first embodiment can also be applied at the time of reverse conversion from G.729A to AMR.
(b)第2実施例
図11は本発明の第1システムにおける符号変換装置の別の構成図であり、埋め込み制御する場合の構成を示しており、図10の第1実施例と同一部分には同一符号を付している。異なる点は、第1実施例では、代数ゲインが設定値より小さければ、代数符号に割り当てられている17ビット/サブフレームすべてに任意のデータを埋め込むものとしているが、第2実施例では、ピッチゲインが設定値より小さければ、ピッチラグ符号に割り当てられている8ビットあるいは5ビット/サブフレームすべてに任意のデータを埋め込むものとする点である。
(b) Second Embodiment FIG. 11 is another configuration diagram of the code conversion device in the first system of the present invention, showing a configuration in the case of embedding control, and in the same part as the first embodiment of FIG. Are given the same reference numerals. The difference is that in the first embodiment, if the algebraic gain is smaller than the set value, arbitrary data is embedded in all 17 bits / subframes assigned to the algebraic code. If the gain is smaller than the set value, arbitrary data is embedded in all 8 bits or 5 bits / subframe assigned to the pitch lag code.
埋め込み判定部121は、ピッチゲイン符号1からピッチゲイン逆量子化値(ピッチゲイン)を求め、そのゲイン値に応じてスイッチSW1の切り替えを行う。すなわち、AMRのピッチゲイン値がある閾値よりも小さい場合は、埋め込みデータありと判定してスイッチSW1を閉じ、ピッチラグ符号1を埋め込みデータ抽出部112に入力する。埋め込みデータ抽出部112は、ピッチラグ符号に含まれる埋め込みデータDcodeを抽出してデータ保持部122へ出力する。本実施例では、AMRのピッチラグ符号(8ビット又は6ビット/サブフレーム)すべてにデータが埋め込まれているので、8ビット又は6ビットのデータ系列を埋め込みデータDcodeとしてそのまま切り出す。FIFO構成のデータ保持部122は、入力されたデータ系列を古い順に格納して保持する。
The embedding
一方、埋め込み判定部123は、ピッチゲイン符号変換部111cより入力された変換後のG.729Aのピッチゲイン符号2からピッチゲイン逆量子化値を求め、そのゲイン値に応じてスイッチSW2の切り替えを行う。すなわち、G.729Aのピッチゲイン値がある閾値よりも小さい場合は、データを埋め込むと判断してスイッチSW2を閉じ、データ保持部122からデータをデータ埋め込み部113に入力する。本実施例では、G.729Aのピッチラグ符号(8ビット又は5ビット/サブフレーム)すべてにデータを埋め込むため、データ保持部122はサブフレームに応じて8ビット又は5ビットのデータをデータ埋め込み部113に入力する。データ埋め込み部113は、ピッチラグ符号2に割り当てられている8ビット又は5ビットに入力されたデータを埋め込む。
On the other hand, the embedding
データを埋め込まれたピッチラグ符号2は、その他の要素符号と共に符号多重部115で多重化され、埋め込みデータを含んだG.729Aの第nフレームの回線データbst2(n)として、端子2より出力される。
第2実施例によれば、AMRの音声符号bst1(m)のピッチラグ符号に任意のデータが埋め込まれている場合、埋め込みデータを損なうことなく、該データをG.729Aのピッチラグ符号に埋め込んだ音声符号bst2(n)へと変換することができる。これによりAMR(7.95kbps)とG.729A間で音声フォーマットを変更することなく、音声通信に加えデータ通信を行うことが可能となる。
以上では、AMR→G.729Aへの変換について説明したが、データ抽出、データ埋め込みに関連する部分の構成は、G.729AからAMRへの逆変換時やその他の符号変換時にも適用可能である。
The
According to the second embodiment, when arbitrary data is embedded in the pitch lag code of the AMR speech code bst1 (m), the voice is embedded in the pitch lag code of G.729A without damaging the embedded data. It can be converted into the code bst2 (n). As a result, it is possible to perform data communication in addition to voice communication without changing the voice format between AMR (7.95 kbps) and G.729A.
Although the conversion from AMR to G.729A has been described above, the configuration of the part related to data extraction and data embedding can also be applied at the time of reverse conversion from G.729A to AMR and other code conversions. .
(c)第3実施例
図12は本発明の第1システムにおける符号変換装置の別の構成図であり、埋め込み制御を行なわない場合の構成を示している。この第3実施例では、AMRの音声符号を埋め込みデータを損なうことなく、G.729Aの音声符号に変換する場合の例を示している。AMRの音声符号は図21〜図23を参照すると1フレーム20msecであり、5msec毎の4つのサブフレームを備え、各サブフレーム毎に17ビットの代数符号を有している。一方、G.729Aの音声符号は1フレーム10msecであり、5msec毎の2つのサブフレームを備え、各サブフレーム毎に17ビットの代数符号を有している。AMR,G729Aともに、この17ビットにより4つのパルス系統(表1参照)のパルス位置m0〜m3と極性s0〜s3が表現される。パルス位置m0〜m3と極性s0〜s3に対するビット割当は図13に示す通りである。
(C) Third Embodiment FIG. 12 is another configuration diagram of the code conversion apparatus in the first system of the present invention, and shows a configuration when embedding control is not performed. In the third embodiment, an example in which an AMR speech code is converted into a G.729A speech code without losing embedded data is shown. The AMR speech code is 20 msec per frame with reference to FIGS. 21 to 23, and includes four subframes every 5 msec, and each subframe has a 17-bit algebraic code. On the other hand, a G.729A speech code is 10 msec per frame, has two subframes every 5 msec, and each subframe has a 17-bit algebraic code. In both AMR and G729A, the pulse positions m0 to m3 and the polarities s0 to s3 of the four pulse systems (see Table 1) are expressed by these 17 bits. Bit assignments for the pulse positions m0 to m3 and the polarities s0 to s3 are as shown in FIG.
第3実施例において、変換元のAMRの符号器は例えば第4パス系統のパルス位置及び極性を示すm3,s3の5ビットにデータDcodeを埋め込む。埋め込みデータ抽出部112は常時、代数符号1に含まれる埋め込みデータDcodeを抽出してデータ埋め込み部113に入力する。データ埋め込み部113は、代数符号2に割り当てられている17ビットのうちm3,s3の5ビットに入力されたデータDcodeを埋め込む。データを埋め込まれた代数符号2は、その他の要素符号と共に符号多重部115で多重化され、埋め込みデータを含んだG.729Aの第nフレームの回線データbst2(n)として、端子2より出力される。
In the third embodiment, the AMR encoder of the conversion source embeds data Dcode in 5 bits of m3 and s3 indicating the pulse position and polarity of the fourth path system, for example. The embedded
以上第1のシステムによれば、変換元の第1符号化方式の音声符号SCD1から埋め込みデータDTを一旦抽出して、符号変換後の第2符号化方式の音声符号SCD2′に該データDTを再度埋め込むことにより、音声符号SCD1に埋め込まれたデータDTを損なうことなく、同データを埋め込んだ音声符号SCD2に変換することができる。
また、第1のシステムによれば、変換元と変換先で適応的に埋め込み制御が行われる場合、各符号化方式の埋め込み制御方法の相違により、あるいは従来の音声符号変換部での変換誤差により生じるデータ抽出と埋め込みのタイミングの差をデータ保持部により吸収することで、音声符号SCD1に埋め込まれたデータを損なうことなく、同データを埋め込んだ音声符号SCD2に変換することができる。
また、第1のシステムによれば、データ埋め込み技術を適用した音声回線を持つ音声通信システム間において、埋め込まれたデータを損なうことなく、しかも、音声符号フォーマットを変更することなく音声回線を介して音声とデータの両方の通信を行うことが可能となる。
As described above, according to the first system, the embedded data DT is once extracted from the speech code SCD1 of the first encoding method as the conversion source, and the data DT is added to the speech code SCD2 'of the second encoding method after the code conversion. By embedding again, the data DT embedded in the speech code SCD1 can be converted into the speech code SCD2 embedded in the data without damaging the data DT.
According to the first system, when adaptive embedding control is performed at the conversion source and the conversion destination, due to a difference in the embedding control method of each coding method or due to a conversion error in the conventional speech code conversion unit By absorbing the difference between the timing of data extraction and embedding that occurs by the data holding unit, the data embedded in the audio code SCD1 can be converted into the audio code SCD2 embedded in the same without damaging the data.
In addition, according to the first system, between voice communication systems having a voice line to which the data embedding technology is applied, the embedded data is not lost and the voice code format is not changed via the voice line. It is possible to perform both voice and data communication.
(C)本発明の第2のシステムの実施例
(a)第1実施例
図14は本発明の第2のシステムにおける音声符号変換装置の構成図であり、音声符号bst1(m)にデータDcodeが埋め込まれておらず、該データが音声符号と別回線で音声符号変換装置に入力される点が第1のシステムの実施例と異なる。回線多重部201は多重回線200を介して受信した多重データより音声符号bst1(m)とデータDcodeを分離し、端子1より音声符号bst1(m)を符号分離部114に入力し、端子3からデータDcodeを直接データ保持部122に入力する。
符号分離部114は、回線データbst1(m)をAMRの要素符号(LSP符号1、ピッチラグ符号1、ピッチゲイン符号1、代数符号1、代数ゲイン符号1)に分離し、これら要素符号を符号変換部111における各符号変換部(LSP符号変換部111a、ピッチラグ符号変換部111b、ピッチゲイン符号変換部111c、代数ゲイン符号変換部111d、代数符号変換部111e)へ入力する。各符号変換部111a〜111eは第1符号化方式の符号を第2符号化方式の符号に変換する。
(C) Embodiment of the second system of the present invention
(a) First Example FIG. 14 is a configuration diagram of a speech code conversion device in the second system of the present invention, in which data Dcode is not embedded in speech code bst1 (m), and the data is a speech code. It is different from the first system embodiment in that it is input to the speech code conversion device via a separate line. The
The
埋め込み判定部123は、代数ゲイン符号変換部111dより入力された変換後のG.729Aの代数ゲイン符号2から代数ゲイン逆量子化値を求め、そのゲイン値に応じてスイッチSW2の切り替えを行う。すなわち、G.729Aの代数ゲイン値がある閾値よりも小さい場合は、データを埋め込むと判断してスイッチSW2を閉じ、データ保持部122からデータをデータ埋め込み部113に入力する。データ埋め込み部113は、代数符号2に割り当てられている17ビットに入力されたデータを埋め込む。データを埋め込まれた代数符号2は、その他の要素符号と共に符号多重部115で多重化され、埋め込みデータを含んだG.729Aの第nフレームの回線データbst2(n)として、端子2より出力される。
The embedding
この実施例によれば、AMR側の通信システムにおいて、音声回線に加えデータ回線を持つ場合に、音声回線とデータ回線を介して別々に入力された音声符号bst1(m)とデータDcodeを、データを埋め込んだ音声符号bst2(n)に変換し、音声回線のみを持つG.729A側の通信システムへ伝送することができる。これにより、音声通信とデータ通信が可能な通信システム例えば第3世代携帯電話システム(音声符号化方式としてAMRが採用)から、音声回線のみを持つ通信システム例えば音声通信のみを行う従来の第2世代の携帯電話システム(G.729A)へ音声通信に加えてデータ通信を行うことが可能となる。 According to this embodiment, in the communication system on the AMR side, when there is a data line in addition to the voice line, the voice code bst1 (m) and the data Dcode input separately via the voice line and the data line are Can be converted to a voice code bst2 (n) embedded in the signal and transmitted to a communication system on the G.729A side having only a voice line. As a result, a communication system capable of voice communication and data communication, such as a third generation mobile phone system (AMR is adopted as a voice encoding method), a communication system having only a voice line, for example, a conventional second generation that performs only voice communication. In addition to voice communication, data communication can be performed with the mobile phone system (G.729A).
(a)第2実施例
図15は本発明の第2のシステムにおける音声符号変換装置の別の構成図であり、埋め込み制御を行なわない場合の構成を示している。この第2実施例では、音声符号bst1(m)にデータDcodeが埋め込まれておらず、該データが音声符号と別回線で音声符号変換装置に入力される。又、G729Aの代数符号は、17ビットにより4つのパルス系統の各パルス位置m0〜m3と極性s0〜s3を表現するから、第2実施例では例えば第4パス系統のパルス位置及び極性を示すm3, s3の5ビットにデータDcodeを埋め込むものとする。
回線多重部201は多重回線200を介して受信した多重データより音声符号bst1(m)とデータDcodeを分離し、端子1より音声符号bst1(m)を符号分離部114に入力し、端子3からデータDcodeを直接データ埋め込み部113に入力する。
符号分離部114は、回線データbst1(m)をAMRの要素符号(LSP符号1、ピッチラグ符号1、ピッチゲイン符号1、代数符号1、代数ゲイン符号1)に分離し、これら要素符号を符号変換部111における各符号変換部(LSP符号変換部111a、ピッチラグ符号変換部111b、ピッチゲイン符号変換部111c、代数ゲイン符号変換部111d、代数符号変換部111e)へ入力する。各符号変換部111a〜111eは第1符号化方式の符号を第2符号化方式の符号に変換する。
(a) Second Embodiment FIG. 15 is another configuration diagram of the speech code conversion apparatus in the second system of the present invention, and shows a configuration when embedding control is not performed. In the second embodiment, the data Dcode is not embedded in the speech code bst1 (m), and the data is input to the speech code conversion device through a separate line from the speech code. In addition, since the algebraic code of G729A represents each pulse position m0 to m3 and the polarity s0 to s3 of the four pulse systems by 17 bits, in the second embodiment, for example, m3 indicating the pulse position and polarity of the fourth path system , Data Dcode is embedded in 5 bits of s3.
The
The
データ埋め込み部113は、代数符号2に割り当てられている17ビットのうちm3,s3の5ビットに入力されたデータDcodeを埋め込む。データを埋め込まれた代数符号2は、その他の要素符号と共に符号多重部115で多重化され、埋め込みデータを含んだG.729Aの第nフレームの回線データbst2(n)として、端子2より出力される。
The
以上第2のシステムによれば、音声回線と別にデータ回線を持つ通信システムから音声回線のみを持つ通信システムへ音声符号フォーマットを変更することなく、音声通信とデータ通信を行うことが可能となる。
以上では、AMR→G.729Aへの変換について説明したが、G.729AからAMRへの逆変換時、その他の符号変換時にも適用可能である。又、以上では、代数ゲインに応じて代数符号にデータを埋め込む場合について説明したが、ピッチゲインに応じてピッチラグ符号にデータを埋め込むようにすることもできる。
As described above, according to the second system, it is possible to perform voice communication and data communication without changing the voice code format from a communication system having a data line separately from a voice line to a communication system having only a voice line.
Although the conversion from AMR to G.729A has been described above, the present invention can also be applied during reverse conversion from G.729A to AMR and other code conversions. In the above description, the case where data is embedded in an algebraic code in accordance with an algebraic gain has been described. However, data may be embedded in a pitch lag code in accordance with a pitch gain.
(D)本発明の第3のシステム
(a)第1実施例
図16は本発明の第3のシステムにおける音声符号変換装置の構成図であり、埋め込みデータを適応的に抽出する場合の構成を示している。この実施例において、第1の符号化方式はG.729A、第2の符号化方式はAMR(7.95kbps)であり、符号変換装置はG.729Aの音声符号をAMRの音声符号に変換して伝送すると共に、G.729Aの音声符号に埋め込まれていたデータを抽出して音声符号と別々に伝送する。また、変換元のG.729Aの符号器(図示せず)は、代数ゲインが設定値より小さければ、代数符号に割り当てられている17ビット/サブフレームすべてに任意のデータを埋め込み、代数ゲインが設定値より大きければ本来の代数符号データを埋め込むものとする。
(D) Third system of the present invention
(a) First Embodiment FIG. 16 is a configuration diagram of a speech code conversion apparatus in the third system of the present invention, and shows a configuration when adaptively extracting embedded data. In this embodiment, the first encoding scheme is G.729A, the second encoding scheme is AMR (7.95 kbps), and the code converter converts the G.729A speech code into an AMR speech code. At the same time, the data embedded in the G.729A speech code is extracted and transmitted separately from the speech code. Also, the conversion source G.729A encoder (not shown) embeds arbitrary data in all 17 bits / subframes assigned to the algebraic code if the algebraic gain is smaller than the set value, and the algebraic gain is If it is larger than the set value, the original algebraic code data is embedded.
第mフレームのG.729Aの符号器出力である回線データbst1(m)が端子1を通して符号分離部114に入力すると、該符号分離部114は、回線データbst1(m)をG.729Aの要素符号(LSP符号1、ピッチラグ符号1、ピッチゲイン符号1、代数符号1、代数ゲイン符号1)に分離する。そして、これら要素符号を符号変換部111における各符号変換部(LSP符号変換部111a、ピッチラグ符号変換部111b、ピッチゲイン符号変換部111c、代数ゲイン符号変換部111d、代数符号変換部111e)へ入力する。各符号変換部111a〜111eはG.729Aの符号をAMRの符号に変換し、符号多重部115は各AMRの符号を多重して音声符号bst2(n)として回線多重部203に入力する。
When the line data bst1 (m), which is the G.729A encoder output of the m-th frame, is input to the
以上と並行して、埋め込み判定部121は、代数ゲイン符号1から代数ゲイン逆量子化値(代数ゲイン)を求め、そのゲイン値に応じてスイッチSW1の切り替えを行う。すなわち、G.729Aの代数ゲイン値がある閾値よりも小さい場合は、埋め込みデータありと判定してスイッチSW1を閉じ、代数符号1を埋め込みデータ抽出部112に入力する。埋め込みデータ抽出部112は、代数符号に含まれる埋め込みデータDcodeを抽出して回線多重部203に入力する。G.729Aの代数符号(17ビット/サブフレーム)すべてにデータが埋め込まれているので、17bitのデータ系列を埋め込みデータDcodeとしてそのまま切り出して回線多重部203に入力する。
回線多重部203は入力する音声符号bst2(n)及びデータDcode を多重して多重回線204に送出する。
In parallel with the above, the embedding
The
(b)第2実施例
図17は本発明の第3のシステムにおける音声符号変換装置の別の構成図であり、埋め込みデータが代数符号に常に挿入されている場合である。この実施例において、第1の符号化方式はG.729A、第2の符号化方式はAMR(7.95kbps)であり、音声符号変換装置はG.729Aの音声符号をAMRの音声符号に変換して伝送すると共に、G.729Aの音声符号に埋め込まれていたデータを抽出して音声符号と別回線で伝送する。また、変換元のG.729Aの符号器は、代数符号のm3, s3の5ビット(図13参照)にデータDcodeを埋め込むものとする。
(b) Second Embodiment FIG. 17 is another configuration diagram of the speech code conversion apparatus in the third system of the present invention, in which embedded data is always inserted in an algebraic code. In this embodiment, the first encoding method is G.729A, the second encoding method is AMR (7.95 kbps), and the speech code converter converts the G.729A speech code into an AMR speech code. The data embedded in the G.729A speech code is extracted and transmitted on a separate line from the speech code. Also, the G.729A encoder as the conversion source embeds data Dcode in 5 bits (see FIG. 13) of algebraic codes m3 and s3.
第mフレームのG.729Aの符号器出力である回線データbst1(m)が端子1を通して符号分離部114に入力すると、該符号分離部114は、回線データbst1(m)をG.729Aの要素符号(LSP符号1、ピッチラグ符号1、ピッチゲイン符号1、代数符号1、代数ゲイン符号1)に分離する。そして、これら要素符号を符号変換部111における各符号変換部(LSP符号変換部111a、ピッチラグ符号変換部111b、ピッチゲイン符号変換部111c、代数ゲイン符号変換部111d、代数符号変換部111e)へ入力する。各符号変換部111a〜111eはG.729Aの符号をAMRの符号に変換し、符号多重部115は各AMRの符号を多重して音声符号bst2(n)として回線多重部203に入力する。
When the line data bst1 (m), which is the G.729A encoder output of the m-th frame, is input to the
以上と並行して、埋め込みデータ抽出部112は、代数符号に含まれる埋め込みデータDcodeを抽出して回線多重部203に入力する。G.729Aの代数符号m3,s3ビット位置にデータが埋め込まれているので、該データを切り取って埋め込みデータDcodeとして回線多重部203に入力する。回線多重部203は入力する音声符号bst2(n)及びデータDcode を多重して多重回線204に送出する。
第3のシステムによれば、音声回線のみを持つ通信システムから音声回線と別にデータ回線を持つ通信システムへ音声符号フォーマットを変更することなく、音声通信とデータ通信を行うことが可能となる。
以上では、G.729A→AMRへの変換について説明したが、その他の符号変換時にも適用可能である。又、以上では、代数ゲインに応じて代数符号にデータを埋め込む場合について説明したが、ピッチゲインに応じてピッチラグ符号にデータを埋め込むようにすることもできる。
In parallel with the above, the embedded
According to the third system, voice communication and data communication can be performed without changing the voice code format from a communication system having only a voice line to a communication system having a data line separately from the voice line.
Although the conversion from G.729A to AMR has been described above, the present invention can also be applied to other code conversions. In the above description, the case where data is embedded in an algebraic code in accordance with an algebraic gain has been described. However, data may be embedded in a pitch lag code in accordance with a pitch gain.
・付記
(付記1) 入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換方法において、第1音声符号に任意のデータが埋め込まれている場合、該第1音声符号を第2音声符号に変換すると共に、該第1音声符号から埋め込みデータを抽出し、前記変換により得られる第2音声符号に前記抽出したデータを埋め込む、ことを特徴とする音声符号変換方法。
(付記2)
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば第1音声符号より前記埋め込みデータを抽出する、ことを特徴とする付記1記載の音声符号変換方法。
(付記3)
前記抽出した埋め込みデータをデータ保持部に保存すると共に、該データ保持部より埋め込みデータを読み出して第2音声符号に埋め込む、ことを特徴とする付記2記載の音声符号変換方法。
(付記4)
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、送信元から受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば該第1音声符号より前記埋め込みデータを抽出し、該抽出した埋め込みデータを保持し、前記変換により得られた第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視し、満たされている場合、前記保持されているデータで該第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む、ことを特徴とする付記1記載の音声符号変換方法。
(付記5)
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換方法において、第1音声符号とデータを送信元から別々に受信し、第1音声符号を第2音声符号に変換し、該変換により得られた第2音声符号に前記データを埋め込んで送信先へ送信する、ことを特徴とする音声符号変換方法。
(付記6)
前記第1音声符号を音声回線より、前記データをデータ回線よりそれぞれ受信し、前記データが埋め込まれた第2音声符号を音声回線を介して送信先へ送信する、ことを特徴とする付記5記載の音声符号変換方法。
(付記7)
前記受信したデータをデータ保持部に保存し、前記第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視し、満たされている場合、前記データ保持部に保存されているデータで第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む、ことを特徴とする付記5記載の音声符号変換方法。
(付記8)
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換方法において、第1音声符号を受信し、該第1音声符号に任意のデータが埋め込まれている場合、該第1音声符号を第2音声符号に変換すると共に、該第1音声符号から埋め込みデータを抽出し、前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信する、ことを特徴とする音声符号変換方法。
(付記9)
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば該第1音声符号より前記埋め込みデータを抽出する、ことを特徴とする付記8記載の音声符号変換方法。
(付記10)
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換装置において、第1音声符号に任意のデータが埋め込まれている場合、第1音声符号を第2音声符号に変換する符号変換部、該第1音声符号から埋め込みデータを抽出する埋め込みデータ抽出部、前記変換により得られる第2音声符号に前記抽出したデータを埋め込むデータ埋め込み部、を備えたことを特徴とする音声符号変換装置。
(付記11)
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、前記埋め込みデータ抽出部は受信した第1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば第1音声符号より前記埋め込みデータを抽出する、ことを特徴とする付記10記載の音声符号変換装置。
(付記12)
更に、前記抽出した埋め込みデータを保存するデータ保持部を備え、前記埋め込みデータ抽出部は該データ保持部に前記抽出した埋め込みデータを保存すると共に、前記データ埋め込み部は該データ保持部より埋め込みデータを読み出して第2音声符号に埋め込む、ことを特徴とする付記11記載の音声符号変換装置。
(付記13)
前記埋め込みデータ抽出部は、前記第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視し、満たされている場合、前記データ保持部に保存されているデータで第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む、ことを特徴とする付記12記載の音声符号変換装置。
(付記14)
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換装置において、第1音声符号とデータを送信元から別々に受信する受信手段、第1音声符号を第2音声符号に変換する符号変換部、該変換により得られた第2音声符号に前記データを埋め込んで送信先へ送信するデータ埋め込み部、を有することを特徴とする音声符号変換装置。
(付記15)
音声符号変換装置は更に前記データを保存するデータ保持部を備え、データ埋め込み部は、前記第2音声符号を構成する所定の要素符号の逆量子化値を参照してデータ埋め込み条件が満たされているか監視する手段、満たされている場合、前記データ保持部に保存されているデータで第2音声符号の一部を置き換えることによりデータを第2音声符号に埋め込む手段、を有することを特徴とする付記14記載の音声符号変換装置。
(付記16)
入力音声を第1音声符号化方式により符号化した第1音声符号を第2音声符号化方式による第2音声符号に変換する音声符号変換装置において、送信元から受信した第1音声符号に任意のデータが埋め込まれている場合、該第1音声符号を第2音声符号に変換する符号変換部、該第1音声符号から埋め込みデータを抽出する埋め込みデータ抽出部、前記変換により得られる第2音声符号と前記抽出したデータを別々に送信先に送信する手段、を備えたことを特徴とする音声符号変換装置。
(付記17)
送信元において、データ埋め込み条件が満たされた時、第1音声符号の一部を前記データで置き換えることにより、第1音声符号にデータを埋め込んだ場合、前記埋め込みデータ抽出部は、送信元から受信した1音声符号を構成する所定の要素符号の逆量子化値を参照して前記データ埋め込み条件が満たされているか監視し、データ埋め込み条件が満たされていれば第1音声符号より前記埋め込みデータを抽出する、ことを特徴とする付記16記載の音声符号変換装置。
・ Supplementary note (Supplementary note 1) In the speech code conversion method for converting the first speech code obtained by encoding the input speech by the first speech coding method into the second speech code by the second speech coding method, the first speech code is arbitrarily selected. Is embedded, the first speech code is converted into a second speech code, embedded data is extracted from the first speech code, and the extracted data is extracted into the second speech code obtained by the conversion. A speech code conversion method characterized by embedding.
(Appendix 2)
When the data embedding condition is satisfied at the transmission source, when the data is embedded in the first speech code by replacing a part of the first speech code with the data, a predetermined constituent of the received first speech code Additional information characterized by monitoring whether the data embedding condition is satisfied with reference to an inverse quantized value of an element code, and extracting the embedded data from the first speech code if the data embedding condition is satisfied The speech code conversion method according to 1.
(Appendix 3)
3. The speech code conversion method according to
(Appendix 4)
When the data embedding condition is satisfied at the transmission source, when the data is embedded in the first audio code by replacing a part of the first audio code with the data, the first audio code received from the transmission source is configured. Monitoring whether the data embedding condition is satisfied with reference to a dequantized value of the predetermined element code, extracting the embedded data from the first speech code if the data embedding condition is satisfied, and extracting Holding the embedded data, and monitoring whether the data embedding condition is satisfied with reference to the inverse quantization value of the predetermined element code constituting the second speech code obtained by the conversion, The speech code conversion method according to
(Appendix 5)
In the voice code conversion method for converting the first voice code obtained by encoding the input voice by the first voice coding method into the second voice code by the second voice coding method, the first voice code and the data are separately transmitted from the transmission source. A speech code conversion method comprising: receiving, converting a first speech code into a second speech code, embedding the data in a second speech code obtained by the conversion, and transmitting the data to a transmission destination.
(Appendix 6)
The
(Appendix 7)
When the received data is stored in a data holding unit, and monitored whether the data embedding condition is satisfied with reference to a dequantized value of a predetermined element code constituting the second speech code, 6. The speech code conversion method according to
(Appendix 8)
In a speech code conversion method for converting a first speech code obtained by encoding an input speech using a first speech encoding method into a second speech code using a second speech encoding method, the first speech code is received, and the first speech code is received. When arbitrary data is embedded in the code, the first speech code is converted into a second speech code, and the embedded data is extracted from the first speech code, and the second speech code obtained by the conversion and the A speech code conversion method, wherein the extracted data is separately transmitted to a transmission destination.
(Appendix 9)
When the data embedding condition is satisfied at the transmission source, when the data is embedded in the first speech code by replacing a part of the first speech code with the data, a predetermined constituent of the received first speech code Monitoring whether the data embedding condition is satisfied by referring to an inverse quantization value of an element code, and extracting the embedded data from the first speech code if the data embedding condition is satisfied The voice code conversion method according to
(Appendix 10)
In a speech code conversion apparatus that converts a first speech code obtained by encoding an input speech using a first speech encoding method into a second speech code using a second speech encoding method, arbitrary data is embedded in the first speech code. A code conversion unit that converts the first speech code into a second speech code, an embedded data extraction unit that extracts embedded data from the first speech code, and the extracted data in the second speech code obtained by the conversion A speech code conversion device comprising a data embedding unit to be embedded.
(Appendix 11)
When the data embedding condition is satisfied at the transmission source, when the data is embedded in the first speech code by replacing a part of the first speech code with the data, the embedded data extraction unit receives the received first speech code Monitoring whether or not the data embedding condition is satisfied with reference to an inverse quantization value of a predetermined element code constituting the code, and extracting the embedded data from the first speech code if the data embedding condition is satisfied; The speech code conversion device according to
(Appendix 12)
And a data holding unit for storing the extracted embedded data. The embedded data extracting unit stores the extracted embedded data in the data holding unit, and the data embedding unit stores the embedded data from the data holding unit. The speech code conversion device according to
(Appendix 13)
The embedded data extraction unit monitors whether a data embedding condition is satisfied with reference to an inverse quantization value of a predetermined element code constituting the second speech code. 13. The speech code conversion device according to
(Appendix 14)
In a speech code conversion device for converting a first speech code obtained by encoding an input speech using a first speech encoding method into a second speech code using a second speech encoding method, the first speech code and data are separately transmitted from a transmission source. Receiving means for receiving, a code converting unit for converting the first speech code into the second speech code, and a data embedding unit for embedding the data in the second speech code obtained by the conversion and transmitting it to the transmission destination A speech code conversion device.
(Appendix 15)
The speech code conversion apparatus further includes a data holding unit that stores the data, and the data embedding unit refers to a dequantized value of a predetermined element code constituting the second speech code and satisfies a data embedding condition. Means for monitoring whether or not, if satisfied, means for embedding data in the second voice code by replacing a part of the second voice code with the data stored in the data holding unit. The speech code converter according to
(Appendix 16)
In a speech code conversion apparatus that converts a first speech code obtained by encoding an input speech using a first speech encoding method into a second speech code using a second speech encoding method, the first speech code received from a transmission source is arbitrarily set. When data is embedded, a code conversion unit that converts the first speech code into a second speech code, an embedded data extraction unit that extracts embedded data from the first speech code, and a second speech code obtained by the conversion And a means for separately transmitting the extracted data to a transmission destination.
(Appendix 17)
When the data embedding condition is satisfied at the transmission source, when the data is embedded in the first audio code by replacing a part of the first audio code with the data, the embedded data extraction unit receives the data from the transmission source. The data embedding condition is monitored by referring to a dequantized value of a predetermined element code constituting one voice code, and if the data embedding condition is satisfied, the embedded data is obtained from the first voice code. The speech code conversion device according to
以上、本発明によれば、変換元の第1符号化方式の音声符号から埋め込みデータを一旦抽出して、符号変換後の第2符号化方式の音声符号に該データを再度埋め込むことにより、第1符号化方式の音声符号に埋め込まれたデータを損なうことなく、同データを埋め込んだ第2符号化方式の音声符号に変換することができる。
また、本発明によれば、変換元と変換先で適応的に埋め込み制御が行われる場合、各符号化方式の埋め込み制御方法の相違により、あるいは従来の音声符号変換部での変換誤差により生じるデータ抽出と埋め込みのタイミングの差をデータ保持部により吸収することで、第1符号化方式の音声符号に埋め込まれたデータを損なうことなく、同データを埋め込んだ第2符号化方式の音声符号に変換することができる。
As described above, according to the present invention, the embedding data is once extracted from the speech code of the first encoding method as the conversion source, and the data is re-embedded in the speech code of the second encoding method after the code conversion. Without damaging the data embedded in the speech code of one encoding method, it can be converted into the speech code of the second encoding method embedded with the same data.
Further, according to the present invention, when adaptive embedding control is performed between the conversion source and the conversion destination, data generated due to a difference in the embedding control method of each encoding method or due to a conversion error in the conventional speech code conversion unit The difference between the timing of extraction and embedding is absorbed by the data holding unit, so that the data embedded in the first encoding speech code is converted to the second encoding speech code embedded with the same data without damaging the data. can do.
また、本発明によれば、データ埋め込み技術を適用した音声回線を持つ音声通信システム間において、埋め込まれたデータを損なうことなく、しかも、音声符号フォーマットを変更することなく音声回線を介して音声とデータの両方の通信を行うことが可能となる。
また、本発明によれば、変換元のシステムより第1符号化方式の音声符号とデータが別回線で音声符号変換部に入力された場合、該音声符号変換部は符号変換後の第2符号化方式の音声符号に前記データを埋め込むことにより変換先へ音声回線のみで伝送することが可能となる。
また、本発明によれば、変換元のシステムより音声回線を介して任意のデータDTが埋め込まれた第1符号化方式の音声符号が入力された場合に、音声符号変換部は該音声符号から埋め込みデータを抽出してデータ回線に送出すると共に第1符号化方式の音声符号を第2符号化方式の音声符号に変換して音声回線に送出することにより、変換元の音声回線によって伝送された音声情報とデータ情報とを変換先の音声回線とデータ回線に分離して伝送することが可能となる。
Further, according to the present invention, between voice communication systems having a voice line to which the data embedding technique is applied, voice and voice can be transmitted via the voice line without damaging the embedded data and without changing the voice code format. Both data communications can be performed.
Further, according to the present invention, when the voice code and data of the first encoding method are input to the voice code conversion unit through separate lines from the conversion source system, the voice code conversion unit performs the second code after code conversion. By embedding the data in the voice code of the encoding method, it becomes possible to transmit to the conversion destination only by the voice line.
Further, according to the present invention, when a speech code of the first encoding method in which arbitrary data DT is embedded via a speech line is input from the conversion source system, the speech code conversion unit converts the speech code from the speech code. The embedded data is extracted and sent to the data line, and the voice code of the first coding method is converted into the voice code of the second coding method and sent to the voice line. It is possible to transmit the voice information and the data information separately on the voice line and the data line to be converted.
また、本発明によれば、音声回線のみを持つ通信システムと音声回線と別にデータ回線を持つ通信システム間において、音声符号フォーマットを変更することなく、音声通信とデータ通信を行うことが可能となる。
今後、マルチメディア情報通信の普及を背景に、従来携帯電話システムと次世代携帯電話システム間の通信、またはVoIPと携帯電話等のモバイルシステム間の通信等、多様な通信システム間の通信において、データ埋め込み技術と音声符号変換技術を併用した技術の必要性は高いため、本発明の効果は大きい。
Also, according to the present invention, it is possible to perform voice communication and data communication between a communication system having only a voice line and a communication system having a data line separately from the voice line, without changing the voice code format. .
In the future, with the spread of multimedia information communication, data will be used in communication between various communication systems, such as communication between conventional mobile phone systems and next-generation mobile phone systems, or communication between mobile systems such as VoIP and mobile phones. Since there is a high need for a technique using both the embedding technique and the voice code conversion technique, the effect of the present invention is great.
101 変換元の通信システム
102 変換先の通信システム
103 音声符号変換装置
104 第1符号化方式の符号器
105 音声回線
106 音声回線
107 第2符号化方式の復号器
108 データ回線
DESCRIPTION OF
Claims (3)
第1音声符号とデータを送信元から別々に受信する第1ステップ、
第1音声符号を第2音声符号に変換する第2ステップ、
該変換により得られた第2音声符号に前記データを埋め込んで送信先へ送信する第3ステップを備え、前記第3ステップは、
前記受信したデータをデータ保持部に保存し、
前記第2音声符号を構成する第1要素符号であるピッチ音源の符号のゲインあるいは雑音音源の符号のゲインが閾値より小さくなってデータ埋め込み条件が満たされているか監視し、
データ埋め込み条件が満たされた時、該第2音声符号を構成する第2の要素符号であって条件が満たされている前記ピッチ音源の符号のゲインあるいは雑音音源の符号のゲインに対応する適応符号あるいは雑音符号を、前記データ保持部に保存されているデータで置き換えることにより該第2音声符号にデータを埋め込む、
ことを特徴とする音声符号変換方法。 In a speech code conversion method for converting a first speech code obtained by encoding an input speech by a first speech encoding method into a second speech code by a second speech encoding method,
A first step of separately receiving a first speech code and data from a source;
A second step of converting the first speech code into a second speech code;
A third step of embedding the data in a second speech code obtained by the conversion and transmitting the data to a transmission destination;
Storing the received data in a data holding unit;
Monitoring whether the gain of the code of the pitch sound source or the code of the noise sound source which is the first element code constituting the second speech code is smaller than a threshold value and the data embedding condition is satisfied,
When the data embedding condition is satisfied, the adaptive code corresponding to the gain of the code of the pitch sound source or the code of the noise sound source that is the second element code constituting the second speech code and the condition is satisfied Alternatively , the data is embedded in the second speech code by replacing the noise code with data stored in the data holding unit,
A speech code conversion method characterized by the above.
ことを特徴とする請求項1記載の音声符号変換方法。 Receiving the first voice code from a voice line and the data from a data line, and transmitting the second voice code in which the data is embedded to a destination via the voice line;
The speech code conversion method according to claim 1, wherein:
第1音声符号とデータを送信元から別々に受信する受信手段、
第1音声符号を第2音声符号に変換する符号変換部、
該変換により得られた第2音声符号に前記データを埋め込んで送信先へ送信するデータ埋め込み部、
を備え、前記データ埋め込み部は、
前記データを保存するデータ保持部、
前記第2音声符号を構成する第1要素符号であるピッチ音源の符号のゲインあるいは雑音音源の符号のゲインが閾値より小さくなってデータ埋め込み条件が満たされているか監視する手段、
データ埋め込み条件が満たされた時、該第2音声符号を構成する第2の要素符号であって条件が満たされている前記ピッチ音源の符号のゲインあるいは雑音音源の符号のゲインに対応する適応符号あるいは雑音符号を、前記データ保持部に保存されているデータで置き換えることにより該第2音声符号にデータを埋め込む手段、
を有することを特徴とする音声符号変換装置。 In a speech code conversion apparatus for converting a first speech code obtained by encoding an input speech by a first speech encoding method into a second speech code by a second speech encoding method,
Receiving means for separately receiving the first voice code and data from the transmission source;
A code converter for converting the first voice code into the second voice code;
A data embedding unit that embeds the data in the second speech code obtained by the conversion and transmits the data to a destination;
The data embedding unit includes:
A data holding unit for storing the data;
Means for monitoring whether a gain of a code of a pitch sound source or a code of a noise sound source which is a first element code constituting the second audio code is smaller than a threshold value and a data embedding condition is satisfied;
When the data embedding condition is satisfied, the adaptive code corresponding to the gain of the code of the pitch sound source or the code of the noise sound source that is the second element code constituting the second speech code and the condition is satisfied Alternatively, means for embedding data in the second speech code by replacing a noise code with data stored in the data holding unit,
A speech code conversion device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006199108A JP4347323B2 (en) | 2006-07-21 | 2006-07-21 | Speech code conversion method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006199108A JP4347323B2 (en) | 2006-07-21 | 2006-07-21 | Speech code conversion method and apparatus |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002026957A Division JP4330303B2 (en) | 2002-02-04 | 2002-02-04 | Speech code conversion method and apparatus |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009029787A Division JP4900402B2 (en) | 2009-02-12 | 2009-02-12 | Speech code conversion method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006293405A JP2006293405A (en) | 2006-10-26 |
JP4347323B2 true JP4347323B2 (en) | 2009-10-21 |
Family
ID=37413957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006199108A Expired - Fee Related JP4347323B2 (en) | 2006-07-21 | 2006-07-21 | Speech code conversion method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4347323B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG170078A1 (en) * | 2006-12-13 | 2011-04-29 | Panasonic Corp | Encoding device, decoding device, and method thereof |
WO2012026741A2 (en) * | 2010-08-24 | 2012-03-01 | 엘지전자 주식회사 | Method and device for processing audio signals |
-
2006
- 2006-07-21 JP JP2006199108A patent/JP4347323B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006293405A (en) | 2006-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8340973B2 (en) | Data embedding device and data extraction device | |
US7310596B2 (en) | Method and system for embedding and extracting data from encoded voice code | |
KR101513184B1 (en) | Concealment of transmission error in a digital audio signal in a hierarchical decoding structure | |
JP4263412B2 (en) | Speech code conversion method | |
JP2002202799A (en) | Voice code conversion apparatus | |
JP2019066868A (en) | Voice encoder and voice encoding method | |
NO339287B1 (en) | Sub-band voice codec with multistage codebook and redundant coding | |
KR102302012B1 (en) | Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program | |
JP2005031683A (en) | Devices and method for encoding and decoding bit-rate extended speech, and method therefor | |
JP4330346B2 (en) | Data embedding / extraction method and apparatus and system for speech code | |
JP2005338200A (en) | Device and method for decoding speech and/or musical sound | |
JP5313967B2 (en) | Bit rate extended speech encoding and decoding apparatus and method | |
WO2006009075A1 (en) | Sound encoder and sound encoding method | |
JP4347323B2 (en) | Speech code conversion method and apparatus | |
JP2004069963A (en) | Voice code converting device and voice encoding device | |
JP4330303B2 (en) | Speech code conversion method and apparatus | |
JP4900402B2 (en) | Speech code conversion method and apparatus | |
US20030158730A1 (en) | Method and apparatus for embedding data in and extracting data from voice code | |
JP4236675B2 (en) | Speech code conversion method and apparatus | |
JP6713424B2 (en) | Audio decoding device, audio decoding method, program, and recording medium | |
KR100542435B1 (en) | Method and apparatus for frame loss concealment for packet network | |
EP1542422B1 (en) | Two-way communication system, communication instrument, and communication control method | |
JP2004020676A (en) | Speech coding/decoding method, and speech coding/decoding apparatus | |
JP2010044408A (en) | Speech code conversion method | |
JP2004020675A (en) | Method and apparatus for encoding/decoding speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060721 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090617 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090714 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090715 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130724 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |