JP3580906B2 - Voice decoding device - Google Patents

Voice decoding device Download PDF

Info

Publication number
JP3580906B2
JP3580906B2 JP17388695A JP17388695A JP3580906B2 JP 3580906 B2 JP3580906 B2 JP 3580906B2 JP 17388695 A JP17388695 A JP 17388695A JP 17388695 A JP17388695 A JP 17388695A JP 3580906 B2 JP3580906 B2 JP 3580906B2
Authority
JP
Japan
Prior art keywords
prediction coefficient
value
prediction
average
background noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17388695A
Other languages
Japanese (ja)
Other versions
JPH098680A (en
Inventor
一郎 松本
治 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Kokusai Electric Inc
Original Assignee
Hitachi Kokusai Electric Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Kokusai Electric Inc filed Critical Hitachi Kokusai Electric Inc
Priority to JP17388695A priority Critical patent/JP3580906B2/en
Publication of JPH098680A publication Critical patent/JPH098680A/en
Application granted granted Critical
Publication of JP3580906B2 publication Critical patent/JP3580906B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Noise Elimination (AREA)

Description

【0001】
【産業上の利用分野】
本発明は音声符号化通信における音声復号装置に関し、特に、符号化方式に適応差分PCM(ADPCM)方式を適用した音声復号装置に関するものである。
【0002】
【従来の技術】
音声による通信が行われている場合、通話者のどちらか一方が発声している時間率は約35%であるといわれている。
近年、個人主体の通信であるパーソナルコミュニケーションがその範囲を拡大してきている。そこでは携帯に便利な端末を利用した音声通信が主体である。このような携帯端末に要求される事項として、第1にコードレス化が挙げられる。第2に携帯に便利なように電池が使用され長時間にわたる使用に耐える必要があるため回路消費電力の低減化が要求されている。
【0003】
回路消費電力の従来の低減方法として、音声の発声時間率に着目し発声している時のみ送信回路を動作させ、その他の送信時間は回路を休止状態にする方法がある。このような技術を実現するためには送信側に音声検出機能を設けて有音区間のみ送信する不連続送信装置を付加すればよい。その場合に問題となるのは受信側である。すなわち、受信側では再生音声が断続する為に非常に不愉快な音声になる。この原因は、音声を伝送しているときは音声に背景雑音が重畳されているが、音声がないときは背景雑音が伝送されない。すなわち、背景雑音は音声信号がある時のみ変調されて伝送されるためであることが知られている。
このような問題点を解決する方法として、受信側で音声信号が伝送されて来ない無音区間は送信側の背景雑音に類似した擬似背景雑音を発生させる方法が知られている。
【0004】
本発明は受信側の復号器を対象とするものであるが、受信側の復号器には送信側の符号化器と同じ構成部分があるので、送信側のADPCM符号化器について概要を説明する。
図5は送信側符号化器のブロック図である。図において、51は64kb/sのμ則PCM入力信号を線形13ビットPCMに変換する均一PCM変換器である。
52は均一PCM変換器51の出力から適応予測器53の出力である予測信号jを差し引いて差分信号kを得る減算器52である。この差分信号kは適応量子化器54により量子化され、ADPCM音声符号化器の出力として32kb/sの音声データが伝送路に送出される。
一方、適応逆量子化器56は、32kb/sの出力音声データを適応逆量子化して量子化差分信号mを出力する。加算器55は、量子化差分信号mと予測信号jを加算して再生信号nを出力する。
適応予測器53は、予測係数を算出しそれを用いて量子化差分信号mおよび再生信号nから予測信号jを生成して出力する。
【0005】
適応予測器53が予測信号jを生成するために算出する予測係数は、ある時点の標本値を、隣接する過去の2つの標本値で予測するための係数であり、その値は音色を表す。例えば、予測係数は、音声信号の場合と背景雑音の場合とでは異なった発生分布となり、同じ背景雑音でも、平坦な周波数特性を持つ白色雑音と、一般によく知られているピンク雑音のように傾きを持った雑音とでも発生分布が異なる。
一例として、図6は入力信号と予測係数の波形例図であり、適応予測器53で計算される予測係数のうちa1,a2と音声の時間的変化を示す。区間A,B,Cの音声のある区間と、区間D,Eの背景雑音のみの区間では予測係数の値が異なることが分かる。ここで音声に重畳している背景雑音は、例えば、傾いた周波数特性をもつ実際の空気調節装置(エアコン)の雑音である。
従来技術、本発明は、ともに擬似背景雑音を発生させる一手段としてこの予測係数に注目したものである。
その一例を説明する。
【0006】
図4は従来の復号装置のブロック図である。
図4において、1はアンテナである。2は送信側の符号化器からの音声の有り無しを判断する音声検出器の音声検出フラグとADPCM符号化データとが多重されて変調された変調波を受信復調する受信復調器である。3は受信復調された信号aをADPCM符号化データcと音声検出フラグbに分離する多重分離器である。4は多重分離器3からの音声検出フラグbを受け、電力保持器、ADPCM復号器5、予測係数保持器6にそれぞれを後に記述する制御を行うための制御信号を出力する制御器である。5は制御器4からの制御信号dを受けて、擬似背景雑音用ランダムADPCMデータを発生するとともに、予測係数保持器6と予測係数データの送受を行い、多重分離器3からのADPCM符号化データcを復号するADPCM復号器である。6はADPCM復号器5の予測係数gをフレーム毎に平均値を計算して、制御器4からの制御信号eにより有音区間は平均値の記憶の更新を行い、無音区間は更新を中止する予測係数保持器である。8はスピーカである。
【0007】
図4と図7を用いて動作を説明する。
まず、図4において、音声検出フラグとADPCM符号化データが多重化され変調された変調波をアンテナ1で受け、受信復調器2で受信復調して多重分離器3に復調信号aを送る。ここでいう音声検出フラグとは、送信側の符号化器の入力音声の、音声が有る部分(有音区間)と無い部分(無音区間)を音声検出器で検出した結果を示すものである。
多重分離器3は、音声検出フラグbとADPCM符号化データcに分離する。この場合、例として、ADPCM符号化データcは5msecを1フレームとしている。5msec毎に音声検出フラグbが制御器4に送られる。
制御器4は、音声検出フラグbを受けて、有音区間,無音区間のいずれかを示す制御信号d,eを出力する。
ADPCM符号器5は、無音区間では変調信号が途絶えてしまうため、自ら擬似背景雑音を生成するためにADPCM符号化データcが取り得る範囲のランダムなデータを内部生成し、そのデータを予測係数保持器6から与えられる予測係数fを用いて復号する。
【0008】
予測係数保持器6は、送信断時のADPCM復号器5で生成した擬似背景雑音に、実際の雑音のスペクトラム情報を付加するために、ADPCM復号器5内の予測係数gを抽出してフレーム毎に平均値を求めて更新保持する。制御信号eが有音区間から無音区間に変わったとき、その直前のフレーム、即ち、有音区間の最後のフレームの予測係数の平均値を保持して、更新を中止する。
ADPCM復号器5は、この更新を中止して保持されている予測係数fを使用して内部で発生したランダムデータの復号を行い、擬似背景雑音を出力する。
【0009】
符号化器側の音声検出器には、有音区間から無音区間に変化したとき、会話の語尾切れを防ぐために約数100msecの間有音区間と判定するハングオーバーと一般に言われている機能が備わっているため、有音区間の最後のフレームの予測係数値は背景雑音の値となる。この効果で、ランダムなデータを用いて復号しても実際の符号化器側の音声に重畳されている背景雑音と似た音色を持つ雑音が生成される。
【0010】
図7は擬似背景雑音に対する予測係数を説明する波形例図であり、外乱のない場合を示す。図において、(A)は符号化器の入力音声信号(音声+背景雑音)を示し、(B)はこれに対する予測係数のうち、例として予測係数a1の時間変化を示す。
符号化器側の音声検出処理で、音声が音声検出フラグ(C)のように理想的に検出されたとすると、符号化器は音声信号(D)の音声データだけを断続送信する。(E)はこの音声信号(D)に対する予測係数a1である。
従来技術では、音声信号(D)のように区間a,b,cに擬似背景雑音を挿入するために、有音区間から無音区間に変わる直前のフレーム、ここでは、予測係数保持器6で保持されるt,t−1,t−2の予測係数a1の平均値(F)を使用してそれぞれ区間a,b,cのランダムデータを復号し、擬似背景雑音を出力する。つまり復号器5が復号に用いる予測係数は予測係数a1(G)のようになる。
この状態では無音区間a,b,cの擬似背景雑音の音色は予測係数a1(F)のように区間a,b,cでほぼ同じ値の実際の背景雑音の予測係数値になっているため、違和感のない連続性のある擬似背景雑音になる。
【0011】
【発明が解決しようとする課題】
次に、従来技術の問題点を図8を用いて説明する。図8は外乱のある場合の予測係数の波形例図である。
有音区間の最後の背景雑音のフレーム(t−1)に急に変化する外乱等が加わった場合、例えば、符号化器側のマイクロホンに異音が入った場合や伝送路上での誤りによる場合等、または受信した音声検出フラグが誤った判定結果を示した場合、例えば、符号化器側の音声検出器が判定誤りを起こして有音区間中に無音区間と判定してしまった場合や伝送路上で音声検出フラグに誤りが生じてしまった場合等、入力音声信号(A)、予測係数(B)、音声検出フラグ(C)で示したように、有音区間の最終フレームt−1は、入力音声(A),予測係数a1(B)ともに背景雑音とレベルが異なった状態になっている。
従来方式では、有音区間の最後のフレームの予測係数の平均値のみを用いて引き続く無音区間の擬似背景雑音を生成している。即ち、区間bの予測係数として予測係数a1(E)のZの部分の平均値が用いられるため、予測係数a1(F)の差x,yのように、区間aと区間cとがかなり異なった値が用いられるため、区間bの擬似背景雑音の音色が異なり、区間a,b,cでは、(G)に示すように連続性のない違和感のあるものになってしまうという欠点がある。
【0012】
本発明の目的は、従来技術の問題点である短時間の断続受信に伴う擬似背景雑音生成におよぼす悪影響を低減させ、ADPCM音声符号化方式において、有音区間の最後の部分、無声になった直前にレベルや背景雑音と音色の違いが大きい外乱があっても、再生される擬似背景雑音に違和感が生じないようにした音声復号装置を提供することにある。
【0013】
【課題を解決するための手段】
本発明の音声復号装置は、受信した適応差分PCM符号化信号の有音区間では予測係数を用いて前記適応差分PCM符号化信号を復号し再生音声として出力するとともに、無音区間では前記予測係数を用いて内部で発生させたランダム符号を復号し無音区間の再生雑音として擬似背景雑音を出力する適応差分PCM復号器と、前記予測係数のフレーム毎の平均値を求めて更新保持する予測係数保持器を備えた音声復号装置において、
前記予測係数保持器が求めた前記予測係数のフレーム毎の平均値を過去複数回にわたって順次更新記憶する予測係数メモリと、該予測係数メモリに過去複数回にわたって記憶された複数の予測係数の平均値を求めて前記適応差分PCM復号器に対する無音区間の予測係数とする補助予測係数保持器を設けたことを特徴とするものである。

【0014】
さらに、本発明の音声復号装置は、適応差分PCM符号化信号の有音区間では予測係数を用いて前記適応差分PCM符号化信号を復号し再生音声として出力するとともに、無音区間では前記予測係数を用いて内部で発生させたランダム符号を復号し無音区間の再生雑音として擬似背景雑音を出力する適応差分PCM復号器と、前記予測係数のフレーム毎の平均値を求めて更新保持する予測係数保持器を備えた音声復号装置において、
前記予測係数保持器がフレーム毎に求めた予測係数の平均値に0.5未満の正数を第1の乗算値として乗算する第1の乗算器と、該第1の乗算器からの入力値と他方の入力値とを加算して前記予測係数保持器に与える予測係数とする加算器と、該加算器の出力を更新記憶して出力する予測係数メモリと、該予測係数メモリの出力値に1から前記第1の乗算値を差し引いた値を第2の乗算値として乗算し前記加算器の前記他方の入力値とする第2の乗算器とを備えたことを特徴とするものである。
【0015】
【実施例】
図1は本発明の実施例を示すブロック図である。図1の1はアンテナ、2は音声検出フラグとADPCM符号化データとが多重変調された変調波を受信復調する受信復調器、3は受信復調信号aをADPCM符号化データcと音声検出フラグbに分離する多重分離器、4は音声検出フラグbを受け、制御信号d,eを出力する制御器、5はADPCM復号器であり、以上は従来回路と同じである。
6予測係数保持器であり、有音区間はADPCM復号器5の内部変数である予測係数gを抽出してフレーム毎に平均値を計算して平均値を記憶更新し、無音区間は更新を停止する。7は本発明で付加した補助予測係数保持器、8はスピーカである。
【0016】
〔動作〕
予測係数保持器6及び補助予測係数保持器7の動作以外は従来技術と同じであるので、従来技術と異なる点を詳細に説明する。
予測係数保持器6は、制御信号eに従って有音区間はADPCM復号器5内で計算される予測係数gを抽出しフレーム毎に平均値を計算して保持更新を行い、有音区間から無音区間に変化したとき更新を停止して最終フレームの値iを補助予測係数保持器7に出力する。
補助予測係数保持器7は、予測係数保持器6で計算された最終フレームの値iが入力される毎に、過去の有音区間から無音区間に変化したときの直前の予測係数値を用いて擬似背景雑音を生成するための予測係数値に対して従来技術の問題点にある影響を軽減する処理を行う。例えば、過去の最終フレームのデータに重み付けを与えて現在のデータの影響を抑圧する、または、過去数フレームのデータの平均をとることにより過去のデータに重み付けを与える処理を行って予測係数保持器6に処理後の値hを出力する。予測係数保持器6はこの値hを無音区間のfとして出力し、ADPCM復号器5はこの値fを用いて擬似背景雑音を生成する。
【0017】
図2は本発明の要部をなす補助予測係数保持器7の第1の実施例を示すブロック図である。図2において、21は平均値算出器、22は予測係数メモリである。平均値算出器21はメモリ22の複数回の最終フレームの予測係数の平均値を算出し、予測係数保持器6に対してその平均値hを出力する。予測係数メモリ22は複数回の最終フレーム、例えば、t〜t−4の5フレーム分の過去の予測係数値を順次記憶更新する。
【0018】
〔動作〕
有音区間から無音区間への変化が検出されると、補助予測係数保持器7は予測係数保持器6から最終フレームの予測係数平均値iを抽出する。メモリ22は、最終フレームの予測係数平均値が入力される毎にメモリ内の値を更新し記憶していく。ここではtは現在入力されたiの値であり、t−1は1つ過去に入力された値、同様にt−4まで計5つの値が記憶されており、新たな値iが入力される毎にそれぞれの値が順次過去のメモリへと更新される。次に平均値算出器21はメモリ22から出力される5つの値の平均値を算出して、その平均値hを予測係数保持器6に供給する。予測係数保持器6はその値hを値fとして復号器5に与える。
この処理により、図8の(F)の領域bの予測係数は破線lのようになり、領域cでは破線kのように正規の値に滑らかに近づいていき、Zのような影響を受けても領域a,領域b,領域cに極端な差が生ずることなく、従来の差xはmになり、yはnになり違和感が極めて低減される。
【0019】
次に、図3は本発明の要部をなす補助予測係数保持器7の第2の実施例を示すブロック図である。図3において、31は加算器、32,33は乗算器,34は予測係数メモリである。乗算器32には、0<α<0.5の乗算値αが設定され、現在入力された最終フレームの予測係数平均値iの重み付けを軽くする。一方の乗算器33には、1−α=βとする乗算値βが設定され、加算器31から出力された前回の予測係数平均値hの重み付けを重くするように作用する。例えば、α=0.05、β=1−α=0.95なる乗算値を設定すると、加算器31は、現在の入力値iの5%と前回の加算器31からの出力値hの95%を加算して出力することとなる。予測係数メモリ34は、加算器31の出力値hを順次記憶更新し、記憶した値pを乗算器33に与えて乗算値βが乗算されて次回の加算器31の一方の入力とする。
【0020】
有音区間から無音区間に変化すると、補助予測係数保持器7は予測係数保持器6から最終フレームの予測係数値iを抽出する。加算器31、乗算器32,33では次の式(1)の計算がされる。
【数1】
h=p×0.95+i×0.05 (1)
つまり、hは前回のiの値を含んだ予測係数値となり、現在入力されたiの値には大きくは左右されることはない。このことは、仮にある時点のiの値が急激に変わっても、出力されるhの値にはあまり影響することはなく、また適切な値に落ち着いていく。予測係数メモリ34は新しいhを更新記憶する。初期値としてはここでは0としている(短時間で適切な値に落ち着く。)
この処理により、図2の第1の実施例と同様に過去の値によって現在の値の急激な変動が抑えられるという効果が得られる。
【0021】
【発明の効果】
以上詳細に説明したように、過去の最終フレームの予測係数を利用して擬似背景雑音を生成することにより、短時間の急激な変化をする信号等が入って来た場合もその信号の影響をそのまま受けることがなく音声に重畳している背景雑音とほぼ同じスペクトラム情報をもった擬似背景雑音を生成することができるため、受話者に与える違和感が軽減される。
【図面の簡単な説明】
【図1】本発明の実施例を示す音声復号装置の構成例図である。
【図2】本発明の図1の補助予測係数保持器の第1の実施例を示す構成例図である。
【図3】本発明の図1の補助予測係数保持器の第2の実施例を示す構成例図である。
【図4】従来の音声復号装置の構成例図である。
【図5】ADPCM符号化方式の送信側符号化器のブロック図である。
【図6】入力信号と予測信号の波形例図である。
【図7】擬似背景雑音に対する予測係数を説明する波形例図である。
【図8】外乱がある場合の擬似背景雑音に対する予測係数を説明する波形例図である。
【符号の説明】
1 アンテナ
2 受信復調器
3 多重分離器
4 制御器
5 ADPCM復号器
6 予測係数保持器
7 補助予測係数保持器
8 スピーカ
a 復調信号
b 音声検出フラグ
c ADPCM符号化信号
e 制御信号
f 擬似敗勢雑音に与える予測係数値
g 予測係数
21 平均値算出器
22 予測係数メモリ
31 加算器
32 乗算器
33 乗算器
34 予測係数メモリ
51 均一PCM変換器
52 減算器
53 適応予測器
54 適応量子化器
55 加算器
56 適応逆量子化器
j 予測信号
m 量子化差分信号
n 再生信号
[0001]
[Industrial applications]
The present invention relates to a speech decoding device in speech coded communication, and more particularly to a speech decoding device in which an adaptive difference PCM (ADPCM) method is applied to a coding method.
[0002]
[Prior art]
When voice communication is being performed, it is said that the time rate at which one of the callers is speaking is about 35%.
2. Description of the Related Art In recent years, the range of personal communication, which is communication performed by individuals, has been expanding. Here, voice communication using a portable terminal is mainly performed. First, cordlessness is one of the items required for such a mobile terminal. Secondly, a battery is used for portability and it is necessary to withstand use for a long time, so that reduction in circuit power consumption is required.
[0003]
As a conventional method for reducing the circuit power consumption, there is a method in which a transmission circuit is operated only when a voice is being uttered while paying attention to a voice utterance time rate, and the circuit is in a rest state during other transmission times. In order to realize such a technique, it is only necessary to provide a voice detection function on the transmission side and add a discontinuous transmission device that transmits only a sound section. In that case, the problem is on the receiving side. That is, on the receiving side, the reproduced sound is intermittent, resulting in a very unpleasant sound. This is because background noise is superimposed on the sound when the sound is being transmitted, but is not transmitted when there is no sound. That is, it is known that background noise is modulated and transmitted only when there is an audio signal.
As a method of solving such a problem, a method of generating a pseudo background noise similar to the background noise on the transmission side in a silent section in which no audio signal is transmitted on the reception side is known.
[0004]
Although the present invention is intended for a decoder on the receiving side, the decoder on the receiving side has the same components as the encoder on the transmitting side, so the outline of the ADPCM encoder on the transmitting side will be described. .
FIG. 5 is a block diagram of the transmission side encoder. In the figure, reference numeral 51 denotes a uniform PCM converter for converting a 64 kb / s μ-law PCM input signal into a linear 13-bit PCM.
Reference numeral 52 denotes a subtractor 52 that subtracts the prediction signal j output from the adaptive predictor 53 from the output of the uniform PCM converter 51 to obtain a difference signal k. The difference signal k is quantized by the adaptive quantizer 54, and 32 kb / s voice data is transmitted to the transmission path as an output of the ADPCM voice coder.
On the other hand, the adaptive inverse quantizer 56 performs adaptive inverse quantization on the output audio data of 32 kb / s and outputs a quantized difference signal m. The adder 55 adds the quantized difference signal m and the prediction signal j and outputs a reproduced signal n.
The adaptive predictor 53 calculates a prediction coefficient and uses it to generate and output a prediction signal j from the quantized difference signal m and the reproduction signal n.
[0005]
The prediction coefficient calculated by the adaptive predictor 53 to generate the prediction signal j is a coefficient for predicting a sample value at a certain point in time using two adjacent past sample values, and the value represents a timbre. For example, the prediction coefficients have different occurrence distributions in the case of a speech signal and in the case of background noise, and even with the same background noise, a slope such as white noise having flat frequency characteristics and pink noise which is generally well known is used. The distribution of occurrence is different even from noise having
As an example, FIG. 6 is a waveform example diagram of an input signal and a prediction coefficient, and shows a temporal change of a1 and a2 and a speech of the prediction coefficient calculated by the adaptive predictor 53. It can be seen that the values of the prediction coefficients are different between the section with speech in sections A, B and C and the section with only background noise in sections D and E. Here, the background noise superimposed on the voice is, for example, noise of an actual air conditioner (air conditioner) having an inclined frequency characteristic.
Both the prior art and the present invention focus on this prediction coefficient as a means for generating pseudo background noise.
An example will be described.
[0006]
FIG. 4 is a block diagram of a conventional decoding device.
In FIG. 4, reference numeral 1 denotes an antenna. Reference numeral 2 denotes a reception demodulator for receiving and demodulating a modulated wave obtained by multiplexing and modulating ADPCM coded data with a voice detection flag of a voice detector for judging the presence / absence of voice from an encoder on the transmission side. Reference numeral 3 denotes a demultiplexer that separates the demodulated signal a into ADPCM encoded data c and a voice detection flag b. Reference numeral 4 denotes a controller which receives a voice detection flag b from the demultiplexer 3 and outputs a control signal for performing control to be described later to the power holder, the ADPCM decoder 5, and the prediction coefficient holder 6. Numeral 5 receives the control signal d from the controller 4, generates random ADPCM data for pseudo background noise, transmits and receives the prediction coefficient data to and from the prediction coefficient holder 6, and outputs the ADPCM encoded data from the demultiplexer 3. ADPCM decoder for decoding c. Numeral 6 calculates the average value of the prediction coefficient g of the ADPCM decoder 5 for each frame, updates the storage of the average value in the voiced section by the control signal e from the controller 4, and suspends the update in the silent section. It is a prediction coefficient retainer. 8 is a speaker.
[0007]
The operation will be described with reference to FIGS.
First, in FIG. 4, a modulated wave obtained by multiplexing and modulating a speech detection flag and ADPCM encoded data is received by an antenna 1, received and demodulated by a reception demodulator 2, and a demodulated signal a is sent to a demultiplexer 3. The speech detection flag referred to here indicates a result of detection of a portion of the input speech of the encoder on the transmitting side that has speech (speech section) and a section that does not (speech section) by the speech detector.
The demultiplexer 3 separates the signal into a voice detection flag b and ADPCM encoded data c. In this case, as an example, the ADPCM encoded data c is set to 5 msec as one frame. The voice detection flag b is sent to the controller 4 every 5 msec.
Upon receiving the voice detection flag b, the controller 4 outputs control signals d and e indicating either a sound section or a silent section.
The ADPCM encoder 5 internally generates random data within a range that can be taken by the ADPCM encoded data c in order to generate pseudo background noise because the modulated signal is interrupted in a silent section, and stores the data in a prediction coefficient. The decoding is performed using the prediction coefficient f given from the unit 6.
[0008]
The prediction coefficient holding unit 6 extracts a prediction coefficient g in the ADPCM decoder 5 in order to add spectrum information of actual noise to the pseudo background noise generated by the ADPCM decoder 5 when transmission is interrupted, and The average value is obtained and updated and held. When the control signal e changes from the voiced section to the voiceless section, the update is stopped while retaining the average value of the prediction coefficient of the immediately preceding frame, that is, the last frame of the voiced section.
The ADPCM decoder 5 stops the update, decodes the internally generated random data using the held prediction coefficient f, and outputs pseudo background noise.
[0009]
The speech detector on the encoder side has a function generally called hangover, which determines a voiced section for about several hundred msec when changing from a voiced section to a silent section, in order to prevent speech ending. Since it is provided, the prediction coefficient value of the last frame of the sound section becomes the value of the background noise. With this effect, even if decoding is performed using random data, noise having a timbre similar to the background noise superimposed on the actual speech of the encoder side is generated.
[0010]
FIG. 7 is a waveform example illustrating the prediction coefficient for the pseudo background noise, and shows a case where there is no disturbance. In the figure, (A) shows an input speech signal (speech + background noise) of an encoder, and (B) shows a temporal change of a prediction coefficient a1 as an example among prediction coefficients corresponding thereto.
Assuming that speech is ideally detected as in the speech detection flag (C) in the speech detection processing on the encoder side, the encoder intermittently transmits only the audio data of the audio signal (D). (E) is a prediction coefficient a1 for the audio signal (D).
In the prior art, in order to insert the pseudo background noise into the sections a, b, and c as in the audio signal (D), the frame immediately before the change from the voiced section to the silent section, here, held in the prediction coefficient holding unit 6 The random data of the sections a, b, and c are decoded using the average value (F) of the prediction coefficients a1 of t, t-1, and t-2, respectively, and pseudo background noise is output. That is, the prediction coefficient used for decoding by the decoder 5 is like the prediction coefficient a1 (G).
In this state, the timbre of the pseudo-background noise in the silent sections a, b, and c is the prediction coefficient value of the actual background noise having substantially the same value in the sections a, b, and c as the prediction coefficient a1 (F). , A pseudo background noise which is continuous without any discomfort.
[0011]
[Problems to be solved by the invention]
Next, a problem of the related art will be described with reference to FIG. FIG. 8 is an example of a waveform of a prediction coefficient when there is a disturbance.
When a suddenly changing disturbance or the like is added to the last background noise frame (t-1) of the sound section, for example, when an abnormal sound enters the microphone on the encoder side or when an error occurs on the transmission path Etc., or when the received voice detection flag indicates an erroneous determination result, for example, when a voice detector on the encoder side makes a determination error and determines that there is a silent section during a voiced section, or transmission When an error occurs in the voice detection flag on the road or the like, as shown by the input voice signal (A), the prediction coefficient (B), and the voice detection flag (C), the last frame t-1 of the voiced section is , Input speech (A) and prediction coefficient a1 (B) are in different levels from the background noise.
In the conventional method, the pseudo background noise of the subsequent silent section is generated using only the average value of the prediction coefficients of the last frame of the sound section. That is, since the average value of the Z portion of the prediction coefficient a1 (E) is used as the prediction coefficient of the section b, the section a and the section c are considerably different from each other, such as the difference x and y of the prediction coefficient a1 (F). Therefore, the tone color of the pseudo background noise in the section b is different, and in the sections a, b, and c, there is a disadvantage that the continuity is unnatural as shown in (G).
[0012]
SUMMARY OF THE INVENTION An object of the present invention is to reduce the adverse effect on pseudo-background noise generation due to short-time intermittent reception, which is a problem of the prior art, and to make the last part of a voiced section unvoiced in the ADPCM speech coding system. It is an object of the present invention to provide a speech decoding apparatus in which reproduced pseudo background noise does not cause a sense of incongruity even if there is a disturbance immediately preceding the level or background noise, which has a large difference in timbre.
[0013]
[Means for Solving the Problems]
The speech decoding apparatus according to the present invention decodes the adaptive difference PCM coded signal using a prediction coefficient in a voiced section of the received adaptive difference PCM coded signal and outputs the decoded signal as a reproduced voice. An adaptive difference PCM decoder for decoding internally generated random codes and outputting pseudo-background noise as reproduction noise in a silent section, and a prediction coefficient holder for obtaining and updating an average value of the prediction coefficients for each frame In the audio decoding device provided with
A prediction coefficient memory for sequentially updating and storing the average value of the prediction coefficient for each frame obtained by the prediction coefficient holder over a plurality of times in the past, and an average value of a plurality of prediction coefficients stored in the prediction coefficient memory over a plurality of times in the past And an auxiliary prediction coefficient holding unit for calculating a prediction coefficient of a silent section for the adaptive difference PCM decoder.

[0014]
Further, the speech decoding apparatus of the present invention decodes the adaptive difference PCM coded signal using a prediction coefficient in a voiced section of the adaptive difference PCM coded signal and outputs the decoded signal as a reproduced voice, and furthermore, decodes the prediction coefficient in a silent section. An adaptive difference PCM decoder for decoding internally generated random codes and outputting pseudo-background noise as reproduction noise in a silent section, and a prediction coefficient holder for obtaining and updating an average value of the prediction coefficients for each frame In the audio decoding device provided with
A first multiplier for multiplying the average of the prediction coefficients obtained for each frame by the prediction coefficient holder by a positive number less than 0.5 as a first multiplication value, and an input value from the first multiplier An adder for adding the other input value to the prediction coefficient to be given to the prediction coefficient holder, a prediction coefficient memory for updating and storing the output of the adder, and an output value of the prediction coefficient memory. A second multiplier configured to multiply a value obtained by subtracting the first multiplied value from 1 as a second multiplied value and use the multiplied value as the other input value of the adder.
[0015]
【Example】
FIG. 1 is a block diagram showing an embodiment of the present invention. In FIG. 1, 1 is an antenna, 2 is a receiving demodulator for receiving and demodulating a modulated wave obtained by multiplex-modulating a voice detection flag and ADPCM coded data, and 3 is a receiving demodulation signal a for converting ADPCM coded data c and a voice detection flag b. The demultiplexer 4 receives the audio detection flag b and outputs the control signals d and e. The controller 5 and the ADPCM decoder 5 are the same as those of the conventional circuit.
6 is a predictive coefficient retainer, which extracts a predictive coefficient g which is an internal variable of the ADPCM decoder 5, calculates an average value for each frame, stores and updates the average value, and stops updating the silent section for a sound section. I do. Reference numeral 7 denotes an auxiliary prediction coefficient holder added in the present invention, and reference numeral 8 denotes a speaker.
[0016]
〔motion〕
The operation is the same as that of the prior art except for the operations of the prediction coefficient holder 6 and the auxiliary prediction coefficient holder 7, and therefore, the points different from the prior art will be described in detail.
The prediction coefficient holding unit 6 extracts a prediction coefficient g calculated in the ADPCM decoder 5 in accordance with the control signal e, calculates an average value for each frame, performs holding and updating, and updates the speech section from the speech section to the silent section. , The updating is stopped, and the value i of the last frame is output to the auxiliary prediction coefficient holding unit 7.
Each time the value i of the last frame calculated by the prediction coefficient holder 6 is input, the auxiliary prediction coefficient holder 7 uses the prediction coefficient value immediately before the change from the past voiced section to the silent section. A process is performed on the prediction coefficient value for generating the pseudo background noise to reduce the influence of the problem of the related art. For example, weighting the data of the last frame in the past to suppress the influence of the current data, or performing a process of weighting the past data by averaging the data of the past several frames to perform prediction coefficient holding The processed value h is output to 6. The prediction coefficient holder 6 outputs this value h as f in a silent section, and the ADPCM decoder 5 generates pseudo background noise using this value f.
[0017]
FIG. 2 is a block diagram showing a first embodiment of the auxiliary prediction coefficient holding unit 7 which is a main part of the present invention. In FIG. 2, reference numeral 21 denotes an average calculator, and reference numeral 22 denotes a prediction coefficient memory. The average value calculator 21 calculates the average value of the prediction coefficients of the final frame in the memory 22 for a plurality of times, and outputs the average value h to the prediction coefficient holder 6. The prediction coefficient memory 22 sequentially stores and updates past prediction coefficient values for a plurality of final frames, for example, five frames from t to t-4.
[0018]
〔motion〕
When a change from a voiced section to a silent section is detected, the auxiliary prediction coefficient holding unit 7 extracts the prediction coefficient average value i of the last frame from the prediction coefficient holding unit 6. The memory 22 updates and stores the value in the memory each time the prediction coefficient average value of the last frame is input. Here, t is the value of i that is currently input, t-1 is the value that was input one time in the past, and similarly, a total of five values up to t-4 are stored, and a new value i is input. Each time, each value is sequentially updated to the past memory. Next, the average calculator 21 calculates the average of the five values output from the memory 22 and supplies the average h to the prediction coefficient holder 6. The prediction coefficient holder 6 gives the value h to the decoder 5 as the value f.
As a result of this processing, the prediction coefficient of the area b in FIG. 8F becomes as indicated by a broken line l, and in the area c, the prediction coefficient smoothly approaches a normal value as indicated by the broken line k, and is affected by Z as shown in FIG. Also, the conventional difference x becomes m and y becomes n, and the sense of incongruity is extremely reduced without any extreme difference between the regions a, b, and c.
[0019]
Next, FIG. 3 is a block diagram showing a second embodiment of the auxiliary prediction coefficient holding unit 7 which is a main part of the present invention. In FIG. 3, 31 is an adder, 32 and 33 are multipliers, and 34 is a prediction coefficient memory. In the multiplier 32, a multiplication value α of 0 <α <0.5 is set, and the weight of the prediction coefficient average value i of the currently input last frame is lightened. The multiplier 33 is set with a multiplication value β that satisfies 1−α = β, and acts to increase the weight of the previous prediction coefficient average value h output from the adder 31. For example, when a multiplication value of α = 0.05 and β = 1−α = 0.95 is set, the adder 31 calculates 5% of the current input value i and 95% of the output value h from the previous adder 31. % Is added and output. The prediction coefficient memory 34 sequentially stores and updates the output value h of the adder 31 and provides the stored value p to the multiplier 33 to be multiplied by the multiplied value β to be used as one input of the next adder 31.
[0020]
When the interval changes from a voiced section to a silent section, the auxiliary prediction coefficient holder 7 extracts the prediction coefficient value i of the last frame from the prediction coefficient holder 6. The following equation (1) is calculated in the adder 31, the multipliers 32 and 33.
(Equation 1)
h = p × 0.95 + i × 0.05 (1)
That is, h is a prediction coefficient value including the previous value of i, and is not greatly affected by the currently input value of i. This means that even if the value of i at a certain point changes abruptly, it does not significantly affect the value of h that is output, and settles to an appropriate value. The prediction coefficient memory 34 updates and stores the new h. Here, the initial value is set to 0 (settles at an appropriate value in a short time).
By this processing, an effect is obtained that a rapid change of the present value is suppressed by the past value as in the first embodiment of FIG.
[0021]
【The invention's effect】
As described in detail above, by generating the pseudo background noise using the prediction coefficient of the last frame in the past, even when a signal or the like that changes rapidly for a short time enters, the influence of the signal can be reduced. Since it is possible to generate pseudo background noise having almost the same spectrum information as background noise superimposed on voice without receiving it, the sense of discomfort given to the listener is reduced.
[Brief description of the drawings]
FIG. 1 is a configuration example diagram of a speech decoding device according to an embodiment of the present invention.
FIG. 2 is a configuration example diagram showing a first embodiment of the auxiliary prediction coefficient holder of FIG. 1 of the present invention.
FIG. 3 is a configuration example diagram showing a second embodiment of the auxiliary prediction coefficient holder of FIG. 1 of the present invention.
FIG. 4 is a diagram illustrating a configuration example of a conventional speech decoding device.
FIG. 5 is a block diagram of a transmission-side encoder using the ADPCM encoding method.
FIG. 6 is a waveform example of an input signal and a prediction signal.
FIG. 7 is a waveform example illustrating a prediction coefficient for pseudo background noise.
FIG. 8 is a waveform example illustrating a prediction coefficient for pseudo background noise when there is disturbance;
[Explanation of symbols]
REFERENCE SIGNS LIST 1 antenna 2 reception demodulator 3 demultiplexer 4 controller 5 ADPCM decoder 6 prediction coefficient holder 7 auxiliary prediction coefficient holder 8 speaker a demodulated signal b audio detection flag c ADPCM coded signal e control signal f pseudo loss noise Predicted coefficient value g Predicted coefficient 21 Average value calculator 22 Predicted coefficient memory 31 Adder 32 Multiplier 33 Multiplier 34 Predicted coefficient memory 51 Uniform PCM converter 52 Subtractor 53 Adaptive predictor 54 Adaptive quantizer 55 Adder 56 adaptive inverse quantizer j prediction signal m quantization difference signal n reproduced signal

Claims (2)

受信した適応差分PCM符号化信号の有音区間では予測係数を用いて前記適応差分PCM符号化信号を復号し再生音声として出力するとともに、無音区間では前記予測係数を用いて内部で発生させたランダム符号を復号し無音区間の再生雑音として擬似背景雑音を出力する適応差分PCM復号器と、前記予測係数のフレーム毎の平均値を求めて更新保持する予測係数保持器を備えた音声復号装置において、In the voiced section of the received adaptive differential PCM coded signal, the adaptive differential PCM coded signal is decoded using a prediction coefficient and output as a reproduced voice. An audio decoding apparatus comprising: an adaptive difference PCM decoder that decodes a code and outputs a pseudo background noise as reproduction noise in a silent section; and a prediction coefficient holder that obtains an average value of the prediction coefficients for each frame and updates and holds the average.
前記予測係数保持器が求めた前記予測係数のフレーム毎の平均値を過去複数回にわたって順次更新記憶する予測係数メモリと、該予測係数メモリに過去複数回にわたって記憶された複数の予測係数の平均値を求めて前記適応差分PCM復号器に対する無音区間の予測係数とする補助予測係数保持器を設けたことを特徴とする音声復号装置。A prediction coefficient memory for sequentially updating and storing the average value of the prediction coefficient for each frame obtained by the prediction coefficient holder over a plurality of past times; and an average value of a plurality of prediction coefficients stored over the past several times in the prediction coefficient memory. And a supplementary prediction coefficient holding unit for obtaining a prediction coefficient of a silent section for the adaptive difference PCM decoder.
受信した適応差分PCM符号化信号の有音区間では予測係数を用いて前記適応差分PCM符号化信号を復号し再生音声として出力するとともに、無音区間では前記予測係数を用いて内部で発生させたランダム符号を復号し無音区間の再生雑音として擬似背景雑音を出力する適応差分PCM復号器と、前記予測係数のフレーム毎の平均値を求めて更新保持する予測係数保持器を備えた音声復号装置において、In the voiced section of the received adaptive differential PCM coded signal, the adaptive differential PCM coded signal is decoded using a prediction coefficient and output as a reproduced voice. An audio decoding apparatus comprising: an adaptive difference PCM decoder that decodes a code and outputs a pseudo background noise as reproduction noise in a silent section; and a prediction coefficient holder that obtains an average value of the prediction coefficients for each frame and updates and holds the average.
前記予測係数保持器がフレーム毎に求めた予測係数の平均値に0.5未満の正数を第1の乗算値として乗算する第1の乗算器と、該第1の乗算器からの入力値と他方の入力値とを加算して前記予測係数保持器に与える予測係数とする加算器と、該加算器の出力を更新記憶して出力する予測係数メモリと、該予測係数メモリの出力値に1から前記第1の乗算値を差し引いた値を第2の乗算値として乗算し前記加算器の前記他方の入力値とする第2の乗算器とを備えたことを特徴とする音声復号装置。A first multiplier for multiplying the average of the prediction coefficients obtained for each frame by the prediction coefficient holder by a positive number less than 0.5 as a first multiplication value, and an input value from the first multiplier An adder that adds the other input value to the prediction coefficient to be given to the prediction coefficient holding unit, a prediction coefficient memory that updates and outputs an output of the adder, and an output value of the prediction coefficient memory. A second multiplier that multiplies a value obtained by subtracting the first multiplied value from 1 as a second multiplied value and uses the multiplied value as the other input value of the adder.
JP17388695A 1995-06-19 1995-06-19 Voice decoding device Expired - Fee Related JP3580906B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17388695A JP3580906B2 (en) 1995-06-19 1995-06-19 Voice decoding device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17388695A JP3580906B2 (en) 1995-06-19 1995-06-19 Voice decoding device

Publications (2)

Publication Number Publication Date
JPH098680A JPH098680A (en) 1997-01-10
JP3580906B2 true JP3580906B2 (en) 2004-10-27

Family

ID=15968939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17388695A Expired - Fee Related JP3580906B2 (en) 1995-06-19 1995-06-19 Voice decoding device

Country Status (1)

Country Link
JP (1) JP3580906B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3273599B2 (en) 1998-06-19 2002-04-08 沖電気工業株式会社 Speech coding rate selector and speech coding device

Also Published As

Publication number Publication date
JPH098680A (en) 1997-01-10

Similar Documents

Publication Publication Date Title
JP4504414B2 (en) Redundancy reduction method
JP3955600B2 (en) Method and apparatus for estimating background noise energy level
EP0661689B1 (en) Noise reducing method, noise reducing apparatus and telephone set
US5812965A (en) Process and device for creating comfort noise in a digital speech transmission system
US7421388B2 (en) Compressed domain voice activity detector
US20150187364A1 (en) Voice detector and a method for suppressing sub-bands in a voice detector
JPH0962299A (en) Code exciting linear predictive coding device
EP1598811A2 (en) Decoding apparatus and method
US6424942B1 (en) Methods and arrangements in a telecommunications system
JPH0644195B2 (en) Speech analysis and synthesis system having energy normalization and unvoiced frame suppression function and method thereof
JP2576690B2 (en) Digital mobile phone
JP4551817B2 (en) Noise level estimation method and apparatus
WO2001065542A1 (en) Voice encoding/decoding device and method therefor
JP3580906B2 (en) Voice decoding device
WO2004112256A1 (en) Speech encoding device
JPH0954600A (en) Voice-coding communication device
JP3649854B2 (en) Speech encoding device
JPH10326100A (en) Voice recording method, voice reproducing method, and voice recording and reproducing device
JP2638522B2 (en) Audio coding device
JP3496618B2 (en) Apparatus and method for speech encoding / decoding including speechless encoding operating at multiple rates
JP3593183B2 (en) Voice decoding device
JP3316945B2 (en) Transmission error compensator
JP3179687B2 (en) Voice decoding device
JP2762938B2 (en) Audio coding device
JP2000252885A (en) Echo canceller and voice communication equipment provided with this echo canceller

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040720

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040721

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100730

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110730

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120730

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees