JP2004138756A - Voice coding device, voice decoding device, and voice signal transmitting method and program - Google Patents

Voice coding device, voice decoding device, and voice signal transmitting method and program Download PDF

Info

Publication number
JP2004138756A
JP2004138756A JP2002302434A JP2002302434A JP2004138756A JP 2004138756 A JP2004138756 A JP 2004138756A JP 2002302434 A JP2002302434 A JP 2002302434A JP 2002302434 A JP2002302434 A JP 2002302434A JP 2004138756 A JP2004138756 A JP 2004138756A
Authority
JP
Japan
Prior art keywords
audio signal
frame
pitch lag
compensation processing
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002302434A
Other languages
Japanese (ja)
Other versions
JP4287637B2 (en
Inventor
Hiroyuki Ebara
江原 宏幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2002302434A priority Critical patent/JP4287637B2/en
Publication of JP2004138756A publication Critical patent/JP2004138756A/en
Application granted granted Critical
Publication of JP4287637B2 publication Critical patent/JP4287637B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To suppress propagation of degradation in quality of decoded voice signal resulting from frame vanishing in a communication system using a code excited linear predictor (CFLP) type voice coding device. <P>SOLUTION: In this communication system, when the vanished frame of a voice signal is caused in a voice decoding device, the compensation processing of the vanished frame is performed on the basis of pitch lug information for the compensation processing of varnished frame by computing a pitch lug for the compensation processing of frame vanishing in the voice coding device and by transmitting information expressing the pitch lug to the voice decoding device together with the coded voice signal. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、音声信号を符号化して音声符号化情報を生成しパケット化して伝送する音声符号化装置、音声復号化装置、音声信号伝送方法及びプログラムに関する。
【0002】
【従来の技術】
インターネット通信に代表されるパケット通信においては、伝送路においてパケット(又はフレーム)が消失するなどして復号器側で符号化情報を受信できない時に、消失補償(隠蔽)処理を行うのが一般的である(例えば、特許文献1及び特許文献2等参照。)。
【0003】
従来の音声信号伝送システムとして、図9に示すものがある。図9に示すように、従来の音声信号伝送システムは、音声信号送信装置1及び音声信号受信装置10を具備している。
【0004】
音声信号送信装置1は、入力装置2、A/D(アナログ/ディジタル)変換装置3、音声符号化装置4、信号処理装置5、RF変調装置6、送信装置7及びアンテナ8を有している。
【0005】
入力装置2は、音声信号を受け、これを電気信号であるアナログ音声信号に変換し、A/D変換装置3に与える。A/D変換装置3は、入力装置2からのアナログ音声信号をディジタル音声信号に変換し音声符号化装置4に与える。音声符号化装置4は、A/D変換装置3からのディジタル音声信号を符号化して音声符号化情報を生成し信号処理装置5に与える。信号処理装置5は、音声符号化装置4からの音声符号化情報にチャネル符号化処理、多重化処理、パケット化処理及び送信バッファリング処理等を行った後、その音声符号化情報をRF(Radio Frequency)変調装置6に与える。RF変調装置6は、信号処理装置5からの音声符号化信号を変調して送信装置7に与える。送信装置7は、RF変調装置6からの音声符号化信号をアンテナ8を介して電波(RF信号)として送信する。
【0006】
音声信号受信装置10は、アンテナ9、受信装置11、RF復調装置12、信号処理装置13、音声復号化装置14、D/A(ディジタル/アナログ)変換装置15及び出力装置16を有している。
【0007】
受信装置11は、アンテナ9を介して音声符号化信号である電波(RF信号)を受けてアナログ電気信号である受信音声信号を生成し、これをRF復調装置12に与える。アンテナ9によって受けられた電波(RF信号)は、伝送路において信号の減衰や雑音の重畳がなければ、音声信号送信装置1から送信された電波(RF信号)と全く同じものとなる。
【0008】
RF復調装置12は、受信装置11からの受信音声信号を復調し信号処理装置13に与える。信号処理装置13は、RF復調装置12からの受信音声信号のジッタ吸収バッファリング処理、パケット組みたて処理、多重分離処理及びチャネル復号化処理等を行った後、その受信音声信号を音声復号化装置14に与える。
【0009】
また、信号処理装置13は、パケットが所定の時間内に到着しない場合は、パケット消失が発生したことを音声復号化装置14へ知らせる。音声復号化装置14は、信号処理装置13からの受信音声信号を復号化して復号音声信号を生成し、これをD/A変換装置15に与える。
【0010】
なお、音声復号化装置14は、信号処理装置13からパケット損失情報を受け取った場合は、該当パケットの受信音声信号を受け取れないため、フレーム消失補償処理を行い、音声信号を生成する。D/A変換装置15は、音声復号化装置14からのディジタル復号音声信号をアナログ復号音声信号に変換して出力装置16に与える。出力装置16は、D/A変換装置15からのアナログ復号音声信号を空気の振動に変換し音波として人間の耳に聴こえるように出力する。
【0011】
音声復号化装置14は、音声復号化部56及びフレーム消失補償部57を有している。音声復号化部56は3つの入力端子をもち、1つはフレーム消失補償部57の出力端子に、残りの2つはそれぞれ信号処理装置の2つの出力端子に接続されている。音声復号化部56の出力端子は2つあり一方は、D/A変換装置15に、他方はフレーム消失補償部57に、それぞれ接続されている。フレーム消失補償部57の入力端子と出力端子は、音声復号化部56の出力端子と入力端子にそれぞれ接続されている。フレーム消失補償部57は、音声復号化部56において過去に復号されたパラメータ情報を入力し、受信音声信号のフレームが損失している場合に必要となる音声パラメータを生成して音声復号化部56へ出力する。
【0012】
音声復号化部56は、信号処理装置13の一方の出力端子からフレーム損失信号を受けていない時に、信号処理装置13の他方の出力端子からの受信音声信号に通常の復号化処理を施して復号音声信号を生成する。また、音声復号化部56は、フレーム損失信号を受けている時には、フレーム消失補償部57から入力される音声パラメータを用いて復号処理を行う。フレーム消失補償処理としては、音声符号化方式に応じて様々なものがあり、例えばITU−T勧告G.729などでは復号化アルゴリズムの一部として規定されている。
【0013】
【特許文献1】
特開平09−120297号公報
【特許文献2】
特開平09−190197号公報
【0014】
【発明が解決しようとする課題】
しかしながら、従来の音声信号伝送システムにおいては、伝送したフレーム(またはパケット)が伝送路上で消失した場合、音声復号化装置14が過去に受信済みの符号化情報を用いてフレーム(又はパケット)の消失補償処理を行う。このとき音声符号化装置4と音声復号化装置14との間で内部状態の同期がとれなくなるため、フレームの消失部分のみならずフレーム消失以降のフレームの復号化処理にパケット消失の影響が伝播して復号音声信号の品質を大きく劣化させる場合があるという問題があった。
【0015】
例えば、音声符号化方式として、ITU−T勧告G.729に示すCELP(Code Excited Linear Prediction)方式を用いる場合には、過去の復号駆動音源信号を用いて音声の符号化及び復号化処理が行われることにより、フレーム消失処理によって符号器と復号器とで異なる駆動音源信号が合成されてしまうとその後しばらくの間において符号器と復号器の内部状態が一致せず、復号音声信号の品質が大きく劣化してしまう場合があるという問題がある。内部状態の中でも、過去に生成した音源信号のバッファである適応符号帳の内容の不一致による品質劣化が顕著である。
【0016】
本発明は、かかる点に鑑みてなされたものであり、フレーム消失部およびフレーム消失の直後の復号音声信号の品質を向上させることができる音声符号化装置、音声復号化装置、音声信号伝送方法及びプログラムを提供することを目的とする。
【0017】
【課題を解決するための手段】
本発明の音声符号化装置は、入力音声信号を符号化する音声信号符号化手段と、前記符号化された音声信号を所定のデータ単位で送出する音声信号送出手段と、前記送出される音声信号のフレーム消失補償処理用ピッチラグを算出するピッチラグ算出手段と、前記算出されたフレーム消失補償処理用ピッチラグを表すピッチラグ情報を前記符号化された音声信号とともに送出するフレーム消失補償処理用ピッチラグ情報送出手段と、を具備する構成を採る。
【0018】
この構成によれば、音声符号化情報とは別に、フレーム消失補償処理で用いるべきピッチラグ情報を伝送するため、音声復号化装置側において、フレーム消失補償処理を行った場合でも、本来の復号音源信号と近い波形を生成できるようなピッチラグ情報をフレーム消失補償処理用ピッチラグとして検出・符号化・伝送することによって、送信側の音源信号と受信側の音源信号との間の誤差を最小限に抑えることが可能となる。
【0019】
なお、上記記載の特徴を有する音声符号化装置であって、フレーム消失補償処理用ピッチラグ情報が間欠的に伝送されることを特徴とする構成を採るようにすれば、フレーム消失補償処理用ピッチラグ情報は必要最低限の頻度またはフレームで伝送させることができるので、ビットレートの増加を極力抑えることを可能とすることもできる。
【0020】
本発明の音声符号化装置は、上記構成において、前記音声信号符号化手段は、前記入力音声信号の線形予測分析を行って線形予測係数を算出する線形予測分析部と、前記線形予測係数の量子化及び符号化を行う符号化部と、量子化された線形予測係数によって構成される線形予測フィルタと、前記線形予測フィルタを駆動する音源信号を符号化及び生成する音源符号化部と、を含むCELP型音声符号化手段である構成を採る。
【0021】
この構成によれば、CELP型音声符号化装置において、音声符号化情報とは別に、フレーム消失補償処理で用いるべきピッチラグ情報を伝送するため、フレーム消失補償処理を行った場合でも、本来の復号音源信号と近い波形を生成できるようなピッチラグ情報をフレーム消失補償処理用ピッチラグとして検出・符号化・伝送することによって、送信側の音源信号と受信側の音源信号との間の誤差を最小限に抑えることが可能となる。
【0022】
本発明の音声符号化装置は、上記構成において、前記ピッチラグ算出手段は、過去に符号化した前記音声信号のピッチ周期と、過去に符号化した符号化音源信号と、これから送出しようとする単位ブロック内の符号化音源信号の終端1ピッチ周期長と、を用いて前記フレーム消失補償処理用ピッチラグを算出する構成を採る。
【0023】
この構成によれば、フレーム消失補償処理を行っても、復号器側で復号した音源信号におけるフレーム内の最後尾の1ピッチ波形と対応する符号器側の音源信号の波形との間の誤差が小さくなることが保証され、また、ピッチラグの連続性も考慮されるため、高性能なフレーム消失補償処理が可能となる。
【0024】
本発明の音声復号化装置は、符号化された音声信号を復号化する音声信号復号化手段と、前記音声信号のフレーム消失補償処理用ピッチラグを表す情報に基づいて、前記音声信号に消失フレームが存在する場合に当該消失フレームの補償処理を行う補償手段と、を具備する構成を採る。
【0025】
この構成によれば、フレーム消失が発生した際、フレーム消失補償処理用ピッチラグ情報を利用して消失フレームの補償処理ができるので、より精度の良いフレーム消失補償処理が可能となる。
【0026】
本発明の音声復号化装置は、上記構成において、前記フレーム消失補償処理用ピッチラグ情報は、前記符号化された音声信号に多重化されており、前記補償手段は、現在フレームが消失フレームであった場合は、直前フレームにおいて受信したフレーム消失補償処理用ピッチラグを表す情報を用いて消失フレームの補償処理を行う構成を採る。
【0027】
この構成によれば、フレーム消失が発生した際、直前の正常フレームにおいて受信した消失フレームのフレーム消失補償処理用ピッチラグ情報を利用できるので、より精度の良いフレーム消失補償処理が可能となる。
【0028】
本発明の音声復号化装置は、上記構成において、前記音声信号復号化手段は、線形予測係数の復号処理を行う線形予測係数復号部と、復号された線形予測係数によって構成される線形予測フィルタと、復号された利得パラメータに基づいて適応符号帳及び固定符号帳の各利得を制御するとともに当該制御された適応符号帳及び固定符号帳の内容に基づいて前記線形予測フィルタを駆動する音源復号化部と、を含むCELP型音声復号化手段である構成を採る。
【0029】
この構成によれば、フレーム消失が発生した際、直前の正常フレームにおいて受信した消失フレームのフレーム消失補償処理用ピッチラグ情報を利用できるので、より精度の良いフレーム消失補償処理が可能となり、フレーム消失補償処理によって生成された音源信号と符号器側の音源信号との間の誤差を最小とするように適応符号帳を生成することが可能であるので、フレーム消失後の正常フレームにおける符号器側と復号器側との適応符号帳の内容の不一致を低減することが可能となる。
【0030】
本発明の移動局装置は、入力音声信号を符号化する音声信号符号化手段と、前記符号化された音声信号を所定のデータ単位で送信する音声信号送信手段と、前記送信される音声信号のフレーム消失補償処理用ピッチラグを算出するピッチラグ算出手段と、前記算出されたフレーム消失補償処理用ピッチラグを表す情報を前記符号化された音声信号とともに送信するフレーム消失補償処理用ピッチラグ情報送信手段と、を具備し、基地局装置との間で無線通信を行う構成を採る。
【0031】
この構成によれば、フレーム消失補償処理で用いるべきピッチラグ情報を伝送するため、基地局装置側において、フレーム消失補償処理を行った場合でも、本来の復号音源信号と近い波形を生成できるようなピッチラグ情報をフレーム消失補償処理用ピッチラグとして検出・符号化・伝送することによって、送信側の音源信号と受信側の音源信号との間の誤差を最小限に抑えることが可能となる。
【0032】
本発明の移動局装置は、符号化された音声信号を復号化する音声信号復号化手段と、前記音声信号のフレーム消失補償処理用ピッチラグを表す情報に基づいて、前記音声信号に消失フレームが存在する場合に当該消失フレームの補償処理を行う補償手段と、を具備し、基地局装置との間で無線通信を行う構成を採る。
【0033】
この構成によれば、移動局装置において、フレーム消失が発生した際、フレーム消失補償処理用ピッチラグ情報を利用して消失フレームの補償処理ができるので、より精度の良いフレーム消失補償処理が可能となる。
【0034】
本発明の基地局装置は、入力音声信号を符号化する音声信号符号化手段と、前記符号化された音声信号を所定のデータ単位で送信する音声信号送信手段と、前記送信される音声信号のフレーム消失補償処理用ピッチラグを算出するピッチラグ算出手段と、前記算出されたフレーム消失補償処理用ピッチラグを表す情報を前記符号化された音声信号とともに送信するフレーム消失補償処理用ピッチラグ情報送信手段と、を具備し、移動局装置との間で無線通信を行う構成を採る。
【0035】
この構成によれば、フレーム消失補償処理で用いるべきピッチラグ情報を伝送するため、移動局装置側において、フレーム消失補償処理を行った場合でも、本来の復号音源信号と近い波形を生成できるようなピッチラグ情報をフレーム消失補償処理用ピッチラグとして検出・符号化・伝送することによって、送信側の音源信号と受信側の音源信号との間の誤差を最小限に抑えることが可能となる。
【0036】
本発明の基地局装置は、符号化された音声信号を復号化する音声信号復号化手段と、前記音声信号のフレーム消失補償処理用ピッチラグを表す情報に基づいて、前記音声信号に消失フレームが存在する場合に当該消失フレームの補償処理を行う補償手段と、を具備し、移動局装置との間で無線通信を行う構成を採る。
【0037】
この構成によれば、基地局装置において、フレーム消失が発生した際、フレーム消失補償処理用ピッチラグ情報を利用して消失フレームの補償処理ができるので、より精度の良いフレーム消失補償処理が可能となる。
【0038】
本発明の音声信号伝送方法は、入力音声信号を符号化する音声信号符号化工程と、前記符号化された音声信号を所定のデータ単位で送信する音声信号送信工程と、前記送信される音声信号のフレーム消失補償処理用ピッチラグを算出するピッチラグ算出手段と、前記算出されたフレーム消失補償処理用ピッチラグを表す情報を前記符号化された音声信号とともに送信するフレーム消失補償処理用ピッチラグ情報送信工程と、前記符号化された音声信号を復号化する音声信号復号化工程と、前記音声信号のフレーム消失補償処理用ピッチラグを表す情報に基づいて、前記音声信号に消失フレームが存在する場合に当該消失フレームの補償処理を行う補償工程と、を具備するようにした。
【0039】
この方法によれば、フレーム消失補償処理で用いるべきピッチラグ情報を伝送するため、音声復号化装置側において、フレーム消失補償処理を行った場合でも、本来の復号音源信号と近い波形を生成できるようなピッチラグ情報をフレーム消失補償処理用ピッチラグとして検出・符号化・伝送することによって、送信側の音源信号と受信側の音源信号との間の誤差を最小限に抑えることが可能となる。また、音声復号化装置において、フレーム消失が発生した際、フレーム消失補償処理用ピッチラグ情報を利用して消失フレームの補償処理ができるので、より精度の良いフレーム消失補償処理が可能となる。
【0040】
本発明のプログラムは、入力音声信号を符号化する音声信号符号化工程と、前記符号化された音声信号を所定のデータ単位で送出する音声信号送出工程と、前記送出される音声信号のフレーム消失補償処理用ピッチラグを算出するピッチラグ算出手段と、前記算出されたフレーム消失補償処理用ピッチラグを表す情報を前記符号化された音声信号とともに送出するフレーム消失補償処理用ピッチラグ情報送出工程と、を音声符号化装置に実行させるようにした。
【0041】
このプログラムによれば、フレーム消失補償処理で用いるべきピッチラグ情報を伝送するため、音声復号化装置側において、フレーム消失補償処理を行った場合でも、本来の復号音源信号と近い波形を生成できるようなピッチラグ情報をフレーム消失補償処理用ピッチラグとして検出・符号化・伝送することによって、送信側の音源信号と受信側の音源信号との間の誤差を最小限に抑えることが可能となる。
【0042】
本発明のプログラムは、符号化された音声信号を復号化する音声信号復号化工程と、前記音声信号のフレーム消失補償処理用ピッチラグを表す情報に基づいて、前記音声信号に消失フレームが存在する場合に当該消失フレームの補償処理を行う補償工程と、を音声復号化装置に実行させるようにした。
【0043】
このプログラムによれば、音声復号化装置において、フレーム消失が発生した際、フレーム消失補償処理用ピッチラグ情報を利用して消失フレームの補償処理ができるので、より精度の良いフレーム消失補償処理が可能となる。
【0044】
【発明の実施の形態】
本発明の骨子は、音声符号化装置において、音声信号のフレーム消失補償処理用ピッチラグを算出し、このピッチラグを表す情報を、符号化された音声信号とともに音声復号化装置に伝送することにより、音声復号化装置において、音声信号の消失フレームが発生した際に、その消失フレームの補償処理をフレーム消失補償処理用ピッチラグ情報に基づいて行うことである。
【0045】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
【0046】
図1は、本発明の実施の形態1に係る音声信号伝送システムの構成を示すブロック図である。
【0047】
音声信号伝送システムは、音声信号送信装置100及び音声信号受信装置199を具備している。
【0048】
音声信号送信装置100は、入力装置102、A/D変換装置103、音声符号化装置104、信号処理装置105、RF変調装置106、送信装置107及びアンテナ108を有している。A/D変換装置103は入力装置102に接続されている。音声符号化装置104の入力端子はA/D変換装置103の出力端子に接続されている。信号処理装置105の入力端子は、音声符号化装置104の出力端子に接続されている。RF変調装置106の入力端子は信号処理装置105の出力端子に接続されている。送信装置107の入力端子はRF変調装置106の出力端子に接続されている。アンテナ108は、送信装置107の出力端子に接続されている。
【0049】
入力装置102は、音声信号を受けて電気信号であるアナログの音声信号に変換してA/D変換装置103に与える。A/D変換装置103は、入力装置102からのアナログの音声信号をディジタルの音声信号に変換し音声符号化装置104に与える。音声符号化装置104は、A/D変換装置103からのディジタルの音声信号を符号化して音声符号化情報を生成して信号処理装置105に与える。
【0050】
信号処理装置105は、音声符号化装置104からの音声符号化情報にチャネル符号化処理、パケット化処理および送信バッファ処理を行って音声符号化情報をRF変調装置106に与える。RF変調装置106は、信号処理装置105からの音声符号化信号を変調して送信装置107に与える。送信装置107は、RF変調装置106からの音声符号化信号をアンテナ108を介して音声符号化情報を電波(RF信号)として送信する。
【0051】
音声信号送信装置100においては、入力されるディジタルの音声信号に対して数十msのフレーム単位で処理が行われ、1フレーム又は数フレームの符号化データを1つのパケットに入れこのパケットがパケット網に送出される。本明細書では、伝送遅延を最小限にするために、1フレームを1パケットで伝送することを想定している。したがって、パケット損失はフレーム消失に相当する。
【0052】
なお、本発明はパケット交換網に限らず、回線交換網にも適用可能で、その場合は、パケット化処理、ジッタ吸収バッファリング処理、パケット組みたて処理は不要である。
【0053】
音声信号受信装置199は、アンテナ110、受信装置111、RF復調装置112、信号処理装置113、音声復号化装置114、D/A変換装置115及び出力装置116を有している。受信装置111の入力端子は、アンテナ110に接続されている。RF復調装置112の入力端子は、受信装置111の出力端子に接続されている。信号処理装置113の入力端子は、RF復調装置112の出力端子に接続されている。音声復号化装置114の2つの入力端子は、信号処理装置113の2つの出力端子に一対一接続されている。D/A変換装置115の入力端子は、音声復号化装置114の出力端子に接続されている。出力装置116の入力端子は、D/A変換装置115の出力端子に接続されている。
【0054】
受信装置111は、アンテナ110を介して音声符号化情報である電波(RF信号)を受けてアナログの電気信号である受信音声符号化信号を生成してRF復調装置112に与える。電波(RF信号)は、伝送路において信号の減衰や雑音の重畳がなければ音声信号送信装置100から送信された電波(RF信号)と全く同じものとなる。RF復調装置112は、受信装置111からの受信音声符号化信号を復調し信号処理装置113に与える。
【0055】
信号処理装置113は、RF復調装置112からの受信音声符号化信号のジッタ吸収バッファリング処理、パケット組みたて処理、パケット消失検出処理、多重分離処理及びチャネル復号化処理を行って符号化音声情報とパケット消失情報とをそれぞれ音声復号化装置114に与える。音声復号化装置114は、信号処理装置113からの符号化音声情報を復号化して復号音声信号を生成してD/A変換装置115に与える。D/A変換装置115は、音声復号化装置114からのディジタルの復号音声信号をアナログの復号音声信号に変換して出力装置116に与える。出力装置116は、D/A変換装置115からのアナログの復号音声信号を空気の振動に変換し音波として人間の耳に聴こえるように出力する。
【0056】
次に、音声符号化装置104について図1、図2および図4を参照して詳細に説明する。図2は音声符号化装置104の構成を示すブロック図である。図4は、フレーム消失補償処理用ピッチラグ検出・符号化部を示すブロック図である。
【0057】
図1に示すように、音声符号化装置104は、フレーム消失補償処理用ピッチラグ検出・符号化部151、多重化部152、音声符号化部153及び1フレーム遅延部154を有している。音声符号化部153の入力端子は、A/D変換装置103の出力端子に接続されている。フレーム消失補償処理用ピッチラグ検出・符号化部151の入力端子は、音声符号化部153の2つの出力端子のうちの一方に接続されている。1フレーム遅延部154の入力端子は音声符号化部153の2つの出力端子のうちのもう一方に接続されている。多重化部152は、フレーム消失補償処理用ピッチラグ検出・符号化部151及び1フレーム遅延部154の出力端子と信号処理装置105の入力端子との間に接続されている。
【0058】
音声符号化部153は、A/D変換装置103から入力したディジタル音声信号の符号化処理を行い、符号化パラメータ情報を1フレーム遅延部154へ出力する。同時に、音声符号化部153は、後述するピッチパラメータ(量子化ピッチ周期)と適応符号帳に保持されている音源信号とをフレーム消失補償処理用ピッチラグ検出・符号化部151へ出力する。フレーム消失補償処理用ピッチラグ検出・符号化部151は、ピッチパラメータである量子化ピッチ周期情報と過去の音源信号系列と現フレームにおける音源信号とを用いて、フレーム消失補償処理で用いるべきピッチラグを検出・符号化し、多重化部152へ出力する。
【0059】
なお、フレーム消失補償処理用ピッチラグPcは、前フレームの末尾2ピッチ周期長の波形を用いて、現フレームの最後尾の音源信号との相互相関を最大化することによって得られるシフト量(S+L、Lはフレーム長)と、前フレーム末尾におけるピッチ周期(P’)を用いて決定したそのシフト量の間(S+L)に存在すべきピッチ周期の数Npと、を用いて決定される。具体的には、Np=INT(0.5+(S+L)/P’)、Pc=(S+L)/Np、と表すことができる。(式2および図7参照)
【0060】
したがって、1フレームが複数のサブフレームに分割されている場合(あるいは1パケットに複数のフレームがパケット化されている場合)は、前フレーム(またはパケット)における最後のサブフレーム(またはフレーム)の末尾から2ピッチ周期長の音源信号波形およびピッチ周期と、現フレーム(またはパケット)における最後のサブフレーム(またはフレーム)末尾から1ピッチ周期長の音源信号と、をそれぞれ用いてフレーム消失補償処理用ピッチラグを算出・符号化する。なお、2ピッチ周期長を用いるのは(前フレームの末尾ではなく)現フレームの末尾としても良い。また、2ピッチ周期長を用いずに1ピッチ周期長の波形を巡回させてシフト量を求める方法も考えられる。フレーム消失補償処理用ピッチラグの符号化方法については特に限定しないが、一般的なピッチ符号化法を用いても良いし、音声符号化情報の一パラメータとして伝送するピッチ周期からの差分を利用した符号化方法を用いてもよい。
【0061】
また、前記相互相関を最大化しても相関値が低いような場合は、フレーム消失補償処理用のピッチラグ情報を伝送する代わりに、周期性が低いことを知らせる符号を伝送するようにしても良い。
【0062】
なお、音声符号化情報に含まれるピッチ情報と、フレーム消失補償処理用ピッチラグ情報とが、まったく同じピッチ周期を示す場合は、その旨を別途知らせる情報を伝送することによってフレーム消失補償処理用のピッチラグの符号化・伝送を省略することも可能である。
【0063】
多重化部152は、フレーム消失補償処理用ピッチラグ検出・符号化部151によって符号化された現フレームのフレーム消失補償処理に用いるべきピッチラグ情報を、1フレーム遅延部154から出力される前フレームにおける音声符号化情報と多重化して、信号処理装置105へ出力する。この多重化処理は、ごく普通に前記2種類の符号化情報を多重化する処理であっても良いし、あるいは、音声符号化情報の中でも重要度の低い部分をフレーム消失補償処理用ピッチラグ情報に置き換えるような処理でも良い。
【0064】
次に、音声符号化部153について、図2を用いてより詳細に説明する。音声符号化部153は、図2に示されるように、前処理部201、線形予測分析器202、LPC量子化器203、聴覚重みフィルタ204、聴覚重みフィルタ205、LPC合成フィルタ206、加算器207、適応符号帳208、乗算器209、固定符号帳210、乗算器211、利得量子化器212、加算器213、音源パラメータ決定部214および符号化部215とを有している。適応符号帳208、固定符号帳210及び利得量子化器212によって音源符号化部が構成され、この音源符号化部によってLPC合成フィルタ206が駆動される。
【0065】
前処理部201は、A/D変換装置103からディジタル音声信号を入力し、背景雑音抑圧処理やプリエンファシス処理のように音声の品質を改善するための処理やDC成分をカットするためのハイパスフィルタ処理などを行って線形予測分析器202と聴覚重みフィルタ204とに出力する。線形予測分析器202は、前処理部201から入力した前処理後のディジタル音声信号の線形予測分析を行って線形予測係数を算出し、LPC量子化器203と聴覚重みフィルタ204と聴覚重みフィルタ205とにそれぞれ出力する。
【0066】
LPC量子化器203は、線形予測分析器202から入力した線形予測係数の量子化・符号化処理を行い、量子化した線形予測係数をLPC合成フィルタ206に出力するとともに符号化結果をパラメータLとして出力する。パラメータLは符号化部215に入力され、他の符号化音源パラメータとともにまとめて符号化(ビットストリーム化)される。聴覚重みフィルタ204と聴覚重みフィルタ205は、線形予測分析器202によって算出された線形予測係数を用いたARMA型のディジタルフィルタで、後述する音声符号化部による量子化誤差に対して人間の聴覚特性に合わせた重み付けをするためのものであり、2つの聴覚重みフィルタは同じフィルタ特性を有する。
【0067】
聴覚重みフィルタ204は、前処理部201から前処理後のディジタル音声信号を入力し、聴覚重み付けをするARMAフィルタ処理を行って加算器213へ出力する。聴覚重みフィルタ205は、LPC合成フィルタ206によって合成されたディジタル音声信号を入力し、204と同じ聴覚重み付けをするARMAフィルタ処理を行って加算器213へ出力する。LPC合成フィルタ206は、LPC量子化器203によって量子化された線形予測係数を用いて構成されるAR型のディジタルフィルタであり、加算器207から入力した音源信号を用いて合成音声信号を生成し、聴覚重みフィルタ205へ出力する。
【0068】
加算器207は、適応符号帳208から乗算器209を介して入力した適応符号帳ベクトルと、固定符号帳210から乗算器211を介して入力した固定符号帳ベクトルとのベクトル加算を行って、音源ベクトルを生成し、LPC合成フィルタ206へ出力する。また、生成した音源ベクトルは、適応符号帳208へフィードバックされて、適応符号帳208の内容が更新される。更新前の適応符号帳の音源信号バッファ(前フレーム以前の符号化音源信号)と現フレームの符号化音源信号は、フレーム消失補償処理用ピッチラグ検出・符号化部151へ出力される。
【0069】
適応符号帳208は、加算器207によって過去に生成された音源ベクトルを蓄積・保持しているメモリであり、加算器207から出力された音源ベクトルによって逐次更新される。また、適応符符号帳208は、適正な位置からベクトルを切り出して乗算器209へ出力する。有声信号の場合、音源信号が周期性を有することから、過去に生成した音源信号を利用して効率的に音源信号を符号化することができることから、このような適応符号帳が一般に用いられる。適応符号帳ベクトルの切りだし位置はピッチパラメータPによって決定される。
【0070】
ピッチパラメータPは、音源パラメータ決定部によって決定される。固定符号帳は、雑音系列や少数のパルスの組み合わせなどによって任意のベクトルを生成するもので、予め定められた数のベクトルを格納もしくは生成できるようになっており、各ベクトルには固有の番号が振られており、その番号を指定することで対応する形状の固定符号帳ベクトルが生成される。番号は固定符号帳インデックスCとして、音源パラメータ決定部214で決定される。なお、図2では示していないが、固定符号帳は複数のチャンネルや複数のサブセットから構成されていたり、固定符号帳ベクトルに対してピッチ周期化処理が行われたりすることが一般的である。
【0071】
乗算器209は、利得量子化器212によって量子化された適応符号帳利得(ピッチ利得)を適応符号帳208から出力されたベクトルに乗じて加算器207へ出力する。乗算器211は、利得量子化器212によって量子化された固定符号帳利得を固定符号帳210から出力されたベクトルに乗じて加算器207へ出力する。
【0072】
利得量子化器212は、音源利得パラメータGで示される量子化適応符号帳利得および量子化固定符号帳利得をそれぞれ乗算器209および211へ出力する。音源利得パラメータGは音源パラメータ決定部214で決定される。音源パラメータ決定部214は、加算器213から出力される、聴覚重みフィルタ204によって聴覚重み付けされた入力音声信号と聴覚重みフィルタ205によって聴覚重み付けされたLPC合成フィルタ206の合成音声信号との出力の誤差を最小化するように、適応符号帳パラメータPと固定符号帳パラメータCと利得パラメータGを決定する。
【0073】
加算器213は、聴覚重みフィルタ205からの出力ベクトルと聴覚重みフィルタ204からの出力ベクトルとの差分ベクトルを算出して音源パラメータ決定部214へ出力する。音源パラメータ決定部によって決定された適応符号帳パラメータPと固定符号帳パラメータCと利得符号帳パラメータGと、LPC量子化器によって符号化された線形予測パラメータLとは、符号化部215により一括して一つの符号としてまとめられ(ビットストリーム化され)、1フレーム遅延部154へ出力される。1フレーム遅延部154は、符号化部215より入力した音声符号化情報を1フレームの時間だけ保持した後、多重化部152へ出力する。
【0074】
次に、フレーム消失補償処理用ピッチラグ検出・符号化部151の動作について、図4および図7を参照してより詳細に説明する。図4に示す通り、フレーム消失補償処理用ピッチラグ検出・符号化部151は、1ピッチ波形抽出部401、相互相関最大化位置探索部402、ピッチ数算出部403、ピッチ周期算出部404、およびピッチラグ符号化部405とから構成される。
【0075】
1ピッチ波形抽出部401は、現フレームにおける符号化音源信号から、末尾から前フレームにおけるピッチ周期P’の長さを切り出し、これを現フレームにおける音源信号の1ピッチ波形として相互相関最大化位置探索部402へ出力する。
【0076】
相互相関最大化位置探索部402は、前フレームにおける音源信号と、前記1ピッチ波形抽出部401によって決定された現フレームにおける音源信号の1ピッチ波形との相互相関を位置をずらしながら算出する。ここで、現フレームにおける音源信号の1ピッチ波形を XC[i], i=0,…P’−1 とし、前フレームの音源信号をXC[i], i=−1,−2,…,−2P’とすると、相互相関関数R[n] は、式(1)のように表される。
【0077】
【数1】

Figure 2004138756
nの範囲は、0≦n<P’ とし、現フレームの末尾から1ピッチ周期長の間とする。R[n]が最大となるnをピッチ数算出部403へ出力する(図7におけるS)。なお、相互相関の値を閾値によってチェックし、閾値以下である場合は相関が低いと判断して前フレームから現フレームにかけてのピッチ周期性はないという判定結果を出力するようにしても良い。なお、このような閾値処理を行う場合は、閾値の設定時に(式1)をXC[i]のエネルギで正規化したものを利用する。また、ピッチ数算出部403へ出力するSは、整数精度ではなく分数精度としても良い。分数精度とする場合は、R[n]を最大とするnの近傍のR[n]を所望の精度の補間関数によって補間し、補完したR[n]を最大とする補間点をSとしてピッチ数算出部403へ出力する。
【0078】
ピッチ数算出部403は、相互相関最大化位置探索部402からの出力Sと、ピッチP’とを用い、(式2)によって前フレームの最後のピッチ波形から現フレームの最後部のピッチ波形までの間にピッチ波形がいくつ存在するか(何ピッチ分の長さか)を計算する。
【0079】
【数2】
Figure 2004138756
ここで、int[X] はX以下の最大の整数を表す演算子である。(式2)で算出されたピッチ数Npを用いて、(式3)のようにフレーム消失補償処理用ピッチラグPcを算出する。
【0080】
【数3】
Figure 2004138756
このように、フレーム消失補償処理用ピッチラグは、過去に送出された前記音声信号の単位ブロック内の終端におけるピッチ周期と、前記ブロック内の符号化音源信号と、これから送出しようとする単位ブロック内の符号化音源信号の終端1ピッチ長の波形と、を用いて算出されるものであり、現フレーム(またはパケット)における音源波形を用いずに求めたピッチ周期を表すものである。このフレーム補償処理用ピッチラグは、換言すると、現フレーム(またはパケット)の終端1ピッチ周期長の波形を除き、現フレーム(またはパケット)における音源波形を用いずに求めたピッチ周期を表すものである。
【0081】
なお、PcとP’とを比較し、差が所定の閾値より大きい場合(例えばP’±15%の範囲にPcがない場合など)には、ピッチラグの変化が大きすぎるのでフレーム消失補償処理用ピッチラグとして適切でないと判断し、P’をPcの代わりに出力したり、適切なピッチラグが見つからなかったことをピッチラグ符号化部405へ出力したりするようにしても良い。また、現フレームの終端1ピッチ波形を切り出す際に用いるピッチ周期は、前フレームのピッチ周期P’ではなく現フレームのピッチ周期Pを用いても良い。
【0082】
最後にフレーム消失補償処理用ピッチラグPcをピッチラグ符号化部405で符号化して多重化部152へ出力する。Pcの符号化は、一般的なピッチの量子化・符号化手法を用いる。多重化する音声符号化情報に含まれるピッチ情報からの差分量子化などを用いて効率的な符号化を行うことも可能である。また、ピッチラグPcではなく相互相関関数R[n]を最大化するシフト量Sを符号化・伝送し、復号器側でPcを計算する構成も可能である。なお、相互相関最大化位置探索部402が、相関が低いと判断した場合や、ピッチ周期算出部が適切なピッチが求められないと判断した場合は、有声性が低いフレームであることを示す特別な符号を出力するようにしても良い。
【0083】
次に、音声復号化装置114について図1、図3、図8を参照して詳細に説明する。図3は音声復号化装置114の構成を示すブロック図である。図8はフレーム消失補償処理の模式図である。
【0084】
図1に示すように、音声復号化装置114は、多重化情報離部155、音声復号化部156、1フレーム遅延部157、フレーム消失補償部158を有している。
【0085】
多重化情報分離部155の入力端子は信号処理装置113の2つの出力端子の一方に接続されている。音声復号化部156は3つの入力端子を持ち、一つは多重化情報分離部155の1つの出力端子に、一つは信号処理装置113の1つの出力端子に、一つはフレーム消失補償部158に、それぞれ接続されている。また、音声符号化部156は2つの出力端子をもち、一方はフレーム消失補償部158の2つの入力端子の一方に接続されており、他方はD/A変換装置115へ接続されている。1フレーム遅延部157の入力端子は、多重化情報分離部155の出力端子の一つに接続されている。フレーム消失補償部158は2つの入力端子をもち、一方は1フレーム遅延部157の出力端子に接続されており、他方は音声復号化部156の1つの出力端子に接続されている。
【0086】
多重化情報分離部155は、信号処理装置113から入力した多重化された符号化情報から、フレーム消失補償処理用ピッチラグ情報と音声符号化情報とを分離し、フレーム消失補償処理用ピッチラグ情報を1フレーム遅延部157へ、音声符号化情報を音声復号化部156に、それぞれ出力する。また、信号処理装置113は、フレーム消失情報を音声復号化部156へ出力する。音声復号化部156は、多重化情報分離部155から入力した音声符号化情報を用いて復号処理を行い、復号音声信号をD/A変換装置115へ出力する。また、フレーム消失補償処理において更新が必要なパラメータをフレーム消失補償部158へ出力する。
【0087】
なお、信号処理装置113から入力されたフレーム消失補償情報が「現在のフレームは消失している」ことを示す場合は、多重化情報分離部155からの情報が入力されないので、フレーム消失補償部158から入力されるパラメータ情報を用いて音声信号を生成し、D/A変換装置115へ出力する。このとき、フレーム消失補償処理に必要なパラメータはフレーム消失補償部158へ出力される。
【0088】
1フレーム遅延部157は、多重化情報分離部155より入力したフレーム消失補償処理用ピッチラグ情報を1フレーム分の時間だけ保持してからフレーム消失補償部158へ出力する。フレーム消失補償部158は、1フレーム遅延部157から入力した、現フレーム(1フレーム前に送られてきているフレーム消失補償処理用ピッチラグ情報は、1フレーム前において1フレーム先のフレーム消失補償処理用ピッチラグ情報なので、現フレームのフレーム消失補償処理用ピッチラグ情報である)におけるフレーム消失補償用ピッチラグ情報を入力し、このピッチラグを用いてフレーム消失補償処理を行う。
【0089】
フレーム消失補償処理は、1フレーム遅延部157から入力した現フレームのフレーム消失補償処理用ピッチラグと、音声復号化部156から入力した前フレームまでに復号している音声符号化パラメータとを用いて行われる。
【0090】
次に、音声復号化部156について、図3を参照してより詳細に説明する。音声復号化部156は、図3に示されるように、パラメータ復号部301、利得復号器302、切り替えスイッチ303、適応符号帳304、固定符号帳305、LPC復号器306、乗算器307、乗算器308、加算器309、LPC合成フィルタ310および後処理部311を有する。
【0091】
パラメータ復号部301の入力端子は多重化情報分離部155の出力端子に接続している。利得復号器302の入力端子はパラメータ復号部301の出力端子の一つに接続している。LPC復号器306の入力端子はパラメータ復号部301の出力端子の一つに接続している。切替スイッチ303の入力端子はパラメータ復号部301の出力端子と利得復号器の出力端子とLPC復号器306の出力端子とフレーム消失補償部の出力端子にそれぞれ接続している。
【0092】
また、切替スイッチ303のフレーム消失情報を受信する端子が、信号処理装置113に接続されている。適応符号帳304の入力端子は、スイッチ303の出力端子と加算器309の出力端子に接続している。固定符号帳305の入力端子は、切り替えスイッチ303の出力端子に接続している。乗算器307の2つの入力端子は、一方が適応符号帳304の出力端子に、他方が切替スイッチ303の出力端子にそれぞれ接続している。
【0093】
乗算器308の2つの入力端子は、一方が固定符号帳305に、他方が切り替えスイッチ303の出力端子に、それぞれ接続している。加算器309の2つの入力端子は、一方が乗算器307の出力端子に、他方が乗算器308の出力端子に、それぞれ接続している。LPC合成フィルタ310の2つの入力端子は、一方が加算器309に、他方が切り替えスイッチ303に、それぞれ接続している。後処理部311の入力端子は、LPC合成フィルタ310の出力端子に接続しており、ディジタル復号音声信号をD/A変換装置115へ出力する。
【0094】
パラメータ復号部301は、多重化情報分離部155から入力した音声符号化情報(ビットストリーム)から音声符号化パラメータ(ピッチ(適応符号帳)パラメータP、固定符号帳パラメータC、線形予測パラメータL、利得パラメータG)を復号し、利得パラメータGを利得復号器302へ、線形予測係数パラメータLをLPC復号器306へ、その他のパラメータを切り替えスイッチ303へそれぞれ出力する。利得復号器302は、パラメータ復号部301から入力した利得パラメータGから適応符号帳利得Gpと固定符号帳利得Gcをそれぞれ復号し、切替スイッチ303へ出力する。
【0095】
LPC復号器306は、パラメータ復号部301から入力した線形予測係数パラメータLから復号量子化線形予測係数αを復号し、切り替えスイッチ303へ出力する。切り替えスイッチ303は、パラメータ復号器301、利得復号器302およびLPC復号器306から入力されるパラメータ群と、フレーム消失補償部158から入力されるパラメータ群との切替を行うためのスイッチで、信号処理装置113から受信したフレーム消失情報が「現フレームは消失フレームである」を示す場合にはフレーム消失補償処理部158が生成したパラメータ側にスイッチが切り替わり、それ以外の場合はパラメータ復号部301、利得復号器302およびLPC復号器306から出力されるバラメータ側にスイッチが接続される。
【0096】
切り替えスイッチ303は、適応符号帳パラメータ(ピッチ)PまたはP’を適応符号帳304へ、適応符号帳利得GpまたはGp’を乗算器307へ、固定符号帳パラメータCまたはC’を固定符号帳305へ、固定符号帳利得GcまたはGc’を乗算器308へ、復号量子化線形予測係数αまたはα’をLPC合成フィルタ310へ、それぞれ出力する。また、切り替えスイッチ303は、適応符号帳304、固定符号帳305、乗算器307、乗算器308、LPC合成フィルタ310へ出力した各パラメータをフレーム消失補償部158にも同時に出力する。
【0097】
適応符号帳304は、過去に生成された音源信号をバッファリングしており、加算器309から最新の音源信号が入力されるたびに更新される。適応符号帳304のバッファリングしている信号長は、最大ピッチ周期長+フレーム長以上である。切替スイッチ303から入力した適応符号帳パラメータ(ピッチ)PまたはP’によって指定される位置から適応符号帳ベクトルを切り出して乗算器307へ出力する。
【0098】
乗算器307は、適応符号帳304から出力された適応符号ベクトルに、切替スイッチ303から入力した適応符号帳利得GpまたはGp’を乗じて加算器309へ出力する。固定符号帳305は、切替スイッチ303から入力した固定符号帳パラメータCまたはC’によって指定される固定符号帳ベクトルを生成し、乗算器308へ出力する。乗算器308は、固定符号帳305から入力した固定符号帳ベクトルに、切り替えスイッチ303から入力した固定符号帳利得GcまたはGc’を乗じて加算器309へ出力する。
【0099】
加算器309は、乗算器307から入力した適応符号帳ベクトルと、乗算器308から入力した固定符号帳ベクトルとを加算し、LPC合成フィルタ310および適応符号帳304へ出力する。LPC復号器306は、パラメータ復号器301によって復号された線形予測パラメータLから復号量子化線形予測係数αを切り替えスイッチ303に出力する。LPC合成フィルタ310は、切替スイッチ303から入力した復号量子化線形予測係数αまたはα’によって構成されるAR型ディジタルフィルタを、加算器309より入力する音源信号によって駆動し、合成音声信号を後処理部311へ出力する。後処理部311は、音声信号の主観品質を改善するためのホルマント強調ポストフィルタ処理、ピッチ強調ポストフィルタ処理、傾斜補正ポストフィルタ処理、および、背景雑音信号の主観品質を改善するための雑音後処理、等を行い、ディジタル復号音声信号をD/A変換装置115へ出力する。
【0100】
次に、フレーム消失補償部158について、図3を参照しながら詳細を説明する。フレーム消失補償部158は、パラメータバッファ312、およびパラメータ生成部313を有する。
【0101】
パラメータバッファ312の入力端子は、音声復号化部156内の切り替えスイッチ303に接続されている。パラメータ生成部313の6つの入力端子は、5つがパラメータバッファ312の5つの出力端子に接続されている。
【0102】
パラメータバッファは、過去に音声復号化部156において、復号音声を生成するために用いられた各種の音声符号化パラメータを記憶しておくバッファであり、復号した適応符号帳パラメータ(ピッチ)P、雑音符号帳パラメータC、適応符号帳利得Gp、固定符号帳利得Gc、復号量子化線形予測係数αが音声符号化部156から入力される。また消失フレームにおいては、パラメータ生成部によって生成されたパラメータ(適応符号帳パラメータ(ピッチ)P’、固定符号帳パラメータC’、適応符号帳利得Gp’、固定符号帳利得Gc’、復号量子化線形予測係数α’)が入力される。バッファリングされている各種パラメータは、パラメータ生成部313へ出力され、消失フレームにおける各種パラメータを生成する際に使用される。
【0103】
パラメータ生成部313は、1フレーム遅延部157から入力したフレーム消失補償処理用ピッチラグ情報Pcと、パラメータバッファ312から入力した前フレームにおける各種復号パラメータを用いて、消失したフレームの音源パラメータを生成する。例えば、1フレーム遅延部157から入力した情報が、「現フレームはピッチ周期性を有さないフレームである」ことを示しているような場合は、適応符号帳利得Gp’を0.0とし、ランダムに生成した固定符号帳パラメータC’と前フレームにおいて使用した固定符号帳利得を減衰させた値をGc’として切替スイッチ303へ出力する。反対に、ピッチ周期算出器314から入力した情報がフレーム消失補償処理用ピッチラグ情報を示している場合は、ピッチパラメータをPcに設定し、適応符号帳利得Gp’を前フレームで復号した適応符号帳利得GpやGpを減衰した値(例えば0.9倍した値)や過去に復号したGpの平均的な値などに設定し、固定符号帳利得Gc’を0.0に設定して、切り替えスイッチ303へそれぞれ出力する。
【0104】
なお、「現フレームでは適切なピッチラグが求められなかった」ことを示す情報が1フレーム遅延部157から入力されているにもかかわらず、別途行われた有声性判定結果が有声フレームであることを示しているような場合は、パラメータバッファ312から入力した前フレームのピッチ周期P’をフレーム消失補償処理に用いるようにするなどする。なお、復号量子化線形予測係数α’としては、前フレームにおける復号量子化線形予測係数を繰り返して使用したり、帯域幅を拡張してスペクトル特性を平坦化したものを使用したりする。
【0105】
なお、フレーム消失補償処理用ピッチラグ検出・符号器151から出力される情報が前記シフト量Sである場合は、前記ピッチ数算出部403およびピッチ周期算出部404と同様の処理を行ってフレーム消失補償用のピッチラグPcを算出する。この場合、パラメータ生成部313は適応符合帳304から音源信号を入力する構成となる。
【0106】
復号音源信号のフレーム消失補償処理は、Pcが伝送されている場合は、Pcのみを用いて図8のC,Dの様に行う。即ち、通常の適応符号ベクトルの復号と同様にして、ピッチラグPcを用いて音源信号を適応符号帳から生成する(▲2▼)。ただし、この場合、適応符号帳の末尾Sの区間は必ずしも復号フレームの末尾1ピッチ波形との相関が高いことが補償されていないため、例えば適応符号帳の末尾Sの区間にピッチピークが存在した場合に、そのピッチピーク位置と復号フレームの末尾1ピッチ波形におけるピッチピーク位置とが微妙にずれる可能性がある。これを避けるために、適応符号帳の末尾Sの区間は一旦ゼロクリアして、この区間からフレーム消失補償処理(音源復号処理)を行うことも考えられる。また、フレーム消失補償処理用ピッチラグとしてシフト量Sを伝送している場合は、図8のAのように、復号フレーム終端1ピッチ周期をまずシフト量(L+S)を用いて生成し、この1ピッチ周期波形を用いて時間軸を遡る方向に周期化して音源波形を生成する(図8のB)ことによってフレーム消失補償処理を行うことも可能である。この場合、前フレームとの連続性を保つためにA,Bのようにして生成した音源信号▲1▼とC,Dのようにして生成した音源信号▲2▼とを三角窓などを用いて重ね合わせる(オーバーラップ・アッド)方法が考えられる。
【0107】
次に、音声符号化装置104および音声復号化装置114の動作について、図5及び図6を参照して説明する。図5は、音声符号化装置104の動作を説明するためのフローチャートであり、図6は、音声復号化装置114の動作を説明するためのフローチャートである。
【0108】
図5に示すように、音声符号化装置104は、まずステップST501において、音声符号化部153により1フレーム分のCELP音声符号化処理を行う。次に、音声符号化装置104は、ステップST502において、ステップST501にて得られた音声符号化情報を次のフレームの処理が終わるまで保存する。
【0109】
次に、音声符号化装置104は、ステップST503において、フレーム消失補償処理用ピッチラグ検出・符号化部151により、フレーム消失補償処理用ピッチラグの検出および符号化処理を行う。
【0110】
次に、音声符号化装置104は、ステップST504において、前フレームのステップST502にて保存された音声符号化情報(前フレームの音声符号化情報)を取り出す。
【0111】
次に、音声符号化装置104は、ステップST505において、ステップST503にて検出されたピッチピーク位置情報と、取り出された前フレームの音声符号化情報との多重化を行い、音声符号化装置104の出力として出力する。
【0112】
音声符号化装置104は、上記ステップST501〜ステップST505の一連の符号化処理を繰り返す。音声符号化装置104では、上述したステップST501〜ステップST505の処理手順を実行するためのプログラムに基づいて音声復号化処理を実行する。
【0113】
続いて音声復号化装置114の動作を説明する。図6において、音声復号化装置114は、まず、ステップST510において、信号処理装置113にて現フレームが消失しているかどうかを判定する。消失していない場合はステップST511に進み、消失している場合はステップST514に進む。
【0114】
次に、音声復号化装置114は、フレーム消失していない場合は、ステップST511において、多重化情報分離部155が受信した符号化情報からフレーム消失補償処理用ピッチラグ情報と音声符号化情報とを分離する。
【0115】
続いて、音声復号化装置114は、ステップST512において、音声復号化部156内のパラメータ復号部301によって、音声符号化情報から音声符号化パラメータを復号する。次に、音声復号化装置114は、ステップST513において、音声復号化部156の残りの部分が、復号された音声符号化パラメータから音声信号を再合成する処理を行い、復号音声信号をD/A変換装置115へ出力する。
【0116】
フレームが消失している場合は、ステップST514において、フレーム消失補償に用いる音声パラメータの生成が行われる。具体的には、現フレーム(消失フレーム)がピッチ周期性を有するフレームかどうかをチェックした後(ピッチ周期性があるかないかに関する情報は受信したフレーム消失補償処理用ピッチラグ情報に含まれている場合はそれを利用し、含まれていない場合は例えばITU−T勧告G.729のフレーム消失補償処理と同様な方法で判定すれば良い)、現フレームがピッチ周期性を有するフレームであると判断された場合は、固定符号帳利得をゼロとし、適応符号帳のみを用いて音声信号を生成する。このとき用いるピッチ周期(適応符号帳パラメータ)は、受信したフレーム消失補償処理用ピッチラグを用いる。現フレームがピッチ周期性をもたないフレームであると判断された場合は、適応符号帳利得をゼロとし、固定符号帳のみで音声信号を生成する。固定符号帳パラメータはランダムに決定する。線形予測係数については、現在フレームのピッチ周期性の有無に関らず、前フレームのものを繰り返し利用するか、帯域幅拡張を行いながら次第に白色化したものを用いる。
【0117】
音声復号化装置114は、最後に、ステップST515において、パラメータバッファ312の内容を更新して、1フレームの復号処理を終了する。音声復号化装置114は、上記ステップST510〜ステップST515の一連の復号処理を繰り返す。音声復号化装置114では、上述したステップST510〜ステップST515の処理手順を実行するためのプログラムに基づいて音声復号化処理を実行する。
【0118】
上記説明したように、本実施の形態によれば、フレーム消失補償処理用のピッチラグ情報を追加して伝送することにより、精度良いフレーム消失補償処理が可能となるとともに、消失フレーム後の誤り伝播の影響を軽減することができる。
【0119】
なお、上述した音声符号化装置104及び音声復号化装置114は、その両方又は一方が移動局装置及び又は基地局装置に設けられるような構成を採ることもできる。
【0120】
【発明の効果】
以上説明したように、本発明によれば、フレーム消失補償処理用のピッチラグ情報を伝送するので、消失フレームおよびフレーム消失直後の復号音声品質の劣化を改善することが可能である。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声信号送信装置および音声信号受信装置の構成を示すブロック図
【図2】本発明の実施の形態に係る音声符号化装置の構成を示すブロック図
【図3】本発明の実施の形態に係る音声復号化装置の構成を示すブロック図
【図4】本発明の実施の形態に係るフレーム消失補償処理用ピッチラグ検出・符号化部のブロック図
【図5】本発明の実施の形態に係る音声符号化処理手順を示すフローチャート
【図6】本発明の実施の形態に係る音声復号化処理手順を示すフローチャート
【図7】フレーム消失補償処理用ピッチラグを求める方法の一例を示す模式図
【図8】フレーム消失補償処理手順の一例を示す模式図
【図9】従来の音声信号伝送システムを示すブロック図
【符号の説明】
100 音声信号送信装置
199 音声信号受信装置
102 入力装置
103 A/D変換装置
104 音声符号化装置
105,113 信号処理装置
106 RF変調装置
107 送信装置
108,110 アンテナ
111 受信装置
112 RF復調装置
114 音声復号化装置
115 D/A変換装置
116 出力装置
151 フレーム消失補償処理用ピッチラグ検出・符号化部
152 多重化部
153 音声符号化部
154,157 1フレーム遅延部
155 多重化情報分離部
156 音声復号化部
158 フレーム消失補償部
202 線形予測分析部
203 LPC量子化器
206 LPC合成フィルタ
208 適応符号帳
210 固定符号帳
212 利得量子化器
301 パラメータ復号部
302 利得復号器
306 LPC復号器
303 スイッチ
312 パラメータバッファ
313 パラメータ生成部
401 1ピッチ波形抽出部
402 相互相関最大化位置探索部
403 ピッチ数算出部
404 ピッチ周期算出部
405 ピッチラグ符号化部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an audio encoding device, an audio decoding device, an audio signal transmission method, and a program for encoding an audio signal, generating audio encoded information, packetizing the information, and transmitting the packet.
[0002]
[Prior art]
In packet communication typified by Internet communication, erasure compensation (concealment) processing is generally performed when encoded information cannot be received on the decoder side due to loss of a packet (or frame) on a transmission path. (For example, see Patent Documents 1 and 2).
[0003]
FIG. 9 shows a conventional audio signal transmission system. As shown in FIG. 9, the conventional audio signal transmission system includes an audio signal transmitting device 1 and an audio signal receiving device 10.
[0004]
The audio signal transmission device 1 includes an input device 2, an A / D (analog / digital) conversion device 3, an audio encoding device 4, a signal processing device 5, an RF modulation device 6, a transmission device 7, and an antenna 8. .
[0005]
The input device 2 receives the audio signal, converts the audio signal into an analog audio signal that is an electric signal, and supplies the analog audio signal to the A / D converter 3. The A / D converter 3 converts an analog audio signal from the input device 2 into a digital audio signal and supplies the digital audio signal to the audio encoder 4. The audio encoding device 4 encodes the digital audio signal from the A / D converter 3 to generate audio encoded information, and supplies the encoded information to the signal processing device 5. The signal processing device 5 performs channel coding processing, multiplexing processing, packetization processing, transmission buffering processing, and the like on the audio encoded information from the audio encoding device 4, and then converts the audio encoded information to RF (Radio). Frequency) to the modulator 6. The RF modulation device 6 modulates the speech coded signal from the signal processing device 5 and supplies the modulated speech signal to the transmission device 7. The transmission device 7 transmits the encoded voice signal from the RF modulation device 6 as a radio wave (RF signal) via the antenna 8.
[0006]
The audio signal receiving device 10 includes an antenna 9, a receiving device 11, an RF demodulation device 12, a signal processing device 13, an audio decoding device 14, a D / A (digital / analog) conversion device 15, and an output device 16. .
[0007]
The receiving device 11 receives a radio wave (RF signal) that is an audio encoded signal via the antenna 9 to generate a received audio signal that is an analog electric signal, and supplies this to the RF demodulation device 12. The radio wave (RF signal) received by the antenna 9 becomes exactly the same as the radio wave (RF signal) transmitted from the audio signal transmitting device 1 unless signal attenuation or noise superposition is present on the transmission path.
[0008]
The RF demodulator 12 demodulates the audio signal received from the receiver 11 and supplies the demodulated audio signal to the signal processor 13. The signal processing device 13 performs a jitter absorption buffering process, a packet assembling process, a demultiplexing process, a channel decoding process, and the like on the audio signal received from the RF demodulation device 12, and then performs audio decoding on the received audio signal To the device 14.
[0009]
If the packet does not arrive within a predetermined time, the signal processing device 13 notifies the speech decoding device 14 that packet loss has occurred. The audio decoding device 14 decodes the audio signal received from the signal processing device 13 to generate a decoded audio signal, and supplies the decoded audio signal to the D / A converter 15.
[0010]
Note that, when receiving the packet loss information from the signal processing device 13, the audio decoding device 14 cannot receive the received audio signal of the packet, and therefore performs a frame erasure compensation process to generate an audio signal. The D / A converter 15 converts the digital decoded audio signal from the audio decoder 14 into an analog decoded audio signal and supplies the analog decoded audio signal to the output device 16. The output device 16 converts the analog decoded audio signal from the D / A conversion device 15 into air vibration and outputs it as a sound wave so that it can be heard by human ears.
[0011]
The audio decoding device 14 includes an audio decoding unit 56 and a frame erasure compensation unit 57. The audio decoding unit 56 has three input terminals, one is connected to the output terminal of the frame erasure compensating unit 57, and the other two are connected to the two output terminals of the signal processing device. The audio decoding unit 56 has two output terminals, one of which is connected to the D / A converter 15 and the other of which is connected to the frame erasure compensation unit 57. The input terminal and the output terminal of the frame erasure compensation unit 57 are connected to the output terminal and the input terminal of the audio decoding unit 56, respectively. The frame erasure compensator 57 receives the parameter information decoded in the past in the speech decoder 56, generates speech parameters required when a frame of the received speech signal is lost, and generates the speech parameters. Output to
[0012]
The audio decoding unit 56 performs a normal decoding process on the audio signal received from the other output terminal of the signal processing device 13 when receiving no frame loss signal from one output terminal of the signal processing device 13 and decodes the signal. Generate an audio signal. When receiving the frame loss signal, the audio decoding unit 56 performs a decoding process using the audio parameters input from the frame erasure compensating unit 57. There are various types of frame erasure compensation processing depending on the audio coding method. 729 and the like are defined as a part of the decoding algorithm.
[0013]
[Patent Document 1]
JP 09-120297 A
[Patent Document 2]
JP-A-09-190197
[0014]
[Problems to be solved by the invention]
However, in the conventional audio signal transmission system, when a transmitted frame (or packet) is lost on a transmission path, the audio decoding device 14 uses the previously received encoded information to erase the frame (or packet). Perform compensation processing. At this time, since the internal state cannot be synchronized between the voice encoding device 4 and the voice decoding device 14, the influence of the packet loss propagates not only in the lost portion of the frame but also in the decoding process of the frame after the frame loss. Therefore, there is a problem that the quality of the decoded audio signal may be largely deteriorated.
[0015]
For example, ITU-T Recommendation G. In the case of using a Code Excited Linear Prediction (CELP) system shown in G.729, the encoding and decoding of speech are performed using the past decoded driving excitation signal, so that the encoder and the decoder are subjected to frame erasure processing. If different driving excitation signals are combined in the above, the internal states of the encoder and the decoder do not match for a while after that, and there is a problem that the quality of the decoded speech signal may be greatly deteriorated. Among the internal states, quality degradation due to inconsistency in the contents of the adaptive codebook, which is a buffer of the excitation signal generated in the past, is remarkable.
[0016]
The present invention has been made in view of such a point, and it is possible to improve a quality of a decoded speech signal immediately after a frame erasure section and a frame erasure section, a speech encoding apparatus, a speech decoding apparatus, a speech signal transmission method, and The purpose is to provide the program.
[0017]
[Means for Solving the Problems]
The audio encoding apparatus of the present invention comprises: an audio signal encoding unit that encodes an input audio signal; an audio signal sending unit that sends the encoded audio signal in a predetermined data unit; Pitch lag calculation means for calculating the pitch lag for frame erasure compensation processing, and pitch lag information transmission means for frame erasure compensation processing for transmitting pitch lag information representing the calculated pitch lag for frame erasure compensation processing together with the encoded audio signal. Is adopted.
[0018]
According to this configuration, the pitch lag information to be used in the frame erasure compensation processing is transmitted separately from the audio coded information. Therefore, even when the frame erasure compensation processing is performed on the audio decoding device side, the original decoded excitation signal By detecting, encoding, and transmitting pitch lag information that can generate a waveform similar to the pitch lag for frame erasure compensation processing, the error between the transmission-side excitation signal and the reception-side excitation signal is minimized. Becomes possible.
[0019]
It should be noted that if the speech encoding apparatus having the features described above is adapted to adopt a configuration in which pitch lag information for frame erasure compensation processing is intermittently transmitted, pitch lag information for frame erasure compensation processing Can be transmitted at the minimum required frequency or frame, so that an increase in bit rate can be suppressed as much as possible.
[0020]
In the speech encoding apparatus of the present invention, in the above configuration, the speech signal encoding unit performs a linear prediction analysis on the input speech signal to calculate a linear prediction coefficient, and a quantum of the linear prediction coefficient. An encoding unit that performs encoding and encoding, a linear prediction filter configured by quantized linear prediction coefficients, and an excitation encoding unit that encodes and generates an excitation signal that drives the linear prediction filter. The configuration is a CELP type speech encoding means.
[0021]
According to this configuration, in the CELP type speech coding apparatus, pitch lag information to be used in the frame erasure compensation processing is transmitted separately from the speech coded information. By detecting, encoding, and transmitting pitch lag information that can generate a waveform close to the signal as a pitch lag for frame erasure compensation processing, an error between the source signal on the transmitting side and the source signal on the receiving side is minimized. It becomes possible.
[0022]
In the speech encoding apparatus of the present invention, in the above configuration, the pitch lag calculation means includes a pitch cycle of the speech signal encoded in the past, an encoded excitation signal encoded in the past, and a unit block to be transmitted from now on. And the pitch lag for the frame erasure compensation processing is calculated by using the pitch period length of the last one pitch of the coded excitation signal in the above.
[0023]
According to this configuration, even if the frame erasure compensation processing is performed, the error between the last one-pitch waveform in the frame of the excitation signal decoded on the decoder side and the waveform of the corresponding excitation signal on the encoder side is reduced. Since it is guaranteed to be small and the continuity of pitch lag is also taken into consideration, high-performance frame erasure compensation processing can be performed.
[0024]
The audio decoding apparatus according to the present invention includes: an audio signal decoding unit that decodes an encoded audio signal; and information indicating a pitch lag for frame erasure compensation processing of the audio signal. And a compensating means for compensating the lost frame when it exists.
[0025]
According to this configuration, when a frame erasure occurs, the frame erasure compensation process pitch lag information can be used to perform the erasure frame compensation process, so that a more accurate frame erasure compensation process can be performed.
[0026]
In the audio decoding device according to the present invention, in the above-described configuration, the pitch lag information for frame erasure compensation processing is multiplexed with the encoded audio signal, and the compensating unit determines that the current frame is a lost frame. In this case, a configuration is employed in which the lost frame compensation process is performed using information indicating the frame erasure compensation process pitch lag received in the immediately preceding frame.
[0027]
According to this configuration, when a frame erasure occurs, the pitch lag information for the frame erasure compensation process of the lost frame received in the immediately preceding normal frame can be used, so that more accurate frame erasure compensation processing can be performed.
[0028]
In the audio decoding apparatus according to the present invention, in the above configuration, the audio signal decoding unit includes a linear prediction coefficient decoding unit that performs a decoding process of a linear prediction coefficient, and a linear prediction filter configured by the decoded linear prediction coefficient. An excitation decoding unit that controls each gain of the adaptive codebook and the fixed codebook based on the decoded gain parameter and drives the linear prediction filter based on the contents of the controlled adaptive codebook and the fixed codebook. And a CELP-type speech decoding means including
[0029]
According to this configuration, when a frame erasure occurs, the pitch lag information for the frame erasure compensation processing of the lost frame received in the immediately preceding normal frame can be used, so that more accurate frame erasure compensation processing can be performed. Since it is possible to generate an adaptive codebook so as to minimize the error between the excitation signal generated by the processing and the excitation signal on the encoder side, decoding is performed between the encoder side and the normal frame after frame loss. It is possible to reduce inconsistency in the content of the adaptive codebook with the device side.
[0030]
A mobile station apparatus according to the present invention includes: a speech signal encoding unit that encodes an input speech signal; a speech signal transmission unit that transmits the encoded speech signal in a predetermined data unit; Pitch lag calculating means for calculating a pitch lag for frame erasure compensation processing, and pitch lag information transmitting means for frame erasure compensation processing for transmitting information representing the calculated pitch lag for frame erasure compensation processing together with the encoded audio signal, And a configuration for performing wireless communication with the base station apparatus.
[0031]
According to this configuration, since the pitch lag information to be used in the frame erasure compensation processing is transmitted, even when the base station apparatus performs the frame erasure compensation processing, the pitch lag is such that a waveform close to the original decoded excitation signal can be generated. By detecting, encoding, and transmitting information as a pitch lag for frame erasure compensation processing, it is possible to minimize the error between the excitation signal on the transmission side and the excitation signal on the reception side.
[0032]
The mobile station apparatus according to the present invention includes a speech signal decoding unit that decodes an encoded speech signal, and an erasure frame in the speech signal based on information indicating a pitch lag for frame erasure compensation processing of the speech signal. And a compensating means for compensating for the lost frame in the case where the wireless communication is performed, and adopting a configuration for performing wireless communication with the base station apparatus.
[0033]
According to this configuration, in the mobile station apparatus, when a frame loss occurs, the lost frame can be compensated for by using the pitch lag information for the frame loss compensation processing, so that more accurate frame loss compensation processing can be performed. .
[0034]
The base station apparatus according to the present invention includes: an audio signal encoding unit that encodes an input audio signal; an audio signal transmission unit that transmits the encoded audio signal in a predetermined data unit; Pitch lag calculating means for calculating a pitch lag for frame erasure compensation processing, and pitch lag information transmitting means for frame erasure compensation processing for transmitting information representing the calculated pitch lag for frame erasure compensation processing together with the encoded audio signal, And a configuration for performing wireless communication with the mobile station device.
[0035]
According to this configuration, since the pitch lag information to be used in the frame erasure compensation processing is transmitted, even if the frame erasure compensation processing is performed on the mobile station apparatus side, a pitch lag that can generate a waveform close to the original decoded excitation signal is obtained. By detecting, encoding, and transmitting information as a pitch lag for frame erasure compensation processing, it is possible to minimize the error between the excitation signal on the transmission side and the excitation signal on the reception side.
[0036]
The base station apparatus according to the present invention includes: a speech signal decoding unit that decodes an encoded speech signal; and based on information representing a pitch lag for a frame erasure compensation process of the speech signal, a lost frame exists in the speech signal. And a compensating means for compensating for the lost frame in the case where the wireless communication is performed.
[0037]
According to this configuration, when a frame loss occurs in the base station apparatus, the lost frame can be compensated for by using the pitch lag information for frame loss compensation processing, so that more accurate frame loss compensation processing can be performed. .
[0038]
An audio signal transmission method according to the present invention includes an audio signal encoding step of encoding an input audio signal, an audio signal transmitting step of transmitting the encoded audio signal in a predetermined data unit, and the transmitted audio signal. Pitch lag calculation means for calculating a pitch lag for frame erasure compensation processing, and a pitch lag information transmission step for frame erasure compensation processing for transmitting information representing the calculated pitch lag for frame erasure compensation processing together with the encoded audio signal, An audio signal decoding step of decoding the encoded audio signal; and, based on information representing a pitch lag for frame erasure compensation processing of the audio signal, when an erasure frame is present in the audio signal, And a compensation step of performing compensation processing.
[0039]
According to this method, since the pitch lag information to be used in the frame erasure compensation processing is transmitted, even when the frame erasure compensation processing is performed on the audio decoding device side, a waveform close to the original decoded excitation signal can be generated. By detecting, encoding, and transmitting the pitch lag information as the pitch lag for frame erasure compensation processing, it is possible to minimize the error between the excitation signal on the transmission side and the excitation signal on the reception side. Also, in the speech decoding apparatus, when a frame loss occurs, the lost frame can be compensated for by using the pitch lag information for frame loss compensation processing, so that more accurate frame loss compensation processing can be performed.
[0040]
A program according to the present invention includes an audio signal encoding step of encoding an input audio signal, an audio signal transmitting step of transmitting the encoded audio signal in a predetermined data unit, and a frame erasing of the transmitted audio signal. A pitch lag calculating means for calculating a pitch lag for compensation processing, and a pitch lag information sending step for frame erasure compensation processing for sending information representing the calculated pitch lag for frame erasure compensation processing together with the encoded audio signal, comprising: To be executed by the gasifier.
[0041]
According to this program, since the pitch lag information to be used in the frame erasure compensation processing is transmitted, even when the frame erasure compensation processing is performed on the speech decoding device side, a waveform close to the original decoded excitation signal can be generated. By detecting, encoding, and transmitting the pitch lag information as the pitch lag for frame erasure compensation processing, it is possible to minimize the error between the excitation signal on the transmission side and the excitation signal on the reception side.
[0042]
The program according to the present invention is configured such that, based on information representing a pitch lag for frame erasure compensation processing of the audio signal, a lost signal exists in the audio signal, And a compensation step of compensating for the lost frame.
[0043]
According to this program, when a frame loss occurs in the speech decoding device, the frame loss compensation process can be performed using the pitch lag information for the frame loss compensation process, so that a more accurate frame loss compensation process can be performed. Become.
[0044]
BEST MODE FOR CARRYING OUT THE INVENTION
The gist of the present invention is that a speech encoding device calculates a pitch lag for frame erasure compensation processing of a speech signal, and transmits information representing the pitch lag to a speech decoding device together with a coded speech signal, thereby producing a speech. In a decoding apparatus, when a lost frame of an audio signal occurs, compensation processing of the lost frame is performed based on pitch lag information for frame loss compensation processing.
[0045]
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0046]
FIG. 1 is a block diagram showing a configuration of the audio signal transmission system according to Embodiment 1 of the present invention.
[0047]
The audio signal transmission system includes an audio signal transmitting device 100 and an audio signal receiving device 199.
[0048]
The audio signal transmission device 100 includes an input device 102, an A / D conversion device 103, an audio encoding device 104, a signal processing device 105, an RF modulation device 106, a transmission device 107, and an antenna 108. The A / D converter 103 is connected to the input device 102. The input terminal of the audio encoding device 104 is connected to the output terminal of the A / D converter 103. An input terminal of the signal processing device 105 is connected to an output terminal of the speech encoding device 104. The input terminal of the RF modulation device 106 is connected to the output terminal of the signal processing device 105. The input terminal of the transmission device 107 is connected to the output terminal of the RF modulation device 106. The antenna 108 is connected to an output terminal of the transmitting device 107.
[0049]
The input device 102 receives an audio signal, converts it into an analog audio signal, which is an electric signal, and supplies the analog audio signal to the A / D converter 103. The A / D converter 103 converts an analog audio signal from the input device 102 into a digital audio signal, and supplies the digital audio signal to the audio encoder 104. The audio encoding device 104 encodes the digital audio signal from the A / D conversion device 103 to generate audio encoded information and supplies the encoded information to the signal processing device 105.
[0050]
The signal processing device 105 performs a channel coding process, a packetization process, and a transmission buffer process on the voice coded information from the voice coding device 104 to provide the voice coded information to the RF modulation device 106. The RF modulation device 106 modulates the speech coded signal from the signal processing device 105 and provides the modulated signal to the transmission device 107. The transmitting device 107 transmits the encoded audio signal from the RF modulation device 106 via the antenna 108 and the encoded audio information as a radio wave (RF signal).
[0051]
In the audio signal transmitting apparatus 100, an input digital audio signal is processed in frame units of several tens of ms, and one frame or several frames of encoded data are put into one packet, and the packet is transmitted to a packet network. Sent to In this specification, it is assumed that one frame is transmitted by one packet in order to minimize the transmission delay. Therefore, packet loss corresponds to frame loss.
[0052]
The present invention can be applied not only to a packet switching network but also to a circuit switching network. In this case, packetization processing, jitter absorption buffering processing, and packet assembly processing are unnecessary.
[0053]
The audio signal receiving device 199 includes an antenna 110, a receiving device 111, an RF demodulation device 112, a signal processing device 113, an audio decoding device 114, a D / A conversion device 115, and an output device 116. The input terminal of the receiving device 111 is connected to the antenna 110. An input terminal of the RF demodulation device 112 is connected to an output terminal of the reception device 111. The input terminal of the signal processing device 113 is connected to the output terminal of the RF demodulation device 112. Two input terminals of the audio decoding device 114 are connected one-to-one to two output terminals of the signal processing device 113. The input terminal of the D / A converter 115 is connected to the output terminal of the audio decoder 114. The input terminal of the output device 116 is connected to the output terminal of the D / A converter 115.
[0054]
Receiving apparatus 111 receives a radio wave (RF signal), which is audio encoded information, via antenna 110, generates a received encoded audio signal, which is an analog electric signal, and provides it to RF demodulating apparatus 112. The radio wave (RF signal) is exactly the same as the radio wave (RF signal) transmitted from the audio signal transmitting apparatus 100 unless there is signal attenuation or noise superposition on the transmission path. The RF demodulator 112 demodulates the encoded voice signal received from the receiver 111 and supplies the demodulated signal to the signal processor 113.
[0055]
The signal processing device 113 performs a jitter absorption buffering process, a packet assembling process, a packet loss detection process, a packet demultiplexing process, and a channel decoding process on the encoded voice signal received from the RF demodulation device 112, thereby performing encoded voice information And the packet erasure information are provided to the audio decoding device 114, respectively. The audio decoding device 114 decodes the encoded audio information from the signal processing device 113 to generate a decoded audio signal, and supplies the decoded audio signal to the D / A conversion device 115. The D / A conversion device 115 converts the digital decoded audio signal from the audio decoding device 114 into an analog decoded audio signal and supplies the analog decoded audio signal to the output device 116. The output device 116 converts the analog decoded audio signal from the D / A conversion device 115 into vibration of air and outputs the sound as sound waves so as to be audible to human ears.
[0056]
Next, the speech encoding device 104 will be described in detail with reference to FIGS. FIG. 2 is a block diagram showing a configuration of the speech encoding device 104. FIG. 4 is a block diagram showing a pitch lag detection / encoding unit for frame erasure compensation processing.
[0057]
As shown in FIG. 1, the speech coding device 104 includes a pitch lag detection / coding unit 151 for frame erasure compensation processing, a multiplexing unit 152, a speech coding unit 153, and a one-frame delay unit 154. The input terminal of the audio encoding unit 153 is connected to the output terminal of the A / D converter 103. The input terminal of the pitch lag detection / encoding unit 151 for frame erasure compensation processing is connected to one of the two output terminals of the audio encoding unit 153. The input terminal of the one-frame delay unit 154 is connected to the other of the two output terminals of the audio encoding unit 153. The multiplexing unit 152 is connected between output terminals of the pitch lag detection / coding unit 151 for frame erasure compensation processing and the one-frame delay unit 154 and an input terminal of the signal processing device 105.
[0058]
Audio encoding section 153 performs an encoding process on the digital audio signal input from A / D converter 103, and outputs encoding parameter information to one-frame delay section 154. At the same time, speech encoding section 153 outputs a pitch parameter (quantized pitch period) described later and an excitation signal held in the adaptive codebook to pitch lag detection / encoding section 151 for frame erasure compensation processing. The pitch lag detection / encoding unit 151 for frame erasure compensation processing detects the pitch lag to be used in the frame erasure compensation processing using the quantized pitch period information, which is a pitch parameter, the past excitation signal sequence, and the excitation signal in the current frame. Encode and output to multiplexing section 152
[0059]
Note that the pitch lag Pc for frame erasure compensation processing is obtained by using the waveform of the last two pitch periods of the previous frame to maximize the cross-correlation with the sound source signal at the end of the current frame (S + L, L is determined using the pitch length (P ′) at the end of the previous frame and the number Np of pitch cycles that should exist during the shift amount (S + L) determined using the pitch cycle (P ′) at the end of the previous frame. Specifically, Np = INT (0.5+ (S + L) / P ′) and Pc = (S + L) / Np. (See Equation 2 and FIG. 7)
[0060]
Therefore, when one frame is divided into a plurality of subframes (or when a plurality of frames are packetized in one packet), the end of the last subframe (or frame) in the previous frame (or packet) , A pitch lag for frame erasure compensation processing using a tone signal waveform and pitch cycle having a pitch length of 2 pitch periods and a pitch signal length of one pitch cycle from the end of the last subframe (or frame) in the current frame (or packet). Is calculated and encoded. The two-pitch cycle length may be used at the end of the current frame (not at the end of the previous frame). Also, a method is conceivable in which a waveform having one pitch cycle length is circulated without using two pitch cycle lengths to determine the shift amount. The encoding method of the pitch lag for frame erasure compensation processing is not particularly limited, but a general pitch encoding method may be used, or a code using a difference from a pitch period transmitted as one parameter of speech encoding information. Alternatively, a chemical conversion method may be used.
[0061]
If the correlation value is low even after maximizing the cross-correlation, a code indicating that the periodicity is low may be transmitted instead of transmitting the pitch lag information for frame erasure compensation processing.
[0062]
If the pitch information included in the voice coded information and the pitch lag information for frame erasure compensation processing show exactly the same pitch period, information indicating the fact is transmitted separately, so that the pitch lag for frame erasure compensation processing is transmitted. Can be omitted.
[0063]
The multiplexing unit 152 outputs the pitch lag information to be used for the frame erasure compensation processing of the current frame coded by the pitch lag detection / encoding unit 151 for frame erasure compensation processing, The signal is multiplexed with the encoded information and output to the signal processing device 105. This multiplexing process may be a process for multiplexing the two types of coded information in a very ordinary manner, or a portion of low importance in the voice coded information may be added to the pitch lag information for frame erasure compensation processing. It may be replaced.
[0064]
Next, the audio encoding unit 153 will be described in more detail with reference to FIG. As shown in FIG. 2, the audio encoding unit 153 includes a preprocessing unit 201, a linear prediction analyzer 202, an LPC quantizer 203, an auditory weight filter 204, an auditory weight filter 205, an LPC synthesis filter 206, and an adder 207. , Adaptive codebook 208, multiplier 209, fixed codebook 210, multiplier 211, gain quantizer 212, adder 213, excitation parameter determination section 214, and encoding section 215. An excitation codec is configured by adaptive codebook 208, fixed codebook 210, and gain quantizer 212, and LPC synthesis filter 206 is driven by the excitation codec.
[0065]
The pre-processing unit 201 receives a digital audio signal from the A / D converter 103, performs processing for improving audio quality such as background noise suppression processing and pre-emphasis processing, and a high-pass filter for cutting DC components. Processing is performed and the result is output to the linear prediction analyzer 202 and the auditory weight filter 204. The linear prediction analyzer 202 calculates a linear prediction coefficient by performing a linear prediction analysis of the digital audio signal after the pre-processing input from the pre-processing unit 201, and calculates an LPC quantizer 203, a perceptual weight filter 204, and a perceptual weight filter 205. And output respectively.
[0066]
The LPC quantizer 203 performs quantization and encoding of the linear prediction coefficient input from the linear prediction analyzer 202, outputs the quantized linear prediction coefficient to the LPC synthesis filter 206, and uses the encoding result as a parameter L. Output. The parameter L is input to the encoding unit 215, and is encoded (bitstreamed) together with other encoded excitation parameters. An auditory weight filter 204 and an auditory weight filter 205 are ARMA type digital filters using the linear prediction coefficients calculated by the linear prediction analyzer 202. , And the two auditory weight filters have the same filter characteristics.
[0067]
The auditory weight filter 204 receives the digital audio signal after the pre-processing from the pre-processing unit 201, performs an ARMA filter process for weighting the auditory weight, and outputs the result to the adder 213. The auditory weight filter 205 receives the digital audio signal synthesized by the LPC synthesis filter 206, performs an ARMA filter process for performing the same auditory weighting as 204, and outputs the result to the adder 213. The LPC synthesis filter 206 is an AR digital filter configured using the linear prediction coefficients quantized by the LPC quantizer 203, and generates a synthesized speech signal using the sound source signal input from the adder 207. , To the auditory weight filter 205.
[0068]
The adder 207 performs vector addition of the adaptive codebook vector input from the adaptive codebook 208 via the multiplier 209 and the fixed codebook vector input from the fixed codebook 210 via the multiplier 211 to generate the excitation. A vector is generated and output to the LPC synthesis filter 206. Also, the generated excitation vector is fed back to adaptive codebook 208, and the contents of adaptive codebook 208 are updated. The excitation signal buffer (encoded excitation signal before the previous frame) of the adaptive codebook before updating and the encoded excitation signal of the current frame are output to pitch lag detection / encoding section 151 for frame erasure compensation processing.
[0069]
Adaptive codebook 208 is a memory that stores and holds excitation vectors generated in the past by adder 207, and is sequentially updated with the excitation vectors output from adder 207. Further, adaptive codebook 208 extracts a vector from an appropriate position and outputs the vector to multiplier 209. In the case of a voiced signal, such an adaptive codebook is generally used because the excitation signal has periodicity, and the excitation signal can be efficiently encoded using the excitation signal generated in the past. The start position of the adaptive codebook vector is determined by the pitch parameter P.
[0070]
The pitch parameter P is determined by the sound source parameter determination unit. The fixed codebook generates an arbitrary vector based on a combination of a noise sequence or a small number of pulses, and can store or generate a predetermined number of vectors.Each vector has a unique number. A fixed codebook vector having a corresponding shape is generated by designating the number. The number is determined by excitation parameter determining section 214 as fixed codebook index C. Although not shown in FIG. 2, the fixed codebook is generally composed of a plurality of channels and a plurality of subsets, and pitch periodic processing is generally performed on the fixed codebook vector.
[0071]
Multiplier 209 multiplies the adaptive codebook gain (pitch gain) quantized by gain quantizer 212 with the vector output from adaptive codebook 208 and outputs the result to adder 207. Multiplier 211 multiplies the fixed codebook gain quantized by gain quantizer 212 with the vector output from fixed codebook 210 and outputs the result to adder 207.
[0072]
Gain quantizer 212 outputs a quantized adaptive codebook gain and a quantized fixed codebook gain indicated by excitation gain parameter G to multipliers 209 and 211, respectively. The sound source gain parameter G is determined by the sound source parameter determining unit 214. The sound source parameter determination unit 214 outputs an error between the input speech signal output from the adder 213 and weighted by the hearing weight filter 204 and the synthesized voice signal output from the LPC synthesis filter 206 weighted by the hearing weight filter 205. Are determined so as to minimize the adaptive codebook parameter P, the fixed codebook parameter C, and the gain parameter G.
[0073]
The adder 213 calculates a difference vector between the output vector from the hearing weight filter 205 and the output vector from the hearing weight filter 204, and outputs the difference vector to the sound source parameter determination unit 214. The adaptive codebook parameter P, fixed codebook parameter C, gain codebook parameter G, and linear prediction parameter L encoded by the LPC quantizer determined by the excitation parameter determining unit are collectively processed by the encoding unit 215. Are combined as one code (converted into a bit stream) and output to the one-frame delay unit 154. One-frame delay section 154 holds the speech coded information input from coding section 215 for one frame time, and then outputs it to multiplexing section 152.
[0074]
Next, the operation of the pitch lag detection / encoding unit 151 for frame erasure compensation processing will be described in more detail with reference to FIGS. As shown in FIG. 4, the pitch lag detection / encoding section 151 for frame erasure compensation processing includes a one-pitch waveform extraction section 401, a cross-correlation maximization position search section 402, a pitch number calculation section 403, a pitch cycle calculation section 404, and a pitch lag. And an encoding unit 405.
[0075]
The one-pitch waveform extracting section 401 extracts the length of the pitch period P ′ in the previous frame from the end from the encoded excitation signal in the current frame, and uses this as the one-pitch waveform of the excitation signal in the current frame to search for the cross-correlation maximum position. Output to the unit 402.
[0076]
The cross-correlation maximum position searching unit 402 calculates the cross-correlation between the sound source signal in the previous frame and the one-pitch waveform of the sound source signal in the current frame determined by the one-pitch waveform extracting unit 401 while shifting the position. Here, one pitch waveform of the sound source signal in the current frame is XC [i], i = 0,... P′−1, and the sound source signal in the previous frame is XC [i], i = −1, −2,. Assuming −2P ′, the cross-correlation function R [n] is expressed as in equation (1).
[0077]
(Equation 1)
Figure 2004138756
The range of n is 0 ≦ n <P ′, and is within a period of one pitch period from the end of the current frame. The value n at which R [n] becomes maximum is output to the pitch number calculation unit 403 (S in FIG. 7). It should be noted that the value of the cross-correlation may be checked with a threshold value, and if the value is equal to or less than the threshold value, the correlation may be determined to be low, and a determination result indicating that there is no pitch periodicity from the previous frame to the current frame may be output. When such threshold processing is performed, a value obtained by normalizing (Equation 1) with the energy of XC [i] when setting the threshold is used. Also, S output to the pitch number calculation unit 403 may have fractional accuracy instead of integer accuracy. In the case of fractional precision, R [n] near n which maximizes R [n] is interpolated by an interpolation function having a desired precision, and the interpolation point which maximizes the complemented R [n] is set as S and the pitch is set as pitch. Output to number calculation section 403.
[0078]
The pitch number calculation unit 403 uses the output S from the cross-correlation maximization position search unit 402 and the pitch P ′ to calculate from the last pitch waveform of the previous frame to the last pitch waveform of the current frame by (Equation 2). Calculate how many pitch waveforms exist between them (how many pitch lengths).
[0079]
(Equation 2)
Figure 2004138756
Here, int [X] is an operator representing the largest integer equal to or less than X. The pitch lag Pc for frame erasure compensation processing is calculated as in (Equation 3) using the number of pitches Np calculated in (Equation 2).
[0080]
[Equation 3]
Figure 2004138756
Thus, the pitch lag for frame erasure compensation processing includes the pitch period at the end of the previously transmitted audio signal in the unit block, the encoded excitation signal in the block, and the It is calculated using the waveform of the last one pitch length of the encoded excitation signal, and represents the pitch period obtained without using the excitation waveform in the current frame (or packet). In other words, the pitch lag for frame compensation processing represents a pitch period obtained without using a sound source waveform in the current frame (or packet), except for a waveform having the last one pitch period length of the current frame (or packet). .
[0081]
It should be noted that Pc and P 'are compared, and if the difference is larger than a predetermined threshold (for example, if Pc does not exist in the range of P' ± 15%), the change in pitch lag is too large, It may be determined that the pitch lag is not appropriate, and P ′ may be output instead of Pc, or the fact that no suitable pitch lag was found may be output to the pitch lag encoder 405. Also, the pitch cycle used for cutting out the last one pitch waveform of the current frame may be the pitch cycle P of the current frame instead of the pitch cycle P ′ of the previous frame.
[0082]
Finally, pitch lag Pc for frame erasure compensation processing is encoded by pitch lag encoding section 405 and output to multiplexing section 152. For encoding Pc, a general pitch quantization / encoding method is used. Efficient encoding can also be performed using differential quantization from pitch information included in audio encoded information to be multiplexed. Also, a configuration is possible in which the shift amount S that maximizes the cross-correlation function R [n] is encoded and transmitted instead of the pitch lag Pc, and Pc is calculated on the decoder side. Note that when the cross-correlation maximizing position search unit 402 determines that the correlation is low, or when the pitch cycle calculation unit determines that an appropriate pitch cannot be obtained, a special voiced frame is indicated. May be output.
[0083]
Next, the speech decoding device 114 will be described in detail with reference to FIGS. FIG. 3 is a block diagram showing a configuration of the audio decoding device 114. FIG. 8 is a schematic diagram of the frame erasure compensation processing.
[0084]
As illustrated in FIG. 1, the audio decoding device 114 includes a multiplex information separating unit 155, an audio decoding unit 156, a one-frame delay unit 157, and a frame erasure compensation unit 158.
[0085]
The input terminal of the multiplexed information separation unit 155 is connected to one of the two output terminals of the signal processing device 113. The audio decoding unit 156 has three input terminals, one at one output terminal of the multiplexed information separation unit 155, one at one output terminal of the signal processing unit 113, and one at the frame erasure compensation unit. 158, respectively. The speech encoding unit 156 has two output terminals, one of which is connected to one of the two input terminals of the frame erasure compensation unit 158, and the other of which is connected to the D / A converter 115. The input terminal of the one-frame delay unit 157 is connected to one of the output terminals of the multiplex information separation unit 155. The frame erasure compensator 158 has two input terminals, one is connected to the output terminal of the one-frame delay unit 157, and the other is connected to one output terminal of the speech decoder 156.
[0086]
The multiplexing information separating section 155 separates the pitch lag information for frame erasure compensation processing and the speech coded information from the multiplexed coded information input from the signal processing device 113, and outputs the pitch lag information for frame erasure compensation processing as 1 The audio encoding information is output to the frame delay unit 157 and the audio decoding unit 156, respectively. Further, the signal processing device 113 outputs the frame erasure information to the audio decoding unit 156. Audio decoding section 156 performs a decoding process using the audio coded information input from multiplexed information separation section 155 and outputs a decoded audio signal to D / A conversion apparatus 115. In addition, a parameter that needs to be updated in the frame erasure compensation processing is output to frame erasure compensation section 158.
[0087]
If the frame erasure compensation information input from the signal processing device 113 indicates that “the current frame has been lost”, the information from the multiplexing information demultiplexing unit 155 is not input, so that the frame erasure compensation unit 158 An audio signal is generated by using the parameter information input from the CPU and output to the D / A converter 115. At this time, the parameters required for the frame erasure compensation processing are output to frame erasure compensation section 158.
[0088]
One-frame delay section 157 holds the pitch lag information for frame erasure compensation processing input from multiplexing information demultiplexing section 155 for a time corresponding to one frame, and then outputs it to frame erasure compensation section 158. The frame erasure compensating unit 158 receives the pitch lag information for the current frame (frame erasure compensation processing sent one frame before, input from the one frame delay unit 157, Since the pitch lag information is pitch lag information, which is the pitch lag information for frame erasure compensation processing of the current frame), the frame erasure compensation processing is performed using the pitch lag.
[0089]
The frame erasure compensation processing is performed using the pitch lag for the frame erasure compensation processing of the current frame input from the one-frame delay unit 157 and the speech coding parameters decoded up to the previous frame input from the speech decoding unit 156. Is
[0090]
Next, the audio decoding unit 156 will be described in more detail with reference to FIG. As shown in FIG. 3, the audio decoding unit 156 includes a parameter decoding unit 301, a gain decoder 302, a changeover switch 303, an adaptive codebook 304, a fixed codebook 305, an LPC decoder 306, a multiplier 307, and a multiplier. 308, an adder 309, an LPC synthesis filter 310, and a post-processing unit 311.
[0091]
The input terminal of the parameter decoding unit 301 is connected to the output terminal of the multiplex information separation unit 155. The input terminal of the gain decoder 302 is connected to one of the output terminals of the parameter decoding unit 301. The input terminal of the LPC decoder 306 is connected to one of the output terminals of the parameter decoding unit 301. The input terminals of the changeover switch 303 are connected to the output terminal of the parameter decoding unit 301, the output terminal of the gain decoder, the output terminal of the LPC decoder 306, and the output terminal of the frame erasure compensation unit, respectively.
[0092]
Further, a terminal of the changeover switch 303 for receiving frame erasure information is connected to the signal processing device 113. The input terminal of adaptive codebook 304 is connected to the output terminal of switch 303 and the output terminal of adder 309. The input terminal of the fixed codebook 305 is connected to the output terminal of the changeover switch 303. One of the two input terminals of the multiplier 307 is connected to the output terminal of the adaptive codebook 304, and the other is connected to the output terminal of the changeover switch 303.
[0093]
One of the two input terminals of the multiplier 308 is connected to the fixed codebook 305, and the other is connected to the output terminal of the switch 303. One of the two input terminals of the adder 309 is connected to the output terminal of the multiplier 307, and the other is connected to the output terminal of the multiplier 308. One of the two input terminals of the LPC synthesis filter 310 is connected to the adder 309, and the other is connected to the changeover switch 303. The input terminal of the post-processing unit 311 is connected to the output terminal of the LPC synthesis filter 310, and outputs a digital decoded audio signal to the D / A converter 115.
[0094]
Parameter decoding section 301 converts speech coding parameters (pitch (adaptive codebook) parameter P, fixed codebook parameter C, linear prediction parameter L, gain from speech coding information (bit stream) input from multiplexing information separating section 155. Parameter G) is decoded, the gain parameter G is output to the gain decoder 302, the linear prediction coefficient parameter L is output to the LPC decoder 306, and the other parameters are output to the switch 303. Gain decoder 302 decodes adaptive codebook gain Gp and fixed codebook gain Gc from gain parameter G input from parameter decoding section 301, and outputs them to changeover switch 303.
[0095]
The LPC decoder 306 decodes the decoded quantized linear prediction coefficient α from the linear prediction coefficient parameter L input from the parameter decoding unit 301, and outputs it to the switch 303. The changeover switch 303 is a switch for switching between a parameter group input from the parameter decoder 301, the gain decoder 302, and the LPC decoder 306 and a parameter group input from the frame erasure compensator 158. If the frame erasure information received from the device 113 indicates “the current frame is a lost frame”, the switch is switched to the parameter side generated by the frame erasure compensation processing unit 158, otherwise the parameter decoding unit 301 and the gain A switch is connected to the parameter side output from the decoder 302 and the LPC decoder 306.
[0096]
The switch 303 switches the adaptive codebook parameter (pitch) P or P ′ to the adaptive codebook 304, the adaptive codebook gain Gp or Gp ′ to the multiplier 307, and the fixed codebook parameter C or C ′ to the fixed codebook 305. , The fixed codebook gain Gc or Gc ′ is output to the multiplier 308, and the decoded quantized linear prediction coefficient α or α ′ is output to the LPC synthesis filter 310. Further, the changeover switch 303 simultaneously outputs each parameter output to the adaptive codebook 304, the fixed codebook 305, the multiplier 307, the multiplier 308, and the LPC synthesis filter 310 to the frame erasure compensator 158.
[0097]
Adaptive codebook 304 buffers the previously generated excitation signal, and is updated each time the latest excitation signal is input from adder 309. The buffered signal length of adaptive codebook 304 is equal to or greater than the maximum pitch period length + frame length. An adaptive codebook vector is cut out from a position specified by adaptive codebook parameter (pitch) P or P ′ input from changeover switch 303 and output to multiplier 307.
[0098]
The multiplier 307 multiplies the adaptive codebook output from the adaptive codebook 304 by the adaptive codebook gain Gp or Gp ′ input from the switch 303 and outputs the result to the adder 309. The fixed codebook 305 generates a fixed codebook vector specified by the fixed codebook parameter C or C ′ input from the changeover switch 303, and outputs the vector to the multiplier 308. The multiplier 308 multiplies the fixed codebook vector input from the fixed codebook 305 by the fixed codebook gain Gc or Gc ′ input from the switch 303 and outputs the result to the adder 309.
[0099]
Adder 309 adds the adaptive codebook vector input from multiplier 307 and the fixed codebook vector input from multiplier 308, and outputs the result to LPC synthesis filter 310 and adaptive codebook 304. The LPC decoder 306 outputs the decoded quantized linear prediction coefficient α from the linear prediction parameter L decoded by the parameter decoder 301 to the switch 303. The LPC synthesis filter 310 drives an AR digital filter composed of the decoded quantized linear prediction coefficient α or α ′ input from the changeover switch 303 by a sound source signal input from the adder 309, and post-processes the synthesized voice signal. Output to the unit 311. The post-processing unit 311 includes a formant emphasis post-filter process, a pitch emphasis post-filter process, a tilt correction post-filter process for improving the subjective quality of the audio signal, and a noise post-process for improving the subjective quality of the background noise signal. , Etc., and outputs the digital decoded audio signal to the D / A converter 115.
[0100]
Next, the frame erasure compensator 158 will be described in detail with reference to FIG. The frame erasure compensator 158 includes a parameter buffer 312 and a parameter generator 313.
[0101]
The input terminal of the parameter buffer 312 is connected to the changeover switch 303 in the audio decoding unit 156. Five input terminals of the parameter generation unit 313 are connected to five output terminals of the parameter buffer 312.
[0102]
The parameter buffer is a buffer for storing various speech encoding parameters used for generating decoded speech in the speech decoding unit 156 in the past, and includes a decoded adaptive codebook parameter (pitch) P, noise The codebook parameter C, the adaptive codebook gain Gp, the fixed codebook gain Gc, and the decoded quantized linear prediction coefficient α are input from the speech coding unit 156. In the erasure frame, the parameters generated by the parameter generation unit (adaptive codebook parameter (pitch) P ', fixed codebook parameter C', adaptive codebook gain Gp ', fixed codebook gain Gc', decoding quantization linear The prediction coefficient α ′) is input. The buffered various parameters are output to the parameter generation unit 313, and are used when generating various parameters in the lost frame.
[0103]
The parameter generation unit 313 generates excitation parameters of the lost frame using the pitch lag information Pc for frame erasure compensation processing input from the one-frame delay unit 157 and various decoding parameters of the previous frame input from the parameter buffer 312. For example, when the information input from the one-frame delay unit 157 indicates that “the current frame is a frame having no pitch periodicity”, the adaptive codebook gain Gp ′ is set to 0.0, The fixed codebook parameter C ′ generated randomly and the value obtained by attenuating the fixed codebook gain used in the previous frame are output to the changeover switch 303 as Gc ′. On the other hand, if the information input from the pitch period calculator 314 indicates the pitch lag information for frame erasure compensation processing, the pitch parameter is set to Pc, and the adaptive codebook gain Gp ′ is obtained by decoding the adaptive codebook gain Gp ′ in the previous frame. A gain switch Gp or a value obtained by attenuating Gp (for example, a value multiplied by 0.9) or an average value of Gp decoded in the past, etc., and a fixed codebook gain Gc ′ is set to 0.0. 303, respectively.
[0104]
Note that, even though information indicating that an appropriate pitch lag was not obtained in the current frame has been input from the one-frame delay unit 157, it is determined that the separately performed voicedness determination result is a voiced frame. In such a case, the pitch period P ′ of the previous frame input from the parameter buffer 312 is used for the frame erasure compensation processing. Note that, as the decoded quantized linear prediction coefficient α ′, the decoded quantized linear prediction coefficient in the previous frame is repeatedly used, or the one obtained by extending the bandwidth and flattening the spectral characteristics is used.
[0105]
If the information output from the pitch lag detection / encoder 151 for frame erasure compensation processing is the shift amount S, the same processing as the pitch number calculation section 403 and the pitch cycle calculation section 404 is performed to perform frame erasure compensation. Pitch lag Pc is calculated. In this case, the parameter generation unit 313 is configured to input a sound source signal from the adaptive codebook 304.
[0106]
When Pc is transmitted, the frame erasure compensation processing of the decoded excitation signal is performed as in C and D in FIG. 8 using only Pc. That is, the excitation signal is generated from the adaptive codebook using the pitch lag Pc in the same manner as in the decoding of the normal adaptive code vector ((2)). However, in this case, since the section at the end S of the adaptive codebook is not necessarily compensated for having a high correlation with the last one pitch waveform of the decoded frame, for example, a pitch peak exists in the section at the end S of the adaptive codebook. In such a case, the pitch peak position may slightly deviate from the pitch peak position in the last one pitch waveform of the decoded frame. In order to avoid this, it is conceivable to temporarily clear the section at the end S of the adaptive codebook to zero, and to perform frame erasure compensation processing (sound source decoding processing) from this section. When the shift amount S is transmitted as the pitch lag for the frame erasure compensation process, as shown in FIG. 8A, a one-pitch period at the end of the decoded frame is first generated using the shift amount (L + S). It is also possible to perform a frame erasure compensation process by generating a sound source waveform by performing periodicization in a direction going back in the time axis using a periodic waveform (B in FIG. 8). In this case, in order to maintain continuity with the previous frame, the sound source signal {1} generated as A and B and the sound source signal {2} generated as C and D are used using a triangular window or the like. A method of overlapping (overlap and add) is conceivable.
[0107]
Next, operations of the speech encoding device 104 and the speech decoding device 114 will be described with reference to FIGS. FIG. 5 is a flowchart for explaining the operation of speech encoding apparatus 104, and FIG. 6 is a flowchart for explaining the operation of speech decoding apparatus 114.
[0108]
As shown in FIG. 5, first, in step ST501, speech encoding apparatus 104 performs CELP speech encoding for one frame by speech encoding section 153. Next, in step ST502, the speech coding apparatus 104 stores the speech coded information obtained in step ST501 until the processing of the next frame ends.
[0109]
Next, in step ST <b> 503, speech encoding apparatus 104 performs detection and encoding of a pitch lag for frame erasure compensation processing by pitch lag detection / encoding section 151 for frame erasure compensation processing.
[0110]
Next, in step ST504, the speech coding apparatus 104 extracts the speech coding information (speech coding information of the previous frame) stored in step ST502 of the previous frame.
[0111]
Next, in step ST505, the speech coding apparatus 104 multiplexes the pitch peak position information detected in step ST503 and the extracted speech coding information of the previous frame, and Output as output.
[0112]
The speech encoding device 104 repeats a series of encoding processes in steps ST501 to ST505. The audio encoding device 104 executes audio decoding processing based on a program for executing the processing procedure of steps ST501 to ST505 described above.
[0113]
Next, the operation of the speech decoding device 114 will be described. In FIG. 6, speech decoding apparatus 114 first determines whether or not the current frame has been lost in signal processing apparatus 113 in step ST510. If it has not disappeared, the process proceeds to step ST511, and if it has disappeared, the process proceeds to step ST514.
[0114]
Next, when no frame has been lost, speech decoding apparatus 114 separates pitch lag information for frame erasure compensation processing and speech encoded information from encoded information received by multiplexing information separating section 155 in step ST511. I do.
[0115]
Subsequently, in step ST512, the audio decoding device 114 decodes the audio coding parameters from the audio coding information by the parameter decoding unit 301 in the audio decoding unit 156. Next, in step ST513, the audio decoding apparatus 114 performs processing for re-synthesizing the audio signal from the decoded audio coding parameters by the remaining part of the audio decoding unit 156, and converts the decoded audio signal to D / A. Output to the converter 115.
[0116]
If the frame has disappeared, in step ST514, speech parameters used for frame erasure compensation are generated. Specifically, after checking whether or not the current frame (erased frame) is a frame having pitch periodicity (if the information regarding whether or not there is pitch periodicity is included in the received frame erasure compensation pitch lag information) Is used, and if it is not included, it may be determined by a method similar to the frame erasure compensation process of ITU-T Recommendation G.729), and it is determined that the current frame is a frame having pitch periodicity. In this case, the fixed codebook gain is set to zero, and a speech signal is generated using only the adaptive codebook. The pitch period (adaptive codebook parameter) used at this time uses the received pitch lag for frame erasure compensation processing. If it is determined that the current frame is a frame having no pitch periodicity, the adaptive codebook gain is set to zero, and a speech signal is generated using only the fixed codebook. The fixed codebook parameters are determined randomly. Regarding the linear prediction coefficients, regardless of the presence or absence of the pitch periodicity of the current frame, the one of the previous frame is repeatedly used, or the one that is gradually whitened while performing bandwidth expansion is used.
[0117]
Finally, in step ST515, the audio decoding device 114 updates the contents of the parameter buffer 312, and ends the decoding processing of one frame. The audio decoding device 114 repeats the series of decoding processes in steps ST510 to ST515. The audio decoding device 114 executes an audio decoding process based on a program for executing the processing procedure of steps ST510 to ST515 described above.
[0118]
As described above, according to the present embodiment, by adding and transmitting pitch lag information for frame erasure compensation processing, accurate frame erasure compensation processing can be performed, and error propagation after erasure frames can be performed. The effect can be reduced.
[0119]
Note that the above-described speech encoding device 104 and speech decoding device 114 may have a configuration in which both or one of them is provided in the mobile station device and / or the base station device.
[0120]
【The invention's effect】
As described above, according to the present invention, pitch lag information for frame erasure compensation processing is transmitted, so that it is possible to improve the erasure of a lost frame and the degradation of decoded voice quality immediately after the frame is lost.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an audio signal transmitting device and an audio signal receiving device according to an embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration of a speech coding apparatus according to an embodiment of the present invention.
FIG. 3 is a block diagram showing a configuration of a speech decoding apparatus according to the embodiment of the present invention.
FIG. 4 is a block diagram of a pitch lag detection / encoding unit for frame erasure compensation processing according to the embodiment of the present invention.
FIG. 5 is a flowchart showing a speech encoding processing procedure according to the embodiment of the present invention;
FIG. 6 is a flowchart showing a speech decoding processing procedure according to the embodiment of the present invention;
FIG. 7 is a schematic diagram showing an example of a method for obtaining a pitch lag for frame erasure compensation processing.
FIG. 8 is a schematic diagram showing an example of a frame erasure compensation processing procedure;
FIG. 9 is a block diagram showing a conventional audio signal transmission system.
[Explanation of symbols]
100 audio signal transmission device
199 Audio signal receiving device
102 Input device
103 A / D converter
104 speech coding device
105,113 signal processing device
106 RF modulator
107 transmitting device
108,110 antenna
111 receiver
112 RF demodulator
114 Audio Decoding Device
115 D / A converter
116 output device
151 Pitch lag detection / encoding unit for frame erasure compensation processing
152 Multiplexer
153 Audio Encoding Unit
154,157 1 frame delay unit
155 Multiplexed information separation unit
156 audio decoding unit
158 Frame loss compensator
202 Linear prediction analysis unit
203 LPC quantizer
206 LPC synthesis filter
208 Adaptive Codebook
210 Fixed codebook
212 gain quantizer
301 Parameter decoding unit
302 gain decoder
306 LPC decoder
303 switch
312 Parameter buffer
313 Parameter generation unit
401 One pitch waveform extraction unit
402 Cross-correlation maximization position search unit
403 Pitch number calculator
404 Pitch cycle calculator
405 Pitch lag encoder

Claims (13)

入力音声信号を符号化する音声信号符号化手段と、
前記符号化された音声信号を所定のデータ単位で送出する音声信号送出手段と、
前記送出される音声信号のフレーム消失補償処理用ピッチラグを算出するピッチラグ算出手段と、
前記算出されたフレーム消失補償処理用ピッチラグを表す情報を前記符号化された音声信号とともに送出するフレーム消失補償処理用ピッチラグ情報送出手段と、
を具備することを特徴とする音声符号化装置。
Audio signal encoding means for encoding the input audio signal;
Audio signal transmitting means for transmitting the encoded audio signal in a predetermined data unit,
Pitch lag calculating means for calculating a pitch lag for frame erasure compensation processing of the transmitted audio signal,
A frame erasure compensation processing pitch lag information transmitting unit that transmits information indicating the calculated frame erasure compensation processing pitch lag together with the encoded audio signal,
A speech encoding device comprising:
前記音声信号符号化手段は、
前記入力音声信号の線形予測分析を行って線形予測係数を算出する線形予測分析部と、前記線形予測係数の量子化及び符号化を行う符号化部と、量子化された線形予測係数によって構成される線形予測フィルタと、前記線形予測フィルタを駆動する音源信号を符号化及び生成する音源符号化部と、
を含むCELP型音声符号化手段であることを特徴とする請求項1記載の音声符号化装置。
The audio signal encoding means,
A linear prediction analysis unit that performs a linear prediction analysis of the input audio signal to calculate a linear prediction coefficient, an encoding unit that performs quantization and encoding of the linear prediction coefficient, and a quantized linear prediction coefficient. A linear prediction filter, and an excitation encoding unit that encodes and generates an excitation signal that drives the linear prediction filter,
2. A speech encoding apparatus according to claim 1, wherein said speech encoding apparatus includes CELP speech encoding means.
前記ピッチラグ算出手段は、過去に符号化した前記音声信号のピッチ周期と、過去に符号化した符号化音源信号と、これから送出しようとする単位ブロック内の符号化音源信号の終端1ピッチ周期長と、を用いて前記フレーム消失補償処理用ピッチラグを算出することを特徴とする請求項2記載の音声符号化装置。The pitch lag calculating means includes: a pitch cycle of the speech signal encoded in the past; an encoded excitation signal encoded in the past; 3. The speech coding apparatus according to claim 2, wherein the pitch lag for the frame erasure compensation processing is calculated using the following. 符号化された音声信号を復号化する音声信号復号化手段と、
前記音声信号のフレーム消失補償処理用ピッチラグを表す情報に基づいて、前記音声信号に消失フレームが存在する場合に当該消失フレームの補償処理を行う補償手段と、
を具備することを特徴とする音声復号化装置。
Audio signal decoding means for decoding the encoded audio signal,
Based on information representing the pitch lag for frame erasure compensation processing of the audio signal, a compensation unit that performs compensation processing of the erasure frame when there is an erasure frame in the audio signal,
An audio decoding device comprising:
前記フレーム消失補償処理用ピッチラグ情報は、前記符号化された音声信号に多重化されており、
前記補償手段は、現在フレームが消失フレームであった場合は、直前フレームにおいて受信したフレーム消失補償処理用ピッチラグを表す情報を用いて消失フレームの補償処理を行うことを特徴とする請求項4記載の音声復号化装置。
The frame erasure compensation processing pitch lag information is multiplexed with the encoded audio signal,
The method according to claim 4, wherein, if the current frame is a lost frame, the compensating means performs a lost frame compensation process using information indicating a frame erasure compensation pitch lag received in the immediately preceding frame. Audio decoding device.
前記音声信号復号化手段は、
線形予測係数の復号処理を行う線形予測係数復号部と、復号された線形予測係数によって構成される線形予測フィルタと、復号された利得パラメータに基づいて適応符号帳及び固定符号帳の各利得を制御するとともに当該制御された適応符号帳及び固定符号帳の内容に基づいて前記線形予測フィルタを駆動する音源復号化部と、
を含むCELP型音声復号化手段であることを特徴とする請求項5記載の音声復号化装置。
The audio signal decoding means,
A linear prediction coefficient decoding unit that performs a decoding process of the linear prediction coefficient, a linear prediction filter configured by the decoded linear prediction coefficient, and controls each gain of the adaptive codebook and the fixed codebook based on the decoded gain parameter And an excitation decoding unit that drives the linear prediction filter based on the contents of the controlled adaptive codebook and the fixed codebook,
6. A speech decoding apparatus according to claim 5, wherein said speech decoding means includes a CELP speech decoding means.
入力音声信号を符号化する音声信号符号化手段と、
前記符号化された音声信号を所定のデータ単位で送信する音声信号送信手段と、
前記送信される音声信号のフレーム消失補償処理用ピッチラグを算出するピッチラグ算出手段と、
前記算出されたフレーム消失補償処理用ピッチラグを表す情報を前記符号化された音声信号とともに送信するフレーム消失補償処理用ピッチラグ情報送信手段と、
を具備し、基地局装置との間で無線通信を行う移動局装置。
Audio signal encoding means for encoding the input audio signal;
Audio signal transmitting means for transmitting the encoded audio signal in a predetermined data unit,
Pitch lag calculating means for calculating a pitch lag for frame erasure compensation processing of the transmitted audio signal,
A frame erasure compensation pitch lag information transmitting unit that transmits information representing the calculated frame erasure compensation process pitch lag together with the encoded audio signal,
And a mobile station device that performs wireless communication with the base station device.
符号化された音声信号を復号化する音声信号復号化手段と、
前記音声信号のフレーム消失補償処理用ピッチラグを表す情報に基づいて、前記音声信号に消失フレームが存在する場合に当該消失フレームの補償処理を行う補償手段と、
を具備し、基地局装置との間で無線通信を行う移動局装置。
Audio signal decoding means for decoding the encoded audio signal,
Based on information representing the pitch lag for frame erasure compensation processing of the audio signal, a compensation unit that performs compensation processing of the erasure frame when there is an erasure frame in the audio signal,
And a mobile station device that performs wireless communication with the base station device.
入力音声信号を符号化する音声信号符号化手段と、
前記符号化された音声信号を所定のデータ単位で送信する音声信号送信手段と、
前記送信される音声信号のフレーム消失補償処理用ピッチラグを算出するピッチラグ算出手段と、
前記算出されたフレーム消失補償処理用ピッチラグを表す情報を前記符号化された音声信号とともに送信するフレーム消失補償処理用ピッチラグ情報送信手段と、
を具備し、移動局装置との間で無線通信を行う基地局装置。
Audio signal encoding means for encoding the input audio signal;
Audio signal transmitting means for transmitting the encoded audio signal in a predetermined data unit,
Pitch lag calculating means for calculating a pitch lag for frame erasure compensation processing of the transmitted audio signal,
A frame erasure compensation pitch lag information transmitting unit that transmits information representing the calculated frame erasure compensation process pitch lag together with the encoded audio signal,
And a base station device that performs wireless communication with the mobile station device.
符号化された音声信号を復号化する音声信号復号化手段と、
前記音声信号のフレーム消失補償処理用ピッチラグを表す情報に基づいて、前記音声信号に消失フレームが存在する場合に当該消失フレームの補償処理を行う補償手段と、
を具備し、移動局装置との間で無線通信を行う基地局装置。
Audio signal decoding means for decoding the encoded audio signal,
Based on information representing the pitch lag for frame erasure compensation processing of the audio signal, a compensation unit that performs compensation processing of the erasure frame when there is an erasure frame in the audio signal,
And a base station device that performs wireless communication with the mobile station device.
入力音声信号を符号化する音声信号符号化工程と、
前記符号化された音声信号を所定のデータ単位で送信する音声信号送信工程と、
前記送信される音声信号のフレーム消失補償処理用ピッチラグを算出するピッチラグ算出手段と、
前記算出されたフレーム消失補償処理用ピッチラグを表す情報を前記符号化された音声信号とともに送信するフレーム消失補償処理用ピッチラグ情報送信工程と、
前記符号化された音声信号を復号化する音声信号復号化工程と、
前記音声信号のフレーム消失補償処理用ピッチラグを表す情報に基づいて、前記音声信号に消失フレームが存在する場合に当該消失フレームの補償処理を行う補償工程と、
を具備することを特徴とする音声信号伝送方法。
An audio signal encoding step of encoding the input audio signal;
An audio signal transmitting step of transmitting the encoded audio signal in a predetermined data unit,
Pitch lag calculating means for calculating a pitch lag for frame erasure compensation processing of the transmitted audio signal,
A pitch lag information transmitting step for frame erasure compensation processing for transmitting information representing the calculated frame erasure compensation processing pitch lag together with the encoded audio signal,
Audio signal decoding step of decoding the encoded audio signal,
Based on information representing the pitch lag for frame erasure compensation processing of the audio signal, a compensation step of performing compensation processing of the erasure frame when there is an erasure frame in the audio signal,
An audio signal transmission method, comprising:
入力音声信号を符号化する音声信号符号化工程と、
前記符号化された音声信号を所定のデータ単位で送出する音声信号送出工程と、
前記送出される音声信号のフレーム消失補償処理用ピッチラグを算出するピッチラグ算出手段と、
前記算出されたフレーム消失補償処理用ピッチラグを表す情報を前記符号化された音声信号とともに送出するフレーム消失補償処理用ピッチラグ情報送出工程と、
を音声符号化装置に実行させるためのプログラム。
An audio signal encoding step of encoding the input audio signal;
An audio signal transmitting step of transmitting the encoded audio signal in a predetermined data unit;
Pitch lag calculating means for calculating a pitch lag for frame erasure compensation processing of the transmitted audio signal,
A pitch lag information transmission step for frame erasure compensation processing for transmitting information representing the calculated frame erasure compensation processing pitch lag together with the encoded audio signal,
For causing a speech encoding device to execute the program.
符号化された音声信号を復号化する音声信号復号化工程と、
前記音声信号のフレーム消失補償処理用ピッチラグを表す情報に基づいて、前記音声信号に消失フレームが存在する場合に当該消失フレームの補償処理を行う補償工程と、
を音声復号化装置に実行させるためのプログラム。
An audio signal decoding step of decoding the encoded audio signal,
Based on information representing the pitch lag for frame erasure compensation processing of the audio signal, a compensation step of performing compensation processing of the erasure frame when there is an erasure frame in the audio signal,
For causing a voice decoding device to execute the program.
JP2002302434A 2002-10-17 2002-10-17 Speech coding apparatus, speech coding method, and program Expired - Lifetime JP4287637B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002302434A JP4287637B2 (en) 2002-10-17 2002-10-17 Speech coding apparatus, speech coding method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002302434A JP4287637B2 (en) 2002-10-17 2002-10-17 Speech coding apparatus, speech coding method, and program

Publications (2)

Publication Number Publication Date
JP2004138756A true JP2004138756A (en) 2004-05-13
JP4287637B2 JP4287637B2 (en) 2009-07-01

Family

ID=32450493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002302434A Expired - Lifetime JP4287637B2 (en) 2002-10-17 2002-10-17 Speech coding apparatus, speech coding method, and program

Country Status (1)

Country Link
JP (1) JP4287637B2 (en)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006030864A1 (en) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. Audio encoding apparatus, audio decoding apparatus, communication apparatus and audio encoding method
JP2007150737A (en) * 2005-11-28 2007-06-14 Sony Corp Sound-signal noise reducing device and method therefor
WO2008007700A1 (en) * 2006-07-12 2008-01-17 Panasonic Corporation Sound decoding device, sound encoding device, and lost frame compensation method
WO2008007699A1 (en) * 2006-07-12 2008-01-17 Panasonic Corporation Audio decoding device and audio encoding device
WO2008007698A1 (en) * 2006-07-12 2008-01-17 Panasonic Corporation Lost frame compensating method, audio encoding apparatus and audio decoding apparatus
US8438035B2 (en) 2007-02-22 2013-05-07 Fujitsu Limited Concealment signal generator, concealment signal generation method, and computer product
JP2013541027A (en) * 2010-08-10 2013-11-07 クゥアルコム・インコーポレイテッド Use quantized prediction memory during fast restoration coding
WO2014077254A1 (en) * 2012-11-15 2014-05-22 株式会社Nttドコモ Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
JP2017504054A (en) * 2013-12-16 2017-02-02 サムスン エレクトロニクス カンパニー リミテッド Audio signal encoding method, decoding method and apparatus
JP2021502608A (en) * 2017-11-10 2021-01-28 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン An audio decoder that supports a different set of loss concealment tools
US11127408B2 (en) 2017-11-10 2021-09-21 Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. Temporal noise shaping
US11217261B2 (en) 2017-11-10 2022-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding audio signals
US11315583B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11380341B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US11462226B2 (en) 2017-11-10 2022-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11545167B2 (en) 2017-11-10 2023-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
US11562754B2 (en) 2017-11-10 2023-01-24 Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. Analysis/synthesis windowing function for modulated lapped transformation

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008132713A1 (en) 2007-04-29 2008-11-06 Shemen Industries Ltd. Nourishing oil composition for infants and young children

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221994A (en) * 2001-01-26 2002-08-09 Nippon Telegr & Teleph Corp <Ntt> Method and apparatus for assembling packet of code string of voice signal, method and apparatus for disassembling packet, program for executing these methods, and recording medium for recording program thereon
JP2002268696A (en) * 2001-03-13 2002-09-20 Nippon Telegr & Teleph Corp <Ntt> Sound signal encoding method, method and device for decoding, program, and recording medium
JP2003533916A (en) * 2000-05-11 2003-11-11 テレフォンアクチーボラゲット エル エム エリクソン(パブル) Forward error correction in speech coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003533916A (en) * 2000-05-11 2003-11-11 テレフォンアクチーボラゲット エル エム エリクソン(パブル) Forward error correction in speech coding
JP2002221994A (en) * 2001-01-26 2002-08-09 Nippon Telegr & Teleph Corp <Ntt> Method and apparatus for assembling packet of code string of voice signal, method and apparatus for disassembling packet, program for executing these methods, and recording medium for recording program thereon
JP2002268696A (en) * 2001-03-13 2002-09-20 Nippon Telegr & Teleph Corp <Ntt> Sound signal encoding method, method and device for decoding, program, and recording medium

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
森永徹他: ""Forward-Backward Recovery sub-Codec(FB-RSC)に基づくパケット消失補償"", 電子情報通信学会2002年総合大会講演論文集 情報・システム1, JPN4007004758, 7 March 2002 (2002-03-07), pages 14 - 18, ISSN: 0001260988 *
森永徹他: ""広帯域IP網におけるパケット消失に耐性のある音声符号化"", 電子情報通信学会2001年総合大会講演論文集 通信2, JPN4004001859, 7 March 2001 (2001-03-07), pages 8 - 12, ISSN: 0001260989 *

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006030864A1 (en) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. Audio encoding apparatus, audio decoding apparatus, communication apparatus and audio encoding method
US7783480B2 (en) 2004-09-17 2010-08-24 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus, communication apparatus and audio encoding method
US7711557B2 (en) 2005-11-28 2010-05-04 Sony Corporation Audio signal noise reduction device and method
JP2007150737A (en) * 2005-11-28 2007-06-14 Sony Corp Sound-signal noise reducing device and method therefor
JPWO2008007700A1 (en) * 2006-07-12 2009-12-10 パナソニック株式会社 Speech decoding apparatus, speech encoding apparatus, and lost frame compensation method
JPWO2008007699A1 (en) * 2006-07-12 2009-12-10 パナソニック株式会社 Speech decoding apparatus and speech encoding apparatus
US8812306B2 (en) 2006-07-12 2014-08-19 Panasonic Intellectual Property Corporation Of America Speech decoding and encoding apparatus for lost frame concealment using predetermined number of waveform samples peripheral to the lost frame
WO2008007698A1 (en) * 2006-07-12 2008-01-17 Panasonic Corporation Lost frame compensating method, audio encoding apparatus and audio decoding apparatus
WO2008007699A1 (en) * 2006-07-12 2008-01-17 Panasonic Corporation Audio decoding device and audio encoding device
US8255213B2 (en) 2006-07-12 2012-08-28 Panasonic Corporation Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method
JP5052514B2 (en) * 2006-07-12 2012-10-17 パナソニック株式会社 Speech decoder
JP5190363B2 (en) * 2006-07-12 2013-04-24 パナソニック株式会社 Speech decoding apparatus, speech encoding apparatus, and lost frame compensation method
WO2008007700A1 (en) * 2006-07-12 2008-01-17 Panasonic Corporation Sound decoding device, sound encoding device, and lost frame compensation method
US8438035B2 (en) 2007-02-22 2013-05-07 Fujitsu Limited Concealment signal generator, concealment signal generation method, and computer product
JP2013541027A (en) * 2010-08-10 2013-11-07 クゥアルコム・インコーポレイテッド Use quantized prediction memory during fast restoration coding
JP2018112749A (en) * 2012-11-15 2018-07-19 株式会社Nttドコモ Voice encoding apparatus
JP2020038396A (en) * 2012-11-15 2020-03-12 株式会社Nttドコモ Audio encoding device and audio encoding method
EP2922053A4 (en) * 2012-11-15 2016-07-06 Ntt Docomo Inc Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
TWI547940B (en) * 2012-11-15 2016-09-01 Ntt Docomo Inc A sound coding apparatus, a speech coding apparatus, a speech coding apparatus, a speech decoding apparatus, a speech decoding method, and a speech decoding program
JP2016197254A (en) * 2012-11-15 2016-11-24 株式会社Nttドコモ Speech encoding device
JPWO2014077254A1 (en) * 2012-11-15 2017-01-05 株式会社Nttドコモ Speech coding apparatus, speech coding method, speech coding program, speech decoding apparatus, speech decoding method, and speech decoding program
US11749292B2 (en) 2012-11-15 2023-09-05 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US9564143B2 (en) 2012-11-15 2017-02-07 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
RU2612581C2 (en) * 2012-11-15 2017-03-09 Нтт Докомо, Инк. Audio encoding device, audio encoding method, audio encoding software, audio decoding device, audio decoding method and audio decoding software
TWI587284B (en) * 2012-11-15 2017-06-11 Ntt Docomo Inc Sound encoding device
CN104781876B (en) * 2012-11-15 2017-07-21 株式会社Ntt都科摩 Audio coding apparatus, audio coding method and audio decoding apparatus, audio-frequency decoding method
JP2017138607A (en) * 2012-11-15 2017-08-10 株式会社Nttドコモ Voice decoding device and voice decoding method
CN107256709A (en) * 2012-11-15 2017-10-17 株式会社Ntt都科摩 Audio coding apparatus
RU2640743C1 (en) * 2012-11-15 2018-01-11 Нтт Докомо, Инк. Audio encoding device, audio encoding method, audio encoding programme, audio decoding device, audio decoding method and audio decoding programme
US9881627B2 (en) 2012-11-15 2018-01-30 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
WO2014077254A1 (en) * 2012-11-15 2014-05-22 株式会社Nttドコモ Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
RU2665301C1 (en) * 2012-11-15 2018-08-28 Нтт Докомо, Инк. Audio encoding device, audio encoding method, audio encoding program, audio decoding device, audio decoding method and audio decoding program
JP2019070866A (en) * 2012-11-15 2019-05-09 株式会社Nttドコモ Voice encoding device and voice encoding method
RU2690775C1 (en) * 2012-11-15 2019-06-05 Нтт Докомо, Инк. Audio encoding device, audio encoding method, audio encoding program, audio decoding device, audio decoding method and audio decoding program
EP3579228A1 (en) * 2012-11-15 2019-12-11 NTT DoCoMo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US10553231B2 (en) 2012-11-15 2020-02-04 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
RU2713605C1 (en) * 2012-11-15 2020-02-05 Нтт Докомо, Инк. Audio encoding device, an audio encoding method, an audio encoding program, an audio decoding device, an audio decoding method and an audio decoding program
JP2020034951A (en) * 2012-11-15 2020-03-05 株式会社Nttドコモ Voice decoding device and voice decoding method
CN104781876A (en) * 2012-11-15 2015-07-15 株式会社Ntt都科摩 Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US20200126578A1 (en) 2012-11-15 2020-04-23 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
RU2722510C1 (en) * 2012-11-15 2020-06-01 Нтт Докомо, Инк. Audio encoding device, an audio encoding method, an audio encoding program, an audio decoding device, an audio decoding method and an audio decoding program
JP7209032B2 (en) 2012-11-15 2023-01-19 株式会社Nttドコモ Speech encoding device and speech encoding method
CN107256709B (en) * 2012-11-15 2021-02-26 株式会社Ntt都科摩 Audio encoding device
JP2021092814A (en) * 2012-11-15 2021-06-17 株式会社Nttドコモ Voice coding device and voice coding method
US11211077B2 (en) 2012-11-15 2021-12-28 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US11176955B2 (en) 2012-11-15 2021-11-16 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
US11195538B2 (en) 2012-11-15 2021-12-07 Ntt Docomo, Inc. Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
JP2017504054A (en) * 2013-12-16 2017-02-02 サムスン エレクトロニクス カンパニー リミテッド Audio signal encoding method, decoding method and apparatus
US11380341B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US11315580B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
US11315583B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
JP7073492B2 (en) 2017-11-10 2022-05-23 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Audio decoder that supports a different set of loss concealment tools
US11380339B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11127408B2 (en) 2017-11-10 2021-09-21 Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. Temporal noise shaping
US11386909B2 (en) 2017-11-10 2022-07-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11462226B2 (en) 2017-11-10 2022-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11545167B2 (en) 2017-11-10 2023-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
JP2021502608A (en) * 2017-11-10 2021-01-28 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン An audio decoder that supports a different set of loss concealment tools
US11562754B2 (en) 2017-11-10 2023-01-24 Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. Analysis/synthesis windowing function for modulated lapped transformation
US11217261B2 (en) 2017-11-10 2022-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding audio signals

Also Published As

Publication number Publication date
JP4287637B2 (en) 2009-07-01

Similar Documents

Publication Publication Date Title
US7016831B2 (en) Voice code conversion apparatus
JP4287637B2 (en) Speech coding apparatus, speech coding method, and program
US8255210B2 (en) Audio/music decoding device and method utilizing a frame erasure concealment utilizing multiple encoded information of frames adjacent to the lost frame
EP1768105B1 (en) Speech coding
RU2713605C1 (en) Audio encoding device, an audio encoding method, an audio encoding program, an audio decoding device, an audio decoding method and an audio decoding program
JP4263412B2 (en) Speech code conversion method
WO2014051964A1 (en) Apparatus and method for audio frame loss recovery
JP4365653B2 (en) Audio signal transmission apparatus, audio signal transmission system, and audio signal transmission method
JP4331928B2 (en) Speech coding apparatus, speech decoding apparatus, and methods thereof
JP4414705B2 (en) Excitation signal encoding apparatus and excitation signal encoding method
JP3888097B2 (en) Pitch cycle search range setting device, pitch cycle search device, decoding adaptive excitation vector generation device, speech coding device, speech decoding device, speech signal transmission device, speech signal reception device, mobile station device, and base station device
KR100338606B1 (en) Method and device for emphasizing pitch
JP4236675B2 (en) Speech code conversion method and apparatus
JP5328883B2 (en) CELP speech decoding apparatus and CELP speech decoding method
JP5111430B2 (en) Speech coding apparatus, speech decoding apparatus, and methods thereof
JP2003202898A (en) Speech signal transmitter, speech signal receiver, and speech signal transmission system
JP2004198522A (en) Method of updating adaptive code book, voice encoding device, and voice decoding device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080909

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090303

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090327

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4287637

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130403

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130403

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140403

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term