JP2005534984A - Voice communication unit and method for reducing errors in voice frames - Google Patents
Voice communication unit and method for reducing errors in voice frames Download PDFInfo
- Publication number
- JP2005534984A JP2005534984A JP2004526664A JP2004526664A JP2005534984A JP 2005534984 A JP2005534984 A JP 2005534984A JP 2004526664 A JP2004526664 A JP 2004526664A JP 2004526664 A JP2004526664 A JP 2004526664A JP 2005534984 A JP2005534984 A JP 2005534984A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- frame
- frames
- communication unit
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims description 34
- 230000005540 biological transmission Effects 0.000 claims abstract description 71
- 230000005284 excitation Effects 0.000 claims description 20
- 239000000872 buffer Substances 0.000 claims description 18
- 230000000116 mitigating effect Effects 0.000 claims description 18
- 238000012937 correction Methods 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 3
- 230000001747 exhibiting effect Effects 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract description 9
- 230000008901 benefit Effects 0.000 abstract description 5
- 239000013598 vector Substances 0.000 description 25
- 238000012545 processing Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 14
- 230000007774 longterm Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000003139 buffering effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/0078—Avoidance of errors by organising the transmitted data in a format specifically designed to deal with errors, e.g. location
- H04L1/0083—Formatting with frames or packets; Protocol or part of protocol for error control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L27/00—Modulated-carrier systems
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
Abstract
入力音声信号を表わすことが可能な音声エンコーダ(134)を備えた音声通信ユニット(100)であって、音声エンコーダ(134)は、音声デコーダに多くの音声フレームを送信するための伝送路(281)を有し、音声エンコーダ(134)は、伝送路(281)上を送信される多くの音声フレームに対する1または複数の参照を送信するための仮想伝送路(282)を特徴とし、該1または複数の参照は、フレームが誤って受け取られた場合に置換フレームとして使用される、伝送路(281)上を送信される多くの音声フレーム内の代替の音声フレームに関するものである、音声通信ユニット(100)。音声通信ユニット(100)は、より正確な置換フレーム機構が提供され、そのため回復された音声フレームで望ましくないアーチファクトが聞こえる危険性を低下させるという、少なくとも1つの利点を提供する。A voice communication unit (100) having a voice encoder (134) capable of representing an input voice signal, wherein the voice encoder (134) is a transmission path (281) for transmitting a number of voice frames to a voice decoder. The speech encoder (134) is characterized by a virtual transmission path (282) for transmitting one or more references to a number of speech frames transmitted over the transmission path (281), The plurality of references relate to alternative voice frames in a number of voice frames transmitted over the transmission path (281) that are used as replacement frames if a frame is received in error, the voice communication unit ( 100). The voice communication unit (100) provides at least one advantage that a more accurate replacement frame mechanism is provided, thus reducing the risk of hearing undesirable artifacts in the recovered voice frame.
Description
本発明は音声の符号化および音声通信ユニットにおける音声コーデックの性能を改善する方法に関する。本発明は、音声コーデックにおけるエラー軽減に適用可能であるが、これに限定されるわけではない。 The present invention relates to speech coding and methods for improving the performance of speech codecs in speech communication units. The present invention is applicable to error reduction in an audio codec, but is not limited to this.
個人の移動無線ユーザのための、グローバル移動体通信システム(GSM)、セルラ電話標準システム、および地上基盤無線(TETRA)システムを初めとする、現在の多くの音声通信システムは、音声パターンをエンコードおよびデコードするために音声処理ユニットを使用している。このような音声通信システムでは、送信ユニット内の音声エンコーダが、アナログの音声パターンを送信に適したデジタル形式に変換する。受信ユニット内の音声デコーダは、受信したデジタルの音声信号を、可聴なアナログの音声パターンに変換する。 Many current voice communication systems, including Global Mobile Communication System (GSM), Cellular Telephone Standard System, and Terrestrial Radio (TETRA) System, for personal mobile radio users encode and encode voice patterns. An audio processing unit is used for decoding. In such a voice communication system, a voice encoder in the transmission unit converts an analog voice pattern into a digital format suitable for transmission. An audio decoder in the receiving unit converts the received digital audio signal into an audible analog audio pattern.
そのような無線音声通信システム用の周波数スペクトルは貴重な資源であるため、1つの周波数帯域当たりのユーザ数を最大限にするために、音声信号によって使用されるチャネル帯域幅を制限することが望ましい。従って、音声符号化技術の使用における主な目的は、性能(fidelity) を損なわずに、圧縮技術の使用により、音声パターンの占める容量をできるだけ減少させることである。 Because the frequency spectrum for such wireless voice communication systems is a valuable resource, it is desirable to limit the channel bandwidth used by voice signals to maximize the number of users per frequency band. . Therefore, the main objective in using speech coding techniques is to reduce the capacity occupied by speech patterns as much as possible by using compression techniques without compromising performance.
音声・データ通信システムに関する更なるアプローチは、同程度のデータ信号と比較した時に、音声信号に対しては実質的に、より少ない保護を提供することである。このアプローチでは、データパケットよりも音声パケットにかなり多くのエラーが生じると共に、音声パケット全体が失われるという危険性の増加にもつながる。 A further approach for voice and data communication systems is to provide substantially less protection for voice signals when compared to comparable data signals. This approach introduces significantly more errors in voice packets than data packets and leads to an increased risk of losing the entire voice packet.
音声デコーダでは、
(i) 受信した音声フレーム内に、あまりにも多くのビットエラーが存在する;または(ii)インターネット・プロトコル(IP)ベースのネットワーク内データパケット(音声情報を含むことがある)が失われている;
という場合に、例えば音声通信ユニットの性能を改善するために、エラー軽減技術が使用されることが一般的である。
In the audio decoder,
(I) There are too many bit errors in the received voice frame; or (ii) Internet Protocol (IP) based intra-network data packets (which may contain voice information) are lost ;
In such cases, error mitigation techniques are commonly used, for example, to improve the performance of voice communication units.
「悪いフレーム(bad frame )」の軽減技術は、誤って受け取られたフレームの可聴な影響を最小限にするために必要である。「誤って受け取られる」とは、本明細書では、誤りと共に受け取られるか、あるいは全く受け取られないことを意味している。そのような技術は失われた音声フレームの推定値を再生するのであって、デコードされた音声にサイレンスかノイズのいずれかを導入するものではない。そのような技術は、通常、音声の統計学的な定常的特性を使用することを含む。エラーのある1つのフレームは、それを、エネルギー、ピッチ、スペクトルおよび以前のフレームからの有声化を含む同様のパラメータに置き換えることにより通常は十分に推定される。しかしながら、音声は真に定常であるわけではなく(例えば音声の出だし)、破裂音は非常に短い出来事である。従って、この単純な「置換」技術は、しばしば、不自然で、したがって望ましくないアーチファクトを招来することがある。 "Bad frame" mitigation techniques are necessary to minimize the audible effects of erroneously received frames. “Received incorrectly” means herein received with an error or not received at all. Such a technique reproduces estimates of lost speech frames, and does not introduce either silence or noise into the decoded speech. Such techniques typically involve using the statistical stationary properties of speech. One frame in error is usually well estimated by replacing it with similar parameters including energy, pitch, spectrum and voicing from previous frames. However, the voice is not truly steady (eg, the voice comes out) and the plosive is a very short event. Thus, this simple “replacement” technique is often unnatural and therefore can lead to undesirable artifacts.
理想的な世界では、送信中断の両側からデータを補間すること、すなわち、悪いフレームシーケンスの後と前にデータを採り、その間を補間することが好ましい。しかしながら、そのようなアプローチは、望ましくない遅延を招来するため、音声通信システムでは許
容しがたい。
In an ideal world, it is preferable to interpolate data from both sides of the transmission interruption, ie take data before and after the bad frame sequence and interpolate between them. However, such an approach introduces undesirable delays and is unacceptable in a voice communication system.
いくつかの悪いフレームが受信されると、音声信号のエネルギーはしばしば数フレーム後に0まで減少される。音声が有声であるか否かに基づいて繰り返す対象を変更することが有用であるため、「有声化」パラメータが含まれていることが多い。原則として、有声の音声については、周期的な成分を単に繰り返すことが望ましい。対照的に、無声の音声については、周期的にしすぎずに、同様のオーディオ・スペクトルと同様のエネルギーを生成することが望ましい。 When several bad frames are received, the energy of the speech signal is often reduced to zero after a few frames. Since it is useful to change what is repeated based on whether the voice is voiced or not, a “voiced” parameter is often included. In principle, for voiced speech, it is desirable to simply repeat the periodic component. In contrast, for unvoiced speech, it is desirable not to be too periodic, but to produce similar energy with a similar audio spectrum.
本発明の発明者らは、悪いフレームの軽減戦略としてそのような単純な「置換」フレーム機構を使用することの限界に気づくと共に、それを正しく認識した。詳細には、本発明の発明者らは、置換フレームはまれな場合にしか本当に適切なフレームでないことに気づいた。さらに、多くのフレームが誤って受け取られると、これは低品質の無線通信リンクでは頻繁に生じ得ることであるが、そのような置換フレーム機構はさらに許容しがたいものである。 The inventors of the present invention have realized and correctly recognized the limitations of using such a simple “replacement” frame mechanism as a bad frame mitigation strategy. In particular, the inventors of the present invention have realized that replacement frames are really only suitable frames in rare cases. Moreover, if many frames are received in error, this can often occur in low quality wireless communication links, but such a replacement frame mechanism is even more unacceptable.
従って、そのような音声コーデックを使用した場合に、上述の欠点のうちの少なくとも一部を軽減する、改善されたエラー軽減技術を提供することが必要とされている。 Therefore, there is a need to provide an improved error mitigation technique that mitigates at least some of the aforementioned drawbacks when using such audio codecs.
本発明の第1態様では、請求項1に記載の音声通信ユニットが提供される。
本発明の第2態様では、請求項11に記載の音声通信ユニットが提供される。
本発明の第3態様では、請求項13に記載の音声通信ユニットにおいて悪いフレームのエラー軽減を実行する方法が提供される。
In a first aspect of the present invention, a voice communication unit according to
In a second aspect of the present invention, a voice communication unit according to claim 11 is provided.
According to a third aspect of the present invention, there is provided a method for performing bad frame error mitigation in a voice communication unit according to claim 13.
本発明の第4の態様では、請求項14に記載の音声通信ユニットが提供される。
本発明の第5の態様では、請求項15に記載の無線通信システムが提供される。
本発明のさらなる態様が、従属請求項で定義される。
According to a fourth aspect of the present invention, there is provided a voice communication unit according to claim 14.
In a fifth aspect of the present invention, a wireless communication system according to claim 15 is provided.
Further aspects of the invention are defined in the dependent claims.
要約すると、本発明は、現在の悪いフレームのエラー軽減技術に関連する上述の欠点の少なくとも一部を軽減する、音声コーデックを備えた通信ユニットおよび方法を提供することを目的とする。これは、伝送路上の音声フレームが誤って受け取られたと仮定した場合に、伝送路上に音声フレームを送信し、音声デコーダによって使用される代替の置換音声フレームを示すために仮想伝送路上を送信される参照/ポインタを使用することにより、主として達成される。理想的には異なるエラー統計(例えば別のFEC方式)を有する追加の仮想伝送路を使用することにより、参照/ポインタは、それが参照している音声フレームと同じエラーを受けないだろう。さらに、多くの以前に送信された音声フレームから代替の音声フレームを選択するために、バッファリング技術がエンコーダで使用される。多くの以前に送信された音声フレームは、参照される選択された代替音声フレームと同様の特性を示す。 In summary, it is an object of the present invention to provide a communication unit and method with a voice codec that alleviates at least some of the above-mentioned drawbacks associated with current bad frame error mitigation techniques. This assumes that a voice frame on the transmission path has been received in error, sends a voice frame on the transmission path, and is sent on a virtual transmission path to indicate an alternative replacement voice frame to be used by the voice decoder. This is mainly achieved by using a reference / pointer. By using an additional virtual transmission line that ideally has a different error statistic (eg, another FEC scheme), the reference / pointer will not receive the same error as the voice frame it references. In addition, buffering techniques are used at the encoder to select alternative voice frames from many previously transmitted voice frames. Many previously transmitted speech frames exhibit characteristics similar to the selected alternative speech frame referenced.
ここで、本発明の例証的実施形態を、図面を参照しながら説明する。 Illustrative embodiments of the invention will now be described with reference to the drawings.
ここで図1を参照すると、以下では移動局(MS)100と称する、本発明の好ましい実施形態の発明概念をサポートするよう適合された、無線加入者ユニットのブロック図が示される。MS 100は、好ましくはデュプレックス・フィルタ、アンテナスイッチ、またはMS 100内の受信機と送信機鎖との間の絶縁を提供するサーキュレータ104
に好ましくは結合された、アンテナ102を備えている。
Referring now to FIG. 1, a block diagram of a wireless subscriber unit adapted to support the inventive concept of a preferred embodiment of the present invention, hereinafter referred to as mobile station (MS) 100, is shown. The MS 100 is preferably a duplex filter, antenna switch, or
The
当該技術分野で周知のように、受信機鎖は一般に、走査型受信機(scanning receiver )フロントエンド回路106(受信、フィルタリング、ならびに中間またはベースバンド周波数変換を有効に提供する)を備えている。走査フロントエンド回路106は、信号処理機能108に直列に結合される。信号処理機能108からの出力は、音声処理ユニット130を介して、スピーカを初めとする適切な出力デバイス110に供給される。
As is well known in the art, the receiver chain generally comprises a scanning receiver front-end circuit 106 (effectively providing reception, filtering, and intermediate or baseband frequency conversion). The scan
音声処理ユニット130は、ユーザの音声を伝送媒体で送信するのに適した形式にエンコードする音声符号化機能134を有している。また、音声処理ユニット130は、受信音声を出力デバイス(スピーカ)110を介して出力するのに適した形式にデコードする音声復号化機能132も有している。音声処理ユニット130は、記憶装置116と、およびコントローラ114を介してタイマ118と、結合して作用する。特に、音声処理ユニット130の動作は、本発明の好ましい実施形態の発明概念をサポートするように適合されている。詳細には、音声処理ユニット130は、多くの以前に送信された音声フレームから、置換音声フレームを選択するように適合されている。次に、音声処理ユニット130、すなわち信号プロセッサ108は、主要な伝送路に対する代替仮想伝送路での参照/ポインタ信号(選択された置換音声フレームを示す)の送信を開始する。音声処理ユニット130のこの適合は、図2を参照しながらさらに詳しく説明する。
The
完全を期すため、受信機鎖は、受信信号強度表示(RSSI)回路112(走査型受信機フロントエンド106に結合された状態で示されている)も有するが、RSSI回路112は受信機鎖内の他のいずれの場所に配置してもよい。RSSI回路は、加入者ユニット全体の制御を管理するために、コントローラ114に結合される。コントローラ114は、走査型受信機フロントエンド回路106および信号処理機能108(一般にDSPによって実現される)にも結合されている。したがってコントローラ114は、回復された情報から、ビット誤り率(BER)またはフレーム誤り率(FER)データを受け取り得る。コントローラ114は、復号化/符号化等の動作様式を格納すべく、メモリ・デバイス116に結合される。MS 100内の動作のタイミング(時間依存信号の送信または受信)を制御するために、コントローラ114にはタイマ118が通常結合される。本発明に関連して、タイマ118は、送信(符号化)路および/または受信(復号化)路で、音声信号のタイミングを指示する。
For completeness, the receiver chain also includes a received signal strength indication (RSSI) circuit 112 (shown coupled to the scanning receiver front end 106), but the
送信鎖に関して言うと、送信鎖は、音声エンコーダ134を介して送信機/変調回路122に直列に結合された、マイクロフォン変換器を初めとする入力装置120を実質的に備えている。その後、いかなる伝送信号も、パワー・アンプ124を通り、アンテナ102から放射される。送信機/変調回路122およびパワー・アンプ124は、コントローラに応答して作用し、パワー・アンプ124からの出力はデュプレックス・フィルタまたはサーキュレータ104に結合される。送信機/変調回路122および走査型受信機フロントエンド回路106は、周波数アップコンバージョン機能および周波数ダウンコンバージョン機能を有する(図示しない)。
With respect to the transmit chain, the transmit chain substantially comprises an
当然ながら、MS 100内の種々のコンポーネントを、本発明の発明概念を利用可能にする任意の適切な機能的トポロジーに配置することができる。さらに、MS 100内の種々のコンポーネントは、個別のコンポーネント形式で実現されても統合されたコンポーネント形式で実現されてもよく、最終的な構造は単に任意選択したものにすぎない。
Of course, the various components within the
音声信号の好ましいバッファリングまたはプロセシングを、好ましくは音声処理機能を実行するソフトウェア・プロセッサ(またはデジタル信号プロセッサ(DSP))を用いて、ソフトウェア、ファームウェア、またはハードウェアで実行し得ることは、本発明の
想定範囲内である。
It is the present invention that preferred buffering or processing of audio signals can be performed in software, firmware, or hardware, preferably using a software processor (or digital signal processor (DSP)) that performs audio processing functions. Is within the expected range.
ここで図2を参照すると、本発明の好ましい実施形態による、符号励起線形予測(CELP)音声エンコーダ134のブロック図が示される。分析される音響入力信号は、マイクロホン202において音声コーダ134に向けられる。その後、入力信号は、フィルタ204に向けられる。フィルタ204は一般にバンドパスフィルタ特性を示すだろう。しかしながら、音声帯域幅が既に充分である場合、フィルタ204は直接のワイヤ接続を有してもよい。
With reference now to FIG. 2, a block diagram of a code-excited linear prediction (CELP)
その後、フィルタ204からのアナログ音声信号は、N個のパルス・サンプルから成るシーケンスに変換され、次に、各パルス・サンプルの振幅は、当該技術分野で周知のように、デジタル−アナログ(A/D)変換器208でデジタル・コードにより表される。サンプリング・レートはサンプル・クロック(SC)により決定される。サンプル・クロック(SC)はフレーム・クロック(FC)と共に生成される。
The analog audio signal from
その後、入力音声ベクトル s(n)として表わされ得るA/D 208のデジタル出力は、係数アナライザ210に向けられる。この入力音声ベクトル s(n)は、個別の複数のフレームで、すなわち時間の複数のブロックで、反復して得られる。その時間の長さは、当該技術分野で周知のように、フレーム・クロック(FC)により決定される。
Thereafter, the digital output of A /
音声の各ブロックに対して、係数アナライザ210により、1セットの線形予測符号化(LPC)パラメータが本発明の好ましい実施形態に従って生成される。生成された音声コーダパラメータは、LPCパラメータ、長期予測(LTP)パラメータ、励起利得係数(G2 )(最良の確率的コードブック励起コードワードIと共に)を含み得る。そのような音声符号化パラメータは、マルチプレクサ250に向けられ、デコーダで音声合成装置によって使用するためにチャンネル上を送られる。入力音声ベクトル s(n)は、減算器230にも向けられる。減算器230の機能は以下に説明する。
For each block of speech, the
図2の従来のCELPエンコーダで、コードブック検索コントローラ240は、入力音声サンプルを表すために使用される選択された励起ベクトル合計の最小重み付けエラーを生成するために、ブロック216内の適応コードブックとブロック214内の確率的コードブックの中から最良のインデックスおよび利得を選択する。確率的コードブック214と適応コードブック216からの出力は、それぞれの利得関数222および218に入力される。その後、利得を調整された出力は、加算器220で加算され、当該技術分野に周知のように、LPCフィルタ224に入力される。
In the conventional CELP encoder of FIG. 2, the
最初に、適応コードブックまたは長期予測器コンポーネントは、l(n)と計算される。これは遅延と利得係数「G1 」によって特徴付けられる。
個々の確率的コードブック励起ベクトル ui (n)の各々に対して、入力音声ベクトル s(n)との比較のために、再構成音声ベクトルs’i (n)が、生成される。利得ブロック22は励起利得係数「G2 」を計算し、加算ブロック220が適応コードブック・コンポーネントを加わる。そのような利得は、係数アナライザ210によって予め計算され、すべての励起ベクトルを分析するために使用されてもよいし、あるいは、コードブック検索コントローラ240により生成される最良の励起コード名Iの検索と共に最適化されてもよい。
Initially, the adaptive codebook or long-term predictor component is calculated as l (n). This is characterized by a delay and a gain factor “G 1 ”.
For each individual stochastic codebook excitation vector u i (n), a reconstructed speech vector s ′ i (n) is generated for comparison with the input speech vector s (n). Gain block 22 calculates the excitation gain factor “G 2 ” and summing
その後、計算された励起G1 l(n)+G2 ui (n)は、短期予測(STP)フィルタを構成する線形予測符号化フィルタ224によりフィルタされ、再構成音声ベクトルs’i (n)を生成する。i番目の励起コードベクトルに対する再構成音声信号は、入力音声ベクトル s(n)の同じブロックと、減算器230においてこれら2つの信号の減算
をすることにより、比較される。
The calculated excitation G 1 l (n) + G 2 u i (n) is then filtered by the linear
差分ベクトルei (n)は、音声のオリジナルのブロックと再構成ブロックとの間の差を表わす。差分ベクトルは、係数アナライザ210によって生成された重み付け・フィルタパラメータ(WTP)を利用する重み付けフィルタ232により、知覚的に重み付けされる。知覚的重み付けは、エラーが人間の耳にとってより重要な場合にその周波数を強調し、他の周波数を軽減ずる。
The difference vector e i (n) represents the difference between the original block of speech and the reconstructed block. The difference vector is perceptually weighted by a
コードブック検索コントローラ240内のエネルギー計算器機能は、重み付けされた差分ベクトルe’i (n)のエネルギーを計算する。コードブック検索コントローラは、現在の励起ベクトルui (n)のi番目のエラー信号を以前のエラー信号と比較して、最小のエラーを生成する励起ベクトルを決定する。その後、最小のエラーを有するi番目の励起ベクトルのコードが、最良の励起コードIとしてチャンネルに出力される。
The energy calculator function in the
計算された励起G1 l(n)+G2 uI (n)は、将来の使用に備えて216の長期予測器メモリ内に格納される。
代替例では、コードブック検索コントローラ240は、所定のエラー閾値を満たすいくつかの予め定義された基準を有するエラー信号を提供する、特定のコード名を決定してもよい。
The calculated excitation G 1 l (n) + G 2 u I (n) is stored in 216 long-term predictor memory for future use.
In the alternative, the
典型的な音声符号化ユニットの機能についてのより詳細な説明を、1994年にJohn Wileyによって公表されたA. M. Kondozの「低ビット速度の通信システムのためのデジタル音声符号化(Digital speech coding for low-bit rate communications systems )」に見出すことができる。 A more detailed description of the functionality of a typical speech coding unit can be found in AM Kondoz's “Digital speech coding for low-bit communication systems” published by John Wiley in 1994. bit rate communications systems)) ”.
本発明の好ましい実施形態では、エラー軽減技術を、マルチプレクサ250の後で音声フレームに適用する。本発明は、メイン伝送路281上をエンコーダから送られた以前に符号化された音声フレームにポインタを送るために使用される、好ましくは並列の、代替の仮想伝送路282を利用する。
In the preferred embodiment of the present invention, error mitigation techniques are applied to speech frames after
本発明に関連して、「仮想」という表現は、音声通信を支援する主要な伝送路に加えてエンコーダからデコーダに供給される伝送路として定義される。「仮想」伝送路は、同じビット・ストリーム内にあってもよいし、または時分割マルチプレクス方式における同じ時間フレームまたはマルチフレーム内にあってもよいし、例えばVoIPシステムのような異なる通信経路を介してもよい。理想的には異なるエラー統計(例えば別のFEC方式)を有する追加の仮想伝送路の利用により、参照/ポインタは、それが参照している音声フレームと同じエラーを受けないだろう。 In the context of the present invention, the expression “virtual” is defined as the transmission path supplied from the encoder to the decoder in addition to the main transmission path supporting voice communication. The “virtual” transmission paths may be in the same bit stream, or in the same time frame or multiframe in a time division multiplex scheme, and may be on different communication paths such as VoIP systems, for example. It may be through. Ideally, by utilizing an additional virtual transmission line with different error statistics (eg, another FEC scheme), the reference / pointer will not receive the same error as the voice frame it references.
既知の符号化装置に対する1つの顕著な違いは、多重化動作後に第2の最小化セクションがあることである。そのような回路は、バッファに保持された音声パラメータ・データを評価し、現在の音声フレームに最も近いものを選択する。 One notable difference to the known encoder is that there is a second minimized section after the multiplexing operation. Such a circuit evaluates the speech parameter data held in the buffer and selects the one closest to the current speech frame.
増強された実施形態では、並列の仮想伝送路が、音声コーダによりメイン伝送路で使用されるのとは異なる前方型エラー訂正(FEC)保護を使用する。このように、独立したFECパスを使用することにより、音声データパケットは異なるエラー統計を受ける。メイン伝送路と並列の仮想伝送路との間のこの差は、エラーに対する丈夫さ(robustness)を改善する手助けとなる。 In an enhanced embodiment, parallel virtual transmission lines use forward error correction (FEC) protection that is different from that used by the voice coder on the main transmission line. Thus, by using independent FEC paths, voice data packets are subject to different error statistics. This difference between the main transmission path and the parallel virtual transmission path helps to improve robustness against errors.
マルチプレクサ250は、データ・パケット/フレームを、以前の多重化フレームを保持しているバッファ260に出力する。デマルチプレクサ270は、バッファ260中に
保持された多重化信号のバッファ・フレームにアクセスする。これに関して、デマルチプレクサ270は、励起パラメータ274をLPCパラメータ272から分離する。励起パラメータを生成するために使用される長期予測器のメモリは、フレームの最初の長期予測器216と同一でなければならないことに留意する。
従って、多重化音声の各ブロックについて、現在のフレームと以前のフレームに対する1セットの線形予測符号化(LPC)パラメータが生成される。本発明の好ましい実施形態では、量子化LPCパラメータと励起パラメータの各セットが、バッファ・データのj番目の以前のフレームに対する再構成音声ベクトルs’j (n)を形成する。再構成音声ベクトルs’j (n)は、以前にバッファされた音声ベクトルs(n)と、減算器262でこれら2つの信号を減算することより比較される。
Thus, for each block of multiplexed speech, a set of linear predictive coding (LPC) parameters for the current and previous frames is generated. In the preferred embodiment of the present invention, each set of quantized LPC and excitation parameters forms a reconstructed speech vector s ′ j (n) for the j th previous frame of buffer data. The reconstructed speech vector s ′ j (n) is compared with the previously buffered speech vector s (n) by subtracting these two signals at the
差分ベクトルej (n)は、音声のオリジナルのブロックと、以前にバッファされたブロックとの間の差を表わす。差分ベクトルは、LPC重み付けフィルタ264により、知覚的に重み付けされる。既に示したように、知覚的重み付けは、エラーが人間の耳にとってより重要な場合にその周波数を強調し、他の周波数を軽減ずる。
The difference vector e j (n) represents the difference between the original block of speech and the previously buffered block. The difference vector is perceptually weighted by the
コードブック検索コントローラ266内のエネルギー計算器機能は、重み付けされた差分ベクトルe’j (n)のエネルギーを計算する。コードブック検索コントローラ266は、現在の励起ベクトルuj (n)のj番目のエラー信号を、以前のエラー信号と比較して、最小のエラーを生成する励起ベクトルを決定する。その後、コードブック検索コントローラ266は、最小の重み付けされたエラーを提供するために、「フレームデータに対する最良のインデックス」を選択する。エンコーダは、次に、デコーダに、それ自体とメイン伝送路中のそれぞれの音声フレームとの間に最小の重み付けエラーを提供するものとして決定された以前のフレームに対するポインタを伝送する。
The energy calculator function in the
実質的には、(理想的には現在の送信フレームから時間もフレーム番号も異なる)参照音声フレームは、エンコーダによって符号化されたフレームに(知覚的に重み付けされたエラーの意味で)最もよく似た音声の特定の動いているウィンドウ内のフレームを構成する。したがって、音声フレームが誤って受け取られた場合、参照音声フレームは、エラー軽減手順に使用される現在のフレームに最良のマッチ(ポインタ)を表わす。この表現すなわちポインタについては、図3でより詳細に説明する。 In effect, the reference speech frame (ideally with a different time and frame number from the current transmission frame) is most similar to the frame encoded by the encoder (in the sense of perceptually weighted errors). Compose frames within a particular moving window of audio. Thus, if a speech frame is received in error, the reference speech frame represents the best match (pointer) to the current frame used for error mitigation procedures. This representation or pointer will be described in more detail in FIG.
ここで図3を参照すると、本発明の好ましいプロセスを示すバッファ・タイミング図300が示されている。このタイミング図は、フレーム0 310を、音声デコーダで受け取られ、誤っていることが決定されたものとして示している。その後、デコーダは、フレーム0 310を置き換えるのに最も適切なフレームを決定すべく、代替の仮想伝送路にアクセスする。図3に示されるように、代替の仮想伝送路は、フレーム0 310の好ましい置換物としてのフレーム−4 320に対するポインタを含んでいる。フレーム0 310をフレーム−4 320と置き換えることによって、音声復号プロセスにおける音声品質には最小の影響しか及ばない。 Referring now to FIG. 3, a buffer timing diagram 300 illustrating the preferred process of the present invention is shown. The timing diagram shows frame 0 310 as received at the audio decoder and determined to be incorrect. The decoder then accesses an alternative virtual transmission path to determine the most appropriate frame to replace frame 0 310. As shown in FIG. 3, an alternative virtual transmission path includes a pointer to frame-4 320 as the preferred replacement for frame 0 310. Replacing frame 0 310 with frame-4 320 has minimal impact on speech quality in the speech decoding process.
本発明の発明者らは、直前の先行フレームがすべて(一般に)同じ話者によって話されたものである、すなわち音声フレームは同様のピッチとフォルマント位置を示すという事実を認識し、利用している。したがって、現在の音声フレームと同様な、以前の音声フレームを見出すことができる可能性は高い。 The inventors of the present invention recognize and utilize the fact that the immediately preceding preceding frame is all (generally) spoken by the same speaker, i.e., the speech frame exhibits a similar pitch and formant position. . Therefore, it is highly possible that a previous speech frame similar to the current speech frame can be found.
本発明の好ましい実施形態によれば、メモリ内の各フレームに対するパラメータのセットを与えると、バッファ・フレームの各々に対するセグメンタル信号対雑音(SEGSNR)または平均重み付けSNRを評価することにより、最小の重み付け知覚エラーが見出
される。好ましくは、セグメントは音声コーデックサブフレームレベルで定義される。
In accordance with a preferred embodiment of the present invention, given a set of parameters for each frame in memory, the minimum weight is determined by evaluating the segmental signal to noise (SEGSNR) or average weighted SNR for each of the buffer frames. Perceptual errors are found. Preferably, the segment is defined at the voice codec subframe level.
この決定はエンコーダで行なわれる。小さなピッチエラーがある場合には、かなり異なるSEGSNR値が生じ得ることが想定される。これは、ソース音声とバッファ信号が素早く移動して位相から外れ得るからである。従って、本発明の増強された実施形態では、サンプルより小さい解像度(通常1/3または1/4サンプル)を使用してバッファ・フレームのピッチ期間とその周辺(例えば+/−5%)を検索し、最も高いSEGSNR値を採用することが提案されている。 This determination is made at the encoder. It is envisioned that if there is a small pitch error, significantly different SEGSNR values can occur. This is because the source audio and buffer signal can move quickly and out of phase. Thus, in an enhanced embodiment of the invention, a resolution smaller than the sample (usually 1/3 or 1/4 sample) is used to find the pitch period of the buffer frame and its surroundings (eg +/- 5%). However, it has been proposed to employ the highest SEGSNR value.
本発明のさらなる増強では、フレームの悪い受け取りを軽減するために使用されたフレームは、フレームがそれ自体誤って受け取られても、それ自体、図4で示されるように、誤って受け取られた現在のフレームの音声情報の最良なソースとなるだろう。従って、図4は、複数のエラーがどのように取り扱われるか示すタイミング図を示す。フレーム0 410からのデータは誤っていることがわかっている。提案されたエラー軽減プロセスは、適切な置換物としてデータフレーム−4 420を示す代替の仮想伝送路を使用する。しかしながら、データフレーム−4 420は誤っていると判定される。その場合には、ポインタは、破損フレーム−4 420と最も類似するフレームであるフレームとして、フレーム−6 430からのデータを示す。したがって、フレーム−6 450はフレーム−4 420と置き換わるために使用され、フレーム−1 410と置き換わるのに適している。このように、複数のフレームエラーを、メモリーから外れる参照の問題点を克服するために取り扱うことができる。 In a further enhancement of the present invention, the frame used to mitigate bad reception of the frame itself is now erroneously received, as shown in FIG. 4, even if the frame itself is received incorrectly. Would be the best source of audio information for frames. Accordingly, FIG. 4 shows a timing diagram showing how multiple errors are handled. The data from frame 0 410 is known to be incorrect. The proposed error mitigation process uses an alternative virtual transmission line that shows data frame-4 420 as a suitable replacement. However, data frame-4 420 is determined to be incorrect. In that case, the pointer indicates data from frame-6 430 as the frame that is most similar to corrupted frame-4 420. Thus, frame-6 450 is used to replace frame-4 420 and is suitable to replace frame-1 410. In this way, multiple frame errors can be handled to overcome the problem of referencing out of memory.
これにより、参照(ポインタ)は、いわば効果的に、最終的には記憶ウィンドウから外れ得る。しかしながら、複数の参照の必要性をなくすことによりウィンドウ内の誤った値が更新されるならば、これは問題点である必要がない。 As a result, the reference (pointer) can effectively fall out of the storage window in the end. However, if the wrong value in the window is updated by eliminating the need for multiple references, this need not be a problem.
代わりに、置換フレームがバッファ内に格納されると、フレーム−4 420が現在のフレームである場合、それはバッファ内のフレーム−6 430(次にフレーム−2)と置換されただろう。その結果、バッファは常に使用可能なデータのみを含む。 Instead, when a replacement frame is stored in the buffer, if frame-4 420 is the current frame, it would have been replaced with frame-6430 (and then frame-2) in the buffer. As a result, the buffer always contains only usable data.
要約すると、参照またはポインタは、主要なビット・ストリームに対する代替ビット・ストリームでデコーダに送信される。参照またはポインタは、現在送信されているフレームと最も良く一致する、以前に送信されたフレームを示す。参照またはポインタは、並列のビット・ストリームで好ましくは送信される。フレームが音声デコーダで誤って受け取られた場合、この参照またはポインタはフレーム置換エラー軽減プロセスで使用される。従って、フレーム軽減は、既知の直前または直後のフレーム置換機構を、多くのフレームから任意のフレームへと延長することにより増強される。これに関して、プロセスで使用されるフレームの数は、バッファリング/記憶機構および/または最小の重み付けエラーフレームを決定するのに必要な処理パワーによってのみ制限される。 In summary, the reference or pointer is sent to the decoder in an alternative bit stream for the main bit stream. The reference or pointer indicates the previously transmitted frame that best matches the currently transmitted frame. References or pointers are preferably transmitted in parallel bit streams. This reference or pointer is used in the frame replacement error mitigation process if the frame is received in error by the audio decoder. Thus, frame mitigation is enhanced by extending the known immediately or immediately following frame replacement mechanism from many frames to any frame. In this regard, the number of frames used in the process is limited only by the buffering / storage mechanism and / or processing power required to determine the minimum weighted error frame.
示されるように、音声コーダの音声パラメータのバッファリング/記憶プロセスは、多くのフレームに関して行なわれる。例えば、12kb/秒より小さいGSM強化フル速度
(EFR)コーデックの場合、3秒の音声に対する記憶量はわずか5キロバイトである。したがって、最も困難なタスクは、150の可能なフレームから最も近いフレームマッチを識別することである。従って、本発明の1実施形態では、上述の最小重み付けエラー選択技術は、音声コーダフレームのすべてのパラメータではなく、パラメータの部分集合または合成音声に由来するパラメータに適用され得る。言い換えれば、メモリへの保存および比較処理のために、正確なコーダ・パラメータではなく、LPCフィルタパラメータ(LSF)および合成音声フレームのエネルギー(エンコーダとデコーダの両方で計算された合成音声から由来する音声パラメータ)が、参照(またはポイント)されるであろう。
As shown, the speech coder speech parameter buffering / storing process is performed for many frames. For example, for a GSM Enhanced Full Rate (EFR) codec that is less than 12 kb / s, the amount of storage for 3 seconds of speech is only 5 kilobytes. Thus, the most difficult task is to identify the closest frame match from the 150 possible frames. Thus, in one embodiment of the present invention, the minimum weight error selection technique described above may be applied to parameters derived from a subset of parameters or synthesized speech, rather than all parameters of a speech coder frame. In other words, for storage in memory and for comparison processing, not the exact coder parameters, but the LPC filter parameters (LSF) and the energy of the synthesized speech frame (speech derived from synthesized speech calculated by both the encoder and decoder) Parameter) will be referenced (or pointed).
この点に関して、音声フレームは多くのパラメータを含んでいるため、それらの任意の数に、提案された技術を原則として適用することができる。そのようなパラメータの例としては、CELPコーダでは、以下のものが挙げられる:
(i)LPCパラメータを表わすライン・スペクトル・ペア(LSP);
(ii)サブフレーム−1に対する長期予測器(LTP)の遅延;
(iii)サブフレーム−1に対するLTP利得;
(iv)サブフレーム−1に対するコードブック・インデックス;
(v)サブフレーム−1に対するコードブック利得;
(vi)サブフレーム−2に対する長期予測器の遅延;
(vii)サブフレーム−2に対するLTP利得;
(viii)サブフレーム−2に対するコードブック・インデックス;
(ix)サブフレーム−2に対するコードブック利得;
(x)サブフレーム−3に対する長期予測器遅延;
(xi)サブフレーム−3に対するLTP利得;
(xii)サブフレーム−3に対するコードブック・インデックス;
(xiii)サブフレーム−3に対するコードブック利得;
(xiv)サブフレーム−4に対する長期予測器遅延;
(xv)サブフレーム−4に対するLTP利得;
(xvi)サブフレーム−4に対するコードブック・インデックス;
または(xvii)サブフレーム−4に対するコードブック利得。
In this regard, speech frames contain many parameters, so the proposed technique can be applied in principle to any number of them. Examples of such parameters include the following for CELP coders:
(I) a line spectrum pair (LSP) representing LPC parameters;
(Ii) Long-term predictor (LTP) delay for subframe-1;
(Iii) LTP gain for subframe-1;
(Iv) Codebook index for subframe-1;
(V) codebook gain for subframe-1;
(Vi) long-term predictor delay for subframe-2;
(Vii) LTP gain for subframe-2;
(Viii) codebook index for subframe-2;
(Ix) codebook gain for subframe-2;
(X) long-term predictor delay for subframe-3;
(Xi) LTP gain for subframe-3;
(Xii) codebook index for subframe-3;
(Xiii) codebook gain for subframe-3;
(Xiv) long-term predictor delay for subframe-4;
(Xv) LTP gain for subframe-4;
(Xvi) codebook index for subframe-4;
Or (xvii) codebook gain for subframe-4.
パラメータ全体のセットではなく、現在のフレームのLSPとマッチする以前のフレームのLSPのセットを参照するポインタを送信できることは本発明の想定内である。代わりに、上記の多くのパラメータの各々に対するポインタを有することも可能であろう。 It is within the assumption of the invention that a pointer can be sent that refers to the set of LSPs of the previous frame that matches the LSP of the current frame, rather than the entire set of parameters. Alternatively, it would be possible to have a pointer to each of the many parameters described above.
無線通信システムでは、並列の仮想伝送路は、好ましくは、データペイロードの非保護ビット内でブロック符号化された参照ワード(128のフレームバッファを支援するには、約2.5秒に等しい7ビットで十分であろう)を送信することから成る。参照ワードは、2ビットのエラー訂正まで提供する、15ビットのBCHブロックコード(75ビット/秒の等価速度で)により符号化し得る。 In a wireless communication system, parallel virtual transmission lines are preferably block-coded reference words (7 bits equal to about 2.5 seconds to support 128 frame buffers) within the unprotected bits of the data payload. Will be sufficient). The reference word may be encoded with a 15-bit BCH block code (at an equivalent rate of 75 bits / second), providing up to 2 bits of error correction.
代わりに、代替の仮想伝送路は、エラー訂正機能とエラー検出機能の組み合わせを提供してもよいことが意図される。参照の受け取りが欠如すると悪い軽減につながる可能性があるため、エラー検出は有用であろう。参照ワードが悪く受信された場合、スキームは以前のフレーム反復をデフォルトにすることが可能である。75ビット/秒のチャンネル速度は、GSMのフル速度チャネルの正味のビット速度を、22.8キロビット/秒から22.725キロビット/秒にわずかに減小させるにすぎない。これは、感度の無視し得る程度の損失である。 Instead, it is contemplated that an alternative virtual transmission line may provide a combination of error correction and error detection functions. Error detection may be useful because lack of receipt of references can lead to bad mitigation. If the reference word is received badly, the scheme can default to the previous frame repetition. The channel speed of 75 bits / second only slightly reduces the net bit rate of the GSM full speed channel from 22.8 kbps to 22.725 kbps. This is a negligible loss of sensitivity.
インターネットプロトコル(VoIP)通信リンクを介したボイスオーバー等の別の実施形態では、代替仮想伝送路は、多数のパケット・ストリームを送ることにより達成され
得る。これについては、パケットを落とす確率が増加するため、トラフィック全体が実質的に増大しないことが望ましい。
In another embodiment, such as voice over over an Internet Protocol (VoIP) communication link, an alternative virtual transmission path may be achieved by sending multiple packet streams. In this regard, it is desirable that the overall traffic does not increase substantially because the probability of dropping packets increases.
好ましい機構は、遷移が起こり、音声が非定常である場合にのみ、上述したように以前のフレームに参照を送ることだろう。音声が定常の場合、および、従来の技術が比較的うまくいく場合、参照は送られない。このように、パケットネットワークは過度に過負荷をかけられることはなく、大半の性能利得が達成される。音声信号がどれくらい定常であるかの程度は、変数として生成することができ、この変数は、失われたパケットの場合には再生品質を改善するために調節することができるる。 The preferred mechanism would be to send a reference to the previous frame as described above only when a transition occurs and the speech is non-stationary. If the speech is stationary and if the prior art is relatively successful, no reference is sent. In this way, the packet network is not overloaded and most performance gains are achieved. The degree to which the audio signal is steady can be generated as a variable, which can be adjusted to improve the playback quality in the case of lost packets.
デコーダの機能は、実質的にエンコーダの逆であるため(マルチプレクサに続く追加の回路がなければ)、ここでは詳細に説明しない。通常の音声復号化ユニットの機能の説明も、1994年にJo hn Wileyによって公表されたA. M. Kondozの「低ビット速度の通
信システムのためのデジタル音声符号化(Digital speech coding for low-bit rate communications systems )」に見出すことができる。デコーダでは、悪いフレームを決定するまで、デコーダは標準的な復号プロセスを辿る。悪いフレームが検知されると、デコーダは、代替仮想伝送路を評価して、参照/ポインタのそれぞれによって示された代替フレームを決定する。その後、参照/ポインタ伝送によって示されるように、デコーダは「同様の」フレームを検索する。その後、以前に示されたフレームが、音声を合成するために、受信フレームと置き換わるべく使用される。
Since the decoder function is substantially the inverse of the encoder (without additional circuitry following the multiplexer), it will not be described in detail here. A description of the functionality of a normal speech decoding unit is also provided by AM Kondoz's “Digital speech coding for low-bit rate communications systems” published by Jo Win Wiley in 1994. ) ”. At the decoder, the decoder follows the standard decoding process until a bad frame is determined. When a bad frame is detected, the decoder evaluates the alternative virtual transmission path to determine the alternative frame indicated by each of the references / pointers. The decoder then searches for “similar” frames, as indicated by the reference / pointer transmission. The previously indicated frame is then used to replace the received frame to synthesize speech.
有利には、本明細書に説明した発明概念は、既に構成されたFEC方式からビットを盗むことにより既存のコーデックに適合し得る。
いかなる音声処理回路も本明細書に説明した発明概念から利益を得るであろうことは、本発明の想定内である。
Advantageously, the inventive concepts described herein can be adapted to existing codecs by stealing bits from an already configured FEC scheme.
It is within the contemplation of the present invention that any audio processing circuit will benefit from the inventive concepts described herein.
悪いフレームのエラー軽減機構は、上述したように、少なくとも次の利点を有することが理解されるだろう。
(i)より正確な置換フレーム機構が提供され、そのため、回復された音声フレームで望ましくないアーチファクトが聞こえる危険性を減らす。
(ii)代替仮想伝送路は、例えば既に構成されたFEC方式からビットを盗むことにより、既存のコーデックに適合され得る。
(iii)遷移が起こり、音声が非定常である場合にのみ、以前のフレームへの参照が送られると、既存の悪いフレームのエラー軽減技術が使用され、そのため、本発明に必要な追加のデータを最小限にすることができる。
(iv)所定のフレームで受け取られたデータをこのスキームで参照されるフレームと相互参照することにより、誤って受信されたパラメータが検知され得る。
It will be appreciated that the bad frame error mitigation mechanism has at least the following advantages, as described above.
(I) A more accurate replacement frame mechanism is provided, thus reducing the risk of undesired artifacts being heard in recovered speech frames.
(Ii) The alternative virtual transmission path can be adapted to an existing codec, for example by stealing bits from an already configured FEC scheme.
(Iii) The existing bad frame error mitigation techniques are used if a reference to the previous frame is sent only if the transition occurs and the speech is non-stationary, so the additional data required for the present invention Can be minimized.
(Iv) Misreceived parameters can be detected by cross-referencing data received in a given frame with frames referenced in this scheme.
好ましい実施形態は、本発明をCELPコーダに適用することについて論じているが、発明者らには、伝送誤差が生じ得る場合に本明細書に含まれる発明概念から利益を得ることができる他の任意の音声処理ユニットも想定される。本明細書で説明した発明概念は、特に、ユニバーサル・モバイル通信システム(UMTS)ユニット、グローバル移動体通信システム(GSM)、地上基盤無線(TETRA)通信ユニット、情報とシグナリングのデジタル交換規格(Digital Interchange of Information and Signalling standard, DIIS)、ボイスオーバ・インターネット・プロトコル(VoIP)ユニットなどの無線通信ユニット用の音声処理ユニットへの用途が特に考えられる。 Although the preferred embodiment discusses applying the present invention to a CELP coder, the inventors have other benefits that can benefit from the inventive concepts contained herein where transmission errors can occur. Any audio processing unit is also envisaged. The inventive concepts described herein include, among other things, Universal Mobile Telecommunications System (UMTS) units, Global Mobile Telecommunications System (GSM), Terrestrial Based Radio (TETRA) communication units, Digital Interchange for Information and Signaling (Digital Interchange Applications for speech processing units for wireless communication units such as the Information of Signaling Standard (DIIS) and Voice over Internet Protocol (VoIP) units are particularly conceivable.
(本発明の装置:)
音声通信ユニットは、入力音声信号を表わすことが可能な音声エンコーダを備えている。音声エンコーダは、音声デコーダに多くの音声フレームを送信するための伝送路を有す
る。音声エンコーダは、伝送路上を送信される多くの音声フレームに対する1または複数の参照を送信するための仮想伝送路をさらに有する。1または複数の参照は、フレームが誤って受け取られた場合に置換フレームとして使用される、伝送路上を送信される多くの音声フレーム内の代替の音声フレームに関する。
音声通信ユニット、例えば音声エンコーダを有する上記の音声通信ユニットは、伝送路上の多くの音声フレームと、仮想伝送路上の1または複数の置換音声フレーム参照とを受け取るように適合された、音声デコーダを備えている。1または複数の参照は、フレームが誤って受け取られた場合に置換フレームとして使用される、伝送路上で受け取られる多くの音声フレーム内の代替の音声フレームに関する。
(Device of the present invention :)
The voice communication unit includes a voice encoder capable of representing an input voice signal. The speech encoder has a transmission path for transmitting many speech frames to the speech decoder. The speech encoder further comprises a virtual transmission path for transmitting one or more references for many speech frames transmitted over the transmission path. One or more references relate to alternative voice frames within the many voice frames transmitted over the transmission path that are used as replacement frames if the frame is received in error.
A voice communication unit, for example a voice communication unit as described above with a voice encoder, comprises a voice decoder adapted to receive a number of voice frames on the transmission line and one or more replacement voice frame references on the virtual transmission line. ing. The one or more references relate to alternative voice frames within the many voice frames received on the transmission path that are used as replacement frames if the frame is received in error.
(本発明の方法:)
音声通信ユニットにおいて悪いフレームのエラー軽減を実行する方法は、音声通信ユニット内の音声エンコーダにより、多くの音声フレームを伝送路上を通って音声デコーダへ送信する工程から成る。音声エンコーダは、伝送路を送信された多くの音声フレームに対する1または複数の参照を、仮想伝送路上を通って送信する。1または複数の参照は、フレームが誤って受け取られた場合に置換フレームとして使用される、伝送路上を送信される多くの音声フレーム内の代替の音声フレームに関する。
(Method of the present invention :)
A method for performing bad frame error mitigation in a voice communication unit consists of sending a number of voice frames over a transmission path to a voice decoder by a voice encoder in the voice communication unit. A speech encoder transmits one or more references for many speech frames transmitted over a transmission path over a virtual transmission path. One or more references relate to alternative voice frames within the many voice frames transmitted over the transmission path that are used as replacement frames if the frame is received in error.
このように、音声フレームが誤って受け取られた場合、多くの音声フレームから改善された置換フレームが選択され得る。
かくして、少なくとも既知のエラー軽減技術に関する上述の欠点の少なくとも一部を実質的に軽減する、悪いフレームのエラー軽減技術、ならびに関連の音声通信ユニットおよび回路について説明した。
Thus, if a speech frame is received in error, an improved replacement frame can be selected from many speech frames.
Thus, a bad frame error mitigation technique and associated voice communication units and circuits have been described that substantially alleviate at least some of the above-mentioned drawbacks associated with at least known error mitigation techniques.
Claims (15)
前記多くの音声フレームを多重化するためのマルチプレクサ(250);
前記マルチプレクサ(250)と結合して作用し、多重化された音声データを記憶する、バッファ(260);および
前記バッファ(260)と結合して作用し、前記バッファ(260)内に現在の音声フレームを特徴づけると共に該現在の音声フレームと同様の特性を示す代替の音声フレームを選択するための、プロセッサ(130,270)であって、該代替音声フレームに対する参照は、仮想伝送路(282)においてデコーダに送信される、プロセッサ(130,270);
をさらに特徴とする、請求項1に記載の音声通信ユニット(100)。 The speech encoder (134)
A multiplexer (250) for multiplexing the number of speech frames;
A buffer (260) that operates in combination with the multiplexer (250) and stores multiplexed audio data; and a current audio in the buffer (260) that operates in combination with the buffer (260). A processor (130, 270) for characterizing a frame and selecting an alternative voice frame that exhibits characteristics similar to the current voice frame, the reference to the alternative voice frame being a virtual transmission path (282) Sent to the decoder at the processor (130, 270);
The voice communication unit (100) of claim 1, further characterized by:
音声通信ユニット(100)内の音声エンコーダ(134)により、多くの音声フレームを伝送路(281)上を通って音声デコーダへ送信する工程;
から成り、前記方法が、
伝送路(281)を送信される多くの音声フレームに対する1または複数の参照を、仮想伝送路(282)上で送信する工程であって、該1または複数の参照は、フレームが誤って受け取られた場合に置換フレームとして使用される、伝送路(281)上を送信される前記多くの音声フレーム内の代替の音声フレームに関するものである、工程;
から成ることを特徴とする方法。 A method for performing bad frame error mitigation in a voice communication unit (100) comprising:
Sending a number of audio frames over the transmission path (281) to the audio decoder by the audio encoder (134) in the audio communication unit (100);
The method comprising:
Transmitting one or more references for a number of voice frames transmitted over a transmission path (281) on a virtual transmission path (282), wherein the one or more references are received when the frame is erroneously received. A step of relating to an alternative voice frame within the number of voice frames transmitted over the transmission path (281), which is used as a replacement frame in the case of
A method characterized by comprising.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0217729A GB2391440B (en) | 2002-07-31 | 2002-07-31 | Speech communication unit and method for error mitigation of speech frames |
PCT/EP2003/005076 WO2004015690A1 (en) | 2002-07-31 | 2003-05-12 | Speech communication unit and method for error mitigation of speech frames |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005534984A true JP2005534984A (en) | 2005-11-17 |
JP2005534984A5 JP2005534984A5 (en) | 2007-10-11 |
Family
ID=9941443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004526664A Pending JP2005534984A (en) | 2002-07-31 | 2003-05-12 | Voice communication unit and method for reducing errors in voice frames |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP1527440A1 (en) |
JP (1) | JP2005534984A (en) |
KR (1) | KR20050027272A (en) |
CN (1) | CN100349395C (en) |
AU (1) | AU2003240644A1 (en) |
GB (1) | GB2391440B (en) |
WO (1) | WO2004015690A1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007018484B4 (en) | 2007-03-20 | 2009-06-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for transmitting a sequence of data packets and decoder and apparatus for decoding a sequence of data packets |
JP5314771B2 (en) * | 2010-01-08 | 2013-10-16 | 日本電信電話株式会社 | Encoding method, decoding method, encoding device, decoding device, program, and recording medium |
US20150326884A1 (en) * | 2014-05-12 | 2015-11-12 | Silicon Image, Inc. | Error Detection and Mitigation in Video Channels |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI98164C (en) * | 1994-01-24 | 1997-04-25 | Nokia Mobile Phones Ltd | Processing of speech coder parameters in a telecommunication system receiver |
FI950917A (en) * | 1995-02-28 | 1996-08-29 | Nokia Telecommunications Oy | Processing of speech coding parameters in a telecommunication system |
US5917835A (en) * | 1996-04-12 | 1999-06-29 | Progressive Networks, Inc. | Error mitigation and correction in the delivery of on demand audio |
US6636829B1 (en) * | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
-
2002
- 2002-07-31 GB GB0217729A patent/GB2391440B/en not_active Expired - Lifetime
-
2003
- 2003-05-12 CN CNB038182726A patent/CN100349395C/en not_active Expired - Lifetime
- 2003-05-12 KR KR1020057001824A patent/KR20050027272A/en not_active Application Discontinuation
- 2003-05-12 WO PCT/EP2003/005076 patent/WO2004015690A1/en active Application Filing
- 2003-05-12 EP EP03730037A patent/EP1527440A1/en not_active Withdrawn
- 2003-05-12 JP JP2004526664A patent/JP2005534984A/en active Pending
- 2003-05-12 AU AU2003240644A patent/AU2003240644A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
KR20050027272A (en) | 2005-03-18 |
WO2004015690A1 (en) | 2004-02-19 |
CN100349395C (en) | 2007-11-14 |
GB2391440A (en) | 2004-02-04 |
GB0217729D0 (en) | 2002-09-11 |
CN1672193A (en) | 2005-09-21 |
EP1527440A1 (en) | 2005-05-04 |
AU2003240644A1 (en) | 2004-02-25 |
GB2391440B (en) | 2005-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9053702B2 (en) | Systems, methods, apparatus, and computer-readable media for bit allocation for redundant transmission | |
KR101960200B1 (en) | System and method of redundancy based packet transmission error recovery | |
JP4213243B2 (en) | Speech encoding method and apparatus for implementing the method | |
JP4313570B2 (en) | A system for error concealment of speech frames in speech decoding. | |
JP3439869B2 (en) | Audio signal synthesis method | |
US7852792B2 (en) | Packet based echo cancellation and suppression | |
JP4842472B2 (en) | Method and apparatus for providing feedback from a decoder to an encoder to improve the performance of a predictive speech coder under frame erasure conditions | |
JPH07311598A (en) | Generation method of linear prediction coefficient signal | |
JPH07311596A (en) | Generation method of linear prediction coefficient signal | |
JPWO2006025313A1 (en) | Speech coding apparatus, speech decoding apparatus, communication apparatus, and speech coding method | |
KR20020093943A (en) | Method and apparatus for predictively quantizing voiced speech | |
JP2004501391A (en) | Frame Erasure Compensation Method for Variable Rate Speech Encoder | |
KR100351484B1 (en) | Speech coding apparatus and speech decoding apparatus | |
KR102110853B1 (en) | Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program | |
JPH11126098A (en) | Voice synthesizing method and device therefor, band width expanding method and device therefor | |
US20050143984A1 (en) | Multirate speech codecs | |
JP2010520505A (en) | Non-causal post filter | |
JPH07325594A (en) | Operating method of parameter-signal adaptor used in decoder | |
EP1020848A2 (en) | Method for transmitting auxiliary information in a vocoder stream | |
US7502735B2 (en) | Speech signal transmission apparatus and method that multiplex and packetize coded information | |
JP3722366B2 (en) | Packet configuration method and apparatus, packet configuration program, packet decomposition method and apparatus, and packet decomposition program | |
JP4414705B2 (en) | Excitation signal encoding apparatus and excitation signal encoding method | |
JP2005534984A (en) | Voice communication unit and method for reducing errors in voice frames | |
JP4597360B2 (en) | Speech decoding apparatus and speech decoding method | |
JPWO2003021573A1 (en) | Codec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070703 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20070810 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080930 |