JP2010525376A - Dtxハングオーバ期間の長さを調整する方法及び音声符号化装置 - Google Patents

Dtxハングオーバ期間の長さを調整する方法及び音声符号化装置 Download PDF

Info

Publication number
JP2010525376A
JP2010525376A JP2010500864A JP2010500864A JP2010525376A JP 2010525376 A JP2010525376 A JP 2010525376A JP 2010500864 A JP2010500864 A JP 2010500864A JP 2010500864 A JP2010500864 A JP 2010500864A JP 2010525376 A JP2010525376 A JP 2010525376A
Authority
JP
Japan
Prior art keywords
dtx
frame
hangover period
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010500864A
Other languages
English (en)
Inventor
ヨナス スベドベリ,
マルティン シェルステット,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2010525376A publication Critical patent/JP2010525376A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本発明は音声符号化装置に関し、音声符号化装置は、音声フレームを受信し、音声判別(VAD_flag)を発生する音声アクティビティ検出器(VAD)、上記音声フレームを受信し、音声判別(VAD_flag)及びDTXハングオーバ期間に基づく符号化器決定(SP)に基づいて、音声フレームを識別する信号を発生する音声/SID符号化器と、音声フレーム、SIDフレーム及びNo_dataフレームを含む信号(TxType)を送信するSID同期器を有する。音声符号化装置はDTXハングオーバ期間内の音声フレームのエネルギ値を分析する信号分析器と、信号分析器が実行した分析に応じてDTXハングオーバ期間長を調整するDTXハンドラとを更に有する。本発明はまた音声符号化装置におけるDTXハングオーバ期間の特性を推定する方法にも関する。

Description

本発明は、通信システムにおけるDTXハングオーバ期間を適応化する方法に関する。
コンフォートノイズ(comfort noise)を用いる音声コーデックシステムにおいては、コンフォートノイズ特性の推定のための期間がある。この期間は、符号化器で使用されるか(フォワード適応)、復号化器で使用されるか(バックワード適応)、あるいは符号化器/復号化器双方で使用されて(フォワード・バックワード適応)、コンフォートノイズの合成に使用するパラメータを決定することができる。すなわち、符号化器がその期間を使用してコンフォートノイズ特性を推定し、そのコンフォートノイズ特性を量子化し、復号化器に送信するか、復号化器がその期間を使用して、合成に使用される受信機のコンフォートノイズを推定するか、あるいは、その両方の方法を同時に使用することができる。
非特許文献1に記載されたGSM-EFR(Enhanced Full Rate)やAMR-NB(Narrow band)、並びに、非特許文献2に記載されたAMR-WB(Wide band)などの音声コーデックシステムでは、推定のためのこの期間を、DTXハングオーバ期間と呼ぶ。この期間が安定かつ定常的なノイズを含む場合には、得られるコンフォートノイズは高い主観的品質を持つことになり、この期間がノイズ以外の他の信号を含んでいると、コンフォートノイズが不快音を持つことになるリスクがある。
さらに、EFRおよびAMRに対するなどの幾つかの音声コーデックシステムでは、DTXハングオーバ期間の追加は「dtxハンドラ」フレームタイプの状態マシン(state machine)により制御する。この状態マシンによって、符号化器および復号化器にDTXハングオーバ期間における情報の同期使用の実行が可能になる。この同期はEFRにとって特に重要であるが、それはEFRが実際にDTXハングオーバ期間を使用して後続ノイズ期間の参照パラメータを量子化するからである。この符号化器/復号化器同期は3GPP/TS 26.093(非特許文献1)およびカパネン(Kapanen)による「間欠送信を用いたTDMA無線通信システムにおけるハングオーバ期間を検出する方法及び装置("Method and apparatus for detecting hangover period in a TDMA wireless communication system using discontinuous transmission")」と題する米国特許第5835889号(特許文献1)において説明されている。図1は従来技術によるVAD/DTXコーデックシステムの符号化器側主機能のブロック構成を示し、図2は非特許文献1の通常のDTXハングオーバ手順を示す。
注記;「ノイズ期間(noise period)」は「無音期間(silence period)」と呼ばれることが多いが、本明細書では用語「ノイズ期間」を使用することにする。
既存の(配備された)EFRおよびAMR復号化器はスペクトラムパラメータおよびエネルギパラメータの平均化演算を単に実行する。DTXハングオーバ期間に顕著なエネルギ異常値またはスペクトル異常値があれば、合成されるノイズに不快なノイズエネルギ波またはノイズバーストが生じるであろう。DTXハングオーバ時間から不適当なパラメータが「忘れ去られる」まで(AMRの場合これは典型的に11フレーム即ち220msである)、このノイズ波/バーストはコンフォートノイズに負の影響を与えうる。
これに対する1つの解決策は、復号化器によるコンフォートノイズパラメータの分析に異常値の抑圧を加えることであろう。TIA/EIS/IS-641およびイエルビネン(Jaervinen)による「間欠送信中のコンフォートノイズの生成方法("Methods for generating comfort noise during discontinuous transmission")」と題する欧州特許第0843301号(特許文献2)に記載されるように、これは例えばIS-641 DTXシステムにおいて行われている。
またヨハンソン(Johansson)による米国特許第5978761号(特許文献4)においても、コンフォートノイズ品質を改善するために異常値を除去するための、受信機による方法が記載されている。ヨハンソンはフレームタイプの遷移分析に基づきコンフォートノイズの発生に幾つかのSIDフレームを含まないようにすることができる方法を記載している。しかし、この解決策は全受信機/復号化器の更新を必要とする。
別の解決策は、(既存のVAD:AMR-NB VAD 1/VAD 2、AMR-WB-VADのような)極めて(非常に)保守的なVADを使用することである。保守的なVADを使用すると、良好なノイズプロトタイプを得る見込みが増すが、チャネル伝送動作が増えることになろう。即ち、不必要に多くの音声フレームがSP=1と区分され、全音声フレームが送信されることになってしまう。
AMR-NB/WBおよびEVRC(非特許文献6)並びにG.729 Annex B(非特許文献5)のような幾つかの音声コーデックはVADブロック内に(ノイズレベルに依存、または前フレームタイプに依存する)非固定ノイズハングオーバ機能を有し、後端の音声を正しく符号化することを保証する。しかし、これらのコーデックは、コンフォートノイズモデルがSID/DTXノイズの符号化に使用するのに十分良好であることを保証する機能を提供しない。G.729Bはノイズ信号の分析に基づき新しいSID送信を判断する可変速度SID送信方法を有するが、DTXハングオーバ期間を延長する解決策を有してはいない。
米国特許第5835889号(カパネン(Kapanen),「間欠送信を用いたTDMA無線通信システムにおけるハングオーバ期間を検出する方法及び装置("Method and apparatus for detecting hangover periods in a TDMA wireless communication system using discontinuous transmission")」 欧州特許第0843301号(イエルビネン(Jaervinen),「間欠送信中のコンフォートノイズの生成方法("Methods for generating comfort noise during discontinuous transmission")」 米国特許第5410632号(ホング(Hong),「音声アクティビティ検出器における可変ハングオーバ時間("Variable Hangover time in a voice activity detector")」 米国特許第5978761号(ヨハンソン(Johansson),「復号化装置でのコンフォートノイズ("Comfort Noise in Decoder")」(PDC)
AMR-NB DTX TS 26.093 AMR-WB DTX TS 26.193 AMR-WB CN 26.192 AMR-NB CN 26.092 ITU-T仕様書G.729, Annex B(「VAD/DTX」)、適応SIDスケジューラを含む。ITU-T勧告G.727 Annex B(勧告V.70に準拠する端末のための最適化G.729の無音圧縮方式) EVRC-A(3GPP2/C.S0014-A_v1.0,20040426)、及び、EVRC-B(3GPP2/C.S0014-B_v1.0_060501)(EVRC-A VADは適応ノイズハングオーバを含み、EVRC-Bは固定DTXハングオーバを含む。)
本発明は、DTXハングオーバ期間中に、送信側符号化器が平均化演算を使用するか、受信側復号化器が平均化演算を使用するかの少なくともいずれかを行うように構成し、DTXハングオーバ期間内またはDTXハングオーバ期間中の少なくともいずれかにおいてノイズ特性を分析し、ノイズ特性が復号化器による合成のためのコンフォートノイズ生成モデルとして使用するのに十分安定であるかを判断する。
また、ノイズ特性が不適当と判断されれば、DTXハングオーバ期間が延長される。これはVADが非常に積極的(aggressive)で、DTXハングオーバ期間内で低エネルギの音声が推移してしまう場合や、VADが音声開始フレームの検出に失敗してしまう場合に生じうる。さらに、容量に悪影響を与えないように、DTXハングオーバの時間延長を最大延長フレーム数に制限しうる。
ノイズ特性が適当と判断され、符号化器および復号化器のDTX状態が同期している場合には、DTXハングオーバ期間を短縮することができる(これは使用するVADが非常に慎重(cautious)で、必要以上にVADノイズハングオーバフレームを付加してしまう場合に生じうる)。
さらに、アルゴリズムは、実際の復号化器のDTX-CNG(間欠送信/コンフォートノイズ発生器)の状態を考慮する。すなわち、アルゴリズムは、復号化器のDTX-バッファ分析アルゴリズムと同期することを確実にする。このように復号化器がDTX-HOフレームを使用しようとしない場合に余分のDTX-HOフレームを追加しないか、または復号化器が幾つかのDTX-HOフレームの追加を必要とする場合にDTX-HOフレームを短縮する。
従来技術によるVAD/DTXコーデックシステムの符号化器側主機能のブロック構成を示す図。 3GPP/TS 26.093v610の従来技術によるハングオーバ手順を示す図。 更新された符号化器VAD/DTX/コーデックシステムにおける延長および短縮のありうるフレームタイプの効果を示す図。 本発明によるDTX-HO延長過程のエネルギ値およびDTX-ハンドラの状態を示す図。 本発明によるDTX-HO短縮過程のエネルギ値およびDTX-ハンドラの状態を示す図。 積極的VADと共に使用するHO延長の効果を示す図。
図1は、従来技術によるVAD/DTXコーデックシステムの符号化器側主機能のブロック構成を示す図である。音声は、VADおよび音声/SID符号化器に供給される。VADは判定を行う。ここで、「1」は音声を含むフレームであり、「0」は音声を含まないフレームである。VAD判定VAD{0, 1}は、DTXハンドラに供給される。DTXハンドラは、DTXハングオーバ期間をVAD判定に加え、判定SP{0, 1}が音声/SID符号化器に転送される。音声フレームSP=1と示されるフレームについて、音声が符号化される。SIDフレームも発生され同期され、音声フレーム、SIDフレームおよびNo_Data(データなし)フレームを含むフレーム送信タイプ(TxType)が送信される。
図2は、3GPP/TS 26.093v610「図6:通常のハングオーバ手順(Nelapsed>23)」から採用されるTX-DTX SCRハンドラを示している。VADフラグが「音声終了」を示した後に、7つの余分のフレームが音声フレームとして追加される。
図2には、より長い音声バーストの後の図1のAMR-NB TX-DTXハンドラの通常動作が示されている。本発明の実施形態は、品質を維持し、またはシステム効率を増大させることができるように、符号化器で利用可能な信号の分析に基づき「ハングオーバ」=(DTX-HO)期間の長さを修正する方法を示す。
図3は、本発明によるVAD/DTX/コーデックシステムの実施形態の符号化器側主機能のブロック構成を示す。システムは、図1に関して記述した従来技術のシステムと同じ構成要素を含むが、1つの例外がある。通常のDTXハンドラが、信号分析器および更新されたDTXハンドラによって置き換えられている。DTX-HO期間の調整は、追加された信号分析器によって提供される新規情報に基づいて、更新されたDTXハンドラによって実行される。
DTXハングオーバの延長
図4は、エネルギ値および図3の符号化器で利用可能なDTXハンドラの状態を示す。この第1の実施形態では、DTX-HO期間の延長は、3つの決定変数を用いて実行され、これら3つの測定結果の重み付き決定和を使用して、DTX-HO期間の延長の必要を判断する。
決定変数
使用する決定変数は音声フレームの分析に基づく。図4において、各符号化フレームに容易に利用可能なフレームエネルギ値が示される。(例えば、b[i]は現フレームの対数エネルギ値である。)
第1の決定変数「dec_energy_flag」は、現在の8フレームノイズ量子化期間(DTX-HO期間を含む)に想定ノイズモデルエネルギの大きな減少があるかの情報を提供する。
Figure 2010525376
ただし、
first_half_enは、古い方から4つのDTX-HOフレームのエネルギ、
second_half_enは、新しい方から4つのフレームのエネルギ、
DTX_PUFF_THRは、定数値である。
第2の決定変数「var_energy_flag」は、先行する音声になる前のノイズのみのセグメントからノイズエネルギ変動に大きな変化があるかの情報を提供する。
Figure 2010525376
ただし、
dtxMaxMinDiff=max(b[i-7],...,b[i])-min(b[i-7],...,b[i])、
dtxLastMinMaxDiffは、dtxMaxMinDiffと同じ測定結果であるが、(vad_flag=0およびdtxHoCnt=0)(現音声セグメントに先立つノイズの最終期間)において更新され、
DTX_MAXMIN_THRは、定数値である。
第3の決定変数「higher_energy_flag」は、先行する音声になる前のノイズのみのセグメントからノイズエネルギに大きな変化があったかの情報を提供する。
Figure 2010525376
ただし、
Figure 2010525376
dtxLastAvgLogEnは、dtxAvgLogEnと同じ測定結果であるが、(Vad_flag=0およびdtxHoCnt=0)(現音声セグメントに先立つノイズの最終期間)において更新され、
higher_energy_thrは、
higher_energy_thr=dtxLastMinMaxDiff/2+16*dtxHoExtCnt
により定義する時間依存の閾値を決める変数である。
ただし、
dtxHoExtCntは、追加のDTX-HO延長フレーム数であり、DTX-HOが終了するとリセットされる。
追加のDTX-HOフレームを追加する最終決定は、ブーリアン(boolean)
DTX_NOISEBURST_WARNING
となる重み付き決定基準を使用して実行される。
Figure 2010525376
DTX_NOISEBURST_WARNINGが「1」であれば、余分のDTXハングオーバフレームをDTX_HO期間に追加する。すなわち、余分のDTXハングオーバフレームを追加するより大きなエネルギを持つのに十分である。
さらに、最大許容延長フレーム数(DTX_MAX_HO_EXT_CNT)を設定することにより、最終DTX_NOISEBURST_WARNINGの決定を禁止することができる。
Figure 2010525376
最終DTX_NOISEBURST_WARNINGが「1」(真)であれば、音声フレームから非音声フレームへの遷移は1フレームだけ遅れる。これはDTXハンドラの状態変数dtxHoCntをゼロ以外の値に設定することにより達成することができ、これは符号化器が量子化された音声(「S」)フレームを準備する結果となろう。
付録1乃至3は、実施形態1を実行する実際のAMR-NB固定小数点Cコードである。
付録1
cod_amr.c 各フレームの符号化を制御するコード部。
付録2
dtx_enc.c DTXハンドラの符号化器側を含むコード部。
付録3
dtx_enc.h パラメータ、データタイプおよび符号化器側DTXハンドラの関数プロトタイプの定義。
Cコードにおける関連する関数は、dtx_noise_puff_warningおよびtx_dtx_handlerである。これらは共に、dtx_enc.cにおいて定義され、cod_amr.cからコールされる。
上記の如き低演算量のエネルギ測定結果のみの使用に代えて、DTX_HO期間の延長に対する第2の実施形態において、以下に記述するように、スペクトルパラメータ、LSPまたはLSFを使用して、DTX_HO期間における信号スペクトルの定常性を判断することもできる。DTX_HO期間および先行する音声になる前のノイズのみのセグメント内におけるフレームに関して、例えばDTX_HO期間のLSPの平均値は先行する音声になる前のノイズのみの期間から得られるLSPの平均値とは定数以上に違いはないであろう。
Figure 2010525376
ただし、
dtxAvgLSPは、現DTX_HO期間のLSPの平均ベクトル、
dtxLastAvgLSPも、LSPの平均ベクトルであるが、(vad_flag=0およびdtxHoCnt=0)(現音声セグメントに先立つノイズの最終期間)において更新され、
LSP_CHANGE_THRは、定数である。
ブーリアン決定変数LSP_change_flagは、DTX_NOISEBURST_WARNINGの和において使用することができる。例えば、
Figure 2010525376
である。
DTXハングオーバの短縮
この第1の実施形態では、DTX_HO期間の短縮は3つの決定変数を使用して実行され、これら3つの測定結果の重み付き決定和を使用して、DTX_HO期間の短縮の可能性が判断される。加えて、復号化器が同期し、短縮されたDTX_HO期間を実際に使用することを決定するために、DTXハンドラの状態変数が検査される。
決定変数
使用する決定変数は音声フレームの分析に基づく。図5に、各符号化フレームに容易に利用可能なフレームエネルギ値およびDTXハンドラの状態を示す。(例えば、b[i]は現フレームの対数エネルギ値である)。
DTX_HO削減のアルゴリズム例は、
・dtxHoCntが3より小さく、かつ、
・DTXハングオーバが実際に動作するよう、N_elapsedが十分大きく、かつ、
・(実施形態1で定義した)全ての決定変数(dec_energy_flag、var_energy_flag、higher_energy_flag)が全てゼロ(和がゼロ)であれば、
DTXハングオーバ期間を短縮する決定を行う(実際の短縮は、符号化器DTXハンドラの呼出しに先立ちdtxHoCnt変数を強制的にゼロにすることにより達成され、これにより、より高速の音声フレームタイプに代わり低速SIDフレームタイプ(AMRの場合F/SID_FIRST)を送信に準備することになろう。)
その他の場合、ハングオーバ期間は通常通りに継続される(望まれればハングオーバ延長のオプションがある。)。
ハングオーバ延長の場合、スペクトルパラメータも考慮される。例えば、短縮を動作させるためには、以前に定義された決定変数LSP_change_flagがゼロであることを要求することができる。
コンフォートノイズの合成について品質低下を伴うことなく、(既存の復号化器を修正しないで使用するためにも)、EFR/AMR-NB/AMR-WB CNG(コンフォートノイズ発生器)を、時として準最適VAD決定を行う積極的で容量の効果的なVADと組み合わせて使用することができる。
この品質/効率の更新は、採用したAMR-NB/EFR復号化器と上位互換性がある。図6はAMR-NBコーデックのシミュレーションにおいて積極的なVADと共に使用する場合のハングオーバの延長効果を示す。図中上段は延長のない現在のDTXハングオーバ方式のみの平均化を使用する場合の復号化器出力であり、下段は説明したハングオーバ方式を使用する場合の復号化器出力である。確認できるように、更新方式は元方式よりより良好なノイズエネルギ包絡を提供する。
既存の極めて保守的なVAD(例えばAMR-VAD1またはAMR-VAD2)と組み合わせる場合、DTXハングオーバの短縮を使用して、DTXシステムの効率を増大させ、場合によってはコンフォートノイズ品質を高めることができる。
図3に関する以上の説明のように、音声符号化器はユーザ端末および/または基地局などの無線通信システムにおけるノードの送信機に実装することができる。受信ノード(ユーザ端末または基地局)における対応する受信機は通信リンクにおいて通信する場合、修正する必要なく、送信機の本発明による音声符号化器により符号化する情報を復号化する。従って、本発明の音声符号化器を通信システムに存在する全ノードに含む必要はなく、これは図1および図3に関する説明のように、送信信号に含む情報タイプは変更しないが、情報内容を調整する、即ちDTXハングオーバ期間を変更することができるからである。
省略記号
AMR Adaptive Multi-Rate 適応マルチレート
CAF Channel Activity Factor 送信機がエネルギを送信する場合のチャネル・アクティビティ係数(音声フレーム、DTX-HO音声フレーム、SIDフレームを含むシステム効率)
CN Comfort Noise コンフォートノイズ
CNG Comfort Noise Generator コンフォートノイズ発生器
DTX Discontinuous Transmission 間欠送信
DTX-HO DTX-HangOver time period DTX-ハングオーバ期間
EFR Enhanced Full Rate 拡張フルレート
EVRC Enhanced Variable Rate Codec 拡張可変レートコーデック
LSF Line Spectral Frequency 線スペクトル周波数
LSP Line Spectral Pair 線スペクトル対
N,ND "NoData" frame type 「データなし」フレームタイプ
NB Narrow Band 狭帯域
SID Silence Descriptor 無音記述子(実際にはノイズ記述子)
SF,F "SID_FIRST" AMR(NB/WB) SIDフレームタイプ
SP,S "Speech"フレームタイプ
U,SU "SIDJJPDATE" AMR(NB/WB)SIDフレームタイプ
VAD Voice Activity Detector 音声アクティビティ検出器
VAD-HO VADハングオーバ(音声からノイズに遷移するときのVAD内部安全余裕期間)、別名「ノイズハングオーバ」
VAF Voice Activity Factor 音声アクティビティ効率(SIDフレーム、DTX-HOフレームを除いたVADの効率)
WB Wide Band 広帯域
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376
Figure 2010525376

Claims (17)

  1. 音声符号化器におけるDTXハングオーバ期間の特性を推定する方法であって、
    前記DTXハングオーバ期間内の音声フレームのフレームエネルギ値を分析するステップと、
    前記フレームエネルギ分析に応じて前記DTXハングオーバ期間の長さを調整するステップと、
    を有することを特徴とする方法。
  2. 前記音声フレームのフレームエネルギ値を分析するステップは、
    エネルギ減少、
    エネルギ変動、及び、
    長期のエネルギ増加
    を分析するステップを含むことを特徴とする請求項1に記載の方法。
  3. 前記DTXハングオーバ期間における前記音声フレームのスペクトルパラメータを分析するステップと、
    前記DTXハングオーバ期間の長さを調整する際に前記スペクトルパラメータ分析の結果を考慮するステップと、
    を更に有することを特徴とする請求項1又は2に記載の方法。
  4. 前記音声フレームの前記スペクトルパラメータを分析するステップは、
    スペクトル変動、及び、
    長期のスペクトル差分
    を分析するステップを含むことを特徴とする請求項3に記載の方法。
  5. 前記DTXハングオーバ期間内の前記音声フレームがノイズ発生に不適当と判断したときは、前記DTXハングオーバ期間を延長することを特徴とする請求項1乃至4のいずれか1項に記載の方法。
  6. 前記DTXハングオーバ期間内の前記音声フレームがノイズ発生に適当と判断したときは、前記DTXハングオーバ期間を短縮することを特徴とする請求項1乃至4のいずれか1項に記載の方法。
  7. 音声フレームを受信し、音声判別(VAD_flag)を生成する音声アクティビティ検出器(VAD)と、
    前記音声フレームを受信し、前記音声判別(VAD_flag)及びDTXハングオーバ期間に基づく符号化器決定(SP)に基づいて、音声フレームを識別する信号を生成する音声/SID符号化器と、
    音声フレームと、SIDフレームと、No_dataフレームとを含む信号(TxType)を送信するSID同期器と、
    前記DTXハングオーバ期間内の音声フレームのエネルギ値を分析する信号分析器と、
    前記信号分析器によって実行された分析に応じて前記DTXハングオーバ期間の長さを調整するDTXハンドラと、
    を有することを特徴とする音声符号化装置。
  8. 前記信号分析器は、
    エネルギ減少、
    エネルギ変動、及び、
    長期のエネルギ増加
    を分析することを特徴とする請求項7に記載の音声符号化装置。
  9. 前記信号分析器は、前記DTXハングオーバ期間における前記音声フレームのスペクトルパラメータを分析し、
    前記DTXハンドラは、前記DTXハングオーバ期間の長さを調整する際に前記スペクトルパラメータ分析の結果を考慮する
    ことを特徴とする請求項7又は8に記載の音声符号化装置。
  10. 前記信号分析器は、更に、前記音声フレームのスペクトル変動、及び、長期のスペクトル差分を分析することを特徴とする請求項9に記載の音声符号化装置。
  11. 前記DTXハンドラは、前記DTXハングオーバ期間内の前記音声フレームがノイズ発生に不適当と判断したとき、前記DTXハングオーバ期間を延長することを特徴とする請求項7乃至10のいずれか1項に記載の音声符号化装置。
  12. 前記DTXハンドラは、前記DTXハングオーバ期間内の前記音声フレームがノイズ発生に適当と判断したとき、前記DTXハングオーバ期間を短縮することを特徴とする請求項7乃至10のいずれか1項に記載の音声符号化装置。
  13. 無線通信システムにおいて信号を送信する送信機であって、請求項7乃至12のいずれか1項に記載の音声符号化装置を含むことを特徴とする送信機。
  14. 請求項7乃至12のいずれか1項に記載の音声符号化装置を含むことを特徴とする、無線通信システムにおけるノード。
  15. 前記ノードはユーザ端末であることを特徴とする請求項14に記載のノード。
  16. 前記ノードは基地局であることを特徴とする請求項14に記載のノード。
  17. 請求項14乃至16のいずれか1項に記載のノードを少なくとも1つ含むことを特徴とする無線通信システム。
JP2010500864A 2007-03-29 2007-12-05 Dtxハングオーバ期間の長さを調整する方法及び音声符号化装置 Pending JP2010525376A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US90734707P 2007-03-29 2007-03-29
PCT/SE2007/001086 WO2008121035A1 (en) 2007-03-29 2007-12-05 Method and speech encoder with length adjustment of dtx hangover period

Publications (1)

Publication Number Publication Date
JP2010525376A true JP2010525376A (ja) 2010-07-22

Family

ID=39808520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010500864A Pending JP2010525376A (ja) 2007-03-29 2007-12-05 Dtxハングオーバ期間の長さを調整する方法及び音声符号化装置

Country Status (5)

Country Link
US (1) US20100106490A1 (ja)
EP (1) EP2143103A4 (ja)
JP (1) JP2010525376A (ja)
KR (1) KR101408625B1 (ja)
WO (1) WO2008121035A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016526188A (ja) * 2013-05-30 2016-09-01 華為技術有限公司Huawei Technologies Co.,Ltd. 信号符号化方法及びデバイス

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
HUE064739T2 (hu) * 2010-11-22 2024-04-28 Ntt Docomo Inc Audio kódoló eszköz és eljárás
ES2665944T3 (es) * 2010-12-24 2018-04-30 Huawei Technologies Co., Ltd. Aparato para realizar una detección de actividad de voz
CN102903364B (zh) * 2011-07-29 2017-04-12 中兴通讯股份有限公司 一种进行语音自适应非连续传输的方法及装置
EP2552172A1 (en) * 2011-07-29 2013-01-30 ST-Ericsson SA Control of the transmission of a voice signal over a bluetooth® radio link
WO2014010175A1 (ja) * 2012-07-09 2014-01-16 パナソニック株式会社 符号化装置及び符号化方法
ES2547457T3 (es) 2012-09-11 2015-10-06 Telefonaktiebolaget Lm Ericsson (Publ) Generación de ruido de confort
EP2959744B1 (en) * 2013-02-21 2016-11-09 Telefonaktiebolaget LM Ericsson (publ) Method, wireless device and computer program for use with discontinuous reception
ES2844223T3 (es) 2013-02-22 2021-07-21 Ericsson Telefon Ab L M Métodos y aparatos para retención DTX en codificación de audio

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993013516A1 (en) * 1991-12-23 1993-07-08 Motorola Inc. Variable hangover time in a voice activity detector
JPH05224686A (ja) * 1992-02-12 1993-09-03 Matsushita Electric Ind Co Ltd 有音無音判定方法およびその装置
JPH08314497A (ja) * 1995-05-23 1996-11-29 Nec Corp 無音圧縮音声符号化復号化装置
JPH10207491A (ja) * 1997-01-23 1998-08-07 Toshiba Corp 背景音/音声分類方法、有声/無声分類方法および背景音復号方法
JP2000236341A (ja) * 1999-02-16 2000-08-29 Nec Eng Ltd 雑音挿入装置
JP2002314597A (ja) * 2001-04-09 2002-10-25 Mitsubishi Electric Corp 音声パケット通信装置
JP2003076394A (ja) * 2001-08-31 2003-03-14 Fujitsu Ltd 音声符号変換方法及び装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5157728A (en) * 1990-10-01 1992-10-20 Motorola, Inc. Automatic length-reducing audio delay line
US6269331B1 (en) 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993013516A1 (en) * 1991-12-23 1993-07-08 Motorola Inc. Variable hangover time in a voice activity detector
JPH05224686A (ja) * 1992-02-12 1993-09-03 Matsushita Electric Ind Co Ltd 有音無音判定方法およびその装置
JPH08314497A (ja) * 1995-05-23 1996-11-29 Nec Corp 無音圧縮音声符号化復号化装置
JPH10207491A (ja) * 1997-01-23 1998-08-07 Toshiba Corp 背景音/音声分類方法、有声/無声分類方法および背景音復号方法
JP2000236341A (ja) * 1999-02-16 2000-08-29 Nec Eng Ltd 雑音挿入装置
JP2002314597A (ja) * 2001-04-09 2002-10-25 Mitsubishi Electric Corp 音声パケット通信装置
JP2003076394A (ja) * 2001-08-31 2003-03-14 Fujitsu Ltd 音声符号変換方法及び装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016526188A (ja) * 2013-05-30 2016-09-01 華為技術有限公司Huawei Technologies Co.,Ltd. 信号符号化方法及びデバイス
JP2018092182A (ja) * 2013-05-30 2018-06-14 華為技術有限公司Huawei Technologies Co.,Ltd. 信号符号化方法及びデバイス
US10692509B2 (en) 2013-05-30 2020-06-23 Huawei Technologies Co., Ltd. Signal encoding of comfort noise according to deviation degree of silence signal

Also Published As

Publication number Publication date
KR101408625B1 (ko) 2014-06-17
WO2008121035A1 (en) 2008-10-09
KR20090122976A (ko) 2009-12-01
US20100106490A1 (en) 2010-04-29
EP2143103A1 (en) 2010-01-13
EP2143103A4 (en) 2011-11-30

Similar Documents

Publication Publication Date Title
JP7297803B2 (ja) 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
JP2010525376A (ja) Dtxハングオーバ期間の長さを調整する方法及び音声符号化装置
JP5198477B2 (ja) 定常的な背景雑音の平滑化を制御するための方法及び装置
JP4550360B2 (ja) ロバストな音声分類のための方法および装置
JP4658596B2 (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
JP5173939B2 (ja) Cdma無線システム用可変ビットレート広帯域音声符号化時における効率のよい帯域内ディム・アンド・バースト(dim−and−burst)シグナリングとハーフレートマックス処理のための方法および装置
JP5096582B2 (ja) ノイズ生成装置及び方法
JP4907826B2 (ja) 閉ループのマルチモードの混合領域の線形予測音声コーダ
RU2609133C2 (ru) Способ и устройство для обнаружения голосовой активности
JP2004525540A (ja) 音声通信中に快適ノイズを発生するための方法およびシステム
KR102132798B1 (ko) 노이즈 신호 처리 및 노이즈 신호 생성 방법, 인코더, 디코더, 및 인코딩 및 디코딩 시스템
JP2010503881A (ja) 音声・音響送信器及び受信器のための方法及び装置
KR101648290B1 (ko) 컴포트 노이즈의 생성
JPWO2006098274A1 (ja) スケーラブル復号化装置およびスケーラブル復号化方法
US10102862B2 (en) Decoding method and decoder for audio signal according to gain gradient
WO2007064256A2 (en) Efficient speech stream conversion
US20050071154A1 (en) Method and apparatus for estimating noise in speech signals
US7584096B2 (en) Method and apparatus for encoding speech
JP4567289B2 (ja) 準周期信号の位相を追跡するための方法および装置
CN100369108C (zh) 编码域中的音频增强的方法和设备
JP2011090311A (ja) 閉ループのマルチモードの混合領域の線形予測音声コーダ
Jelinek et al. VMR-WB–OPERATION OF THE 3GPP2 WIDEBAND SPEECH CODING STANDARD

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121116

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130607