JP2017199025A - 信号符号化方法及びデバイス - Google Patents

信号符号化方法及びデバイス Download PDF

Info

Publication number
JP2017199025A
JP2017199025A JP2017130240A JP2017130240A JP2017199025A JP 2017199025 A JP2017199025 A JP 2017199025A JP 2017130240 A JP2017130240 A JP 2017130240A JP 2017130240 A JP2017130240 A JP 2017130240A JP 2017199025 A JP2017199025 A JP 2017199025A
Authority
JP
Japan
Prior art keywords
frame
silence
parameter
current input
comfort noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017130240A
Other languages
English (en)
Other versions
JP6517276B2 (ja
Inventor
▲哲▼ 王
Zhe Wang
▲哲▼ 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2017199025A publication Critical patent/JP2017199025A/ja
Application granted granted Critical
Publication of JP6517276B2 publication Critical patent/JP6517276B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

【課題】通信帯域を節約することができる信号符号化方法及びデバイスを提供する。
【解決手段】現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定する。コンフォートノイズと実際の静音信号との間の逸脱度を決定する。逸脱度に従って現在の入力フレームの符号化方式を決定する。現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含む。現在の入力フレームの符号化方式に従って現在の入力フレームを符号化する。コンフォートノイズと実際の静音信号との間の逸脱度に従って、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。
【選択図】図2

Description

本発明は、信号処理の分野に関し、特に信号符号化方法及びデバイスに関する。
不連続送信(Discontinuous Transmission、DTX)システムは、広く適用された音声通信システムであり、音声通信の静音期間において、チャネル帯域幅の占有を低減するために、音声フレームを不連続に符号化及び送信する方式が使用され、その一方で十分な主観的通話品質が依然として確保され得る。
音声信号は、通常では2つの種類、すなわち、アクティブ音声信号及び静音信号に分類され得る。アクティブ音声信号は、通話音声を含む信号を示し、静音信号は、通話音声を含まない信号を示す。DTXシステムでは、アクティブ音声信号は、連続送信方法を使用することにより送信され、静音信号は、不連続送信方法を使用することにより送信される。静音信号の不連続送信は、以下の方式で実現される。エンコーダは、特別な符号化フレーム、すなわち、静音記述(Silence Descriptor、SID)フレームを間欠的に符号化して送信する。DTXシステムでは、2つの隣接するSIDフレームの間に他の信号フレームは符号化されない。デコーダは、不連続受信したSIDフレームに従って、ユーザの快適な主観的聴取を可能にするノイズを任意に生成する。コンフォートノイズ(Comfort Noise、CN)は、元の静音信号を正確に復元することを目的としておらず、主観的聴覚品質におけるデコーダのユーザの要件を満たすことを目的としており、ユーザが不快に感じないことを可能にする。
デコーダにおいてより良い主観的聴覚品質を得るために、アクティブ音声帯域からCN帯域への遷移の品質は重要である。より円滑な遷移を得るために、1つの効果的な方法は、アクティブ音声帯域から静音帯域への遷移中に、エンコーダは、直ちに不連続送信状態に遷移せず、ある期間だけ更に遅延する。この期間に、静音帯域の始めのいくつかの静音フレームは、依然としてアクティブ音声フレームとして考えられ、連続的に符号化されて送信される。すなわち、連続送信のハングオーバ区間が設定される。この手段の利点は、デコーダがより良いCNを生成するため、静音信号の特徴をより良く推定及び抽出するためにハングオーバ区間内の静音信号を十分に使用することができる点にある。
しかし、従来技術では、ハングオーバ機構は、効果的に制御されていない。ハングオーバ機構をトリガーする条件は比較的簡単である。すなわち、ハングオーバ機構をトリガーするか否かは、音声アクティビティの終わりに連続的に符号化されて送信されるのに十分なアクティブ音声フレームが存在するか否かを単に検査することにより決定される。ハングオーバ機構がトリガーされた後に、固定長のハングオーバ区間が強制的に実施され得る。しかし、連続的に符号化されて送信されるのに十分なアクティブ音声フレームが存在する場合、固定長のハングオーバ区間が実施されなければならないことは不要である。例えば、通信環境のバックグラウンドノイズが安定している場合、ハングオーバ区間が設定されていなくても、或いは短いハングオーバ区間が設定されていても、デコーダは、より良い品質を有するCNを得ることができる。従って、ハングオーバ機構を簡単に制御するこのモードは、通信帯域幅の浪費を生じる。
本発明の実施例は、通信帯域幅を節約することができる信号符号化方法及びデバイスを提供する。
第1の態様によれば、信号符号化方法が提供され、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームが静音記述(SID)フレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するステップであり、現在の入力フレームは静音フレームであるステップと、コンフォートノイズと実際の静音信号との間の逸脱度を決定するステップと、逸脱度に従って現在の入力フレームの符号化方式を決定するステップであり、現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含むステップと、現在の入力フレームの符号化方式に従って現在の入力フレームを符号化するステップとを含む。
第1の態様を参照して、第1の可能な実現方式では、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するステップは、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定するステップであり、コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと1対1の対応関係にあるステップを含み、コンフォートノイズと実際の静音信号との間の逸脱度を決定するステップは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定するステップを含む。
第1の態様の第1の可能な実現方式を参照して、第2の可能な実現方式では、逸脱度に従って現在の入力フレームの符号化方式を決定するステップは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するステップであり、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と1対1の対応関係にあるステップと、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するステップとを含む。
第1の態様の第1の可能な実現方式又は第2の可能な実現方式を参照して、第3の可能な実現方式では、コンフォートノイズの特徴パラメータは、エネルギー情報及びスペクトル情報の情報のうち少なくとも1つを表すために使用される。
第1の態様の第3の可能な実現方式を参照して、第4の可能な実現方式では、エネルギー情報は、符号励振線形予測(CELP)励振エネルギーを含み、スペクトル情報は、線形予測フィルタ係数、高速フーリエ変換(FFT)係数及び修正離散コサイン変換(MDCT)係数のうち少なくとも1つを含み、線形予測フィルタ係数は、線スペクトル周波数(LSF)係数、線スペクトル対(LSP)係数、イミタンススペクトル周波数(ISF)係数、イミタンススペクトル対(ISP)係数、反射係数及び線形予測符号化(LPC)係数のうち少なくとも1つを含む。
第1の態様の第1の可能な実現方式から第4の可能な実現方式のいずれかの実現方式を参照して、第5の可能な実現方式では、コンフォートノイズの特徴パラメータを予測するステップは、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測するステップ、又は現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測するステップであり、Lは正の整数であるステップを含む。
第1の態様の第1の可能な実現方式から第5の可能な実現方式のいずれかの実現方式を参照して、第6の可能な実現方式では、実際の静音信号の特徴パラメータを決定するステップは、現在の入力フレームの特徴パラメータが実際の静音信号の特徴パラメータであると決定するステップ、又は実際の静音信号の特徴パラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集するステップを含む。
第1の態様の第6の可能な実現方式を参照して、第7の可能な実現方式では、M個の静音フレームは、現在の入力フレームと、現在の入力フレームの前の(M-1)個の静音フレームとを含み、Mは正の整数である。
第1の態様の第2の可能な実現方式を参照して、第8の可能な実現方式では、コンフォートノイズの特徴パラメータは、コンフォートノイズの符号励振線形予測(CELP)励振エネルギー及びコンフォートノイズの線スペクトル周波数(LSF)係数を含み、実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含み、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定するステップは、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定するステップを含む。
第1の態様の第8の可能な実現方式を参照して、第9の可能な実現方式では、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するステップは、距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するステップを含み、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するステップは、距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するステップを含む。
第1の態様の第9の可能な実現方式を参照して、第10の可能な実現方式では、この方法は、予め設定された第1の閾値及び予め設定された第2の閾値を取得するステップ、又は現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第1の閾値を決定し、N個の静音フレームのLSF係数に従って第2の閾値を決定するステップであり、Nは正の整数であるステップを更に含む。
第1の態様又は第1の態様の第1の可能な実現方式から第10の可能な実現方式のいずれかの実現方式を参照して、第11の可能な実現方式では、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測するステップは、第1の予測方式でコンフォートノイズを予測するステップであり、第1の予測方式は、デコーダがコンフォートノイズを生成する方式と同じであるステップを含む。
第2の態様によれば、信号処理方法が提供され、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離を決定するステップであり、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数であるステップと、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定するステップであり、第1のスペクトルパラメータは、コンフォートノイズを生成するために使用されるステップとを含む。
第2の態様を参照して、第1の可能な実現方式では、各静音フレームは、重み係数の1つのグループに対応し、重み係数の1つのグループにおいて、サブバンドの第1のグループに対応する重み係数は、サブバンドの第2のグループに対応する重み係数より大きく、サブバンドの第1のグループの知覚重要度は、サブバンドの第2のグループの知覚重要度より大きい。
第2の態様又は第2の態様の第1の可能な実現方式を参照して、第2の可能な実現方式では、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定するステップは、P個の静音フレームの中の第1の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから第1の静音フレームを選択するステップと、第1の静音フレームのスペクトルパラメータが第1のスペクトルパラメータであると決定するステップとを含む。
第2の態様又は第2の態様の第1の可能な実現方式を参照して、第3の可能な実現方式では、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定するステップは、P個の静音フレームの中の少なくとも1つの静音フレームのグループ加重スペクトル距離が第3の閾値未満になるように、P個の静音フレームから少なくとも1つの静音フレームを選択するステップと、少なくとも1つの静音フレームのスペクトルパラメータに従って第1のスペクトルパラメータを決定するステップとを含む。
第2の態様又は第2の態様の第1の可能な実現方式から第3の可能な実現方式のいずれかの実現方式を参照して、第4の可能な実現方式では、P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含む。
第2の態様の第4の可能な実現方式を参照して、第5の可能な実現方式では、この方法は、現在の入力静音フレームを静音記述(SID)フレームに符号化するステップであり、SIDフレームは、第1のスペクトルパラメータを含むステップを更に含む。
第3の態様によれば、信号処理方法が提供され、入力信号の周波数帯域をR個のサブバンドに分割するステップであり、Rは正の整数であるステップと、R個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定するステップであり、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数であるステップと、各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定するステップであり、各サブバンドの第1のスペクトルパラメータは、コンフォートノイズを生成するために使用されるステップとを含む。
第3の態様を参照して、第1の可能な実現方式では、各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定するステップは、各サブバンドにおいてS個の静音フレームの中の第1の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいて、S個の静音フレームから第1の静音フレームを選択するステップと、各サブバンドにおいて、第1の静音フレームのスペクトルパラメータが各サブバンドの第1のスペクトルパラメータであると決定するステップとを含む。
第3の態様を参照して、第2の可能な実現方式では、各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定するステップは、少なくとも1つの静音フレームのサブバンドグループスペクトル距離が第4の閾値未満になるように、各サブバンドにおいて、S個の静音フレームから少なくとも1つの静音フレームを選択するステップと、各サブバンドにおいて、少なくとも1つの静音フレームのスペクトルパラメータに従って各サブバンドの第1のスペクトルパラメータを決定するステップとを含む。
第3の態様、又は第3の態様の第1の可能な実現方式若しくは第2の可能な実現方式を参照して、第3の可能な実現方式では、S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含む。
第3の態様の第3の可能な実現方式を参照して、第4の可能な実現方式では、この方法は、現在の入力静音フレームを静音記述(SID)フレームに符号化するステップであり、SIDフレームは、各サブバンドの第1のスペクトルパラメータを含むステップを更に含む。
第4の態様によれば、信号処理方法が提供され、T個の静音フレームの中の各静音フレームの第1のパラメータを決定するステップであり、第1のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数であるステップと、T個の静音フレームの中の各静音フレームの第1のパラメータに従って第1のスペクトルパラメータを決定するステップであり、第1のスペクトルパラメータは、コンフォートノイズを生成するために使用されるステップとを含む。
第4の態様を参照して、第1の可能な実現方式では、T個の静音フレームの中の各静音フレームの第1のパラメータに従って第1のスペクトルパラメータを決定するステップは、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ることが決定された場合、静音フレームの第1のグループのスペクトルパラメータに従って第1のスペクトルパラメータを決定するステップであり、静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きいステップと、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ないことが決定された場合、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するステップであり、静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きいステップとを含む。
第4の態様の第1の可能な実現方式を参照して、第2の可能な実現方式では、クラスタ化基準は、静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離が静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離以下であること、静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離が静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離以下であること、第1の平均値と第2の平均値との間の距離が静音フレームの第1のグループの第1のパラメータと第1の平均値との間の平均距離より大きいこと、及び第1の平均値と第2の平均値との間の距離が静音フレームの第2のグループの第1のパラメータと第2の平均値との間の平均距離より大きいことを含み、第1の平均値は、静音フレームの第1のグループの第1のパラメータの平均値であり、第2の平均値は、静音フレームの第2のグループの第1のパラメータの平均値である。
第4の態様を参照して、第3の可能な実現方式では、T個の静音フレームの中の各静音フレームの第1のパラメータに従って第1のスペクトルパラメータを決定するステップは、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するステップであり、異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上であり、第1のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータより大きく、第1のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータ未満であり、i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tであるステップを含む。
第4の態様又は第4の態様の第1の可能な実現方式から第3の可能な実現方式のいずれかの実現方式を参照して、第4の可能な実現方式では、T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含む。
第4の態様の第4の可能な実現方式を参照して、第5の可能な実現方式では、この方法は、現在の入力静音フレームを静音記述(SID)フレームに符号化するステップであり、SIDフレームは、第1のスペクトルパラメータを含むステップを更に含む。
第5の態様によれば、信号符号化デバイスが提供され、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームが静音記述(SID)フレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するように構成された第1の決定ユニットであり、現在の入力フレームは静音フレームである第1の決定ユニットと、第1の決定ユニットにより決定されたコンフォートノイズと第1の決定ユニットにより決定された実際の静音信号との間の逸脱度を決定するように構成された第2の決定ユニットと、第2の決定ユニットにより決定された逸脱度に従って現在の入力フレームの符号化方式を決定するように構成された第3の決定ユニットであり、現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含む第3の決定ユニットと、第3の決定ユニットにより決定された現在の入力フレームの符号化方式に従って現在の入力フレームを符号化するように構成された符号化ユニットとを含む。
第5の態様を参照して、第1の可能な実現方式では、第1の決定ユニットは、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定するように具体的に構成され、コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと1対1の対応関係にあり、第2の決定ユニットは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定するように具体的に構成される。
第5の態様の第1の可能な実現方式を参照して、第2の可能な実現方式では、第3の決定ユニットは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するように具体的に構成され、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と1対1の対応関係にあり、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するように具体的に構成される。
第5の態様の第1の可能な実現方式又は第2の可能な実現方式を参照して、第3の可能な実現方式では、第1の決定ユニットは、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測するように、或いは現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測するように具体的に構成され、Lは正の整数である。
第5の態様の第1の可能な実現方式、第2の可能な実現方式又は第3の可能な実現方式を参照して、第4の可能な実現方式では、第1の決定ユニットは、現在の入力フレームの特徴パラメータが実際の静音信号のパラメータであると決定するように、或いは実際の静音信号のパラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集するように具体的に構成される。
第5の態様の第2の可能な実現方式を参照して、第5の可能な実現方式では、コンフォートノイズの特徴パラメータは、コンフォートノイズの符号励振線形予測(CELP)励振エネルギー及びコンフォートノイズの線スペクトル周波数(LSF)係数を含み、実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含み、第2の決定ユニットは、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定するように具体的に構成される。
第5の態様の第5の可能な実現方式を参照して、第6の可能な実現方式では、第3の決定ユニットは、距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定するように具体的に構成され、第3の決定ユニットは、距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定するように具体的に構成される。
第5の態様の第6の可能な実現方式を参照して、第7の可能な実現方式では、このデバイスは、予め設定された第1の閾値及び予め設定された第2の閾値を取得するように、或いは現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第1の閾値を決定し、N個の静音フレームのLSF係数に従って第2の閾値を決定するように構成された第4の決定ユニットを更に含み、Nは正の整数である。
第5の態様又は第5の態様の第1の可能な実現方式から第7の可能な実現方式のいずれかの実現方式を参照して、第8の可能な実現方式では、第1の決定ユニットは、第1の予測方式でコンフォートノイズを予測するように具体的に構成され、第1の予測方式は、デコーダがコンフォートノイズを生成する方式と同じである。
第6の態様によれば、信号処理デバイスが提供され、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離を決定するように構成された第1の決定ユニットであり、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数である第1の決定ユニットと、P個の静音フレームの中の各静音フレームの、第1の決定ユニットにより決定されたグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定するように構成された第2の決定ユニットであり、第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される第2の決定ユニットとを含む。
第6の態様を参照して、第1の可能な実現方式では、第2の決定ユニットは、P個の静音フレームの中の第1の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから第1の静音フレームを選択し、第1の静音フレームのスペクトルパラメータが第1のスペクトルパラメータであると決定するように具体的に構成される。
第6の態様を参照して、第2の可能な実現方式では、第2の決定ユニットは、P個の静音フレームの中の少なくとも1つの静音フレームのグループ加重スペクトル距離が第3の閾値未満になるように、P個の静音フレームから少なくとも1つの静音フレームを選択し、少なくとも1つの静音フレームのスペクトルパラメータに従って第1のスペクトルパラメータを決定するように具体的に構成される。
第6の態様、又は第6の態様の第1の可能な実現方式若しくは第2の可能な実現方式を参照して、第3の可能な実現方式では、P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含み、このデバイスは、現在の入力静音フレームを静音記述(SID)フレームに符号化するように構成された符号化ユニットであり、SIDフレームは、第2の決定ユニットにより決定された第1のスペクトルパラメータを含む符号化ユニットを更に含む。
第7の態様によれば、信号処理デバイスが提供され、入力信号の周波数帯域をR個のサブバンドに分割するように構成された分割ユニットであり、Rは正の整数である分割ユニットと、分割ユニットが分割を実行した後に取得されたR個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定するように構成された第1の決定ユニットであり、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数である第1の決定ユニットと、分割ユニットが分割を実行した後に取得された各サブバンドにおいて、S個の静音フレームの中の各静音フレームの、第1の決定ユニットにより決定されたサブバンドグループスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定するように構成された第2の決定ユニットであり、各サブバンドの第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される第2の決定ユニットとを含む。
第7の態様を参照して、第1の可能な実現方式では、第2の決定ユニットは、各サブバンドにおいてS個の静音フレームの中の第1の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいて、S個の静音フレームから第1の静音フレームを選択し、各サブバンドにおいて、第1の静音フレームのスペクトルパラメータが各サブバンドの第1のスペクトルパラメータであると決定するように具体的に構成される。
第7の態様を参照して、第2の可能な実現方式では、第2の決定ユニットは、少なくとも1つの静音フレームのサブバンドグループスペクトル距離が第4の閾値未満になるように、各サブバンドにおいて、S個の静音フレームから少なくとも1つの静音フレームを選択し、各サブバンドにおいて、少なくとも1つの静音フレームのスペクトルパラメータに従って各サブバンドの第1のスペクトルパラメータを決定するように具体的に構成される。
第7の態様、又は第7の態様の第1の可能な実現方式若しくは第2の可能な実現方式を参照して、第3の可能な実現方式では、S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含み、このデバイスは、現在の入力静音フレームを静音記述(SID)フレームに符号化するように構成された符号化ユニットであり、SIDフレームは、各サブバンドの第1のスペクトルパラメータを含む符号化ユニットを更に含む。
第8の態様によれば、信号処理デバイスが提供され、T個の静音フレームの中の各静音フレームの第1のパラメータを決定するように構成された第1の決定ユニットであり、第1のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数である第1の決定ユニットと、T個の静音フレームの中の各静音フレームの、第1の決定ユニットにより決定された第1のパラメータに従って第1のスペクトルパラメータを決定するように構成された第2の決定ユニットであり、第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される第2の決定ユニットとを含む。
第8の態様を参照して、第1の可能な実現方式では、第2の決定ユニットは、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ることが決定された場合、静音フレームの第1のグループのスペクトルパラメータに従って第1のスペクトルパラメータを決定するように具体的に構成され、静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きく、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ないことが決定された場合、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するように具体的に構成され、静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。
第8の態様を参照して、第2の可能な実現方式では、第2の決定ユニットは、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するように具体的に構成され、異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上であり、第1のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータより大きく、第1のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータ未満であり、i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである。
第8の態様、又は第8の態様の第1の可能な実現方式若しくは第2の可能な実現方式を参照して、第3の可能な実現方式では、T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含み、このデバイスは、現在の入力静音フレームを静音記述(SID)フレームに符号化するように構成された符号化ユニットであり、SIDフレームは、第1のスペクトルパラメータを含む符号化ユニットを更に含む。
本発明の実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズが予測され、コンフォートノイズと実際の静音信号との間の逸脱度が決定され、逸脱度に従って現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。
本発明の実施例の技術的対策を明確に説明するために、以下に、本発明の実施例を説明するために必要な添付図面を簡単に紹介する。明らかに、以下の説明において添付図面は、本発明の単に幾つかの実施例を示しているに過ぎず、当業者は、創造的取り組みを行うことなく、これらの添付図面から依然として他の図面を導き得る。
本発明の実施例による音声通信システムの概略ブロック図 本発明の実施例による信号符号化方法の概略フローチャート 本発明の実施例による信号符号化方法の処理の概略フローチャート 本発明の他の実施例による信号符号化方法の処理の概略フローチャート 本発明の実施例による信号処理方法の概略フローチャート 本発明の他の実施例による信号処理方法の概略フローチャート 本発明の他の実施例による信号処理方法の概略フローチャート 本発明の実施例による信号符号化デバイスの概略ブロック図 本発明の他の実施例による信号処理デバイスの概略ブロック図 本発明の他の実施例による信号処理デバイスの概略ブロック図 本発明の他の実施例による信号処理デバイスの概略ブロック図 本発明の他の実施例による信号符号化デバイスの概略ブロック図 本発明の他の実施例による信号処理デバイスの概略ブロック図 本発明の他の実施例による信号処理デバイスの概略ブロック図 本発明の他の実施例による信号処理デバイスの概略ブロック図
以下に、本発明の実施例の添付図面を参照して、本発明の実施例の技術的対策を明確且つ完全に説明する。明らかに、説明する実施例は、本発明の実施例の全てではなく、一部である。創造的取り組みを行うことなく、本発明の実施例に基づいて当業者により得られる全ての他の実施例は、本発明の保護範囲内に入るものとする。
図1は、本発明の実施例による音声通信システムの概略ブロック図である。
図1のシステム100は、DTXシステムでもよい。システム100は、エンコーダ110とデコーダ120とを含んでもよい。
エンコーダ110は、入力時間ドメインの音声信号を音声フレームに切り詰め、音声フレームを符号化し、符号化された音声フレームをデコーダ120に送信してもよい。デコーダ120は、エンコーダ110から符号化された音声フレームを受信し、符号化された音声フレームを復号化し、復号化された時間ドメインの音声信号を出力してもよい。
エンコーダ110は、音声アクティビティ検出器(Voice Activity Detector、VAD)110aを更に含んでもよい。VAD110aは、現在の入力音声フレームがアクティブ音声フレームであるか静音フレームであるかを検出してもよい。アクティブ音声フレームは、通話音声信号を含むフレームを表してもよく、静音フレームは、通話音声信号を含まないフレームを表してもよい。ここで、静音フレームは、エネルギーが静音閾値未満であるミュートフレームを含んでもよく、また、バックグラウンドノイズフレームを含んでもよい。エンコーダ110は、2つの動作状態、すなわち、連続送信状態及び不連続送信状態を有してもよい。エンコーダ110が連続送信状態で動作する場合、エンコーダ110は、各入力音声フレームを符号化し、符号化されたフレームを送信してもよい。エンコーダ110が不連続送信状態で動作する場合、エンコーダ110は、入力音声フレームを符号化しなくてもよく、音声フレームをSIDフレームに符号化してもよい。一般的に、入力音声フレームが静音フレームである場合にのみ、エンコーダ110は、不連続送信状態で動作する。
現在の入力静音フレームがアクティブ音声帯域の最後の後の最初のフレームであり、アクティブ音声帯域が、存在し得るハングオーバ区間を含む場合、エンコーダ110は、静音フレームをSIDフレームに符号化してもよい。SID_FIRSTは、SIDフレームを表すために使用されてもよい。現在の入力静音フレームが前のSIDフレームの後の第nのフレームであり、nは正の整数であり、現在の入力静音フレームと前のSIDフレームとの間にアクティブ音声フレームが存在しない場合、エンコーダ110は、静音フレームをSIDフレームに符号化してもよい。SID_UPDATEは、SIDフレームを表すために使用されてもよい。
SIDフレームは、静音信号の特徴を記述するいくつかの情報を含んでもよい。デコーダは、特徴情報に従ってコンフォートノイズを生成してもよい。例えば、SIDフレームは、静音信号のエネルギー情報及びスペクトル情報を含んでもよい。更に、例えば、静音信号のエネルギー情報は、符号励振線形予測(Code Excited Linear Prediction、CELP)モデルの励振信号のエネルギー、又は静音信号の時間ドメインのエネルギーを含んでもよい。スペクトル情報は、線スペクトル周波数(Line Spectral Frequency、LSF)係数、線スペクトル対(Line Spectrum Pair、LSP)係数、イミタンススペクトル周波数(Immittance Spectral Frequency、ISF)係数、イミタンススペクトル対(Immittance Spectral Pair、ISP)係数、線形予測符号化(Linear Predictive Coding、LPC)係数、高速フーリエ変換(Fast Fourier Transform、FFT)係数又は修正離散コサイン変換(Modified Discrete Cosine Transform、MDCT)係数等を含んでもよい。
符号化された音声フレームは、3つの種類、すなわち、符号化された音声フレーム、SIDフレーム及びNO_DATAフレームを含んでもよい。符号化された音声フレームは、連続送信状態においてエンコーダ110により符号化されたフレームであり、NO_DATAフレームは、符号化されたビットを有さないフレーム、すなわち、SIDフレームの間にある符号化されない静音フレームのような物理的に存在しないフレームを表してもよい。
デコーダ120は、エンコーダ110から符号化された音声フレームを受信し、符号化された音声フレームを復号化してもよい。符号化された音声フレームが受信された場合、デコーダは、フレームを直接復号化し、時間ドメインの音声フレームを出力してもよい。SIDフレームが受信された場合、デコーダは、SIDフレームを復号化し、SIDフレームにおけるハングオーバ長情報、エネルギー情報及びスペクトル情報を取得してもよい。具体的に、SIDフレームがSID_UPDATEである場合、デコーダは、静音信号のエネルギー情報及びスペクトル情報を取得してもよい。すなわち、CNパラメータに従って時間ドメインのCNフレームを生成するため、現在のSIDフレームの情報に従って、或いは現在のSIDフレームの情報に従って且つ他の情報を参照して、CNパラメータを取得してもよい。SIDフレームがSID_FIRSTである場合、デコーダは、時間ドメインのCNフレームを生成するため、SIDフレームのハングオーバ長情報に従って、フレームの前のm個のフレームのエネルギー及びスペクトルの統計情報を取得し、SIDフレームの中の復号化を通じて取得された情報を参照してCNパラメータを取得する。mは正の整数である。NO_DATAフレームがデコーダに入力された場合、デコーダは、時間ドメインのCNフレームを生成するため、最近受信したSIDフレームに従って且つ他の情報を参照して、CNパラメータを取得する。
図2は、本発明の実施例による信号符号化方法の概略フローチャートである。図2の方法は、エンコーダにより実行され、例えば、図1のエンコーダ110により実行されてもよい。
210:現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定する。現在の入力フレームは静音フレームである。
本発明のこの実施例では、実際の静音信号は、エンコーダに入力される実際の静音信号を示してもよい。
220:コンフォートノイズと実際の静音信号との間の逸脱度を決定する。
230:逸脱度に従って現在の入力フレームの符号化方式を決定する。現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含む。
具体的に、ハングオーバフレーム符号化方式は、連続符号化方式を示してもよい。エンコーダは、連続符号化方式でハングオーバ区間の静音フレームを符号化してもよく、符号化を通じて取得されたフレームは、ハングオーバフレームと呼ばれてもよい。
240:現在の入力フレームの符号化方式に従って現在の入力フレームを符号化する。
ステップ210において、エンコーダは、異なる要因に従って、連続符号化方式で現在の入力フレームの前のフレームを符号化することを決定してもよい。例えば、前のフレームがアクティブ音声帯域にあるとエンコーダのVADが決定した場合、又は前のフレームがハングオーバ区間にあるとエンコーダが決定した場合、エンコーダは、前のフレームを連続符号化方式で符号化してもよい。
入力音声信号が静音帯域に入った後に、エンコーダは、実際の状況に従って連続送信状態で動作するか不連続送信状態で動作するかを決定してもよい。従って、静音フレームとして使用される現在の入力フレームについて、エンコーダは、どのように現在の入力フレームを符号化するかを決定する必要がある。
現在の入力フレームは、入力音声信号が静音帯域に入った後の最初の静音フレームでもよく、また、入力音声信号が静音帯域に入った後の第nのフレームでもよい。nは1より大きい正の整数である。
現在の入力フレームが最初の静音フレームである場合、ステップ230において、エンコーダが現在の入力フレームの符号化方式を決定することは、ハングオーバ区間が設定される必要があるか否かを決定し、ハングオーバ区間が設定される必要がある場合、エンコーダは、現在の入力フレームをハングオーバフレームに符号化してもよく、ハングオーバ区間が設定される必要がない場合、エンコーダは、現在の入力フレームをSIDフレームに符号化してもよい。
現在の入力フレームが第nの静音フレームであり、現在の入力フレームがハングオーバ区間にあることをエンコーダが決定することができる場合、すなわち、現在の入力フレームの前の静音フレームが連続的に符号化されている場合、ステップ230において、エンコーダが現在の入力フレームの符号化方式を決定することは、ハングオーバ区間を終了するか否かを決定し、ハングオーバ区間を終了する必要がある場合、エンコーダは、現在の入力フレームをSIDフレームに符号化してもよく、ハングオーバ区間を延長する必要がある場合、エンコーダは、現在の入力フレームをハングオーバフレームに符号化してもよい。
現在の入力フレームが第nの静音フレームであり、ハングオーバ機構が存在しない場合、ステップ230において、エンコーダは、デコーダが符号化された現在の入力フレームを復号化した後により良いコンフォートノイズ信号を取得することができるように、現在の入力フレームの符号化方式を決定する必要がある。
認識できるように、本発明のこの実施例は、ハングオーバ機構のトリガーシナリオに適用可能であるだけでなく、ハングオーバ機構の実行シナリオにも適用可能であり、また、ハングオーバ機構が存在しないシナリオにも適用可能である。具体的に、本発明のこの実施例では、ハングオーバ機構をトリガーするか否かが決定されてもよく、事前にハンドオーバ機構を終了するか否かも決定されてもよい。或いは、ハングオーバ機構が存在しないシナリオでは、本発明のこの実施例では、より良い符号化効果及び復号化効果を実現するため、静音フレームの符号化方式が決定されてもよい。
具体的に、エンコーダが現在の入力フレームをSIDフレームに符号化することが仮定されてもよい。デコーダがSIDフレームを受信した場合、デコーダは、SIDフレームに従ってコンフォートノイズを生成し、エンコーダは、コンフォートノイズを予測してもよい。次に、エンコーダは、コンフォートノイズと、エンコーダに入力された実際の静音信号との間の逸脱度を推定してもよい。ここで、逸脱度は、類似度として理解されてもよい。予測されたコンフォートノイズが実際の静音信号に十分に近い場合、エンコーダは、ハングオーバ区間が設定される必要がないと考えてもよく、ハングオーバ区間が延長される必要がないと考えてもよい。
従来技術では、固定長のハングオーバ区間を実行するか否かは、単にアクティブ音声フレームの量における統計を収集することにより決定される。すなわち、連続的に符号化されるのに十分なアクティブ音声フレームが存在する場合、固定長のハングオーバ区間が設定される。現在の入力フレームが最初の静音フレームであるか、ハングオーバ区間にある第nの静音フレームであるか否かに拘わらず、現在の入力フレームは、ハングオーバフレームに符号化される。しかし、不要なハングオーバフレームは、通信帯域幅の浪費を生じ得る。しかし、本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームの符号化方式は、予測されたコンフォートノイズと実際の静音信号との間の逸脱度に従って決定される。これにより、通信帯域幅を節約する。
本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズが予測され、コンフォートノイズと実際の静音信号との間の逸脱度が決定され、逸脱度に従って現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。
任意選択で、実施例として、ステップ210において、エンコーダは、第1の予測方式でコンフォートノイズを予測してもよい。第1の予測方式は、デコーダがコンフォートノイズを生成する方式と同じである。
具体的に、エンコーダ及びデコーダは、同じ方式でコンフォートノイズを決定してもよく、エンコーダ及びデコーダは、異なる方式でコンフォートノイズを決定してもよい。これは本発明のこの実施例では限定されない。
任意選択で、実施例として、ステップ210において、エンコーダは、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定してもよい。コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと1対1の対応関係にある。ステップ220において、エンコーダは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定してもよい。
具体的に、コンフォートノイズと実際の静音信号との間の逸脱度を決定するため、エンコーダは、特徴パラメータの間の距離を取得するために、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとを比較してもよい。コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと1対1の対応関係にあるべきである。すなわち、コンフォートノイズの特徴パラメータの種類は、実際の静音信号の特徴パラメータの種類と同じである。例えば、エンコーダは、コンフォートノイズのエネルギーパラメータと実際の静音信号のエネルギーパラメータとを比較してもよく、また、コンフォートノイズのスペクトルパラメータと実際の静音信号のスペクトルパラメータとを比較してもよい。
本発明のこの実施例では、特徴パラメータがスカラーである場合、特徴パラメータの間の距離は、特徴パラメータの間の差の絶対値、すなわち、スカラー距離を示してもよい。特徴パラメータがベクトルである場合、特徴パラメータの間の距離は、特徴パラメータの間の対応する要素のスカラー距離の和を示してもよい。
任意選択で、他の実施例として、ステップ230において、エンコーダは、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と1対1の対応関係にある。エンコーダはまた、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。
具体的に、コンフォートノイズの特徴パラメータ及び実際の静音信号の特徴パラメータは、少なくとも1つのパラメータをそれぞれ含んでもよい。従って、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離はまた、少なくとも1つの種類のパラメータの間の距離を含んでもよい。閾値集合もまた、少なくとも1つの閾値を含んでもよい。各種類のパラメータの間の距離は、1つの閾値に対応してもよい。現在の入力フレームの符号化方式を決定する場合、エンコーダは、少なくとも1つの種類のパラメータと閾値集合の中の対応する閾値との間の距離を別々に比較してもよい。閾値集合の中の少なくとも1つの閾値は、予め設定されてもよく、また、現在の入力フレームの前の複数の静音フレームの特徴パラメータに従ってエンコーダにより決定されてもよい。
コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、エンコーダは、コンフォートノイズが実際の静音信号に十分に近いと考えてもよく、従って、現在の入力フレームをSIDフレームに符号化してもよい。コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、エンコーダは、コンフォートノイズと実際の静音信号との間の逸脱が比較的大きいと考えてもよく、従って、現在の入力フレームをハングオーバフレームに符号化してもよい。
任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、エネルギー情報及びスペクトル情報の情報のうち少なくとも1つを表すために使用されてもよい。
任意選択で、他の実施例として、エネルギー情報は、CELP励振エネルギーを含んでもよい。スペクトル情報は、線形予測フィルタ係数、FFT係数及びMDCT係数のうち少なくとも1つを含んでもよい。線形予測フィルタ係数は、LSF係数、LSP係数、ISF係数、ISP係数、反射係数及びLPC係数のうち少なくとも1つを含んでもよい。
任意選択で、他の実施例として、ステップ210において、エンコーダは、現在の入力フレームの特徴パラメータが実際の静音信号の特徴パラメータであると決定してもよい。或いは、エンコーダは、実際の静音信号の特徴パラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集してもよい。
任意選択で、他の実施例として、M個の静音フレームは、現在の入力フレームと、現在の入力フレームの前の(M-1)個の静音フレームとを含んでもよい。Mは正の整数である。
例えば、現在の入力フレームが最初の静音フレームである場合、実際の静音信号の特徴パラメータは、現在の入力フレームの特徴パラメータでもよい。現在の入力フレームが第nの静音フレームである場合、実際の静音信号の特徴パラメータは、現在の入力フレームを含むM個の静音フレームの特徴パラメータにおける統計を収集することにより、エンコーダにより取得されてもよい。M個の静音フレームは、連続的でもよく、また、不連続的でもよく、これは本発明の実施例で限定されない。
任意選択で、他の実施例として、ステップ210において、エンコーダは、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。或いは、エンコーダは、現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。Lは正の整数である。
例えば、現在の入力フレームが最初の静音フレームである場合、エンコーダは、前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。各フレームを符号化する場合、エンコーダは、エンコーダに各フレームのコンフォートノイズパラメータを保存してもよい。通常では、入力フレームが静音フレームである場合にのみ、保存されたコンフォートノイズパラメータは、前のフレームのものに対して変化してもよい。この理由は、エンコーダは、現在の入力静音フレームの特徴パラメータに従って保存されたコンフォートノイズパラメータを更新してもよいからであり、通常では、現在の入力静音フレームがアクティブ音声フレームである場合、コンフォートノイズパラメータを更新しないからである。従って、エンコーダは、エンコーダに記憶された前のフレームのコンフォートノイズパラメータを取得してもよい。例えば、コンフォートノイズパラメータは、静音信号のエネルギーパラメータ及びスペクトルパラメータを含んでもよい。
更に、現在の入力フレームがハングオーバ区間に現在ある場合、エンコーダは、現在の入力フレームの前のL個のハングオーバフレームのパラメータにおける統計を収集し、統計収集を通じて取得された結果及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを取得してもよい。
任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、コンフォートノイズのCELP励振エネルギー及びコンフォートノイズのLSF係数を含んでもよく、実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含んでもよい。ステップ220において、エンコーダは、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。
距離De及び距離Dlsfは、1つの変化量を含んでもよく、変化量のグループを含んでもよい点に留意すべきである。例えば、距離Dlsfは2つの変化量を含んでもよく、一方の変化量は、LSF係数の間の平均距離、すなわち、LSF係数の間の距離の平均値でもよく、他方の変化量は、LSF係数の間の最大距離、すなわち、最大距離を有するLSF係数の対の間の距離でもよい。
任意選択で、他の実施例として、ステップ230において、距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、エンコーダは、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、エンコーダは、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。第1の閾値及び第2の閾値は共に、閾値集合に属する。
任意選択で、他の実施例として、De又はDlsfが変化量のグループを含む場合、エンコーダは、現在の入力フレームを符号化する方式を決定するため、変化量のグループの中の各変化量と対応する閾値とを比較する。
具体的に、エンコーダは、距離De及び距離Dlsfに従って現在の入力フレームの符号化方式を決定してもよい。距離De<第1の閾値、且つ、距離Dlsf<第2の閾値である場合、これは、予測されたコンフォートノイズのCELP励振エネルギー及びLSF係数が実際の静音信号のCELP励振エネルギー及びLSF係数とわずかに異なることを示してもよく、エンコーダは、コンフォートノイズが実際の静音信号に十分に近いと考えてもよく、現在の入力フレームをSIDフレームに符号化してもよい。そうでない場合、エンコーダは、現在の入力フレームをハングオーバフレームに符号化してもよい。
任意選択で、他の実施例として、ステップ230において、エンコーダは、予め設定された第1の閾値及び予め設定された第2の閾値を取得してもよい。或いは、エンコーダは、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第1の閾値を決定し、N個の静音フレームのLSF係数に従って第2の閾値を決定してもよい。Nは正の整数である。
具体的に、第1の閾値及び第2の閾値の双方は、予め設定された固定値でもよい。或いは、第1の閾値及び第2の閾値の双方は、自己適応の変化量でもよい。例えば、第1の閾値は、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーにおける統計を収集することにより、エンコーダにより取得されてもよく、第2の閾値は、現在の入力フレームの前のN個の静音フレームのLSF係数における統計を収集することにより、エンコーダにより取得されてもよい。N個の静音フレームは、連続的でもよく、また、不連続的でもよい。
以下に、図2の具体的な処理について、具体的な例を使用することにより詳細に説明する。図3a及び図3bの例では、本発明のこの実施例が適用され得る2つのシナリオが説明のために使用される。これらの例は、本発明のこの実施例の範囲を限定するのではなく、当業者が本発明のこの実施例をより良く理解することに役立てることのみを意図している。
図3aは、本発明の実施例による信号符号化方法の処理の概略フローチャートである。図3aにおいて、現在の入力フレームの前のフレームの符号化方式が連続符号化方式であり、現在の入力フレームが入力音声信号が静音帯域に入った後の最初の静音フレームであることをエンコーダのVADが決定したことが仮定される。この場合、エンコーダは、ハングオーバ区間を設定するか否かを決定する必要がある。すなわち、現在の入力フレームをハングオーバフレームに符号化するかSIDフレームに符号化するかを決定する必要がある。以下に、この処理について詳細に説明する。
301a:実際の静音信号のCELP励振エネルギー及びLSF係数を決定する。
具体的に、エンコーダは、現在の入力フレームのCELP励振エネルギーeを、実際の静音信号のCELP励振エネルギーeSIとして使用してもよく、現在の入力フレームのLSF係数lsf(i)を、現在の入力フレームのLSF係数lsfSI(i)として使用してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。エンコーダは、従来技術を参照して現在の入力フレームのCELP励振エネルギー及びLSF係数を決定してもよい。
302a:現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズのCELP励振エネルギー及びLSF係数を予測する。
エンコーダが現在の入力フレームをSIDフレームに符号化し、デコーダがSIDフレームに従ってコンフォートノイズを生成することが仮定されてもよい。エンコーダは、コンフォートノイズのCELP励振エネルギーeCN及びLSF係数lsfCN(i)を予測してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。エンコーダは、エンコーダに記憶された前のフレームのコンフォートノイズパラメータ及び現在の入力フレームのCELP励振エネルギー及びLSF係数に従ってコンフォートノイズのCELP励振エネルギー及びLSF係数を別々に決定してもよい。
例えば、エンコーダは、以下の式(1)に従ってコンフォートノイズのCELP励振エネルギーeCNを予測してもよい。
Figure 2017199025
ここで、eCN[-1]は前のフレームのCELP励振エネルギーを表してもよく、eは現在の入力フレームのCELP励振エネルギーを表してもよい。
エンコーダは、以下の式(2)に従ってコンフォートノイズのLSF係数lsfCN(i)を予測してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。
Figure 2017199025
ここで、lsfCN[-1](i)は前のフレームのLSF係数を表してもよく、lsf(i)は現在の入力フレームの第iのLSF係数を表してもよい。
303a:コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定する。
具体的に、エンコーダは、以下の式(3)に従ってコンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定してもよい。
Figure 2017199025
エンコーダは、以下の式(4)に従ってコンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。
Figure 2017199025
304a:距離Deが第1の閾値未満であるか否か、及び距離Dlsfが第2の閾値未満であるか否かを決定する。
具体的に、第1の閾値及び第2の閾値の双方は、予め設定された固定値でもよい。
或いは、第1の閾値及び第2の閾値の双方は、自己適応の変化量でもよい。エンコーダは、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第1の閾値を決定してもよい。例えば、エンコーダは、以下の式(5)に従って第1の閾値thr1を決定してもよい。
Figure 2017199025
エンコーダは、N個の静音フレームのLSF係数に従って第2の閾値を決定してもよい。例えば、エンコーダは、以下の式(6)に従って第2の閾値thr2を決定してもよい。
Figure 2017199025
式(5)及び式(6)において、[x]は、第xのフレームを表してもよく、xはn、m又はpでもよい。例えば、e[m]は、第mのフレームのCELP励振エネルギーを表してもよく、lsf[n](i)は、第nのフレームの第iのLSF係数を表してもよく、lsf[p](i)は第pのフレームの第iのLSF係数を表してもよい。
305a:距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、ハングオーバ区間を設定しないと決定し、現在の入力フレームをSIDフレームに符号化する。
距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、エンコーダは、デコーダにより生成され得るコンフォートノイズが実際の静音信号に十分に近いと考えてもよく、ハングオーバ区間は設定されなくてもよい。現在の入力フレームは、SIDフレームに符号化される。
306a:距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、ハングオーバ区間を設定すると決定し、現在の入力フレームをハングオーバフレームに符号化する。
本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズと、実際の静音信号との間の逸脱度に従って、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。
図3bは、本発明の他の実施例による信号符号化方法の処理の概略フローチャートである。図3bにおいて、現在の入力フレームが既にハングオーバ区間にあることが仮定される。エンコーダは、ハングオーバ区間を終了するか否かを決定する必要がある。すなわち、エンコーダは、現在の入力フレームをハングオーバフレームに符号化し続けるか否か、又は現在の入力フレームをSIDフレームに符号化するか否かを決定する必要がある。以下に、この処理について詳細に説明する。
301b:実際の静音信号のCELP励振エネルギー及びLSF係数を決定する。
任意選択で、ステップ301aと同様に、エンコーダは、現在の入力フレームのCELP励振エネルギー及びLSF係数を、実際の静音信号のCELP励振エネルギー及びLSF係数として使用してもよい。
任意選択で、エンコーダは、実際の静音信号のCELP励振エネルギーを取得するために、現在の入力フレームを含むM個の静音フレームのCELP励振エネルギーについての統計を収集してもよい。M≦ハングオーバ区間内の現在の入力フレームの前のハングオーバフレームの量である。
例えば、エンコーダは、式(7)に従って実際の静音信号のCELP励振エネルギーeSIを決定してもよい。
Figure 2017199025
他の例として、エンコーダは、以下の式(8)に従って実際の静音信号のLSF係数lsfSI(i)を予測してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。
Figure 2017199025
前述の式(7)及び式(8)において、w(j)は重み係数を表してもよく、e[-j]は現在の入力フレームの前の第jの静音フレームのCELP励振エネルギーを表してもよい。
302b:現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズのCELP励振エネルギー及びLSF係数を予測する。
具体的に、エンコーダは、現在の入力フレームの前のL個のハングオーバフレームのCELP励振エネルギー及びLSF係数に従って、コンフォートノイズのCELP励振エネルギーeCN及びLSF係数lsfCN(i)を別々に決定してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。
例えば、エンコーダは、以下の式(9)に従ってコンフォートノイズのCELP励振エネルギーeCNを決定してもよい。
Figure 2017199025
ここで、eHO[-j]は現在の入力フレームの前の第jのハングオーバフレームの励振エネルギーを表してもよい。
他の例では、エンコーダは、以下の式(10)に従ってコンフォートノイズのLSF係数lsfCN(i)を決定してもよい。i=0,1,...,K-1であり、Kはフィルタ次数である。
Figure 2017199025
ここで、lsfHO[-j]は現在の入力フレームの前の第jのハングオーバフレームの第iのLSF係数を表してもよい。
式(9)及び式(10)において、w(j)は重み係数を表してもよい。
303b:コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定する。
例えば、エンコーダは、式(3)に従ってコンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定してもよい。エンコーダは、式(4)に従ってコンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。
304b:距離Deが第1の閾値未満であるか否か、及び距離Dlsfが第2の閾値未満であるか否かを決定する。
具体的に、第1の閾値及び第2の閾値の双方は、予め設定された固定値でもよい。
或いは、第1の閾値及び第2の閾値の双方は、自己適応の変化量でもよい。例えば、エンコーダは、式(5)に従って第1の閾値thr1を決定してもよく、式(6)に従って第2の閾値thr2を決定してもよい。
305b:距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、ハングオーバ区間を終了すると決定し、現在の入力フレームをSIDフレームに符号化する。
306b:距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、ハングオーバ区間を延長し続けると決定し、現在の入力フレームをハングオーバフレームに符号化する。
本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズと、実際の静音信号との間の逸脱度に従って、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。
前述から分かるように、不連続送信状態に入った後に、エンコーダは、SIDフレームを間欠的に符号化してもよい。SIDフレームは、一般的に、静音信号のエネルギー及びスペクトルを記述するいくつかの情報を含む。エンコーダからSIDフレームを受信した後に、デコーダは、SIDフレームに含まれる情報に従ってコンフォートノイズを生成してもよい。現在では、SIDフレームは数フレーム毎に1回符号化されて送信されるため、SIDフレームを符号化する場合、エンコーダは、通常では、現在の入力静音フレーム及び現在の入力静音フレームの前の数個の静音フレームにおける統計を収集することにより、SIDフレームの情報を取得する。例えば、連続する静音区間内において、現在の符号化されたSIDフレームの情報は、通常では、現在のSIDフレーム及び現在のSIDフレームと前のSIDフレームとの間の複数の静音フレームについての統計を収集することにより取得される。他の例では、アクティブ音声帯域の後の最初のSIDフレームの情報を符号化することは、通常では、現在の入力静音フレーム及びアクティブ音声帯域の終了のときの数個の隣接するハンドオーバフレームについての統計を収集することにより、エンコーダにより取得される。すなわち、ハングオーバ区間内の静音フレームにおける統計を収集することにより取得される。説明の便宜上で、SIDフレーム符号化パラメータについての統計を収集するために使用される複数の静音フレームは、分析区間と呼ばれる。具体的に、SIDフレームが符号化される場合、SIDフレームのパラメータは、分析区間内の複数の静音フレームのパラメータの平均値又は中央値を取得することにより取得される。しかし、実際のバックグラウンドノイズのスペクトルは、様々な予想できない過渡的なスペクトル成分を含んでもよい。分析区間がこのようなスペクトル成分を含む場合、これらの成分は、平均値を取得する方法でSIDフレームに追加されてもよく、このようなスペクトル成分を含む静音スペクトルは、中央値を取得する方法でSIDフレームに不正確に符号化されてもよく、これは、SIDフレームに従ってデコーダにより生成されるコンフォートノイズの品質が減少することを生じる。
図4は、本発明の実施例による信号処理方法の概略フローチャートである。図4の方法は、エンコーダ又はデコーダにより実行され、例えば、図1のエンコーダ110又はデコーダ120により実行されてもよい。
410:P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離(Group Weighted Spectral Distance)を決定する。P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数である。
例えば、エンコーダ又はデコーダは、現在の入力静音フレームの前の複数の静音フレームのパラメータをバッファに記憶してもよい。バッファの長さは、固定でもよく、可変でもよい。P個の静音フレームは、バッファからエンコーダ又はデコーダにより選択されてもよい。
420:P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定する。第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第1のスペクトルパラメータは、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、ステップ410において、各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームのスペクトルパラメータに従って決定されてもよい。例えば、P個の静音フレームの中の第xのフレームのグループ加重スペクトル距離swd[x]は、以下の式(11)に従って決定されてもよい。
Figure 2017199025
ここで、U[x](i)は第xのフレームの第iのスペクトルパラメータを表してもよく、U[j](i)は第jのフレームの第iのスペクトルパラメータを表してもよく、w(i)は重み係数でもよく、Kはスペクトルパラメータの係数の量である。
例えば、各静音フレームのスペクトルパラメータは、LSF係数、LSP係数、ISF係数、ISP係数、LCP係数、反射係数、FFT係数、MDCT係数等を含んでもよい。従って、対応して、ステップ420において、第1のスペクトルパラメータは、LSF係数、LSP係数、ISF係数、ISP係数、LPC係数、反射係数、FFT係数、MDCT係数等を含んでもよい。
以下に、スペクトルパラメータがLSF係数である例を使用することにより、ステップ420の処理について説明する。例えば、各静音フレームのLSF係数と他の(P-1)個の静音フレームのLSF係数との間の加重スペクトル距離の和、すなわち、各静音フレームのLSF係数のグループ加重スペクトル距離swdが決定されてもよい。例えば、P個の静音フレームの中の第xのフレームのLSF係数のグループ加重スペクトル距離swd’[x]は、以下の式(12)に従って決定されてもよい。x=0,1,2,...,P-1である。
Figure 2017199025
ここで、w’(i)は重み係数であり、K’はフィルタ次数である。
任意選択で、実施例として、各静音フレームは、重み係数の1つのグループに対応してもよい。重み係数の1つのグループにおいて、サブバンドの第1のグループに対応する重み係数は、サブバンドの第2のグループに対応する重み係数より大きく、サブバンドの第1のグループの知覚重要度は、サブバンドの第2のグループの知覚重要度より大きい。
サブバンドは、スペクトル係数を分割することにより取得されてもよい。具体的な処理について、従来技術に参照が行われてもよい。サブバンドの知覚重要度は、従来技術に従って決定されてもよい。通常では、低周波数サブバンドの知覚重要度は、高周波数サブバンドの知覚重要度より高い。従って、簡単な実施例では、低周波数サブバンドの重み係数は、高周波数サブバンドの重み係数より大きくてもよい。
例えば、式(12)において、w’(i)は重み係数であり、i=0,1,...,K’-1である。各静音フレームは、重み係数の1つのグループ、すなわち、w’(0)〜w’(K’-1)に対応する。重み係数の1つのグループでは、低周波数サブバンドのLSF係数の重み係数は、高周波数サブバンドのLSF係数の重み係数より大きい。バックグラウンドノイズのエネルギーは、ほとんど低周波数帯域に集中するため、デコーダにより生成されるコンフォートノイズの品質は、主に低周波数帯域の信号の品質により決定され、最終的な加重スペクトル距離において高周波数帯域のLSF係数のスペクトル距離により課される影響は、適切に減少するべきである。
任意選択で、他の実施例として、ステップ420において、第1の静音フレームは、P個の静音フレームの中の第1の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから選択されてもよく、第1の静音フレームのスペクトルパラメータが第1のスペクトルパラメータであると決定されてもよい。
具体的に、グループ加重スペクトル距離が最小になることは、第1の静音フレームのスペクトルパラメータがP個の静音フレームのスペクトルパラメータの間の一般性を最も良く表すことができることを示してもよい。従って、第1の静音フレームのスペクトルパラメータは、SIDフレームに符号化されてもよい。例えば、各静音フレームのLSF係数のグループ加重スペクトル距離について、第1の静音フレームのLSF係数のグループ加重スペクトル距離は最小である。この場合、これは、第1の静音フレームのLSFスペクトルがP個の静音フレームのLSFスペクトルの間の一般性を最も良く表すことができることを示してもよい。
任意選択で、他の実施例として、ステップ420において、少なくとも1つの静音フレームは、P個の静音フレームの中の少なくとも1つの静音フレームのグループ加重スペクトル距離が第3の閾値未満になるように、P個の静音フレームから選択されてもよく、第1のスペクトルパラメータは、少なくとも1つの静音フレームのスペクトルパラメータに従って決定されてもよい。
例えば、実施例では、少なくとも1つの静音フレームのスペクトルパラメータの平均値が第1のスペクトルパラメータであると決定されてもよい。他の実施例では、少なくとも1つの静音フレームのスペクトルパラメータの中央値が第1のスペクトルパラメータであると決定されてもよい。他の例では、第1のスペクトルパラメータはまた、本発明のこの実施例の他の方法を使用することにより、少なくとも1つの静音フレームのスペクトルパラメータに従って決定されてもよい。
以下に、依然としてスペクトルパラメータがLSF係数である例を使用することにより、説明を行う。この場合、第1のスペクトルパラメータは、第1のLSF係数でもよい。例えば、P個の静音フレームの中の各静音フレームのLSF係数のグループ加重スペクトル距離は、式(12)に従って取得されてもよい。LSF係数のグループ加重スペクトル距離が第3の閾値未満である少なくとも1つの静音フレームは、P個の静音フレームから選択される。次に、少なくとも1つの静音フレームのLSF係数の平均値が、第1のLSF係数として使用されてもよい。例えば、第1のLSF係数lsfSID(i)は、以下の式(13)に従って決定されてもよい。i=0,1,...,K’-1であり、K’はフィルタ次数である。
Figure 2017199025
ここで、{A}は少なくとも1つの静音フレームを除くP個の静音フレームの中の静音フレームを表してもよく、lsf[j](i)は第jのフレームの第iのLSF係数を表してもよい。
更に、第3の閾値は、予め設定されてもよい。
任意選択で、他の実施例として、図4の方法がエンコーダにより実行される場合、P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含んでもよい。
図4の方法がデコーダにより実行される場合、P個の静音フレームは、P個のハングオーバフレームでもよい。
任意選択で、他の実施例として、図4の方法がエンコーダにより実行される場合、エンコーダは、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第1のスペクトルパラメータを含む。
本発明のこの実施例では、SIDフレームのスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、エンコーダは、SIDフレームが第1のスペクトルパラメータを含むように、現在の入力フレームをSIDフレームに符号化してもよい。これにより、SIDフレームに従ってデコーダにより生成されるコンフォートノイズの品質を改善する。
図5は、本発明の他の実施例による信号処理方法の概略フローチャートである。図5の方法は、エンコーダ又はデコーダにより実行され、例えば、図1のエンコーダ110又はデコーダ120により実行されてもよい。
510:入力信号の周波数帯域をR個のサブバンドに分割する。Rは正の整数である。
520:R個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定する。S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数である。
530:各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定する。各サブバンドの第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を使用することにより取得されるのではなく、コンフォートノイズを生成するために使用される各サブバンドの第1のスペクトルパラメータは、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従ってR個のサブバンドの各サブバンドにおいて決定される。これにより、コンフォートノイズの品質を改善する。
ステップ530において、各サブバンドについて各静音フレームのサブバンドグループスペクトル距離は、S個の静音フレームの中の各静音フレームのスペクトルパラメータに従って決定されてもよい。任意選択で、実施例として、第kのサブバンドにおける第yの静音フレームのサブバンドグループスペクトル距離ssdk [y]は、以下の式(14)に従って決定されてもよい。k=1,2,...,Rであり、y=0,1,...,S-1である。
Figure 2017199025
ただし、L(k)は第kのサブバンドに含まれるスペクトルパラメータの係数の量を表してもよく、Uk [y](i)は第kのサブバンドにおける第yの静音フレームのスペクトルパラメータの第iの係数を表してもよく、Uk [j](i)は第kのサブバンドにおける第jの静音フレームのスペクトルパラメータの第iの係数を表してもよい。
例えば、各静音フレームのスペクトルパラメータは、LSF係数、LSP係数、ISF係数、ISP係数、LCP係数、反射係数、FFT係数、MDCT係数等を含んでもよい。
以下に、スペクトルパラメータがLSF係数である例を使用することにより、説明を行う。例えば、各静音フレームのLSF係数のサブバンドグループスペクトル距離が決定されてもよい。各サブバンドは、1つのLSF係数を含んでもよく、また、複数のLSF係数を含んでもよい。例えば、第kのサブバンドにおける第yの静音フレームのLSF係数のサブバンドグループスペクトル距離ssdk [y]は、以下の式(15)に従って決定されてもよい。k=1,2,...,Rであり、y=0,1,...,S-1である。
Figure 2017199025
ここで、L(k)は第kのサブバンドに含まれるLSF係数の量を表してもよく、lsfk [y](i)は第kのサブバンドにおける第yの静音フレームの第iのLSF係数を表してもよく、lsfk [j](i)は第kのサブバンドにおける第jの静音フレームの第iのLSF係数を表してもよい。
対応して、各サブバンドの第1のスペクトルパラメータは、LSF係数、LSP係数、ISF係数、ISP係数、LPC係数、反射係数、FFT係数、MDCT係数等を含んでもよい。
任意選択で、他の実施例として、ステップ530において、第1の静音フレームは、各サブバンドにおいてS個の静音フレームの中の第1の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいてS個の静音フレームから選択されてもよい。次に、各サブバンドの第1の静音フレームのスペクトルパラメータは、各サブバンドの第1のスペクトルパラメータとして使用されてもよい。
具体的に、エンコーダは、各サブバンドにおいて第1の静音フレームを決定し、第1の静音フレームのスペクトルパラメータを、サブバンドの第1のスペクトルパラメータとして使用してもよい。
以下に、依然としてスペクトルパラメータがLSF係数である例を使用することにより、説明を行う。対応して、各サブバンドの第1のスペクトルパラメータは、各サブバンドの第1のLSF係数である。例えば、各サブバンドにおける各静音フレームのLSF係数のサブバンドグループスペクトル距離は、式(15)に従って決定されてもよい。各サブバンドについて、最小のサブバンドグループスペクトル距離を有するフレームのLSF係数は、サブバンドの第1のLSF係数として選択されてもよい。
任意選択で、他の実施例として、ステップ530において、少なくとも1つの静音フレームは、少なくとも1つの静音フレームのサブバンドグループスペクトル距離が第4の閾値未満になるように、各サブバンドにおいてS個の静音フレームから選択されてもよい。次に、各サブバンドの第1のスペクトルパラメータは、少なくとも1つの静音フレームのスペクトルパラメータに従って各サブバンドにおいて決定されてもよい。
例えば、実施例では、各サブバンドにおけるS個の静音フレームの中の少なくとも1つの静音フレームのスペクトルパラメータの平均値が各サブバンドの第1のスペクトルパラメータであると決定されてもよい。他の実施例では、各サブバンドにおけるS個の静音フレームの中の少なくとも1つの静音フレームのスペクトルパラメータの中央値が各サブバンドの第1のスペクトルパラメータであると決定されてもよい。他の実施例では、各サブバンドの第1のスペクトルパラメータはまた、本発明の他の方法を使用することにより、少なくとも1つの静音フレームのスペクトルパラメータに従って決定されてもよい。
LSF係数を例として使用すると、各サブバンドにおける各静音フレームのLSF係数のサブバンドグループスペクトル距離は、式(15)に従って決定されてもよい。各サブバンドについて、サブバンドグループスペクトル距離が第4の閾値未満である少なくとも1つの静音フレームが選択されてもよく、少なくとも1つの静音フレームのLSF係数の平均値がサブバンドの第1のLSF係数であると決定される。第4の閾値は、予め設定されてもよい。
任意選択で、他の実施例として、図5の方法がエンコーダにより実行される場合、S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含んでもよい。
図5の方法がデコーダにより実行される場合、S個の静音フレームは、S個のハングオーバフレームでもよい。
任意選択で、他の実施例として、図5の方法がエンコーダにより実行される場合、エンコーダは、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、各サブバンドの第1のスペクトルパラメータを含む。
本発明のこの実施例では、SIDフレームを符号化する場合、SIDフレームのスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、エンコーダは、SIDフレームが各サブバンドの第1のスペクトルパラメータを含むことを可能にしてもよい。これにより、SIDフレームに従ってデコーダにより生成されるコンフォートノイズの品質を改善する。
図6は、本発明の他の実施例による信号処理方法の概略フローチャートである。図6の方法は、エンコーダ又はデコーダにより実行され、例えば、図1のエンコーダ110又はデコーダ120により実行されてもよい。
610:T個の静音フレームの中の各静音フレームの第1のパラメータを決定する。第1のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数である。
例えば、静音フレームのスペクトルエントロピーが直接決定され得る場合、第1のパラメータは、スペクトルエントロピーでもよい。或る場合には、厳密な定義に適合したスペクトルエントロピーは直接決定されなくてもよい。この場合、第1のパラメータは、スペクトルエントロピーを表すことができる他のパラメータ、例えば、スペクトルの構成上の強度を反映することができるパラメータ等でもよい。
例えば、各静音フレームの第1のパラメータは、各静音フレームのLSF係数に従って決定されてもよい。例えば、第zの静音フレームの第1のパラメータは、以下の式(16)に従って決定されてもよい。z=1,2,...,Tである。
Figure 2017199025
ここで、Kはフィルタ次数である。
ここで、Cはスペクトルの構成上の強度を反映することができるパラメータであり、厳密にスペクトルエントロピーの定義に適合するとは限らない。より大きいCは、より小さいスペクトルエントロピーを示してもよい。
620:T個の静音フレームの中の各静音フレームの第1のパラメータに従って第1のスペクトルパラメータを決定する。第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第1のスペクトルパラメータは、スペクトルエントロピーを表すために使用されるT個の静音フレームの第1のパラメータに従って決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ることが決定された場合、第1のスペクトルパラメータは、静音フレームの第1のグループのスペクトルパラメータに従って決定されてもよい。静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ないことが決定された場合、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均が実行されてもよい。静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。
一般的に、普通のノイズのスペクトルは、比較的悪い構成上の強度を有するが、ノイズでない信号スペクトル又は過渡的な成分を含むノイズのスペクトルは、比較的強い構成上の強度を有する。スペクトルの構成上の強度は、スペクトルエントロピーのサイズに直接対応する。相対的に、普通のノイズのスペクトルエントロピーは比較的大きくてもよく、ノイズでない信号又は過渡的な成分を含むノイズのスペクトルエントロピーは比較的小さくてもよい。従って、T個の静音フレームが静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得る場合、エンコーダは、第1のスペクトルパラメータを決定するために、静音フレームのスペクトルエントロピーに従って、過渡的な成分を含まない静音フレームの第1のグループのスペクトルパラメータを選択してもよい。
例えば、実施例では、静音フレームの第1のグループのスペクトルパラメータの平均値が第1のスペクトルパラメータであると決定されてもよい。他の実施例では、静音フレームの第1のグループのスペクトルパラメータの中央値が第1のスペクトルパラメータであると決定されてもよい。他の実施例では、第1のスペクトルパラメータはまた、本発明の他の方法を使用することにより、静音フレームの第1のグループのスペクトルパラメータに従って決定されてもよい。
T個の静音フレームが静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ない場合、第1のスペクトルパラメータを取得するために、T個の静音フレームのスペクトルパラメータにおいて加重平均が実行されてもよい。任意選択で、他の実施例として、クラスタ化基準は、静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離が静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離以下であること、静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離が静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離以下であること、第1の平均値と第2の平均値との間の距離が静音フレームの第1のグループの第1のパラメータと第1の平均値との間の平均距離より大きいこと、及び第1の平均値と第2の平均値との間の距離が静音フレームの第2のグループの第1のパラメータと第2の平均値との間の平均距離より大きいことを含んでもよい。第1の平均値は、静音フレームの第1のグループの第1のパラメータの平均値であり、第2の平均値は、静音フレームの第2のグループの第1のパラメータの平均値である。
任意選択で、他の実施例として、エンコーダは、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上である。第1のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータより大きい。第1のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータ未満である。i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである。
具体的に、エンコーダは、第1のスペクトルパラメータを取得するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。前述のように、普通のノイズのスペクトルエントロピーは比較的大きくてもよく、ノイズではない信号又は過渡的な成分を含むノイズのスペクトルエントロピーは比較的小さくてもよい。従って、T個の静音フレームの中で、比較的大きいスペクトルエントロピーを有する静音フレームに対応する重み係数は、比較的小さいスペクトルエントロピーを有する静音フレームに対応する重み係数以上でもよい。
任意選択で、他の実施例として、図6の方法がエンコーダにより実行される場合、T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含んでもよい。
図6の方法がデコーダにより実行される場合、T個の静音フレームは、T個のハングオーバフレームでもよい。
任意選択で、他の実施例として、図6の方法がエンコーダにより実行される場合、エンコーダは、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第1のスペクトルパラメータを含む。
本発明のこの実施例では、SIDフレームを符号化する場合、SIDフレームのスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、エンコーダは、SIDフレームが各サブバンドの第1のスペクトルパラメータを含むことを可能にしてもよい。これにより、SIDフレームに従ってデコーダにより生成されるコンフォートノイズの品質を改善する。
図7は、本発明の実施例による信号符号化デバイスの概略ブロック図である。図7のデバイス700の例は、エンコーダであり、例えば、図1に示すエンコーダ110である。デバイス700は、第1の決定ユニット710と、第2の決定ユニット720と、第3の決定ユニット730と、符号化ユニット740とを含む。
第1の決定ユニット710は、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定する。現在の入力フレームは静音フレームである。第2の決定ユニット720は、第1の決定ユニット710により決定されたコンフォートノイズと第1の決定ユニット710により決定された実際の静音信号との間の逸脱度を決定する。第3の決定ユニット730は、第2の決定ユニットにより決定された逸脱度に従って現在の入力フレームの符号化方式を決定する。現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含む。符号化ユニット740は、第3の決定ユニット730により決定された現在の入力フレームの符号化方式に従って現在の入力フレームを符号化する。
本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズが予測され、コンフォートノイズと実際の静音信号との間の逸脱度が決定され、逸脱度に従って現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。
任意選択で、実施例として、第1の決定ユニット710は、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定してもよい。コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと1対1の対応関係にある。第2の決定ユニット720は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定してもよい。
任意選択で、他の実施例として、第3の決定ユニット730は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と1対1の対応関係にある。第3の決定ユニット730は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。
任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、エネルギー情報及びスペクトル情報の情報のうち少なくとも1つを表すために使用されてもよい。
任意選択で、他の実施例として、エネルギー情報は、CELP励振エネルギーを含んでもよい。スペクトル情報は、線形予測フィルタ係数、FFT係数及びMDCT係数のうち少なくとも1つを含んでもよい。
線形予測フィルタ係数は、LSF係数、LSP係数、ISF係数、ISP係数、反射係数及びLPC係数のうち少なくとも1つを含んでもよい。
任意選択で、他の実施例として、第1の決定ユニット710は、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。或いは、第1の決定ユニット710は、現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。Lは正の整数である。
任意選択で、他の実施例として、第1の決定ユニット710は、現在の入力フレームの特徴パラメータが実際の静音信号の特徴パラメータであると決定してもよい。或いは、第1の決定ユニット710は、実際の静音信号の特徴パラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集してもよい。
任意選択で、他の実施例として、M個の静音フレームは、現在の入力フレームと、現在の入力フレームの前の(M-1)個の静音フレームとを含んでもよい。Mは正の整数である。
任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、コンフォートノイズの符号励振線形予測(CELP)励振エネルギー及びコンフォートノイズの線スペクトル周波数(LSF)係数を含んでもよい。実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含んでもよい。第2の決定ユニット720は、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。
任意選択で、他の実施例として、距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、第3の決定ユニット730は、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、第3の決定ユニット730は、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。
任意選択で、他の実施例として、デバイス700は、第4の決定ユニット750を更に含んでもよい。第4の決定ユニット750は、予め設定された第1の閾値及び予め設定された第2の閾値を取得してもよい。或いは、第4の決定ユニット750は、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第1の閾値を決定し、N個の静音フレームのLSF係数に従って第2の閾値を決定してもよい。Nは正の整数である。
任意選択で、他の実施例として、第1の決定ユニット710は、第1の予測方式でコンフォートノイズを予測してもよい。第1の予測方式は、デコーダがコンフォートノイズを生成する方式と同じである。
デバイス700の他の機能及び動作については、前述の図1〜図3bの方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図8は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図8のデバイス800の例は、エンコーダ又はデコーダであり、例えば、図1に示すエンコーダ110又はデコーダ120である。デバイス800は、第1の決定ユニット810と、第2の決定ユニット820とを含む。
第1の決定ユニット810は、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離を決定する。P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数である。第2の決定ユニット820は、P個の静音フレームの中の各静音フレームの、第1の決定ユニット810により決定されたグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定する。第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第1のスペクトルパラメータは、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、各静音フレームは、重み係数の1つのグループに対応してもよい。重み係数の1つのグループにおいて、サブバンドの第1のグループに対応する重み係数は、サブバンドの第2のグループに対応する重み係数より大きく、サブバンドの第1のグループの知覚重要度は、サブバンドの第2のグループの知覚重要度より大きい。
任意選択で、他の実施例として、第2の決定ユニット820は、P個の静音フレームの中の第1の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから第1の静音フレームを選択してもよく、第1の静音フレームのスペクトルパラメータが第1のスペクトルパラメータであると決定してもよい。
任意選択で、他の実施例として、第2の決定ユニット820は、P個の静音フレームの中の少なくとも1つの静音フレームのグループ加重スペクトル距離が第3の閾値未満になるように、P個の静音フレームから少なくとも1つの静音フレームを選択し、少なくとも1つの静音フレームのスペクトルパラメータに従って第1のスペクトルパラメータを決定してもよい。
任意選択で、他の実施例として、デバイス800がエンコーダである場合、デバイス800は、符号化ユニット830を更に含んでもよい。
P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含んでもよい。符号化ユニット830は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第2の決定ユニット820により決定された第1のスペクトルパラメータを含む。
デバイス800の他の機能及び動作については、前述の図4の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図9は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図9のデバイス900の例は、エンコーダ又はデコーダであり、例えば、図1に示すエンコーダ110又はデコーダ120である。デバイス900は、分割ユニット910と、第1の決定ユニット920と、第2の決定ユニット930とを含む。
分割ユニット910は、入力信号の周波数帯域をR個のサブバンドに分割する。Rは正の整数である。第1の決定ユニット920は、分割ユニット910が分割を実行した後に取得されたR個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定する。S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数である。第2の決定ユニット930は、各サブバンドにおいて、S個の静音フレームの中の各静音フレームの、第1の決定ユニット920により決定されたスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定する。各サブバンドの第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される各サブバンドのスペクトルパラメータは、S個の静音フレームの中の各静音フレームのスペクトル距離に従ってR個のサブバンドの各サブバンドにおいて決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、第2の決定ユニット930は、各サブバンドにおいてS個の静音フレームの中の第1の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいて、S個の静音フレームから第1の静音フレームを選択し、各サブバンドにおいて、第1の静音フレームのスペクトルパラメータが各サブバンドの第1のスペクトルパラメータであると決定してもよい。
任意選択で、他の実施例として、第2の決定ユニット930は、少なくとも1つの静音フレームのサブバンドグループスペクトル距離が第4の閾値未満になるように、各サブバンドにおいて、S個の静音フレームから少なくとも1つの静音フレームを選択し、各サブバンドにおいて、少なくとも1つの静音フレームのスペクトルパラメータに従って各サブバンドの第1のスペクトルパラメータを決定してもよい。
任意選択で、他の実施例として、デバイス900がエンコーダである場合、デバイス900は、符号化ユニット940を更に含んでもよい。
S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含んでもよい。符号化ユニット940は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、各サブバンドの第1のスペクトルパラメータを含む。
デバイス900の他の機能及び動作については、前述の図5の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図10は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図10のデバイス1000の例は、エンコーダ又はデコーダであり、例えば、図1に示すエンコーダ110又はデコーダ120である。デバイス1000は、第1の決定ユニット1010と、第2の決定ユニット1020とを含む。
第1の決定ユニット1010は、T個の静音フレームの中の各静音フレームの第1のパラメータを決定する。第1のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数である。第2の決定ユニット1020は、T個の静音フレームの中の各静音フレームの、第1の決定ユニット1010により決定された第1のパラメータに従って第1のスペクトルパラメータを決定する。第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第1のスペクトルパラメータは、スペクトルエントロピーを表すために使用されるT個の静音フレームの第1のパラメータに従って決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、第2の決定ユニット1020は、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ることが決定された場合、静音フレームの第1のグループのスペクトルパラメータに従って第1のスペクトルパラメータを決定してもよい。静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ないことが決定された場合、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。
任意選択で、他の実施例として、クラスタ化基準は、静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離が静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離以下であること、静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離が静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離以下であること、第1の平均値と第2の平均値との間の距離が静音フレームの第1のグループの第1のパラメータと第1の平均値との間の平均距離より大きいこと、及び第1の平均値と第2の平均値との間の距離が静音フレームの第2のグループの第1のパラメータと第2の平均値との間の平均距離より大きいことを含んでもよい。第1の平均値は、静音フレームの第1のグループの第1のパラメータの平均値であり、第2の平均値は、静音フレームの第2のグループの第1のパラメータの平均値である。
任意選択で、他の実施例として、第2の決定ユニット1020は、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上である。第1のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータより大きい。第1のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータ未満である。i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである。
任意選択で、他の実施例として、デバイス1000がエンコーダである場合、デバイス1000は、符号化ユニット1030を更に含んでもよい。
T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含んでもよい。符号化ユニット1030は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第1のスペクトルパラメータを含む。
デバイス1000の他の機能及び動作については、前述の図6の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図11は、本発明の他の実施例による信号符号化デバイスの概略ブロック図である。図11のデバイス1100の例は、エンコーダである。デバイス1100は、メモリ1110と、プロセッサ1120とを含む。
メモリ1110は、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、不揮発性メモリ、又はレジスタを含んでもよい。プロセッサ1120は、中央処理装置(Central Processing Unit、CPU)でもよい。
メモリ1110は、実行可能命令を記憶するように構成される。プロセッサ1120は、メモリ1110に記憶された実行可能命令を実行し、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定し、現在の入力フレームは静音フレームであり、コンフォートノイズと実際の静音信号との間の逸脱度を決定し、逸脱度に従って現在の入力フレームの符号化方式を決定し、現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を含み、現在の入力フレームの符号化方式に従って現在の入力フレームを符号化してもよい。
本発明のこの実施例では、現在の入力フレームが単にアクティブ音声フレームの、統計収集を通じて取得された量に従ってハングオーバフレームに符号化されるのではなく、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがSIDフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズが予測され、コンフォートノイズと実際の静音信号との間の逸脱度が決定され、逸脱度に従って現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はSIDフレーム符号化方式であることが決定される。これにより、通信帯域幅を節約する。
任意選択で、実施例として、プロセッサ1120は、コンフォートノイズの特徴パラメータを予測し、実際の静音信号の特徴パラメータを決定してもよい。コンフォートノイズの特徴パラメータは、実際の静音信号の特徴パラメータと1対1の対応関係にある。プロセッサ1120は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離を決定してもよい。
任意選択で、他の実施例として、プロセッサ1120は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値未満である場合、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離は、閾値集合の中の閾値と1対1の対応関係にある。プロセッサ1120は、コンフォートノイズの特徴パラメータと実際の静音信号の特徴パラメータとの間の距離が閾値集合の中の対応する閾値以上である場合、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。
任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、エネルギー情報及びスペクトル情報の情報のうち少なくとも1つを表すために使用されてもよい。
任意選択で、他の実施例として、エネルギー情報は、CELP励振エネルギーを含んでもよい。スペクトル情報は、線形予測フィルタ係数、FFT係数及びMDCT係数のうち少なくとも1つを含んでもよい。線形予測フィルタ係数は、LSF係数、LSP係数、ISF係数、ISP係数、反射係数及びLPC係数のうち少なくとも1つを含んでもよい。
任意選択で、他の実施例として、プロセッサ1120は、現在の入力フレームの前のフレームのコンフォートノイズパラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。或いは、プロセッサ1120は、現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び現在の入力フレームの特徴パラメータに従ってコンフォートノイズの特徴パラメータを予測してもよい。Lは正の整数である。
任意選択で、他の実施例として、プロセッサ1120は、現在の入力フレームの特徴パラメータが実際の静音信号のパラメータであると決定してもよい。或いは、プロセッサ1120は、実際の静音信号のパラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集してもよい。
任意選択で、他の実施例として、M個の静音フレームは、現在の入力フレームと、現在の入力フレームの前の(M-1)個の静音フレームとを含んでもよい。Mは正の整数である。
任意選択で、他の実施例として、コンフォートノイズの特徴パラメータは、コンフォートノイズの符号励振線形予測(CELP)励振エネルギー及びコンフォートノイズの線スペクトル周波数(LSF)係数を含んでもよい。実際の静音信号の特徴パラメータは、実際の静音信号のCELP励振エネルギー及び実際の静音信号のLSF係数を含んでもよい。プロセッサ1120は、コンフォートノイズのCELP励振エネルギーと実際の静音信号のCELP励振エネルギーとの間の距離Deを決定し、コンフォートノイズのLSF係数と実際の静音信号のLSF係数との間の距離Dlsfを決定してもよい。
任意選択で、他の実施例として、距離Deが第1の閾値未満であり、距離Dlsfが第2の閾値未満である場合、プロセッサ1120は、現在の入力フレームの符号化方式がSIDフレーム符号化方式であると決定してもよい。距離Deが第1の閾値以上であるか、或いは距離Dlsfが第2の閾値以上である場合、プロセッサ1120は、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式であると決定してもよい。
任意選択で、他の実施例として、プロセッサ1120は、予め設定された第1の閾値及び予め設定された第2の閾値を更に取得してもよい。或いは、プロセッサ1120は、現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って第1の閾値を決定し、N個の静音フレームのLSF係数に従って第2の閾値を更に決定してもよい。Nは正の整数である。
任意選択で、他の実施例として、プロセッサ1120は、第1の予測方式でコンフォートノイズを予測してもよい。第1の予測方式は、デコーダがコンフォートノイズを生成する方式と同じである。
デバイス1100の他の機能及び動作については、前述の図1〜図3bの方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図12は、本発明の他の実施例による信号符号化デバイスの概略ブロック図である。図12のデバイス1200の例は、エンコーダ又はデコーダであり、例えば、図1に示すエンコーダ110又はデコーダ120である。デバイス1200は、メモリ1210と、プロセッサ1220とを含む。
メモリ1210は、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、不揮発性メモリ、又はレジスタを含んでもよい。プロセッサ1220は、CPUでもよい。
メモリ1210は、実行可能命令を記憶するように構成される。プロセッサ1220は、メモリ1210に記憶された実行可能命令を実行し、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離を決定し、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離は、P個の静音フレームの中の各静音フレームと他の(P-1)個の静音フレームとの間の加重スペクトル距離の和であり、Pは正の整数であり、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って第1のスペクトルパラメータを決定してもよく、第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第1のスペクトルパラメータは、P個の静音フレームの中の各静音フレームのグループ加重スペクトル距離に従って決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、各静音フレームは、重み係数の1つのグループに対応してもよい。重み係数の1つのグループにおいて、サブバンドの第1のグループに対応する重み係数は、サブバンドの第2のグループに対応する重み係数より大きく、サブバンドの第1のグループの知覚重要度は、サブバンドの第2のグループの知覚重要度より大きい。
任意選択で、他の実施例として、プロセッサ1220は、P個の静音フレームの中の第1の静音フレームのグループ加重スペクトル距離が最小になるように、P個の静音フレームから第1の静音フレームを選択してもよく、第1の静音フレームのスペクトルパラメータが第1のスペクトルパラメータであると決定してもよい。
任意選択で、他の実施例として、プロセッサ1220は、P個の静音フレームの中の少なくとも1つの静音フレームのグループ加重スペクトル距離が第3の閾値未満になるように、P個の静音フレームから少なくとも1つの静音フレームを選択し、少なくとも1つの静音フレームのスペクトルパラメータに従って第1のスペクトルパラメータを決定してもよい。
任意選択で、他の実施例として、デバイス1200がエンコーダである場合、P個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(P-1)個の静音フレームとを含んでもよい。プロセッサ1220は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第1のスペクトルパラメータを含む。
デバイス1200の他の機能及び動作については、前述の図4の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図13は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図13のデバイス1300の例は、エンコーダ又はデコーダであり、例えば、図1に示すエンコーダ110又はデコーダ120である。デバイス1300は、メモリ1310と、プロセッサ1320とを含む。
メモリ1310は、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、不揮発性メモリ、又はレジスタを含んでもよい。プロセッサ1320は、CPUでもよい。
メモリ1310は、実行可能命令を記憶するように構成される。プロセッサ1320は、メモリ1310に記憶された実行可能命令を実行し、入力信号の周波数帯域をR個のサブバンドに分割し、Rは正の整数であり、R個のサブバンドの各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離を決定し、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離は、各サブバンドにおけるS個の静音フレームの中の各静音フレームと他の(S-1)個の静音フレームとの間のスペクトル距離の和であり、Sは正の整数であり、各サブバンドにおいて、S個の静音フレームの中の各静音フレームのサブバンドグループスペクトル距離に従って各サブバンドの第1のスペクトルパラメータを決定してもよく、各サブバンドの第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される各サブバンドのスペクトルパラメータは、S個の静音フレームの中の各静音フレームのスペクトル距離に従ってR個のサブバンドの各サブバンドにおいて決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、プロセッサ1320は、各サブバンドにおいてS個の静音フレームの中の第1の静音フレームのサブバンドグループスペクトル距離が最小になるように、各サブバンドにおいて、S個の静音フレームから第1の静音フレームを選択し、各サブバンドにおいて、第1の静音フレームのスペクトルパラメータが各サブバンドの第1のスペクトルパラメータであると決定してもよい。
任意選択で、他の実施例として、プロセッサ1320は、少なくとも1つの静音フレームのサブバンドグループスペクトル距離が第4の閾値未満になるように、各サブバンドにおいて、S個の静音フレームから少なくとも1つの静音フレームを選択し、各サブバンドにおいて、少なくとも1つの静音フレームのスペクトルパラメータに従って各サブバンドの第1のスペクトルパラメータを決定してもよい。
任意選択で、他の実施例として、デバイス1300がエンコーダである場合、S個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(S-1)個の静音フレームとを含んでもよい。プロセッサ1320は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、各サブバンドの第1のスペクトルパラメータを含む。
デバイス1300の他の機能及び動作については、前述の図5の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
図14は、本発明の他の実施例による信号処理デバイスの概略ブロック図である。図14のデバイス1400の例は、エンコーダ又はデコーダであり、例えば、図1に示すエンコーダ110又はデコーダ120である。デバイス1400は、メモリ1410と、プロセッサ1420とを含む。
メモリ1410は、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラム可能読み取り専用メモリ、不揮発性メモリ、又はレジスタを含んでもよい。プロセッサ1420は、CPUでもよい。
メモリ1410は、実行可能命令を記憶するように構成される。プロセッサ1420は、メモリ1410に記憶された実行可能命令を実行し、T個の静音フレームの中の各静音フレームの第1のパラメータを決定し、第1のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数であり、T個の静音フレームの中の各静音フレームの第1のパラメータに従って第1のスペクトルパラメータを決定してもよく、第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される。
本発明のこの実施例では、コンフォートノイズを生成するために使用されるスペクトルパラメータが単に複数の静音フレームのスペクトルパラメータの平均値又は中央値を取得することにより取得されるのではなく、コンフォートノイズを生成するために使用される第1のスペクトルパラメータは、スペクトルエントロピーを表すために使用されるT個の静音フレームの第1のパラメータに従って決定される。これにより、コンフォートノイズの品質を改善する。
任意選択で、実施例として、プロセッサ1420は、T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ることが決定された場合、静音フレームの第1のグループのスペクトルパラメータに従って第1のスペクトルパラメータを決定してもよい。静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。T個の静音フレームがクラスタ化基準に従って静音フレームの第1のグループ及び静音フレームの第2のグループに分類され得ないことが決定された場合、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。静音フレームの第1のグループの第1のパラメータにより表されるスペクトルエントロピーは、静音フレームの第2のグループの第1のパラメータにより表されるスペクトルエントロピーより大きい。
任意選択で、他の実施例として、クラスタ化基準は、静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離が静音フレームの第1のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離以下であること、静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第2の平均値との間の距離が静音フレームの第2のグループの中の各静音フレームの第1のパラメータと第1の平均値との間の距離以下であること、第1の平均値と第2の平均値との間の距離が静音フレームの第1のグループの第1のパラメータと第1の平均値との間の平均距離より大きいこと、及び第1の平均値と第2の平均値との間の距離が静音フレームの第2のグループの第1のパラメータと第2の平均値との間の平均距離より大きいことを含んでもよい。第1の平均値は、静音フレームの第1のグループの第1のパラメータの平均値であり、第2の平均値は、静音フレームの第2のグループの第1のパラメータの平均値である。
任意選択で、他の実施例として、プロセッサ1420は、第1のスペクトルパラメータを決定するために、T個の静音フレームのスペクトルパラメータにおいて加重平均を実行してもよい。異なる第iの静音フレーム及び第jの静音フレームについて、T個の静音フレームの中で、第iの静音フレームに対応する重み係数は、第jの静音サブフレームに対応する重み係数以上である。第1のパラメータがスペクトルエントロピーに正相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータより大きい。第1のパラメータがスペクトルエントロピーに負相関している場合、第iの静音フレームの第1のパラメータは、第jの静音フレームの第1のパラメータ未満である。i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである。
任意選択で、他の実施例として、デバイス1400がエンコーダである場合、T個の静音フレームは、現在の入力静音フレームと、現在の入力静音フレームの前の(T-1)個の静音フレームとを含んでもよい。プロセッサ1420は、現在の入力静音フレームをSIDフレームに符号化してもよい。SIDフレームは、第1のスペクトルパラメータを含む。
デバイス1400の他の機能及び動作については、前述の図6の方法の実施例の処理に参照が行われてもよい。繰り返しを避けるために、更なる詳細はここで再び提供されない。
当業者は、この明細書に開示された実施例に記載の例と組み合わせて、ユニット及びアルゴリズムのステップが、電子ハードウェア又はコンピュータソフトウェアと電子ハードウェアとの組み合わせにより実現されてもよいことを認識し得る。機能がハードウェアにより実行されるかソフトウェアにより実行されるかは、技術的対策の特定の用途及び設計上の制約条件に依存する。当業者は、特定の用途毎に記載の機能を実現するために異なる方法を使用してもよいが、この実現が本発明の範囲を超えるものとして考えられるべきではない。
便宜上且つ簡潔な説明の目的で、前述のシステム、装置及びユニットの詳細な動作処理について、前述の方法の実施例の対応する処理に参照が行われてもよく、詳細はここでは再び説明しないことが、当業者により明確に認識され得る。
この出願で提供される複数の実施例では、開示のシステム、装置及び方法は他の方式で実現されてもよいことが認識されるべきである。例えば、記載の装置の実施例は、単なる例示である。例えば、ユニットの分割は、単に論理的な機能分割であり、実際の実現では他の分割でもよい。例えば、複数のユニット又はコンポーネントは結合されてもよく、他のシステムに統合されてもよく、いくつかの機能が無視されてもよく実行されなくてもよい。更に、表示又は説明した相互結合若しくは直接結合又は通信接続は、いくつかのインタフェースを使用することにより実現されてもよい。装置又はユニットの間の間接結合又は通信接続は、電気的、機械的又は他の形式で実現されてもよい。
別々の部分として記載したユニットは、物理的に別々でもよく別々でなくてもよい。ユニットとして表示された部分は、物理的なユニットでもよく物理的なユニットでなくてもよく、1つの位置に存在してもよく、複数のネットワークユニットに分散されてもよい。ユニットの一部又は全部は、実施例の対策の目的を達成するために、実際のニーズに従って選択されてもよい。
更に、本発明の実施例における機能ユニットは、1つの処理ユニットに統合されてもよく、ユニットのそれぞれが物理的に単独で存在してもよく、2つ以上のユニットが1つのユニットに統合されてもよい。
機能がソフトウェア機能ユニットの形式で実現され、独立したプロダクトとして販売又は使用される場合、機能は、コンピュータ読み取り可能記憶媒体に記憶されてもよい。このような理解に基づいて、基本的に本発明の技術的対策若しくは従来技術に寄与する部分、又は技術的対策のいくつかは、ソフトウェアプロダクトの形式で実現されてもよい。コンピュータソフトウェアプロダクトは、記憶媒体に記憶され、コンピュータデバイス(パーソナルコンピュータ、サーバ又はネットワークデバイスでもよい)に対して本発明の実施例に記載の方法のステップの一部又は全部を実行するように命令する複数の命令を含む。前述の記憶媒体は、USBフラッシュドライブ、取り外し可能ハードディスク、読み取り専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク又は光ディスクのようなプログラムコードを記憶し得るいずれかの媒体を含む。
前述の説明は本発明の単に特定の実現方式に過ぎず、本発明の保護範囲を限定することを意図するものではない。本発明に開示された技術的範囲内で当業者により容易に認識される如何なる変更又は置換も、本発明の保護範囲内に入るものとする。従って、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。

Claims (28)

  1. 現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、前記現在の入力フレームが静音記述(SID)フレームに符号化される場合に前記現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するステップであり、前記現在の入力フレームは静音フレームであるステップと、
    前記コンフォートノイズと前記実際の静音信号との間の逸脱度を決定するステップと、
    前記逸脱度に従って前記現在の入力フレームの符号化方式を決定するステップであり、前記現在の入力フレームの前記符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を有するステップと、
    前記現在の入力フレームの前記符号化方式に従って前記現在の入力フレームを符号化するステップと
    を有する信号符号化方法。
  2. 前記現在の入力フレームがSIDフレームに符号化される場合に前記現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、前記実際の静音信号を決定するステップは、
    前記コンフォートノイズの特徴パラメータを予測し、前記実際の静音信号の特徴パラメータを決定するステップであり、前記コンフォートノイズの前記特徴パラメータは、前記実際の静音信号の前記特徴パラメータと1対1の対応関係にあるステップを有し、
    前記コンフォートノイズと前記実際の静音信号との間の逸脱度を決定するステップは、
    前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の距離を決定するステップを有する、請求項1に記載の方法。
  3. 前記逸脱度に従って前記現在の入力フレームの符号化方式を決定するステップは、
    前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離が閾値集合の中の対応する閾値未満である場合、前記現在の入力フレームの前記符号化方式が前記SIDフレーム符号化方式であると決定するステップであり、前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離は、前記閾値集合の中の前記閾値と1対1の対応関係にあるステップと、
    前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離が前記閾値集合の中の前記対応する閾値以上である場合、前記現在の入力フレームの前記符号化方式が前記ハングオーバフレーム符号化方式であると決定するステップと
    を有する、請求項2に記載の方法。
  4. 前記コンフォートノイズの前記特徴パラメータは、エネルギー情報及びスペクトル情報の情報のうち少なくとも1つを表すために使用される、請求項2又は3に記載の方法。
  5. 前記エネルギー情報は、符号励振線形予測(CELP)励振エネルギーを有し、
    前記スペクトル情報は、線形予測フィルタ係数、高速フーリエ変換(FFT)係数及び修正離散コサイン変換(MDCT)係数のうち少なくとも1つを有し、
    前記線形予測フィルタ係数は、線スペクトル周波数(LSF)係数、線スペクトル対(LSP)係数、イミタンススペクトル周波数(ISF)係数、イミタンススペクトル対(ISP)係数、反射係数及び線形予測符号化(LPC)係数のうち少なくとも1つを有する、請求項4に記載の方法。
  6. 前記コンフォートノイズの特徴パラメータを予測するステップは、
    前記現在の入力フレームの前記前のフレームのコンフォートノイズパラメータ及び前記現在の入力フレームの特徴パラメータに従って前記コンフォートノイズの前記特徴パラメータを予測するステップ、又は
    前記現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び前記現在の入力フレームの特徴パラメータに従って前記コンフォートノイズの前記特徴パラメータを予測するステップであり、Lは正の整数であるステップ
    を有する、請求項2ないし5のうちいずれか1項に記載の方法。
  7. 前記実際の静音信号の特徴パラメータを決定するステップは、
    前記現在の入力フレームの前記特徴パラメータを前記実際の静音信号の前記特徴パラメータとして使用するステップ、又は
    前記実際の静音信号の前記特徴パラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集するステップ
    を有する、請求項2ないし6のうちいずれか1項に記載の方法。
  8. 前記M個の静音フレームは、前記現在の入力フレームと、前記現在の入力フレームの前の(M-1)個の静音フレームとを有し、Mは正の整数である、請求項7に記載の方法。
  9. 前記コンフォートノイズの前記特徴パラメータは、前記コンフォートノイズの符号励振線形予測(CELP)励振エネルギー及び前記コンフォートノイズの線スペクトル周波数(LSF)係数を有し、前記実際の静音信号の前記特徴パラメータは、前記実際の静音信号のCELP励振エネルギー及び前記実際の静音信号のLSF係数を有し、
    前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の距離を決定するステップは、
    前記コンフォートノイズの前記CELP励振エネルギーと前記実際の静音信号の前記CELP励振エネルギーとの間の距離Deを決定し、前記コンフォートノイズの前記LSF係数と前記実際の静音信号の前記LSF係数との間の距離Dlsfを決定するステップを有する、請求項3に記載の方法。
  10. 前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離が閾値集合の中の対応する閾値未満である場合、前記現在の入力フレームの前記符号化方式が前記SIDフレーム符号化方式であると決定するステップは、
    前記距離Deが第1の閾値未満であり、前記距離Dlsfが第2の閾値未満である場合、前記現在の入力フレームの前記符号化方式が前記SIDフレーム符号化方式であると決定するステップを有し、
    前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離が前記閾値集合の中の前記対応する閾値以上である場合、前記現在の入力フレームの前記符号化方式が前記ハングオーバフレーム符号化方式であると決定するステップは、
    前記距離Deが前記第1の閾値以上であるか、或いは前記距離Dlsfが前記第2の閾値以上である場合、前記現在の入力フレームの前記符号化方式が前記ハングオーバフレーム符号化方式であると決定するステップを有する、請求項9に記載の方法。
  11. 予め設定された前記第1の閾値及び予め設定された前記第2の閾値を取得するステップ、又は
    前記現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って前記第1の閾値を決定し、前記N個の静音フレームのLSF係数に従って前記第2の閾値を決定するステップであり、Nは正の整数であるステップ
    を更に有する、請求項10に記載の方法。
  12. 前記現在の入力フレームがSIDフレームに符号化される場合に前記現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測するステップは、
    第1の予測方式で前記コンフォートノイズを予測するステップであり、前記第1の予測方式は、前記デコーダが前記コンフォートノイズを生成する方式と同じであるステップを有する、請求項1ないし11のうちいずれか1項に記載の方法。
  13. T個の静音フレームの中の各静音フレームの第1のパラメータを決定するステップであり、前記第1のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数であるステップと、
    前記T個の静音フレームの中の各静音フレームの前記第1のパラメータに従って第1のスペクトルパラメータを決定するステップであり、前記第1のスペクトルパラメータは、コンフォートノイズを生成するために使用されるステップと
    を有する信号処理方法。
  14. 前記T個の静音フレームの中の各静音フレームの前記第1のパラメータに従って第1のスペクトルパラメータを決定するステップは、
    前記第1のスペクトルパラメータを決定するために、前記T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するステップであり、
    異なる第iの静音フレーム及び第jの静音フレームについて、前記T個の静音フレームの中で、前記第iの静音フレームに対応する重み係数は、前記第jの静音サブフレームに対応する重み係数以上であり、
    前記第1のパラメータが前記スペクトルエントロピーに正相関している場合、前記第iの静音フレームの第1のパラメータは、前記第jの静音フレームの第1のパラメータより大きく、前記第1のパラメータが前記スペクトルエントロピーに負相関している場合、前記第iの静音フレームの前記第1のパラメータは、前記第jの静音フレームの前記第1のパラメータ未満であり、i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tであるステップ
    を有する、請求項13に記載の方法。
  15. 前記T個の静音フレームは、現在の入力静音フレームと、前記現在の入力静音フレームの前の(T-1)個の静音フレームとを有する、請求項13又は14に記載の方法。
  16. 前記現在の入力静音フレームを静音記述(SID)フレームに符号化するステップであり、前記SIDフレームは、前記第1のスペクトルパラメータを有するステップを更に有する、請求項15に記載の方法。
  17. 現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、前記現在の入力フレームが静音記述(SID)フレームに符号化される場合に前記現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するように構成された第1の決定ユニットであり、前記現在の入力フレームは静音フレームである第1の決定ユニットと、
    前記第1の決定ユニットにより決定された前記コンフォートノイズと前記第1の決定ユニットにより決定された前記実際の静音信号との間の逸脱度を決定するように構成された第2の決定ユニットと、
    前記第2の決定ユニットにより決定された前記逸脱度に従って前記現在の入力フレームの符号化方式を決定するように構成された第3の決定ユニットであり、前記現在の入力フレームの前記符号化方式は、ハングオーバフレーム符号化方式又はSIDフレーム符号化方式を有する第3の決定ユニットと、
    前記第3の決定ユニットにより決定された前記現在の入力フレームの前記符号化方式に従って前記現在の入力フレームを符号化するように構成された符号化ユニットと
    を有する信号符号化デバイス。
  18. 前記第1の決定ユニットは、前記コンフォートノイズの特徴パラメータを予測し、前記実際の静音信号の特徴パラメータを決定するように具体的に構成され、前記コンフォートノイズの前記特徴パラメータは、前記実際の静音信号の前記特徴パラメータと1対1の対応関係にあり、
    前記第2の決定ユニットは、前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の距離を決定するように具体的に構成される、請求項17に記載のデバイス。
  19. 前記第3の決定ユニットは、前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離が閾値集合の中の対応する閾値未満である場合、前記現在の入力フレームの前記符号化方式が前記SIDフレーム符号化方式であると決定するように具体的に構成され、前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離は、前記閾値集合の中の前記閾値と1対1の対応関係にあり、前記コンフォートノイズの前記特徴パラメータと前記実際の静音信号の前記特徴パラメータとの間の前記距離が前記閾値集合の中の前記対応する閾値以上である場合、前記現在の入力フレームの前記符号化方式が前記ハングオーバフレーム符号化方式であると決定するように具体的に構成される、請求項18に記載のデバイス。
  20. 前記第1の決定ユニットは、前記現在の入力フレームの前記前のフレームのコンフォートノイズパラメータ及び前記現在の入力フレームの特徴パラメータに従って前記コンフォートノイズの前記特徴パラメータを予測するように、或いは前記現在の入力フレームの前のL個のハングオーバフレームの特徴パラメータ及び前記現在の入力フレームの特徴パラメータに従って前記コンフォートノイズの前記特徴パラメータを予測するように具体的に構成され、Lは正の整数である、請求項18又は19に記載のデバイス。
  21. 前記第1の決定ユニットは、前記現在の入力フレームの前記特徴パラメータが前記実際の静音信号の前記特徴パラメータであると決定するように、或いは前記実際の静音信号の前記特徴パラメータを決定するために、M個の静音フレームの特徴パラメータにおける統計を収集するように具体的に構成される、請求項18ないし20のうちいずれか1項に記載のデバイス。
  22. 前記コンフォートノイズの前記特徴パラメータは、前記コンフォートノイズの符号励振線形予測(CELP)励振エネルギー及び前記コンフォートノイズの線スペクトル周波数(LSF)係数を有し、前記実際の静音信号の前記特徴パラメータは、前記実際の静音信号のCELP励振エネルギー及び前記実際の静音信号のLSF係数を有し、
    前記第2の決定ユニットは、前記コンフォートノイズの前記CELP励振エネルギーと前記実際の静音信号の前記CELP励振エネルギーとの間の距離Deを決定し、前記コンフォートノイズの前記LSF係数と前記実際の静音信号の前記LSF係数との間の距離Dlsfを決定するように具体的に構成される、請求項19に記載のデバイス。
  23. 前記第3の決定ユニットは、前記距離Deが第1の閾値未満であり、前記距離Dlsfが第2の閾値未満である場合、前記現在の入力フレームの前記符号化方式が前記SIDフレーム符号化方式であると決定するように具体的に構成され、
    前記第3の決定ユニットは、前記距離Deが前記第1の閾値以上であるか、或いは前記距離Dlsfが前記第2の閾値以上である場合、前記現在の入力フレームの前記符号化方式が前記ハングオーバフレーム符号化方式であると決定するように具体的に構成される、請求項22に記載のデバイス。
  24. 予め設定された前記第1の閾値及び予め設定された前記第2の閾値を取得するように、或いは前記現在の入力フレームの前のN個の静音フレームのCELP励振エネルギーに従って前記第1の閾値を決定し、前記N個の静音フレームのLSF係数に従って前記第2の閾値を決定するように構成された第4の決定ユニットを更に有し、Nは正の整数である、請求項23に記載のデバイス。
  25. 前記第1の決定ユニットは、第1の予測方式で前記コンフォートノイズを予測するように具体的に構成され、前記第1の予測方式は、前記デコーダが前記コンフォートノイズを生成する方式と同じである、請求項17ないし24のうちいずれか1項に記載のデバイス。
  26. T個の静音フレームの中の各静音フレームの第1のパラメータを決定するように構成された第1の決定ユニットであり、前記第1のパラメータは、スペクトルエントロピーを表すために使用され、Tは正の整数である第1の決定ユニットと、
    前記T個の静音フレームの中の各静音フレームの、前記第1の決定ユニットにより決定された前記第1のパラメータに従って第1のスペクトルパラメータを決定するように構成された第2の決定ユニットであり、前記第1のスペクトルパラメータは、コンフォートノイズを生成するために使用される第2の決定ユニットと
    を有する信号処理デバイス。
  27. 前記第2の決定ユニットは、前記第1のスペクトルパラメータを決定するために、前記T個の静音フレームのスペクトルパラメータにおいて加重平均を実行するように具体的に構成され、
    異なる第iの静音フレーム及び第jの静音フレームについて、前記T個の静音フレームの中で、前記第iの静音フレームに対応する重み係数は、前記第jの静音サブフレームに対応する重み係数以上であり、前記第1のパラメータが前記スペクトルエントロピーに正相関している場合、前記第iの静音フレームの第1のパラメータは、前記第jの静音フレームの第1のパラメータより大きく、前記第1のパラメータが前記スペクトルエントロピーに負相関している場合、前記第iの静音フレームの前記第1のパラメータは、前記第jの静音フレームの前記第1のパラメータ未満であり、i及びjは共に正の整数であり、1≦i≦T且つ1≦j≦Tである、請求項26に記載のデバイス。
  28. 前記T個の静音フレームは、現在の入力静音フレームと、前記現在の入力静音フレームの前の(T-1)個の静音フレームとを有し、
    前記現在の入力静音フレームを静音記述(SID)フレームに符号化するように構成された符号化ユニットであり、前記SIDフレームは、前記第1のスペクトルパラメータを有する符号化ユニットを更に有する、請求項26又は27に記載のデバイス。
JP2017130240A 2013-05-30 2017-07-03 信号符号化方法及びデバイス Active JP6517276B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310209760.9 2013-05-30
CN201310209760.9A CN104217723B (zh) 2013-05-30 2013-05-30 信号编码方法及设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016515602A Division JP6291038B2 (ja) 2013-05-30 2013-09-25 信号符号化方法及びデバイス

Publications (2)

Publication Number Publication Date
JP2017199025A true JP2017199025A (ja) 2017-11-02
JP6517276B2 JP6517276B2 (ja) 2019-05-22

Family

ID=51987922

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2016515602A Active JP6291038B2 (ja) 2013-05-30 2013-09-25 信号符号化方法及びデバイス
JP2017130240A Active JP6517276B2 (ja) 2013-05-30 2017-07-03 信号符号化方法及びデバイス
JP2018020720A Active JP6680816B2 (ja) 2013-05-30 2018-02-08 信号符号化方法及びデバイス

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016515602A Active JP6291038B2 (ja) 2013-05-30 2013-09-25 信号符号化方法及びデバイス

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2018020720A Active JP6680816B2 (ja) 2013-05-30 2018-02-08 信号符号化方法及びデバイス

Country Status (17)

Country Link
US (2) US9886960B2 (ja)
EP (3) EP3007169B1 (ja)
JP (3) JP6291038B2 (ja)
KR (2) KR20170110737A (ja)
CN (3) CN106169297B (ja)
AU (2) AU2013391207B2 (ja)
BR (1) BR112015029310B1 (ja)
CA (2) CA3016741C (ja)
ES (2) ES2812553T3 (ja)
HK (1) HK1203685A1 (ja)
MX (1) MX355032B (ja)
MY (1) MY161735A (ja)
PH (2) PH12015502663B1 (ja)
RU (2) RU2638752C2 (ja)
SG (3) SG11201509143PA (ja)
WO (1) WO2014190641A1 (ja)
ZA (1) ZA201706413B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106169297B (zh) * 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
CN107731223B (zh) * 2017-11-22 2022-07-26 腾讯科技(深圳)有限公司 语音活性检测方法、相关装置和设备
CN110660402B (zh) 2018-06-29 2022-03-29 华为技术有限公司 立体声信号编码过程中确定加权系数的方法和装置
CN111918196B (zh) * 2019-05-08 2022-04-19 腾讯科技(深圳)有限公司 一种音频采集器录音异常的诊断方法、装置、设备及存储介质
US11460927B2 (en) * 2020-03-19 2022-10-04 DTEN, Inc. Auto-framing through speech and video localizations
CN114495951A (zh) * 2020-11-11 2022-05-13 华为技术有限公司 音频编解码方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10190498A (ja) * 1996-11-15 1998-07-21 Nokia Mobile Phones Ltd 不連続伝送中に快適雑音を発生させる改善された方法
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
JP2003076394A (ja) * 2001-08-31 2003-03-14 Fujitsu Ltd 音声符号変換方法及び装置
JP2003529950A (ja) * 1998-11-23 2003-10-07 テレフォンアクチーボラゲット エル エム エリクソン(パブル) 忠実度改善のためのコンフォートノイズ変動特性に基づく音声符号化
JP2004525540A (ja) * 2000-11-27 2004-08-19 ノキア コーポレーション 音声通信中に快適ノイズを発生するための方法およびシステム

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2541484B2 (ja) * 1992-11-27 1996-10-09 日本電気株式会社 音声符号化装置
CA2110090C (en) 1992-11-27 1998-09-15 Toshihiro Hayata Voice encoder
FR2739995B1 (fr) 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US6269331B1 (en) * 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
US6381568B1 (en) * 1999-05-05 2002-04-30 The United States Of America As Represented By The National Security Agency Method of transmitting speech using discontinuous transmission and comfort noise
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
US20030120484A1 (en) * 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US7454010B1 (en) * 2004-11-03 2008-11-18 Acoustic Technologies, Inc. Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation
US20060149536A1 (en) * 2004-12-30 2006-07-06 Dunling Li SID frame update using SID prediction error
WO2006104576A2 (en) * 2005-03-24 2006-10-05 Mindspeed Technologies, Inc. Adaptive voice mode extension for a voice activity detector
CA2609945C (en) * 2005-06-18 2012-12-04 Nokia Corporation System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US20070294087A1 (en) * 2006-05-05 2007-12-20 Nokia Corporation Synthesizing comfort noise
CN101496095B (zh) * 2006-07-31 2012-11-21 高通股份有限公司 用于信号变化检测的系统、方法及设备
US8725499B2 (en) 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
RU2319222C1 (ru) * 2006-08-30 2008-03-10 Валерий Юрьевич Тарасов Способ кодирования и декодирования речевого сигнала методом линейного предсказания
WO2008090564A2 (en) * 2007-01-24 2008-07-31 P.E.S Institute Of Technology Speech activity detection
US20100106490A1 (en) 2007-03-29 2010-04-29 Jonas Svedberg Method and Speech Encoder with Length Adjustment of DTX Hangover Period
CN101303855B (zh) * 2007-05-11 2011-06-22 华为技术有限公司 一种舒适噪声参数产生方法和装置
CN101320563B (zh) 2007-06-05 2012-06-27 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
CN101335003B (zh) 2007-09-28 2010-07-07 华为技术有限公司 噪声生成装置、及方法
CN101430880A (zh) * 2007-11-07 2009-05-13 华为技术有限公司 一种背景噪声的编解码方法和装置
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
CN101483042B (zh) * 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
CN101335000B (zh) 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
EP2816560A1 (en) 2009-10-19 2014-12-24 Telefonaktiebolaget L M Ericsson (PUBL) Method and background estimator for voice activity detection
US20110228946A1 (en) * 2010-03-22 2011-09-22 Dsp Group Ltd. Comfort noise generation method and system
CN102741918B (zh) 2010-12-24 2014-11-19 华为技术有限公司 用于话音活动检测的方法和设备
ES2681429T3 (es) * 2011-02-14 2018-09-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generación de ruido en códecs de audio
JP5969513B2 (ja) 2011-02-14 2016-08-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 不活性相の間のノイズ合成を用いるオーディオコーデック
JP5732976B2 (ja) * 2011-03-31 2015-06-10 沖電気工業株式会社 音声区間判定装置、音声区間判定方法、及びプログラム
CN102903364B (zh) * 2011-07-29 2017-04-12 中兴通讯股份有限公司 一种进行语音自适应非连续传输的方法及装置
CN103137133B (zh) * 2011-11-29 2017-06-06 南京中兴软件有限责任公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
CN103187065B (zh) * 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
EP2927905B1 (en) * 2012-09-11 2017-07-12 Telefonaktiebolaget LM Ericsson (publ) Generation of comfort noise
TR201909562T4 (tr) * 2013-02-22 2019-07-22 Ericsson Telefon Ab L M Ses kodlamada DTX kalıntısı için usuller ve aygıtlar.
CN106169297B (zh) * 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
CN104978970B (zh) * 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10190498A (ja) * 1996-11-15 1998-07-21 Nokia Mobile Phones Ltd 不連続伝送中に快適雑音を発生させる改善された方法
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
JP2003529950A (ja) * 1998-11-23 2003-10-07 テレフォンアクチーボラゲット エル エム エリクソン(パブル) 忠実度改善のためのコンフォートノイズ変動特性に基づく音声符号化
JP2004525540A (ja) * 2000-11-27 2004-08-19 ノキア コーポレーション 音声通信中に快適ノイズを発生するための方法およびシステム
JP2003076394A (ja) * 2001-08-31 2003-03-14 Fujitsu Ltd 音声符号変換方法及び装置

Also Published As

Publication number Publication date
PH12015502663A1 (en) 2016-03-07
RU2665236C1 (ru) 2018-08-28
EP3745396A1 (en) 2020-12-02
CA2911439C (en) 2018-11-06
CN105225668A (zh) 2016-01-06
JP6291038B2 (ja) 2018-03-14
BR112015029310B1 (pt) 2021-11-30
RU2015155951A (ru) 2017-06-30
JP6517276B2 (ja) 2019-05-22
US9886960B2 (en) 2018-02-06
JP6680816B2 (ja) 2020-04-15
PH12018501871A1 (en) 2019-06-10
AU2017204235B2 (en) 2018-07-26
SG10201607798VA (en) 2016-11-29
KR102099752B1 (ko) 2020-04-10
PH12015502663B1 (en) 2016-03-07
AU2013391207B2 (en) 2017-03-23
WO2014190641A1 (zh) 2014-12-04
KR20160003192A (ko) 2016-01-08
JP2016526188A (ja) 2016-09-01
CN106169297A (zh) 2016-11-30
US20160078873A1 (en) 2016-03-17
JP2018092182A (ja) 2018-06-14
US20180122389A1 (en) 2018-05-03
ES2951107T3 (es) 2023-10-18
ZA201706413B (en) 2019-04-24
EP3007169B1 (en) 2020-06-24
EP3007169A4 (en) 2017-06-14
AU2017204235A1 (en) 2017-07-13
CN105225668B (zh) 2017-05-10
MX2015016375A (es) 2016-04-13
SG10201810567PA (en) 2019-01-30
CN104217723B (zh) 2016-11-09
MX355032B (es) 2018-04-02
RU2638752C2 (ru) 2017-12-15
CA2911439A1 (en) 2014-12-04
BR112015029310A2 (pt) 2017-07-25
US10692509B2 (en) 2020-06-23
CN104217723A (zh) 2014-12-17
EP3745396B1 (en) 2023-04-19
ES2812553T3 (es) 2021-03-17
EP3007169A1 (en) 2016-04-13
EP4235661A3 (en) 2023-11-15
MY161735A (en) 2017-05-15
SG11201509143PA (en) 2015-12-30
HK1203685A1 (en) 2015-10-30
AU2013391207A1 (en) 2015-11-26
CN106169297B (zh) 2019-04-19
EP4235661A2 (en) 2023-08-30
CA3016741A1 (en) 2014-12-04
KR20170110737A (ko) 2017-10-11
CA3016741C (en) 2020-10-27

Similar Documents

Publication Publication Date Title
JP6680816B2 (ja) 信号符号化方法及びデバイス
JP2019074762A (ja) 信号分類方法および信号分類デバイス、ならびに符号化/復号化方法および符号化/復号化デバイス
US10490199B2 (en) Bandwidth extension audio decoding method and device for predicting spectral envelope
JP2008503783A (ja) オーディオ信号のエンコーディングにおけるコーディング・モデルの選択
JP6616470B2 (ja) 符号化方法、復号化方法、符号化装置及び復号化装置
US10984811B2 (en) Audio coding method and related apparatus

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190417

R150 Certificate of patent or registration of utility model

Ref document number: 6517276

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250