JP5161212B2 - Itu−tg.711規格と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形デバイスおよび方法 - Google Patents

Itu−tg.711規格と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形デバイスおよび方法 Download PDF

Info

Publication number
JP5161212B2
JP5161212B2 JP2009518697A JP2009518697A JP5161212B2 JP 5161212 B2 JP5161212 B2 JP 5161212B2 JP 2009518697 A JP2009518697 A JP 2009518697A JP 2009518697 A JP2009518697 A JP 2009518697A JP 5161212 B2 JP5161212 B2 JP 5161212B2
Authority
JP
Japan
Prior art keywords
noise shaping
noise
signal
layer
codec
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009518697A
Other languages
English (en)
Other versions
JP2009541815A (ja
Inventor
ブリュノ・ベセトゥ
ジミー・ラピエール
ウラジミール・マレノフスキー
ロッシェ・レフェブル
レドワン・サラミ
Original Assignee
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴォイスエイジ・コーポレーション filed Critical ヴォイスエイジ・コーポレーション
Publication of JP2009541815A publication Critical patent/JP2009541815A/ja
Application granted granted Critical
Publication of JP5161212B2 publication Critical patent/JP5161212B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Storage Device Security (AREA)

Description

本発明はより詳細には、これに限らないがITU−T(International Telecommunication Union)勧告G.711と相互動作が可能なマルチレイヤ埋め込みコーデックにおける音声信号の符号化および復号の分野に関する。さらに詳細には本発明は、音声信号コーデックのエンコーダおよび/またはデコーダにおける雑音成形(noise shaping)デバイスおよび方法に関する。
例えば、本発明によるデバイスおよび方法は8kHzのサンプリング周波数で動作するマルチレイヤ埋め込みコーデックの狭帯域部(通常は第1の、即ち低位レイヤ)において適用可能である。電話帯域幅、即ち200乃至3400Hzにおける信号に最適化したITU−T勧告G.711と異なり、本発明のデバイスおよび方法は範囲が50乃至4000Hzである信号の品質を大きく改善する。帯域幅が50乃至7000Hzまたはさらに広い広帯域信号を例えばダウンサンプリングすることにより、このような信号を通常生成する。本発明のデバイスおよび方法がなければ、これらの信号の品質はさらにもっと悪いことになるし、従来のG.711コーデックにより符号化および合成する場合、人工的可聴音を伴うことになる。
良好な主観的品質/ビットレートのトレードオフを有する効率的なディジタル広帯域通話/オーディオ符号化技術に対する需要は、オーディオ/ビデオ電話会議、マルチメディア、無線アプリケーションおよびIP(Internet Protocol、インターネットプロトコル)電話などの多数のアプリケーションに対して増大しつつある。最近まで、通話符号化システムは電話周波数帯域幅、即ち200乃至3400Hzの信号のみを処理することができた。今日、周波数帯域幅50乃至7000Hzの信号を処理することができる広帯域システムに対する増大する需要が見られる。これらのシステムが狭帯域システムより相当高い品質を提供するのは、これらのシステムが音声の明瞭度および自然性を増しているからである。周波数帯域幅50乃至7000Hzは会話中の対面通話品質を配信するのに十分であると見られた。音楽などのオーディオ信号に対しては、この周波数帯域幅は許容可能なオーディオ品質を提供するが、周波数帯域幅20乃至20000Hzで動作するCDの品質よりなお低い。
64kbpsのITU−T勧告G.711(非特許文献1)および8kbpsのG.729はパケット交換の電話へのアプリケーションで広く使用される2つのコーデックである。従って、狭帯域から広帯域電話への移行には、これら2つの規格と後方相互動作が可能な広帯域コーデックを開発する重要性がある。このため、ITU−Tは2006年に勧告G.729.1を承認したが、G.729.1は8kbpsのITU−T勧告G.729と相互動作が可能なコアを有する埋め込みマルチレートコーダである。同様に、2007年3月に64kbpsのITU−T勧告G.711と相互動作が可能な狭帯域コアに基づく埋め込み広帯域コーデック(共にμ法則およびA法則)のための新しい活動が始まった。この新しいG.711に基づく規格はITU−T G.711広帯域の拡張(G.711 wideband extension、WBE)として既知である。
G.711WBEでは、16kHzでサンプルする入力音声信号をQMF(Quadrature Mirror Filter、90度差ミラーフィルタ)フィルタを使用する2つの帯域:0から4000Hzの低帯域および4000から7000Hzの高帯域、に分割する。入力信号の帯域幅が50乃至8000Hzであれば、低および高帯域はそれぞれ50乃至4000Hzおよび4000乃至8000Hzである。G.711WBEでは、入力広帯域信号を3つのレイヤにおいて符号化する。第1のレイヤ(レイヤ1;コア)は64kbpsのG.711と互換性のある形式で信号の低帯域を符号化する。次いで第2のレイヤ(レイヤ2;狭帯域エンハンスメントレイヤ)は低帯域に2ビット/サンプル(16kビット/秒)を追加し、この帯域の信号品質を高める。最後に、第3のレイヤ(レイヤ3;広帯域拡張レイヤ)は別の2ビット/サンプル(16kビット/秒)により高帯域を符号化し、広帯域合成を生成する。ビットストリームの構成を埋め込む。換言すれば常にレイヤ1があり、その後にレイヤ2またはレイヤ3、または双方(レイヤ2およびレイヤ3)が来る。このように、より多くのレイヤを復号する場合、品質が徐々に改善する合成信号を得ることができる。例えば図1はG.711WBEエンコーダの構成を図示する概要ブロック図であり、図2はG.711WBEデコーダの構成を図示する概要ブロック図であり、図3はG.711WBEコーデックの複数レイヤによるビットストリームの埋め込み構成例の構成を図示する概要ブロック図である。
圧縮と伸張を組み合わせるパルス符号変調(pulse code modulation、PCM)としても既知のITU−T勧告G.711は8ビットを使用して各入力サンプルを量子化する。入力信号の振幅を、対数法則を使用してまず圧縮し、7ビット(符号に1ビットを追加)により一様に量子化し、次いで伸張して入力信号を線形領域に戻す。G.711規格は2つの圧縮法則、μ法則およびA法則を定義する。ITU−T勧告G.711は電話帯域幅、即ち200乃至3400Hzの狭帯域入力信号用に特に設計された。ITU−T勧告G.711を帯域幅50乃至4000Hzの信号に適用する場合、量子化雑音が煩わしく、特に高周波数(図4参照)で可聴である。従って、埋め込みG.711WBEの上位帯域(4000乃至7000Hz)を適切に符号化しても、合成広帯域信号の品質は依然として従来のG.711の限界により0乃至4000Hz帯域の符号化にはなお不十分である。これが、レイヤ2をG.711WBE規格に加えた理由である。レイヤ2はレイヤ1の残存雑音レベルを低減するので、狭帯域合成信号の総体的品質に改善をもたらす。一方これは不必要に高いビットレートおよび余分な複雑度になりうる。またこれは、レイヤ1のみまたはレイヤ1+レイヤ3のみを復号する場合の可聴雑音の問題を解決しない。
Pulse code modulation (PCM) of voice frequencies, ITU-T Recommendation G.711, November 1988, (http://www.itu.int). AMR Wideband Speech Codec: Transcoding Functions, 3GPP Technical Specification TS 26.190 (http://www.3gpp.org). Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB), ITU-T Recommendation G.722.2, Geneva, January 2002 (http://www.itu.int). B.S. Atal and M.R. Schroeder, "Predictive coding of speech and subjective error criteria", IEEE Trans. of Audio, Speech and Signal Processing, vol. 27, no. 3, pp. 247-254, June 1979. 米国特許第6,807,524号
本発明の目的はそれ故特に、しかしこれに限らないがITU−T勧告G.711と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形のためのデバイスおよび方法を提供することである。
より詳細には本発明に従い、入力音声信号の符号化過程における雑音成形方法を提供し、本方法は:入力音声信号をプレエンハンスメント(pre−emphasizing)し、プレエンハンスメント音声信号を生成するステップと;プレエンハンスメント音声信号に関するフィルタ伝達関数を計算するステップと;計算されたフィルタ伝達関数を介して雑音をフィルタリングすることにより雑音を成形し、成形雑音信号を生成するステップとを含み、雑音成形ステップが、所与の音声信号コーデックを介する入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成するステップを含む。
本発明は、また入力音声信号の符号化過程における雑音成形方法に関係し、本方法は:入力音声信号の供給を受ける所与の音声信号コーデックの出力から復号信号を受信するステップと;復号信号をプレエンハンスメントし、プレエンハンスメント信号を生成するステップと;プレエンハンスメント信号に関するフィルタ伝達関数を計算するステップと;計算された伝達関数を介して雑音をフィルタリングすることにより雑音を成形し、成形雑音信号を生成するするステップとを含み、雑音成形ステップは所与の音声信号コーデックを介する入力音声信号の処理により生成する雑音を表す雑音フィードバック生成ステップをさらに含む。
本発明は、また少なくともレイヤ1およびレイヤ2を含むマルチレイヤエンコーダおよびデコーダにおける雑音成形方法に関係し、本方法は:
エンコーダにおいて:レイヤ1における雑音を成形するステップを含むレイヤ1における符号化音声信号を生成するステップと;レイヤ2におけるエンハンスメント信号を生成するステップと;
デコーダにおいて:エンコーダのレイヤ1からの符号化音声信号を復号し、合成音声信号を生成するステップと;レイヤ2からのエンハンスメント信号を復号するステップと;合成音声信号に関するフィルタ伝達関数を計算するステップと;計算されたフィルタ伝達関数を介してレイヤ2の復号エンハンスメント信号をフィルタリングし、レイヤ2のフィルタリングされたエンハンスメント信号を生成するステップと;レイヤ2のフィルタリングされたエンハンスメント信号を合成音声信号に加え、レイヤ1およびレイヤ2双方からの寄与を含む出力信号を生成するステップとを含む。
本発明は、さらに入力音声信号の符号化過程における雑音成形デバイスに関係し、本デバイスは:入力音声信号をプレエンハンスメントし、プレエンハンスメント信号を生成する手段と;プレエンハンスメント音声信号に関するフィルタ伝達関数を計算する手段と;所与の音声信号コーデックを介する入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成する手段と;計算されたフィルタ伝達関数を介して雑音フィードバックをフィルタリングすることにより雑音を成形し、成形雑音信号を生成する手段とを含む。
本発明は、さらに入力音声信号の符号化過程における雑音成形デバイスに関係し、本デバイスは:入力音声信号をプレエンハンスメントし、プレエンハンスメント信号を生成する第1のフィルタと;所与の音声信号コーデックを介する入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成するフィードバックループと;プレエンハンスメント信号に関して判断する伝達関数を有し、雑音フィードバックを処理し、成形雑音信号を生成する第2のフィルタとを含む。
本発明は、なおさらに入力音声信号の符号化過程における雑音成形デバイスに関係し、本デバイスは:入力音声信号の供給を受ける所与の音声信号コーデックの出力から復号信号を受信する手段と;復号信号をプレエンハンスメントし、プレエンハンスメント信号を生成する手段と;プレエンハンスメント信号に関するフィルタ伝達関数を計算する手段と;所与の音声信号コーデックを介する入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成する手段と;計算されたフィルタ伝達関数を介して雑音フィードバックをフィルタリングすることにより雑音を成形する手段とを含む。
本発明は、なおさらに入力音声信号の符号化過程における雑音成形デバイスに関係し、本デバイスは:所与の音声信号コーデックの出力からの復号信号の受信機と;復号信号をプレエンハンスメントし、プレエンハンスメント信号を生成する第1のフィルタと;所与の音声信号コーデックを介する音声信号の処理により生成する雑音を表す雑音フィードバックを生成するフィードバックループと;プレエンハンスメント信号に関して判断する伝達関数を有し、雑音フィードバックを処理し、成形雑音信号を生成する第2のフィルタとを含む。
本発明は、さらに少なくともレイヤ1およびレイヤ2を含むマルチレイヤエンコーダおよびデコーダにおける雑音成形デバイスに関係し、本デバイスは:
エンコーダにおいて:レイヤ1における雑音を成形する手段を含む音声信号を符号化する手段と;レイヤ2からのエンハンスメント信号を生成する手段と;
デコーダにおいて:レイヤ1からの符号化音声信号を復号し、レイヤ1からの合成音声信号を生成する手段と;レイヤ2からのエンハンスメント信号を復号する手段と;合成音声信号に関するフィルタ伝達関数を計算する手段と;エンハンスメント信号をフィルタリングし、レイヤ2のフィルタリングされたエンハンスメント信号を生成する手段と;レイヤ2のフィルタリングされたエンハンスメント信号を合成音声信号に加え、レイヤ1およびレイヤ2双方の寄与を含む出力信号を生成する手段とを含む。
本発明は、さらに少なくともレイヤ1およびレイヤ2を含むマルチレイヤ符号化デバイスおよび復号デバイスにおける雑音成形デバイスに関係し、本デバイスは:
符号化デバイスにおいて:レイヤ1における雑音成形フィルタを含むレイヤ1における音声信号の第1のエンコーダと;レイヤ2におけるエンハンスメント信号の第2のエンコーダと;
復号デバイスにおいて:合成音声信号を生成する符号化音声信号のデコーダと;レイヤ2におけるエンハンスメント信号のデコーダと;レイヤ1からの合成音声信号に関して判断する伝達関数を有し、復号エンハンスメント信号を処理し、レイヤ2のフィルタリングされたエンハンスメント信号を生成するフィルタと;合成音声信号とフィルタリングされたエンハンスメント信号を加え、レイヤ1およびレイヤ2双方の寄与を含む出力信号を生成する加算器とを含む。
添付の図面を参照して例としてのみ提示する説明上の実施形態に関する以下の非限定的な説明を読めば、本発明の上記のおよびその他の目的、利点および特徴が明らかになろう。
一般的に言えば、本発明の第1の非限定的で、説明上の実施形態によれば従来のG.711コーデックのみを使用して得られるよりかなり品質を改善した低帯域信号の符号化が可能になる。開示する第1の非限定的で、説明上の実施形態の背景にある考え方は、聴取者にとり残存雑音が遥かに煩わしくないようにある知覚基準およびマスキング効果に従ってG.711残存雑音を成形することである。開示するデバイスおよび方法をエンコーダにおいて適用し、開示するデバイスおよび方法はG.711との相互動作性に影響を及ぼさない。より詳細には、レイヤ1に対応する符号化ビットストリーム部を従来のG.711デコーダにより復号し、適切な雑音成形により品質を増すことができる。レイヤ1およびレイヤ2双方を復号する場合、開示するデバイスおよび方法はまた量子化雑音を成形する機構を提供する。これを、レイヤ2の情報を復号する場合、雑音成形デバイスおよび方法を補足する部分をまたデコーダに導入することにより達成する。
第1の非限定的で、説明上の実施形態では、3GPP AMR−WB規格(非特許文献2)およびITU−T勧告G.722.2(非特許文献3)の場合と類似の雑音成形を使用する。AMR−WBでは、知覚加重ファクタをエンコーダにおける誤差最少化手順に使用し、所望の誤差信号を成形する。
その上第1の非限定的で、説明上の実施形態では、加重知覚フィルタを従来のITU−T勧告G.711コーデックと相互動作可能なマルチレイヤ埋め込みコーデックに対し最適化し、加重知覚フィルタは入力信号に直接関係する伝達関数を有する。この伝達関数を、フレーム毎を基本に更新する。雑音成形方法は、サンプリング周波数の半値に近い周波数にエネルギーが集中する信号が原因となる閉ループの不安定性に対する保護を組み込む。第1の非限定的で、説明上の実施形態はまたデッドゾーン量子化器を組み込み、極めて低エネルギーの信号に適用する。復号する場合これら低エネルギー信号はデッドゾーン量子化器を組み込まなければ不愉快で粗い雑音を発生するが、これは開示するデバイスおよび方法のダイナミック(dynamics)が極めて低レベルでは十分でないからである。マルチレイヤコーデックでは、また第2のレイヤ(レイヤ2)があり、第2のレイヤを使用して従来のG.711量子化器の量子化ステップを第1のレイヤ(レイヤ1)より細かくする。開示するデバイスおよび方法により、第2のレイヤから入力する信号をデコーダにおいて適切に成形し、量子化雑音を制御下に置く必要がある。これは、また雑音成形修正アルゴリズムをデコーダにおいて適用することにより行う。このように、両レイヤは適切な成形スペクトラムを持つ信号を生成し、この信号は従来のITU−T G.711コーデックを使用する場合より人の耳により心地よい。提案するデバイスおよび方法の最後の特徴は雑音ゲートであり、これを使用して出力信号レベルが一定の閾値を下回って低減する場合出力信号を抑制する。雑音ゲートにより出力信号は活発なやり取りの間では明瞭に響き、従って聴取者が集中することの負担は低い。
本発明の第1の非限定的で、説明上の実施形態をさらに記述する前に、AMR−WB(Adaptive Multi Rate−Wideband、適応型マルチレート広帯域)規格について記述することにする。
1. AMR−WBにおける知覚加重
AMR−WBは分析、合成符号化パラダイムを使用し、入力信号、例えば通話と知覚加重領域における合成音声信号(フィルタリング励振)との間の平均二乗誤差を最小にすることにより、励振信号の最適ピッチおよび更新パラメータを探索する(図5)。
図5に示すように、固定コードブック503は利得Gを乗算する固定コードブックベクトルc(n)を生成する。加算器509により、利得Gを乗算する固定コードブックベクトルc(n)を、利得Gを乗算する適応型コードブックベクトルv(n)に加え、励振信号u(n)を生成する。励振信号u(n)を使用して、適応型コードブック506のメモリを更新し、励振信号u(n)を合成フィルタ510に供給し、加重合成音声信号
Figure 0005161212
を生成する(以降、表記の都合上、数8をs(n)とする。文字の上に「〜」又は「^」の記号がある場合、「〜」又は「^」を文字の位置より1文字分後の位置に記す。以下同じ。)。加重合成音声信号s(n)を入力音声信号s(n)から減算し、加重フィルタ501に供給する誤差信号e(n)を生成する。フィルタ501からの加重誤差e(n)を、誤差最小化器502により最小にする;誤差信号e(n)が最小になるまで、本処理を種々の適応型コードブックおよび固定コードブックベクトルにより反復(分析、合成)する。
これは、加重入力音声信号s(n)と加重合成音声信号s(n)との間の誤差e(n)の最小化と同等である。加重フィルタ501は次式の形式の伝達関数W’(z)を有する:
Figure 0005161212
ここで、A(z)は線形予測(linear prediction、LP)フィルタを表し、γ、γは加重ファクタである。音声信号を加重領域で量子化するので、加重領域における量子化雑音スペクトラムは平坦であり、次式のように書くことができる:
(z)=W’(z)E(z) (2)
ここで、E(z)は入力音声信号と合成音声信号s(n)との間の誤差信号e(n)のスペクトラムであり、E(z)は加重誤差信号e(n)の「平坦な」スペクトラムである。式(2)から、加重フィルタの逆数、即ちE(z)=W’(z)−1(z)により、入力音声信号と合成音声信号との間の誤差E(z)を成形することが分かりうる。この結果は非特許文献4に記載されている。伝達関数W’(z)−1は入力音声信号の幾つかのフォルマント構成を示す。従って、量子化誤差の成形により人の耳のマスキング特性を使用し、量子化誤差がフォルマント領域においてより多くのエネルギーを持つようにし、量子化誤差をこの領域に存在する強い信号エネルギーによりマスクすることとする。加重量は式(1)のファクタγおよびγにより制御する。
上記の従来の知覚加重フィルタは電話周波数帯域幅300乃至3400Hzの信号とは良好に動作する。しかしながら、周波数帯域幅50乃至7000Hzの広帯域信号の効率的知覚加重には、この従来の知覚加重フィルタは適さないことが分かった。また、フォルマント構成および必要なスペクトル傾斜の同時モデル化では従来の知覚加重フィルタに本来的な限界があることが分かった。低および高周波数間のダイナミックレンジが広いため、スペクトル傾斜は広帯域信号ではより明白である。従来技術は傾斜フィルタをW’(z)に加え、広帯域入力音声信号の傾斜およびフォルマント加重を個別に制御することを示唆している。
特許文献1に記載のようにこの問題に対する解決策は、AMR−WB規格に導入されており、入力においてプレエンハンスメントフィルタを適用し、例えばμがプレエンハンスメントファクタであるフィルタ1−μz−1によりプレエンハンスメント音声信号を基本にLPフィルタA(z)を計算し、その分母を固定することによる修正フィルタW’(z)の使用を含む。この特別な場合、図4のCELP(Code−Excited Linear Prediction、符号励振線形予測)モデルをプレエンハンスメント信号に適用し、デコーダにおいてプレエンハンスメントフィルタの逆数により、合成音声信号の強調を解除する。プレエンハンスメント信号s(n)に関してLP分析を実行し、LPフィルタA(z)を得る。また分母を固定する新しい知覚加重フィルタを使用するが、これは次の関係により与えられる:
Figure 0005161212
式(3)で、1次フィルタを分母において使用する。あるいは、高次フィルタをまた使用することができる。この構成はスペクトル傾斜からフォルマント加重を本質的に分離する。プレエンハンスメント通話信号s(n)を基本にA(z)を計算するので、元の音声信号を基本にA(z)を計算する場合と比較して、フィルタ1/A(z/γ)の傾斜は一層明白ではない。強調解除はデコーダにおいて以下の伝達関数を持つフィルタを使用して実行する:
Figure 0005161212
ここで、μはプレエンハンスメントファクタである。式(3)のような雑音成形手法を使用して、伝達関数1/W’(z)P(z)を持つフィルタにより量子化誤差スペクトラムを成形する。γを典型的な場合であるμに等しく設定すると、加重フィルタは次式のようになり:
Figure 0005161212
量子化誤差スペクトラムを伝達関数が1/A(z/γ)であるフィルタにより成形し、A(z)は、プレエンハンスメント音声信号を基本に計算する。プレエンハンスメントと修正加重フィルタリングの組み合わせにより誤差成形を達成するこの構成は、広帯域信号の符号化に極めて効率的であり、加えて固定ポイントアルゴリズムの実装の容易さの利点になることを、主観聴取が示した。
上記の雑音成形は周波数帯域幅が50乃至7000Hzである広帯域信号によりAMR−WBにおいて使用するが、帯域幅が50乃至4000Hzに制限される場合にも良好に動作し、この帯域幅は第1の非限定的で、説明上の実施形態およびG.711WBEコーデック(レイヤ1およびレイヤ2)の場合である。
2. ITU−T G.711規格と相互動作可能なマルチレイヤ埋め込みコーデックにおける知覚加重
2.1 第1のレイヤ(コアレイヤ)における雑音の知覚加重
図6はITU−T勧告G.711(例えば、G.711WBEコーデックのレイヤ1)に基づく単一レイヤエンコーダの例を示し、この例では量子化誤差はフィルタ1/A(z/γ)により成形し、A(z)はフィルタ1−μz−1を使用してプレエンハンスメント入力音声信号を基本に計算する。図7は図6の単純化であり、プレエンハンスメントフィルタと加重フィルタを組み合わせるが、LPフィルタを依然図6におけるように例えばフィルタ1−μz−1によるプレエンハンスメント音声信号を基本に計算する。図6および図7双方から、通常平坦なスペクトラムを有するG.711量子化誤差をフィルタ1/A(z/γ)により成形し、A(z)はプレエンハンスメント入力音声信号を基本に計算することは明らかである。図6および図7双方における構成は所望の雑音成形を達成するが、その構成は従来のG.711デコーダとの相互動作が可能なエンコーダにならない。これは逆加重フィルタをデコーダ出力において適用しなければならないことによる。
図8に種々の雑音成形方式を示し、これらの方式はデコーダにおける逆加重適用の必要性を回避する。従って図8の方式は、従来のG.711デコーダとの相互動作性を維持する。これは、G.711量子化器802の入力に雑音フィードバック801を導入することにより達成する。図8のフィードバックループ801は、種々の方法で構成することができる汎用フィルタF(z)803を介してG.711デコーダ802から加算器805に出力信号Y(z)を供給する。実例のこのフィルタ803の伝達関数を本明細書でさらに記述する。加重フィルタ804による加重信号S(z)からフィルタ803からのフィルタリング化信号を減算し、G.711量子化器802の入力に入力信号X(z)を供給する。図8で、以下の関係を観測する:
X(z)=S(z)W(z)−Y(z)F(z) (6a)
Y(z)=X(z)+Q(Z) (6b)
ここで、X(z)はG.711量子化器802の入力音声信号、S(z)は原音声信号、Y(z)はG.711量子化器802の出力信号、Q(Z)は平坦なスペクトラムを持つG.711の量子化誤差であり、W(z)は加重フィルタ804の伝達関数である。上の式6aおよび式6bは次式を生じる:
Y(z)=S(z)W(z)−Y(z)F(z)+Q(Z) (7)
上式は次式になる:
Y(z)[1+F(z)]=S(z)W(z)+Q(Z) (8)
上式は次式と同等である:
Figure 0005161212
それ故、F(z)=W(z)−1を選択することにより、以下の関係を得ることができる:
Figure 0005161212
従って、出力(合成)音声信号Y(z)と入力音声信号S(z)との間の誤差を加重フィルタW(z)の逆数により成形する。図9は図8と同一であるが、AMR−WBで使用する知覚加重フィルタを伴う。即ち、図8の加重フィルタW(z)804をW(z)=1/A(z/γ)のように設定し、A(z)はプレエンハンスメント信号を基本に計算する。図8に戻り、F(z)=W(z)−1と設定すると、この構成を、機能を変更することなく図10dの構成に変形できることが分かりうる。変形を図10a乃至図10dに示す。まず図10aについて考えると、図10aは図8でW(z)をF(z)+1により置換することにより得られる。これは勿論F(z)=W(z)−1と設定するのと同じである。フィルタF(z)+1を次いでフィルタ「1」(即ち、1に等しい伝達関数)と並列のフィルタF(z)により置換することができ、その出力を図10bに示すごとく合計する。図10bの2つの合計を図10cに示すように3つの入力を持つ単一の合計により置換することができる。これらの入力のうち2つは正の符号を有し、第3の入力は負の符号を持つ。フィルタF(z)は線形であるので、図10cは図10dと同等であることを示しうる。実際、フィルタリングの前に2つの入力を線形フィルタにより加算(または減算)することは、個々の入力をフィルタリングし(図10cに示すように)、次いでフィルタ出力を加算(または減算)するのと同等である。図10dから、以下のように書くことができる:
X(z)=S(z)+F(z)[S(z)−Y(z)] (11a)
Y(z)=X(z)+Q(z) (11b)
従って、
Y(z)=S(z)+F(z)[S(z)−Y(z)]+Q(z) (12)
上式は次式になる:
Y(z)[1+F(z)]=S(z)[1+F(z)]+Q(z) (13)
それ故、
Figure 0005161212
従って、F(z)=W(z)−1を設定することにより、図8の場合と同じ誤差成形を達成するが、フィルタリング演算は少なく、それ故複雑度の削減になる。図11は図10dと同一であるが、AMR−WBで使用する誤差成形を伴う。より詳細には成形フィルタW(z)をW(z)=A(z/γ)に設定し、A(z)はプレエンハンスメント音声信号1101を基本に計算し、従って量子化誤差をフィルタ1/A(z/γ)により成形する。次いで図10dのフィルタF(z)をW(z)−1、A(z/γ)−1にそれぞれ設定する。図12は図4におけるのと同じ信号のスペクトラムであるが、図11の構成における雑音成形の適用後のスペクトラムを示す。高周波数における量子化雑音を信号により適切にマスクすることを図12で明確に見ることができる。
図11で使用するプレエンハンスメントファクタμは固定であり、または適応的でありうる。第1の非限定的で、説明上の実施形態では、信号に依存する適応プレエンハンスメントファクタμを使用する。ゼロ交差率cをこのために入力音声信号に関して計算する。ゼロ交差率cを過去と現行フレームのそれぞれs(n−1)およびs(n)に関して以下の関係を使用して計算する:
Figure 0005161212
ここで、Nはフレームサイズまたはフレーム長である。
プレエンハンスメントファクタμは次の関係により与える:
Figure 0005161212
これは範囲0.38<μ<1.0になる。このように、プレエンハンスメントは調和信号には強く、雑音には弱い。
要約すると、雑音成形フィルタW(z)をW(z)=A(z/γ)により与え、A(z)はプレエンハンスメント音声信号を基本に計算し、式(15)および式(16)で記述するように適応プレエンハンスメントファクタμを使用して、プレエンハンスメントを実行する。
先の第1の非限定的で、説明上の実施形態では、フィルタW(z)=A(z/γ)(プレエンハンスメントおよびLP分析)の計算は入力音声信号に基づく。第2の非限定的で、説明上の実施形態では、フィルタをレイヤ1からの復号信号に基づいて計算する。以下に本明細書で記述することとするように、埋め込み符号化構成における第2の狭帯域エンハンスメントレイヤ、例えばレイヤ2で同じ雑音成形を実行するために、第2のレイヤからの復号信号をフィルタ1/W(z)を介してフィルタリングするデバイスおよび方法を開示する。従って、プレエンハンスメントおよびLP分析をまたデコーダにおいて実行すべきであり、デコーダでは過去の復号信号のみが利用可能である。それ故、デコーダで計算する雑音成形フィルタとの差分を最小にするために、エンコーダで計算するフィルタはレイヤ1からの過去の復号信号に基づくことができ、レイヤ1からの過去の復号信号はエンコーダおよびデコーダ双方において利用可能である。この第2の非限定的で、説明上の実施形態をITU−T勧告G.711WBE規格(図1参照)において使用する。
図18は図11に類似の従来のG.711との相互動作性を維持する雑音成形方式を示すが、雑音成形フィルタは過去の復号信号を基本に計算する。プレエンハンスメント装置1802における過去の復号信号1801に関して、プレエンハンスメントをまず実行する。第2の非限定的で、説明上の実施形態では、最後の2フレーム(y(n)、n=−2N、...、−1)からの復号信号を使用する。プレエンハンスメントファクタをμ=1−0.0078cにより与え、ここでゼロ交差率cを以下の関係により与える:
Figure 0005161212
ここで、負の指標は過去の信号を表す。過去のプレエンハンスメント信号1803に関して、LP分析を次いで実行する。
第2の非限定的で、説明上の実施形態では例えば非対称ウィンドウを使用して、4次のLP分析をフレーム毎に一度行う。ウィンドウを2つの部分に分割する:第1の部分の長さは60サンプルであり、第2の部分の長さは20サンプルである。ウィンドウを次の関係により与える:
Figure 0005161212
ここで、値L=60およびL=20を使用する(L+L=2N=80)。過去の復号信号y(n)をプレエンハンスメントし、ウィンドウを設け、信号s’(n)、n=0、...、2N−1を得る。ウィンドウを設けた信号s’(n)、n=0、...、79の自動相関r(k)を以下の関係を使用して計算し:
Figure 0005161212
以下のウィンドウを使用する自動相関に遅延ウィンドウを設けることにより、120Hzの帯域幅拡張を使用する。
Figure 0005161212
ここで、f=120Hzは帯域幅拡張であり、f=8000Hzはサンプリング周波数である。その上、r(0)を白色雑音補正ファクタ1.0001により乗算し、このファクタは−40dBにおいてノイズフロアを加えるのと同等である。
LPC分析器1804において修正自動相関を使用し、以下の式のセットを解き、LPフィルタ係数a、k=1、...、4を得る:
Figure 0005161212
通常の当業者には良く知られるレビンソン−ダービン(Levinson−Durbin)アルゴリズムを使用して、以上の式のセットを解く。
2.2 マルチレイヤ方式における雑音の知覚加重(エンコーダ部)
以上の説明は、単一レイヤのG.711と互換性のあるエンコーダにおける符号化雑音の成形法を記述する。複数レイヤを使用する場合の適切な雑音成形を保証するために、図13および図14におけるエンコーダ(第1の、即ちコアレイヤ用)と図15におけるデコーダ(G.711WBEにおけるレイヤ2などの上位レイヤ用)との間で、雑音成形アルゴリズムを分散させる。
図13は2つのレイヤを使用する場合のアルゴリズムのエンコーダ側を示す。QL1およびQL2はそれぞれレイヤ1およびレイヤ2の量子化器である。G.711WBE規格では、レイヤ1は8ビット/サンプルのG.711と互換性のある符号化(エンコーダにおける雑音成形を伴う)に相当し、レイヤ2は2ビット/サンプルの低帯域エンハンスメントレイヤに相当する。図13は、レイヤ1からの過去の合成信号(y^8(n))のみを使用して、雑音成形雑音フィードバックループ1301を適用することを示す。これは、レイヤ1からの符号化雑音のみを適切に成形することを保証する。次いでレイヤ2エンコーダ(QL2)を直接適用して、レイヤ1を細かくする。このレイヤ2(および恐らくレイヤ2の上の他の上位レイヤ)のための雑音成形を下記のごとくデコーダにおいて適用することとなろう。
図19は図13に類似の雑音成形を伴う2レイヤのG.711と相互動作可能なエンコーダの構成を示すが、過去の復号信号1903に基づきフィルタ計算器1902において計算する雑音成形フィルタ1901を伴う。
概念的には、図13および図19は図14と同等である。図14で、アルゴリズムを4つの演算に分解し、1から4の番号を付す(まるで囲む)。時間nにおいて、入力サンプルs[n]をフィルタリング化差分信号d[n]に加える。それ故z変換領域で、図14における演算1の加算器1401の出力X(z)を以下のように書くことができる:
X(z)=S(z)+F(z)D(z) (17)
以前のように、フィルタF(z)1402をF(z)=W(z)−1と定義し、ここで例えばW(z)=A(z/γ)は加重LPフィルタであり、A(z)はプレエンハンスメント音声信号(通話またはオーディオ)に関して計算する。図14における演算2からの差分信号d[n]を加算器1403により生成し、z変換領域において以下のように表す:
D(z)=S(z)−Y^(z) (18)
ここで、Y^(z)(または時間領域のy^[n])は第1のレイヤからの量子化出力である(G.711WBEコーデックにおける8ビットPCM)。従って、図14の雑音フィードバックはレイヤ1の出力のみを考慮する。なお図14を参照して、信号x[n]、即ち雑音フィードバックにより修正する入力を量子化器Qにおいて量子化する。この量子化器Qはレイヤ1の8ビット(これをy^[n]に復号できる)に加えてレイヤ2の2エンハンスメントビット(これを復号し、e^[n]を形成できる)を生成する。演算3では、y10[n]をy^[n]とe^[n]の和として定義し、次の関係を生じる:
10(z)=X(z)+Q(z) (19)
ここで、Q(z)(または時間領域のq[n])はブロックQからの量子化雑音である。これが10ビットPCM量子化器からの量子化雑音であるのは、レイヤ1およびレイヤ2ビット双方をQから得るからである。G.711WBEエンコーダなどのマルチレイヤエンコーダでは、これらの10ビットはレイヤ1からの8ビット(PCMと互換性のある)に加えてレイヤ2(エンハンスメントレイヤ)からの2ビットに実際に相当する。
図14で雑音フィードバックがレイヤ1からのみ入力することを保証するために、演算4はy10[n]からe^[n]を減算し、y^[n]を再び生じる:
Y^(z)=Y10(z)−E^(z) (20)
実際には、演算4を明確には実行しない。図14の箱Qのレイヤ1部からのビットを使用して、y^[n]を復号し、レイヤ2からの追加の2ビットをただ納め、チャネルに送信する。レイヤ1のビットのみを復号する場合、以下の入力/合成の関係をもたらす:
Figure 0005161212
ここで、Q(z)はレイヤ1のみからの量子化雑音(コアの8ビットPCM)である。これはそのコアレイヤ(即ちレイヤ1)にとり所望の雑音成形結果である。
2.3 マルチレイヤ方式における雑音の知覚加重(デコーダ部)
この節では、レイヤ1およびレイヤ2双方を復号する、即ち図14の信号y10[n]を復号する場合の雑音の成形方法を記述する。式(17)のD(z)を式(18)に与える式により置換すれば、以下の関係を生じる:
X(z)=S(z)+F(z){S(z)−Y^(z)} (22)
式(19)に、X(z)とY10(z)との間の関係を提示する。式(22)のX(z)を置換することにより、以下の関係を得る:
10(z)−Q(z)=S(z)+F(z){S(z)−Y^(z)}(23)
次に以上の関係のY^(z)を置換するために式(20)を使用すると、次の関係を生じる:
10(z)−Q(z)=S(z)+F(z){S(z)−Y10(z)
+E^(z)} (24)
上式(24)の左側のY10(z)における全項を分離すると、次の関係を生じる:
{F(z)+1}Y10(z)={F(z)+1}S(z)
+Q(z)+F(z)E^(z) (25)
両側を{F(z)+1}で除算すると、以下の関係を得る:
Figure 0005161212
F(z)=W(z)−1であるので、上式を以下のように書くことができる:
Figure 0005161212
Q(z)が図14の10ビット量子化器Qからの符号化雑音であることを思い出そう、即ちレイヤ1およびレイヤ2双方を使用して、x[n]を符号化する。従ってコアレイヤ(レイヤ1)およびエンハンスメントレイヤ(レイヤ2)を復号する場合、得るべき所望の信号は次の部分のみであり:
Figure 0005161212
これは式(27)の右側から得る。項
Figure 0005161212
はそれ故望ましくなく、削除すべきである。そうすると次のように書ける:
Figure 0005161212
以上の等式でY(z)は、レイヤ1およびレイヤ2双方を復号する場合の所望の信号を示す。次に、Y10(z)はY^(z)(レイヤ1の合成信号)およびE^(z)(レイヤ2から送信するエンハンスメント2ビット)に以下のように関係する:
10(z)=Y^(z)+E^(z) (30)
10(z)にこの関係を使用し、以上のY(z)の定義においてY10(z)を置換すると、以下の関係を生じる:
Figure 0005161212
上式(31)の最終項を以下のように拡張することができる。
Figure 0005161212
これは最終的に以下を生じる:
Figure 0005161212
式(33)は、適切な雑音成形によりレイヤ1+レイヤ2の合成を得るためにデコーダにおいて実行しなければならない演算を示す。エンコーダ側では、雑音成形を図14に記述するように適用する。第1のレイヤの量子化信号y^[n]のみを使用する(量子化エンハンスメントレイヤの寄与はなく)。デコーダ側では、以下を実行する:
・モジュール1501においてレイヤ1の合成(y^[n])を計算する;
・モジュール1502においてレイヤ2のエンハンスメント信号(e^[n])を計算(復号)する;
・循環(全ポール)フィルタ
Figure 0005161212
によりe^[n]をフィルタリングし、信号e^[n]を形成する(フィルタ1503参照);
・加算器1504において信号y^[n]とe^[n]を合計し、所望の信号y[n](レイヤ1およびレイヤ2の寄与の和)を形成する。
側面情報の伝達を回避するためにレイヤ1合成信号y^[n]を使用してデコーダにおいて、フィルタW(z)=F(z)+1を計算する(フィルタ計算器1505参照)。G.711WBEコーデックでは、レイヤ1は高レート(64kビット/sのPCM)で動作し、従ってレイヤ1を使用してデコーダでこのフィルタを計算するのは、エンコーダで原(入力)音声信号に関して計算する同じフィルタとそれほどの不整合を持ち込まない。とはいえ不整合を完全に回避するためにはエンコーダおよびデコーダ双方において利用可能なローカルな復号信号y^[n]を使用して、フィルタW(z)をエンコーダにおいて計算する。レイヤ2における適切な雑音成形を達成するこの復号処理を図15に示す。エンコーダ側に類似してW(z)=A(z/γ)であり、式(15)および式(16)に従い適応するプレエンハンスメントファクタにより適応プレエンハンスメントを適用後、レイヤ1信号に基づき、LPフィルタA(z)を計算する。事実第2の非限定的で、説明上の実施形態では、同じプレエンハンスメントおよび過去の復号信号に関して実行する4次のLP分析を上記のようにエンコーダ側で行う。
本明細書で以上に非限定的で、説明上の実施形態により本発明を記述したが、主題とする発明の精神および本質から逸脱することなく、これらの実施形態を修正することができる。例えば、第2のレイヤ(レイヤ2)を量子化するのにサンプル当り2ビットのスカラ量子化を使用する代わりに、ベクトル量子化などのその他の量子化方策を使用することができる。その上、他の加重フィルタ公式を使用することができる。以上の説明上の実施形態では、雑音成形をW−1(z)=1/A(z/γ)により与える。一般にW−1(z)により量子化雑音を成形することが望ましければ、エンコーダのフィルタF(z)(図8および図10)をF(z)=W(z)−1により与え、デコーダでは第2のレイヤの量子化信号E^(z)をW−1(z)により加重する。
2.4 雑音成形ループの不安定性に対する保護
幾つかの限定的な場合、例えばある音楽の分野では、信号エネルギーは4000Hz(低帯域におけるサンプリング周波数の半値)近くの単一の周波数ピークに集中することがある。この特別な場合、フィルタが強く共鳴するので、雑音成形フィードバックは不安定になる。その結果成形雑音は正確でなく、合成信号は音が切れる。これは人工的可聴音を生成し、その継続時間は雑音成形ループがその安定状態に戻るまでの数フレームでありうる。この問題を防止するために、高周波数にエネルギーが集中する信号をエンコーダにおいて検出するといつでも、雑音成形フィードバックを減衰させる。
特に割合:
Figure 0005161212
を計算し、ここでrおよびrはそれぞれ第1のおよび第2の自動相関係数である。第1の自動相関係数を次式により与え:
Figure 0005161212
第2の自動相関係数を以下の関係を使用して計算する:
Figure 0005161212
割合rを信号のスペクトル傾斜についての情報として使用することができる。雑音成形を削減するために、以下の条件を満たさなければならない:
Figure 0005161212
加重フィルタの係数をファクタαだけ減衰させることにより、雑音成形フィードバックを次いで以下のように修正する:
Figure 0005161212
減衰ファクタαは割合rの関数であり、次の関係により与える:
Figure 0005161212
非常に低レベルの信号に実際的な減衰があれば、エネルギーが高周波数に集中する信号の知覚フィルタの減衰を起動しない。これを次の節で説明することとする。
2.5 非常に低レベルの信号に対する固定雑音成形フィルタ
入力信号が非常に低いエネルギーを持つ場合、雑音成形デバイスおよび方法は符号化雑音の適切なマスキングを妨げることがある。その理由は、G.711デコーダの分析がレベルに依存するからである。信号レベルが低すぎる場合、量子化雑音は入力信号と凡そ同じエネルギーを持ち、歪みは100%に近い。それ故フィルタリング化雑音がそれに加わる場合、入力信号のエネルギーは増加することさえ起こりうる。これは、次に復号信号などのエネルギーを増加させる。雑音フィードバックは数フレームの間に早くも飽和状態になり、これは望ましくない。この飽和状態を防止するために非常に低レベルの信号に対し、雑音成形フィルタを減衰させる。
フィルタの減衰条件を検出するために、過去の復号信号y^[n]のエネルギーが一定の閾値を下回るか、過去の復号信号y^[n]のエネルギーを調べることができる。式(35)の相関rはこのエネルギーを表すことに注意されたい。従って条件、
<θ、 (40)
を満たせば、非常に低レベルの信号に対する減衰を実行し、ここでθは所与の閾値である。あるいは正規化ファクタηを式(35)の相関rについて計算することができる。正規化ファクタは左へのシフトの最大数を表し、これを16ビット値のrについて実行し、結果が32767を下回るように維持することができる。ηが条件:
η≧16、 (41)
を満たす場合、非常に低レベルの信号に対する減衰を実行する。
加重ファクタをγ=0.5に設定することにより加重フィルタに関して、減衰を実行する。即ち:
Figure 0005161212
非常に低レベルの入力音声信号に対して雑音成形フィルタを減衰させれば、知覚的に低い雑音床を有することの利益をもたらすことなく雑音フィードバックループが目標雑音レベルを増加させる場合を回避する。また、エンコーダとデコーダとの間のフィルタ不整合の影響を減じるのに役立つ。
上記の知覚フィルタ減衰(不安定性即ち非常に低レベル信号に対する保護)を排他的に実行するが、これは、同時に低レベル信号が実際にはありえないことを意味する。これを以下の条件において説明する:
η≧16であれば、
式(42)を生じる知覚フィルタの減衰を行う。
そうでなく、
Figure 0005161212
であれば、
式(38)を生じる知覚フィルタの減衰を行う。
それ以外であれば、
減衰はせず、
終了。
2.6 デッドゾーン量子化
本発明の第1のおよび第2の非限定的で、説明上の実施形態において開示する雑音成形は固定(適応しない)量子化レベルを持つPCMエンコーダにおける雑音の問題を提示するので、幾つかの非常に小さな信号の状態は入力より大きなエネルギーを持つ合成信号を実際に生成しうる。これは、量子化器への入力信号が2つの量子化レベルの中点の周りで振動する場合に生じる。
A法則PCMでは、最低量子化レベルは0および±16である。量子化の前に、各入力サンプルを+8の値だけオフセットする。信号が8の値の周りで振動すれば、8を下回る振幅を持つ各サンプルを0として量子化することとし、8以上の各サンプルは16に量子化することとする。次いで、入力音声信号が例えば6と12との間でのみ変動しようとも、量子化信号を0と16との間に留めることとする。これは、雑音成形の循環的性質によりさらに増幅しうる。1つの解決策は、レイヤ1の量子化器の持つ原点(0値)の周りの領域を増やすことである。例えば、−11と+11との間の±11を含む全ての値を(−7と+7の代わりに)レイヤ1の量子化器によりゼロに設定することとする。これは、実際上量子化器のデッドゾーンを増やし、ゼロに設定することとする低レベルサンプルの数を増す。一方G.711WBEエンコーダなどのマルチレイヤG.711と相互動作可能な符号化方式では、拡張レイヤがあり、これを使用してコアレイヤ(即ちレイヤ1)の粗い量子化レベルを細かくする。それ故デッドゾーン量子化器をレイヤ1で使用する場合、またレイヤ2の量子化器の量子化レベルを修正する必要がある。誤差が最小であるように、これらのレベルを修正する。A法則のデッドゾーン量子化レベルの1つの可能な構成を入力−出力グラフ形式で図16に示す。x軸は量子化器への入力値を表し、y軸は、即ち符号化および復号する場合の復号出力値を表す。図16に相当するA法則量子化レベルをG.711WBEコーデックにおいて使用し、図16に相当するA法則量子化レベルはまたこの方法により使用する好ましいレベルである。
μ法則の場合、同じ原理に従うが、量子化閾値は異なる(詳しくは図17参照)。μ法則では、量子化の前に適用するオフセットはないが、132の内部バイアスがある。再度図17の入力−出力グラフはμ法則デッドゾーン量子化法の好ましい構成を示す。
以下の条件を満たす場合にのみデッドゾーン量子化器は動作する:
Figure 0005161212
ここで、k=ηは式(35)のrの値を正規化するのに使用するものと同じ正規化ファクタである。以上の条件が成立する場合、埋め込み低帯域量子化器およびコアレイヤデコーダを使用しない。代わって異なる量子化技術を適用し、これを以下で説明する。式(40)の条件をまた使用して、デッドゾーン量子化器を動作させることができることに注意されたい。
条件(43)に見るように、条件(43)を満たす極端な低レベル入力信号s(n)に対してのみ、デッドゾーン量子化器は動作する。動作間隔をデッドゾーンと呼び、この間隔内ではローカルなコアレイヤ復号信号y(n)をゼロに抑制する。このデッドゾーン量子化器では以下の式のセットに従い、サンプルs(n)を量子化する。
A法則の場合:
u(n)=0
Figure 0005161212
μ法則の場合:
u(n)=0
Figure 0005161212
上式で、上の関係u(n)=y^(n)は量子化コアレイヤであり、v(n)=e^(n)は第2の量子化レイヤである。
2.7 雑音ゲート
準無声期間の間の合成信号に関する雑音一掃の程度をさらに増すために雑音ゲート法をデコーダに加える。フレームエネルギーが非常に低い場合、雑音ゲートは出力信号を減衰させる。この減衰はレベルおよび時間双方において漸進的である。減衰レベルは信号に依存し、サンプル毎を基本に徐々に修正する。非限定的例では下記のように、雑音ゲートはG.711WBEデコーダにおいて動作する。
そのエネルギーを計算する前に、レイヤ1の合成信号を1次ハイパスFIRフィルタによりまずフィルタリングする
(n)=y(n)−0.768y(n−1)、n=0、..、N−1 (44)
ここで、y(n)、n=0、..、N−1は現行フレームの合成信号に対応し、N=40はフレーム長である。フィルタリングされた信号エネルギーは次式により計算する。
Figure 0005161212
雑音ゲートの早い投入を避けるために、前フレームのエネルギーを現行フレームのエネルギーに加え、次式の総合エネルギーを与える。
=E+E−1 (46)
各フレームの復号終了時にE−1をEにより更新することに注意されたい。
信号エネルギーについての情報に基づいて、ファクタ1/2により乗算する式(46)のEの平方根として目標利得を計算する、即ち
Figure 0005161212
目標利得を下限は0.25の値により制限し、上限は1.0により制限する。従って、利得gが1.0より小さい場合、雑音ゲートを動作する。RMS値が≒20である信号が目標利得g≒1.0となり、RMS値が≒5である信号が目標利得g≒0.25となるように、ファクタ1/2を選択した。これらの値はG.711WBEコーデックに対し最適としたが、これらの値を異なるフレームワークにおいて修正することは可能である。
デコーダにおける合成信号がそのエネルギーを高帯域、即ち4000乃至8000Hzに集中して有する場合、目標利得を1.0に設定することにより雑音ゲートの動作を徐々に停止する。それ故、低帯域および高帯域合成信号の電力測定結果を現行フレームに対して計算する。特に、低帯域信号電力(レイヤ1+レイヤ2で合成する)を以下の関係により与える:
Figure 0005161212
高帯域信号電力(レイヤ3で合成する)を次式により与える
Figure 0005161212
ここで、z(n)、n=0、..、N−1は合成高帯域信号を示す。レイヤ3を実装していなければ、雑音ゲートの条件付けはなく、gが1.0より小さければ毎回雑音ゲートを動作する。レイヤ3を使用する場合、PHB>4×10−7であり、かつ、PHB>16LBの場合毎回、目標利得を1.0に設定する。
最後に、出力合成信号の各サンプル(即ち、低帯域および高帯域合成信号双方を共に組み合わせる場合)を利得により乗算する:
g(n)=0.99g(n−1)+0.01g、n=0、..、N−1 (50)
上式を、サンプル毎を基本に更新する。利得がゆっくりと目標利得gに向かって収束することが分かりうる。
以上の説明では非限定的で、説明上の実施形態により本発明を記述したが、添付する特許請求の範囲内において、主題とする発明の精神および本質から逸脱することなくこの説明上の実施形態を随意に修正することができる。
G.711広帯域拡張エンコーダの概要ブロック図である。 G.711広帯域拡張デコーダの概要ブロック図である。 G.711WBEコーデックにおける複数レイヤを有する埋め込みビットストリームの構成を示す概要図である。 雑音成形を伴わないPCM符号化における通話および雑音スペクトラムを示すグラフである。 AMR−WBコーデックにおける誤差信号の知覚的成形を示す概要ブロック図である。 G.711のフレームワークにおけるプレエンハンスメントおよび雑音成形を示す概要ブロック図である。 図6の概要ブロック図と同等である、プレエンハンスメントおよび雑音成形を示す単純化した概要ブロック図である。 従来のG.711デコーダとの相互動作性を維持する雑音成形を示す概要ブロック図である。 AMR−WBの場合と同様に知覚加重フィルタを使用する従来のG.711との相互動作性を維持する雑音成形を示す概要ブロック図である。 従来のG.711デコーダとの相互動作が可能な雑音成形方式の変形を示す概要ブロック図である。 従来のG.711デコーダとの相互動作が可能な雑音成形方式の変形を示す概要ブロック図である。 従来のG.711デコーダとの相互動作が可能な雑音成形方式の変形を示す概要ブロック図である。 従来のG.711デコーダとの相互動作が可能な雑音成形方式の変形を示す概要ブロック図である。 従来のG.711との相互動作性を維持し、AMR−WBの場合と同様に知覚加重フィルタを使用する最終雑音成形方式の構成に関する概要ブロック図である。 雑音成形を伴うPCM符号化における通話および雑音スペクトラムを示すグラフである。 雑音成形を伴う2レイヤG.711との相互動作可能なエンコーダの構成を示す概要ブロック図である。 雑音成形を伴う2レイヤG.711との相互動作可能なエンコーダの詳細構成を示す概要ブロック図である。 雑音成形を伴う2レイヤG.711との相互動作可能なデコーダの詳細構成を示す概要ブロック図である。 デッドゾーン量子化器を持つ、および持たないG.711WBEコーデックにおけるA法則量子化器レベルを示すグラフである。 デッドゾーン量子化器を持つ、および持たないG.711WBEコーデックにおけるA法則量子化器レベルを示すグラフである。 デッドゾーン量子化器を持つ、および持たないG.711WBEコーデックにおけるμ法則量子化器レベルを示すグラフである。 デッドゾーン量子化器を持つ、および持たないG.711WBEコーデックにおけるμ法則量子化器レベルを示すグラフである。 図11に類似であるが、過去の復号信号を基本に計算する雑音成形フィルタを伴う従来のG.711との相互動作性を維持する最終雑音成形方式の構成に関する概要ブロック図である。 図13に類似であるが、過去の復号信号を基本に計算する雑音成形フィルタを伴う2レイヤG.711との相互動作可能なエンコーダの構成を示す概要ブロック図である。
符号の説明
501 加重フィルタ
502 誤差最小化
503 固定コードブック
506 適応型コードブック
508 過去の励振
510 合成フィルタ

Claims (66)

  1. 音声信号コーデックによる入力音声信号の符号化過程における雑音成形方法であって、前記方法が:
    前記入力音声信号をプレエンハンスメントし、プレエンハンスメント音声信号を生成するステップと
    記プレエンハンスメント音声信号を使用して、雑音フィードバックフィルタ伝達関数を計算するステップと;
    前記音声信号コーデックを介する前記入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成するステップと;
    を含み、
    前記雑音フィードバックを生成するステップは、
    前記音声信号コーデックの出力信号と前記入力音声信号との間の誤差を計算するステップと;
    前記雑音を成形するため、前記計算されたフィルタ伝達関数を介して前記誤差をフィルタリングするステップと;
    前記音声信号コーデックに入力として供給するため、前記入力音声信号に前記フィルタリングされた誤差を加えるステップと;
    を含む雑音成形方法。
  2. 請求項1に記載の雑音成形方法において、前記音声信号コーデックがITU−TG.711コーデックを含む雑音成形方法。
  3. 請求項1に記載の雑音成形方法において、前記雑音フィードバックフィルタ伝達関数を計算するステップが、A(z)が線形予測フィルタを表し、γが加重ファクタである関係A(z/γ)−1を計算するステップを含む雑音成形方法。
  4. 請求項2に記載の雑音成形方法において、前記音声信号コーデックがマルチレイヤコーデックを含む雑音成形方法。
  5. 請求項に記載の雑音成形方法において、前記マルチレイヤコーデックが前記ITU−T G.711コーデックを含む雑音成形方法。
  6. 請求項1に記載の雑音成形方法において、前記入力音声信号をプレエンハンスメントするステップが、μがプレエンハンスメントファクタであり、zがz変換領域を表す伝達関数1−μz−1を有するフィルタを介して前記入力音声信号を処理するステップを含む雑音成形方法。
  7. 請求項に記載の雑音成形方法において、前記プレエンハンスメントファクタμが、cが、
    Figure 0005161212
    であるゼロ交差率であり、s(i)が前記入力音声信号であり、Nが前記入力音声信号のフレーム長である次の関係:
    Figure 0005161212
    に従い適応する雑音成形方法。
  8. 請求項に記載の雑音成形方法において、前記プレエンハンスメントファクタμが、0.38と1との間の範囲にある雑音成形方法。
  9. 請求項に記載の雑音成形方法において、前記プレエンハンスメントファクタμが固定値を含む雑音成形方法。
  10. 請求項1に記載の雑音成形方法において、前記雑音フィードバックフィルタ伝達関数を計算するステップがフレームごとを基本に前記雑音フィードバックフィルタ伝達関数を更新するステップを含む雑音成形方法。
  11. 音声信号コーデックによる入力音声信号の符号化過程における雑音成形方法であって、前記方法が:
    前記入力音声信号の供給を受ける前記音声信号コーデックの出力から復号信号を受信するステップと;
    前記復号された出力信号をプレエンハンスメントし、プレエンハンスメント信号を生成するステップと
    記プレエンハンスメント信号を使用して、雑音フィードバックフィルタ伝達関数を計算するステップと;
    前記音声信号コーデックを介する前記入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成するステップと;
    を含み、
    前記雑音フィードバックを生成するステップは、
    前記音声信号コーデックの前記復号された出力信号と前記入力音声信号との間の誤差を計算するステップと;
    前記雑音を成形するため、前記計算されたフィルタ伝達関数を介して前記誤差をフィルタリングするステップと;
    前記音声信号コーデックに入力として供給するため、前記入力音声信号に前記フィルタリングされた誤差を加えるステップと;
    を含む雑音成形方法。
  12. 請求項11に記載の雑音成形方法において、前記音声信号コーデックがITU−T G.711コーデックである雑音成形方法。
  13. 請求項11に記載の雑音成形方法において、前記音声信号コーデックが少なくともレイヤ1およびレイヤ2を含むITU−T G.711マルチレイヤコーデックを含む雑音成形方法。
  14. 請求項11に記載の雑音成形方法において、前記復号された出力信号を受信するステップが、G.711マルチレイヤコーデックのレイヤ1から出力信号を受信するステップを含む雑音成形方法。
  15. 請求項11に記載の雑音成形方法において、前記雑音フィードバックフィルタ伝達関数を計算するステップが、A(z)が線形予測フィルタであり、γが加重ファクタである関係A(z/γ)−1を計算するステップを含む雑音成形方法。
  16. 請求項11に記載の雑音成形方法において、前記復号された出力信号をプレエンハンスメントするステップが、μがプレエンハンスメントファクタであり、zがz変換領域を表す伝達関数1−μz−1を有するフィルタを介して前記復号された出力信号を処理するステップを含む雑音成形方法。
  17. 請求項16に記載の雑音成形方法において、前記プレエンハンスメントファクタμが、
    Figure 0005161212
    がゼロ交差率であり、y(n)が前記復号信号であり、Nが前記復号信号のフレーム長であるμ=1−0.0078cに従い適応する雑音成形方法。
  18. 請求項13に記載の雑音成形方法において、不安定性に対して前記雑音フィードバックフィルタ伝達関数を保護するステップをさらに含む雑音成形方法。
  19. 請求項18に記載の雑音成形方法において、不安定性に対して前記雑音フィードバックフィルタ伝達関数を保護するステップが前記入力音声信号に関するサンプリング周波数の半値に近い周波数に集中するエネルギーを持つ信号を検出するステップを含む雑音成形方法。
  20. 請求項19に記載の雑音成形方法において、前記サンプリング周波数の半値に近い前記周波数に集中する前記エネルギーを持つ前記信号を検出するステップが前記信号エネルギーの周波数分布を反映するパラメータrを計算するステップを含む雑音成形方法。
  21. 請求項20に記載の雑音成形方法において、前記信号エネルギーの前記周波数分布を反映する前記パラメータrを計算するステップが、rが第1の自動相関であり、rがレイヤ1からの前記復号信号の第2の自動相関である、式
    Figure 0005161212
    を計算するステップを含む雑音成形方法。
  22. 請求項21に記載の雑音成形方法において、前記パラメータrが一定の閾値を下回れば、前記雑音フィードバックを削減するステップをさらに含む雑音成形方法。
  23. 請求項22に記載の雑音成形方法において、前記雑音フィードバックを削減するステップがファクタ
    Figure 0005161212
    により前記雑音フィードバックフィルタ伝達関数を削減するステップを含む雑音成形方法。
  24. 請求項23に記載の雑音成形方法において、ファクタαにより前記雑音フィードバックフィルタ伝達関数を削減するステップが、A(z)が前記プレエンハンスメント信号を基本に計算する線形予測フィルタであり、γが加重ファクタである減衰伝達関数A(z/αγ)−1を計算するステップを含む雑音成形方法。
  25. 請求項21に記載の雑音成形方法において、所与の閾値より低いエネルギーを持つ低エネルギー信号を検出するステップをさらに含む雑音成形方法。
  26. 請求項25に記載の雑音成形方法において、所与の閾値より低いエネルギーを持つ低エネルギー信号を検出するステップが不安定性に対して前記雑音フィードバックフィルタ伝達関数を保護するステップを含む雑音成形方法。
  27. 請求項26に記載の雑音成形方法において、低エネルギー信号を検出するステップが前記第1の自動相関rに関係して計算する正規化ファクタηを計算するステップを含む雑音成形方法。
  28. 請求項27に記載の雑音成形方法において、ηが一定の値より大きい場合、前記雑音フィードバックフィルタ伝達関数を減衰させるステップをさらに含む雑音成形方法。
  29. 請求項28に記載の雑音成形方法において、前記雑音フィードバックフィルタ伝達関数を減衰させるステップが加重ファクタをγ=0.5に設定し、前記加重ファクタを前記雑音フィードバックフィルタ伝達関数に適用するステップを含む雑音成形方法。
  30. 請求項25に記載の雑音成形方法において、デッドゾーン量子化をさらに含む雑音成形方法。
  31. 請求項30に記載の雑音成形方法において、前記デッドゾーン量子化が低レベル信号に対して量子化レベルをゼロに設定するステップを含む雑音成形方法。
  32. 請求項13に記載の雑音成形方法において、前記コーデックのエンコーダにおけるレイヤ1の雑音成形および前記コーデックのデコーダにおけるレイヤ2の雑音成形をさらに含む雑音成形方法。
  33. 請求項32に記載の雑音成形方法において、前記エンコーダにおけるレイヤ1の雑音成形が量子化器の出力信号からレイヤ2を減算し、レイヤ1のみに基づいて雑音フィードバックを生成するステップを含む雑音成形方法。
  34. 請求項32に記載の雑音成形方法において、前記デコーダにおけるレイヤ2の雑音成形が:
    レイヤ1からの出力信号を計算するステップと;
    レイヤ1からの前記計算された出力信号に基づきフィルタ伝達関数を計算するステップと;
    レイヤ2からのエンハンスメント信号を計算するステップと;
    前記計算されたフィルタ伝達関数を介してレイヤ2からの前記エンハンスメント信号をフィルタリングするステップと
    を含む雑音成形方法。
  35. 請求項32に記載の雑音成形方法において、レイヤ1コーデックとしてG.711コーデックをさらに含み、レイヤ1における雑音成形が従来のG.711デコーダとの相互動作性を維持するステップを含む雑音成形方法。
  36. 少なくともレイヤ1およびレイヤ2を含むマルチレイヤエンコーダおよびデコーダにおける雑音成形方法であって、前記方法が:
    前記エンコーダにおいて:
    請求項1又は11に記載の雑音成形方法を使用して、レイヤ1における雑音を成形するステップを含むレイヤ1における符号化音声信号を生成するステップと;
    レイヤ2におけるエンハンスメント信号を生成するステップと;
    前記デコーダにおいて:
    前記エンコーダのレイヤ1からの前記符号化音声信号を復号し、合成音声信号を生成するステップと;
    レイヤ2からの前記エンハンスメント信号を復号するステップと;
    前記合成音声信号を使用して、フィルタ伝達関数を計算するステップと;
    前記計算されたフィルタ伝達関数を介してレイヤ2の前記復号エンハンスメント信号をフィルタリングし、レイヤ2のフィルタリングされたエンハンスメント信号を生成するステップと;
    レイヤ2の前記フィルタリングされたエンハンスメント信号を前記合成音声信号に加え、レイヤ1およびレイヤ2双方からの寄与を含む出力信号を生成するステップと
    を含む雑音成形方法。
  37. 請求項36に記載の雑音成形方法において、レイヤ1コーデックとしてG.711コーデックをさらに含み、レイヤ1における雑音成形が従来のG.711デコーダとの相互動作性を維持するステップを含む雑音成形方法。
  38. 請求項36に記載の雑音成形方法において、前記エンコーダのレイヤ1における雑音を成形するステップがレイヤ1からの過去の復号信号をプレエンハンスメントし、前記プレエンハンスメント信号を生成するステップを含む雑音成形方法。
  39. 請求項38に記載の雑音成形方法において、レイヤ1およびレイヤ2量子化器を介して処理することにより生成する雑音を表す雑音フィードバックを生成するステップをさらに含む雑音成形方法。
  40. 請求項39に記載の雑音成形方法において、雑音フィードバックを生成するステップが前記レイヤ1およびレイヤ2量子化器の出力信号からレイヤ2の前記エンハンスメント信号を除去するステップを含む雑音成形方法。
  41. 請求項36に記載の雑音成形方法において、前記デコーダにおける前記フィルタ伝達関数を計算するステップが、A(z)がレイヤ1からの前記合成音声信号に関して計算する線形予測フィルタであり、γが加重ファクタに相当する、式
    Figure 0005161212
    を計算するステップを含む雑音成形方法。
  42. 請求項36に記載の雑音成形方法において、所与の閾値を下回り低減する合成音声信号を抑制する雑音ゲートを前記デコーダにおいて使用するステップをさらに含む雑音成形方法。
  43. 請求項42に記載の雑音成形方法において、前記合成音声信号を抑制するステップが前記合成音声信号のエネルギーを徐々に減衰させるステップをさらに含む雑音成形方法。
  44. 請求項43に記載の雑音成形方法において、前記合成音声信号の目標利得を計算するステップをさらに含む雑音成形方法。
  45. 請求項44に記載の雑音成形方法において、前記合成音声信号の前記目標利得を計算するステップが、Eが2フレームに亘る前記合成音声信号のエネルギーである式
    Figure 0005161212
    を計算するステップを含む雑音成形方法。
  46. 音声信号コーデックによる入力音声信号の符号化過程における雑音成形デバイスであって、前記デバイスが:
    前記入力音声信号をプレエンハンスメントし、プレエンハンスメント音声信号を生成する手段と
    記プレエンハンスメント音声信号を使用して、雑音フィードバックフィルタ伝達関数を計算する手段と;
    前記音声信号コーデックを介する前記入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成する手段と;
    を含み、
    前記雑音フィードバックを生成する手段は、
    前記音声信号コーデックの出力信号と前記入力音声信号との間の誤差を計算する手段と;
    前記雑音を成形するため、前記計算されたフィルタ伝達関数を介して前記誤差をフィルタリングする手段と;
    前記音声信号コーデックに入力として供給するため、前記入力音声信号に前記フィルタリングされた誤差を加える手段と;
    を含む雑音成形デバイス。
  47. 請求項46に記載の雑音成形デバイスにおいて、前記音声信号コーデックがITU−T G.711コーデックを含む雑音成形デバイス。
  48. 請求項46に記載の雑音成形デバイスにおいて、前記入力音声信号をプレエンハンスメントする手段が、μが適応型プレエンハンスメントファクタであり、zがz変換領域を表す伝達関数1−μz−1を有するプレエンハンスメントフィルタを含む雑音成形デバイス。
  49. 請求項48に記載の雑音成形デバイスにおいて、前記適応型プレエンハンスメントファクタμの計算器をさらに含む雑音成形デバイス。
  50. 請求項46に記載の雑音成形デバイスにおいて、前記誤差を計算する手段が前記音声信号コーデックからの前記出力信号と前記入力音声信号との差分を計算する加算器を含む雑音成形デバイス。
  51. 請求項46に記載の雑音成形デバイスにおいて、前記誤差をフィルタリングする手段が、A(z)が線形予測フィルタであり、γが加重ファクタである伝達関数A(z/γ)−1を持つフィルタをさらに含む雑音成形デバイス。
  52. 音声信号コーデックによる入力音声信号の符号化過程における雑音成形デバイスであって、前記デバイスが:
    前記入力音声信号の供給を受ける前記音声信号コーデックの出力から復号信号を受信する手段と;
    前記復号された出力信号をプレエンハンスメントし、プレエンハンスメント信号を生成する手段と
    記プレエンハンスメント信号に関する雑音フィードバックフィルタ伝達関数を計算する手段と;
    前記音声信号コーデックを介する前記入力音声信号の処理により生成する雑音を表す雑音フィードバックを生成する手段と;
    を含み、
    前記雑音フィードバックを生成する手段は、
    前記音声信号コーデックの前記復号された出力信号と前記入力音声信号との間の誤差を計算する手段と;
    前記雑音を成形するため、前記計算されたフィルタ伝達関数を介して前記誤差をフィルタリングする手段と;
    前記音声信号コーデックに入力として供給するため、前記入力音声信号に前記フィルタリングされた誤差を加える手段と;
    を含む雑音成形デバイス。
  53. 請求項52に記載の雑音成形デバイスにおいて、前記音声信号コーデックがG.711コーデックである雑音成形デバイス。
  54. 請求項52に記載の雑音成形デバイスにおいて、前記誤差をフィルタリングする手段が、A(z)が線形予測フィルタであり、γが加重ファクタである伝達関数A(z/γ)−1を持つフィルタを含む雑音成形デバイス。
  55. 請求項52に記載の雑音成形デバイスにおいて、前記復号された出力信号をプレエンハンスメントする手段が、μが適応型プレエンハンスメントファクタであり、zがz変換領域を表す伝達関数1−μz−1を有するプレエンハンスメントフィルタを含む雑音成形デバイス。
  56. 請求項55に記載の雑音成形デバイスにおいて、前記適応型プレエンハンスメントファクタμの計算器をさらに含む雑音成形デバイス。
  57. 請求項52に記載の雑音成形デバイスにおいて、前記誤差をフィルタリングする手段の不安定性に対し前記雑音フィードバックを生成する手段を保護する保護要素をさらに含む雑音成形デバイス。
  58. 請求項57に記載の雑音成形デバイスにおいて、前記保護要素がサンプリング周波数の半値に近い周波数に集中するエネルギーを持つ信号の検出器を含む雑音成形デバイス。
  59. 請求項58に記載の雑音成形デバイスにおいて、前記復号された出力信号の第1と第2の自動相関との間の割合であって、前記信号エネルギーの周波数分布を表す前記割合の計算器をさらに含む雑音成形デバイス。
  60. 請求項52に記載の雑音成形デバイスにおいて、前記雑音フィードバックを低減する利得コントローラをさらに含む雑音成形デバイス。
  61. 請求項52に記載の雑音成形デバイスにおいて、低エネルギー信号に対して量子化レベルをゼロに設定するデッドゾーン量子化器をさらに含む雑音成形デバイス。
  62. 少なくともレイヤ1およびレイヤ2を含むマルチレイヤエンコーダおよびデコーダにおける雑音成形デバイスであって、前記デバイスが:
    前記エンコーダにおいて:
    レイヤ1における雑音を成形する請求項46又は52に記載の雑音成形デバイスを含む音声信号を符号化する手段と;
    レイヤ2におけるエンハンスメント信号を生成する手段と;
    前記デコーダにおいて:
    前記エンコーダのレイヤ1からの前記符号化音声信号を復号し、合成音声信号を生成する手段と;
    レイヤ2からの前記エンハンスメント信号を復号する手段と;
    前記合成音声信号を使用して、フィルタ伝達関数を計算する手段と;
    前記計算されたフィルタ伝達関数を介してレイヤ2からの前記復号されたエンハンスメント信号をフィルタリングし、レイヤ2のフィルタリングされたエンハンスメント信号を生成する手段と;
    レイヤ2の前記フィルタリングされたエンハンスメント信号を前記合成音声信号に加え、レイヤ1およびレイヤ2双方からの寄与を含む出力信号を生成する手段と
    を含む雑音成形デバイス。
  63. 請求項62に記載の雑音成形デバイスにおいて、前記符号化デバイスにおけるプレエンハンスメントフィルタをさらに含む雑音成形デバイス。
  64. 請求項62に記載の雑音成形デバイスにおいて、前記誤差をフィルタリングする手段が、A(z)が線形予測フィルタであり、γが加重ファクタであるA(z/γ)−1の伝達関数を持つフィルタを含む雑音成形デバイス。
  65. 請求項62に記載の雑音成形デバイスにおいて、前記音声信号コーデックがITU−T G.711コーデックを含む雑音成形デバイス。
  66. 請求項62に記載の雑音成形デバイスにおいて、所与の閾値に劣るエネルギーレベルを持つ前記合成音声信号を抑制する雑音ゲートをさらに含む雑音成形デバイス。
JP2009518697A 2007-06-14 2007-12-28 Itu−tg.711規格と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形デバイスおよび方法 Expired - Fee Related JP5161212B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US92912407P 2007-06-14 2007-06-14
US60/929,124 2007-06-14
US96005707P 2007-09-13 2007-09-13
US60/960,057 2007-09-13
PCT/CA2007/002373 WO2008151410A1 (en) 2007-06-14 2007-12-28 Device and method for noise shaping in a multilayer embedded codec interoperable with the itu-t g.711 standard

Publications (2)

Publication Number Publication Date
JP2009541815A JP2009541815A (ja) 2009-11-26
JP5161212B2 true JP5161212B2 (ja) 2013-03-13

Family

ID=40129163

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010511454A Expired - Fee Related JP5618826B2 (ja) 2007-06-14 2007-12-24 Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
JP2009518697A Expired - Fee Related JP5161212B2 (ja) 2007-06-14 2007-12-28 Itu−tg.711規格と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形デバイスおよび方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2010511454A Expired - Fee Related JP5618826B2 (ja) 2007-06-14 2007-12-24 Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法

Country Status (5)

Country Link
US (2) US20110022924A1 (ja)
EP (1) EP2160733A4 (ja)
JP (2) JP5618826B2 (ja)
CN (1) CN101765879B (ja)
WO (2) WO2008151408A1 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602006018618D1 (de) * 2005-07-22 2011-01-13 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
US8335684B2 (en) * 2006-07-12 2012-12-18 Broadcom Corporation Interchangeable noise feedback coding and code excited linear prediction encoders
US8589720B2 (en) * 2008-04-15 2013-11-19 Qualcomm Incorporated Synchronizing timing mismatch by data insertion
CA2730200C (en) * 2008-07-11 2016-09-27 Max Neuendorf An apparatus and a method for generating bandwidth extension output data
PL2352147T3 (pl) * 2008-07-11 2014-02-28 Fraunhofer Ges Forschung Urządzenie i sposób kodowania sygnału audio
US20100017196A1 (en) * 2008-07-18 2010-01-21 Qualcomm Incorporated Method, system, and apparatus for compression or decompression of digital signals
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466673B (en) * 2009-01-06 2012-11-07 Skype Quantization
GB2466675B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
WO2010137300A1 (ja) * 2009-05-26 2010-12-02 パナソニック株式会社 復号装置及び復号方法
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
FR2961980A1 (fr) * 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
FR2969360A1 (fr) * 2010-12-16 2012-06-22 France Telecom Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique
US9026434B2 (en) 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
KR101594480B1 (ko) * 2011-12-15 2016-02-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 클립핑 아티팩트를 피하기 위한 장치, 방법 및 컴퓨터 프로그램
US9325544B2 (en) 2012-10-31 2016-04-26 Csr Technology Inc. Packet-loss concealment for a degraded frame using replacement data from a non-degraded frame
BR112015017868B1 (pt) 2013-01-29 2022-02-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Aparelho e método para gerar um sinal de melhoria de frequência utilizando uma operação de limitação de energia
CN105122357B (zh) 2013-01-29 2019-04-23 弗劳恩霍夫应用研究促进协会 频域中基于lpc进行编码的低频增强
FR3001593A1 (fr) * 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
AU2014283389B2 (en) * 2013-06-21 2017-10-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization
AU2014283393A1 (en) 2013-06-21 2016-02-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pitch lag estimation
CN107818789B (zh) * 2013-07-16 2020-11-17 华为技术有限公司 解码方法和解码装置
ES2699582T3 (es) * 2013-07-18 2019-02-11 Nippon Telegraph & Telephone Dispositivo, método, programa y medio de almacenamiento de análisis de predicción lineal
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
KR101805630B1 (ko) * 2013-09-27 2017-12-07 삼성전자주식회사 멀티 디코딩 처리 방법 및 이를 수행하기 위한 멀티 디코더
EP2980793A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and methods for encoding and decoding
US9953660B2 (en) * 2014-08-19 2018-04-24 Nuance Communications, Inc. System and method for reducing tandeming effects in a communication system
US9706317B2 (en) * 2014-10-24 2017-07-11 Starkey Laboratories, Inc. Packet loss concealment techniques for phone-to-hearing-aid streaming
JP6754764B2 (ja) * 2014-12-09 2020-09-16 ドルビー・インターナショナル・アーベー Mdct領域の誤り隠蔽
US9712348B1 (en) * 2016-01-15 2017-07-18 Avago Technologies General Ip (Singapore) Pte. Ltd. System, device, and method for shaping transmit noise
WO2017129270A1 (en) 2016-01-29 2017-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal
WO2017129665A1 (en) * 2016-01-29 2017-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal
JP6826126B2 (ja) * 2016-03-07 2021-02-03 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 異なる周波数帯域の異なる減衰係数に従って隠蔽されたオーディオフレームをフェードアウトする誤り隠蔽ユニット、オーディオデコーダ、および関連する方法およびコンピュータプログラム
BR112018067944B1 (pt) 2016-03-07 2024-03-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Unidade de ocultação de erro, método de ocultação de erro,decodificador de áudio, codificador de áudio, método para fornecer uma representação de áudio codificada e sistema
KR102192999B1 (ko) * 2016-03-07 2020-12-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성을 사용하는 에러 은닉 유닛, 오디오 디코더, 및 관련 방법과 컴퓨터 프로그램
CN107356521B (zh) * 2017-07-12 2020-01-07 湖北工业大学 一种针对多电极阵列腐蚀传感器微小电流的检测装置及方法
US10971166B2 (en) * 2017-11-02 2021-04-06 Bose Corporation Low latency audio distribution
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3553777B1 (en) 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Low-complexity packet loss concealment for transcoded audio signals
CN113454714B (zh) * 2019-02-21 2024-05-14 瑞典爱立信有限公司 根据mdct系数的频谱形状估计

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4704730A (en) * 1984-03-12 1987-11-03 Allophonix, Inc. Multi-state speech encoder and decoder
US5550544C1 (en) * 1994-02-23 2002-02-12 Matsushita Electric Ind Co Ltd Signal converter noise shaper ad converter and da converter
EP0763818B1 (en) * 1995-09-14 2003-05-14 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
JP3017715B2 (ja) * 1997-10-31 2000-03-13 松下電器産業株式会社 音声再生装置
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US20070055498A1 (en) * 2000-11-15 2007-03-08 Kapilow David A Method and apparatus for performing packet loss or frame erasure concealment
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
US8473286B2 (en) * 2004-02-26 2013-06-25 Broadcom Corporation Noise feedback coding system and method for providing generalized noise shaping within a simple filter structure
JP4574320B2 (ja) * 2004-10-20 2010-11-04 日本電信電話株式会社 音声符号化方法、広帯域音声符号化方法、音声符号化装置、広帯域音声符号化装置、音声符号化プログラム、広帯域音声符号化プログラム及びこれらのプログラムを記録した記録媒体
CN1783701A (zh) * 2004-12-02 2006-06-07 中国科学院半导体研究所 一种高阶σδ噪声整形直接数字频率合成器
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
JP4758687B2 (ja) * 2005-06-17 2011-08-31 日本電信電話株式会社 音声パケット送信方法、音声パケット受信方法、それらの方法を用いた装置、プログラム、および記録媒体
US20070174047A1 (en) * 2005-10-18 2007-07-26 Anderson Kyle D Method and apparatus for resynchronizing packetized audio streams
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
JP4693185B2 (ja) * 2007-06-12 2011-06-01 日本電信電話株式会社 符号化装置、プログラム、および記録媒体
JP5014493B2 (ja) * 2011-01-18 2012-08-29 日本電信電話株式会社 符号化方法、符号化装置、およびプログラム

Also Published As

Publication number Publication date
JP2009541815A (ja) 2009-11-26
WO2008151408A8 (en) 2009-03-05
EP2160733A4 (en) 2011-12-21
JP5618826B2 (ja) 2014-11-05
EP2160733A1 (en) 2010-03-10
CN101765879B (zh) 2013-10-30
CN101765879A (zh) 2010-06-30
JP2010530078A (ja) 2010-09-02
WO2008151410A1 (en) 2008-12-18
WO2008151408A1 (en) 2008-12-18
US20110022924A1 (en) 2011-01-27
US20110173004A1 (en) 2011-07-14

Similar Documents

Publication Publication Date Title
JP5161212B2 (ja) Itu−tg.711規格と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形デバイスおよび方法
US8630864B2 (en) Method for switching rate and bandwidth scalable audio decoding rate
JP5608660B2 (ja) エネルギ保存型マルチチャネルオーディオ符号化
JP5203929B2 (ja) スペクトルエンベロープ表示のベクトル量子化方法及び装置
US9715883B2 (en) Multi-mode audio codec and CELP coding adapted therefore
US7020605B2 (en) Speech coding system with time-domain noise attenuation
US7693710B2 (en) Method and device for efficient frame erasure concealment in linear predictive based speech codecs
US20080208575A1 (en) Split-band encoding and decoding of an audio signal
JP5285162B2 (ja) ピーク検出に基づいた選択型スケーリングマスク演算
KR20090104846A (ko) 디지털 오디오 신호에 대한 향상된 코딩/디코딩
JPH04233600A (ja) 32Kb/sワイドバンド音声の低遅延コード励起線型予測符号化
JP2002533963A (ja) 符号化通信信号の性能改良のための符号化された改良特性
US5913187A (en) Nonlinear filter for noise suppression in linear prediction speech processing devices
US20110125507A1 (en) Method and System for Frequency Domain Postfiltering of Encoded Audio Data in a Decoder
JP2008519990A (ja) 信号符号化の方法
JP2004515801A (ja) 音響信号の符号化の知覚的改善
JP5255575B2 (ja) レイヤード・コーデックのためのポストフィルタ
US10672411B2 (en) Method for adaptively encoding an audio signal in dependence on noise information for higher encoding accuracy
JP5451603B2 (ja) デジタルオーディオ信号の符号化
Lapierre et al. Noise shaping in an ITU-T G. 711-Interoperable embedded codec

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110816

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111110

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121213

R150 Certificate of patent or registration of utility model

Ref document number: 5161212

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees