JP2010521012A - 音声符号化システム及び方法 - Google Patents

音声符号化システム及び方法 Download PDF

Info

Publication number
JP2010521012A
JP2010521012A JP2009553226A JP2009553226A JP2010521012A JP 2010521012 A JP2010521012 A JP 2010521012A JP 2009553226 A JP2009553226 A JP 2009553226A JP 2009553226 A JP2009553226 A JP 2009553226A JP 2010521012 A JP2010521012 A JP 2010521012A
Authority
JP
Japan
Prior art keywords
audio signal
signal
decoded audio
decoded
encoded audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009553226A
Other languages
English (en)
Other versions
JP5301471B2 (ja
Inventor
マティアス・ニルソン
ヨナス・リンドブロム
レナート・ヴァフィン
ソーレン・ヴァング・アンデアセン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Skype Ltd Ireland
Original Assignee
Skype Ltd Ireland
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Skype Ltd Ireland filed Critical Skype Ltd Ireland
Publication of JP2010521012A publication Critical patent/JP2010521012A/ja
Application granted granted Critical
Publication of JP5301471B2 publication Critical patent/JP5301471B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

符号化されたオーディオ信号から再生された信号をエンハンスするシステム。システムは、上記符号化されたオーディオ信号を受信し、復号されたオーディオ信号を発生するように設けられた復号器と、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つを受信し、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから少なくとも1つの特徴を抽出するように設けられた特徴抽出手段と、上記特徴をエンハンス信号にマッピングし、上記エンハンス信号を発生しかつ出力するように動作するように設けられることにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するマッピング手段と、上記復号されたオーディオ信号及び上記エンハンス信号を受信し、上記エンハンス信号を上記復号されたオーディオ信号と混合するように設けられた混合手段とを備える。

Description

本発明は、音声符号化システム及び方法に関し、特にボイスオーバーインターネットプロトコル通信システムにおいて利用されることに関するがこれに限定されない。
通信システムでは、端末が呼又は別の通信イベントにおいて互いに情報を送信することができるように、2つの通信端末をリンクすることができる通信ネットワークが提供される。情報は、音声、テキスト、画像、又はビデオを含んでもよい。
現代の通信システムは、デジタル信号の送信に基づいている。音声などのアナログ情報は、端末の送信機でアナログデジタル変換器に入力され、デジタル信号に変換される。その後、デジタル信号は符号化され、宛先端末の受信機へのチャネルを介した送信のためにデータパケットに入れられる。
音声信号の符号化は、音声符号器によって実行される。音声符号器は、デジタル情報として送信するために音声を圧縮し、宛先端末の対応する復号器は、符号化された情報を復号して、復号された音声信号を生成する。それによって、符号器及び復号器の組み合わせは、宛先端末において(宛先端末のユーザの知覚から判断して)元の音声に酷似している復号された音声信号をもたらす。
多くの異なるタイプの音声符号化が既知であり、さまざまなシナリオ及びアプリケーションのために最適化されている。例えば、いくつかの音声符号化技術は、特に、低いビットレートのチャネルを介して送信するために、音声を符号化するために実装されている。低いビットレートの音声符号器は、ボイスオーバーインターネットプロトコル(“VoIP”)システム、及び移動体/無線遠隔通信などの多くのアプリケーションで有用である。
低いレートの音声符号器の例は、元の音声のわずかな(sparse)信号表現を生成するモデルベースの音声符号器である。このようなモデルベースの音声符号器の特定の一例は、正弦波の集合として音声信号を表現する音声符号器である。例えば、低いレートの正弦波音声符号器は、有声として分類された音声フレームの線形予測残差を正弦波のみを用いて符号化することができる。多くの別のタイプの低いレートのわずかな信号表現音声符号器がまた、既知である。これらのタイプの低いレートの符号器は、非常にコンパクトな信号表現を形成する。しかしながら、符号化された信号におけるわずかな表現は、音声の構造を完全に捕捉しない。
正弦波符号器などの低いレートのモデルベースの音声符号器に伴う問題は、信号が低いビットレートで送信されたとき、わずかな表現が金属的な音のアーチファクト(metallic-sounding artifact)をもたらす傾向があることである。金属的なアーチファクト(metallic artifact)は、基礎となるわずかなモデルが限定されたビット割り当てを与えられた音声音のいくつかの構造を捕捉する能力がないことに起因して発生する。
(最終的にはチャネルの帯域幅の能力に関係する)ビット割り当てが増加する場合、元の音声構造の失われた部分を記述するより多くの情報が、送信される情報に追加される。この追加の記述は、アーチファクトを軽減し、最終的にはアーチファクトを除去し、したがって、宛先端末のユーザによって知覚されるように、復号された音声信号の全体の品質及び自然さを改善する。しかしながら、これは明らかに、より高いビットレートをサポートする能力がある場合のみ可能である。
さらに、復号システムは、音声信号を時間内に圧縮する又は展開/伸張することができ、及び/又はジッタを補償するために全体の音声フレームを挿入又はスキップすることができる。ジッタは、受信される信号におけるパケット待ち時間の変動である。復号システムはまた、伝送において損失した又は遅延した1つ又はそれ以上のフレームを置換するために、1つ又はそれ以上の隠蔽フレームを音声信号に挿入することができる。特に、音声信号の伸張、及び音声信号への隠蔽フレームの挿入は、金属的なアーチファクトを引き起こす。一般に、これらの問題はより高いビットレートを利用しても緩和されない。
したがって、低いビットレートの符号器に伴う上述した問題、及び一般に、損失、遅延、及び/又はジッタが伝送において発生し得るときに、宛先において信号の知覚される品質を改善するための符号器に対処する技術が必要である。
本発明の一態様によれば、符号化されたオーディオ信号から再生された信号をエンハンスする(enhance)システムにおいて、上記符号化されたオーディオ信号を受信し、復号されたオーディオ信号を発生するように設けられた復号器と、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つを受信し、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから少なくとも1つの特徴を抽出するように設けられた特徴抽出手段と、上記少なくとも1つの特徴をエンハンス信号(enhancement signal)にマッピングし、上記エンハンス信号を発生しかつ出力するように動作するように設けられることにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するマッピング手段と、上記復号されたオーディオ信号及び上記エンハンス信号を受信し、上記エンハンス信号を上記復号されたオーディオ信号と混合するように設けられた混合手段とを備えたシステムを提供する。
一態様では、上記符号化されたオーディオ信号は符号化された音声信号であり、上記復号されたオーディオ信号は復号された音声信号である。
本発明のもう1つの態様によれば、符号化されたオーディオ信号から再生された信号をエンハンスする方法において、端末で上記符号化されたオーディオ信号を受信するステップと、復号されたオーディオ信号を発生するステップと、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから少なくとも1つの特徴を抽出するステップと、上記少なくとも1つの特徴をエンハンス信号にマッピングし、上記エンハンス信号を発生することにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するステップと、上記エンハンス信号と上記復号されたオーディオ信号とを混合するステップとを含む方法を提供する。
本発明のより良い理解のため、及び本発明がどのように実施されるのかを示すために、例を用いて以下の図面への参照が行われる。
通信システムを示す。 45msの音声セグメントの例のパワースペクトルを示す。 低いビットレートのわずかな符号器によって符号化される音声信号の知覚される品質を改善するシステムを示す。 図3のシステムの実施形態を示す。
まず、本発明の一実施形態において利用される通信システム100を示す図1を参照する。(“ユーザA”102で示される)通信システムの第1のユーザはユーザ端末104を操作し、ユーザ端末104はインターネットなどのネットワーク106に接続されていることが示されている。ユーザ端末104は、例えば、パーソナルコンピュータ(“PC”)、パーソナルデジタルアシスタント(“PDA”)、携帯電話、ゲーム用デバイス、又はネットワーク106に接続することができる別の組み込みデバイスであってもよい。ユーザデバイスは、ユーザインタフェース手段を有し、デバイスのユーザから情報を受信し、かつデバイスのユーザに情報を出力する。本発明の好ましい一実施形態では、ユーザデバイスのインタフェース手段は、スクリーンなどの表示手段、及びキーボード及び/又はポインティングデバイスを備える。ユーザデバイス104は、モデム、アクセスポイント、又は基地局などのネットワークインタフェース108を介してネットワーク106に接続され、ユーザ端末104とネットワークインタフェース108との間の接続は、ケーブル(有線)接続又は無線接続を介するものであってもよい。
ユーザ端末104は、通信システムのオペレータによって提供されるクライアント110を実行している。クライアント110は、ユーザ端末104内のローカルプロセッサ上で実行されるソフトウェアプログラムである。ユーザ端末104はまた、ハンドセット112に接続され、ハンドセット112は、スピーカ及びマイクロフォンを備えて、従来の固定回線電話と同一の方法で音声通話において聞くこと、及び話すことを可能にする。ハンドセット112は、従来の電話のハンドセットの形式である必要はなく、統合されたマイクロフォンを有するヘッドホン又はイヤホンの形式であってもよく、又はユーザ端末104に独立に接続された別々のラウドスピーカ及びマイクロフォンであってもよい。クライアント110は、ネットワーク106を介して送信するために音声を符号化する、及びネットワーク106から受信される音声を復号するために利用される音声符号器/復号器を備える。
ネットワーク106を介した呼は、発呼者(例えば、ユーザA102)と被呼ユーザ(すなわち宛先、この場合ではユーザB114)との間で開始されてもよい。いくつかの実施形態では、呼のセットアップは、独占的なプロトコルを用いて実行され、発呼ユーザと被呼ユーザとの間のネットワーク106を介したルートは、中央サーバを使用することなくピアツーピアのパラダイムにしたがって決定される。しかしながら、これは一例にすぎず、ネットワーク106を介した通信の別の手段がまた可能である。
発呼者と被呼ユーザとの間の呼が確立した後、ユーザA102からの音声は、ハンドセット112によって受信され、ユーザ端末104に入力される。音声符号器を備えるクライアント110は音声を符号化し、音声はネットワークインタフェース108を介してネットワーク106を経由して送信される。符号化された音声信号は、ネットワークインタフェース116及びユーザ端末118にルーティングされる。ここで、(ユーザ端末104のクライアント110と同様であってもよい)クライアント120は、音声復号器を使用して、信号を復号しかつ音声を再生する。その後、音声はハンドセット122を用いてユーザ114によって聞かれる。
上述したように、通信ネットワーク106はインターネットであってもよく、通信はVoIPを用いて実行されてもよい。しかしながら、本明細書でより詳細に示され記述される例示的な通信システムは、VoIPネットワークの用語を使用するが、本発明の実施形態は、データの転送を容易にする任意の別の適切な通信システムにおいて利用されてもよいことが認識されるべきである。例えば、本発明は、TDMA、CDMA、及びWCDMAネットワークなどの移動体通信ネットワークにおいて利用されてもよい。
ある実施例では、ユーザA102とユーザB114との間の音声の低いビットレート送信(例えば、16kbps未満)のために、高調波の正弦波符号器(harmonic sinusoidal coder)などのモデルベースの音声符号器が利用されてもよい。例えば、図1のクライアント110及び120における音声符号器及び復号器は、低いビットレートのチャネル上の送信に適した非常にコンパクトな信号表現を形成するわずかな正弦波モデルを生成する正弦波符号器であってもよい。代替の実施例では、別のタイプの低いレートのわずかな表現音声符号器が使用されてもよい。しかしながら、上述したように、いくつかの音声音については、わずかなモデルは完全に適切ではない。図2に示したように、このようなモデリングのミスマッチの例が見られる。
図2は、45msの音声セグメントの例のパワースペクトルを示す。破線202は元の音声のパワースペクトルを示し、実線204は、高調波の正弦波符号器を用いて符号化したときの音声のパワースペクトルを示す。符号化された信号のパワースペクトルは、元のパワースペクトルから著しく逸脱していることが明らかに見られる。このモデルのミスマッチの結果は、復号器から出力される音声が顕著な金属的なアーチファクトを含むことである。
ここで、低いビットレートのわずかな符号器によって符号化される音声信号の知覚される品質を改善するシステム300を示す図3を参照する。図3に示されるシステムは、復号器で動作する。したがって、図1に示された実施例を参照すると、図3のシステムは、宛先のユーザ端末118のクライアント120に位置する。
一般に、図3のシステム300は、すでに符号化された信号及び/又は復号された信号が、復号された信号と混合されるときに金属的なアーチファクトを軽減又は除去する人工信号を生成するために用いられる技術を利用する。したがって、これは知覚される品質を改善する。この解決法は人工混合信号(“AMS”)と呼ばれる。受信機で復号された信号のみを用いて人工信号を生成することから、追加のビットを送信する必要はないが、これは追加の(仮想の)符号化レイヤと見なされる。別の実施形態では、AMS信号の生成をさらに改善するいくつかの情報を記述する少数の追加のビットがまた、送信されてもよい。
さらに具体的には、図3のシステム300は、復号器ですでに利用可能な情報に基づいて、復号された信号と同じ周波数帯域に存在する信号成分を人工的に発生する。例えば、低いビットレートの正弦波の符号化された信号の例のシナリオでは、AMS方法は、正弦波復号器からの復号された信号を、より雑音のような特徴を有する人工的に発生された信号と混合する。これは、復号される音声信号の自然さを増加させる。
システム300への入力302は、ネットワーク106を介して受信された符号化された音声信号である。例えば、音声信号は、元の音声信号のわずかな表現を与える低いレートの正弦波符号器を用いて符号化されてもよい。別の符号化の形式がまた、代替の実施形態で利用されてもよい。符号化された信号302は、符号化された信号を復号するように設けられた復号器304に入力される。例えば、符号化された信号が正弦波符号器を用いて符号化された場合、復号器304は、正弦波復号器である。復号器304の出力は、復号された信号306である。
符号化された信号302及び復号された信号306の両方は、特徴抽出ブロック308に入力される。特徴抽出ブロック308は、復号された信号306及び/又は符号化された信号302から一定の特徴を抽出するように設けられる。抽出される特徴は、人工信号を合成するように有利に使用される特徴である。抽出される特徴は、復号された信号の時間及び/又は周波数におけるエネルギーの包絡線、フォルマントのロケーション、スペクトルの形状、基本周波数又は正弦波の記述におけるそれぞれの高調波のロケーション、これらの高調波の振幅及び位相、(例えば、予期される雑音成分のフィルタ、又は時間及び/又は周波数包絡線による)雑音モデルを記述するパラメータ、及び時間及び/又は周波数における予期される雑音成分の知覚的な重要性(perceptual importance)の分布を記述するパラメータのうちの少なくとも1つを含むがこれに限定されない。このような特徴を抽出する目的は、復号された信号と混合されるべき人工信号を発生する方法についての情報を提供することである。これらの特徴の1つ又はそれ以上は、特徴抽出ブロック308によって抽出されてもよい。
抽出された特徴は特徴抽出ブロック308から出力され、特徴−信号マッピングブロック310に提供される。特徴−信号マッピングブロック310の機能は、抽出された特徴を利用し、復号された信号306を補完しかつエンハンスする信号にそれらの特徴をマッピングすることである。特徴−信号マッピングブロック310の出力は、人工的に発生された信号312と呼ばれる。
多くのタイプのマッピングが、特徴−信号マッピングブロック310によって利用されてもよい。例えば、マッピング動作のタイプは、隠れマルコフモデル(HMM)、コードブックマッピング、ニューラルネットワーク、ガウス混合モデル、又は実際の音声信号をより良く模倣する洗練された推定量を構築する任意の別の適切に学習された統計的なマッピングのうちの少なくとも1つを含むがこれに限定されない。
さらに、いくつかの実施形態では、マッピング動作は、符号器及び/又は復号器からの設定及び情報によってガイドされてもよい。符号器及び/又は復号器からの設定及び情報は、制御ユニット314によって提供される。制御ユニット314は、設定及び情報を符号器及び/又は復号器から受信し、これらの設定及び情報は、信号のビットレート、フレームの分類(すなわち有声のフレーム又は過渡的なフレーム)、又は階層符号化方法のどの階層が送信されているのかを含んでもよいがこれに限定されない。これらの設定及び情報は、入力316で制御ユニット314に提供され、318で制御ユニット314から特徴−信号マッピングブロックに出力される。符号器及び/又は復号器からの情報及び設定は、特徴−信号マッピングブロック310によって使用されるマッピングのタイプを選択するために用いられてもよい。例えば、特徴−信号マッピングブロック310は、それぞれが異なるシナリオのために最適化されたいくつかの異なるタイプのマッピング動作を実装してもよい。制御ユニット314によって提供される情報は、特徴−信号マッピングブロック310が使用に最も適切なマッピング動作を決定することを可能にする。
代替の実施形態では、制御ユニット314が特徴抽出ブロック308内に統合されてもよく、制御情報が特徴情報とともに特徴−信号マッピングブロック310に直接的に提供されてもよい。
特徴−信号マッピングブロック310から出力される人工的に発生された信号312は、混合機能320に提供される。混合機能320は、復号された信号306を人工的に発生された信号312と混合して、元の音声信号により知覚的に類似する出力信号を発生する。
混合機能320は、制御ユニット314によって制御される。特に、制御ユニットは、(入力316から)符号器及び/又は復号器からの符号器の設定及び情報を利用して、例えば(時間及び周波数における)混合重み(混合重み付け係数)などの制御情報を信号322において混合機能320に提供する。制御ユニット314はまた、混合機能320のための制御情報を決定するときに、信号324において特徴抽出ブロック308によって提供される抽出された特徴の情報を利用することができる。
最も簡単な場合、混合機能320は、復号された信号306と人工的に発生された信号312との加重和を実装してもよい。しかしながら、有利な実施形態では、混合機能320は、フィルタバンク又は別のフィルタ構造を利用して、時間及び周波数の両方において信号の混合を制御してもよい。
別の有利な実施形態では、混合機能320は、元の信号の既知の構造を利用するために、復号された信号又は符号化された信号からの情報を使用するように適合されてもよい。例えば、有声の音声信号及び正弦波の符号化の場合、多数の正弦波がピッチ高調波に置かれ、雑音(すなわち人工的に発生された信号312)は、これらの場合、これらの高調波のそれぞれのピークからこれらの高調波の間のスペクトルの谷間に向けて次第に減少する重みスロープ(weight-slopes)又はフィルタを用いて混合されてもよい。それぞれの正弦波についての情報は、図3に示されるように入力として混合機能320に提供されてもよい符号化された信号302に含まれる。
さらに、符号化された信号又は復号された信号(302,306)からの情報は、復号された信号306がすでに元の信号の正確な表現である場合に、人工的に発生された信号312が復号された信号306を劣化させることを回避するために使用されてもよい。例えば、復号された信号306が、わずかなベースで元の信号の表現として得られた場合、人工的に発生された信号312は、主としてわずかなベースに対する直交補空間(orthogonal complement)において混合されてもよい。
代替の実施形態では、高調波のフィルタリング及び/又は直交補空間への投射(projection)は、混合機能320ではなく特徴−信号マッピングブロック310の一部として実行されてもよい。
混合機能の出力は人工混合信号326であり、人工混合信号326では、復号された信号306よりもより高い知覚される品質を有する信号を発生するように、復号された信号306及び人工的に発生された信号312が混合される。特に、金属的なアーチファクトが減少する。
図3を参照して上述した、すでに符号化された信号及び/又は復号された信号が、復号された信号と混合される人工信号を発生するために利用される技術は、帯域幅拡大(“BWE”)の分野で利用される技術と類似している。帯域幅拡大はまた、スペクトル帯域幅複製(“SBR”)として知られている。BWEにおける目的は、狭帯域の音声(例えば0.3−3.4kHzの帯域幅)から広帯域の音声(例えば0−8kHzの帯域幅)を再生成することである。しかしながら、BWEでは、人工信号は拡大されたより高い又はより低い帯域において発生される。図3の技術の場合では、人工信号は、符号化された/復号された信号と同一の周波数帯域において発生され混合される。
さらに、時間及び周波数成形された雑音モデルが、音声モデリングのコンテキスト及びパラメトリックオーディオ符号化のコンテキストの両方において使用される。しかしながら、これらのアプリケーションは一般に、この雑音の時間ロケーション及び周波数ロケーションの別々の符号化及び送信を利用する。一方、図3に示した技術は、有声の音声の既知の構造を積極的に利用する。これは、上述した技術が、別々の符号化及び送信なしに、符号化された信号及び復号された信号から完全に又はほぼ完全に人工雑音信号を発生する(例えば、雑音成分の時間包絡線及び/又は周波数包絡線を抽出する)ことを可能にする。余分のビットが送信されることなく(又はごくわずかの余分のビットが送信されることで)人工的に発生された信号が得られることは、符号化された信号及び復号された信号からのこの抽出による。例えば、少数の余分のビットが、AMS方法の動作をさらにエンハンスするために送信されてもよく、余分のビットは、雑音成分のゲイン又はレベルを示し、雑音成分の概略のスペクトル形状及び/又は時間的形状を提供し、かつ成形のためのファクタ又はパラメータを高調波に提供する。
上述したように、図3はAMS方法を実装するシステムの一般的な場合を示している。図3の一般的なシステムのより詳細な実施形態を示す図4を参照する。さらに具体的には、図4に示したシステム400では、特徴は復号された信号の時間上のエネルギーの包絡線の記述を形成し、人工信号は特徴を用いてガウス雑音を変調することによって発生される。
図4に示したシステム400は、全体システムの宛先端末で動作する。例えば、図1を参照すると、システム400は、宛先ユーザ端末118のクライアント120に位置する。システム400は、通信ネットワーク106を介して受信される符号化された信号302を入力として受信する。図3のシステムと同様に、符号化された信号302は、復号器304を用いて復号される。
復号された信号304は、復号された信号304の絶対値を出力する絶対値関数402に提供される。この信号はハン窓関数404を用いて畳み込まれる。絶対値を求め、ハン窓を用いて畳み込んだ結果は、復号された信号306の滑らかなエネルギー包絡線406である。絶対値関数402とハン窓404との組み合わせは、本明細書で上述した図3の特徴抽出ブロック308の機能を実行し、滑らかなエネルギー包絡線406が、抽出された特徴である。好ましい例示的な一実施形態では、ハン窓は10個のサンプルのサイズを有する。
復号された信号の滑らかなエネルギー包絡線406は、ガウスランダム雑音と乗算されて、変調された雑音信号408を発生する。ガウスランダム雑音は、乗算器412に接続されたガウス雑音発生器410によって発生される。乗算器412はまた、ハン窓404から入力を受信する。その後、変調された雑音信号408は、ハイパスフィルタ414を用いてフィルタリングされて、フィルタリングされた変調された雑音信号416を発生する。ガウス雑音発生器410、乗算器412、及びハイパスフィルタ414の組み合わせは、図3を参照して上述された特徴−信号マッピングブロック310の機能を実行する。フィルタリングされた変調された雑音信号416は、図3の人工的に発生された信号312と同等である。
フィルタリングされた変調された雑音信号416は、エネルギー整合及び信号混合ブロック418に提供される。エネルギー整合及び信号混合ブロック418はまた、ハイパスフィルタ422が復号された信号306をフィルタリングすることによって発生されるハイパスフィルタでフィルタリングされた信号420を入力として受信する。ブロック418は、フィルタリングされた変調された雑音信号416におけるエネルギーとハイパスフィルタでフィルタリングされた信号420におけるエネルギーとを整合する。
エネルギー整合及び信号混合ブロック418はまた、制御ユニット314の制御の下で、フィルタリングされた変調された雑音信号416とハイパスフィルタでフィルタリングされた信号420とを混合する。特に、混合器に適用される重み付けは、制御ユニット314によって制御され、ビットレートに依存する。好ましい実施形態では、制御ユニット314は、ビットレートを監視し、フィルタリングされた変調された雑音信号416の効果が、レートが上昇するにつれてより小さくなるように混合重みを適合させる。好ましくは、フィルタリングされた変調された雑音信号416の効果は主に、レートが上昇するにつれて、混合から消されていく(すなわち、AMSシステムの全体の効果が最小限である)。
エネルギー整合及び信号混合ブロック418の出力424は、加算器426に提供される。加算器はまた、復号された信号306を、ローパスフィルタ430を用いてフィルタリングすることによって発生されるローパスフィルタでフィルタリングされた信号428を入力として受信する。したがって、加算器426の出力信号432は、低い周波数の復号された信号428と高い周波数の混合された人工的に発生された信号との和である。信号432は、復号された音声信号306よりもより多くの雑音のような特徴を有し、音声の知覚される自然さ及び品質が向上しているAMS信号である。
本発明は、復号された信号の知覚される品質が人工的に発生された信号を用いて向上させられる例の実施形態を参照して記述されたが、本発明は、伝送における損失又は遅延を隠蔽するときに結果として生じるような隠蔽信号に同様に適用されることが、当業者には理解されるであろう。例えば、1つ又はそれ以上のデータフレームがチャネルにおいて損失又は遅延したとき、隠蔽信号が復号器によって隣接するフレームから外挿又は内挿によって発生されて、損失したフレームを置換する。隠蔽信号は、金属的なアーチファクトを生じやすいので、特徴が隠蔽信号から抽出され、人工信号が発生され、隠蔽信号と混合されて金属的なアーチファクトを緩和してもよい。
さらに、本発明はまた、ジッタが検出され、その後に伸張される信号、又はジッタを補償するために挿入されたフレームを有する信号に適用される。伸張された信号又は挿入されたフレームは、金属的なアーチファクトを生じやすいので、特徴が伸張された信号又は挿入された信号から抽出され、人工信号が発生され、隠蔽信号と混合されて金属的なアーチファクトの効果を減少させる。
さらに、本発明は特に、好ましい実施形態を参照して示されかつ記述されたが、形式及び詳細におけるさまざまな変更が、付随する特許請求の範囲によって定義される本発明の範囲から逸脱することなく行われてもよいことが当業者には理解されるであろう。

Claims (57)

  1. 符号化されたオーディオ信号から再生された信号をエンハンスするシステムにおいて、
    上記符号化されたオーディオ信号を受信し、復号されたオーディオ信号を発生するように設けられた復号器と、
    上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つを受信し、上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから少なくとも1つの特徴を抽出するように設けられた特徴抽出手段と、
    上記少なくとも1つの特徴をエンハンス信号にマッピングし、上記エンハンス信号を発生しかつ出力するように動作するように設けられることにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するマッピング手段と、
    上記復号されたオーディオ信号及び上記エンハンス信号を受信し、上記エンハンス信号を上記復号されたオーディオ信号と混合するように設けられた混合手段とを備えたシステム。
  2. 上記符号化されたオーディオ信号は符号化された音声信号であり、上記復号されたオーディオ信号は復号された音声信号である請求項1記載のシステム。
  3. 上記符号化されたオーディオ信号は、モデルベースの音声符号器を用いて符号化される請求項1又は2記載のシステム。
  4. 上記復号器は、モデルベースの音声復号器である請求項3記載のシステム。
  5. 上記モデルベースの音声符号器は、高調波の正弦波音声符号器である請求項3又は4記載のシステム。
  6. 上記モデルベースの音声復号器は、高調波の正弦波音声復号器である請求項4又は5記載のシステム。
  7. 上記エンハンス信号は、上記復号されたオーディオ信号と比較して雑音のようである請求項1から6のうちのいずれか1つの請求項記載のシステム。
  8. 上記特徴抽出手段によって抽出される上記少なくとも1つの特徴は、上記復号されたオーディオ信号のエネルギーの包絡線である請求項1から7のうちのいずれか1つの請求項記載のシステム。
  9. 上記特徴抽出手段は、
    上記復号されたオーディオ信号の絶対値を決定するように設けられた絶対値機能と、
    上記復号されたオーディオ信号の上記絶対値を受信し、上記絶対値を畳み込んで上記復号されたオーディオ信号の上記エネルギーの包絡線を決定するように設けられた畳み込み機能とを備えた請求項8記載のシステム。
  10. 上記マッピング手段は、ガウス雑音発生器及び乗算器を備え、
    上記乗算器は、上記ガウス雑音発生器からのガウス雑音信号と上記特徴とを乗算して、上記エンハンス信号を発生するように設けられた請求項8又は9記載のシステム。
  11. 上記マッピング手段はさらに、上記乗算器の出力をフィルタリングするように設けられたハイパスフィルタを備えた請求項10記載のシステム。
  12. 上記混合手段は、上記復号されたオーディオ信号におけるエネルギーと上記エンハンス信号におけるエネルギーとを整合するように設けられたエネルギー整合手段を備えた請求項11記載のシステム。
  13. 上記混合手段はさらに、混合器を備えた請求項12記載のシステム。
  14. 上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つについての情報を受信し、上記情報を使用してマッピングのタイプを選択しかつ上記マッピングのタイプを上記マッピング手段に提供するように設けられた制御手段をさらに備えた請求項1から13のうちのいずれか1つの請求項記載のシステム。
  15. 上記制御手段はさらに、混合器制御情報を生成し、上記混合器制御情報を上記混合手段に提供するように設けられた請求項14記載のシステム。
  16. 上記混合器制御情報は、混合重みを備えた請求項15記載のシステム。
  17. 上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから抽出された上記少なくとも1つの特徴は、フォルマントのロケーション、スペクトルの形状、基本周波数、正弦波の記述におけるそれぞれの高調波のロケーション、高調波の振幅及び位相、雑音モデル、及び時間及び/又は周波数における予期される雑音成分の知覚的な重要性の分布を記述するパラメータのうちの少なくとも1つを含む請求項1から7のうちのいずれか1つの請求項記載のシステム。
  18. 上記マッピング手段は、隠れマルコフモデル、コードブックマッピング、ニューラルネットワーク、及びガウス混合モデルのうちの少なくとも1つを用いて、上記少なくとも1つの特徴をエンハンス信号にマッピングするように設けられた請求項1から7のうちのいずれか1つの請求項記載のシステム。
  19. 上記混合手段はさらに、
    上記符号化されたオーディオ信号を受信し、
    上記符号化されたオーディオ信号から少なくとも1つの高調波のロケーションを決定し、
    上記少なくとも1つの高調波のロケーションに基づいて、上記エンハンス信号と上記復号されたオーディオ信号との混合を適合させるように設けられた請求項1から18のうちのいずれか1つの請求項記載のシステム。
  20. 上記符号化されたオーディオ信号は、端末において通信ネットワークから受信される請求項1から19のうちのいずれか1つの請求項記載のシステム。
  21. 上記通信ネットワークは、ピアツーピア通信ネットワークである請求項20記載のシステム。
  22. 上記符号化されたオーディオ信号は、ボイスオーバーインターネットプロトコルのデータパケット内で受信される請求項1から21のうちのいずれか1つの請求項記載のシステム。
  23. 上記復号器はさらに、
    上記符号化されたオーディオ信号からフレームが損失したことを決定する手段と、
    それに応じて、上記符号化されたオーディオ信号の少なくとも1つの別のフレームから上記復号されたオーディオ信号を発生する手段とを備えた請求項1記載のシステム。
  24. 上記発生する手段は、上記少なくとも1つの別のフレームから上記復号されたオーディオ信号を内挿する手段を備えた請求項23記載のシステム。
  25. 上記発生する手段は、上記少なくとも1つの別のフレームから上記復号されたオーディオ信号を外挿する手段を備えた請求項23記載のシステム。
  26. 上記復号器はさらに、
    上記符号化されたオーディオ信号におけるパケット待ち時間のジッタを検出する手段と、
    上記ジッタによる歪みが減少するように上記復号されたオーディオ信号を発生する手段とを備えた請求項1記載のシステム。
  27. 上記発生する手段はさらに、上記復号されたオーディオ信号を伸張して、上記歪みを補償する手段を備えた請求項26記載のシステム。
  28. 上記発生する手段はさらに、上記復号されたオーディオ信号にフレームを挿入して、上記歪みを補償する手段を備えた請求項26記載のシステム。
  29. 上記システムは、上記符号化されたオーディオ信号から再生された上記信号の知覚される品質をエンハンスする請求項1から28のうちのいずれか1つの請求項記載のシステム。
  30. 符号化されたオーディオ信号から再生された信号をエンハンスする方法において、
    端末で上記符号化されたオーディオ信号を受信するステップと、
    復号されたオーディオ信号を発生するステップと、
    上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから少なくとも1つの特徴を抽出するステップと、
    上記少なくとも1つの特徴をエンハンス信号にマッピングし、上記エンハンス信号を発生することにより、上記エンハンス信号は、上記復号されたオーディオ信号の周波数帯域内である周波数帯域を有するステップと、
    上記エンハンス信号と上記復号されたオーディオ信号とを混合するステップとを含む方法。
  31. 上記符号化されたオーディオ信号は符号化された音声信号であり、上記復号されたオーディオ信号は復号された音声信号である請求項30記載の方法。
  32. 上記符号化されたオーディオ信号は、モデルベースの音声符号器を用いて符号化される請求項30又は31記載の方法。
  33. 上記復号されたオーディオ信号を発生するステップは、モデルベースの音声復号器を用いて上記符号化されたオーディオ信号を復号するステップを含む請求項32記載の方法。
  34. 上記モデルベースの音声符号器は、高調波の正弦波音声符号器である請求項32又は33記載の方法。
  35. 上記モデルベースの音声復号器は、高調波の正弦波音声復号器である請求項33又は34記載の方法。
  36. 上記エンハンス信号は、上記復号されたオーディオ信号と比較して雑音のようである請求項30から35のうちのいずれか1つの請求項記載の方法。
  37. 上記特徴抽出手段によって抽出される上記少なくとも1つの特徴は、上記復号されたオーディオ信号のエネルギーの包絡線である請求項30から36のうちのいずれか1つの請求項記載の方法。
  38. 上記抽出するステップは、
    上記復号されたオーディオ信号の絶対値を決定するステップと、
    上記復号されたオーディオ信号の上記絶対値を畳み込んで、上記復号されたオーディオ信号の上記エネルギーの包絡線を決定するステップとを含む請求項37記載の方法。
  39. 上記マッピングするステップは、
    ガウス雑音信号を発生するステップと、
    上記ガウス雑音信号と上記特徴とを乗算して、上記エンハンス信号を発生するステップとを含む請求項37又は38記載の方法。
  40. 上記マッピングするステップはさらに、上記乗算器の出力をハイパスフィルタでフィルタリングするステップを含む請求項39記載の方法。
  41. 上記混合するステップは、上記復号されたオーディオ信号におけるエネルギーと上記エンハンス信号におけるエネルギーとを整合するステップを含む請求項40記載の方法。
  42. 上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つについての情報を制御手段で受信するステップと、
    上記情報を使用して、マッピングのタイプを選択するステップと、
    上記マッピングするステップにおいて、上記マッピングのタイプを適用するステップとをさらに含む請求項30から41のうちのいずれか1つの請求項記載の方法。
  43. 上記制御手段で混合器制御情報を生成するステップと、
    上記混合するステップにおいて、上記混合器制御情報を利用するステップとをさらに含む請求項42記載の方法。
  44. 上記混合器制御情報は、混合重みを備えた請求項43記載の方法。
  45. 上記復号されたオーディオ信号及び符号化されたオーディオ信号のうちの少なくとも1つから抽出された上記少なくとも1つの特徴は、フォルマントのロケーション、スペクトルの形状、基本周波数、正弦波の記述におけるそれぞれの高調波のロケーション、高調波の振幅及び位相、雑音モデル、及び時間及び/又は周波数における予期される雑音成分の知覚的な重要性の分布を記述するパラメータのうちの少なくとも1つを含む請求項30から36のうちのいずれか1つの請求項記載の方法。
  46. 上記マッピングするステップは、隠れマルコフモデル、コードブックマッピング、ニューラルネットワーク、及びガウス混合モデルのうちの少なくとも1つを用いて、上記少なくとも1つの特徴をエンハンス信号にマッピングするステップを含む請求項30から36のうちのいずれか1つの請求項記載の方法。
  47. 上記混合するステップは、
    上記符号化されたオーディオ信号を受信するステップと、
    上記符号化されたオーディオ信号から少なくとも1つの高調波のロケーションを決定するステップと、
    上記少なくとも1つの高調波のロケーションに基づいて、上記エンハンス信号と上記復号されたオーディオ信号との混合を適合させるステップとを含む請求項30から46のうちのいずれか1つの請求項記載の方法。
  48. 上記符号化されたオーディオ信号は、端末において通信ネットワークから受信される請求項30から47のうちのいずれか1つの請求項記載の方法。
  49. 上記通信ネットワークは、ピアツーピア通信ネットワークである請求項48記載の方法。
  50. 上記符号化されたオーディオ信号は、ボイスオーバーインターネットプロトコルのデータパケット内で受信される請求項30から49のうちのいずれか1つの請求項記載の方法。
  51. 上記復号されたオーディオ信号を発生するステップはさらに、
    上記符号化されたオーディオ信号からフレームが損失したことを決定するステップと、
    それに応じて、上記符号化されたオーディオ信号の少なくとも1つの別のフレームから上記復号されたオーディオ信号を発生するステップとを含む請求項30記載の方法。
  52. 上記発生するステップは、上記少なくとも1つの別のフレームから上記復号されたオーディオ信号を内挿するステップを含む請求項51記載の方法。
  53. 上記発生するステップは、上記少なくとも1つの別のフレームから上記復号されたオーディオ信号を外挿するステップを含む請求項51記載の方法。
  54. 上記復号されたオーディオ信号を発生するステップはさらに、
    上記符号化されたオーディオ信号におけるパケット待ち時間のジッタを検出するステップと、
    上記ジッタによる歪みが減少するように上記復号されたオーディオ信号を発生するステップとを含む請求項30記載の方法。
  55. 上記発生するステップは、上記復号されたオーディオ信号を伸張して、上記歪みを補償するステップを含む請求項54記載の方法。
  56. 上記発生するステップは、上記復号されたオーディオ信号にフレームを挿入して、上記歪みを補償するステップを含む請求項54記載の方法。
  57. 上記方法は、上記符号化されたオーディオ信号から再生された上記信号の知覚される品質をエンハンスする請求項30から56のうちのいずれか1つの請求項記載の方法。
JP2009553226A 2007-03-09 2007-12-20 音声符号化システム及び方法 Active JP5301471B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB0704622.0A GB0704622D0 (en) 2007-03-09 2007-03-09 Speech coding system and method
GB0704622.0 2007-03-09
PCT/IB2007/004491 WO2008110870A2 (en) 2007-03-09 2007-12-20 Speech coding system and method

Publications (2)

Publication Number Publication Date
JP2010521012A true JP2010521012A (ja) 2010-06-17
JP5301471B2 JP5301471B2 (ja) 2013-09-25

Family

ID=37988716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009553226A Active JP5301471B2 (ja) 2007-03-09 2007-12-20 音声符号化システム及び方法

Country Status (6)

Country Link
US (1) US8069049B2 (ja)
EP (1) EP2135240A2 (ja)
JP (1) JP5301471B2 (ja)
AU (1) AU2007348901B2 (ja)
GB (1) GB0704622D0 (ja)
WO (1) WO2008110870A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105765652A (zh) * 2013-09-27 2016-07-13 弗劳恩霍夫应用研究促进协会 用于生成下混音信号的构思
JP2017520803A (ja) * 2014-10-21 2017-07-27 三菱電機株式会社 ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4635983B2 (ja) * 2006-08-10 2011-02-23 ソニー株式会社 通信処理装置、データ通信システム、および方法、並びにコンピュータ・プログラム
JP2010079275A (ja) * 2008-08-29 2010-04-08 Sony Corp 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
US9774948B2 (en) * 2010-02-18 2017-09-26 The Trustees Of Dartmouth College System and method for automatically remixing digital music
US9640190B2 (en) * 2012-08-29 2017-05-02 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, program, and recording medium therefor
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
CA2928005C (en) * 2013-10-20 2023-09-12 Massachusetts Institute Of Technology Using correlation structure of speech dynamics to detect neurological changes
ES2805744T3 (es) 2013-10-31 2021-02-15 Fraunhofer Ges Forschung Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
KR101940740B1 (ko) 2013-10-31 2019-01-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
US10043534B2 (en) * 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
US11501154B2 (en) 2017-05-17 2022-11-15 Samsung Electronics Co., Ltd. Sensor transformation attention network (STAN) model
JP7019096B2 (ja) 2018-08-30 2022-02-14 ドルビー・インターナショナル・アーベー 低ビットレート符号化オーディオの増強を制御する方法及び機器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0627995A (ja) * 1992-03-02 1994-02-04 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 音声信号処理装置と音声信号処理方法
JPH117297A (ja) * 1997-06-17 1999-01-12 Norio Akamatsu 音声波形処理装置
JP2002528983A (ja) * 1998-10-27 2002-09-03 ボイスエイジ コーポレイション 広帯域信号の復号における周期性の強調
JP2002536679A (ja) * 1999-01-27 2002-10-29 コーディング テクノロジーズ スウェーデン アクチボラゲット 情報源符号化システムの性能向上方法と装置
US20040181399A1 (en) * 2003-03-15 2004-09-16 Mindspeed Technologies, Inc. Signal decomposition of voiced speech for CELP speech coding
JP2004354893A (ja) * 2003-05-30 2004-12-16 Mitsubishi Electric Corp 音声合成装置と音声合成方法及びプログラム
US20060217975A1 (en) * 2005-03-24 2006-09-28 Samsung Electronics., Ltd. Audio coding and decoding apparatuses and methods, and recording media storing the methods

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
SE506341C2 (sv) * 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
DE19643900C1 (de) * 1996-10-30 1998-02-12 Ericsson Telefon Ab L M Nachfiltern von Hörsignalen, speziell von Sprachsignalen
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6029126A (en) * 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6098036A (en) * 1998-07-13 2000-08-01 Lockheed Martin Corp. Speech coding system and method including spectral formant enhancer
US6353810B1 (en) * 1999-08-31 2002-03-05 Accenture Llp System, method and article of manufacture for an emotion detection system improving emotion recognition
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
GB2358558B (en) * 2000-01-18 2003-10-15 Mitel Corp Packet loss compensation method using injection of spectrally shaped noise
KR100701452B1 (ko) * 2000-05-17 2007-03-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 스펙트럼 모델링
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US7711563B2 (en) * 2001-08-17 2010-05-04 Broadcom Corporation Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7103539B2 (en) * 2001-11-08 2006-09-05 Global Ip Sound Europe Ab Enhanced coded speech
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
RU2315438C2 (ru) * 2003-07-16 2008-01-20 Скайп Лимитед Одноранговая телефонная система
US6812876B1 (en) * 2003-08-19 2004-11-02 Broadcom Corporation System and method for spectral shaping of dither signals
KR20060131766A (ko) * 2003-12-01 2006-12-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
KR100956877B1 (ko) * 2005-04-01 2010-05-11 콸콤 인코포레이티드 스펙트럼 엔벨로프 표현의 벡터 양자화를 위한 방법 및장치
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
JP2009534713A (ja) * 2006-04-24 2009-09-24 ネロ アーゲー 低減ビットレートを有するデジタル音声データを符号化するための装置および方法
WO2008001318A2 (en) * 2006-06-29 2008-01-03 Nxp B.V. Noise synthesis
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US8280728B2 (en) * 2006-08-11 2012-10-02 Broadcom Corporation Packet loss concealment for a sub-band predictive coder based on extrapolation of excitation waveform
WO2008022181A2 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Updating of decoder states after packet loss concealment
US8352257B2 (en) * 2007-01-04 2013-01-08 Qnx Software Systems Limited Spectro-temporal varying approach for speech enhancement
US8229106B2 (en) * 2007-01-22 2012-07-24 D.S.P. Group, Ltd. Apparatus and methods for enhancement of speech
DK3591650T3 (da) * 2007-08-27 2021-02-15 Ericsson Telefon Ab L M Fremgangsmåde og indretning til udfyldning af spektrale huller

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0627995A (ja) * 1992-03-02 1994-02-04 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 音声信号処理装置と音声信号処理方法
JPH117297A (ja) * 1997-06-17 1999-01-12 Norio Akamatsu 音声波形処理装置
JP2002528983A (ja) * 1998-10-27 2002-09-03 ボイスエイジ コーポレイション 広帯域信号の復号における周期性の強調
JP2002536679A (ja) * 1999-01-27 2002-10-29 コーディング テクノロジーズ スウェーデン アクチボラゲット 情報源符号化システムの性能向上方法と装置
US20040181399A1 (en) * 2003-03-15 2004-09-16 Mindspeed Technologies, Inc. Signal decomposition of voiced speech for CELP speech coding
JP2004354893A (ja) * 2003-05-30 2004-12-16 Mitsubishi Electric Corp 音声合成装置と音声合成方法及びプログラム
US20060217975A1 (en) * 2005-03-24 2006-09-28 Samsung Electronics., Ltd. Audio coding and decoding apparatuses and methods, and recording media storing the methods

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN5010003682; KOVESI B: '"A scalable speech and audio coding scheme with continuous bitrate flexibility"' ICASSP'04 V1, 20040517, P273-276, IEEE *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105765652A (zh) * 2013-09-27 2016-07-13 弗劳恩霍夫应用研究促进协会 用于生成下混音信号的构思
CN105765652B (zh) * 2013-09-27 2019-11-19 弗劳恩霍夫应用研究促进协会 用于生成下混音信号的构思
JP2017520803A (ja) * 2014-10-21 2017-07-27 三菱電機株式会社 ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法
US9881631B2 (en) 2014-10-21 2018-01-30 Mitsubishi Electric Research Laboratories, Inc. Method for enhancing audio signal using phase information

Also Published As

Publication number Publication date
US8069049B2 (en) 2011-11-29
AU2007348901A1 (en) 2008-09-18
AU2007348901B2 (en) 2012-09-06
EP2135240A2 (en) 2009-12-23
US20080221906A1 (en) 2008-09-11
JP5301471B2 (ja) 2013-09-25
WO2008110870A3 (en) 2008-12-18
WO2008110870A2 (en) 2008-09-18
GB0704622D0 (en) 2007-04-18

Similar Documents

Publication Publication Date Title
JP5301471B2 (ja) 音声符号化システム及び方法
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
JP6044035B2 (ja) 帯域幅拡張のためのスペクトル平坦性制御
RU2475868C2 (ru) Способ и устройство для маскирования ошибок кодированных аудиоданных
ES2955855T3 (es) Generación de señal de banda alta
US8095374B2 (en) Method and apparatus for improving the quality of speech signals
JP6794379B2 (ja) ハイバンド信号生成
JP3881946B2 (ja) 音響符号化装置及び音響符号化方法
US20150262584A1 (en) Voice decoding apparatus of adding component having complicated relationship with or component unrelated with encoding information to decoded voice signal
JP7297367B2 (ja) 周波数帯域拡張方法、装置、電子デバイスおよびコンピュータプログラム
CN110556122A (zh) 频带扩展方法、装置、电子设备及计算机可读存储介质
JP2000305599A (ja) 音声合成装置及び方法、電話装置並びにプログラム提供媒体
JP6073456B2 (ja) 音声強調装置
CN110556121A (zh) 频带扩展方法、装置、电子设备及计算机可读存储介质
JPH0946233A (ja) 音声符号化方法とその装置、音声復号方法とその装置
Bhatt et al. A novel approach for artificial bandwidth extension of speech signals by LPC technique over proposed GSM FR NB coder using high band feature extraction and various extension of excitation methods
JP3472279B2 (ja) 音声符号化パラメータ符号化方法及び装置
JP2007310296A (ja) 帯域拡張装置及び方法
JP4099879B2 (ja) 帯域幅拡張方法及び装置
AU2012261547B2 (en) Speech coding system and method
JP2005114814A (ja) 音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、及びこれを記録した記録媒体
CN112530446A (zh) 频带扩展方法、装置、电子设备及计算机可读存储介质
JP4638895B2 (ja) 復号方法、復号器、復号装置、プログラムおよび記録媒体
JP4269364B2 (ja) 信号処理方法及び装置、並びに帯域幅拡張方法及び装置
CN116110424A (zh) 一种语音带宽扩展方法及相关装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120406

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120510

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130415

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130619

R150 Certificate of patent or registration of utility model

Ref document number: 5301471

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250