JP6373873B2 - 線形予測コーディングにおける適応型フォルマントシャープニングのためのシステム、方法、装置、及びコンピュータによって読み取り可能な媒体 - Google Patents

線形予測コーディングにおける適応型フォルマントシャープニングのためのシステム、方法、装置、及びコンピュータによって読み取り可能な媒体 Download PDF

Info

Publication number
JP6373873B2
JP6373873B2 JP2015555166A JP2015555166A JP6373873B2 JP 6373873 B2 JP6373873 B2 JP 6373873B2 JP 2015555166 A JP2015555166 A JP 2015555166A JP 2015555166 A JP2015555166 A JP 2015555166A JP 6373873 B2 JP6373873 B2 JP 6373873B2
Authority
JP
Japan
Prior art keywords
filter
codebook vector
speech signal
signal
formant sharpening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015555166A
Other languages
English (en)
Other versions
JP2016504637A5 (ja
JP2016504637A (ja
Inventor
アッティ、ベンカトラマン・エス.
ラジェンドラン、ビベク
クリシュナン、ベンカテシュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2016504637A publication Critical patent/JP2016504637A/ja
Publication of JP2016504637A5 publication Critical patent/JP2016504637A5/ja
Application granted granted Critical
Publication of JP6373873B2 publication Critical patent/JP6373873B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

関連出願の相互参照
[0001]本出願は、ここにおける引用によってここにおいて内容全体が明示で組み入れられている、共通所有される米国仮特許出願第61/758,152号(出願日:2013年1月29日)及び米国非仮特許出願第14/026,765号(出願日:2013年9月13日)からの優先権を主張するものである。
[0002]本開示は、音声信号のコーディング(例えば、話声コーディング)に関するものである。
[0003]線形予測(LP)解析−合成フレームワークは、話声合成に関するソース−システムパラダイムに非常に良く適合するため、話声コーディングに関して成功を収めている。特に、上方声道の経時でゆっくりと変化するスペクトル特性がオールポールフィルタ(all−pole filter)によってモデル化され、他方、予測残差は、声帯の有声、無声、又は混合された励振挙動をキャプチャする。LP解析からの予測残差は、クローズドループの合成による解析プロセスを用いてモデル化及び符号化される。
[0004]合成による解析符号励振線形予測(CELP)システムでは、入力話声と再構築された話声との間の最小の観測された“知覚的に重みが付けられた”(perceptually−weighted)平均二乗誤差(MSE)が結果的に得られる励起シーケンスが選択される。知覚的重み付けフィルタは、量子化雑音が高エネルギーフォルマントによってマスキングされるような形で予測誤差を整形する。知覚的重み付けフィルタの役割は、フォルマント領域における誤差エネルギーをデエンファサイズ(de−emphasize)することである。このデエンファシス戦略は、フォルマント領域では、量子化雑音が話声によって部分的にマスキングされるという事実に基づく。CELPコーディングでは、励起信号は、2つのコードブック、すなわち、適応型コードブック(ACB)及び固定型コードブック、から生成される。ACBベクトルは、過去の励起信号の遅延(すなわち、クローズドループピッチ値だけ)セグメントを表し、全体的励起の周期的コンポーネントに貢献する。全体的励起における周期的貢献がキャプチャされた後は、固定型コードブック探索が行われる。FCB励起ベクトルは、励起信号内の残りの非周期的コンポーネントを部分的に表し、インターリービングされたユニタリパルスの代数型コードブックを用いて構築される。話声コーディングでは、ピッチ及びフォルマントシャープニング技法は、例えば、より低いビットレートにおける話声再構築品質の有意な向上を提供する。
[0005]フォルマントシャープニングは、クリーンな話声における有意な品質上の利得に貢献することができる。しかしながら、雑音が存在しさらに信号対雑音比(SNR)が低い状態では、品質上の利得は顕著さが低くなる。これは、フォルマントシャープニングフィルタの不正確な推定に起因し、及び部分的にではあるが、雑音を追加で考慮する必要があるソース−システム話声モデルの幾つかの制限事項に起因する。幾つかの事例においては、話声品質の劣化は、変形された、フォルマントシャープニングされた低帯域励起が高帯域合成において使用される帯域幅拡大が存在するほうがより顕著である。特に、低帯域励起の幾つかのコンポーネント(例えば、固定型コードブックの貢献)は、低帯域合成の知覚上の品質を向上させるためにピッチ及び/又はフォルマントのシャープニングを受けることができる。高帯域合成のために低帯域からのピッチ及び/又はフォルマントシャープニングされた励起を使用することは、可聴アーティファクトを発生させる尤度が全体的な話声再構築品質を向上させるよりも高くなることがある。
[0006]低ビットレート話声コーディングに関するコード励起線形予測(CELP)合成解析アーキテクチャに関する概略図を示す。 [0007]話声信号のフレームの一例に関する高速フーリエ変換(FFT)スペクトル及び対応するLPCスペクトルを示した図である。 [0008]一般的構成による音声信号を処理するための方法M100に関するフローチャートを示す。 [0009]一般的構成による音声信号を処理するための装置MF100に関するブロック図を示す。 [0010]一般的構成による音声信号を処理するための装置A100に関するブロック図を示す。 [0011]方法100の実装M120に関するフローチャートを示す。 [0012]装置MF100の実装A120に関するブロック図を示す。 [0013]装置A100の実装A120に関するブロック図を示す。 [0014]長期的SNRを計算するための擬似コードリストの例を示した図である。 [0015]長期的SNRによりフォルマントシャープニング率を推定するための擬似コードリストの例を示した図である。 [0016]γ値対長期的SNRのプロット例を示した図である。 [0016]γ値対長期的SNRのプロット例を示した図である。 [0016]γ値対長期的SNRのプロット例を示した図である。 [0017]適応型コードブック探索のためのターゲット信号x(n)の生成を例示した図である。 [0018]FCB推定のための方法を示した図である。 [0019]ここにおいて説明される適応型フォルマントシャープニングを含めるための図8の方法の修正を示した図である。 [0020]一般的構成による符号化された音声信号を処理するための方法M200に関するフローチャートを示す。 [0021]一般的構成による符号化された音声信号を処理するための装置MF200に関するブロック図を示す。 [0022]一般的構成による符号化された音声信号を処理するための装置A200に関するブロック図を示す。 [0023]ネットワークNW10を通じて通信する送信端末102及び受信端末104の例を示したブロック図である。 [0024]音声符号器AE10の実装AE20のブロック図を示す。 [0025]フレーム符号器FE10の基本的実装FE20のブロック図を示す。 [0026]通信デバイスD10のブロック図を示す。 [0027]無線デバイス1102のブロック図を示す。 [0028]ハンドセットH100の前面図、後面図、及び側面図を示す。
[0029]文脈上明示で制限されないかぎり、用語“信号”は、ここにおいては、それの通常の意味のうちのいずれかを示すために使用され、ワイヤ、バス、又はその他の送信媒体において表されるメモリ記憶場所(又はメモリ記憶場所の組)の状態を含む。文脈上明示で制限されないかぎり、用語“生成する”は、ここにおいては、それの通常の意味のうちのいずれか、例えば、演算すること又はその他の方法で生成すること、を示すために使用される。文脈上明示で制限されないかぎり、用語“計算する”は、ここにおいては、それの通常の意味のうちのいずれか、例えば、演算すること、評価すること、平滑化すること、及び/又は複数の値から選択すること、を示すために使用される。文脈上明示で制限されないかぎり、用語“入手する”は、ここにおいては、それの通常の意味のうちのいずれか、例えば、計算すること、導き出すこと、(例えば、外部のデバイスから)受信すること、(例えば、記憶素子のアレイから)取り出すこと、を示すために使用される。文脈上明示で制限されないかぎり、用語“選択する”は、それの通常の意味のうちのいずれか、例えば、2つ以上の物から成る組の中の少なくとも1つ、及びすべてよりも少ない物を識別すること、示すこと、適用すること、及び/又は使用すること、を示すために使用される。用語“備える”が本説明及び請求項において使用される場合は、その他の要素又は動作を除外しない。用語“に基づいて”(例えば、“AはBに基づく”)は、それの通常の意味のうちのいずれかを示すために使用され、事例(i)“から導き出された”(例えば、“Bは、Aの先駆である”)、(ii)“少なくとも〜に基づいて”(例えば、“Aは少なくともBに基づく”)、及び、特定の文脈において該当する場合は、(iii)“に等しい” (例えば、“AはBに等しい”)を含む。同様に、用語“に応答して”は、それの通常の意味のうちのいずれかを示すために使用され、“少なくとも〜に応答して”を含む。
[0030]別記がないかぎり、用語“一連の”は、2つ以上の項目のシーケンスを示すために使用される。用語“対数”は、10を底とする対数を示すために使用されるが、その他の底への該演算の拡張も本開示の適用範囲内である。用語“周波数成分”は、信号の周波数又は周波数帯域の組の中の1つ、例えば、(高速フーリエ変換又はMDCTによって生成された)信号の周波数−領域表現のサンプル、又はその信号のサブバンド(例えば、バーク尺度又はメル尺度サブバンド)を示すために使用される。
[0031]別記がないかぎり、特定の特徴を有する装置の動作の開示は、類似の特徴を有する方法を開示することも明示で意図され(逆も同じ)、特定の構成による装置の動作の開示は、類似の構成を有する方法を開示することも明示で意図される(逆も同じ)。用語“構成”は、方法、装置、及び/又はシステムに言及して使用することができ、それの特定の文脈によって示される。用語“方法”、“プロセス”、“手順”、及び“技法”は、特定の文脈によって別の意味が示されないかぎり、一般的に及び互換可能な形で使用される。複数のサブタスクを有する“タスク”も方法である。用語“装置”及び“デバイス”も、特定の文脈によって別の意味が示されないかぎり、一般的に及び互換可能な形で使用される。用語“要素”及び“モジュール”は、典型的には、より大きい構成の一部分を示すために使用される。文脈によって明示で制限されないかぎり、用語“システム”は、ここにおいては、それの通常の意味のうちのいずれかを示すために使用され、“1つの共通の目的を果たすために相互に作用する要素のグループ”を含む。用語“複数”は、“2つ以上”を意味する。文書の一部に言及することによって組み入れられている場合は、その一部分におい言及される用語又は変数の定義、及び、組み入れられている一部分において言及される図も組み入れると理解されるべきであり、該定義は文書内の別の箇所で現れる場合も含む。
[0032]用語“コーダ”、“コーデック”、及び“コーディングシステム”は、(おそらく1つ以上の前処理動作、例えば、知覚的重み付け及び/又はその他のフィルタリング動作、の後に)音声信号のフレームを受信及び符号化するように構成された少なくとも1つの符号器と、それらのフレームの復号された表現を生成するように構成された対応する復号器と、を含むシステムを表すために互換可能な形で使用される。該符号器及び復号器は、典型的には、通信リンクの反対側の端末に配備される。全二重通信をサポートするために、符号器及び復号器の両方の例は、典型的には、該リンクの各端部において配備される。
[0033]別記がないかぎり、用語“ボコーダ”、“音声コーダ”、及び“話声コーダ”は、音声符号器及び対応する音声復号器の組み合わせを意味する。別記がないかぎり、用語“コーディング”は、コーデックを介しての音声信号の転送を示し、符号化及び後続する復号を含む。別記がないかぎり、用語“送信する”は、送信チャネル内への伝搬(例えば、信号)を示す。
[0034]ここにおいて説明されるコーディング方式は、あらゆる音声信号(例えば、非話声音声を含む)をコーディングするために適用することができる。代替として、該コーディング方式は、話声のためのみに使用するのが望ましいであろう。該事例においては、コーディング方式は、音声信号の各フレームの内容のタイプを決定するための及び適切なコーディング方式を選択するための分類方式とともに使用することができる。
[0035]ここにおいて説明されるコーディング方式は、プライマリコーデックとして又は多層又は多段コーデックにおける1つの層又は段として使用することができる。1つの該例では、該コーディング方式は、音声信号の周波数成分の一部分(例えば、低帯域又は高帯域)をコーディングするために使用され、信号の周波数成分の他の一部分をコーディングするために他のコーディング方式が使用される。
[0036]線形予測(LP)解析−合成フレームワークは、話声合成に関するソース−システムパラダイムに非常に良く適合するため、話声コーディングに関して成功を収めている。特に、上方声道の経時でゆっくりと変化するスペクトル特性がオールポールフィルタによってモデル化され、他方、予測残差は、声帯の有声、無声、又は混合された励振挙動をキャプチャする。
[0037]LP解析からの予測残差をモデル化及び符号化するためにはクローズドループでの合成による解析を使用するのが望ましいであろう。(例えば、図1において示されるような)合成による解析符号励振線形予測(CELP)システムでは、入力話声と再構築された(又は“合成された”)話声との間の誤差を最小にする励起シーケンスが選択される。該システムにおいて最小化される誤差は、例えば、知覚的に重みが付けられた平均二乗誤差(MSE)であることができる。
[0038]図2は、話声信号のフレームの一例に関する高速フーリエ変換(FFT)スペクトル及び対応するLPCスペクトルを示す。この例では、フォルマント(ラベルF1乃至F4)におけるエネルギーの集中は、声道内での共鳴に対応し、より平滑なLPCスペクトルにおいてはっきりと見ることができる。
[0039]フォルマント領域における話声エネルギーは、本来であればそれらの領域において発生することがある雑音を部分的にマスキングすることを予想することができる。従って、量子化誤差に起因する雑音を高エネルギーフォルマントによってマスキングすることができるようにするために予測誤差を整形するための知覚的重み付けフィルタ(PWF)を含めるようにLPコーダを実装するのが望ましい。
[0040](例えば、フォルマント領域の外側の予測誤差をより正確にモデル化できるようにするために)それらの領域内の予測誤差のエネルギーをデエンファサイズするPWF W(z)を以下のような式に従って実装することができる。
Figure 0006373873
ここで、γ及びγは、その値が0<γ<γ<1の関係を満たす重みであり、aは、オールポールフィルタ、A(z)の係数であり、Lは、オールポールフィルタの次数(order)である。典型的には、フィードフォワード(feedforward)重みγの値は、0.9以上であり(例えば、0.94乃至0.98の範囲内)、フィードバック重みγの値は、0.4乃至0.7である。式(1a)において示されるように、γ及びγの値は、異なるフィルタ係数aに関して異なることができ、又は、すべてのi、1≦i≦Lに関してγ及びγの同じ値を使用することができる。γ及びγの値は、例えば、LPCスペクトルエンベロープに関連するチルト(tilt)(又は平らさ)特性に従って選択することができる。一例においては、スペクトルチルトは、第1の反射係数によって示される。W(z)が値{γ、γ}={0.92、0.68}を有する式(1b)に従って実装される特定の例が、sections 4.3 and 5.3 of Technical Specification (TS) 26.190 v 11.0.0(AMR-WB speech codec, Sep. 2012, Third Generation Partnership Project (3GPP), Valbonne, FR) において記述されている。
[0041]CELPコーディングにおいては、励起信号e(n)は、2つのコードブック、すなわち、適応型コードブック(ACB)及び固定型コードブック(FCB)、から生成される。励起信号e(n)は、以下のような式に従って生成することができる。
Figure 0006373873
ここで、nは、サンプルインデックスであり、g及びgは、それぞれACB利得及びFCB利得であり、v(n)及びc(n)は、ACBベクトル及びFCBベクトルである。ACBベクトルv(n)は、過去の励起信号の遅延セグメント(すなわち、ピッチ値、例えば、クローズドループピッチ値だけ遅延)を表し、全体的励起の周期的コンポーネントに貢献する。FCB励起ベクトルc(n)は、励起信号内の残りの非周期的コンポーネントを部分的に表す。一例においては、ベクトルc(n)は、インターリービングされたユニタリパルスの代数型コードブックを用いて構築される。FCBベクトルc(n)は、全体的励起における周期的な貢献がgv(n)でキャプチャされた後に固定型コードブック探索を行うことによって入手することができる。
[0042]ここにおいて説明される方法、システム、及び装置は、音声信号を一連のセグメントとして処理するように構成することができる。典型的なセグメントの長さは、約5又は10ミリ秒乃至約40又は50ミリ秒の範囲であり、セグメントは、重なり合うこと(例えば、隣接セグメントと25%又は50%重なり合う)又は重なり合わないことができる。1つの特定の例においては、音声信号は、各々が10ミリ秒の長さを有する一連の重なり合わないセグメント又は“フレーム”に分割される。他の特定の例においては、各フレームは、20ミリ秒の長さを有する。音声信号に関するサンプリングレートの例は、(限定することなしに)8、12、16、32、44.1、48、及び192キロヘルツを含む。該方法、システム、又は装置は、LP解析をサブフレームごとに更新するのが望ましいであろう(例えば、各フレームが、ほぼ同じサイズの2つ、3つ、又は4つのサブフレームに分割される)。さらに加えて又は代替として、該方法、システム、又は装置は、励起信号をサブフレームごとに生成するのが望ましい。
[0043]図1は、低ビットレート話声コーディングに関するコード励起線形予測(CELP)の合成による解析アーキテクチャに関する概略図を示す。この図では、sは、入力された話声であり、s(n)は、前処理された話声であり、
Figure 0006373873
は、再構築された話声であり、A(z)は、LP解析フィルタである。
[0044]ピッチシャープニング及び/又はフォルマントシャープニング技法を採用するのが望ましく、それらは、特に低ビットレートにおいて、話声再構築品質の有意な向上を提供することができる。該技法は、FCB探索前に、重み付き合成フィルタのインパルス応答(例えば、
Figure 0006373873
は、量子化された合成フィルタを表す)においてピッチシャープニング及びフォルマントシャープニングを最初に適用し、次に、後述されるように推定されたFCBベクトルc(n)においてシャープニングを適用することによって実装することができる。
[0045]1)ACBベクトルv(n)は、信号s(n)内の全ピッチエネルギーをキャプチャするわけではないこと、及び、FCB探索は、ピッチエネルギーの一部を含む残りの部分に従って行われることを予想することができる。従って、FCBベクトル内の対応する成分をシャープニングするために現在のピッチ推定値(例えば、クローズドループピッチ値)を使用するのが望ましい。ピッチシャープニングは、以下のような伝達関数を用いて行うことができる。
Figure 0006373873
ここで、τは、現在のピッチ推定値に基づく(例えば、τは、最寄りの整数値に丸められたクローズドループピッチ値である)。推定されたFCBベクトルc(n)は、該ピッチプリフィルタH(z)を用いてフィルタリングされる。フィルタH(z)は、FCB推定前に重み付き合成フィルタのインパルス応答に(例えば、
Figure 0006373873
のインパルス応答に)も適用される。他の例においては、フィルタH(z)は、例えば、以下の中の適応型コードブック利得gに基づく。
Figure 0006373873
(例えば、第三世代パートナーシッププロジェクト2(3GPP2)文書C.S0014−E v1.0,Dec.2011,Arlington,VAの第4.12.4.14節において記述される)、ここで、gの値(0≦g≦1)は、値[0.2,0.9]によって囲むことができる。
[0046]2)FCB探索は、完全に雑音ではなく、フォルマント領域のより多くのエネルギーを含む残りの部分に従って行われることを予想することができる。フォルマントシャープニング(FS)は、上述されるフィルタW(z)に類似する知覚的重み付けフィルタを用いて行うことができる。しかしながら、この場合は、重みの値は、0<γ<γ<1の関係を満たす。1つの該例においては、フィードフォワード重みに関する値γ=0.75及びフィードバック重みに関するγ=0.9が使用される。
Figure 0006373873
フォルマント内の量子化雑音を隠すためにデエンファシスを行う式(1)内のPWF W(z)と異なり、式(4)に示されるFSフィルタH(z)は、FCB励起に関連するフォルマント領域をエンファサイズする。推定されたFCBベクトルc(n)は、該FSフィルタH(z)を用いてフィルタリングされる。フィルタH(z)は、FCB推定前に重み付き合成フィルタのインパルス応答に(例えば、
Figure 0006373873
のインパルス応答に)も適用される。
[0047]ピッチシャープニング及びフォルマントシャープニングを用いて入手することができる話声再構築品質の向上は、基礎になる話声信号モデル及びクローズドループピッチτ及びLP解析フィルタA(z)の推定における精度に直接依存することができる。幾つかの大規模な聴覚試験に基づき、フォルマントシャープニングは、クリーンな話声における大きな品質利得に貢献できることが実験的に検証されている。しかしながら、雑音が存在する状態では、ある程度の劣化が一貫して観察されている。フォルマントシャープニングを原因とする劣化は、FSフィルタの不正確な推定に起因し、及び/又は雑音を追加で考慮する必要があるソース−システム話声モデルの幾つかの制限事項に起因することができる。
[0048]高帯域LPCフィルタ係数を入手するために狭帯域LPCフィルタ係数をスペクトル拡大することによって(代替として、高帯域LPCフィルタ係数を符号化された信号に含めることによって)及び高帯域励起信号を入手するために(例えば、非線形関数、例えば、絶対値又は平方化、を用いて)狭帯域励起信号をスペクトル拡大することによって、(例えば、0、50、100、200、300又は350ヘルツ乃至3、3.2、3.4、3.5、4、6.4、又は8kHzの帯域幅を有する)復号された狭帯域話声信号の帯域幅を増大させて高帯域(例えば、7、8、12、14、16、又は20kHz)にするために帯域幅拡大技法を使用することができる。残念なことに、フォルマントシャープニングを原因とする劣化は、該変換された低帯域励起が高帯域合成において使用される帯域幅拡大が存在する状態ではより激しくなるおそれがある。
[0049]クリーンな話声及び雑音のある話声の両方においてFSに起因する品質向上を保持するのが望ましいであろう。フォルマント−シャープニング(FS)率を好適に変化させるアプローチ法がここにおいて説明される。特に、品質向上は、雑音が存在する状態でフォルマントシャープニングを行うための積極性のより低いエンファシスファクタγを使用時に注目された。
[0050]図3Aは、タスクT100、T200、及びT300を含む一般的構成による音声信号を処理するための方法M100に関するフローチャートを示す。タスクT100は、経時での音声信号に関する平均信号対雑音比を決定する(例えば、計算する)。平均SNRに基づき、タスクT200は、フォルマントシャープニング率を決定する(例えば、計算する、推定する、ルックアップテーブルから取り出す、等)。“フォルマントシャープニング率”(又は“FS率”)は、話声コーディング(又は復号)システムにおいて適用することができるパラメータに対応し、従って、システムは、そのパラメータの異なる値に応答して異なるフォルマントエンファシス結果を生み出す。例示することを目的として、フォルマントシャープニング率は、フォルマントシャープニングフィルタのフィルタパラメータであることができる。例えば、式1(a)、式1(b)、及び式4のγ及び/又はγは、フォルマントシャープニング率である。フォルマントシャープニング率γは、例えば、図5及び6A乃至6Cに関して説明されるような、長期的信号対雑音比に基づいて決定することができる。フォルマントシャープニング率γは、その他の要因、例えば、ボイシング(voicing)、コーディングモード、及び/又はピッチタグに基づいて決定することができる。タスクT300は、FS率に基づくフィルタを音声信号からの情報に基づくFCBベクトルに適用する。
[0051]実施形態例では、図3AのタスクT100は、その他の中間的な率、例えば、ボイシング率(例えば、0.8乃至1.0の範囲内のボイシング値は、強い有声のセグメントに対応し、0乃至0.2の範囲内のボイシング値は、弱い有声のセグメントに対応する)、コーディングモード(例えば、話声、音楽、沈黙、遷移フレーム、又は無声のセグメント)、及びピッチラグに対応する。これらの補助的なパラメータは、フォルマントシャープニング率を決定するために平均SNRと共に又は平均SNRの代わりに使用することができる。
[0052]タスクT100は、雑音推定を行うために及び長期的SNRを計算するために実装することができる。例えば、タスクT100は、音声信号の非アクティブなセグメント中に長期的雑音推定値を追跡するために及び音声信号のアクティブなセグメント中に長期的信号エネルギーを計算するために実装することができる。音声信号のセグメント(例えば、フレーム)がアクティブであるか又は非アクティブであるかは、符号器の他のモジュール、例えば、音声区間検出器(voice activity detector)、によって示すことができる。タスクT100は、長期的SNRを計算するために一時的に平滑化された雑音及び信号エネルギー推定値を使用することができる。
[0053]図4は、タスクT100によって行うことができる長期的SNR FS_ltSNRを計算するための擬似コードリストの例を示し、ここで、FS_ltNsEner及びFS_ltSpEnerは、長期的雑音エネルギー推定値及び長期的話声エネルギー推定値をそれぞれ表す。この例では、雑音及び信号エネルギー推定値の両方に関して0.99の値を有する一時的平滑化率が使用されるが、概して、各々の該率は、ゼロ(平滑化なし)と1(更新なし)との間のあらゆる希望される値を有することができる。
[0054]タスクT200は、フォルマントシャープニング率を経時で好適に変化させるために実装することができる。例えば、タスクT200は、次のフレームに関するフォルマントシャープニング率を好適に変化させるために現在のフレームからの推定された長期的SNRを使用するために実装することができる。図5は、タスクT200によって行うことができる長期的SNRに従ってFS率を推定するための擬似コードリストの例を示す。図6Aは、図5のリストにおいて使用されるパラメータのうちの一部を例示するγ値対長期的SNRのプロット例である。タスクT200は、下限(例えば、GAMMA2MIN)及び上限(例えば、GAMMA2MAX)を課すために計算されたFS率をクリッピングするサブタスクを含むこともできる。
[0055]タスクT200は、γ値対長期的SNRの異なるマッピングを使用するために実装することもできる。該マッピングは、1つ、2つ、又はそれ以上の追加の反曲点及び隣接する反曲点間で異なる傾きを有する区分的線形であることができる。該マッピングの傾きは、図6Bの例において示されるように、より低いSNRに関してより急であり、より高い傾きに関してはより緩やかであることができる。代替として、該マッピングは、非線形関数、例えば、gamma
Figure 0006373873
などであることができるか、又は図6Cの例において示されるとおりであることができる。
[0056]タスクT300は、タスクT200によって生成されたFS率を用いて、FCB励起においてフォルマントシャープニングフィルタを適用する。フォルマントシャープニングフィルタH(z)は、例えば、以下のような式に従って実装することができる。
Figure 0006373873
クリーンな話声に関して、及び高いSNRが存在する状態で、γの値は図5の例における0.9に近く、その結果、積極的なフォルマントシャープニングが得られることに注目すること。約10乃至15dBの低いSNRでは、γの値は約0.75乃至0.78であり、その結果、フォルマントシャープニングが得られないか又は積極性が低いフォルマントシャープニングになる。
[0057]帯域幅拡大では、高帯域合成のためにフォルマントシャープニングされた低帯域励起を使用することは、その結果として、アーティファクトが発生するおそれがある。高帯域に対する影響が無視できる大きさに維持されるような形でFS率を変化させるためにここにおいて説明される方法M100の実装を使用することができる。代替として、高帯域励起に対するフォルマントシャープニングの貢献は、(例えば、高帯域励起生成においてFCBベクトルのプリシャープニングバージョンを用いることによって、又は、狭帯域及び高帯域の両方における励起生成のためのフォルマントシャープニングをディスエーブルにすることによって)ディスエーブルにすることができる。該方法は、例えば、ポータブル通信デバイス、例えば、携帯電話、内で実行することができる。
[0058]図3Dは、タスクT220とT240とを含む方法M100の実装M120のフローチャートを示す。タスクT220は、決定されたFS率に基づくフィルタ(例えば、ここにおいて説明されるフォルマントシャープニングフィルタ)を合成フィルタ(例えば、ここにおいて説明される重み付き合成フィルタ)のインパルス応答に適用する。タスクT240は、タスクT300が実行されるFCBベクトルを選択する。例えば、タスクT240は、(例えば、ここにおける図8において説明されるように及び/又は3GPP TS26.190v11.0.0のsection5.8におけるように)コードブック探索を行うように構成することができる。
[0059]図3Bは、タスクT100、T200、及びT300を含む一般的構成に従って音声信号を処理するための装置MF100に関するブロック図を示す。装置MF100は、(例えば、タスクT100を参照してここおいて説明されるように)経時での音声信号に関する平均信号対雑音比を計算するための手段F100を含む。実施形態例では、装置MF100は、その他の中間的な率、例えば、ボイシング率(例えば、0.8乃至1.0の範囲内のボイシング値は、強い有声のセグメントに対応し、0乃至0.2の範囲内のボイシング値は、弱い有声のセグメントに対応する)、コーディングモード(例えば、話声、音楽、沈黙、遷移フレーム、又は無声のセグメント)、及びピッチラグを計算するための手段F100を含むことができる。これらの補助的なパラメータは、フォルマントシャープニング率を決定するために平均SNRと共に又は平均SNRの代わりに使用することができる。
[0060]装置MF100は、(例えば、タスク200を参照してここにおいて説明されるように)計算された平均SNRに基づいてフォルマントシャープニング率を計算するための手段F200も含む。装置MF100は、計算されたFS率に基づくフィルタを(例えば、タスクT300を参照してここにおいて説明されるように)音声信号からの情報に基づくFCBベクトルに適用するための手段F300も含む。該装置は、例えば、ポータブル通信デバイス、例えば、携帯電話、の符号器内に実装することができる。
[0061]図3Eは、計算されたFS率に基づくフィルタを(例えば、タスクT220を参照してここにおいて説明されるように)合成フィルタのインパルス応答に適用するための手段F220を含む装置MF100の実装MF120のブロック図を示す。装置MF120は、(例えば、タスクT240を参照してここにおいて説明されるように)FCBベクトルを選択するための手段F240も含む。
[0062]図3Cは、第1の計算器100と、第2の計算器200と、フィルタ300と、を含む一般的構成による音声信号を処理するための装置A100に関するブロック図を示す。計算器100は、(例えば、タスクT100を参照してここにおいて説明されるように)経時での音声信号に関する平均信号対雑音比を決定する(例えば、計算する)ように構成される。計算器200は、(例えば、タスクT200を参照してここにおいて説明されるように)計算された平均SNRに基づいてフォルマントシャープニング率を決定する(例えば、計算する)ように構成される。フィルタ300は、(例えば、タスクT300を参照してここにおいて説明されるように)計算されたFS率に基づき、及び音声信号からの情報に基づくFCBベクトルをフィルタリングするように配置される。該装置は、例えば、ポータブル通信デバイス、例えば、携帯電話、の符号器内で実装することができる。
[0063]図3Fは、(例えば、タスクT220を参照してここにおいて説明されるように)フィルタ300が合成フィルタのインパルス応答をフィルタリングするように配置される装置A100の実装A120のブロック図を示す。装置A120は、(例えば、タスクT240を参照してここにおいて説明されるように)FCBベクトルを選択するように構成されたコードブック探索モジュール240も含む。
[0064]図7及び8は、ここにおいて説明されるように適応型フォルマントシャープニングを含めるために修正することができるFCB推定方法の追加の詳細を示す。図7は、前処理された話声信号s(n)に基づく予測誤差及び前サブフレームの最後に入手された励起信号に対して重み付き合成フィルタを適用することによる適応型コードブック探索に関するターゲット信号x(n)の生成を例示する。
[0065]図8では、重み付き合成フィルタのインパルス応答h(n)は、ACB成分y(n)を生成するためにACBベクトルv(n)と畳み込まれる。ACB成分y(n)は、FCB探索のための修正されたターゲット信号x’(n)を生成するためにターゲット信号x(n)から減じられるACB貢献を生成するためにgによって重みが付けられ、それは、例えば、(TS26.190 v11.0.0のsection5.8.3において説明されるように)図8において示される探索項を最大化するFCBパルスのインデックス位置kを見つけるために行うことができる。
[0066]図9は、ここにおいて説明されるように適応型フォルマントシャープニングを含めるために図8に示されるFCB推定手順を修正することを示す。この事例では、修正されたインパルス応答h’(n)を生成するために重み付き合成フィルタのインパルス応答h(n)にフィルタH(z)及びH(z)が適用される。これらのフィルタは、探索後のFCB(又は“代数型コードブック”)にも適用される。
[0067]復号器は、フィルタH(z)及びH(z)をFCBベクトルに適用するために実装することができる。1つの該例においては、符号器は、計算されたFS率を符号化されたフレームのパラメータとして復号器に送信するために実装される。この実装は、復号された信号におけるフォルマントシャープニングの規模を制御するために使用することができる。他の該例においては、復号器は、(例えば、図4及び5の擬似コードリストを参照してここにおいて説明されるように)ローカルで生成することができる長期的SNR推定値に基づいてフィルタH(z)及びH(z)を生成するために実装され、従って、追加の送信された情報は要求されない。しかしながら、この事例では、符号器及び復号器におけるSNR推定値は、例えば、復号器におけるフレーム消去の大きなバーストに起因して非同期化する可能性がある。このような潜在的なSNRドリフトは、符号器及び復号器における長期的SNR推定値の(例えば、現在の瞬間的SNRへの)同期的及び周期的なリセットを行うことによって予防的に対処するのが望ましい。一例においては、該リセットは、定期的な間隔で(例えば、5秒ごとに、又は250フレームごとに)実行される。他の例においては、該リセットは、長い不活動期間(例えば、少なくとも2秒の期間、又は少なくとも100の連続する非アクティブフレームのシーケンス)後に発生する話声セグメントの開始時に行われる。
[0068]図10Aは、タスクT500、T600、及びT700を含む一般的構成による符号化された音声信号を処理する方法M200に関するフローチャートを示す。タスクT500は、符号化された音声信号の第1のフレームからの情報に基づいて、(例えば、タスクT100を参照してここにおいて説明されるように)経時での平均信号対雑音比を決定する(例えば、計算する)。タスクT600は、(例えば、タスクT200を参照してここにおいて説明されるように)平均信号対雑音比に基づいて、フォルマントシャープニング率を決定する(例えば、計算する)。タスクT700は、フォルマントシャープニング率に基づくフィルタ(例えば、ここにおいて説明されるH(z)又はH(z)H(z))を、符号化された音声信号の第2のフレームからの情報に基づくコードブックベクトル(例えば、FCBベクトル)に適用する。該方法は、例えば、ポータブル通信デバイス、例えば、携帯電話、内で実行することができる。
[0069]図10Bは、一般的構成による符号化された音声信号を処理するための装置MF200のブロック図を示す。装置MF200は、符号化された音声信号の第1のフレームからの情報に基づいて、(例えば、タスクT100を参照してここにおいて説明されるように)経時での平均信号対雑音比を計算するための手段F500を含む。装置MF200は、(例えば、タスクT200を参照してここにおいて説明されるように)計算された平均信号対雑音比に基づいて、フォルマントシャープニング率を計算するための手段F600も含む。装置MF200は、計算されたフォルマントシャープニング率に基づくフィルタ(例えば、ここにおいて説明されるH(z)又はH(z)H(z))を、符号化された音声信号の第2のフレームからの情報に基づくコードブックベクトル(例えば、FCBベクトル)に適用するための手段F700も含む。該装置は、例えば、ポータブル通信デバイス、例えば、携帯電話、内に実装することができる。
[0070]図10Cは、一般的構成による符号化された音声信号を処理するための装置A200のブロック図を示す。装置A200は、符号化された音声信号の第1のフレームからの情報に基づいて、(例えば、タスクT100を参照してここにおいて説明されるように)経時での平均信号対雑音比を決定するように構成された第1の計算器500を含む。装置A200は、(例えば、タスクT200を参照してここにおいて説明されるように)平均信号対雑音比に基づいて、フォルマントシャープニング率を決定するように構成された第2の計算器600も含む。装置A200は、フォルマントシャープニング率に基づくフィルタ700(例えば、ここにおいて説明されるH(z)又はH(z)H(z))も含み、符号化された音声信号の第2のフレームからの情報に基づくコードブックベクトル(例えば、FCBベクトル)をフィルタリングするように配置される。該装置は、例えば、ポータブル通信デバイス、例えば、携帯電話、内に実装することができる。
[0071]図11Aは、送信チャネルTC10を介してネットワークNW10を通じて通信する送信端末102及び受信端末104の例を示したブロック図である。端末102及び104の各々は、ここにおいて説明される方法を実行するために及び/又はここにおいて説明される装置を含めるために実装することができる。送信端末及び受信端末102、104は、電話(例えば、スマートフォン)、コンピュータ、音声ブロードキャスト及び受信装置、ビデオ会議装置、等を含む声の通信をサポートすることが可能なあらゆるデバイスであることができる。送信端末及び受信端末102、104は、例えば、無線多元接続技術、例えば、符号分割多元接続(CDMA)能力、を用いて実装することができる。CDMAは、拡散スペクトル通信に基づく変調及び多元接続方式である。
[0072]送信端末102は、音声符号器AE10を含み、受信端末104は、音声復号器AD10を含む。音声符号器AE10は、人間の話声の生成モデルに従ってパラメータ値を抽出することによって第1のユーザインタフェースUI10(例えば、マイク及びオーディオフロント−エンド)からの音声情報(例えば、話声)を圧縮するために使用することができ、ここにおいて説明されるように方法を実行するために実装することができる。チャネル符号器CE10は、パラメータ値を集めてパケットにし、送信機TX10は、送信チャネルTC10を介して、パケットに基づくネットワーク、例えば、インターネット又はコーポレートイントラネット、を含むことができるネットワークNW10を通じてこれらのパラメータ値を含むパケットを送信する。送信チャネルTC10は、有線及び/又は無線の送信チャネルであることができ、及び、チャネルの品質がどのように及びどこで決定されるかに依存して、ネットワークNW10の入口点(例えば、基地局コントローラ)まで、ネットワークNW10内の他のエンティティ(例えば、チャネル品質解析器)まで、及び/又は受信端末104の受信機RX10まで延長するとみなすことができる。
[0073]受信端末104の受信機RX10は、送信チャネルを介してネットワークNW10からパケットを受信するために使用される。チャネル復号器CD10は、パラメータ値を入手するためにパケットを復号し、音声復号器AD10は、(例えば、ここにおいて説明される方法に従って)パケットからのパラメータ値を用いて音声情報を合成する。合成された音声(例えば、話声)は、受信端末104の第2のユーザインタフェースUI20(例えば、音声出力段及び拡声器)に提供される。示されていないが、チャネル符号器CE10及びチャネル復号器CD10では様々な信号処理機能(例えば、巡回冗長検査(CRC)機能を含む畳み込み式コーディング、インターリービング)及び送信機TX10及び受信機RX10では様々な信号処理機能(例えば、デジタル変調及び対応する復調、拡散スペクトル処理、アナログ−デジタル変換及びデジタル−アナログ変換)を実行することができる。
[0074]通信の各当事者は、送信及び受信することができ、各端末は、音声符号器AE10及び復号器AD10の例を含むことができる。音声符号器及び復号器は、別個のデバイスであること又は“ボイスコーダ”又は“ボコーダ”と呼ばれる単一のデバイスに一体化することができる。図11Aにおいて示されるように、端末102、104は、ネットワークNW10の一方の端末における音声符号器AE10及び他方における音声復号器AD10を用いて説明される。
[0075]送信端末102の少なくとも1つの構成では、音声信号(例えば、話声)は、第1のユーザインタフェースUI10から音声符号器AE10にフレームで入力することができ、各フレームは、サブフレームにさらに分割される。何らかのブロック処理が行われる場合は該任意のフレーム境界を使用することができる。しかしながら、音声サンプルをフレーム(及びサブフレーム)に該分割することは、ブロック処理ではなく連続処理が実装される場合は省略することができる。説明される例では、ネットワークNW10を通じて送信された各パケットは、特定の用途及び全体的な設計上の制約事項に依存して1つ以上のフレームを含むことができる。
[0076]音声符号器AE10は、可変レート又は単一の固定レートの符号器であることができる。可変レート符号器は、音声の内容に依存して(例えば、話声が存在するかどうか及び/又はどのタイプの話声が存在するかに依存して)、フレームごとに複数の符号器モード(例えば、異なる固定レート)の間で動的に切り換わることができる。音声復号器AD10も、対応する方法でフレームごとに対応する復号器モード間で動的に切り換わることができる。受信端末104において受け入れ可能な信号再生品質を維持しつつ各フレームが利用可能な最低のビットレートを達成するために特定のモードを選択することができる。
[0077]音声符号器AE10は、典型的には、入力信号を時間的に重なり合わない一連のセグメント又は“フレーム”として処理し、新しい符号化されたフレームが各フレームに関して計算される。フレーム期間は、概して、信号がローカルで静止していると予想することができる期間であり、共通例は、20ミリ秒(16kHzのサンプリングレートで320サンプル、12.8kHzのサンプリングレートで256サンプル、又は8kHzのサンプリングレートで160サンプルに相当)及び10ミリ秒を含む。入力信号を一連の重なり合うフレームとして処理するために音声符号器AE10を実装することも可能である。
[0078]図11Bは、フレーム符号器FE10を含む音声符号器AE10の実装AE20のブロック図を示す。フレーム符号器FE10は、1つのシーケンスの符号化された音声フレームEFのうちの対応する1つを生成するために入力信号の1つのシーケンスのフレームCF(“コア音声フレーム”)の各々を符号化するように構成される。音声符号器AE10は、追加のタスク、例えば、入力信号をフレームに分割すること、及び、フレーム符号器FE10に関するコーディングモードを選択すること(例えば、タスクT400を参照してここにおいて説明されるように、最初のビット割り当ての再割り当てを選択すること)、を実行するために実装することもできる。コーディングモード(例えば、レート制御)を選択することは、音声区間検出(VAD)を行うこと及び/又はフレームの音声内容を分類することを含むことができる。この例では、音声符号器AE20は、(例えば、ETSIにおいて入手可能な、3GPP TS26.194v11.0.0,Sep.2012において説明されるように)音声区間検出信号VSを生成するためにコア音声フレームCFを処理するように構成される音声区間検出器VAD10も含む。
[0079]フレーム符号器FE10は、(A)フィルタを記述する一組のパラメータ及び(B)音声フレームの合成された再生を生成するために記述されるフィルタを駆動するために復号器において使用される励起信号として入力音声信号の各フレームを符号化するソース−フィルタモデルに従ってコードブックに基づく方式(例えば、コードブック励起線形予測又はCELP)を実行するために実装される。話声信号のスペクトルエンベロープは、典型的には、声道(例えば、喉及び口)の共鳴を表すピークが特徴であり、フォルマントと呼ばれる。ほとんどの話声コーダは、少なくともこの粗いスペクトル構造を一組のパラメータ、例えば、フィルタ係数、として符号化する。残りの残差信号は、話声信号を生成するためにフィルタを駆動し及び典型的には強度及びピッチを特徴とする(例えば、声帯によって生成された)ソースとしてモデル化することができる。
[0080]符号化されたフレームEFを生成するためにフレーム符号器FE10によって使用することができる符号化方式の特定の例は、限定することなしに、G.726、G.728、G.729A、AMR、AMR−WB、AMR−WB+(例えば、3GPP TS26.290v11.0.0,Sep.2012(ETSIから入手可能)において記述)、VMR−WB(例えば、第三世代パートナーシッププロジェクト2(3GPP2)document C.S0052−A v1.0、Apr.2005(www−dot−3gpp2−dot−orgにおいてオンラインで利用可能)において記述)、Enhanced Variable Rate Codec(EVBRC、3GPP2 document C.S0014−E v1.0、Dec.20011(www−dot−3gpp2−dot−orgにおいてオンラインで利用可能)において記述)、Selectable Mode Vocoder話声コーデック(3GPP2 document C.S0030−0,v3.0、Jan.2004(www−dot−3gpp2−dot−orgにおいてオンラインで利用可能)において記述)、及びEnhanced Voice Serviceコーデック(EVS、例えば、ETSIから入手可能な、3GPP TR 22.813 v10.0.0(March 2010)において記述)を含む。
[0081]図12は、前処理モジュールPP10と、線形予測コーディング(LPC)解析モジュールLA10と、オープンループピッチ探索モードOL10と、適応型コードブック(ACB)探索モジュールAS10と、固定型コードブック(FCB)探索モジュールFS10と、利得ベクトル量子化(VQ)モジュールGV10と、を含むフレーム符号器FE10の基本的実装FE20のブロック図を示す。前処理モジュールPP10は、例えば、3GPP TS 26.190 v11.0.0のsection5.1において記述されるように実装することができる。1つの該例においては、前処理モジュールPP10は、(16kHzから12.8kHzへの)コア音声フレームのダウンサンプリング、ダウンサンプリングされたフレーム(例えば、50Hzのカットオフ周波数を有する)のハイパスフィルタリング、及び(例えば、ファーストオーダーハイパスフィルタを用いて)フィルタリングされたフレームのプリエンファシスを行うために実装される。
[0082]線形予測コーディング(LPC)解析モジュールLA10は、各コア音声フレームのスペクトルエンベロープを一組の線形予測(LP)係数(例えば、上述されるオールポールフィルタ1/A(z)の係数)として符号化する。一例においては、LPC解析モジュールLA10は、各20ミリ秒フレームのフォルマント構造の特徴を描写するための16のLPフィルタ係数の組を計算するように構成される。解析モジュールLA10は、例えば、3GPP TS 26.190 v11.0.0のsection5.2において記述されるように実装することができる。
[0083]解析モジュールLA10は、各フレームのサンプルを直接解析するように構成することができ、又は、サンプルは、最初に、ウィンドウ関数(例えば、ハミングウィンドウ)により重みを付けることができる。解析は、フレームよりも大きいウィンドウ、例えば、30ミリ秒ウィンドウ、を通じて行うこともできる。このウィンドウは、対称的(例えば、5−20−5、従って、20ミリ秒フレームの直前及び直後の5ミリ秒を含む)又は非対称的(例えば、10−20、従って、先行するフレームの最後の10ミリ秒を含む)であることができる。LPC解析モジュールは、典型的には、レビンソン・ダービン再帰法又はLeroux−Gueguenアルゴリズムを用いてLPフィルタ係数を計算するように構成される。LPC符号化は、話声に非常に適するが、一般的音声信号(例えば、非話声、例えば、音楽、を含む)を符号化するために使用することもできる。他の実装においては、解析モジュールは、LPフィルタ係数の組の代わりに各フレームに関するケプストラム係数の組を計算するように構成することができる。
[0084]線形予測フィルタ係数は、典型的には、効率的に量子化するのは困難であり、通常は、量子化及び/又はエントロピー符号化のために、他の表現、例えば、線スペクトル対(LSP)又は線スペクトル周波数(LSF)、又は、イミッタンススペクトル対(ISP)又はイミッタンススペクトル周波数(ISF)、にマッピングされる。一例においては、解析モジュールLA10は、LPフィルタ係数の組を対応するISFの組に変換する。LPフィルタ係数のその他の1対1の表現は、パーコール係数と、ログ面積比値とを含む。典型的には、LPフィルタ係数の組と対応するLSF、LSP、ISF、又はISPの組との間の変換は、逆転可能であるが、実施形態は、誤差なしで変換を逆転することができない解析モジュールLA10の実装も含む。
[0085]解析モジュールLA10は、ISF(又はLSF又はその他の係数表現)の組を量子化するように構成され、フレーム符号器FE20は、この量子化の結果をLPCインデックスXLとして出力するように構成される。該量子化器は、典型的には、テーブル又はコードブック内の対応するエントリのインデックスとして入力ベクトルを符号化するベクトル量子化器を含む。モジュールLA10は、(例えば、ACB探索モジュールAS10によって)ここにおいて説明される重み付き合成フィルタの計算のための量子化された係数a^を提供するようにも構成される。
[0086]フレーム符号器FE20は、ピッチ解析を単純化するために及び適応型コードブック探索モジュールAS10でのクローズドループピッチ探索の範囲を狭くするために使用することができる任意選択のオープンループピッチ探索モジュールOL10も含む。モジュールOL10は、量子化されないLPフィルタ係数に基づく重み付けフィルタを通じて入力信号をフィルタリングするために、重みが付けられた信号を2だけデシメート(decimate)するために、及び、(現在のレートに依存して)ピッチ推定値をフレームごとに1回又は2回生成するために実装することができる。モジュールOL10は、例えば、3GPP TS 26.190 v11.0.0のsection5.4において記述されるように実装することができる。
[0087]適応型コードブック(ACB)探索モジュールAS10は、ピッチフィルタの遅延及び利得を生成するために適応型コードブック(過去の励起に基づき及び“ピッチコードブック”とも呼ばれる)を探索するように構成される。モジュールAS10は、(例えば、量子化された及び量子化されないLPフィルタ係数に基づいて重み付き合成フィルタを通じてLP残差をフィルタリングすることによって入手された)ターゲット信号に関してサブフレームに基づいてオープンループピッチ推定値に関するクローズドループピッチ探索を行うために、及び、指示されたフラクショナルピッチラグで過去の励起を内挿することによって適応型コードベクトルを計算するために、及びACB利得を計算するために実装することができる。モジュールAS10は、(特に、例えば、40又は64サンプルのサブフレームサイズよりも小さい遅延に関して)クローズドループピッチ探索を単純化するために過去の励起バッファを拡大するために実装することもできる。モジュールAS10は、(例えば、各サブフレームに関する)ACB利得g及び第1のサブフレームのピッチ遅延(又は、現在のレートに依存して、第1及び第3のサブフレームのピッチ遅延)及びその他のサブフレームの相対的ピッチ遅延を示す量子化されたインデックスを生成するために実装することができる。モジュールAS10は、例えば、3GPP TS 26.190v11.0.0のsection5.7において記述されるように実装することができる。図12の例では、モジュールAS10は、修正されたターゲット信号x’(n)及び修正されたインパルス応答h’(n)をFCB探索モジュールFS10に提供する。
[0088]固定型コードブック(FCB)探索モジュールFS10は、適応型コードベクトルによってモデル化されない励起部分を表す、固定型コードブック(“革新コードブック”、“革新的コードブック”、“確率的コードブック”、又は“代数型コードブック”とも呼ばれる)のベクトルを示すインデックスを生成するように構成される。モジュールFS10は、FCBベクトルc(n)を再生するために必要なすべての情報が入った(例えば、パルス位置及び符号を表す)コードワードとしてコードブックインデックスを生成するために実装することができ、従って、コードブックは必要ない。モジュールFS10は、例えば、ここの図8において及び/又は3GPP TS 26.190v11.0.0のsection5.8において説明されるように実装することができる。図12の例では、モジュールFS10は、(例えば、サブフレームに関する励起信号e(n)の計算前に、ここで、e(n)=gv(n)+gc’(n))フィルタH(z)H(z)をc(n)に適用するようにも構成される。
[0089]利得ベクトル量子化モジュールGV10は、FCB及びACB利得を量子化するように構成され、各サブフレームに関する利得を含むことができる。モジュールGV10は、例えば、3GPP TS 26.190v11.0.0のsection5.9において説明されるように実装することができる。
[0090]図13Aは、装置A100(又はMF100)の要素を具現化するチップ又はチップセットCS10(例えば、移動局モデム(MSM)チップセット)を含む通信デバイスD10のブロック図を示す。チップ/チップセットCS10は、1つ以上のプロセッサを含むことができ、それらは、装置A100又はMF100のソフトウェア及び/又はファームウェア部分を(例えば、命令として)実行するように構成することができる。送信端末102は、デバイスD10の実装として実現することができる。
[0091]チップ/チップセットCS10は、受信機(例えば、RX10)を含み、それは、無線周波数(RF)通信信号を受信するように及びRF信号内で符号化された音声信号を復号及び再生するように構成され、及び、送信機(例えば、TX10)を含み、それは、(例えば、方法M100を用いて生成された)符号化された音声信号を記述するRF通信信号を送信するように構成される。該デバイスは、ここにおいて言及されるコーデックのうちの1つ以上を介して無線で声通信データを送信及び受信するように構成することができる。
[0092]デバイスD10は、アンテナC30を介してRF通信信号を受信及び送信するように構成される。デバイスD10は、アンテナC30への経路内においてディプレクサ及び1つ以上の電力増幅器も含むことができる。チップ/チップセットCS10は、キーパッドC10を介してユーザ入力を受信するように及びディスプレイC20を介して情報を表示するようにも構成される。この例においては、デバイスD10は、全地球測位システム(GPS)位置決めサービス及び/又は外部のデバイス、例えば、ワイヤレス(例えば、Bluetooth(登録商標))ヘッドセット、との短距離通信をサポートするための1本以上のアンテナC40も含む。他の例においては、該通信デバイス自体がBluetooth(登録商標))ヘッドセットであり、キーパッドC10、ディスプレイC20、及びアンテナC30を有さない。
[0093]通信デバイスD10は、様々な通信デバイスにおいて具現化することができ、スマートフォンと、ラップトップコンピュータと、タブレットコンピュータと、を含む。図14は、1つの該例の前面図、後面図、及び側面図を示し、ハンドセットH100(例えば、スマートフォン)は、2つの音声マイクMV10−1及びMV10−3が前面に配置され、音声マイクMV10−2が後面に配置され、(例えば、エンハンスされた指向性感度のための及び/又はアクティブな雑音除去動作への入力のためにユーザの耳における音響誤差をキャプチャするための)他のマイクME10が前面の上隅に配置され、(例えば、エンハンスされた指向性感度のための及び/又は背景雑音基準をキャプチャするための)他のマイクMR10が裏面に配置される。前面の上中央の誤差マイクME10の近くに拡声器LS10が配置され、その他の2つの拡声器LS20L、LS20Rも(例えば、スピーカーフォン用途のために)提供される。該ハンドセットのマイク間の最大距離は、典型的には、約10又は12cmである。
[0094]図13Bは、ここにおいて説明される方法を実行するために実装することができる無線デバイス1102のブロック図を示す。送信端末102は、無線デバイス1102の実装として実現することができる。無線デバイス1102は、遠隔局、アクセス端末、ハンドセット、パーソナルデジタルアシスタント(PDA)、携帯電話、等であることができる。
[0095]無線デバイス1102は、そのデバイスの動作を制御するプロセッサ1104を含む。プロセッサ1104は、中央処理装置(CPU)と呼ぶこともできる。メモリ1106は、読み取り専用メモリ(ROM)と、ランダムアクセスメモリ(RAM)との両方を含むことができ、命令及びデータをプロセッサ1104に提供する。メモリ1106の一部分は、非揮発性ランダムアクセスメモリ(NVTRAM)を含むこともできる。プロセッサ1104は、典型的には、メモリ1106内に格納されたプログラム命令に基づいて論理演算及び算術演算を行う。メモリ1106内の命令は、ここにおいて説明される方法又は方法(複数)を実装するために実行可能である。
[0096]無線デバイス1102は、無線デバイス1102と遠隔位置との間でのデータの送信及び受信を可能にするための送信機1110と受信機1112とを含むことができるハウジング1108を含む。送信機1110及び受信機1112は、トランシーバ1114として結合することができる。アンテナ1116をハウジング1108に取り付け、トランシーバ1114に電気的に結合することができる。無線デバイス1102は、複数の送信機、複数の受信機、複数のトランシーバ及び/又は複数のアンテナを含むことができる(示されていない)。
[0097]この例においては、無線デバイス1102は、トランシーバ1114によって受信された信号のレベルを検出及び定量化するために使用することができる信号検出器1118も含む。信号検出器1118は、総エネルギー、擬似雑音(PN)チップ当たりのパイロットエネルギー、電力スペクトル密度、及びその他の信号、等の信号を検出することができる。無線デバイス1102は、信号を処理する際に使用するためのデジタル信号プロセッサ(DSP)1120も含む。
[0098]無線デバイス1102の様々なコンポーネントは、バスシステム1122によってまとめて結合され、それは、データバスに加えて、電力バスと、制御信号バスと、状態信号バスと、を含むことができる。明確化を目的として、図13Bでは様々なバスがバスシステム1122として例示される。
[0099]ここにおいて開示される方法及び装置は、概して、あらゆるトランシーバ及び/又は音声検知用途、特に、該用途のモバイル又はその他のポータブルな事例において適用することができる。例えば、ここにおいて開示される構成の範囲は、符号分割多元接続(CDMA)オーバー・ザ・エアインタフェースを採用するように構成された無線テレフォニー通信システムに常在する通信デバイスを含む。しかしながら、ここにおいて説明される特徴を有する方法及び装置は、当業者にとって既知である広範な技術を採用する様々な通信システム、例えば、有線及び/又は無線の(例えば、CDMA、TDMA、FDMA、及び/又はTD−SCDMA)送信チャネルを通じてのボイス・オーバーIP(VoIP)を採用するシステム、のうちのいずかにおいて常在することができることが当業者によって理解されるであろう。
[00100]ここにおいて開示される通信デバイスは、パケット交換型であるネットワーク(例えば、VoIP、等のプロトコルに従って音声送信を搬送するように配置された有線及び/又は無線のネットワーク)及び/又は回線交換型であるネットワークにおける使用のために好適化することができることが明示で企図され及びここによって開示される。さらに、ここにおいて開示される通信デバイスは、狭帯域コーディングシステム(例えば、約4又は5キロヘルツの音声周波数範囲を符号化するシステム)において使用するために及び/又は広帯域コーディングシステム(例えば、5キロヘルツよりも大きい音声周波数を符号化するシステム)において使用するために好適化することができることが明示で企図され及びここによって開示され、全帯域広帯域コーディングシステムと、分割帯域広帯域コーディングシステムと、を含む。
[00101]説明される構成の提示は、当業者がここにおいて開示される方法及びその他の構造を製造又は使用することを可能にするために提供される。ここにおいて示されて説明されるフローチャート、ブロック図、及びその他の構造は、例であるにすぎず、これらの構造のその他の変形も本開示の適用範囲内である。これらの構成に対する様々な修正が可能であり、及びここにおいて提示される一般原理は、その他の構成に対しても適用することができる。以上のように、本開示は、上において示される構成に限定されることが意図されるものではなく、ここにおいて、及び、原開示の一部を成す、申請された、添付された請求項において開示される原理及び新規の特徴に一致する限りにおいて最も広範な適用範囲が認められるべきである。
[00102]当業者は、情報及び信号は様々な異なる技術及び技法のうちのいずれかを用いて表すことができることを理解するであろう。例えば、上記の説明全体を通じて参照されることがあるデータ、命令、コマンド、情報、信号、ビット、及びシンボルは、電圧、電流、電磁波、磁場、磁粒子、光学場、光学粒子、又はそれらのあらゆる組合せによって表すことができる。
[00103]ここにおいて開示される構成の実装に関する重要な設計上の要求事項は、特に、計算集約型の用途、例えば、圧縮されたオーディオ又はオーディオビジュアル情報(例えば、圧縮型式に従って符号化されたファイル又はストリーム、例えば、ここにおいて特定される例のうちの1つ)の再生、又は、広帯域通信(例えば、8キロヘルツよりも高いサンプリングレート、例えば、12、16、32、44.1、48、又は192kHzでの声通信)に関する用途に関して、処理遅延及び/又は計算の複雑さ(典型的には、毎秒当たり数百万の命令又はMIPSで測定)を最小化することを含むことができる。
[00104]ここにおいて開示される装置(例えば、装置A100、A200、MF100、MF200)は、意図される用途に適するとみなされるハードウェアとソフトウェアの組み合わせ、及び/又はハードウェアとファームウェアとの組み合わせにおいて実装することができる。例えば、該装置の要素は、例えば、チップセット内の同じチップ上に又は2つ以上のチップ間に常在する電子及び/又は光学デバイスとして製造することができる。該デバイスの一例は、論理素子の固定された又はプログラマブルなアレイ、例えば、トランジスタ又は論理ゲート、であり、及びこれらの素子のうちのいずれも、1つ以上の該アレイとして実装することができる。該アレイ又はアレイ(複数)は、1つ以上のチップ内(例えば、2つ以上のチップを含むチップセット内)に実装することができる。
[00105]ここにおいて開示される装置(例えば、装置A100、A200、MF100、MF200)の様々な実装の1つ以上の要素は、全体又は一部を、論理素子の1つ以上の固定された又はプログラマブルなアレイ、例えば、マイクロプロセッサ、埋込み型プロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、ASIC(特定用途向け集積回路)において実行するような編成された命令の1つ以上の組として実装することができる。ここにおいて開示される装置の実装の様々な要素は、1つ以上のコンピュータ(例えば、命令の1つ以上の組又はシーケンスを実行するためにプログラミングされた1つ以上のアレイを含む機械、“プロセッサ”とも呼ばれる)として具現化することもでき、及び、これらの要素のうちの2つ以上、さらにはすべてを、同じ該コンピュータ又はコンピュータ(複数)内に実装することができる。
[00106]ここにおい開示されるプロセッサ又はその他の処理手段は、例えば、チップセット内の同じチップ上に又は2つ以上のチップ間に常在する1つ以上の電子及び/又は光学デバイスとして製造することができる。該デバイスの一例は、論理素子、例えば、トランジスタ又は論理ゲート、の固定された又はプログラマブルなアレイであり、及びこれらの素子のうちのいずれも、1つ以上の該アレイとして実装することができる。該アレイ又はアレイ(複数)は、1つ以上のチップ内(例えば、2つ以上のチップを含むチップセット内)に実装することができる。該アレイの例は、論理素子の固定された又はプログラマブルなアレイ、例えば、マイクロプロセッサ、埋込み型プロセッサ、IPコア、DSP、FPGA、ASSP、及びASIC、を含む。ここにおいて開示されるプロセッサ又はその他の処理手段は、1つ以上のコンピュータ(例えば、命令の1つ以上の組又はシーケンスを実行するためにプログラミングされた1つ以上のアレイを含む機械)として具現化することもできる。ここにおいて説明されるプロセッサは、タスクを実行するために又は方法M100の実装の手順に直接関連しない命令のその他の組を実行するために使用することが可能であり、例えば、プロセッサが埋め込まれているデバイス又はシステム(例えば、音声検知デバイス)の他の動作に関連するタスクである。さらに、ここにおいて開示される方法の一部を音声検知デバイスのプロセッサによって実行すること及びその方法の他の部分を1つ以上のその他のプロセッサの制御に基づいて実行することも可能である。
[00107]ここにおいて開示される構成と関係させて説明される様々な例示的なモジュール、論理ブロック、回路、及び試験及びその他の動作は、電子ハードウェア、コンピュータソフトウェア、又は両方の組み合わせとして実装可能であることを当業者は評価するであろう。該モジュール、論理ブロック、回路、及び動作は、ここにおいて開示される構成を生成するように設計された汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASIC、ASSP、FPGA又はその他のプログラマブル論理デバイス、ディスクリートゲートロジック、ディスクリートトランジスタロジック、ディスクリートハードウェアコンポーネント、又はそれらのあらゆる組合せ、を用いて実装又は実行することが可能である。例えば、該構成は、少なくとも部分的には、ハードワイヤド回路として、特定用途向け集積回路内に製造された回路構成として、又は、非揮発性記憶装置内にローディングされたファームウェアプログラム又は機械によって読み取り可能なコードとしてデータ記憶媒体から又はデータ記憶媒体内にローディングされたソフトウェアプログラムとして、実装することができ、該コードは、論理素子のアレイ、例えば、汎用プロセッサ又はその他のデジタル信号処理ユニット、によって実行可能な命令である。汎用プロセッサは、マイクロプロセッサであることができるが、代替においては、プロセッサは、従来のどのようなプロセッサ、コントローラ、マイクロコントローラ、又はステートマシンであってもよい。プロセッサは、コンピューティングデバイスの組合せ、例えば、DSPと、1つのマイクロプロセッサとの組合せ、複数のマイクロプロセッサとの組合せ、DSPコアと関連する1つ以上のマイクロプロセッサとの組合せ、又はあらゆるその他の構成、として実装することも可能である。ソフトウェアモジュールは、非一時的な記憶媒体、例えば、RAM(ランダムアクセスメモリ)、ROM(読み取り専用メモリ)、非揮発性RAM(NVRAM)、例えば、フラッシュRAM、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、取り外し可能なディスク、又はCD−ROM、又は当業において既知であるその他のあらゆる形態の記憶媒体において常駐することができる。例示的名記憶媒体は、プロセッサが記憶媒体から情報を読み出すこと及び記憶媒体に情報を書き込むことができるようにプロセッサに結合される。代替においては、記憶媒体は、プロセッサと一体化させることができる。プロセッサ及び記憶媒体は、ASIC内に常駐することができる。ASICは、ユーザ端末内に常駐することができる。代替においては、プロセッサ及び記憶媒体は、ユーザ端末内において個別コンポーネントとして常駐することができる。
[00108]ここにおいて開示される様々な方法(例えば、方法M100又はM200の実装)は、プロセッサ、等の論理素子のアレイによって実行することができること、及び、ここにおいて説明される装置の様々な要素は、該アレイ上で実行するように設計されたモジュールとして実装することができることが注記される。ここにおいて使用される場合において、用語“モジュール”又は“サブモジュール”は、ソフトウェア、ハードウェア又はファームウェアの形態のコンピュータ命令(例えば、論理式)を含むあらゆる方法、装置、デバイス、ユニット又はコンピュータによって読み取り可能なデータ記憶媒体を意味することができる。同じ機能を実行するために複数のモジュール又はシステムを1つのモジュール又はシステムとして結合すること及び1つのモジュール又はシステムを複数のモジュール又はシステムに分離することができることが理解されるべきである。ソフトウェア又はその他のコンピュータによって実行可能な命令内に実装されるときには、プロセスの要素は、基本的には、例えば、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、等を用いて関連タスクを実行するためのコードセグメントである。用語“ソフトウェア”は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、ミクロコード、論理素子のアレイによって実行可能な命令の1つ以上の組又はシーケンス、及び該例の組み合わせを含むことが理解されるべきである。プログラム又はコードセグメントは、プロセッサによって読み取り可能な媒体に格納すること又は送信媒体又は通信リンクを通じて搬送波内で具現化されたコンピュータデータ信号によって送信することができる。
[00109]ここにおいて開示される方法、方式、及び技法の実装は、論理素子のアレイ(例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、又はその他の有限ステートマシン)を含む機械によって実行可能な命令の1つ以上の組として(例えば、ここにおいて記載される1つ以上のコンピュータによって読み取り可能な記憶媒体の有形なコンピュータによって読み取り可能な特徴において)有形な形で具現化することもできる。用語“コンピュータによって読み取り可能な媒体”は、情報を格納又は転送することができるあらゆる媒体を含むことができ、揮発性、非揮発性、取り外し可能、及び取り外し不能な記憶媒体を含む。コンピュータによって読み取り可能な媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケット、その他の磁気記憶装置、CD−ROM/DVD、その他の光記憶装置、ハードディスク、又は、希望される情報を格納するために使用することができるその他の媒体、光ファイバ媒体、無線周波数(RF)リンク、又は、希望される情報を搬送するための使用することができ及びアクセスすることができるその他のあらゆる媒体を含む。コンピュータデータ信号は、送信媒体、例えば、電子ネットワークチャネル、光ファイバ、空気、電磁、RFリンク、等を通じて伝搬することができるあらゆる信号を含むことができる。コードセグメントは、コンピュータネットワーク、例えば、インターネット又はイントラネット、を介してダウンロードすることができる。いずれの場合も、本開示の適用範囲は、該実施形態によって限定されるとは解釈されるべきではない。
[00110]ここにおいて説明される方法のタスクの各々は、直接ハードウェア内において、プロセッサによって実行されるソフトウェアモジュール内において、又はそれらの2つの組み合わせ内において具現化することが可能である。ここにおいて開示される方法の実装の典型的な用途においては、論理素子(例えば、論理ゲート)のアレイは、方法の様々なタスクのうちの1つ、2つ以上、又は全部さえも実行するように構成される。それらのタスクのうちの1つ以上(可能な場合はすべて)は、コンピュータプログラム製品(例えば、1つ以上のデータ記憶媒体、例えば、ディスク、フラッシュ又はその他の非揮発性メモリカード、半導体メモリチップ、等)において具現化され、論理素子(例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、又はその他の有限ステートマシン)のアレイを含む機械(例えば、コンピュータ)によって読み取り可能及び/又は実行可能であるコード(例えば、命令の1つ以上の組)として実装することもできる。ここにおいて開示される方法の実装のタスクは、2つ以上の該アレイ又は機械によって実行することもできる。これらの又はその他の実装において、それらのタスクは、無線通信のためのデバイス、例えば、携帯電話、又は、該通信能力を有するその他のデバイス内で実行することができる。該デバイスは、(例えば、1つ以上のプロトコル、例えば、VoIPを用いて)回線交換型及び/又はパケット交換型ネットワークと通信するように構成することができる。例えば、該デバイスは、符号化されたフレームを受信及び/又は送信するように構成されたRF回路を含むことができる。
[00111]ここにおいて開示される様々な方法は、ポータブル通信デバイス、例えば、ハンドセット、ヘッドセット、又はポータブルデジタルアシスタント(PDA)、によって実行することかできること、及び、ここにおいて説明される様々な装置は、該デバイス内に含めることができることが明示で開示される。1つの典型的なリアルタイム(例えば、オンライン)の用途は、該モバイルデバイスを用いて行われる電話会話である。
[00112]1つ以上の典型的な実施形態においては、ここにおいて説明される動作は、ハードウェア、ソフトウェア、ファームウェア、又はそれらのあらゆる組み合わせにおいて実装することができる。ソフトウェアにおいて実装される場合は、該動作は、1つ以上の命令又はコードとしてコンピュータによって読み取り可能な媒体に格納すること又はコンピュータによって読み取り可能な媒体を通じて送信することができる。用語“コンピュータによって読み取り可能な媒体”は、コンピュータによって読み取り可能な記憶媒体と、通信(例えば、送信)媒体との両方を含む。例として、及び限定することなしに、コンピュータによって読み取り可能な記憶媒体は、記憶要素、例えば、半導体メモリ(限定することなしに、ダイナミック又はスタティックRAM、ROM、EEPROM、及び/又はフラッシュRAMを含むことができる)、強誘電性メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、又は相変化メモリ、のアレイ、CD−ROM又はその他の光ディスク記憶装置、及び/又は磁気ディスク記憶装置又はその他の磁気記憶デバイス、を備えることができる。該記憶媒体は、コンピュータによってアクセスすることができる命令又はデータ構造の形態の情報を格納することができる。通信媒体は、希望されるプログラムコードを命令又はデータ構造の形態で搬送するために使用することができ及びコンピュータによってアクセスすることができるあらゆる媒体を含み、1つの場所から他へのコンピュータプログラムの転送を容易にするあらゆる媒体を含む。さらに、いずれの接続もコンピュータによって読み取り可能な媒体であると適切に呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、より対線、デジタル加入者ライン(DSL)、又は無線技術、例えば、赤外線、無線、及びマイクロ波、を用いてウェブサイト、サーバ、又はその他の遠隔ソースから送信される場合は、該同軸ケーブル、光ファイバケーブル、より対線、DSL、又は無線技術、例えば赤外線、無線、及びマイクロ波、は、媒体の定義の中に含まれる。ここにおいて用いられるときのディスク(disk及びdisc)は、コンパクトディスク(CD)(disc)と、レーザーディスク(登録商標)(disc)と、光ディスク(disc)と、デジタルバーサタイルディスク(DVD)(disc)と、フロッピーディスク(disk)と、Blu−Ray Disc(登録商標)(Blu−Ray Disk Association,Universal City,CA)と、を含み、ここで、diskは通常は磁気的にデータを複製し、discは、レーザを用いて光学的にデータを複製する。上記の組合せも、コンピュータによって読み取り可能な媒体の適用範囲に含めるべきである。
[00113]ここにおいて説明される音響信号処理装置は、幾つかの動作を制御するために話声入力を受け入れるか又は希望される雑音を背景雑音から分離することによって利益を得ることができる電子デバイス、例えば、通信デバイス、に組み入れることができる。多くの用途は、クリアな希望される音をエンハンスするか又は複数の方向を発生源とする背景音から分離することによって利益を得ることができる。該用途は、声の認識と検出、話声のエンハンスメントと分離、声によって起動される制御、等の能力を組み入れた電子デバイス又はコンピューティングデバイスに人間−機械インタフェースを含めることができる。該音響信号処理装置は、限られた処理能力のみを提供するデバイスにおいて実装するのが望ましく及び適切である。
[00114]ここにおいて説明されるモジュール、要素、及びデバイスの様々な実装の要素は、例えば、チップセット内の同じチップ上に又は2つ以上のチップ間に常在する電子及び/又は光学デバイスとして製造することができる。該デバイスの一例は、固定された又はプログラマブルな論理素子のアレイ、例えば、トランジスタ又はゲート、である。ここにおいて説明される装置の様々な実装の1つ以上の要素は、論理素子の1つ以上の固定された又はプログラマブルなアレイ、例えば、マイクロプロセッサ、埋め込まれたプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、及びASIC、上で実行するように編成された命令の1つ以上の組として全体又は一部分を実装することもできる。
[00115]ここにおいて説明される装置の実装の1つ以上の要素をタスク、例えば、装置が埋め込まれているデバイス又はシステムの他の動作に関連するタスク、又は、装置の動作に直接関連していない命令のその他の組を実行するために使用することが可能である。さらに、該装置の実装の1つ以上の要素が共通の構造を有することも可能である(例えば、異なる要素に対応するコード部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実行するために実行される命令の組、又は、異なる時間に異なる要素に関する動作を行う電子的及び/又は光学的デバイスの配置)。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1] 音声信号を処理する方法であって、
経時での前記音声信号に関する平均信号対雑音比を決定することと、
前記決定された平均信号対雑音比に基づいて、フォルマントシャープニング率を決定することと、
前記決定されたフォルマントシャープニング率に基づくフィルタを前記音声信号からの情報に基づくコードブックベクトルに適用することと、を備える、方法。
[C2] 前記コードブックベクトルは、ユニタリパルスのシーケンスを備えるC1に記載の方法。
[C3] 複数の線形予測フィルタ係数を入手するために前記音声信号における線形予測コーディング解析を行うことと、
修正されたインパルス応答を入手するために前記決定されたフォルマントシャープニング率に基づく前記フィルタを前記複数の線形予測フィルタ係数に基づくフィルタのインパルス応答に適用することと、をさらに備えるC1に記載の方法。
[C4] 前記複数の線形予測フィルタ係数に基づく前記フィルタは、合成フィルタであるC3に記載の方法。
[C5] 前記合成フィルタは、重み付き合成フィルタであるC4に記載の方法。
[C6] 前記重み付き合成フィルタは、フィードフォワード重みと、フィードバック重みと、を含み、前記フィードフォワード重みは、前記フィードバック重みよりも大きいC5に記載の方法。
[C7] 前記修正されたインパルス応答に基づいて、複数の代数型コードブックベクトルの中から前記コードブックベクトルを選択することをさらに備えるC3に記載の方法。
[C8] 前記決定されたフォルマントシャープニング率に基づく前記フィルタは、ピッチ推定値にも基づくC1に記載の方法。
[C9] 前記決定されたフォルマントシャープニング率に基づく前記フィルタは、
前記決定されたフォルマントシャープニング率に基づくフォルマントシャープニングフィルタと、
ピッチ推定値に基づくピッチシャープニングフィルタと、を備えるC1に記載の方法。
[C10] 前記決定されたフォルマントシャープニング率に基づく前記フィルタは、
フィードフォワード重みと、
前記フィードフォワード重みよりも大きいフィードバック重みと、を備えるC1に記載の方法。
[C11] 前記音声信号の符号化されたバージョンを有する前記フォルマントシャープニングフィルタのインディケーションを復号器に送信することをさらに備えるC1に記載の方法。
[C12] 前記フォルマントシャープニング率の前記インディケーションは、前記音声信号の前記符号化されたバージョンのフレームのパラメータとして送信されるC11に記載の方法。
[C13] 復号器における対応する信号対雑音推定値の実質的に同期のリセットを可能にするリセット基準に従って前記音声信号の信号対雑音推定値をリセットすることをさらに備えるC1に記載の方法。
[C14] 前記信号対雑音推定値をリセットすることは、定期的な間隔で行われるC13に記載の方法。
[C15] 前記信号対雑音推定値をリセットすることは、ある不活動期間後に発生する前記音声信号内の話声セグメントの開始に応答して行われるC13に記載の方法。
[C16] 前記音声信号を符号化することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、前記低帯域励起のフォルマントシャープニングに起因する高帯域アーティファクトを低減させるために前記フォルマントシャープニング率を変化させることをさらに備えるC1に記載の方法。
[C17] 前記音声信号を符号化することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、高帯域励起へのフォルマントシャープニング率の貢献をディスエーブルにすることをさらに備えるC1に記載の方法。
[C18] 前記高帯域励起への前記フォルマントシャープニング率の貢献をディスエーブルにすることは、固定型コードブックベクトルのシャープニングされないバージョンを使用することを含むC17に記載の方法。
[C19] 音声信号を処理するための装置であって、
経時での前記音声信号に関する平均信号対雑音比を計算するための手段と、
前記計算された平均信号対雑音比に基づいてフォルマントシャープニング率を計算するための手段と、
前記計算されたフォルマントシャープニング率に基づくフィルタを前記音声信号からの情報に基づくコードブックベクトルに適用するための手段と、を備える、装置。
[C20] 前記コードブックベクトルは、ユニタリパルスのシーケンスを備えるC19に記載の装置。
[C21] 複数の線形予測フィルタ係数を入手するために前記音声信号における線形予測コーディング解析を行うための手段と、
修正されたインパルス応答を入手するために前記計算されたフォルマントシャープニング率に基づく前記フィルタを前記複数の線形予測フィルタ係数に基づくフィルタのインパルス応答に適用するための手段と、をさらに備えるC19に記載の装置。
[C22] 前記複数の線形予測フィルタ係数に基づく前記フィルタは、合成フィルタであるC21に記載の装置。
[C23] 前記修正されたインパルス応答に基づいて複数の代数型コードブックベクトルの中から前記コードブックベクトルを選択するための手段をさらに備えるC21に記載の装置。
[C24] 前記音声信号の符号化されたバージョンを有する前記フォルマントシャープニングフィルタのインディケーションを復号器に送信するための手段をさらに備えるC19に記載の装置。
[C25] 前記フォルマントシャープニング率の前記インディケーションは、前記音声信号の前記符号化されたバージョンのフレームのパラメータとして送信されるC24に記載の装置。
[C26] 復号器における対応する信号対雑音推定値の実質的に同期のリセットを可能にするリセット基準に従って前記音声信号の信号対雑音推定値をリセットするための手段をさらに備えるC19に記載の装置。
[C27] 前記信号対雑音推定値をリセットすることは、定期的な間隔で行われるC26に記載の装置。
[C28] 前記信号対雑音推定値をリセットすることは、ある不活動期間後に発生する前記音声信号内の話声セグメントの開始に応答して行われるC26に記載の装置。
[C29] 前記音声信号を符号化することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、前記低帯域励起のフォルマントシャープニングに起因する高帯域アーティファクトを低減させるために前記フォルマントシャープニング率を変化させるための手段をさらに備えるC19に記載の装置。
[C30] 前記音声信号を符号化することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、高帯域励起へのフォルマントシャープニング率の貢献をディスエーブルにするための手段をさらに備えるC19に記載の装置。
[C31] 前記高帯域励起への前記フォルマントシャープニング率の貢献をディスエーブルにするための前記手段は、固定型コードブックベクトルのシャープニングされないバージョンを使用するC30に記載の装置。

[C32] 音声信号を処理する装置であって、
経時での前記音声信号に関する平均信号対雑音比を決定するように構成された第1の計算器と、
前記決定された平均信号対雑音比に基づいてフォルマントシャープニング率を決定するように構成された第2の計算器と、
前記決定されたフォルマントシャープニング率に基づくフィルタと、を備え、前記フィルタは、コードブックベクトルをフィルタリングするために配置され、前記コードブックベクトルは、前記音声信号からの情報に基づく、装置。
[C33] 前記コードブックベクトルは、ユニタリパルスのシーケンスを備えるC32に記載の装置。
[C34] 複数の線形予測フィルタ係数を入手するために前記音声信号における線形予測コーディング解析を行うように構成された線形予測解析器をさらに備え、前記計算されたフォルマントシャープニング率に基づく前記フィルタは、修正されたインパルス応答を入手するために前記複数の線形予測フィルタ係数に基づくフィルタのインパルス応答をフィルタリングするように配置されるC32に記載の装置。
[C35] 前記複数の線形予測フィルタ係数に基づく前記フィルタは、合成フィルタであるC34に記載の装置。
[C36] 前記修正されたインパルス応答に基づいて複数の代数型コードブックベクトルの中から前記コードブックベクトルを選択するように構成された選択器をさらに備えるC34に記載の装置。
[C37] 前記フォルマントシャープニングフィルタのインディケーションは、前記音声信号の符号化されたバージョンともに復号器に送信されるC32に記載の装置。
[C38] 前記フォルマントシャープニング率の前記インディケーションは、前記音声信号の前記符号化されたバージョンのフレームのパラメータとして送信されるC37に記載の装置。
[C39] 前記音声信号の信号対雑音推定値は、復号器における対応する信号対雑音推定値の実質的に同期のリセットを可能にするリセット基準に従ってリセットされるC32に記載の装置。
[C40] 前記信号対雑音推定値をリセットすることは、定期的な間隔で行われるC39に記載の装置。
[C41] 前記信号対雑音推定値をリセットすることは、ある不活動期間後に発生する前記音声信号内の話声セグメントの開始に応答して行われるC39に記載の装置。
[C42] 前記音声信号を符号化することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、前記フォルマントシャープニング率は、前記低帯域励起のフォルマントシャープニングに起因する高帯域アーティファクトを低減させるために変化されるC32に記載の装置。
[C43] 前記音声信号を符号化することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、高帯域励起へのフォルマントシャープニング率の貢献がディスエーブルにされるC32に記載の装置。
[C44] 前記高帯域励起への前記フォルマントシャープニング率の貢献は、固定型コードブックベクトルのシャープニングされないバージョンを用いてディスエーブルにされるC43に記載の装置。
[C45] 非一時的なコンピュータによって読み取り可能な媒体であって、
コンピュータによって実行されたときに、
経時での前記音声信号に関する平均信号対雑音比を決定すること、
前記決定された平均信号対雑音比に基づいて、フォルマントシャープニング率を決定すること、及び
前記決定されたフォルマントシャープニング率に基づくフィルタを前記音声信号からの情報に基づくコードブックベクトルに適用することを前記コンピュータに行わせる命令を備える、非一時的なコンピュータによって読み取り可能な媒体。
[C46] 前記決定されたフォルマントシャープニング率に基づく前記フィルタは、ピッチ推定値にも基づくC45に記載のコンピュータによって読み取り可能な媒体。
[C47] 前記決定されたフォルマントシャープニング率に基づく前記フィルタは、
前記決定されたフォルマントシャープニング率に基づくフォルマントシャープニングフィルタと、
ピッチ推定値に基づくピッチシャープニングフィルタと、を備えるC45に記載のコンピュータによって読み取り可能な媒体。
[C48] 前記決定されたフォルマントシャープニング率に基づく前記フィルタは、
フィードフォワード重みと、
前記フィードフォワード重みよりも大きいフィードバック重みと、を備えるC45に記載のコンピュータによって読み取り可能な媒体。
[C49] 前記音声信号の符号化されたバージョンを有する前記フォルマントシャープニングフィルタのインディケーションを復号器に送信することを前記コンピュータに行わせるための命令をさらに備えるC45に記載のコンピュータによって読み取り可能な媒体。
[C50] 前記フォルマントシャープニング率の前記インディケーションは、前記音声信号の前記符号化されたバージョンのフレームのパラメータとして送信されるC49に記載のコンピュータによって読み取り可能な媒体。
[C51] 復号器における対応する信号対雑音推定値の実質的に同期のリセットを可能にするリセット基準に従って前記音声信号の信号対雑音推定値をリセットすることを前記コンピュータに行わせるための命令をさらに備えるC45に記載のコンピュータによって読み取り可能な媒体。
[C52] 前記信号対雑音推定値をリセットすることは、定期的な間隔で行われるC51に記載のコンピュータによって読み取り可能な媒体。
[C53] 前記信号対雑音推定値をリセットすることは、ある不活動期間後に発生する前記音声信号内の話声セグメントの開始に応答して行われるC51に記載のコンピュータによって読み取り可能な媒体。
[C54] 前記音声信号を符号化することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、前記低帯域励起のフォルマントシャープニングに起因する高帯域アーティファクトを低減させるために前記フォルマントシャープニング率を変化させることを前記コンピュータに行わせるための命令をさらに備えるC45に記載のコンピュータによって読み取り可能な媒体。
[C55] 前記音声信号を符号化することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、高帯域励起へのフォルマントシャープニング率の貢献をディスエーブルにすることを前記コンピュータに行わせるための命令をさらに備えるC45に記載のコンピュータによって読み取り可能な媒体。
[C56] 前記高帯域励起への前記フォルマントシャープニング率の貢献をディスエーブルにすることは、固定型コードブックベクトルのシャープニングされないバージョンを使用することを含むC55に記載のコンピュータによって読み取り可能な媒体。
[C57] 符号化された音声信号を処理する方法であって、
前記符号化された音声信号の第1のフレームからの情報に基づいて、経時での平均信号対雑音比を決定することと、
前記決定された平均信号対雑音比に基づいて、フォルマントシャープニング率を決定することと、
前記決定されたフォルマントシャープニング率に基づくフィルタを前記符号化された音声信号の第2のフレームからの情報に基づくコードブックベクトルに適用することと、を備える、方法。
[C58] 前記コードブックベクトルは、ユニタリパルスのシーケンスを備えるC57に記載の方法。
[C59] 修正されたインパルス応答を入手するために前記計算されたフォルマントシャープニング率に基づく前記フィルタを複数の線形予測フィルタ係数に基づくフィルタのインパルス応答に適用することをさらに備え、前記複数の線形予測フィルタ係数は、前記符号化された音声信号の前記第2のフレームからの情報に基づくC57に記載の方法。
[C60] 前記複数の線形予測フィルタ係数に基づく前記フィルタは、合成フィルタであるC57に記載の方法。
[C61] 前記合成フィルタは、重み付き合成フィルタであるC60に記載の方法。
[C62] 前記重み付き合成フィルタは、フィードフォワード重みと、フィードバック重みと、を含み、前記フィードフォワード重みは、前記フィードバック重みよりも大きいC61に記載の方法。
[C63] 前記決定されたフォルマントシャープニング率に基づく前記フィルタは、ピッチ推定値にも基づくC57に記載の方法。
[C64] 前記決定されたフォルマントシャープニング率に基づく前記フィルタは、
前記決定されたフォルマントシャープニング率に基づくフォルマントシャープニングフィルタと、
ピッチ推定値に基づくピッチシャープニングフィルタと、を備えるC57に記載の方法。
[C65] 前記決定されたフォルマントシャープニング率に基づく前記フィルタは、
フィードフォワード重みと、
前記決定されたフォルマントシャープニング率に基づく前記フィルタの前記フィードフォワード重みよりも大きいフィードバック重みと、を含むC57に記載の方法。
[C66] 符号器における対応する信号対雑音推定値の実質的に同期のリセットを可能にするリセット基準に従って前記信号対雑音比をリセットすることをさらに備えるC57に記載の方法。
[C67] 前記平均信号対雑音比をリセットすることは、定期的な間隔で行われるC66に記載の方法。
[C68] 前記平均信号対雑音比をリセットすることは、ある不活動期間後に発生する前記音声信号内の話声セグメントの開始に応答して行われるC57に記載の方法。
[C69] 前記符号化された音声信号を処理することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、前記低帯域励起のフォルマントシャープニングに起因する高帯域アーティファクトを低減させるために前記フォルマントシャープニング率を変化させることをさらに備えるC57に記載の方法。
[C70] 前記符号化された音声信号を処理することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、高帯域励起へのフォルマントシャープニング率の貢献をディスエーブルにすることをさらに備えるC57に記載の方法。
[C71] 前記高帯域励起への前記フォルマントシャープニング率の貢献をディスエーブルにすることは、固定型コードブックベクトルのシャープニングされないバージョンを使用することを含むC70に記載の方法。
[C72] 符号化された音声信号を処理するための装置であって、
前記符号化された音声信号の第1のフレームからの情報に基づいて、経時での平均信号対雑音比を計算するための手段と、
前記計算された平均信号対雑音比に基づいて、フォルマントシャープニング率を計算するための手段と、
前記計算されたフォルマントシャープニング率に基づくフィルタを前記符号化された音声信号の第2のフレームからの情報に基づくコードブックベクトルに適用するための手段と、を備える、装置。
[C73] 修正されたインパルス応答を入手するために前記計算されたフォルマントシャープニング率に基づく前記フィルタを複数の線形予測フィルタ係数に基づく重み付き合成フィルタのインパルス応答に適用するための手段をさらに備え、前記複数の線形予測フィルタ係数は、前記符号化された音声信号の前記第2のフレームからの情報に基づくC72に記載の装置。
[C74] 符号器における対応する信号対雑音推定値の実質的に同期のリセットを可能にするリセット基準に従って前記平均信号対雑音比をリセットするための手段をさらに備えるC72に記載の装置。
[C75] 前記平均信号対雑音比をリセットすることは、定期的な間隔で行われるC74に記載の装置。
[C76] 前記平均信号対雑音比をリセットすることは、ある不活動期間後に発生する前記音声信号内の話声セグメントの開始に応答して行われるC74に記載の装置。
[C77] 前記符号化された音声信号を処理することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、前記低帯域励起のフォルマントシャープニングに起因する高帯域アーティファクトを低減させるために前記フォルマントシャープニング率を変化させるための手段をさらに備えるC72に記載の装置。
[C78] 前記符号化された音声信号を処理することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、高帯域励起へのフォルマントシャープニング率の貢献をディスエーブルにするための手段をさらに備えるC72に記載の装置。
[C79] 前記高帯域励起への前記フォルマントシャープニング率の貢献をディスエーブルにすることは、固定型コードブックベクトルのシャープニングされないバージョンを使用することを含むC78に記載の装置。
[C80] 符号化された音声信号を処理するための装置であって、
前記符号化された音声信号の第1のフレームからの情報に基づいて、経時での平均信号対雑音比を決定するように構成された第1の計算器と、
前記決定された平均信号対雑音比に基づいて、フォルマントシャープニング率を決定するように構成された第2の計算器と、
前記決定されたフォルマントシャープニング率に基づき及び前記符号化された音声信号の第2のフレームからの情報に基づくコードブックベクトルをフィルタリングするために配置されるフィルタと、を備える、装置。
[C81] 前記決定されたフォルマントシャープニング率に基づく前記フィルタは、修正されたインパルス応答を入手するために複数の線形予測フィルタ係数に基づく重み付き合成フィルタのインパルス応答をフィルタリングするように配置され、前記複数の線形予測フィルタ係数は、前記符号化された音声信号の前記第2のフレームからの情報に基づくC80に記載の装置。
[C82] 前記平均信号対雑音比は、符号器における対応する信号対雑音推定値の実質的に同期のリセットを可能にするリセット基準に従ってリセットされるC80に記載の装置。
[C83] 前記平均信号対雑音比をリセットすることは、定期的な間隔で行われるC82に記載の装置。
[C84] 前記平均信号対雑音比をリセットすることは、ある不活動期間後に発生する前記音声信号内の話声セグメントの開始に応答して行われるC82に記載の装置。
[C85] 前記符号化された音声信号を処理することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、前記フォルマントシャープニング率は、前記低帯域励起のフォルマントシャープニングに起因する高帯域アーティファクトを低減させるために変化されるC80に記載の装置。
[C86] 前記符号化された音声信号を処理することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、高帯域励起へのフォルマントシャープニング率の貢献がディスエーブルにされるC80に記載の装置。
[C87] 前記高帯域励起への前記フォルマントシャープニング率の貢献をディスエーブルにすることは、固定型コードブックベクトルのシャープニングされないバージョンを使用することを含むC86に記載の装置。
[C88] 非一時的なコンピュータによって読み取り可能な媒体であって、
コンピュータによって実行されたときに、
前記符号化された音声信号の第1のフレームからの情報に基づいて、経時での平均信号対雑音比を決定すること、
前記決定された平均信号対雑音比に基づいて、フォルマントシャープニング率を決定すること、及び
前記決定されたフォルマントシャープニング率に基づくフィルタを前記符号化された音声信号の第2のフレームからの情報に基づくコードブックベクトルに適用することを前記コンピュータに行わせる命令を備える、非一時的なコンピュータによって読み取り可能な媒体。
[C89] 前記コードブックベクトルは、ユニタリパルスのシーケンスを備えるC88に記載のコンピュータによって読み取り可能な媒体。
[C90] 符号器における対応する信号対雑音推定値の実質的に同期のリセットを可能にするリセット基準に従って前記平均信号対雑音比をリセットすることを前記コンピュータに行わせるための命令をさらに備えるC88に記載のコンピュータによって読み取り可能な媒体。
[C91] 前記平均信号対雑音比をリセットすることは、定期的な間隔で行われるC90に記載のコンピュータによって読み取り可能な媒体。
[C92] 前記平均信号対雑音比をリセットすることは、ある不活動期間後に発生する前記音声信号内の話声セグメントの開始に応答して行われるC90に記載のコンピュータによって読み取り可能な媒体。
[C93] 前記符号化された音声信号を処理することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、前記低帯域励起のフォルマントシャープニングに起因する高帯域アーティファクトを低減させるために前記フォルマントシャープニング率を変化させることを前記コンピュータに行わせるための命令をさらに備えるC88に記載のコンピュータによって読み取り可能な媒体。
[C94] 前記符号化された音声信号を処理することは、高帯域合成のために低帯域励起を用いて帯域幅拡大を行うことを含み、高帯域励起へのフォルマントシャープニング率の貢献をディスエーブルにすることを前記コンピュータに行わせるための命令をさらに備えるC88に記載のコンピュータによって読み取り可能な媒体。
[C95] 前記高帯域励起への前記フォルマントシャープニング率の貢献をディスエーブルにすることは、固定型コードブックベクトルのシャープニングされないバージョンを使用することを含むC94に記載のコンピュータによって読み取り可能な媒体。
[C96] 音声信号を処理する方法であって、
前記音声信号に対応するパラメータを決定することであって、前記パラメータは、ボイシングファクタ、コーディングモード、又はピッチラグに対応することと、
前記決定されたパラメータに基づいて、フォルマントシャープニング率を決定することと、
前記決定されたフォルマントシャープニング率に基づくフィルタを前記音声信号からの情報に基づくコードブックベクトルに適用することと、を備える、方法。
[C97] 前記パラメータは、前記ボイシングファクタに対応し、強い声が出されたセグメント又は弱い声が出されたセグメントのうちの少なくとも1つを示すC96に記載の方法。
[C98] 前記パラメータは、前記コーディングモードに対応し、話声、音楽、沈黙、遷移フレーム、又は声が出されないフレームのうちの少なくとも1つを示すC96に記載の方法。
[C99] 装置であって、
音声信号に対応するパラメータを決定するように構成された第1の計算器であって、前記パラメータは、ボイシングファクタ、コーディングモード、又はピッチラグに対応する第1の計算器と、
前記決定されたパラメータに基づいてフォルマントシャープニング率を決定するように構成された第2の計算器と、
前記決定されたフォルマントシャープニング率に基づくフィルタを備え、前記フィルタは、コードブックベクトルをフィルタリングするように配置され、前記コードブックベクトルは、前記音声信号からの情報に基づく、装置。
[C100] 符号化された音声信号を処理する方法であって、
前記符号化された音声信号とともにパラメータを受信することであって、前記パラメータは、ボイシングファクタ、コーディングモード、又はピッチラグに対応することと、
前記受信されたパラメータに基づいて、フォルマントシャープニング率を決定することと、
前記決定されたフォルマントシャープニング率に基づくフィルタを前記符号化された音声信号からの情報に基づくコードブックベクトルに適用することと、を備える、方法。
[C101] 前記パラメータは、前記ボイシングファクタに対応し、強い声が出されたセグメント又は弱い声が出されたセグメントのうちの少なくとも1つを示すC100に記載の方法。
[C102] 前記パラメータは、前記コーディングモードに対応し、話声、音楽、沈黙、遷移フレーム、又は声が出されないフレームのうちの少なくとも1つを示すC100に記載の方法。
[C103] 装置であって、
符号化された音声信号とともに受信されたパラメータに基づいてフォルマントシャープニング率を決定するように構成された計算器であって、前記パラメータは、ボイシングファクタ、コーディングモード、又はピッチラグに対応する計算器と、
前記決定されたフォルマントシャープニング率に基づくフィルタと、を備え、前記フィルタは、コードブックベクトルをフィルタリングするように配置され、前記コードブックベクトルは、前記符号化された音声信号からの情報に基づく、装置。

Claims (99)

  1. 音声信号を処理する方法であって、前記方法は、
    前記音声信号に関連付けられたパラメータを決定することと、ここにおいて、前記パラメータは、ボイシングファクタ、コーディングモード、又はピッチラグに対応し、前記音声信号は、音声コーダで受信され、
    前記決定されたパラメータに基づいて、フォルマントシャープニング率を決定することと、
    フィルタリングされたコードブックベクトルを生成するために、前記決定されたフォルマントシャープニング率に基づくフィルタを前記音声信号からの情報に基づくコードブックベクトルに適用することと、
    を備え、前記コードブックベクトルは、ユニタリパルスのシーケンスを備え、前記フィルタリングされたコードブックベクトルは、合成された音声信号を生成するために使用される、方法。
  2. 前記パラメータは、前記ボイシングファクタに対応し、強い有声のセグメント又は弱い有声のセグメントのうちの少なくとも1つを示す、請求項1に記載の方法。
  3. 前記ボイシングファクタは、前記強い有声のセグメントを示す、請求項2に記載の方法。
  4. 前記ボイシングファクタは、前記弱い有声のセグメントを示す、請求項2に記載の方法。
  5. 前記パラメータは、前記コーディングモードに対応し、音楽、沈黙、遷移フレーム、有声のフレーム、又は無声のフレームのうちの少なくとも1つを示す、請求項1に記載の方法。
  6. 前記コーディングモードは、音楽を示す、請求項5に記載の方法。
  7. 前記コーディングモードは、沈黙を示す、請求項5に記載の方法。
  8. 前記コーディングモードは、遷移フレームを示す、請求項5に記載の方法。
  9. 前記コーディングモードは、無声のフレームを示す、請求項5に記載の方法。
  10. 前記フォルマントシャープニング率を決定するために、経時での前記音声信号に関する平均信号対雑音比を決定することをさらに備える、請求項1に記載の方法。
  11. 複数の線形予測フィルタ係数を入手するために、前記音声信号における線形予測コーディング解析を行うことと、
    修正されたインパルス応答を入手するために、前記複数の線形予測フィルタ係数に基づく重み付き合成フィルタのインパルス応答に前記フィルタを適用することと、ここにおいて、前記重み付き合成フィルタは、フィードフォワード重みとフィードバック重みとを含み、前記フィードフォワード重みは、前記フィードバック重みよりも大きく、
    前記修正されたインパルス応答に基づいて、複数の代数型コードブックベクトルの中から前記コードブックベクトルを選択することと
    をさらに備える、請求項1に記載の方法。
  12. 前記フィルタは、前記決定されたフォルマントシャープニング率に基づくフォルマントシャープニングフィルタと、前記音声信号の少なくとも一部分のピッチ推定値に基づくピッチシャープニングフィルタとを含む、請求項1に記載の方法。
  13. 前記音声信号の符号化されたバージョンを有する前記フォルマントシャープニング率のインディケーションを復号器に送ることをさらに備える、請求項1に記載の方法。
  14. 前記フォルマントシャープニング率の前記インディケーションは、前記音声信号の前記符号化されたバージョンのフレームに含まれる、請求項13に記載の方法。
  15. 潜在的なドリフトを防止するために、調整基準に従って前記音声信号の信号対雑音推定値をリセットすることをさらに備える、請求項1に記載の方法。
  16. 前記調整基準は、ある時間期間を備える、請求項15に記載の方法。
  17. 前記音声信号に関連付けられた前記パラメータを決定することは、モバイル通信デバイスを備えるデバイス内で行われる、請求項1に記載の方法。
  18. 前記パラメータは、前記ピッチラグに対応する、請求項1に記載の方法。
  19. 前記フィルタを適用することは、デバイスによって行われ、前記デバイスは、モバイル通信デバイスを備える、請求項1に記載の方法。
  20. 前記フィルタを適用することは、デバイスによって行われ、前記デバイスは、基地局を備える、請求項1に記載の方法。
  21. 前記フィルタリングされたコードブックベクトルに基づいて、励起信号を生成することと、
    前記励起信号に基づいて、前記合成された音声信号を生成することと
    をさらに備える、請求項1に記載の方法。
  22. モバイルデバイスのマイク又はアンテナを介して前記音声信号を受信することをさらに備える、請求項1に記載の方法。
  23. 前記決定されたフォルマントシャープニング率に基づく前記フィルタを前記コードブックベクトルに適用する前に、前記決定されたフォルマントシャープニング率に基づく第2のフィルタを、フィルタリングされたインパルス応答を生成するために合成フィルタのインパルス応答に適用することをさらに備える、請求項1に記載の方法。
  24. 前記合成フィルタは、重み付き合成フィルタを備える、請求項23に記載の方法。
  25. 前記第2のフィルタは、ピッチシャープニング率にさらに基づく、請求項23に記載の方法。
  26. 前記フィルタリングされたインパルス応答に基づいて、前記コードブックベクトルを決定することをさらに備える、請求項23に記載の方法。
  27. 前記コードブックベクトルを決定することは、前記フィルタリングされたインパルス応答に基づいて、複数の代数型コードブックベクトルの検索を行うことによって、前記コードブックベクトルを推定することを含む、請求項26に記載の方法。
  28. 前記コードブックベクトルは、ターゲット信号に基づいてさらに決定される、請求項26に記載の方法。
  29. 前記合成フィルタを予測誤差に適用することに基づいて、前記ターゲット信号を生成することをさらに備える、請求項28に記載の方法。
  30. 前記予測誤差は、前記音声信号と、前サブフレームに関連付けられた励起信号とに基づく、請求項29に記載の方法。
  31. 装置であって、
    音声信号を受信するように構成された音声コーダ入力と、
    前記音声信号に関連付けられたパラメータを決定するように構成された第1の計算器と、ここにおいて、前記パラメータは、ボイシングファクタ、コーディングモード、又はピッチラグに対応し、
    前記決定されたパラメータに基づいてフォルマントシャープニング率を決定するように構成された第2の計算器と、
    前記決定されたフォルマントシャープニング率に基づくフィルタと
    を備え、前記フィルタは、コードブックベクトルをフィルタリングするように配置され、前記コードブックベクトルは、フィルタリングされたコードブックベクトルを生成するために、前記音声信号からの情報に基づき、前記コードブックベクトルは、ユニタリパルスのシーケンスを備え、前記フィルタリングされたコードブックベクトルは、合成された音声信号を生成するために使用される、装置。
  32. アンテナと、
    前記アンテナおよび前記音声コーダ入力に結合された受信機と
    をさらに備える、請求項31に記載の装置。
  33. 前記受信機、前記第1の計算器、前記第2の計算器、および前記フィルタは、モバイル通信デバイスに一体化される、請求項32に記載の装置。
  34. 前記受信機、前記第1の計算器、前記第2の計算器、および前記フィルタは、基地局に一体化される、請求項32に記載の装置。
  35. 複数の線形予測フィルタ係数を生成するために、前記音声信号における線形予測コーディング解析を行うように構成された線形予測解析器をさらに備える、請求項31に記載の装置。
  36. 適応型コードブックベクトルに基づいて、複数の代数型コードブックベクトルの中から前記コードブックベクトルを選択するように構成された選択器をさらに備える、請求項35に記載の装置。
  37. 前記音声信号の符号化されたバージョンを有する前記フォルマントシャープニング率のインディケーションを復号器に送るように構成された送信機をさらに備える、請求項31に記載の装置。
  38. 前記フィルタは、前記フィルタリングされたコードブックベクトルを出力するようにさらに構成される、請求項31に記載の装置。
  39. 前記フィルタリングされたコードブックベクトルに基づいて、励起信号を生成することと、
    前記励起信号に基づいて、前記合成された音声信号を生成することと
    を行うように構成されたコーダをさらに備える、請求項31に記載の装置。
  40. インパルス応答を生成するように構成された合成フィルタをさらに備える、請求項31に記載の装置。
  41. 前記合成フィルタは、重み付き合成フィルタを備える、請求項40に記載の装置。
  42. 前記決定されたフォルマントシャープニング率に基づく第2のフィルタをさらに備え、前記第2のフィルタは、フィルタリングされたインパルス応答を生成するために、前記インパルス応答をフィルタリングするように配置される、請求項40に記載の装置。
  43. 前記第2のフィルタは、ピッチシャープニング率にさらに基づく、請求項42に記載の装置。
  44. 前記フィルタリングされたインパルス応答に基づいて、複数の代数型コードブックベクトルの中から前記コードブックベクトルを選択するように構成された選択器をさらに備える、請求項42に記載の装置。
  45. 符号化された音声信号を処理する方法であって、前記方法は、
    音声コーダにおいて、前記符号化された音声信号を受信することと、
    前記符号化された音声信号のフレームのパラメータに基づいて、フォルマントシャープニング率を決定することと、ここにおいて、前記パラメータは、ボイシングファクタ、コーディングモード、又はピッチラグに対応し、
    フィルタリングされたコードブックベクトルを生成するために、前記決定されたフォルマントシャープニング率に基づくフィルタを前記符号化された音声信号からの情報に基づくコードブックベクトルに適用することと、
    を備え、前記コードブックベクトルは、ユニタリパルスのシーケンスを備え、前記フィルタリングされたコードブックベクトルは、合成された音声信号を生成するために使用される、方法。
  46. 前記パラメータは、前記ボイシングファクタに対応し、強い有声のセグメント又は弱い有声のセグメントのうちの少なくとも1つを示す、請求項45に記載の方法。
  47. 前記パラメータは、前記コーディングモードに対応し、音楽、沈黙、遷移フレーム、有声のフレーム、又は無声のフレームのうちの少なくとも1つを示す、請求項45に記載の方法。
  48. 前記フィルタを適用することは、デバイスによって行われ、前記デバイスは、モバイル通信デバイスを備える、請求項45に記載の方法。
  49. 前記フィルタを適用することは、デバイスによって行われ、前記デバイスは、基地局を備える、請求項45に記載の方法。
  50. 前記フィルタリングされたコードブックベクトルに基づいて、励起信号を生成することと、
    前記励起信号に基づいて、前記合成された音声信号を生成することと
    をさらに備える、請求項45に記載の方法。
  51. 装置であって、
    符号化された音声信号を受信するように構成された音声コーダ入力と、
    前記符号化された音声信号のフレームのパラメータに基づいて、フォルマントシャープニング率を決定するように構成された計算器と、ここにおいて、前記パラメータは、ボイシングファクタ、コーディングモード、又はピッチラグに対応し、
    前記決定されたフォルマントシャープニング率に基づくフィルタと
    を備え、前記フィルタは、コードブックベクトルをフィルタリングするように配置され、前記コードブックベクトルは、フィルタリングされたコードブックベクトルを生成するために、前記符号化された音声信号からの情報に基づき、前記コードブックベクトルは、ユニタリパルスのシーケンスを備え、前記フィルタリングされたコードブックベクトルは、合成された音声信号を生成するために使用される、装置。
  52. アンテナと、
    前記アンテナおよび前記音声コーダ入力に結合された受信機と
    をさらに備える、請求項51に記載の装置。
  53. 前記受信機、前記計算器、および前記フィルタは、モバイル通信デバイスに一体化される、請求項52に記載の装置。
  54. 前記受信機、前記計算器、および前記フィルタは、基地局に一体化される、請求項52に記載の装置。
  55. 命令を記憶するコンピュータによって読み取り可能な記憶デバイスであって、前記命令がプロセッサによって実行されるとき、前記プロセッサに、
    音声信号に関連付けられたパラメータを決定することと、ここにおいて、前記パラメータは、ボイシングファクタ、コーディングモード、又はピッチラグに対応し、前記音声信号は、音声コーダで受信され、
    前記決定されたパラメータに基づいてフォルマントシャープニング率を決定することと、
    フィルタリングされたコードブックベクトルを生成するために、前記決定されたフォルマントシャープニング率に基づくフィルタを前記音声信号からの情報に基づくコードブックベクトルに適用することと、
    を備える動作を行わせ、前記コードブックベクトルは、ユニタリパルスのシーケンスを備え、前記フィルタリングされたコードブックベクトルは、合成された音声信号を生成するために使用される、コンピュータによって読み取り可能な記憶デバイス。
  56. 前記パラメータは、前記コーディングモードに対応し、前記コーディングモードは、特定のビットレートに関連付けられる、請求項55に記載のコンピュータによって読み取り可能な記憶デバイス。
  57. 前記フォルマントシャープニング率は、雑音推定に基づく、請求項55に記載のコンピュータによって読み取り可能な記憶デバイス。
  58. 前記動作は、
    前記音声信号の非アクティブなセグメント中に長期的信号推定値を追跡することと、
    前記長期的信号推定値に基づいて、前記雑音推定を生成することと
    をさらに備える、請求項57に記載のコンピュータによって読み取り可能な記憶デバイス。
  59. 前記動作は、
    前記音声信号の線形予測コーディング解析を行うことによって、複数の線形予測フィルタ係数を生成することと、
    第2のフィルタのインパルス応答に前記フィルタを適用することによって、修正されたインパルス応答を生成すること
    をさらに備え、前記第2のフィルタは、前記複数の線形予測フィルタ係数に基づく、請求項55に記載のコンピュータによって読み取り可能な記憶デバイス。
  60. 前記動作は、複数の代数型コードブックベクトルから、前記修正されたインパルス応答に基づいて、前記コードブックベクトルを選択することをさらに備える、請求項59に記載のコンピュータによって読み取り可能な記憶デバイス。
  61. 装置であって、
    音声信号に関連付けられたパラメータを決定するための手段と、ここにおいて、前記パラメータは、ボイシングファクタ、コーディングモード、又はピッチラグに対応し、前記音声信号は、音声コーダ入力で受信され、
    前記決定されたパラメータに基づいてフォルマントシャープニング率を決定するための手段と、
    前記決定されたフォルマントシャープニング率に基づいて、コードブックベクトルをフィルタリングするための手段と
    を備え、前記コードブックベクトルは、フィルタリングされたコードブックベクトルを生成するために、前記音声信号からの情報に基づき、前記コードブックベクトルは、ユニタリパルスのシーケンスを備え、前記フィルタリングされたコードブックベクトルは、合成された音声信号を生成するために使用される、装置。
  62. 前記パラメータは、前記コーディングモードに対応し、前記コーディングモードは、特定のサンプリングレートに関連付けられる、請求項61に記載の装置。
  63. 前記フォルマントシャープニング率は、雑音推定に基づき、前記パラメータを決定するための前記手段は、第1の計算器を備え、前記フォルマントシャープニング率を決定するための前記手段は、第2の計算器を備え、前記コードブックベクトルをフィルタリングするための前記手段は、フィルタを備える、請求項61に記載の装置。
  64. 前記パラメータを決定するための前記手段、前記フォルマントシャープニング率を決定するための前記手段、およびフィルタリングするための前記手段は、モバイル通信デバイスに一体化される、請求項61に記載の装置。
  65. 前記パラメータを決定するための前記手段、前記フォルマントシャープニング率を決定するための前記手段、およびフィルタリングするための前記手段は、基地局に一体化される、請求項61に記載の装置。
  66. 命令を記憶するコンピュータによって読み取り可能な記憶デバイスであって、前記命令がプロセッサによって実行されるとき、前記プロセッサに、
    符号化された音声信号の第1のフレームのパラメータに基づいて、フォルマントシャープニング率を決定することと、前記パラメータは、ボイシングファクタ、コーディングモード、又はピッチラグに対応し、前記符号化された音声信号は、音声コーダで受信され、
    フィルタリングされたコードブックベクトルを生成するために、前記決定されたフォルマントシャープニング率に基づくフィルタを前記符号化された音声信号からの情報に基づくコードブックベクトルに適用することと、
    を備える動作を行わせ、前記コードブックベクトルは、ユニタリパルスのシーケンスを備え、前記フィルタリングされたコードブックベクトルは、合成された音声信号を生成するために使用される、コンピュータによって読み取り可能な記憶デバイス。
  67. 前記パラメータは、前記コーディングモードに対応する、請求項66に記載のコンピュータによって読み取り可能な記憶デバイス。
  68. 前記動作は、第2のフィルタのインパルス応答に前記フィルタを適用することによって、修正されたインパルス応答を生成することをさらに備え、前記第2のフィルタは、複数の線形予測フィルタ係数に基づき、前記複数の線形予測フィルタ係数は、前記符号化された音声信号の第2のフレームからの情報に基づく、請求項66に記載のコンピュータによって読み取り可能な記憶デバイス。
  69. 前記第2のフィルタは、合成フィルタを含む、請求項68に記載のコンピュータによって読み取り可能な記憶デバイス。
  70. 前記第2のフィルタは、重み付き合成フィルタを含む、請求項68に記載のコンピュータによって読み取り可能な記憶デバイス。
  71. 前記重み付き合成フィルタは、フィードフォワード重みとフィードバック重みとに基づき、前記フィードフォワード重みは、前記フィードバック重みよりも大きい、請求項70に記載のコンピュータによって読み取り可能な記憶デバイス。
  72. 装置であって、
    符号化された音声信号のフレームのパラメータに基づいて、フォルマントシャープニング率を決定するための手段と、前記パラメータは、ボイシングファクタ、コーディングモード、又はピッチラグに対応し、前記符号化された音声信号は、音声コーダ入力で受信され、
    前記決定されたフォルマントシャープニング率に基づいて、コードブックベクトルをフィルタリングするための手段と
    を備え、前記コードブックベクトルは、フィルタリングされたコードブックベクトルを生成するために、前記符号化された音声信号からの情報に基づき、前記コードブックベクトルは、ユニタリパルスのシーケンスを備え、前記フィルタリングされたコードブックベクトルは、合成された音声信号を生成するために使用される、装置。
  73. 前記パラメータは、前記コーディングモードに対応し、前記コーディングモードは、特定のビットレートに関連付けられる、請求項72に記載の装置。
  74. 決定するための前記手段、およびフィルタリングするための前記手段は、モバイル通信デバイスに一体化される、請求項72に記載の装置。
  75. 決定するための前記手段、およびフィルタリングするための前記手段は、基地局に一体化される、請求項72に記載の装置。
  76. 音声信号を処理する方法であって、前記方法は、
    前記音声信号に関連付けられたパラメータを決定することと、ここにおいて、前記パラメータは、コーディングモードに対応し、前記音声信号は、音声コーダで受信され、
    前記決定されたパラメータに基づいてフォルマントシャープニング率を決定することと、
    フィルタリングされたコードブックベクトルを生成するために、前記決定されたフォルマントシャープニング率に基づくフィルタを前記音声信号からの情報に基づくコードブックベクトルに適用することと、
    を備え、前記コードブックベクトルは、ユニタリパルスのシーケンスを備え、前記フィルタリングされたコードブックベクトルは、合成された音声信号を生成するために使用される、方法。
  77. 前記パラメータは、音楽、沈黙、遷移フレーム、有声のフレーム、又は無声のフレームのうちの少なくとも1つを示す、請求項76に記載の方法。
  78. 前記フィルタを適用することは、前記フォルマントシャープニング率に対応する重みに基づいて、重み付けされたフィルタを適用することを含む、請求項76に記載の方法。
  79. 前記フォルマントシャープニング率は、雑音推定に基づく、請求項76に記載の方法。
  80. 前記フィルタを適用することは、デバイスによって行われ、前記デバイスは、モバイル通信デバイスを備える、請求項76に記載の方法。
  81. 前記フィルタを適用することは、デバイスによって行われ、前記デバイスは、基地局を備える、請求項76に記載の方法。
  82. 装置であって、
    音声信号を受信するように構成された音声コーダ入力と、
    前記音声信号に関連付けられたパラメータを決定するように構成された第1の計算器と、ここにおいて、前記パラメータは、コーディングモードに対応し、
    前記決定されたパラメータに基づいてフォルマントシャープニング率を決定するように構成された第2の計算器と、
    前記決定されたフォルマントシャープニング率に基づくフィルタと
    を備え、前記フィルタは、コードブックベクトルをフィルタリングするように配置され、前記コードブックベクトルは、フィルタリングされたコードブックベクトルを生成するために、前記音声信号からの情報に基づき、前記コードブックベクトルは、ユニタリパルスのシーケンスを備え、前記フィルタリングされたコードブックベクトルは、合成された音声信号を生成するために使用される、装置。
  83. 前記コーディングモードは、前記音声信号のサンプリングレートに関連付けられる、請求項82に記載の装置。
  84. 前記フィルタは、
    前記決定されたフォルマントシャープニング率に基づくフォルマントシャープニングフィルタと、
    前記音声信号のピッチ推定値に基づくピッチシャープニングフィルタと
    を備える、請求項82に記載の装置。
  85. 前記音声信号の符号化されたバージョンのフレームのパラメータとして、前記フォルマントシャープニング率のインディケーションを復号器に送るように構成された送信機をさらに備える、請求項82に記載の装置。
  86. アンテナと、
    前記アンテナおよび前記音声コーダ入力に結合された受信機と
    をさらに備える、請求項82に記載の装置。
  87. 前記受信機、前記第1の計算器、前記第2の計算器、および前記フィルタは、モバイル通信デバイスに一体化される、請求項86に記載の装置。
  88. 前記受信機、前記第1の計算器、前記第2の計算器、および前記フィルタは、基地局に一体化される、請求項86に記載の装置。
  89. 符号化された音声信号を処理する方法であって、前記方法は、
    音声コーダにおいて、符号化された音声信号を受信することと、
    前記符号化された音声信号のフレームのパラメータに基づいて、フォルマントシャープニング率を決定することと、ここにおいて、前記パラメータは、コーディングモードに対応し、
    フィルタリングされたコードブックベクトルを生成するために、前記決定されたフォルマントシャープニング率に基づくフィルタを前記符号化された音声信号からの情報に基づくコードブックベクトルに適用することと、
    を備え、前記コードブックベクトルは、ユニタリパルスのシーケンスを備え、前記フィルタリングされたコードブックベクトルは、合成された音声信号を生成するために使用される、方法。
  90. 前記コーディングモードは、前記符号化された音声信号のサンプリングレートに関連付けられる、請求項89に記載の方法。
  91. 前記パラメータは、音楽、沈黙、遷移フレーム、有声のフレーム、又は無声のフレームのうちの少なくとも1つを示す、請求項89に記載の方法。
  92. 前記フィルタを適用することは、デバイスによって行われ、前記デバイスは、モバイル通信デバイスを備える、請求項89に記載の方法。
  93. 前記フィルタを適用することは、デバイスによって行われ、前記デバイスは、基地局を備える、請求項89に記載の方法。
  94. 装置であって、
    符号化された音声信号を受信するように構成された音声コーダ入力と、
    前記符号化された音声信号のフレームのパラメータに基づいて、フォルマントシャープニング率を決定するように構成された計算器と、ここにおいて、前記パラメータは、コーディングモードに対応し、
    前記決定されたフォルマントシャープニング率に基づくフィルタと
    を備え、前記フィルタは、コードブックベクトルをフィルタリングするように配置され、前記コードブックベクトルは、フィルタリングされたコードブックベクトルを生成するために、前記符号化された音声信号からの情報に基づき、前記コードブックベクトルは、ユニタリパルスのシーケンスを備え、前記フィルタリングされたコードブックベクトルは、合成された音声信号を生成するために使用される、装置。
  95. 前記パラメータは、音楽、沈黙、遷移フレーム、有声のフレーム、又は無声のフレームのうちの少なくとも1つを示す、請求項94に記載の装置。
  96. 前記コーディングモードは、特定のビットレートに関連付けられる、請求項94に記載の装置。
  97. アンテナと、
    前記アンテナおよび前記音声コーダ入力に結合された受信機と
    をさらに備える、請求項94に記載の装置。
  98. 前記受信機、前記計算器、および前記フィルタは、モバイル通信デバイスに一体化される、請求項97に記載の装置。
  99. 前記受信機、前記計算器、および前記フィルタは、基地局に一体化される、請求項97に記載の装置。
JP2015555166A 2013-01-29 2013-12-23 線形予測コーディングにおける適応型フォルマントシャープニングのためのシステム、方法、装置、及びコンピュータによって読み取り可能な媒体 Active JP6373873B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361758152P 2013-01-29 2013-01-29
US61/758,152 2013-01-29
US14/026,765 2013-09-13
US14/026,765 US9728200B2 (en) 2013-01-29 2013-09-13 Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
PCT/US2013/077421 WO2014120365A2 (en) 2013-01-29 2013-12-23 Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding

Publications (3)

Publication Number Publication Date
JP2016504637A JP2016504637A (ja) 2016-02-12
JP2016504637A5 JP2016504637A5 (ja) 2017-10-12
JP6373873B2 true JP6373873B2 (ja) 2018-08-15

Family

ID=51223881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015555166A Active JP6373873B2 (ja) 2013-01-29 2013-12-23 線形予測コーディングにおける適応型フォルマントシャープニングのためのシステム、方法、装置、及びコンピュータによって読み取り可能な媒体

Country Status (10)

Country Link
US (2) US9728200B2 (ja)
EP (1) EP2951823B1 (ja)
JP (1) JP6373873B2 (ja)
KR (1) KR101891388B1 (ja)
CN (2) CN109243478B (ja)
BR (1) BR112015018057B1 (ja)
DK (1) DK2951823T3 (ja)
ES (1) ES2907212T3 (ja)
HU (1) HUE057931T2 (ja)
WO (1) WO2014120365A2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
US9728200B2 (en) 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
JP6305694B2 (ja) * 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
EP2963648A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using vertical phase correction
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
US10847170B2 (en) * 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US10694298B2 (en) * 2018-10-22 2020-06-23 Zeev Neumeier Hearing aid
CN110164461B (zh) * 2019-07-08 2023-12-15 腾讯科技(深圳)有限公司 语音信号处理方法、装置、电子设备及存储介质
CN110444192A (zh) * 2019-08-15 2019-11-12 广州科粤信息科技有限公司 一种基于语音技术的智能语音机器人

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
FR2734389B1 (fr) 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5732389A (en) 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
JP3390897B2 (ja) * 1995-06-22 2003-03-31 富士通株式会社 音声処理装置及びその方法
JPH09160595A (ja) * 1995-12-04 1997-06-20 Toshiba Corp 音声合成方法
FI980132A (fi) * 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US6141638A (en) 1998-05-28 2000-10-31 Motorola, Inc. Method and apparatus for coding an information signal
US6098036A (en) * 1998-07-13 2000-08-01 Lockheed Martin Corp. Speech coding system and method including spectral formant enhancer
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US7117146B2 (en) 1998-08-24 2006-10-03 Mindspeed Technologies, Inc. System for improved use of pitch enhancement with subcodebooks
US6556966B1 (en) * 1998-08-24 2003-04-29 Conexant Systems, Inc. Codebook structure for changeable pulse multimode speech coding
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
GB2342829B (en) 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
CA2252170A1 (en) 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6449313B1 (en) 1999-04-28 2002-09-10 Lucent Technologies Inc. Shaped fixed codebook search for celp speech coding
US6704701B1 (en) 1999-07-02 2004-03-09 Mindspeed Technologies, Inc. Bi-directional pitch enhancement in speech coding systems
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
AU2001287970A1 (en) 2000-09-15 2002-03-26 Conexant Systems, Inc. Short-term enhancement in celp speech coding
US6760698B2 (en) 2000-09-15 2004-07-06 Mindspeed Technologies Inc. System for coding speech information using an adaptive codebook with enhanced variable resolution scheme
US7010480B2 (en) 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
CA2327041A1 (en) * 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
US6766289B2 (en) 2001-06-04 2004-07-20 Qualcomm Incorporated Fast code-vector searching
KR100412619B1 (ko) * 2001-12-27 2003-12-31 엘지.필립스 엘시디 주식회사 액정표시장치용 어레이 기판의 제조 방법
US7047188B2 (en) 2002-11-08 2006-05-16 Motorola, Inc. Method and apparatus for improvement coding of the subframe gain in a speech coding system
US7424423B2 (en) * 2003-04-01 2008-09-09 Microsoft Corporation Method and apparatus for formant tracking using a residual model
AU2003274864A1 (en) 2003-10-24 2005-05-11 Nokia Corpration Noise-dependent postfiltering
US7788091B2 (en) 2004-09-22 2010-08-31 Texas Instruments Incorporated Methods, devices and systems for improved pitch enhancement and autocorrelation in voice codecs
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
ES2358125T3 (es) * 2005-04-01 2011-05-05 Qualcomm Incorporated Procedimiento y aparato para un filtrado de antidispersión de una señal ensanchada de excitación de predicción de velocidad de ancho de banda.
CA2603255C (en) 2005-04-01 2015-06-23 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
US20100332223A1 (en) 2006-12-13 2010-12-30 Panasonic Corporation Audio decoding device and power adjusting method
MY146431A (en) * 2007-06-11 2012-08-15 Fraunhofer Ges Forschung Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
US9076442B2 (en) * 2009-12-10 2015-07-07 Lg Electronics Inc. Method and apparatus for encoding a speech signal
US8868432B2 (en) 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US9728200B2 (en) 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding

Also Published As

Publication number Publication date
HUE057931T2 (hu) 2022-06-28
EP2951823B1 (en) 2022-01-26
WO2014120365A3 (en) 2014-11-20
DK2951823T3 (da) 2022-02-28
US20170301364A1 (en) 2017-10-19
CN104937662A (zh) 2015-09-23
CN109243478A (zh) 2019-01-18
US10141001B2 (en) 2018-11-27
BR112015018057B1 (pt) 2021-12-07
EP2951823A2 (en) 2015-12-09
ES2907212T3 (es) 2022-04-22
CN104937662B (zh) 2018-11-06
US20140214413A1 (en) 2014-07-31
KR20150110721A (ko) 2015-10-02
US9728200B2 (en) 2017-08-08
CN109243478B (zh) 2023-09-08
KR101891388B1 (ko) 2018-08-24
BR112015018057A2 (pt) 2017-07-18
JP2016504637A (ja) 2016-02-12
WO2014120365A2 (en) 2014-08-07

Similar Documents

Publication Publication Date Title
JP6373873B2 (ja) 線形予測コーディングにおける適応型フォルマントシャープニングのためのシステム、方法、装置、及びコンピュータによって読み取り可能な媒体
RU2644136C2 (ru) Системы и способы для подавления потенциальной нестабильности кадра
JP6526096B2 (ja) 平均符号化レートを制御するためのシステムおよび方法
US9208775B2 (en) Systems and methods for determining pitch pulse period signal boundaries
RU2607260C1 (ru) Системы и способы для определения набора коэффициентов интерполяции
US20180033444A1 (en) Audio encoder and method for encoding an audio signal

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151015

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161205

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170904

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170904

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20171201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180619

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180718

R150 Certificate of patent or registration of utility model

Ref document number: 6373873

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250