JP6196004B2 - ハイバンド信号特性に基づいた時間利得調整 - Google Patents

ハイバンド信号特性に基づいた時間利得調整 Download PDF

Info

Publication number
JP6196004B2
JP6196004B2 JP2016575153A JP2016575153A JP6196004B2 JP 6196004 B2 JP6196004 B2 JP 6196004B2 JP 2016575153 A JP2016575153 A JP 2016575153A JP 2016575153 A JP2016575153 A JP 2016575153A JP 6196004 B2 JP6196004 B2 JP 6196004B2
Authority
JP
Japan
Prior art keywords
signal
value
highband
time gain
gain parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016575153A
Other languages
English (en)
Other versions
JP2017523460A (ja
Inventor
アッティ、ベンカトラマン・エス.
クリシュナン、ベンカテシュ
ラジェンドラン、ビベク
チェビーヤム、ベンカタ・スブラーマンヤム・チャンドラ・セカー
スバシンハ、スバシンハ・シャミンダ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2017523460A publication Critical patent/JP2017523460A/ja
Application granted granted Critical
Publication of JP6196004B2 publication Critical patent/JP6196004B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Description

優先権の主張
[0001]本出願は、その内容全体が参照により組み込まれる、両方とも「TEMPORAL GAIN ADJUSTMENT BASED ON HIGH−BAND SIGNAL CHARACTERISTIC」と題する、2014年6月26日に出願された米国仮特許出願第62/017,790号および2015年6月4日に出願された米国特許出願第14/731,198号の優先権を主張する。
[0002]本開示は、一般に、信号処理に関する。
[0003]技術の進歩により、コンピューティングデバイスは、より小型でより強力になった。たとえば、現在、小型で、軽量で、ユーザが容易に持ち運べる、ポータブルワイヤレス電話、携帯情報端末(PDA)、およびページングデバイスなど、ワイヤレスコンピューティングデバイスを含む、様々なポータブルパーソナルコンピューティングデバイスが存在する。より具体的には、セルラー電話およびインターネットプロトコル(IP)電話などのポータブルワイヤレス電話は、ワイヤレスネットワークを介して音声とデータパケットとを通信し得る。さらに、多くのそのようなワイヤレス電話は、そこに組み込まれている他のタイプのデバイスを含む。たとえば、ワイヤレス電話は、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレーヤをも含み得る。
[0004]デジタル技法による音声の送信は、特に長距離およびデジタル無線電話用途において普及している。再構成されたスピーチの知覚される品質を維持しながら、チャネルを介して送られ得る情報の最小量を決定することに関心があり得る。サンプリングおよびデジタイジングによってスピーチが送信される場合、アナログ電話のスピーチ品質を達成するために64キロビット毎秒(kbps)程度のデータレートが使用され得る。スピーチ分析の使用と、それに続くコーディング、送信、および受信機における再合成によって、データレートの著しい低減が達成され得る。
[0005]スピーチを圧縮するためのデバイスが、電気通信の多数の分野で用途を見出し得る。例示的な分野はワイヤレス通信である。ワイヤレス通信の分野は、たとえば、コードレス電話、ページング、ワイヤレスローカルループ、セルラー電話システムおよびパーソナル通信サービス(PCS)電話システムなどのワイヤレス電話、モバイルインターネットプロトコル(IP)電話、ならびに衛星通信システムを含む、多くの適用例を有する。特定的な用途が、モバイル加入者用のワイヤレス電話である。
[0006]たとえば、周波数分割多元接続(FDMA)、時分割多元接続(TDMA)、符号分割多元接続(CDMA)、および時分割同期CDMA(TD−SCDMA)を含むワイヤレス通信システムのために、様々なオーバージエアインターフェースが開発されている。これらのインターフェースに関連して、たとえば、先進移動電話サービス(AMPS)、モバイル通信用グローバルシステム(GSM(登録商標))、および暫定規格95(IS−95)などを含む様々な国内および国際標準が策定されている。例示的なワイヤレス電話通信システムは符号分割多元接続(CDMA)システムである。IS−95規格およびそれの派生物IS−95A、ANSI J−STD−008、およびIS−95B(本明細書ではIS−95と総称される)は、セルラーまたはPCS電話通信システムのためのCDMAオーバージエアインターフェースの使用を規定するために、電気通信工業会(TIA)および他のよく知られている規格化団体によって公布されている。
[0007]IS−95規格は、その後、より多くの容量および高速パケットデータサービスを提供するcdma2000およびWCDMA(登録商標)などの「3G」システムに発展した。cdma2000の2つの変形態は、TIAによって発行された文書IS−2000(cdma2000 1xRTT)およびIS−856(cdma2000 1xEV−DO)によって提示されている。cdma2000 1xRTT通信システムは153kbpsのピークデータレートを提供するが、cdma2000 1xEV−DO通信システムは、38.4kbpsから2.4Mbpsにわたるデータレートのセットを定義する。WCDMA規格は、第3世代パートナーシッププロジェクト「3GPP(登録商標)」、文書番号3G TS 25.211、3G TS 25.212、3G TS 25.213、および3G TS 25.214に具現されている。国際モバイル電気通信アドバンスト(IMTアドバンスト)仕様は「4G」規格を提示している。IMTアドバンスト仕様は、4Gサービス用のピークデータレートを、(たとえば、列車および車からの)高モビリティ通信のために100メガビット毎秒(Mbit/s)に設定し、(たとえば、歩行者および静止ユーザからの)低モビリティ通信のために1ギガビット毎秒(Gbit/s)に設定する。
[0008]人的スピーチ生成のモデルに関するパラメータを抽出することによってスピーチを圧縮する技法を採用するデバイスは、スピーチコーダと呼ばれる。スピーチコーダはエンコーダとデコーダとを備え得る。エンコーダは、着信スピーチ信号を、時間のブロック、または分析フレームに分割する。時間(または「フレーム」)における各セグメントの持続時間は、一般に、信号のスペクトルエンベロープが比較的定常のままであることが予想され得るだけ十分に短くなるように選択され得る。たとえば、特定の適用例に好適と見なされる任意のフレーム長またはサンプリングレートが使用され得るが、1つのフレーム長は20ミリ秒であり、それは、8キロヘルツ(kHz)のサンプリングレートで160個のサンプルに対応する。
[0009]エンコーダは、着信スピーチフレームを分析していくつかの関連するパラメータを抽出し、次いで、それらのパラメータを、2進表現に、たとえば、ビットのセットまたはバイナリデータパケットに量子化する。データパケットは、通信チャネル(すなわち、ワイヤードおよび/またはワイヤレスネットワーク接続)を介して受信機およびデコーダに送信される。デコーダは、データパケットを処理し、それらの処理されたデータパケットを逆量子化してパラメータを生成し、逆量子化されたパラメータを使用してスピーチフレームを再合成する。
[0010]スピーチコーダの機能は、スピーチに内在する固有の冗長性を除去することによって、デジタル化されたスピーチ信号を低ビットレート信号へと圧縮することである。デジタル圧縮は、入力スピーチフレームをパラメータのセットで表し、量子化を用いてそれらのパラメータをビットのセットで表すことによって達成され得る。入力スピーチフレームがビット数Niを有し、スピーチコーダによって生成されたデータパケットがビット数Noを有する場合、スピーチコーダによって達成される圧縮係数はCr=Ni/Noである。問題は、ターゲットの圧縮係数を達成しながら、復号スピーチの高い音声品質を保つことである。スピーチコーダの性能は、(1)スピーチモデル、または上記で説明した分析および合成プロセスの組合せがいかに良好に働くか、ならびに(2)パラメータ量子化プロセスがNoビット毎フレームのターゲットビットレートでいかに良好に実行されるかに依存する。スピーチモデルの目標はしたがって、フレームごとにパラメータの小さいセットを用いて、スピーチ信号の本質またはターゲットの音声品質を捕捉することである。
[0011]スピーチコーダは一般に、スピーチ信号を記述するためにパラメータ(ベクトルを含む)のセットを利用する。パラメータの良好なセットは理想的には、知覚的に正確なスピーチ信号の再構成のために、低いシステム帯域幅をもたらす。ピッチ、信号電力、スペクトルエンベロープ(またはホルマント)、振幅および位相スペクトルは、スピーチコーディングパラメータの例である。
[0012]スピーチコーダは、スピーチの小セグメント(たとえば、5ミリ秒(ms)のサブフレーム)を一度に符号化するために高時間分解能の処理を用いることによって時間領域のスピーチ波形を捕捉することを試行する時間領域コーダとして実装され得る。サブフレームごとに、コードブック空間からの高精度代表が探索アルゴリズムによって発見される。代替的に、スピーチコーダは、パラメータのセットを用いて入力スピーチフレームの短期間スピーチスペクトルを捕捉し(分析)、スペクトルパラメータからスピーチ波形を再生成するために対応する合成プロセスを用いることを試行する周波数領域コーダとして実装され得る。パラメータ量子化器は、既知の量子化技法に従ってコードベクトルの記憶された表現を用いてパラメータを表すことによって、それらのパラメータを保持する。
[0013]1つの時間領域スピーチコーダは、コード励起線形予測(CELP:Code Excited Linear Predictive)コーダである。CELPコーダでは、スピーチ信号における短期間の相関または冗長性が、短期間ホルマントフィルタの係数を発見する線形予測(LP)分析によって除去される。短期予測フィルタを着信スピーチフレームに適用するとLP残余信号が生成され、このLP残余信号は、長期予測フィルタパラメータおよび後続のストキャスティックコードブックを用いてさらにモデル化され、量子化される。したがって、CELPコーディングは、時間領域スピーチ波形を符号化するタスクを、LP短期フィルタ係数を符号化することと、LP残余を符号化することとの別個のタスクに分割する。時間領域コーディングは、固定レートで(すなわち、各フレームに対して同じビット数Noを使用して)または可変レートで(異なるタイプのフレームコンテンツに対して異なるビットレートが使用される)実行され得る。可変レートコーダは、ターゲットの品質を得るのに適切なレベルにコーデックパラメータを符号化するのに必要な量のビットを使用することを試行する。
[0014]CELPコーダなどの時間領域コーダは、時間領域のスピーチ波形の精度を保持するために、フレーム当たりの高ビット数N0に依存し得る。そのようなコーダは、フレーム当たりのビット数Noが比較的多ければ(たとえば、8kbps以上)、優れた音声品質を提供し得る。低ビットレート(たとえば、4kbps以下)では、時間領域コーダは、利用可能なビットの数が限られることが原因で、高品質およびロバストな性能を保つことに失敗し得る。低ビットレートでは、限られたコードブック空間は、より高いレートの商用アプリケーションで配備される時間領域コーダの波形適合能力を制限する。したがって、経年的な改善にもかかわらず、低ビットレートで動作する多くのCELPコーディングシステムは、雑音として特徴づけられる、知覚的に顕著なひずみを伴うという欠点がある。
[0015]低ビットレートにおけるCELPコーダに対する代替物は、CELPコーダと同様の原理で動作する「雑音励起線形予測」(NELP)コーダである。NELPコーダは、スピーチをモデル化するために、コードブックではなく、フィルタ処理された擬似ランダム雑音信号を使用する。NELPは、コーディングされたスピーチに対して、より単純なモデルを使用するので、NELPは、CELPよりも低いビットレートを達成する。NELPは、無声スピーチまたは無音を圧縮または表すために使用され得る。
[0016]2.4kbps程度のレートで動作するコーディングシステムは一般に、本質的にパラメトリックである。すなわち、そのようなコーディングシステムは、スピーチ信号のピッチ周期とスペクトルエンベロープ(またはホルマント)とを記述するパラメータを規則的な間隔で送信することによって動作する。これらのいわゆるパラメトリックコーダの例示的なものが、LPボコーダシステムである。
[0017]LPボコーダは、有声スピーチ信号をピッチ周期当たりに単一のパルスでモデル化する。この基本的な技法は、特にスペクトルエンベロープに関する送信情報を含むように拡張され得る。LPボコーダは、一般的には妥当なパフォーマンスをもたらすが、それらは、バズとして特徴づけられる、知覚的に顕著なひずみを導入し得る。
[0018]近年、波形コーダとパラメトリックコーダの両方のハイブリッドであるコーダが出現している。これらのいわゆるハイブリッドコーダの例示的なものが、プロトタイプ波形補間(PWI)スピーチコーディングシステムである。PWIコーディングシステムは、プロトタイプピッチ周期(PPP)スピーチコーダとしても知られることがある。PWIコーディングシステムは、有声スピーチをコーディングするための効率的な方法を提供する。PWIの基本概念は、固定間隔で代表的なピッチサイクル(プロトタイプ波形)を抽出すること、その記述を送信すること、および、プロトタイプ波形間を補間することによってスピーチ信号を再構成することである。PWI法は、LP残差信号またはスピーチ信号のいずれかに対して作用し得る。
[0019]スピーチ信号(たとえば、コーディングされたスピーチ信号、再構成されたスピーチ信号、または両方)のオーディオ品質を改善することに研究上の関心および商業上の関心があり得る。たとえば、通信デバイスは、最適よりも低い音声品質をもつスピーチ信号を受信し得る。例示のために、通信デバイスは、音声通話中に別の通信デバイスからスピーチ信号を受信し得る。音声通話品質は、環境雑音(たとえば、風、街頭雑音)、通信デバイスのインターフェースの制限、通信デバイスによる信号処理、パケット損失、バンド幅制限、ビットレート制限など、様々な理由により悪くなり得る。
[0020]従来の電話システム(たとえば、公衆交換電話網(PSTN))では、信号帯域幅は、300ヘルツ(Hz)〜3.4キロヘルツ(kHz)の周波数範囲に限定される。セルラー式テレフォニーおよびボイスオーバーインターネットプロトコル(VoIP)などの広帯域(WB)適用例では、信号帯域幅は、50Hz〜7kHzの周波数範囲に及ぶことがある。超広帯域(SWB:super wideband)コーディング技術は、最大約16kHzに及ぶ帯域幅をサポートする。3.4kHzの狭帯域テレフォニーから16kHzのSWBテレフォニーまで信号帯域幅を拡張することにより、信号再構成、了解度、および自然度の品質を改善し得る。
[0021]SWBコーディング技法は、通常、信号の低周波数部分(たとえば、0Hz〜6.4kHz、「ローバンド」とも呼ばれる)を符号化および送信することを伴う。たとえば、ローバンドは、フィルタパラメータおよび/またはローバンド励起信号を使用して表され得る。しかしながら、コーディング効率を改善するために、信号のより高い周波数部分(たとえば、6.4kHz〜16kHz、「ハイバンド」とも呼ばれる)は、完全には符号化および送信されないことがある。代わりに、受信機は、ハイバンドを予測するために信号モデリングを利用し得る。いくつかの実施態様では、予測を助けるために、ハイバンドに関連するデータが受信機に与えられ得る。そのようなデータは「サイド情報」と呼ばれることがあり、利得情報、線スペクトル周波数(LSF、線スペクトル対(LSP)とも呼ばれる)などを含み得る。信号モデリングを使用してハイバンド信号を符号化および復号するとき、不要な雑音または可聴アーティファクト(audible artifacts)が、いくつかの条件下でハイバンド信号にもたらされ得る。
[0022]特定の態様では、方法は、エンコーダにおいて、入力オーディオ信号のハイバンド部分の上位周波数範囲の信号特性がしきい値を満たすかどうかを決定することを含む。本方法はまた、ハイバンド部分に対応するハイバンド励起信号を生成することと、ハイバンド励起信号に基づいて合成ハイバンド部分を生成することと、ハイバンド部分に対する合成ハイバンド部分の比較に基づいて時間利得パラメータの値を決定することとを含む。本方法は、しきい値を満たす信号特性に応答して、時間利得パラメータの値を調整することをさらに含む。時間利得パラメータの値を調整することは、時間利得パラメータの変動性を制御する。
[0023]別の特定の態様では、装置は、複数の出力を生成するために入力オーディオ信号の少なくとも一部分をフィルタ処理するように構成された前処理モジュールを含む。本装置はまた、入力オーディオ信号のハイバンド部分の上位周波数範囲の信号特性を決定するように構成された第1のフィルタを含む。本装置は、ハイバンド部分に対応するハイバンド励起信号を生成するように構成されたハイバンド励起発生器と、ハイバンド励起信号に基づいて合成ハイバンド部分を生成するように構成された第2のフィルタとをさらに含む。本装置は、ハイバンド部分に対する合成ハイバンド部分の比較に基づいて時間利得パラメータの値を決定することと、しきい値を満たす信号特性に応答して、時間利得パラメータの値を調整することとを行うように構成された時間エンベロープ推定器を含む。時間利得パラメータの値を調整することは、時間利得パラメータの変動性を制御する。
[0024]別の特定の態様では、非一時的プロセッサ可読媒体は、プロセッサによって実行されたとき、プロセッサに、入力オーディオ信号のハイバンド部分の上位周波数範囲の信号特性がしきい値を満たすかどうかを決定することを含む演算を実行させる命令を含む。本演算はまた、ハイバンド部分に対応するハイバンド励起信号を生成することと、ハイバンド励起信号に基づいて合成ハイバンド部分を生成することと、ハイバンド部分に対する合成ハイバンド部分の比較に基づいて時間利得パラメータの値を決定することとを含む。本演算は、しきい値を満たす信号特性に応答して、時間利得パラメータの値を調整することをさらに含む。時間利得パラメータの値を調整することは、時間利得パラメータの変動性を制御する。
[0025]別の特定の態様では、装置は、複数の出力を生成するために入力オーディオ信号の少なくとも一部分をフィルタ処理するための手段を含む。本装置はまた、複数の出力に基づいて、入力オーディオ信号のハイバンド部分の上位周波数範囲の信号特性がしきい値を満たすかどうかを決定するための手段を含む。本装置は、ハイバンド部分に対応するハイバンド励起信号を生成するための手段と、ハイバンド励起信号に基づいて合成ハイバンド部分を合成するための手段と、ハイバンド部分の時間エンベロープを推定するための手段とをさらに含む。推定するための手段は、ハイバンド部分に対する合成ハイバンド部分の比較に基づいて時間利得パラメータの値を決定することと、しきい値を満たす信号特性に応答して、時間利得パラメータの値を調整することとを行うように構成される。時間利得パラメータの値を調整することは、時間利得パラメータの変動性を制御する。
[0026]別の特定の態様では、エンコーダの線形予測係数(LPC:linear prediction coefficient)を調整する方法は、エンコーダにおいて、線形予測(LP)次数のために第1の値を使用するLP利得演算に基づいてLP利得を決定することを含む。LP利得は、LP合成フィルタのエネルギーレベルに関連付けられる。本方法はまた、LP利得をしきい値と比較することと、LP利得がしきい値を満たす場合、第1の値から第2の値にLP次数を低減することとを含む。
[0027]別の特定の態様では、装置は、エンコーダと、演算を実行するようにエンコーダによって実行可能である命令を記憶するメモリとを含む。本演算は、線形予測(LP)次数のために第1の値を使用するLP利得演算に基づいてLP利得を決定することを含む。LP利得は、LP合成フィルタのエネルギーレベルに関連付けられる。本演算はまた、LP利得をしきい値と比較することと、LP利得がしきい値を満たす場合、第1の値から第2の値にLP次数を低減することとを含む。
[0028]別の特定の態様では、非一時的コンピュータ可読媒体は、エンコーダの線形予測係数(LPC)を調整するための命令を含む。本命令は、エンコーダによって実行されたとき、エンコーダに、演算を実行させる。本演算は、線形予測(LP)次数のために第1の値を使用するLP利得演算に基づいてLP利得を決定することを含む。LP利得は、LP合成フィルタのエネルギーレベルに関連付けられる。本演算はまた、LP利得をしきい値と比較することと、LP利得がしきい値を満たす場合、第1の値から第2の値にLP次数を低減することとを含む。
[0029]別の特定の態様では、装置は、線形予測(LP)次数のために第1の値を使用するLP利得演算に基づいてLP利得を決定するための手段を含む。LP利得は、LP合成フィルタのエネルギーレベルに関連付けられる。本装置はまた、LP利得をしきい値と比較するための手段と、LP利得がしきい値を満たす場合、第1の値から第2の値にLP次数を低減するための手段とを含む。
[0030]ハイバンド信号特性に基づいて時間利得パラメータを調整するように動作可能であるシステムの特定の態様を示す図。 [0031]ハイバンド信号特性に基づいて時間利得パラメータを調整するように動作可能なエンコーダの構成要素の特定の態様を示す図。 [0032]特定の態様による、信号の周波数成分を示す図。 [0033]ハイバンド信号特性に基づいて調整される時間利得パラメータを使用してオーディオ信号のハイバンド部分を合成するように動作可能なデコーダの構成要素の特定の態様を示す図。 [0034]ハイバンド信号特性に基づいて時間利得パラメータを調整する方法の特定の態様を示すフローチャート。 [0035]ハイバンド信号特性を計算する方法の特定の態様を示すフローチャート。 [0036]エンコーダの線形予測係数(LPC)を調整する方法の特定の態様を示すフローチャート。 [0037]図1〜図5Bのシステム、装置、および方法による、信号処理演算を実行するように動作可能なワイヤレスデバイスのブロック図。
[0038]ハイバンド信号特性に基づいて時間利得情報を調整するシステムおよび方法を開示する。たとえば、時間利得情報は、サブフレームごとにエンコーダにおいて生成される利得形状パラメータを含み得る。いくつかの状況では、エンコーダに入力されるオーディオ信号は、ハイバンド中にほとんどまたはまったくコンテンツを有しないことがある(たとえば、ハイバンドに関して「帯域制限され」得る)。たとえば、帯域制限信号は、SWBモデルに適合する電子デバイス、ハイバンド全体にわたるデータをキャプチャすることが可能でないデバイスなどにおけるオーディオキャプチャ中に生成され得る。例示のために、特定のワイヤレス電話は、可能でないことがあるか、または8kHzよりも高い周波数、10kHzよりも高い周波数などでデータをキャプチャすることを控えるようにプログラムされ得る。そのような帯域制限信号を符号化するとき、信号モデル(たとえば、SWB調和モデル)は、時間利得の大きい変動により可聴アーティファクトをもたらし得る。
[0039]そのようなアーティファクトを低減するために、エンコーダ(たとえば、スピーチエンコーダまたは「ボコーダ」)は、符号化されるべきオーディオ信号の信号特性を決定し得る。一例では、信号特性は、オーディオ信号のハイバンド部分の上位周波数領域におけるエネルギーの和である。非限定的な例として、信号特性は、12kHz〜16kHzの周波数範囲で分析フィルタバンク出力のエネルギーを合計することによって決定され得、したがって、ハイバンド「信号フロア」に対応し得る。本明細書で使用する、オーディオ信号のハイバンド部分の「上位周波数領域」は、オーディオ信号のハイバンド部分の帯域幅よりも小さい(オーディオ信号のハイバンド部分の上側部分における)任意の周波数範囲に対応し得る。非限定的な例として、オーディオ信号のハイバンド部分が、6.4kHz〜14.4kHzの周波数範囲によって特徴づけられる場合、オーディオ信号のハイバンド部分の上位周波数領域は、10.6kHz〜14.4kHzの周波数範囲によって特徴づけられ得る。別の非限定的な例として、オーディオ信号のハイバンド部分が、8kHz〜16kHzの周波数範囲によって特徴づけられる場合、オーディオ信号のハイバンド部分の上位周波数領域は、13kHz〜16kHzの周波数範囲によって特徴づけられ得る。エンコーダは、ハイバンド励起信号を生成するためにオーディオ信号のハイバンド部分を処理し得、ハイバンド励起信号に基づいてハイバンド部分の合成バージョンを生成し得る。「元の」ハイバンド部分と合成ハイバンド部分との比較に基づいて、エンコーダは、利得形状パラメータの値を決定し得る。ハイバンド部分の信号特性が、しきい値を満たす(たとえば、オーディオ信号が、帯域制限され、ハイバンドコンテンツをほとんどまたはまったく有しないことを信号特性が示す)場合、エンコーダは、利得形状パラメータの変動性(たとえば、制限されたダイナミックレンジ)を制限するように利得形状パラメータの値を調整し得る。利得形状パラメータの変動性を制限することは、帯域制限されたオーディオ信号の符号化/復号中に生成されるアーティファクトを低減し得る。
[0040]図1を参照すると、ハイバンド信号特性に基づいて時間利得パラメータを調整するように動作可能であるシステムの特定の態様が示されており、全体的に100で示される。特定の態様では、システム100は符号化システムまたは装置(たとえばワイヤレス電話またはコーダ/デコーダ(コーデック))に統合され得る。
[0041]以下の説明では、図1のシステム100によって実行される様々な機能は、ある特定の構成要素またはモジュールによって実行されるものとして説明されることに留意されたい。しかしながら、構成要素およびモジュールのこの分割は説明のためのものにすぎない。代替態様では、特定の構成要素またはモジュールによって実行される機能は、代わりに、複数の構成要素またはモジュールの間で分割され得る。その上、代替態様では、図1の2つ以上の構成要素またはモジュールが単一の構成要素またはモジュールに統合され得る。図1に示された各構成要素またはモジュールは、ハードウェア(たとえばフィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、コントローラなど)、ソフトウェア(たとえば、プロセッサによって実行可能な命令)、またはそれらの任意の組合せを使用して実装され得る。
[0042]システム100は、オーディオ信号102を受信するように構成された前処理モジュール110を含む。たとえば、オーディオ信号102は、マイクロフォンまたは他の入力デバイスによって提供され得る。特定の態様では、オーディオ信号102はスピーチを含み得る。オーディオ信号102は、約50ヘルツ(Hz)〜約16キロヘルツ(kHz)までの周波数範囲のデータを含む超広帯域(SWB)信号であり得る。前処理モジュール110は、周波数に基づいてオーディオ信号102を複数の部分にフィルタ処理し得る。たとえば、前処理モジュール110はローバンド信号122とハイバンド信号124とを生成し得る。ローバンド信号122とハイバンド信号124とは、等しいかまたは等しくない帯域幅を有し得、重複することも重複しないこともある。
[0043]特定の態様では、ローバンド信号122とハイバンド信号124とは、重複しない周波数帯域中のデータに対応する。たとえば、ローバンド信号122とハイバンド信号124とは、50Hz〜7kHzと7kHz〜16kHzとの重複しない周波数帯域中のデータに対応し得る。代替態様では、ローバンド信号122とハイバンド信号124とは、50Hz〜8kHzと8kHz〜16kHzとの周波数帯域と重複しないデータに対応し得る。別の代替態様では、ローバンド信号122とハイバンド信号124とが重複する帯域(たとえば、50Hz〜8kHzおよび7kHz〜16kHz)に対応し、これにより、前処理モジュール110のローパスフィルタとハイパスフィルタとがスムーズなロールオフを有することが可能になり得、これにより、設計を単純化し、ハイパスフィルタとローパスフィルタとのコストを低減し得る。ローバンド信号122とハイバンド信号124とを重複させることは、受信機におけるローバンド信号とハイバンド信号との滑らかな混合をも可能にし得、これは、より少数の可聴アーティファクトをもたらし得る。
[0044]特定の態様では、前処理モジュール110は、分析フィルタバンクを含む。たとえば、前処理モジュール110は、複数の直交ミラーフィルタ(QMF:quadrature mirror filter)を含むQMFフィルタバンクを含み得る。各QMFは、オーディオ信号102の一部分をフィルタ処理し得る。別の例として、前処理モジュール110は、複素低遅延フィルタバンク(CLDFB:complex low delay filter bank)を含み得る。前処理モジュール110はまた、オーディオ信号102のスペクトルを反転するように構成されたスペクトルフリッパを含み得る。したがって、特定の態様では、ハイバンド信号124がオーディオ信号102のハイバンド部分に対応するが、ハイバンド信号124は、ベースバンド信号として通信され得る。
[0045]特定のSWB態様では、フィルタバンクは、40個のQMFフィルタを含み、ここで、各QMFフィルタ(たとえば、例示的なQMFフィルタ112)は、オーディオ信号102の400Hz部分に対して動作する。各QMFフィルタ112は、実数部と虚数部とを含むフィルタ出力を生成し得る。前処理モジュール110は、オーディオ信号102のハイバンド部分の上位周波数部分に対応するQMFフィルタからのフィルタ出力を合計し得る。たとえば、前処理モジュール110は、シェーディングパターン(shading pattern)を使用して図1に示す、12kHz〜16kHzの周波数範囲に対応する10個のQMFからの出力を合計し得る。前処理モジュール110は、合計されたQMF出力に基づいてハイバンド信号特性126を決定し得る。特定の態様では、前処理モジュール110は、ハイバンド信号特性126を決定するために、QMF出力の和に対して長期平均化演算を実行する。例示のために、前処理モジュール110は、以下の擬似コードに従って動作し得る。
[0046]上記の擬似コードが、QMF分析フィルタバンクを使用した10個の帯域(たとえば、12〜16kHzデータを表す10個の400Hz帯域)にわたる長期平均化を示すが、前処理モジュール110が、異なる分析フィルタバンク、異なる数の帯域、および/または異なる周波数範囲のデータについて実質的に同様の擬似コードに従って動作し得ることを諒解されたい。非限定的な例として、前処理モジュール110は、13〜16kHzデータを表す20個の帯域のために複素低遅延分析フィルタバンクを利用し得る。
[0047]特定の態様では、ハイバンド信号特性126がサブフレームごとに決定され得る。例示のために、オーディオ信号102は、複数のフレームに分割され得、ここで、各フレームは、オーディオの約20ミリ秒(ms)に対応する。各フレームは、複数のサブフレームを含み得る。たとえば、各20msのフレームは、4つの5ms(または約5ms)のサブフレームを含み得る。代替態様では、フレームおよびサブフレームは、異なる長さの時間に対応し得、異なる数のサブフレームが、各フレーム中に含まれ得る。
[0048]図1の例はSWB信号の処理を示しているが、これは説明のためのものにすぎないことに留意されたい。代替態様では、オーディオ信号102は、約50Hz〜約8kHzの周波数範囲を有する広帯域(WB)信号であり得る。そのような態様では、ローバンド信号122は、約50Hz〜約6.4kHzの周波数範囲に対応し得、ハイバンド信号124は、約6.4kHz〜約8kHzの周波数範囲に対応し得る。
[0049]システム100は、ローバンド信号122を受信するように構成されたローバンド分析モジュール130を含み得る。特定の態様では、ローバンド分析モジュール130は、コード励起線形予測(CELP)エンコーダの一態様を表し得る。ローバンド分析モジュール130は、線形予測(LP)分析および符号化モジュール132と、線形予測係数(LPC)−線スペクトル対(LSP)変換モジュール134と、量子化器136とを含み得る。LSPは、線スペクトル周波数(LSF:line spectral frequency)と呼ばれることもあり、この2つの用語は、本明細書では互換的に使用され得る。LP分析およびコーディングモジュール132はローバンド信号122のスペクトルエンベロープをLPCのセットとして符号化し得る。LPCは、オーディオの各フレーム(たとえば、16kHzのサンプリングレートにおける320個のサンプルに対応する、オーディオの20ミリ秒(ms))、オーディオの各サブフレーム(たとえば、オーディオの5ms)、またはそれらの任意の組合せについて、生成され得る。各フレームまたはサブフレームに対して生成されるLPCの数は、実行されるLP分析の「次数」によって決定され得る。特定の態様では、LP分析およびコーディングモジュール132は、10次LP分析に対応する11個のLPCのセットを生成し得る。
[0050]LPC−LSP変換モジュール134は、LP分析およびコーディングモジュール132によって生成されたLPCのセットを(たとえば1対1変換を使用して)LSPの対応するセットに変換し得る。代替的に、LPCのセットは、パーコール係数、ログ面積比値、イミッタンススペクトル対(ISP)、またはイミッタンススペクトル周波数(ISF)の対応するセットに1対1変換され得る。LPCのセットとLSPのセットとの間の変換は、誤差なしに可逆であり得る。
[0051]量子化器136は、変換モジュール134によって生成されたLSPのセットを量子化し得る。たとえば、量子化器136は、複数のエントリ(たとえば、ベクトル)を含む複数のコードブックを含むかまたはそれらに結合され得る。LSPのセットを量子化するために、量子化器136は、(たとえば、最小2乗または平均2乗誤差などのひずみ尺度に基づいて)LSPのセット「に最も近い」コードブックのエントリを識別し得る。量子化器136は、コードブック中の識別されたエントリのロケーションに対応するインデックス値または一連のインデックス値を出力し得る。量子化器136の出力は、したがって、ローバンドビットストリーム142中に含まれるローバンドフィルタパラメータを表し得る。
[0052]ローバンド分析モジュール130はまた、ローバンド励起信号144を生成し得る。たとえば、ローバンド励起信号144は、ローバンド分析モジュール130によって実行されるLPプロセス中に生成されるLP残差信号を量子化することによって生成される符号化された信号であり得る。LP残差信号は、予測誤差を表し得る。
[0053]システム100は、前処理モジュール110からハイバンド信号124とハイバンド信号特性126とを受信することと、ローバンド分析モジュール130からローバンド励起信号144を受信することとを行うように構成されたハイバンド分析モジュール150をさらに含み得る。ハイバンド分析モジュール150は、ハイバンドサイド情報(たとえば、パラメータ)172を生成し得る。たとえば、ハイバンドサイド情報172は、ハイバンドLSP、利得情報などを含み得る。
[0054]ハイバンド分析モジュール150は、ハイバンド励起発生器160を含み得る。ハイバンド励起発生器160は、ローバンド励起信号144のスペクトルをハイバンド周波数範囲(たとえば、8kHz〜16kHz)へと拡張することによって、ハイバンド励起信号161を生成し得る。例示のために、ハイバンド励起発生器160は、ローバンド励起信号に変換を適用し得(たとえば、絶対値または2乗演算などの非線形変換)、ハイバンド励起信号161を生成するために、変換されたローバンド励起信号をノイズ信号(たとえば、ローバンド信号122のゆっくり変化する時間特性を模倣するローバンド励起信号144に対応するエンベロープに従って変調されたホワイトノイズ)と混合し得る。
[0055]ハイバンド励起信号161は、ハイバンドサイド情報172中に含まれる1つまたは複数のハイバンド利得パラメータを決定するために使用され得る。図示のように、ハイバンド分析モジュール150はまた、LP分析およびコーディングモジュール152と、LPC−LSP変換モジュール154と、量子化器156とを含み得る。LP分析およびコーディングモジュール152と、変換モジュール154と、量子化器156との各々は、ローバンド分析モジュール130の対応する構成要素に関して上記で説明したように機能し得るが、(たとえば、各係数、LSPなどのためにより少ないビットを使用して)比較的低い分解能で機能し得る。LP分析およびコーディングモジュール152は、変換モジュール154によってLSPに変換されコードブック163に基づいて量子化器156によって量子化されるLPCのセットを生成し得る。たとえば、LP分析およびコーディングモジュール152、変換モジュール154、および量子化器156は、ハイバンドサイド情報172中に含まれるハイバンドフィルタ情報(たとえば、ハイバンドLSP)を決定するためにハイバンド信号124を使用し得る。特定の態様では、ハイバンド分析モジュール150は、変換モジュール154によって生成されたLPCに基づいてフィルタ係数を使用し、入力としてハイバンド励起信号161を受信するローカルデコーダを含み得る。ハイバンド信号124の合成バージョンなど、ローカルデコーダの合成フィルタ(たとえば、合成モジュール164)の出力が、ハイバンド信号124と比較され得、利得パラメータ(たとえば、フレーム利得および/または時間エンベロープ利得整形値)が、決定され、量子化され、ハイバンドサイド情報172中に含まれ得る。
[0056]特定の態様では、ハイバンドサイド情報172は、ハイバンドLSPならびにハイバンド利得パラメータを含み得る。たとえば、ハイバンドサイド情報172は、ハイバンド信号124のスペクトルエンベロープが時間にわたってどのように発展するかを示す時間利得パラメータ(たとえば、利得形状パラメータ)を含み得る。たとえば、利得形状パラメータは、「元の」ハイバンド部分と合成ハイバンド部分との間の正規化エネルギーの比率に基づき得る。利得形状パラメータは、サブフレームごとに決定され、適用され得る。特定の態様では、第2の利得パラメータも決定され、適用され得る。たとえば、「利得フレーム」パラメータは、フレーム全体にわたって決定され、適用され得、ここで、利得フレームパラメータは、特定のフレームについてのローバンドに対するハイバンドのエネルギー比に対応する。
[0057]たとえば、ハイバンド分析モジュール150は、ハイバンド励起信号161に基づいてハイバンド信号124の合成バージョンを生成するように構成された合成モジュール164を含み得る。ハイバンド分析モジュール150はまた、「元の」ハイバンド信号124と合成モジュール164によって生成されたハイバンド信号の合成バージョンとの比較に基づいて利得形状パラメータの値を決定する利得調整器162を含み得る。例示のために、4つのサブフレームを含むオーディオの特定のフレームについて、ハイバンド信号124は、それぞれのサブフレームについて10、20、30、20の値(たとえば、振幅またはエネルギー)を有し得る。ハイバンド信号の合成バージョンは、値10、10、10、10を有し得る。利得調整器162は、それぞれのサブフレームについて利得形状パラメータの値を1、2、3、2として決定し得る。デコーダにおいて、利得形状パラメータ値は、「元の」ハイバンド信号124をより厳密に反映するためにハイバンド信号の合成バージョンを整形するために使用され得る。特定の態様では、利得調整器162は、利得形状パラメータ値を0と1との間の値に正規化し得る。たとえば、利得形状パラメータ値は、0.33、0.67、1、0.33に正規化され得る。
[0058]特定の態様では、利得調整器162は、ハイバンド信号特性126がしきい値165を満たすかどうかに基づいて利得形状パラメータの値を調整し得る。しきい値165は、固定であり得るか、または調整可能であり得る。しきい値165を満たすハイバンド信号特性126は、オーディオ信号102がハイバンド部分(たとえば、8kHz〜16kHz)の上位周波数領域(たとえば、12kHz〜16kHz)中のオーディオコンテンツのしきい値量よりも少ないものを含むことを示し得る。したがって、ハイバンド信号特性は、合成ドメインとは対照的に、フィルタ処理/分析ドメイン(たとえば、QMFドメイン)中で決定され得る。オーディオ信号102が、ハイバンド部分の上位周波数領域中にほとんどまたはまったくコンテンツを含まないとき、ハイバンド分析モジュール150によって利得の大きい変動が符号化され、信号復号に可聴アーティファクトを生じ得る。そのようなアーティファクトを低減するために、ハイバンド信号特性がしきい値165を満たすとき、利得調整器162は、利得形状パラメータ値を調整し得る。利得形状パラメータ値を調整することは、利得形状パラメータの変動性(たとえば、ダイナミックレンジ)を制限し得る。例示のために、利得調整器は、以下の擬似コードに従って動作し得る。
[0059]代替態様では、しきい値165は、前処理モジュール110に記憶されるか、またはそれにとって利用可能であり得、前処理モジュール110は、ハイバンド信号特性126がしきい値165を満たすかどうかを決定し得る。この態様では、前処理モジュール110は、利得調整器162にインジケータ(たとえば、ビット)を送り得る。インジケータは、ハイバンド信号特性126がしきい値165を満たすときに第1の値(たとえば、1)を有し得、ハイバンド信号特性126がしきい値165を満たさないときに第2の値(たとえば、0)を有し得る。利得調整器162は、インジケータが第1の値を有するのかまたは第2の値を有するかに基づいて利得形状パラメータの値を調整し得る。
[0060]ローバンドビットストリーム142とハイバンドサイド情報172とは、出力ビットストリーム192を生成するためにマルチプレクサ(MUX)180によって多重化され得る。出力ビットストリーム192は、オーディオ信号102に対応する符号化オーディオ信号を表し得る。たとえば、出力ビットストリーム192は(たとえば、ワイヤード、ワイヤレス、または光チャネルを介して)送信され、および/または記憶され得る。受信機において、オーディオ信号(たとえば、スピーカまたは他の出力デバイスに提供されるオーディオ信号102の再構成バージョン)を生成するために、逆演算がデマルチプレクサ(DEMUX)、ローバンドデコーダ、ハイバンドデコーダ、およびフィルタバンクによって実行され得る。ローバンドビットストリーム142を表すために使用されるビット数は、ハイバンドサイド情報172を表すために使用されるビット数よりも実質的に多くなり得る。したがって、出力ビットストリーム192中のビットの大部分はローバンドデータを表し得る。ハイバンドサイド情報172は、信号モデルに従ってローバンドデータからハイバンド励起信号を再生するために受信機で使用され得る。たとえば、この信号モデルは、ローバンドデータ(たとえば、ローバンド信号122)とハイバンドデータ(たとえば、ハイバンド信号124)の関係または相関関係の予測されるセットを表し得る。したがって、異なる信号モデルが、異なる種類のオーディオデータ(たとえば、スピーチ、音楽など)に使用され得、使用中の特定の信号モデルは、符号化オーディオデータの通信の前に、送信機と受信機とによってネゴシエートされ得る(または業界標準によって定義され得る)。その信号モデルを使用して、送信機におけるハイバンド分析モジュール150は、受信機における対応するハイバンド分析モジュールが、出力ビットストリーム192からハイバンド信号124を再構成するためにその信号モデルを使用することが可能であるように、ハイバンドサイド情報172を生成することが可能であり得る。
[0061]ハイバンド信号特性がしきい値を満たすときに時間利得情報(たとえば、利得形状パラメータ)を選択的に調整することによって、図1のシステム100は、符号化されている信号が帯域制限されている(たとえば、ほとんどまたはまったくハイバンドコンテンツを含まない)ときに可聴アーティファクトを低減し得る。したがって、図1のシステム100は、入力信号が使用中の信号モデルに従わないときに時間利得を制約することが可能になり得る。
[0062]図2を参照すると、エンコーダ200において使用される構成要素の特定の態様が示されている。例示的な態様では、エンコーダ200は、図1のシステム100に対応する。
[0063]「F」の帯域幅をもつ入力信号201(たとえば、F=16,000=16kであるとき0Hz〜16kHzなど、0HzからFHzまでの周波数範囲を有する信号)がエンコーダ200によって受信され得る。分析フィルタ202は、入力信号201のローバンド部分を出力し得る。分析フィルタ202から出力された信号203は、(F1=6.4kであるとき0Hz〜6.4kHzなど)0HzからF1Hzまでの周波数成分を有し得る。
[0064]ACELPエンコーダなどのローバンドエンコーダ204(たとえば、図1のローバンド分析モジュール130中のLP分析およびコーディングモジュール132)は、信号203を符号化し得る。ACELPエンコーダ204は、LPCなどのコーディング情報と、ローバンド励起信号205とを生成し得る。
[0065](図4において説明するなど、受信機中のACELPデコーダによっても再生され得る)ACELPエンコーダからのローバンド励起信号205は、サンプラ206においてアップサンプリングされ得、したがって、アップサンプリングされた信号207の有効な帯域幅は、0HzからFHzまでの周波数範囲にある。ローバンド励起信号205は、12.8kHzのサンプリングレート(たとえば、6.4kHzローバンド励起信号205のナイキストサンプリングレート)に対応するサンプルのセットとしてサンプラ206によって受信され得る。たとえば、ローバンド励起信号205は、ローバンド励起信号205のバンド幅の2倍のレートでサンプリングされ得る。
[0066]第1の非線形変換生成器208は、アップサンプリングされた信号207に基づく非線形励起信号として示されている帯域幅が拡張された信号209を生成するように構成され得る。たとえば、非線形変換生成器208は、アップサンプリングされた信号207に対して非線形変換演算(たとえば、絶対値演算または2乗演算)を実行して、帯域幅が拡張された信号209を生成し得る。非線形変換演算は、元の信号、0HzからF1Hzまで(たとえば、0Hzから6.4kHzまで)のローバンド励起信号205の高調波を0HzからFHzまで(たとえば、0Hzから16kHzまで)などのより高いバンドに拡張し得る。
[0067]帯域幅が拡張された信号209は第1のスペクトル反転モジュール210に与えられ得る。第1のスペクトル反転モジュール210は、帯域幅が拡張された信号209のスペクトルミラー演算を実行して(たとえば、スペクトルを「反転」して)、「反転された」信号211を生成するように構成され得る。帯域幅が拡張された信号209のスペクトルを反転すると、帯域幅が拡張された信号209のコンテンツが、反転された信号211の0HzからFHzまで(たとえば、0Hzから16kHzまで)にわたるスペクトルの反対端に変化(たとえば、「反転」)し得る。たとえば、帯域幅が拡張された信号209の14.4kHzにおけるコンテンツは反転された信号211の1.6kHzにあり得、帯域幅が拡張された信号209の0Hzにおけるコンテンツは反転された信号211の16kHzにあり得る、などである。
[0068]反転された信号211は、反転された信号211を、演算の第1のモードではフィルタ214とダウンミキサ216とを含む第1の経路に選択的にルーティングし、または演算の第2のモードではフィルタ218を含む第2の経路に選択的にルーティングするスイッチ212の入力に与えられ得る。たとえば、スイッチ212は、エンコーダ200の動作モードを示す制御入力における信号に応答するマルチプレクサを含み得る。
[0069]演算の第1のモードでは、反転された信号211は、フィルタ214においてバンドパスフィルタ処理されて、(F−F2)Hzから(F−F1)Hzまでの周波数範囲の外側の信号コンテンツが低減または除去されたバンドパス信号215を生成し、ここで、F2>F1である。たとえば、F=16kであり、F1=6.4kであり、F2=14.4kであるとき、反転された信号211は、1.6kHzから9.6kHzの周波数範囲にバンドパスフィルタ処理され得る。フィルタ214は、約F−F1において(たとえば、16kHz−6.4kHz=9.6kHzにおいて)カットオフ周波数を有するローパスフィルタとして動作するように構成された極零フィルタを含み得る。たとえば、極零フィルタは、カットオフ周波数において急な減少を有し、反転された信号211の高周波成分をフィルタ除去する(たとえば、9.6kHzと16kHzとの間など、(F−F1)とFとの間の反転された信号211の成分をフィルタ除去する)ように構成された高次フィルタであり得る。さらに、フィルタ214は、F−F2を下回る(たとえば、16kHz−14.4kHz=1.6kHzを下回る)出力信号中の周波数成分を減衰させるように構成されたハイパスフィルタを含み得る。
[0070]バンドパス信号215は、ダウンミキサ216に与えられ得、これは、0Hzから8kHzまでなど0Hzから(F2−F1)Hzまで広がる有効な信号帯域幅を有する信号217を生成し得る。たとえば、ダウンミキサ216は、バンドパス信号215を1.6kHzと9.6kHzとの間の周波数範囲からベースバンド(たとえば、0Hzと8kHzとの間の周波数範囲)にダウンミックスして信号217を生成するように構成され得る。ダウンミキサ216は、2段ヒルベルト変換(two-stage Hilbert transforms)を使用して実装され得る。たとえば、ダウンミキサ216は、虚数成分と実数成分とを有する2つの5次無限インパルス応答(IIR)フィルタを使用して実装され得る。
[0071]演算の第2のモードでは、スイッチ212は、フィルタ218に反転された信号211を与えて、信号219を生成する。フィルタ218は、(F2−F1)Hzを上回る(たとえば、8kHzを上回る)周波数成分を減衰させるためにローパスフィルタとして動作し得る。フィルタ218におけるローパスフィルタ処理は、サンプルレートが2*(F2−F1)に(たとえば、2*(14.4Hz−6.4Hz=16kHz)に)変換されるリサンプリングプロセスの一部として実行され得る。
[0072]スイッチ220は、演算モードに従って適応型白色化およびスケーリングモジュール222において処理されるべき信号217、219のうちの1つを出力し、適応型白色化およびスケーリングモジュールの出力は、加算器などのコンバイナ240の第1の入力に与えられる。コンバイナ240の第2の入力は、雑音エンベロープモジュール232(たとえば、変調器)とスケーリングモジュール234とに従って処理されたランダム雑音生成器230の出力から得られた信号を受信する。コンバイナ240は、図1のハイバンド励起信号161などのハイバンド励起信号241を生成する。
[0073]0HzとFHzとの間の周波数範囲中の有効な帯域幅を有する入力信号201はまた、ベースバンド信号生成経路において処理され得る。たとえば、入力信号201は、スペクトル反転モジュール242においてスペクトル的に反転されて、反転された信号243を生成し得る。反転された信号243は、フィルタ244においてバンドパスフィルタ処理されて、(F−F2)Hzから(F−F1)Hzまで(たとえば、1.6kHzから9.6kHzまで)の周波数範囲の外の信号成分が除去または低減されたバンドパス信号245を生成し得る。
[0074]特定の態様では、フィルタ244は、入力信号201のハイバンド部分の上位周波数範囲の信号特性を決定する。例示的な非限定的な例として、フィルタ244は、図1に関して説明したように、12kHz〜16kHzの周波数範囲に対応するフィルタ出力に基づいてハイバンド信号フロアの長期平均を決定し得る。図3に、(1〜7に示す)そのような帯域制限信号の例を示す。これらの帯域制限された信号の線形予測係数(LPC)推定は、ハイバンド中のアーティファクトにつながる量子化および安定性問題をもたらす。たとえば、32kHzのサンプリングされた入力信号が、10kHzに帯域制限され(すなわち、10kHzを上回り、ナイキストまでの極めて制限されたエネルギーがあり)、ハイバンドが、8〜16kHzまたは6.4〜14.4kHzから符号化される場合、8〜10kHzからの帯域制限されたスペクトルコンテンツは、ハイバンドLPC推定における安定性問題を生じさせ得る。特に、LP係数は、所望の固定小数点精度Qフォーマットで表されるとき、精度の損失により飽和し得る。そのようなシナリオでは、LP分析のためにより低い予測次数が使用され得る(たとえば、10の代わりにLPC次数=2または4を使用する)。飽和および安定性問題を制限するためのLP分析のためのLPC次数のこの低減は、LP利得またはLP合成フィルタのエネルギーに基づいて実行され得る。LP利得が特定のしきい値よりも高い場合、LPC次数は、より低い値に調整され得る。LP合成フィルタのエネルギーが|1/A(z)|^2によって与えられ、ここで、A(z)は、LP分析フィルタである。48dBに対応する64の典型的なLP利得値は、これらの帯域制限されたシナリオにおいて高いLP利得について検査し、LPC推定における飽和問題を回避するために予測次数を制御するのに良好なインジケータである。
[0075]バンドパス信号245は、ダウンミキサ246においてダウンミックスされて、0Hzから(F2−F1)Hzまで(たとえば、0Hzから8kHzまで)の周波数範囲中に有効な信号帯域幅を有するハイバンド「ターゲット」信号247を生成し得る。ハイバンドターゲット信号247は、第1の周波数範囲に対応するベースバンド信号である。
[0076]ハイバンド励起信号241への変更を表すパラメータ、したがって、それはハイバンドターゲット信号247を表す、が、抽出され、デコーダに送信され得る。例示のために、ハイバンドターゲット信号247は、LP分析モジュール248によって処理されて、LPC−LSP変換器250においてLSPに変換され、量子化モジュール252において量子化されるLPCを生成し得る。量子化モジュール252は、図1のハイバンドサイド情報172中などでデコーダに送られるべきLSP量子化インデックスを生成し得る。
[0077]LPCは、入力としてハイバンド励起信号241を受信し、出力として合成ハイバンド信号261を生成する合成フィルタ260を構成するために使用され得る。合成ハイバンド信号261は、時間エンベロープ推定モジュール262においてハイバンドターゲット信号247と比較されて(たとえば、信号261および247のエネルギーがそれぞれの信号の各サブフレームにおいて比較され得る)、利得形状パラメータ値などの利得情報263を生成する。利得情報263は、量子化モジュール264に与えられて、図1のハイバンドサイド情報172中などでデコーダに送られるべき量子化利得情報インデックスを生成する。
[0078]上記で説明したように、飽和を低減するためにLP利得が特定のしきい値よりも高い場合、LP分析のためにより低い予測次数が使用され得る(たとえば、10の代わりにLPC次数=2または4を使用し得る)。例示のために、LP分析モジュール248は、以下の擬似コードに従って動作し得る。
[0079]擬似コードに基づいて、LP分析モジュール248は、LP次数のために第1の値を使用するLP利得演算に基づいてLP利得を決定し得る。たとえば、LP分析モジュール248は、関数「ener_1_Az」を使用してLP利得(たとえば、「enerG」)を推定し得る。関数は、LP利得を推定するために16次フィルタ(たとえば、16次利得計算)を使用し得る。LP分析モジュール248はまた、LP利得をしきい値と比較し得る。擬似コードに従って、しきい値は、64の数値を有する。ただし、擬似コード中のしきい値が非限定的な例として使用されているにすぎず、他の数値がしきい値として使用され得ることを理解されたい。LP分析モジュール248はまた、エネルギーレベル(「enerG」)が極限を超えるかどうかを決定し得る。たとえば、LP分析モジュール248は、関数「is_numeric_float」を使用してエネルギーレベルが「無限大」であるかどうかを決定し得る。エネルギーレベル(たとえば、LP利得)がしきい値を満たす(たとえば、しきい値よりも大きい)か、または極限を超えるか、またはその両方であるとLP分析モジュール248が決定する場合、LP分析モジュール248は、LPC飽和の尤度を低減するために第1の値(たとえば、16)から第2の値(たとえば、2または4)にLP次数を低減し得る。
[0080]特定の態様では、時間エンベロープ推定モジュール262は、フィルタ244によって決定される信号特性がしきい値を満たすとき(たとえば、入力信号201がハイバンド部分の上位周波数範囲中にほとんどまたはまったくコンテンツを有しないことを信号特性が示すとき)、利得形状パラメータの値を調整し得る。そのような信号を符号化するとき、利得形状パラメータの値の広い変動がフレーム間および/またはサブフレーム間に発生し、再構成されたオーディオ信号中に可聴アーティファクトをもたらす。たとえば、図3で丸で囲っているように、ハイバンドアーティファクトは、再構成されたオーディオ信号中に存在し得る。本発明の技法により、入力信号201がハイバンド部分またはそれの少なくとも上位周波数領域中にほとんどまたはまったくコンテンツを有しないときに利得形状パラメータ値を選択的に調整することによってそのようなアーティファクトの存在を低減または除去することが可能になり得る。
[0081]第1の経路に関して説明したように、第1の演算モードでは、ハイバンド励起信号241の生成経路は、信号217を生成するためにダウンミックス演算を含む。このダウンミックス演算は、ヒルベルト変換器を通して実装される場合、複雑になり得る。代替実装形態は、直交ミラーフィルタ(QMF)に基づき得る。第2の演算モードでは、ダウンミックス演算は、ハイバンド励起信号241の生成経路中に含まれない。これは、ハイバンド励起信号241とハイバンドターゲット信号247との間の不一致を生じさせる。第2のモードに従って(たとえば、フィルタ218を使用して)ハイバンド励起信号241を生成することが、極零フィルタ214とダウンミキサ216とをバイパスし、極零フィルタ処理とダウンミキサとに関連する複雑で計算コストが高い演算を低減し得ることが諒解されよう。図2に、(フィルタ214とダウンミキサ216とを含む)第1の経路と(フィルタ218を含む)第2の経路とについてエンコーダ200の別個の演算モードに関連付けられているものとして説明したが、他の態様では、エンコーダ200は、第1のモードでも演算するように構成可能にすることなしに第2のモードで演算するように構成され得る(たとえば、エンコーダ200は、スイッチ212、フィルタ214、ダウンミキサ216、およびスイッチ220を省略し得、フィルタ218の入力を反転された信号211を受信するように結合させ、信号219を適応型白色化およびスケーリングモジュール222の入力に与えさせる)。
[0082]図4に、図1のシステム100または図2のエンコーダ200によって生成された符号化オーディオ信号などの符号化オーディオ信号を復号するために使用され得るデコーダ400の特定の態様を示す。
[0083]デコーダ400は、符号化オーディオ信号401を受信する、ACELPコアデコーダ404などのローバンドデコーダ404を含む。符号化オーディオ信号401は、図2の入力信号201など、オーディオ信号の符号化バージョンであり、オーディオ信号のローバンド部分に対応する第1のデータ402(たとえば、ローバンド励起信号205および量子化LSPインデックス)とオーディオ信号のハイバンド部分に対応する第2のデータ403(たとえば、利得エンベロープデータ463および量子化LSPインデックス461)とを含む。特定の態様では、入力信号(たとえば、入力信号201)がハイバンド部分(またはそれの上位周波数領域)中にほとんどまたはまったくコンテンツを有しないとき、利得エンベロープデータ463は、変動性/ダイナミックレンジを制限するように選択的に調整される利得形状パラメータ値を含む。
[0084]ローバンドデコーダ404は、合成ローバンド復号信号471を生成する。ハイバンド信号合成は、図2のアップサンプラ206に図2のローバンド励起信号205(またはエンコーダから受信されたローバンド励起信号205の量子化バージョンなどのローバンド励起信号205の表現)を与えることを含む。ハイバンド合成は、図2のコンバイナ240への第1の入力を与えるためにアップサンプラ206と、非線形変換モジュール208と、スペクトル反転モジュール210と、スイッチ212および220によって制御される(第1の演算モードでは)フィルタ214およびダウンミキサ216または(第2の演算モードでは)フィルタ218と、適応型白色化およびスケーリングモジュール222とを使用してハイバンド励起信号241を生成することを含む。コンバイナへの第2の入力は、図2の雑音エンベロープモジュール232によって処理され、スケーリングモジュール234においてスケーリングされるランダム雑音生成器230の出力によって生成される。
[0085]図2の合成フィルタ260は、図2のエンコーダ200の量子化モジュール252による出力など、エンコーダから受信されたLSP量子化インデックスに従ってデコーダ400中で構成され得、コンバイナ240によって出力された励起信号241を処理して、合成信号を生成する。合成信号は、(たとえば、図2のエンコーダ200の量子化モジュール264から出力された利得エンベロープインデックスに従って)利得形状パラメータ値などの1つまたは複数の利得を適用するように構成された時間エンベロープ適用モジュール462に与えられて、調整された信号を生成する。
[0086]ハイバンド合成は、0Hz〜(F2−F1)Hzの周波数範囲から(F−F2)Hz〜(F−F1)Hz(たとえば、1.6kHz〜9.6kHz)の周波数範囲に調整された信号をアップミックスするように構成されたミキサ464によって処理を続ける。ミキサ464によって出力されたアップミックスされた信号は、サンプラ466においてアップサンプリングされ、サンプラ466のアップサンプリングされた出力は、スペクトル反転モジュール210に関して説明したように動作し得るスペクトル反転モジュール468に与えられて、F1HzからF2Hzまで広がる周波数帯域を有するハイバンド復号信号469を生成する。
[0087]ローバンドデコーダ404によって出力されたローバンド復号信号471(0Hz〜F1Hz)とスペクトル反転モジュール468から出力されたハイバンド復号信号469(F1Hz〜F2Hz)とは、合成フィルタバンク470に与えられる。合成フィルタバンク470は、図2のオーディオ信号201の合成バージョンなど、ローバンド復号信号471とハイバンド復号信号469との組合せに基づく、0HzからF2Hzまでの周波数範囲を有する合成オーディオ信号473を生成する。
[0088]図2に関して説明したように、第2のモードに従って(たとえば、フィルタ218を使用して)ハイバンド励起信号241を生成することが、極零フィルタ214とダウンミキサ216とをバイパスし、極零フィルタ処理とダウンミキサとに関連する複雑で計算コストが高い演算を低減し得る。図4に、(フィルタ214とダウンミキサ216とを含む)第1の経路と(フィルタ218を含む)第2の経路とについてデコーダ400の別個の演算モードに関連付けられているものとして説明したが、他の態様では、デコーダ400は、第1のモードでも演算するように構成可能にすることなしに第2のモードで演算するように構成され得る(たとえば、デコーダ400は、スイッチ212、フィルタ214、ダウンミキサ216、およびスイッチ220を省略し得、フィルタ218の入力を反転された信号211を受信するように結合させ、信号219を適応型白色化およびスケーリングモジュール222の入力に与えさせる)。
[0089]図5Aを参照すると、ハイバンド信号特性に基づいて時間利得パラメータを調整する方法500の特定の態様が示されている。例示的な態様では、方法500は、図1のシステム100または図2のエンコーダ200によって実行され得る。
[0090]方法500は、502において、オーディオ信号のハイバンド部分の上位周波数範囲の信号特性がしきい値を満たすかどうかを決定することを含み得る。たとえば、図1では、利得調整器162は、信号特性126が発しきい値165を満たすかどうかを決定し得る。
[0091]504に進むと、方法500は、ハイバンド部分に対応するハイバンド励起信号を生成し得る。方法500は、506において、ハイバンド励起信号に基づいて合成ハイバンド部分をさらに生成し得る。たとえば、図1では、ハイバンド励起発生器160は、ハイバンド励起信号161を生成し得、合成モジュール164は、ハイバンド励起信号161に基づいて合成ハイバンド部分を生成し得る。
[0092]508に進むと、方法500は、ハイバンド部分に対する合成ハイバンド部分の比較に基づいて時間利得パラメータ(たとえば、利得形状)の値を決定し得る。方法500はまた、510において、信号特性がしきい値を満たすかどうかを決定することを含み得る。信号特性がしきい値を満たすとき、方法500は、512において、時間利得パラメータの値を調整することを含み得る。時間利得パラメータの値を調整することは、時間利得パラメータの変動性を制限し得る。たとえば、図1では、ハイバンド信号特性126がしきい値165を満たす(たとえば、オーディオ信号102がハイバンド部分(またはそれの少なくとも上位周波数領域)中にほとんどまたはまったくコンテンツを有しないことをハイバンド信号特性126が示す)とき、利得調整器162は、利得形状パラメータの値を調整し得る。例示的な態様では、利得形状パラメータの値を調整することは、図1を参照しながら説明した擬似コードに示すように、正規化定数(たとえば、0.315)と利得形状パラメータの第1の値の特定の割合(たとえば、10%)との和に基づいて利得形状パラメータの第2の値を計算することを含む。
[0093]信号特性がしきい値を満たさないとき、方法500は、514において、時間利得パラメータの非調整値を使用することを含み得る。たとえば、図1では、オーディオ信号102が十分なコンテンツザハイバンド部分(またはそれの少なくとも上位周波数領域)を含むとき、利得調整器162は、利得形状パラメータ値の変動性を制限するのを控え得る。
[0094]特定の態様では、図5Aの方法500は、中央演算処理装置(CPU)、デジタル信号プロセッサ(DSP)またはコントローラなどの処理ユニットのハードウェア(たとえばフィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)など)によって、またはファームウェアデバイス、またはこれらの任意の組合せを用いて実施され得る。一例として、図5Aの方法500は、図6に関して説明するように、命令を実行するプロセッサによって実行され得る。
[0095]図5Bを参照すると、ハイバンド信号特性を計算する方法520の特定の態様が示されている。例示的な態様では、方法520は、図1のシステム100または図2のエンコーダ200によって実行され得る。
[0096]方法520は、522において、ベースバンドにおいてオーディオ信号のハイバンド部分を処理するためにオーディオ信号に対してスペクトル反転演算を実行することを介してオーディオ信号のスペクトル的に反転されたバージョンを生成することを含む。たとえば、図2を参照すると、スペクトル反転モジュール242は、入力信号201に対してスペクトル反転演算を実行することによって反転された信号243(たとえば、入力信号201のスペクトル的に反転されたバージョン)を生成し得る。入力信号201をスペクトル的に反転することによって、ベースバンドにおいて入力信号201のハイバンド部分(たとえば、12〜16kHz部分)の上位周波数範囲の処理が可能になり得る。
[0097]エネルギー値の和は、524において、オーディオ信号のスペクトル的に反転されたバージョンに基づいて計算され得る。たとえば、図1を参照すると、前処理モジュール110は、エネルギー値の和に対して長期平均化演算を実行し得る。エネルギー値は、入力信号201のハイバンド部分の上位周波数範囲に対応するQMF出力に対応し得る。エネルギー値の和は、ハイバンド信号特性126を示し得る。
[0098]図5Bの方法520は、帯域制限されたオーディオ信号の符号化/復号中に生成されるアーティファクトを低減し得る。たとえば、エネルギー値の和の長期平均化は、ハイバンド信号特性126を示し得る。ハイバンド信号特性126が、しきい値を満たす(たとえば、オーディオ信号が、帯域制限され、ハイバンドコンテンツをほとんどまたはまったく有しないことを信号特性が示す)場合、エンコーダは、利得形状パラメータの変動性(たとえば、制限されたダイナミックレンジ)を制限するように利得形状パラメータの値を調整し得る。利得形状パラメータの変動性を制限することは、帯域制限されたオーディオ信号の符号化/復号中に生成されるアーティファクトを低減し得る。
[0099]特定の態様では、図5Bの方法520は、中央演算処理装置(CPU)、デジタル信号プロセッサ(DSP)またはコントローラなどの処理ユニットのハードウェア(たとえばフィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)など)によって、またはファームウェアデバイス、またはこれらの任意の組合せを用いて実施され得る。一例として、図5Bの方法520は、図6に関して説明するように、命令を実行するプロセッサによって実行され得る。
[00100]図5Cを参照すると、エンコーダのLPCを調整する方法540の特定の態様が示されている。例示的な態様では、方法540は、図1のシステム100または図2のLP分析モジュール248によって実行され得る。一実装形態によれば、LP分析モジュール248は、方法540を実行するために上記で説明した対応する擬似コードに従って演算し得る。
[00101]方法540は、542において、エンコーダにおいて、線形予測(LP)次数のために第1の値を使用するLP利得演算に基づいてLP利得を決定することを含む。LP利得は、LP合成フィルタのエネルギーレベルに関連付けられ得る。たとえば、図2を参照すると、LP分析モジュール248は、LP次数のために第1の値を使用するLP利得計算に基づいてLP利得を決定し得る。一実装形態によれば、第1の値は、16次フィルタに対応する。LP利得は、合成フィルタ260のエネルギーレベルに関連付けられ得る。たとえば、エネルギーレベルは、オーディオフレームのオーディオフレームサイズに基づき、オーディオフレームのために生成されたLPCの数に基づくインパルス応答エネルギーレベルに対応し得る。合成フィルタ260(たとえば、LP合成フィルタ)は、(たとえば、帯域幅が拡張された信号209から生成される)ローバンド励起信号の非線形拡張から生成されるハイバンド励起信号241に応答し得る。
[00102]LP利得は、544において、しきい値と比較され得る。たとえば、図2を参照すると、LP分析モジュール248は、LP利得をしきい値と比較し得る。546において、LP利得がしきい値を満たす場合、LP次数が第1の値から第2の値に低減され得る。たとえば、図2を参照すると、LP利得がしきい値を満たす(たとえば、上回る)場合、LP分析モジュール248は、第1の値から第2の値にLP次数を低減し得る。一実装形態によれば、第2の値は、2次フィルタに対応する。別の実装形態によれば、第2の値は、4次フィルタに対応する。
[00103]方法540はまた、エネルギーレベルが極限を超えるかどうかを決定することを含み得る。たとえば、図2を参照すると、LP分析モジュール248は、合成フィルタ260のエネルギーレベルが極限(たとえば、エネルギー値が不正確な数値を有するものと解釈され得る「無限大」極限)を超えるかどうかを決定し得る。LP次数は、極限を超える合成フィルタ260のエネルギーレベルに応答して第1の値から第2の値に低減され得る。
[00104]特定の態様では、図5Cの方法540は、CPU、DSP、またはコントローラなどの処理ユニットのハードウェア(たとえば、FPGAデバイス、ASICなど)を介して、ファームウェアデバイスを介して、またはその任意の組合せで実施され得る。一例として、図5Cの方法540は、図6に関して説明するように、命令を実行するプロセッサによって実行され得る。
[00105]図6を参照すると、デバイス(たとえば、ワイヤレス通信デバイス)の特定の例示的な態様のブロック図が示されており、全体的に600で示される。様々な態様では、デバイス600は、図6に示すものよりも少ない、または多い構成要素を有し得る。例示的な態様では、デバイス600は、図1、図2、および図4を参照しながら説明した1つまたは複数のシステム、装置、またはデバイスの1つまたは複数の構成要素に対応し得る。例示的な態様では、デバイス600は、図5Aの方法500、図5Bの方法520、および/または図5Cの方法540の全部または一部など、本明細書で説明する1つまたは複数の方法に従って動作し得る。
[00106]特定の態様では、デバイス600はプロセッサ606(たとえば、中央演算処理装置(CPU))を含む。デバイス600は、1つまたは複数の追加のプロセッサ610(たとえば、1つまたは複数のデジタル信号プロセッサ(DSP))を含み得る。プロセッサ610は、スピーチおよび音楽コーダデコーダ(コーデック)608と、エコーキャンセラ612とを含み得る。スピーチおよび音楽コーデック608は、ボコーダエンコーダ636、ボコーダデコーダ638、またはその両方を含み得る。
[00107]特定の態様では、ボコーダエンコーダ636は、図1のシステム100または図2のエンコーダ200を含み得る。ボコーダエンコーダ636は、(たとえば、入力オーディオ信号がハイバンド部分の上位周波数範囲中にほとんどまたはまったくコンテンツを有しないことをハイバンド信号特性が示すとき)ハイバンド信号特性に基づいて時間利得情報(たとえば、利得形状パラメータ値)を選択的に調整するように構成された利得形状調整器662を含み得る。
[00108]ボコーダデコーダ638は、図4のデコーダ400を含み得る。たとえば、ボコーダデコーダ638は、調整された利得形状パラメータ値に基づいて信号再構成672を実行するように構成され得る。スピーチおよび音楽コーデック608はプロセッサ610の構成要素として示されているが、他の態様では、スピーチおよび音楽コーデック608の1つまたは複数の構成要素が、プロセッサ606、コーデック634、別の処理構成要素、またはそれらの組合せの中に含まれ得る。
[00109]デバイス600は、メモリ632と、トランシーバ650を介してアンテナ642に結合されたワイヤレスコントローラ640とを含み得る。デバイス600は、ディスプレイコントローラ626に結合されたディスプレイ628を含み得る。スピーカ648、マイクロフォン646、またはそれら両方がコーデック634に結合され得る。コーデック634は、デジタルアナログ変換器(DAC)602と、アナログデジタル変換器(ADC)604とを含み得る。
[00110]特定の態様では、コーデック634は、マイクロフォン646からアナログ信号を受信し、アナログデジタル変換器604を使用してそのアナログ信号をデジタル信号に変換し、パルス符号変調(PCM)形式などでスピーチおよび音楽コーデック608にそのデジタル信号を与え得る。スピーチおよび音楽コーデック608はデジタル信号を処理し得る。特定の態様では、スピーチおよび音楽コーデック608は、コーデック634にデジタル信号を与え得る。コーデック634は、デジタルアナログ変換器602を使用してデジタル信号をアナログ信号に変換し得、そのアナログ信号をスピーカ648に与え得る。
[00111]メモリ632は、図5A〜図5Bの方法など、本明細書で開示する方法とプロセスとを実行するために、プロセッサ606、プロセッサ610、コーデック634、デバイス600の別の処理ユニット、またはそれらの組合せによって実行可能な命令656を含み得る。図1、図2、または図4のシステムの1つまたは複数の構成要素は、専用ハードウェア(たとえば回路)を介して、1つまたは複数のタスクを実行するための命令を実行するプロセッサによって、あるいはそれらの組合せで実装され得る。一例として、メモリ632またはプロセッサ606、プロセッサ610、および/もしくはコーデック634の1つもしくは複数の構成要素は、ランダムアクセスメモリ(RAM)、磁気抵抗ランダムアクセスメモリ(MRAM)、スピントルクトランスファーMRAM(STT−MRAM)、フラッシュメモリ、読出し専用メモリ(ROM)、プログラマブル読出し専用メモリ(PROM)、消去可能プログラマブル読出し専用メモリ(EPROM)、電気的消去可能プログラマブル読出し専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、またはコンパクトディスク読出し専用メモリ(CD−ROM)などのメモリデバイスであり得る。メモリデバイスは、コンピュータ(たとえば、コーデック634中のプロセッサ、プロセッサ606、および/またはプロセッサ610)によって実行されたとき、コンピュータに図5A〜図5Bの方法の少なくとも一部分を実行させ得る命令(たとえば命令656)を含み得る。一例として、メモリ632あるいはプロセッサ606、プロセッサ610、コーデック634の1つまたは複数の構成要素は、コンピュータ(たとえば、コーデック634中のプロセッサ、プロセッサ606、および/またはプロセッサ610)によって実行されたとき、コンピュータに図5A〜図5Bの方法の少なくとも一部分を実行させる命令(たとえば、命令656)を含む非一時的コンピュータ可読媒体であり得る。
[00112]特定の態様では、デバイス600は、移動局モデム(MSM)など、システムインパッケージまたはシステムオンチップデバイス622中に含まれ得る。特定の態様では、プロセッサ606、プロセッサ610、ディスプレイコントローラ626、メモリ632、コーデック634、ワイヤレスコントローラ640、およびトランシーバ650は、システムインパッケージまたはシステムオンチップデバイス622中に含まれる。特定の態様では、タッチスクリーンおよび/またはキーパッドなどの入力デバイス630、ならびに電源644が、システムオンチップデバイス622に結合される。さらに、特定の態様では、図6に示すように、ディスプレイ628、入力デバイス630、スピーカ648、マイクロフォン646、アンテナ642、および電源644は、システムオンチップデバイス622の外部に存在する。しかしながら、ディスプレイ628、入力デバイス630、スピーカ648、マイクロフォン646、アンテナ642、および電源644の各々は、インターフェースまたはコントローラなど、システムオンチップデバイス622の構成要素に結合され得る。例示的な態様では、デバイス600は、モバイル通信デバイス、スマートフォン、セルラーフォン、ラップトップコンピュータ、コンピュータ、タブレットコンピュータ、携帯情報端末、ディスプレイデバイス、テレビ、ゲーム機、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、光ディスクプレーヤ、チューナー、カメラ、ナビゲーションデバイス、デコーダシステム、エンコーダシステム、またはそれらの任意の組合せに対応する。
[00113]例示的な態様では、プロセッサ610は、説明した技法に従って信号の符号化および復号演算を実行するように動作可能となり得る。たとえば、マイクロフォン646は、オーディオ信号を捕捉し得る。ADC604は、捕捉されたオーディオ信号を、アナログ波形から、デジタルオーディオサンプルを含むデジタル波形に変換し得る。プロセッサ610は、デジタルオーディオサンプルを処理し得る。エコーキャンセラ612は、スピーカ648の出力がマイクロフォン646に入ることによって作成されていることがあるエコーを低減し得る。
[00114]ボコーダエンコーダ636は、処理されたスピーチ信号に対応するデジタルオーディオサンプルを圧縮し得、送信パケット(たとえば、デジタルオーディオサンプルの圧縮されたビットの表現)を形成し得る。たとえば、送信パケットは、図1のビットストリーム192の少なくとも一部分に対応し得る。送信パケットはメモリ632中に記憶され得る。トランシーバ650は、何らかの形態の送信パケットを変調し得(たとえば、他の情報が送信パケットに付加され得る)、アンテナ642を介して、変調されたデータを送信し得る。
[00115]さらなる例として、アンテナ642は、受信パケットを含む着信パケットを受信し得る。受信パケットは、ネットワークを介して別のデバイスによって送られ得る。たとえば、受信パケットは、図4のACELPコアデコーダ404において受信されたビットストリームの少なくとも一部分に対応し得る。ボコーダデコーダ638は、(たとえば、合成オーディオ信号473に対応する)再構成オーディオサンプルを生成するために、受信パケットを復元および復号し得る。エコーキャンセラ612は、再構成オーディオサンプルからエコーを除去し得る。DAC602は、ボコーダデコーダ638の出力をデジタル波形からアナログ波形に変換し得、その変換された波形を出力用のスピーカ648に与え得る。
[00116]さらに、本明細書で開示した態様に関して説明した様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、ハードウェアプロセッサなどの処理デバイスによって実行されるコンピュータソフトウェア、または両方の組合せとして実装され得ることが、当業者に諒解されよう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップを、上記では概して、それらの機能に関して説明した。そのような機能をハードウェアとして実装するか、実行可能ソフトウェアとして実装するかは、特定の適用例および全体的なシステムに課される設計制約に依存する。当業者は、説明した機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装の決定は、本開示の範囲からの逸脱を生じさせるものと解釈されるべきではない。
[00117]本明細書で開示した態様に関して説明した方法またはアルゴリズムのステップは、直接ハードウェアで具現化され得るか、プロセッサによって実行されるソフトウェアモジュールで具現化され得るか、またはその2つの組合せで具現化され得る。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、磁気抵抗ランダムアクセスメモリ(MRAM)、スピントルクトランスファーMRAM(STT−MRAM)、フラッシュメモリ、読取り専用メモリ(ROM)、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、またはコンパクトディスク読取り専用メモリ(CD−ROM)などのメモリデバイス中に存在し得る。例示のメモリデバイスは、プロセッサがメモリデバイスから情報を読み取り、メモリデバイスに情報を書き込むことができるようにプロセッサに結合される。代替として、メモリデバイスはプロセッサに一体化され得る。プロセッサおよび記憶媒体は特定用途向け集積回路(ASIC)中に存在し得る。ASICは、コンピューティングデバイスまたはユーザ端末中に存在し得る。代替として、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末中に個別構成要素として存在し得る。
[00118]開示する態様の以上の説明は、開示する態様を当業者が製作または使用することを可能にするために与えられる。これらの態様への様々な変更は当業者には容易に明らかになり、本明細書で定義された原理は、本開示の範囲から逸脱することなく他の態様に適用され得る。したがって、本開示は、本明細書に示された態様に限定されるものではなく、以下の特許請求の範囲によって定義される原理および新規の特徴に一致する可能な最も広い範囲を与えられるべきである。
以下に本願発明の当初の特許請求の範囲に記載された発明を付記する。
[C1]
エンコーダにおいて、オーディオ信号のハイバンド部分の上位周波数範囲の信号特性がしきい値を満たすかどうかを決定することと、
前記ハイバンド部分に対応するハイバンド励起信号を生成することと、
前記ハイバンド励起信号に基づいて合成ハイバンド部分を生成することと、
前記ハイバンド部分に対する前記合成ハイバンド部分の比較に基づいて時間利得パラメータの値を決定することと、
前記しきい値を満たす前記信号特性に応答して、前記時間利得パラメータの前記値を調整することと、ここにおいて、前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの変動性を制御する、
を備える方法。
[C2]
前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの前記変動性を制限する、C1に記載の方法。
[C3]
分析フィルタバンクの出力に対応するエネルギー値の和を決定することと、
前記信号特性を決定するために前記和に対して平均化演算を実行することと
をさらに備える、C1に記載の方法。
[C4]
ベースバンドにおいて前記オーディオ信号の前記ハイバンド部分を処理するために前記オーディオ信号に対してスペクトル反転演算を実行することによって前記オーディオ信号のスペクトル的に反転されたバージョンを生成することと、
前記オーディオ信号の前記スペクトル的に反転されたバージョンに基づいてエネルギー値の前記和を計算することと、エネルギー値の前記和が、前記オーディオ信号の前記ハイバンド部分の前記上位周波数範囲に対応する、
をさらに備える、C3に記載の方法。
[C5]
前記オーディオ信号の前記ハイバンド部分の前記上位周波数範囲が、前記オーディオ信号の前記スペクトル的に反転されたバージョンの下位周波数範囲に対応する、C4に記載の方法。
[C6]
前記エネルギー値がログドメイン中にある、C3に記載の方法。
[C7]
前記分析フィルタバンクが、直交ミラーフィルタ(QMF)分析フィルタバンクを備える、C3に記載の方法。
[C8]
前記分析フィルタバンクが、複素低遅延フィルタバンクを備える、C3に記載の方法。
[C9]
前記ハイバンド励起信号が、前記オーディオ信号のローバンド部分の調和拡張に基づいて生成される、C1に記載の方法。
[C10]
スペクトル的に反転された信号を生成するために前記オーディオ信号の前記ローバンド部分の前記調和拡張に対してスペクトル反転演算を実行することをさらに備える、C9に記載の方法。
[C11]
バンドパスフィルタ処理された信号を生成するために前記スペクトル的に反転された信号に対してバンドパスフィルタ演算を実行することと、
ベースバンドにおいてダウンミックスされた信号を生成するために前記バンドパスフィルタ処理された信号に対してダウンミキシング演算を実行することと
をさらに備える、C10に記載の方法。
[C12]
ローパスフィルタ処理された信号を生成するために前記スペクトル的に反転された信号に対してローパスフィルタ演算を実行することをさらに備える、C10に記載の方法。
[C13]
前記信号特性が、前記ハイバンド部分の前記上位周波数範囲の信号エネルギーに対応する、C1に記載の方法。
[C14]
前記ハイバンド部分の前記上位周波数範囲が、12キロヘルツ(kHz)と16kHzとの間の周波数範囲を含む、C1に記載の方法。
[C15]
前記信号特性が、受信信号のスペクトル的に反転されたバージョンに基づいて決定される、C1に記載の方法。
[C16]
前記信号特性が、平均ハイバンド信号フロアに対応する、C15に記載の方法。
[C17]
前記しきい値を満たす前記信号特性が、前記ハイバンド部分中に制限されたコンテンツを有する前記オーディオ信号を示す、C1に記載の方法。
[C18]
前記時間利得パラメータが、利得形状パラメータを備える、C1に記載の方法。
[C19]
前記オーディオ信号の複数のサブフレームの各々のための前記利得形状パラメータの値を決定することをさらに備える、C18に記載の方法。
[C20]
前記利得形状パラメータの前記値を調整することが、正規化定数と前記利得形状パラメータの第1の値の特定の割合との和に基づいて前記利得形状パラメータの第2の値を計算することを備える、C18に記載の方法。
[C21]
前記特定の割合が10パーセントである、C20に記載の方法。
[C22]
複数の出力を生成するためにオーディオ信号の少なくとも一部分をフィルタ処理するように構成された前処理モジュールと、
前記オーディオ信号のハイバンド部分の上位周波数範囲の信号特性を決定するように構成された第1のフィルタと、
前記ハイバンド部分に対応するハイバンド励起信号を生成するように構成されたハイバンド励起発生器と、
前記ハイバンド励起信号に基づいて合成ハイバンド部分を生成するように構成された第2のフィルタと、
前記ハイバンド部分に対する前記合成ハイバンド部分の比較に基づいて時間利得パラメータの値を決定することと、
しきい値を満たす前記信号特性に応答して、前記時間利得パラメータの前記値を調整することと、ここにおいて、前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの変動性を制御する、
を行うように構成された時間エンベロープ推定器と
を備える装置。
[C23]
前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの前記変動性を制限する、C22に記載の装置。
[C24]
前記前処理モジュールが、前記オーディオ信号の少なくとも前記一部分をフィルタ処理するように構成された分析フィルタバンクを備える、C22に記載の装置。
[C25]
前記分析フィルタバンクが、直交ミラーフィルタ(QMF)分析フィルタバンクを備える、C24に記載の装置。
[C26]
前記分析フィルタバンクが、複素低遅延フィルタバンクを備える、C24に記載の装置。
[C27]
前記前処理モジュールが、
前記分析フィルタバンクの出力に対応するエネルギー値の和を決定することと、
前記信号特性を決定するために前記和に対して平均化演算を実行することと
を行うように構成された、C24に記載の装置。
[C28]
前記前処理モジュールが、受信されたオーディオ信号をスペクトル的に反転するように構成されたスペクトルフリッパを備える、C22に記載の装置。
[C29]
前記時間利得パラメータが、利得形状パラメータを備える、ここにおいて、前記時間エンベロープ推定器が、正規化定数と前記利得形状パラメータの第1の値の特定の割合との和に基づいて前記利得形状パラメータの第2の値を計算することによって前記利得形状パラメータの前記値を調整するように構成された、C22に記載の装置。
[C30]
プロセッサによって実行されたとき、前記プロセッサに、
オーディオ信号のハイバンド部分の上位周波数範囲の信号特性がしきい値を満たすかどうかを決定することと、
前記ハイバンド部分に対応するハイバンド励起信号を生成することと、
前記ハイバンド励起信号に基づいて合成ハイバンド部分を生成することと、
前記ハイバンド部分に対する前記合成ハイバンド部分の比較に基づいて時間利得パラメータの値を決定することと、
前記しきい値を満たす前記信号特性に応答して、前記時間利得パラメータの前記値を調整することと、ここにおいて、前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの変動性を制御する、
を備える演算を実行させる命令を備える非一時的プロセッサ可読媒体。
[C31]
前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの前記変動性を制限する、C30に記載の非一時的プロセッサ可読媒体。
[C32]
前記演算が、
分析フィルタバンクの出力に対応するエネルギー値の和を決定することと、
前記信号特性を決定するために前記和に対して平均化演算を実行することと
をさらに備える、C30に記載の非一時的プロセッサ可読媒体。
[C33]
前記演算が、
ベースバンドにおいて前記オーディオ信号の前記ハイバンド部分を処理するために前記オーディオ信号に対してスペクトル反転演算を実行することによって前記オーディオ信号のスペクトル的に反転されたバージョンを生成することと、
前記オーディオ信号の前記スペクトル的に反転されたバージョンに基づいてエネルギー値の前記和を計算することと、エネルギー値の前記和が、前記オーディオ信号の前記ハイバンド部分の前記上位周波数範囲に対応する、
をさらに備える、C32に記載の非一時的プロセッサ可読媒体。
[C34]
前記信号特性が、前記上位周波数範囲中のオーディオコンテンツの量を示す、C30に記載の非一時的プロセッサ可読媒体。
[C35]
複数の出力を生成するためにオーディオ信号の少なくとも一部分をフィルタ処理するための手段と、
前記複数の出力に基づいて、前記オーディオ信号のハイバンド部分の上位周波数範囲の信号特性がしきい値を満たすかどうかを決定するための手段と、
前記ハイバンド部分に対応するハイバンド励起信号を生成するための手段と、
前記ハイバンド励起信号に基づいて合成ハイバンド部分を生成するための手段と、
前記ハイバンド部分の時間エンベロープを推定するための手段と、ここにおいて、推定するための前記手段が、
前記ハイバンド部分に対する前記合成ハイバンド部分の比較に基づいて時間利得パラメータの値を決定することと、
前記しきい値を満たす前記信号特性に応答して、前記時間利得パラメータの前記値を調整することと、ここにおいて、前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの変動性を制御する、
を行うように構成された、
を備える装置。
[C36]
前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの前記変動性を制限する、C35に記載の装置。
[C37]
前記信号特性が、前記ハイバンド部分の前記上位周波数範囲の信号エネルギーに対応する、C35に記載の装置。
[C38]
前記ハイバンド部分の前記上位周波数範囲が、12キロヘルツ(kHz)と16kHzとの間の周波数範囲を含む、C35に記載の装置。

Claims (38)

  1. オーディオエンコーダにおいて、オーディオ信号のスペクトル的に反転されたバージョンに基づいてエネルギー値の和を計算することと、エネルギー値の前記和が、前記オーディオ信号のハイバンド部分の上位周波数範囲に対応する
    オーディオエンコーダにおいて、前記ハイバンド部分の前記上位周波数範囲の信号特性がしきい値を満たすかどうかを決定することと、
    前記ハイバンド部分に対応するハイバンド励起信号を生成することと、
    前記ハイバンド励起信号に基づいて合成ハイバンド部分を生成することと、
    前記ハイバンド部分に対する前記合成ハイバンド部分の比較に基づいて時間利得パラメータの値を決定することと、
    前記しきい値を満たす前記信号特性に応答して、前記時間利得パラメータの前記値を調整することと、ここにおいて、前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの変動性を制御する、
    前記オーディオエンコーダから受信機へのビットストリームの一部として前記時間利得パラメータを送信することと
    を備える方法。
  2. 前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの前記変動性を制限する、請求項1に記載の方法。
  3. 前記エネルギー値が分析フィルタバンクの出力に対応し、前記信号特性を決定するためにエネルギー値の前記和に基づいて平均化演算を実することをさらに備える、請求項1に記載の方法。
  4. 前記計算することと、前記信号特性が前記しきい値を満たすかどうかを前記決定することと、前記ハイバンド励起信号を前記生成することと、前記合成ハイバンド部分を前記生成することと、前記値を前記決定することと、前記値を前記調整することとが、モバイル通信デバイスを備えるデバイス内で実行される、請求項1に記載の方法。
  5. 前記オーディオ信号の前記ハイバンド部分の前記上位周波数範囲が、前記オーディオ信号の前記スペクトル的に反転されたバージョンの下位周波数範囲に対応し、前記エネルギー値がログドメイン中にあり、前記エネルギー値が、直交ミラーフィルタ(QMF)分析フィルタバンク、複素低遅延フィルタバンク、または変換分析フィルタバンクの出力に対応する、請求項1に記載の方法。
  6. 前記計算することと、前記信号特性が前記しきい値を満たすかどうかを前記決定することと、前記ハイバンド励起信号を前記生成することと、前記合成ハイバンド部分を前記生成することと、前記値を前記決定することと、前記値を前記調整することとが、固定ロケーション通信デバイスを備えるデバイス内で実行される、請求項1に記載の方法。
  7. 前記ハイバンド励起信号が、前記オーディオ信号のローバンド部分の調和拡張に基づいて生成される、請求項1に記載の方法。
  8. バンドパスフィルタ処理された信号を生成するために前記オーディオ信号の前記スペクトル的に反転されたバージョンに対してバンドパスフィルタ演算を実行することと、
    ベースバンドにおいてダウンミックスされた信号を生成するために前記バンドパスフィルタ処理された信号に対してダウンミキシング演算を実行することと
    をさらに備える、請求項に記載の方法。
  9. ローパスフィルタ処理された信号を生成するために前記オーディオ信号の前記スペクトル的に反転されたバージョンに対してローパスフィルタ演算を実行することをさらに備える、請求項に記載の方法。
  10. 前記信号特性が、前記ハイバンド部分の前記上位周波数範囲の信号エネルギーに対応する、請求項1に記載の方法。
  11. 前記ハイバンド部分の前記上位周波数範囲が、12キロヘルツ(kHz)と16kHzとの間の周波数範囲を含む、請求項1に記載の方法。
  12. 前記信号特性が、前記オーディオ信号の前記スペクトル的に反転されたバージョンに基づいて決定される、請求項1に記載の方法。
  13. 前記信号特性が、平均ハイバンド信号フロアに対応する、請求項12に記載の方法。
  14. 前記しきい値を満たす前記信号特性が、前記ハイバンド部分中に制限されたコンテンツを有する前記オーディオ信号を示す、請求項1に記載の方法。
  15. 前記時間利得パラメータが、利得形状パラメータを含む、請求項1に記載の方法。
  16. 前記オーディオ信号の複数のサブフレームの各々のための前記利得形状パラメータの値を決定することをさらに備える、請求項15に記載の方法。
  17. 前記利得形状パラメータの前記値を調整することが、正規化定数と前記利得形状パラメータの第1の値の特定の割合との和に基づいて前記利得形状パラメータの第2の値を計算することを備える、請求項15に記載の方法。
  18. 前記利得形状パラメータの前記値を調整することが、正規化定数と前記利得形状パラメータの第1の値の10パーセントとの和に基づいて前記利得形状パラメータの第2の値を計算することを含む、請求項15に記載の方法。
  19. オーディオエンコーダの前処理モジュールと、前記前処理モジュールが、オーディオ信号の少なくとも一部分をフィルタ処理することと、前記オーディオ信号のスペクトル的に反転されたバージョンに基づいてエネルギー値の和を計算することとを行うように構成され、エネルギー値の前記和が、前記オーディオ信号のハイバンド部分の上位周波数範囲に対応する、
    前記ハイバンド部分の前記上位周波数範囲の信号特性を決定するように構成された第1のフィルタと、
    前記ハイバンド部分に対応するハイバンド励起信号を生成するように構成されたハイバンド励起発生器と、
    前記ハイバンド励起信号に基づいて合成ハイバンド部分を生成するように構成された第2のフィルタと、
    前記ハイバンド部分に対する前記合成ハイバンド部分の比較に基づいて時間利得パラメータの値を決定することと、
    しきい値を満たす前記信号特性に応答して、前記時間利得パラメータの前記値を調整することと、ここにおいて、前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの変動性を制御する、
    を行うように構成された時間エンベロープ推定器と
    受信機へのビットストリームの一部として前記時間利得パラメータを送信するように構成された送信機と
    を備える装置。
  20. アンテナと、
    前記アンテナに結合され、前記オーディオ信号を受信するように構成された受信機と
    をさらに備える、請求項19に記載の装置。
  21. 前記前処理モジュール、前記第1のフィルタ、前記ハイバンド励起発生器、前記第2のフィルタ、前記時間エンベロープ推定器、前記アンテナ、および前記受信機が、モバイル通信デバイスに統合される、請求項20に記載の装置。
  22. 前記前処理モジュール、前記第1のフィルタ、前記ハイバンド励起発生器、前記第2のフィルタ、前記時間エンベロープ推定器、前記アンテナ、および前記受信機が、固定ロケーション通信デバイスに統合される、請求項20に記載の装置。
  23. 前記時間エンベロープ推定器が、前記時間利得パラメータの前記変動性を制限するために前記時間利得パラメータの前記値を調整するように構成された、請求項19に記載の装置。
  24. 前記前処理モジュールが、前記オーディオ信号の少なくとも前記一部分をフィルタ処理するように構成された分析フィルタバンクを備える、請求項19に記載の装置。
  25. 前記分析フィルタバンクが、直交ミラーフィルタ(QMF)分析フィルタバンクを備える、請求項24に記載の装置。
  26. 前記分析フィルタバンクが、複素低遅延フィルタバンクを備える、請求項24に記載の装置。
  27. エネルギー値の前記和が、前記分析フィルタバンクの出力に対応し、記前処理モジュール前記信号特性を決定するためにエネルギー値の前記和に基づいて平均化演算を実行するようにさらに構成された、請求項24に記載の装置。
  28. 前記前処理モジュールが、前記オーディオ信号の前記スペクトル的に反転されたバージョンを生成するように構成されたスペクトルフリッパを備える、請求項19に記載の装置。
  29. 前記時間利得パラメータが、利得形状パラメータを備え、前記時間エンベロープ推定器が、正規化定数と前記利得形状パラメータの第1の値の特定の割合との和に基づいて前記利得形状パラメータの第2の値を計算することによって前記利得形状パラメータの前記値を調整するようにさらに構成された、請求項19に記載の装置。
  30. オーディオエンコーダにおいてプロセッサによって実行されたとき、前記プロセッサに、
    オーディオ信号のスペクトル的に反転されたバージョンに基づいてエネルギー値の和を計算することと、エネルギー値の前記和が、前記オーディオ信号のハイバンド部分の上位周波数範囲に対応する
    ハイバンド部分の前記上位周波数範囲の信号特性がしきい値を満たすかどうかを決定することと、
    前記ハイバンド部分に対応するハイバンド励起信号を生成することと、
    前記ハイバンド励起信号に基づいて合成ハイバンド部分を生成することと、
    前記ハイバンド部分に対する前記合成ハイバンド部分の比較に基づいて時間利得パラメータの値を決定することと、
    前記しきい値を満たす前記信号特性に応答して、前記時間利得パラメータの前記値を調整することと、ここにおいて、前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの変動性を制御する、
    前記オーディオエンコーダから受信機に送られるべきビットストリームの一部として前記時間利得パラメータの送信を開始することと
    を備える演算を実行させる命令を備える非一時的プロセッサ可読媒体。
  31. 前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの前記変動性を制限する、請求項30に記載の非一時的プロセッサ可読媒体。
  32. エネルギー値の前記和が、分析フィルタバンクの出力に対応し、前記演算が、前記信号特性を決定するためにエネルギー値の前記和に基づいて平均化演算を実行することをさらに備える、請求項30に記載の非一時的プロセッサ可読媒体。
  33. 前記エネルギー値が、直交ミラーフィルタ(QMF)分析フィルタバンク、複素低遅延フィルタバンク、または変換分析フィルタバンクの出力に対応する、請求項30に記載の非一時的プロセッサ可読媒体。
  34. 前記信号特性が、前記上位周波数範囲中のオーディオコンテンツの量を示す、請求項30に記載の非一時的プロセッサ可読媒体。
  35. オーディオエンコーダにおいてオーディオ信号の少なくとも一部分をフィルタ処理するための手段と、ここにおいて、フィルタ処理するための前記手段が、前記オーディオ信号のスペクトル的に反転されたバージョンに基づいてエネルギー値の和を計算することと、エネルギー値の前記和が、前記オーディオ信号のハイバンド部分の上位周波数範囲に対応し、複数の出力を生成することとを行うように構成された
    前記複数の出力に基づいて、前記ハイバンド部分の前記上位周波数範囲の信号特性がしきい値を満たすかどうかを決定するための手段と、
    前記ハイバンド部分に対応するハイバンド励起信号を生成するための手段と、
    前記ハイバンド励起信号に基づいて合成ハイバンド部分を生成するための手段と、
    前記ハイバンド部分の時間エンベロープを推定するための手段と、ここにおいて、推定するための前記手段が、
    前記ハイバンド部分に対する前記合成ハイバンド部分の比較に基づいて時間利得パラメータの値を決定することと、
    前記しきい値を満たす前記信号特性に応答して、前記時間利得パラメータの前記値を調整することと、ここにおいて、前記時間利得パラメータの前記値を調整することが、前記時間利得パラメータの変動性を制御する、
    を行うように構成された、
    前記オーディオエンコーダから受信機へのビットストリームの一部として前記時間利得パラメータを送信するための手段と
    を備える装置。
  36. フィルタ処理するための前記手段、決定するための前記手段、前記ハイバンド励起信号を生成するための前記手段、前記合成ハイバンド部分を生成するための前記手段、および推定するための前記手段が、モバイル通信デバイスに統合される、請求項35に記載の装置。
  37. フィルタ処理するための前記手段、決定するための前記手段、前記ハイバンド励起信号を生成するための前記手段、前記合成ハイバンド部分を生成するための前記手段、および推定するための前記手段が、固定ロケーション通信デバイスに統合される、請求項35に記載の装置。
  38. 前記ハイバンド部分の前記上位周波数範囲が、12キロヘルツ(kHz)と16kHzとの間の周波数範囲を含み、前記信号特性が、前記ハイバンド部分の前記上位周波数範囲の信号エネルギーと対応し、推定するための前記手段が、前記時間利得パラメータの前記変動性を制限するために前記時間利得パラメータの前記値を調整するように構成された、請求項35に記載の装置。
JP2016575153A 2014-06-26 2015-06-05 ハイバンド信号特性に基づいた時間利得調整 Active JP6196004B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462017790P 2014-06-26 2014-06-26
US62/017,790 2014-06-26
US14/731,198 US9583115B2 (en) 2014-06-26 2015-06-04 Temporal gain adjustment based on high-band signal characteristic
US14/731,198 2015-06-04
PCT/US2015/034535 WO2015199954A1 (en) 2014-06-26 2015-06-05 Temporal gain adjustment based on high-band signal characteristic

Publications (2)

Publication Number Publication Date
JP2017523460A JP2017523460A (ja) 2017-08-17
JP6196004B2 true JP6196004B2 (ja) 2017-09-13

Family

ID=54931208

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016575205A Active JP6312868B2 (ja) 2014-06-26 2015-06-05 ハイバンド信号特性に基づいた時間利得調整
JP2016575153A Active JP6196004B2 (ja) 2014-06-26 2015-06-05 ハイバンド信号特性に基づいた時間利得調整

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016575205A Active JP6312868B2 (ja) 2014-06-26 2015-06-05 ハイバンド信号特性に基づいた時間利得調整

Country Status (12)

Country Link
US (2) US9583115B2 (ja)
EP (2) EP3161823B1 (ja)
JP (2) JP6312868B2 (ja)
KR (2) KR101849871B1 (ja)
CN (2) CN106663440B (ja)
AR (2) AR100848A1 (ja)
BR (1) BR112016030384B1 (ja)
CA (2) CA2952006C (ja)
ES (2) ES2690251T3 (ja)
HU (2) HUE039281T2 (ja)
TW (2) TWI598873B (ja)
WO (2) WO2015199955A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
US9583115B2 (en) * 2014-06-26 2017-02-28 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
US10109284B2 (en) * 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
US10553222B2 (en) * 2017-03-09 2020-02-04 Qualcomm Incorporated Inter-channel bandwidth extension spectral mapping and adjustment
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
US11315584B2 (en) * 2017-12-19 2022-04-26 Dolby International Ab Methods and apparatus for unified speech and audio decoding QMF based harmonic transposer improvements
US11425258B2 (en) * 2020-01-06 2022-08-23 Waves Audio Ltd. Audio conferencing in a room
CN113820067B (zh) * 2021-11-22 2022-02-18 北京理工大学 强冲击传感器下阶跃响应动态特性计算方法及发生装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4301329A (en) 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
JP2625998B2 (ja) 1988-12-09 1997-07-02 沖電気工業株式会社 特徴抽出方式
IT1257065B (it) 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
FR2742568B1 (fr) * 1995-12-15 1998-02-13 Catherine Quinquis Procede d'analyse par prediction lineaire d'un signal audiofrequence, et procedes de codage et de decodage d'un signal audiofrequence en comportant application
GB2318029B (en) * 1996-10-01 2000-11-08 Nokia Mobile Phones Ltd Audio coding method and apparatus
US6636829B1 (en) 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US20050004793A1 (en) 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
US7146309B1 (en) * 2003-09-02 2006-12-05 Mindspeed Technologies, Inc. Deriving seed values to generate excitation values in a speech coder
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
MX2007012187A (es) * 2005-04-01 2007-12-11 Qualcomm Inc Sistemas, metodos y aparatos para deformacion en tiempo de banda alta.
DE602006004959D1 (de) * 2005-04-15 2009-03-12 Dolby Sweden Ab Zeitliche hüllkurvenformgebung von entkorrelierten signalen
TWI324336B (en) * 2005-04-22 2010-05-01 Qualcomm Inc Method of signal processing and apparatus for gain factor smoothing
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
KR101393298B1 (ko) 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
PT2165328T (pt) 2007-06-11 2018-04-24 Fraunhofer Ges Forschung Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
JP5441577B2 (ja) * 2009-09-11 2014-03-12 三菱電機株式会社 冷蔵庫
FR2961937A1 (fr) 2010-06-29 2011-12-30 France Telecom Codage/decodage predictif lineaire adaptatif
JP2012144128A (ja) * 2011-01-11 2012-08-02 Toyota Motor Corp 燃料タンクの給油部構造
US8811601B2 (en) * 2011-04-04 2014-08-19 Qualcomm Incorporated Integrated echo cancellation and noise suppression
US9583115B2 (en) * 2014-06-26 2017-02-28 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic

Also Published As

Publication number Publication date
CA2952006C (en) 2019-05-21
CA2952214C (en) 2020-06-16
EP3161823B1 (en) 2018-07-18
KR20170023007A (ko) 2017-03-02
US20150380006A1 (en) 2015-12-31
JP2017523460A (ja) 2017-08-17
JP2017524980A (ja) 2017-08-31
WO2015199954A1 (en) 2015-12-30
CN106463136A (zh) 2017-02-22
EP3161825A1 (en) 2017-05-03
BR112016030384B1 (pt) 2023-04-04
CN106663440B (zh) 2018-05-08
US9626983B2 (en) 2017-04-18
CN106663440A (zh) 2017-05-10
ES2690251T3 (es) 2018-11-20
EP3161825B1 (en) 2018-07-18
HUE039281T2 (hu) 2018-12-28
TW201606758A (zh) 2016-02-16
US20150380007A1 (en) 2015-12-31
KR101849871B1 (ko) 2018-04-17
JP6312868B2 (ja) 2018-04-18
US9583115B2 (en) 2017-02-28
HUE039698T2 (hu) 2019-01-28
TW201604865A (zh) 2016-02-01
AR100848A1 (es) 2016-11-02
EP3161823A1 (en) 2017-05-03
KR101809866B1 (ko) 2017-12-15
TWI598873B (zh) 2017-09-11
CA2952214A1 (en) 2015-12-30
WO2015199955A1 (en) 2015-12-30
AR100847A1 (es) 2016-11-02
CN106463136B (zh) 2018-05-08
KR20170023851A (ko) 2017-03-06
ES2690252T3 (es) 2018-11-20
CA2952006A1 (en) 2015-12-30
BR112016030384A2 (ja) 2017-08-22

Similar Documents

Publication Publication Date Title
JP6196004B2 (ja) ハイバンド信号特性に基づいた時間利得調整
US10297263B2 (en) High band excitation signal generation
JP6513718B2 (ja) 不一致周波数範囲を使用するハイバンド信号をエンコーディングする方法、エンコーダを備えた装置、エンコーダに実行させる命令を備えたコンピュータ可読記憶媒体、不一致周波数範囲を使用するハイバンド信号をデコーディングする方法、デコーダ、ハイバンド信号を生成する装置、デコーダに実行させる命令を備えたコンピュータ可読記憶媒体
KR20180041131A (ko) 고대역 타겟 신호 제어
JP6396538B2 (ja) 複数のサブバンドを使用するハイバンド信号コーディング
JP2017511503A (ja) デバイスにおいてコーディング技術を切り替える装置および方法

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170816

R150 Certificate of patent or registration of utility model

Ref document number: 6196004

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250