JP2017517029A - 高帯域励起信号生成 - Google Patents

高帯域励起信号生成 Download PDF

Info

Publication number
JP2017517029A
JP2017517029A JP2016565290A JP2016565290A JP2017517029A JP 2017517029 A JP2017517029 A JP 2017517029A JP 2016565290 A JP2016565290 A JP 2016565290A JP 2016565290 A JP2016565290 A JP 2016565290A JP 2017517029 A JP2017517029 A JP 2017517029A
Authority
JP
Japan
Prior art keywords
signal
envelope
input signal
band
white noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016565290A
Other languages
English (en)
Other versions
JP2017517029A5 (ja
JP6599362B2 (ja
Inventor
ラマダス、プラビン・クマー
シンダー、ダニエル・ジェイ.
ビレット、ステファン・ピエール
ラジェンドラン、ビベク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2017517029A publication Critical patent/JP2017517029A/ja
Publication of JP2017517029A5 publication Critical patent/JP2017517029A5/ja
Application granted granted Critical
Publication of JP6599362B2 publication Critical patent/JP6599362B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Amplifiers (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Telephone Function (AREA)
  • Circuits Of Receivers In General (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Noise Elimination (AREA)

Abstract

特定の方法が、デバイスで入力信号の発声分類を決定することを含む。入力信号は、オーディオ信号に対応する。方法はまた、発声分類に基づいて、入力信号の表現の包絡の量を制御することを含む。方法はさらに、制御された量の包絡に基づいて、ホワイトノイズ信号を変調することを含む。方法はまた、変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成することを含む。【選択図】 図1

Description

優先権の主張
[0001]本出願は、「HIGH BAND EXCITATION SIGNAL GENERATION」という題名の、2014年4月30日付で出願された米国出願第14/265,693号基づく優先権を主張し、その内容は、全体として参照により組み込まれている。
[0002]本開示は概して、高帯域励起信号生成に関する。
関連出願の説明
[0003]技術の進歩は結果として、より小型で、より強力なコンピューティングデバイスをもたらしてきた。例えば、小型で軽量であり、ユーザにより容易に持ち運ばれる、ポータブルワイヤレス電話、携帯情報端末(PDA)、ページングデバイスのような、ワイヤレスコンピューティングデバイスを含む、様々なポータブルパーソナルコンピューティングデバイスが現在存在している。より具体的には、セルラ電話およびインターネットプロトコル(IP)電話のようなポータブルワイヤレス電話は、ワイヤレスネットワークをわたってボイスおよびデータパケットを通信することができる。さらに、多くのこのようなワイヤレス電話は、そこに組み込まれる他のタイプのデバイスを含む。例えば、ワイヤレス電話はまた、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレイヤも含むことができる。
[0004]デジタル技法によるボイスの送信は、特に長距離およびデジタル無線電話アプリケーションにおいて普及している。発話(speech)がサンプリングおよびデジタル化によって送信される場合、毎秒64キロビット(kbps)のオーダであるデータレートが、アナログ電話の発話品質を実現するために使用されうる。圧縮技法は、再構築された発話の感知された品質を保ちながらチャネルをわたって送られる情報の量を低減するために使用されうる。コーディング、送信、および受信機における再合成が後に続く発話分析の使用を通じて、データレートの大幅な低減が実現されうる。
[0005]発話を圧縮するためのデバイスは、テレコミュニケーションの多くのフィールドにおける使用を見出すことができる。例えば、ワイヤレス通信は、例えば、コードレス電話、ページング、ワイヤレスローカルループ、セルラおよび個人通信サービス(PCS)電話システムのようなワイヤレス電話方式(telephony)、モバイルインターネットプロトコル(IP)電話方式、および衛星通信システム、を含む多くのアプリケーションを有する。特定のアプリケーションは、モバイル加入者のためのワイヤレス電話方式である。
[0006]様々なオーバザエアインターフェースが、例えば、周波数分割多元接続(FDMA)、時分割多元接続(TDMA)、符号分割多元接続(CDMA)、および時分割同期CDMA(TD−SCDMA)、を含むワイヤレス通信システムのために展開されてきた。それと関係して、例えば、アドバンスドモバイル電話サービス(AMPS)、モバイル通信のためのグローバルシステム(GSM(登録商標))、およびInterim Standard95(IS−95)を含む、様々な国内および国際的規格が確立されてきた。実例的なワイヤレス電話方式通信システムは、符号分割多元接続(CDMA)システムである。IS−95規格およびその派生物、IS−95A、ANSI J−STD−008、およびIS−95B(本明細書では総称してIS−95と称される)は、セルラまたはPCS電話方式通信システムに対するCDMAオーバザエアインターフェースの使用を指定するために米国電気通信工業会(TIA)および他の周知の標準化機関によって公表されている。
[0007]IS−95規格は続いて、より多くの容量と高スピードパケットデータサービスを提供する、cdma2000およびWCDMA(登録商標)のような「3G」システムに発展した。cdma2000の2つのバリエーションが、TIAによって発行された、ドキュメントIS−2000(cdma2000 1xRTT)およびIS−856(cdma2000 1xEV−DO)によって提示されている。cdma2000 1xRTT通信システムが153kbpsのピークデータレートを提供するのに対して、cdma2000 1xEV−DO通信システムは、38.4kbpsから2.4Mbpsに及ぶデータレートのセットを定義する。WCDMA規格は、3世代パートナーシッププロジェクト「3GPP(登録商標)」のドキュメント番号3G TS25.211、3G TS 25.212、3G TS25.213、および3G TS25.214において具体化されている。国際モバイルテレコミュニケーションアドバンスド(IMT−アドバンスド)仕様書は、「4G」規格を定める(set out)。IMT−アドバンスド仕様書は、4Gサービスのためのピークデータレートを、(例えば、電車および車からの)高モビリティ通信に関しては毎秒100メガビット(Mbit/s)に設定し、(例えば、歩行者および固定されたユーザからの)低モビリティ通信に関しては毎秒1ギガビット(Gbit/s)に設定する。
[0008]人間の発話生成のモデルに関するパラメータを抽出することによって発話を圧縮するための技法を用いるデバイスは、発話コーダと呼ばれる。発話コーダは、エンコーダおよびデコーダを備えることができる。エンコーダは、入ってくる(incoming)発話信号を、時間のブロック、すなわち分析フレームに分割する。時間単位の各セグメントの持続時間(または「フレーム」)(The duration of each segment in time (or “frame”))は、信号のスペクトル包絡が比較的固定した状態で留まっていると予期されうるほど十分短くなるように選択されうる。例えば、フレーム長は、20ミリ秒で有り得、これは8キロヘルツ(kHz)のサンプリングレートで160サンプルに対応するが、特定のアプリケーションに適していると考えられるいずれのフレーム長またはサンプリングレートも使用されうる。
[0009]エンコーダは、ある特定の関連するパラメータを抽出するために入ってくる発話フレームを分析し、その後それらのパラメータを、バイナリ表現、例えばビットのセットまたはバイナリデータパケットに量子化する。データパケットは、受信機およびデコーダに、通信チャネル(すなわち、有線および/またはワイヤレスネットワーク接続)をわたって送信される。デコーダは、データパケットを処理し、それらのパラメータを作り出すために処理されたデータパケットを逆量子化し、逆量子化されたパラメータを使用して発話フレームを再合成する。
[0010]発話コーダの機能は、発話に本来備わっている自然の冗長を取り除くことによって、デジタル化された発話信号を、低ビットレート信号に圧縮することである。デジタル圧縮は、パラメータのセットで入力発話フレームを表現し、ビットのセットでパラメータを表現するために量子化を用いることによって実現されうる。入力発話フレームがビット数Nを有し、発話コーダによって作り出されたデータパケットがビット数Nを有する場合、発話コーダによって実現される圧縮係数はC=N/Nである。課題は、復号された発話の高ボイス品質を、ターゲット圧縮ファクタを実現しながら維持することである。発話コーダの性能は、(1)発話モデル、または上で説明された分析および合成プロセスの組み合わせがどれ程良好に機能するか、および(2)パラメータ量子化プロセスが、フレーム毎にNのターゲットビットレートでどれ程良好に実行されるか、に依存する。したがって発話モデルの目的は、フレーム毎にパラメータの小さなセットで、発話信号の骨子、すなわちターゲットボイス品質を捕捉することである。
[0011]発話コーダは一般に、発話信号を説明するために(ベクトルを含む)パラメータのセットを利用する。パラメータの良好なセットは、知覚的に正確な発話信号の再構築のために低システム帯域幅を理想的に提供する。ピッチ、信号電力、スペクトル包絡(またはフォルマント(formants))、振幅、位相スペクトルは、発話コーディングパラメータの例である。
[0012]発話コーダは時間ドメインコーダとして実装され得、これらは、一度に発話の小さなセグメント(例えば、5ミリ秒(ms)サブフレーム)を符号化するために高時間分解能処理を用いることによって、時間ドメイン発話波形を捕捉することを試みる。各サブフレームでは、コードブック空間から高精度の標本(representative)が探索アルゴリズムを用いて発見される。代わりとして、発話コーダは、周波数ドメインコーダとして実装され得、これらは、パラメータのセットを持つ入力発話フレームの短期発話スペクトルを捕捉し(分析)、スペクトルパラメータから発話波形を再現するために対応する合成プロセスを用いることを試みる。パラメータ量子化器は、既知の量子化技法にしたがってパラメータを、コードベクトルの記憶された表現でそれらを表現することによって維持する。
[0013]1つの時間ドメイン発話コーダは、コード励振線形予測(CELP)コーダである。CELPコーダでは、発話信号における短期相関、すなわち冗長は、短期フォルマントフィルタの係数を発見する、線形予測(LP)分析によって取り除かれる。入ってくる発話フレームに短期予測フィルタを適用することは、LP残差信号を生成し、これはさらに、長期予測フィルタパラメータおよび後続の確率コードブックでモデリングおよび量子化される。したがって、CELPコーディングは、時間ドメイン発話波形を符号化するタスクを、LP短期フィルタ係数を符号化することとLP残差を符号化することの別個のタスクに分割する。時間ドメインコーディングは、固定レートで(すなわち、各フレームに対して同じ数のビットNを使用して)、または(異なるビットレートが異なるタイプのフレームコンテンツに対して使用される)可変レートで、実行されうる。可変レートコーダは、ターゲット品質を取得するのに十分なレベルにパラメータを符号化するために必要なビットの量を使用することを試みる。
[0014]CELPコーダのような時間ドメインコーダは、時間ドメイン発話波形の精度を維持するために、フレーム毎の大きなビット数(a high number of bits)Nに依拠しうる。そのようなコーダは、フレーム毎のビット数Nが相対的に大きい(例えば、8kbps以上)ならば、極めて優れたボイス品質を送る(deliver)ことができる。低ビットレート(例えば、4kbp以下)では、時間ドメインコーダは、限定された利用可能なビット数に起因して、高品質およびロバスト性能を維持できないことがある。低ビットレートで、限定されたコードブック空間は、時間ドメインコーダの波形一致能力をクリップし、それはより高いレートの商業的アプリケーションに配置されている。したがって、低ビットレートで動作する多くのCELPコーディングシステムは、ノイズとして特徴付けられる知覚的に大幅な歪みを負う。
[0015]低ビットレートにおけるCELPコーダの代替は、「ノイズ励振線形予測」(NELP)コーダであり、これは、CELPコーダと同様の原理下で動作する。NELPコーダは、コードブックよりもむしろ発話をモデリングするために、フィルタリングされた疑似ランダムノイズ信号を使用する。NELPがコーディングされた発話のためにより簡素なモデルを使用するので、NELPはCELPよりも低いビットレートを実現する。NELPは、無声(unvoiced)発話または沈黙を圧縮または表現するために使用されうる。
[0016]2.4kbpsのオーダであるレートで動作するコーディングシステムは一般に、本質的にパラメトリックである。つまり、そのようなコーディングシステムは、定期的なインターバルで発話信号のスペクトル包絡(またはフォルマント)およびピッチ期間を説明するパラメータを送信することによって動作する。そのようなパラメトリックコーダを例示しているのは、LPボコーダである。
[0017]LPボコーダは、ピッチ期間毎に単一のパルスを持つ有声発話信号をモデリングする。この基本的な技法は、とりわけ、スペクトル包絡についての送信情報を含むように増強されうる。LPボコーダは、一般に適当な性能を提供するけれども、それらは、バズと特徴付けられる知覚的に大幅な歪みをもたらしうる。
[0018]ここ数年で、波形コーダとパラメトリックコーダの両方のハイブリッドであるコーダが出現してきた。これらのハイブリッドコーダを例示しているのは、プロトタイプ波形補間(PWI)発話コーディングシステムである。PWI発話コーディングシステムはまた、プロトタイプピッチ期間(PPP)発話コーダとしても知られている。PWI発話コーディングシステムは、有声発話をコーディングするための効率的な方法を提供する。PWIの基本概念は、固定インターバルで標本ピッチサイクル(プロトタイプ波形)を抽出し、その記述子を送信し、プロトタイプ波形間で補間することによって発話信号を再構築することである。PWI方法は、LP残差信号上または発話信号上のうちのどちらかで動作しうる。
[0019]従来の電話システム(例えば、公衆交換電話ネットワーク(PSTN))では、信号帯域幅が、300ヘルツ(Hz)から3.4キロヘルツ(kHz)の周波数範囲に限定される。セルラ電話方式およびボイスオーバインターネットプロトコル(VoIP)のような高帯域(WB)アプリケーションでは、信号帯域幅は、50Hzから7kHzまでの周波数範囲に広がりうる。超高帯域(SWB)コーディング技法は、おおよそ16kHzまで拡張する帯域幅をサポートする。信号帯域幅を3.4kHzにおける狭帯域電話方式から16kHzのSWB電話方式まで拡張することは、信号の再構築の品質、明瞭度、自然性を改善することができる。
[0020]高帯域コーディング技法は、信号のより低い周波数部分(例えば、50Hzから7kHz、「低帯域」とも呼ばれる)符号化および送信することを伴う。コーディング効率を改善するために、信号のより高い周波数部分(例えば、7kHzから16kHz、「高帯域」とも呼ばれる)が完全には符号化および送信されないことがある。低帯域信号の特質は、高帯域信号を生成するために使用されうる。例えば、高帯域励起信号は、非線形モデル(例えば、絶対値関数)を使用して低帯域残差に基づいて生成されうる。低帯域残差がパルスでスパース(sparsely)にコーディングされるとき、スパースコーディングされた残差から生成された高帯域励起信号は結果として、高帯域の無声領域においてアーチファクト(artifacts)をもたらしうる。
[0021]高帯域励起信号生成のためのシステムおよび方法が開示されている。オーディオデコーダは、送信デバイスでオーディオエンコーダによって符号化されたオーディオ信号を受信することができる。オーディオデコーダは、特定のオーディオ信号の発声分類(voicingnclassification)(例えば、強力な有声(strongly voiced)、微力な有声(weakly voiced)、微力な無声(weakly unvoiced)、強力な無声(strongly unvoiced))を決定することができる。例えば、特定のオーディオ信号は、強力な有声(例えば、発話信号)から強力な無声(例えば、ノイズ信号)までの範囲にわたる。オーディオデコーダは、発声分類に基づいて、入力信号の表現の包絡の量を制御することができる。
[0022]包絡の量を制御することは、包絡の特性(例えば、形状、周波数範囲、利得、および/または大きさ)を制御することを含むことができる。例えば、オーディオデコーダは、符号化されたオーディオ信号から低帯域励起信号を生成することができ、発声分類に基づいて、低帯域励起信号の包絡の形状を制御することができる。例えば、オーディオデコーダは、低帯域励起信号に適用されるフィルタのカットオフ周波数に基づいて、包絡の周波数範囲を制御することができる。別の例として、オーディオデコーダは、発声分類に基づいて線形予測コーディング(LPC)係数の1つ以上の極点(pole)を調節することによって、包絡の大きさ、包絡の形状、包絡の利得、またはそれらの組み合わせを制御することができる。さらなる例として、オーディオデコーダは、発声分類に基づいてフィルタの係数を調節することによって、包絡の大きさ、包絡の形状、エンベロッパの利得、またはそれらの組み合わせを制御することができ、ここでフィルタは、低帯域励起信号に適用される。
[0023]オーディオデコーダは、制御された量の包絡に基づいて、ホワイトノイズ信号を変調することができる。例えば、変調されたホワイトノイズ信号は、発声分類が強力な無声であるときよりも発声分類が強力な有声であるときの方が、低帯域励起信号により対応しうる。オーディオデコーダは、変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成することができる。例えば、オーディオデコーダは、低帯域励起信号を拡張することができ、高帯域励起信号を生成するために変調されたホワイトノイズ信号と拡張された低帯域信号とを組み合わせることができる。
[0024]特定の実施形態では、方法が、デバイスで入力信号の発声分類を決定することを含む。入力信号は、オーディオ信号に対応する。方法はまた、発声分類に基づいて、入力信号の表現の包絡の量を制御することを含む。方法はさらに、制御された量の包絡に基づいて、ホワイトノイズ信号を変調することを含む。方法は、変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成することを含む。
[0025]別の特定の実施形態では、装置が、発声分類器、包絡調節器、変調器、および出力回路を含む。発声分類器は、入力信号の発声分類を決定するように構成される。入力信号は、オーディオ信号に対応する。包絡調整器は、発声分類に基づいて、入力信号の表現の包絡の量を制御するように構成される。変調器は、制御された量の包絡に基づいて、ホワイトノイズ信号を変調するように構成される。出力回路は、変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成するように構成される。
[0026]別の特定の実施形態では、コンピュータ可読記憶デバイスは、少なくとも1つプロセッサによって実行されるとき、少なくとも1つのプロセッサに、入力信号の発声分類を決定させる命令を記憶する。命令はさらに、少なくとも1つのプロセッサによって実行されるとき、少なくとも1つのプロセッサに、発声分類に基づいて入力信号の表現の包絡の量を制御することと、制御された量の包絡に基づいてホワイトノイズ信号を変調することと、変調されたホワイトノイズ信号に基づいて高帯域励起信号を生成することと、を行わせる。
[0027]開示されている実施形態の少なくとも1つによって提供される特定の利点は、無声オーディオ信号に対応する平滑な(smooth)サウンディング合成されたオーディオ信号を生成することを含む。例えば、無声オーディオ信号に対応する合成されたオーディオ信号は、ほとんど(または全く)アーチファクトを有さないことがある。本開示の他の態様、利点、および特徴は、以下のセクション:図面の簡単な説明、詳細な説明、および特許請求の範囲を含む本願の検討(review)後に明らかとなるだろう。
高帯域励起信号生成を実行するように動作可能であるデバイスを含むシステムの特定の実施形態を例示するための図である。 高帯域励起信号生成を実行するように動作可能であるデコーダの特定の実施形態を例示するための図である。 高帯域励起信号生成を実行するように動作可能であるエンコーダの特定の実施形態を例示するための図である。 高帯域励起信号生成の方法の特定の実施形態を例示するための図である。 高帯域励起信号生成の方法の別の実施形態を例示するための図である。 高帯域励起信号生成の方法の別の実施形態を例示するための図である。 高帯域励起信号生成の方法の別の実施形態を例示するための図である。 高帯域励起信号生成の方法の別の実施形態を例示するためのフローチャートである。 図1−8のシステムおよび方法にしたがって高帯域励起信号生成を実行するように動作可能なデバイスのブロック図である。
詳細な説明
[0037]本明細書で説明されている原理は、例えば、高帯域励起信号生成を実行するように構成されているヘッドセット、ハンドセット、または他のオーディオデバイスに適用されうる。その文脈によって明示的に限定されない限り、「信号」という用語は、ワイヤ、バス、または他の送信媒体上で表されるようなメモリロケーション(またはメモリロケーションのセット)の状態を含む、その一般的な意味のいずれも示すように本明細書では使用されている。その文脈によって明示的に限定されない限り、「生成する」という用語は、計算する、または違った形で作り出すといった、その一般的な意味のいずれも示すように本明細書では使用されている。その文脈によって明示的に限定されない限り、「算出する」という用語は、計算する、値を求める、平滑化する、および/または複数の値から選択するといった、その一般的な意味のいずれも示すように本明細書では使用されている。その文脈によって明示的に限定されない限り、「取得する」という用語は、算出する、導出する、(例えば、別のコンポーネント、ブロック、またはデバイスから)受信する、および/または、(例えば、メモリレジスタ、または記憶エレメントのアレイから)検索するといった、その一般的な意味のいずれも示すように使用されている。
[0038]その文脈によって明示的に限定されない限り、「作り出す」という用語は、算出する、生成する、および/または提供するといった、その一般的な意味のいずれも示すように使用されている。その文脈によって明示的に限定されない限り、「提供する」という用語は、算出する、生成する、および/または作り出すといった、その一般的な意味のいずれも示すように使用されている。その文脈によって明示的に限定されない限り、「結合される」という用語は、直接的または間接的な電気または物理接続を示すように使用されている。接続が間接的である場合、「結合され」ている構造間に他のブロックまたはコンポーネントが存在しうることは、当業者によって十分に理解される。
[0039]「構成」という用語は、その特定の文脈によって示されているような、方法、装置/デバイス、および/またはシステムに関して使用されうる。本説明および特許請求の範囲において、「備える」という用語が使用されている場合、それは、他のエレメントまたは動作を除外しない。(「AはBに基づく」において見られるような)「に基づく」という用語は、(i)「に少なくとも基づいて」(例えば、「Aは少なくともBに基づく」)、および、特定の文脈で適切な場合には(ii)「に等しい」(例えば、「AはBに等しい」)というケースを含む、その一般的な意味のいずれも示すように使用されている。AがBに基づく、が、少なくとも基づく、を含むケース(i)では、これが、AがBに結合される構成を含むことができる。同様に、「に応答して」という用語は、「に少なくとも応答して」を含む、その一般的な意味のいずれも示すように使用されている。「少なくとも1つ」という用語は、「1つ以上」を含む、その一般的な意味のいずれも示すように使用されている。「少なくとも2つ」という用語は、「2つ以上」を含む、その一般的な意味のいずれも示すように使用されている。
[0040]「装置」および「デバイス」という用語は、特定の文脈によって違った形で示されない限り、包括的に、かつ交換可能に使用されている。違った形で示されない限り、特定の特徴を有する装置の動作のいずれの開示も、類似する特徴を有する方法を開示する(またその逆もまた同じである)ようにも明示的に意図されており、特定の構成にしたがった装置の動作のいずれの開示も、類似する構成にしたがった方法を開示する(またその逆もまた同じである)ようにも明示的に意図されている。「方法」、「プロセス」、「手順」、および、「技法」という用語は、特定の文脈によって違った形で示されない限り、包括的に、かつ交換可能に使用される。通常、「エレメント」および「モジュール」という用語は、より大きな構成の一部を示すように使用されうる。ドキュメントの一部の参照によるいずれの組み込みもまた、その一部内で参照される変数または用語の定義を組み込むように理解されるものとし、ここでそのような定義は、ドキュメント中、ならびに組み込まれた一部で参照されているいずれの図面中の他の場所でも登場する。
[0041]本明細書で使用される場合、「通信デバイス」という用語は、ワイヤレス通信ネットワークをわたるボイス通信および/またはデータ通信のために使用されうる電子デバイスを指す。通信デバイスの例は、セルラ電話、携帯情報端末(PDA)、ハンドヘルドデバイス、ヘッドセット、ワイヤレスモデム、ラップトップコンピュータ、パーソナルコンピュータ等を含む。
[0042]図1を参照すると、高帯域励起信号生成を実行するように動作可能であるデバイスを含むシステムの特定の実施形態が図示され、概して100と指定されている。特定の実施形態では、システム100の1つ以上のコンポーネントは、(例えば、ワイヤレス電話またはコーダ/デコーダ(CODEC)における)復号システムまたは装置に、符号化システムまたは装置に、あるいはそれらの両方に統合されうる。他の実施形態では、システム100の1つ以上のコンポーネントは、セットトップボックス、音楽プレイヤ、ビデオプレイヤ、エンターテイメントユニット、ナビゲーションデバイス、通信デバイス、携帯情報端末(PDA)、固定ロケーションデータユニット、またはコンピュータに統合されうる。
[0043]以下の説明において、図1のシステム100によって実行される様々な機能が、ある特定のコンポーネントまたはモジュールによって実行されるとして説明されることは留意されるべきである。コンポーネントおよびモジュールのこの区分は、例示のためだけのものである。代わりの実施形態では、特定のコンポーネントまたはモジュールによって実行される機能は、複数のコンポーネントまたはモジュールの間で分けられうる。さらに代わりの実施形態では、図1の2つ以上のコンポーネントまたはモジュールは、単一のコンポーネントまたはモジュールに統合されうる。図1で例示されている各コンポーネントまたはモジュールは、ハードウェア(例えば、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)、デジタルシグナルプロセッサ(DSP)、コントローラ等)、ソフトウェア(例えば、プロセッサによって実行可能な命令)、またはそれらのあらゆる組み合わせを使用して実装されうる。
[0044]図1−9で描かれている例示的な実施形態は、強化型可変レートコーデック−狭帯域広帯域(EVRC−NW)で使用されるものと同様の高帯域モデルに関して説明されているけれども、例示的な実施形態のうちの1つ以上は、いずれの他の高帯域モデルも使用することができる。いずれの特定のモデルの使用も例としてのみ説明されていることは理解されるべきである。
[0045]システム100は、ネットワーク120を介して第1のデバイス102と通信状態にあるモバイルデバイス104を含む。モバイルデバイス104は、マイクロフォン146に結合されるか、またはマイクロフォン146と通信状態にありうる。モバイルデバイス104は、励起信号生成モジュール122、高帯域エンコーダ172、マルチプレクサ(MUX)174、送信機176、またはそれらの組み合わせを含むことができる。第1のデバイス102は、スピーカ142に結合されるか、またはスピーカ142と通信状態にありうる。第1のデバイス102は、高帯域合成器168を介してMUX170に結合された励起信号生成モジュール122を含むことができる。励起信号生成モジュール122は、発声分類器160、包絡調整器162、変調器164、出力回路166、またはそれらの組み合わせを含むことができる。
[0046]動作中に、モバイルデバイス104は、入力信号130(例えば、第1のユーザ152のユーザ発話信号、無声信号、またはその両方)を受信することができる。例えば、第1のユーザ152は、第2のユーザ154とのボイス通信に携わりうる。ボイス呼のために、第1のユーザ152はモバイルデバイス104を使用し得、第2のユーザ154は第1のデバイス102を使用することができる。ボイス呼中、第1のユーザ152は、モバイルデバイス104に結合されたマイクロフォン146に話しかけることができる。入力信号130は、第1のユーザ152の発話、背景ノイズ(例えば、音楽、街頭のノイズ、別の人物の発話等)、またはそれらの組み合わせに対応しうる。モバイルデバイス104は、マイクロフォン146を介して入力信号130を受信することができる。
[0047]特定の実施形態では、入力信号130は、おおよそ50ヘルツ(Hz)からおおよそ16キロヘルツ(kHz)までの周波数範囲にデータを含む超広帯域(SWB)信号でありうる。入力信号130の低帯域部分および入力信号130の高帯域部分は、それぞれ、50Hz−7kHzおよび7kHz−16kHzの重複しない周波数帯域を占有しうる。代わりの実施形態では、低帯域部分および高帯域部分は、それぞれ、50Hz−8kHzおよび8kHz−16kHzの重複しない周波数帯域を占有しうる。別の代わりの実施形態では、低帯域部分および高帯域部分は、重複しうる(例えば、50Hz−8kHzおよび7kHz−16kHzそれぞれ)。
[0048]特定の実施形態では、入力信号130は、おおよそ50Hzからおおよそ8kHzの周波数範囲を有する高帯域(WB)信号でありうる。そのような実施形態では、入力信号130の低帯域部分は、おおよそ50Hzからおおよそ6.4kHzの周波数範囲に対応し得、入力信号130の高帯域部分は、おおよそ6.4kHzからおおよそ8kHzの周波数範囲に対応しうる。
[0049]特定の実施形態では、マイクロフォン146は入力信号130を捕捉することができ、モバイルデバイス104におけるアナログデジタルコンバータ(ADC)は、捕捉された入力信号130を、アナログ波形から、デジタルオーディオサンプルから成るデジタル波形にコンバートすることができる。デジタルオーディオサンプルは、デジタルシグナルプロセッサによって処理されうる。利得調整器は、オーディオ信号(例えば、アナログ波形またはデジタル波形)の振幅レベルを増大または低下させることによって、(例えば、アナログ波形またはデジタル波形の)利得を調整することができる。利得調整器は、アナログまたはデジタルドメインのどちらかで動作しうる。例えば、利得調整器は、デジタルドメインで動作し得、アナログデジタルコンバータによって作り出されたデジタルオーディオサンプルを調整することができる。利得調整の後、エコーキャンセラは、スピーカの出力がマイクロフォン146に入ることによって生み出されただろういずれのエコーも低減することができる。デジタルオーディオサンプルは、ボコーダ(ボイスエンコーダ−デコーダ)によって「圧縮」されうる。エコーキャンセラの出力は、ボコーダ前処理ブロック(vocoder pre-processing blocks)、例えばフィルタ、ノイズプロセッサ、レートコンバータ等、に結合されうる。ボコーダのエンコーダは、デジタルオーディオサンプルを圧縮し、送信パケット(デジタルオーディオサンプルの圧縮されたビットの表現)を形成することができる。特定の実施形態では、ボコーダのエンコーダは、励起信号生成モジュール122を含むことができる。第1のデバイス102を参照して説明されているように、励起信号生成モジュール122は高帯域励起信号186を生成することができる。励起信号生成モジュール122は、高帯域エンコーダ172に高帯域励起信号186を提供することができる。
[0050]高帯域エンコーダ172は、高帯域励起信号186に基づいて、入力信号130の高帯域信号を符号化することができる。例えば、高帯域エンコーダ172は、高帯域励起信号186に基づいて、高帯域ビットストリーム190を生成することができる。高帯域ビットストリーム190は、高帯域パラメータ情報を含むことができる。例えば、高帯域ビットストリーム190は、高帯域線形予測コーディング(LPC)係数、高帯域線スペクトル周波数(LSF)、高帯域線スペクトル対(LSP)、利得形状(例えば、特定のフレームのサブフレームに対応する時間利得パラメータ)、利得フレーム(例えば、特定のフレームに関する高帯域対低帯域のエネルギー比率に対応する利得パラメータ)、または入力信号130の高帯域部分に対応する他のパラメータ、のうちの少なくとも1つを含むことができる。特定の実施形態では、高帯域エンコーダ172は、ベクトル量子化器、隠れマルコフモデル(HMM)、混合ガウスモデル(GMM)のうちの少なくとも1つを使用して高帯域LPC係数を決定することができる。高帯域エンコーダ172は、LPC係数に基づいて、高帯域LSF、高帯域LSP、またはその両方を決定することができる。
[0051]高帯域エンコーダ172は、入力信号130の高帯域信号に基づいて高帯域パラメータ情報を生成することができる。例えば、モバイルデバイス104のデコーダは、第1のデバイス102のデコーダをエミュレートすることができる。第1のデバイス102を参照して説明されているように、モバイルデバイス104のデコーダは、高帯域励起信号186に基づいて合成されたオーディオ信号を生成することができる。高帯域エンコーダ172は、合成されたオーディオ信号と入力信号130の比較に基づいて、利得値(例えば、利得形状、利得フレーム、または両方)を生成することができる。例えば、利得値は、合成されたオーディオ信号と入力信号130との間の差分に対応しうる。高帯域エンコーダ172は、MUX174に高帯域ビットストリーム190を提供することができる。
[0052]MUX174は、ビットストリーム132を生成するために、高帯域ビットストリーム190を低帯域ビットストリームと組み合わせることができる。モバイルデバイス104の低帯域エンコーダは、入力信号130の低帯域信号に基づいて、低帯域ビットストリームを生成することができる。低帯域ビットストリームは、低帯域パラメータ情報(例えば、低帯域LPC係数、低帯域LSF、またはその両方)、および低帯域励起信号(例えば、入力信号130の低帯域残差)を含むことができる。送信パケットは、ビットストリーム132に対応しうる。
[0053]送信パケットは、モバイルデバイス104のプロセッサと共有されうるメモリに記憶されうる。プロセッサは、デジタルシグナルプロセッサと通信状態にある制御プロセッサでありうる。モバイルデバイス104は、ネットワーク120を介して第1のデバイス102にビットストリーム132を送信することができる。例えば、送信機176は、いくらかの形状の送信パケットを変調し(他の情報が送信パケットに付与され得)、アンテナを介してオーバザエアでその変調された情報を送ることができる。
[0054]第1のデバイス102の励起信号生成モジュール122は、ビットストリーム132を受信することができる。例えば、第1のデバイス102のアンテナは、送信パケットを備えるいくらかの形状の入ってくるパケットを受信することができる。ビットストリーム132は、パルスコード変調(PCM)符号化されたオーディオ信号のフレームに対応しうる。例えば、第1のデバイス102におけるアナログデジタルコンバータ(ADC)は、ビットストリーム132を、アナログ信号から複数のフレームを有するデジタルPCM信号にコンバートすることができる。
[0055]送信パケットは、第1のデバイス102でボコーダのデコーダによって「解凍(uncompressed)」されうる。解凍された波形(またはデジタルPCM信号)は、再構築されたオーディオサンプルと称されうる。再構築されたオーディオサンプルは、ボコーダ後処理ブロック(vocoder post-processing blocks)によって後処理され得、エコーを除去するためにエコーキャンセラによって使用されうる。明確性のために、ボコーダのデコーダ、およびボコーダ後処理ブロックは、ボコーダデコーダモジュールと称されうる。いくつかの構成では、エコーキャンセラの出力は、励起信号生成モジュール122によって処理されうる。代わりとして、他の構成では、ボコーダデコーダモジュールの出力は、励起信号生成モジュール122によって処理されうる。
[0056]励起信号生成モジュール122は、ビットストリーム132から、低帯域パラメータ情報、低帯域励起信号、および高帯域パラメータ情報を抽出することができる。図2を参照して説明されるように、発声分類器160は、入力信号130の有声/無声性質(例えば、強力な有声、微力な有声、微力な無声、強力な無声)を示す発声分類180(例えば、0.0から1.0までの値)を決定することができる。発声分類器160は、包絡調整器162に発声分類180を提供することができる。
[0057]包絡調整器162は、入力信号130の表現の包絡を決定することができる。包絡は、時間変動包絡でありうる。例えば、包絡は、入力信号130のフレーム毎に1回よりも多い回数更新されうる。別の例として、包絡は、包絡調整器162が入力信号130の各サンプルを受信したことに応答して更新されうる。包絡の形状のバリエーションの程度(extent)は、発声分類が強力な無声に対応するときよりも、発声分類180が強力な有声に対応するときの方が、より大きくありうる。入力信号130の表現は、入力信号130(または入力信号130の符号化されたバージョン)の低帯域励起信号、入力信号130(または入力信号130の符号化されたバージョン)の高帯域励起信号、またはハーモニカルに(harmonically)拡張された励起信号を含むことができる。例えば、励起信号生成モジュール122は、入力信号130(または入力信号130の符号化されたバージョン)の低帯域励起信号を拡張することによってハーモニカルに拡張された励起信号を生成することができる。
[0058]図4−7を参照して説明されるように、包絡調整器162は、発声分類180に基づいて、包絡の量を制御することができる。包絡調整器162は、包絡の特性(例えば、形状、大きさ、利得、および/または周波数範囲)を制御することによって、包絡の量を制御することができる。例えば、図4を参照して説明されるように、包絡調整器162は、フィルタのカットオフ周波数に基づいて、包絡の周波数範囲を制御することができる。カットオフ周波数は、発声分類180に基づいて決定されうる。
[0059]別の例として、図5を参照して説明されるように、包絡調整器162は、発声分類180に基づいて高帯域線形予測コーディング(LPC)係数の1つ以上の極点を調節することによって、包絡の形状、包絡の大きさ、包絡の利得、またはそれらの組み合わせを制御することができる。さらなる例として、図6を参照して説明されるように、包絡調整器162は、発声分類180に基づいてフィルタの係数を調整することによって、包絡の形状、包絡の大きさ、包絡の利得、またはそれらの組み合わせを制御することができる。図4−6を参照して説明されるように、包絡の特性は、変換ドメイン(例えば、周波数ドメイン)または時間ドメインにおいて制御されうる。
[0060]包絡調整器162は、変調器164に信号包絡182を提供することができる。信号包絡182は、入力信号130の表現の制御された量の包絡に対応しうる。
[0061]変調器164は、変調されたホワイトノイズ184を生成するようにホワイトノイズ156を変調するために信号包絡182を使用することができる。変調器164は、出力回路166に変調されたホワイトノイズ184を提供することができる。
[0062]出力回路166は、変調されたホワイトノイズ184に基づいて、高帯域励起信号186を生成することができる。例えば、出力回路166は、高帯域励起信号186を生成するために、変調されたホワイトノイズ184を別の信号と組み合わせることができる。特定の実施形態では、他の信号は、低帯域励起信号に基づいて生成された拡張された信号に対応しうる。例えば、出力回路166は、低帯域励起信号をアップサンプリングし、アップサンプリングされた信号に絶対値関数を適用し、絶対値関数を適用した結果をダウンサンプリングし、線形予測フィルタ(例えば、4次(fourth order)線形予測フィルタ)を用いてダウンサンプリングされた信号をスペクトル的に平坦にするために適応白色化を使用することによって、拡張された信号を生成することができる。特定の実施形態では、図4−7を参照して説明されるように、出力回路166は、ハーモニシティパラメータ(harmonicity parameter)に基づいて、変調されたホワイトノイズ184および他の信号をスケーリングすることができる。
[0063]特定の実施形態では、図7を参照して説明されるように、出力回路166は、スケーリングされたホワイトノイズを生成するために、変調されたホワイトノイズの第1の比率を変調されていないホワイトノイズの第2の比率と組み合わせることができ、ここで第1の比率および第2の比率は、発声分類180に基づいて決定される。この実施形態では、出力回路166は、高帯域励起信号186を生成するために、スケーリングされたホワイトノイズを別の信号とを組み合わせることができる。出力回路166は、高帯域合成器168に高帯域励起信号186を提供することができる。
[0064]高帯域合成器168は、高帯域励起信号186に基づいて、合成された高帯域信号188を生成することができる。例えば、高帯域合成器168は、特定の高帯域モデルに基づいて高帯域パラメータ情報をモデリングおよび/または復号することができ、合成された高帯域信号188を生成するために高帯域励起信号186を使用することができる。高帯域合成器168は、MUX170に合成された高帯域信号188を提供することができる。
[0065]第1のデバイス102の低帯域デコーダは、合成された低帯域信号を生成することができる。例えば、低帯域デコーダは、特定の低帯域モデルに基づいて低帯域パラメータ情報を復号および/またはモデリングすることができ、合成された低帯域信号を生成するために低帯域励起信号を使用することができる。MUX170は、出力信号116(例えば、復号されたオーディオ信号)を生成するために、合成された高帯域信号188と合成された低帯域信号とを組み合わせることができる。
[0066]出力信号116は、利得調整器によって増幅または抑制されうる。第1のデバイス102は、第2のユーザ154にスピーカ142を介して出力信号116を提供することができる。例えば、利得調整器の出力は、デジタルアナログコンバータによってデジタル信号からアナログ信号にコンバートされ、スピーカ142を介して再生されうる。
[0067]したがって、システム100は、合成されたオーディオ信号が無声(または強力な無声)入力信号に対応するとき、「平滑な」サウンディング合成された信号の生成を可能にしうる。合成された高帯域信号は、入力信号の発声分類に基づいて変調されるノイズ信号を使用して生成されうる。変調されたノイズ信号は、入力信号が強力な無声であるときよりも入力信号が強力な有声であるときの方が、入力信号により密接に対応しうる。特定の実施形態では、合成された高帯域信号は、入力信号が強力な無声であるとき、低減されたスパース性を有しうるか、または全くスパース性を有さないことがあり、それにより、より平滑な(例えば、より少ないアーチファクトを有する)合成されたオーディオ信号をもたらす。
[0068]図2を参照すると、高帯域励起信号生成を実行するように動作可能であるデコーダの特定の実施形態が図示され、概して200と指定されている。特定の実施形態では、デコーダ200は、図1のシステム100に対応するか、またはシステム100に含まれうる。例えば、デコーダ200は、第1のデバイス102、モバイルデバイス104、またはその両方に含まれうる。デコーダ200は、受信デバイス(例えば、第1のデバイス102)における符号化されたオーディオ信号の復号を例示することができる。
[0069]デコーダ200は、低帯域合成器204、発声ファクタ生成器208、および高帯域合成器168に結合されたデマルチプレクサ(DEMUX)202を含む。低帯域合成器204および発声ファクタ生成器208は、励起信号生成器222を介して高帯域合成器168に結合されうる。特定の実施形態では、発声ファクタ生成器208は、図1の発声分類器160に対応しうる。励起信号生成器222は、図1の励起信号生成モジュール122の特定の実施形態でありうる。例えば、励起信号生成器222は、包絡調整器162、変調器164、出力回路166、発声分類器160、またはそれらの組み合わせを含むことができる。低帯域合成器204および高帯域合成器168は、MUX170に結合されうる。
[0070]動作中に、DEMUX202はビットストリーム132を受信することができる。ビットストリーム132は、パルスコード変調(PCM)符号化されたオーディオ信号のフレームに対応しうる。例えば、第1のデバイス102におけるアナログデジタルコンバータ(ADC)は、ビットストリーム132を、アナログ信号から複数のフレームを有するデジタルPCM信号にコンバートすることができる。DEMUX202は、ビットストリーム132から、ビットストリームの低帯域部分232およびビットストリームの高帯域部分218を生成することができる。DEMUX202は、低帯域合成器204にビットストリームの低帯域部分232を提供することができ、高帯域合成器168にビットストリームの高帯域部分218を提供することができる。
[0071]低帯域合成器204は、ビットストリームの低帯域部分232から1つ以上のパラメータ242(例えば、入力信号130の低帯域パラメータ情報)および低帯域励起信号244(例えば、入力信号130の低帯域残差)を抽出および/または復号することができる。特定の実施形態では、低帯域合成器204は、ビットストリームの低帯域部分232からハーモニシティパラメータ246を抽出することができる。
[0072]ハーモニシティパラメータ246は、ビットストリーム232の符号化中はビットストリームの低帯域部分232に組み込まれ得、入力信号130の高帯域におけるハーモニック対ノイズエネルギーの比率(a ratio of harmonic to noise energy)に対応しうる。低帯域合成器204は、ピッチ利得値に基づいて、ハーモニシティパラメータ246を決定することができる。低帯域合成器204は、パラメータ242に基づいて、ピッチ利得値を決定することができる。特定の実施形態では、低帯域合成器204は、ビットストリームの低帯域部分232からハーモニシティパラメータ246を抽出することができる。例えば、モバイルデバイス104は、図3を参照して説明されるように、ビットストリーム132にハーモニシティパラメータ246を含むことができる。
[0073]低帯域合成器204は、特定の低帯域モデルを使用して、パラメータ242および低帯域励起信号244に基づいて、合成された低帯域信号234を生成することができる。低帯域合成器204は、MUX170に合成された低帯域信号234を提供することができる。
[0074]発声ファクタ生成器208は、低帯域合成器204からパラメータ242を受信することができる。モジュールファクタ生成器208は、パラメータ242、前の発声決定、1つ以上の他のファクタ、またはそれらの組み合わせに基づいて、発声ファクタ236(例えば、0.0から1.0までの値)を生成することができる。発声ファクタ236は、入力信号130の有声/無声性質(例えば、強力な有声、微力な有声、微力な無声、または強力な無声)を示すことができる。パラメータ242は、入力信号130の低帯域信号のゼロ交差率、第1の反射係数、低帯域励起における適応コードブック寄与のエネルギー対低帯域励起における適応コードブックおよび固定コードブックの寄与の合計のエネルギーの比率、入力信号130の低帯域信号のピッチ利得、またはそれらの組み合わせを含むことができる。発声ファクタ生成器208は、数式1に基づいて発声ファクタ236を決定することができる。
Figure 2017517029
ここにおいて、
Figure 2017517029
であり、aおよびcは重みであり、pは特定の測定された信号パラメータに対応し、Mは発声ファクタ決定で使用されるパラメータの数に対応する。
[0075]例示的な実施形態では、発声ファクタ=−0.4231*ZCR+0.2712*FR+0.0458*ACB_to_excitation+0.1849*PG+0.0138*prev_voicing_decision+0.0611であり、ここでZCRはゼロ交差率に対応し、FRは第1の反射係数に対応し、ACB_to_excitationは低帯域励起における適応コードブック寄与のエネルギー対低帯域励起における適応コードブックおよび固定コードブックの寄与の合計のエネルギーの比率に対応し、PGはピッチ利得に対応し、previous_voicing_decisionは別のフレームのために以前計算された別の発声係数に対応する。特定の実施形態では、発声ファクタ生成器208は、有声としてよりも無声としてフレームを分類するためにより高いしきい値を使用しうる。例えば、発声ファクタ生成器208は、フレームを、先行するフレームが無声と分類されており、そのフレームが第1のしきい値(例えば、低しきい値)を満たす発声値を有する場合、無声として分類することができる。発声ファクタ生成器208は、入力信号130の低帯域信号のレートのゼロ交差率、第1の反射係数、低帯域励起における適応コードブック寄与のエネルギー対低帯域励起における適応コードブックおよび固定コードブック寄与の合計のエネルギーの比率、入力信号130の低帯域信号のピッチ利得、またはそれらの組み合わせに基づいて、発声値を決定することができる。代わりとして、発声ファクタ生成器208は、フレームを、フレームの発声値が第2のしきい値(例えば、非常に低いしきい値)を満たす場合、無声として分類することができる。特定の実施形態では、発声ファクタ236は、図1の発声分類180に対応しうる。
[0076]励起信号生成器222は、低帯域合成器204から低帯域励起信号244およびハーモニシティパラメータ246を受信することができ、発声ファクタ生成器208から発声ファクタ236を受信することができる。励起信号生成器222は、図1および図4−7を参照して説明されているように、低帯域励起信号244、ハーモニシティパラメータ246、および発声ファクタ236に基づいて、高帯域励起信号186を生成することができる。例えば、包絡調整器162は、図1および図4−7を参照して説明されているように、発声分類236に基づいて、低帯域励起信号244の包絡の量を制御することができる。特定の実施形態では、信号包絡182は、制御された量の包絡に対応しうる。包絡調整器162は、変調器164に第2の信号182を提供することができる。
[0077]変調器164は、図1および4−7を参照して説明されているように、変調されたホワイトノイズ184を生成するために信号包絡182を使用してホワイトノイズ156を変調することができる。変調器164は、出力回路166に変調されたホワイトノイズ184を提供することができる。
[0078]出力回路166は、図1および4−7を参照して説明されているように、変調されたホワイトノイズ184と別の信号とを組み合わせることによって、高帯域励起信号186を生成することができる。特定の実施形態では、図4−7を参照して説明されるように、出力回路166は、ハーモニシティパラメータ246に基づいて、変調されたホワイトノイズ184と他の信号とを組み合わせることができる。
[0079]出力回路166は、高帯域合成器168に高帯域励起信号186を提供することができる。高帯域合成器168は、高帯域励起信号186およびビットストリームの高帯域部分218に基づいて、MUX170に合成された高帯域信号188を提供することができる。例えば、高帯域合成器168は、ビットストリームの高帯域部分218から入力信号130の高帯域パラメータを抽出することができる。高帯域合成器168は、特定の高帯域モデルに基づいて合成された高帯域信号188を生成するために、高帯域パラメータおよび高帯域励起信号186を使用することができる。特定の実施形態では、MUX170は、出力信号116を生成するために、合成された低帯域信号234と合成された高帯域信号188とを組み合わせることができる。
[0080]したがって図2のデコーダ200は、合成されたオーディオ信号が無声(または強力な無声)入力信号に対応するとき、「平滑な」サウンディング合成された信号の生成を可能にしうる。合成された高帯域信号は、入力信号の発声分類に基づいて変調されるノイズ信号を使用して生成されうる。変調されたノイズ信号は、入力信号が強力な無声であるときよりも入力信号が強力な有声であるときの方が、入力信号により密接に対応しうる。特定の実施形態では、合成された高帯域信号は、入力信号が強力な無声であるとき、低減されたスパース性を有しうるか、または全くスパース性を有さないことがあり、それにより、より平滑な(例えば、より少ないアーチファクトを有する)合成されたオーディオ信号をもたらす。加えて、前の発声決定に基づいて、発声決定に基づいて発声分類(または発声ファクタ)を決定することは、フレームの誤った分類(misclassification)の作用を軽減することができ、結果として有声フレームと無声フレームとの間のより平滑な遷移をもたらしうる。
[0081]図3を参照すると、高帯域励起信号生成を実行するように動作可能であるエンコーダの特定の実施形態が開示され、概して300と指定されている。特定の実施形態では、エンコーダ300は、図1のシステム100に対応するか、またはシステム100に含まれうる。例えば、エンコーダ300は、第1のデバイス102、モバイルデバイス104、またはその両方に含まれうる。エンコーダ300は、送信デバイス(例えば、モバイルデバイス104)でオーディオ信号の符号化を例示することができる。
[0082]エンコーダ300は、低帯域エンコーダ304に結合されたフィルタバンク302、発声ファクタ生成器208、および高帯域エンコーダ172を含む。低帯域エンコーダ304は、MUX174に結合されうる。低帯域エンコーダ304および発声ファクタ生成器208は、励起信号生成器222を介して高帯域エンコーダ172に結合されうる。高帯域エンコーダ172は、MUX174に結合されうる。
[0083]動作中に、フィルタバンク302は入力信号130を受信することができる。例えば、入力信号130は、マイクロフォン146を介して図1のモバイルデバイス104によって受信されうる。フィルタバンク302は、低帯域信号334および高帯域信号340を含む複数の信号に入力信号130を分割することができる。例えば、フィルタバンク302は、入力信号130のより低い周波数サブ帯域(例えば、50Hz−7kHz)に対応するローパスフィルタを使用して低帯域信号334を生成することができ、入力信号130のより高い周波数サブ帯域(例えば、7kHz−16kHz)に対応するハイパスフィルタを使用して高帯域信号340を生成することができる。フィルタバンク302は、低帯域エンコーダ304に低帯域信号334を提供することができ、高帯域エンコーダ172に高帯域信号340を提供することができる。
[0084]低帯域エンコーダ304は、低帯域信号334に基づいて、パラメータ242(例えば、低帯域パラメータ情報)および低帯域励起信号244を生成することができる。例えば、パラメータ242は、低帯域LPC係数、低帯域LSF、低帯域線スペクトル対(LSP)、またはそれらの組み合わせを含むことができる。低帯域励起信号244は、低帯域残差信号に対応しうる。低帯域エンコーダ304は、特定の低帯域モデル(例えば、特定の線形予測モデル)に基づいて、パラメータ242および低帯域励起信号244を生成することができる。例えば、低帯域エンコーダ304は、低帯域信号334のパラメータ242(例えば、フォルマントに対応するフィルタ係数)を生成することができ、パラメータ242に基づいて低帯域信号334を逆フィルタリングすることができ、低帯域励起信号244(例えば、低帯域信号334の低帯域残差信号)を生成するために低帯域信号334から逆フィルタリングされた信号を差し引くことができる。低帯域エンコーダ304は、パラメータ242および低帯域励起信号244を含む低帯域ビットストリーム342を生成することができる。特定の実施形態では、低帯域ビットストリーム342は、ハーモニシティパラメータ246を含むことができる。例えば、低帯域エンコーダ304は、図2の低帯域合成器204を参照して説明されたように、ハーモニシティパラメータ246を決定することができる。
[0085]低帯域エンコーダ304は、発声ファクタ生成器208にパラメータ242を提供することができ、励起信号生成器222に低帯域励起信号244およびハーモニシティパラメータ246を提供することができる。発声ファクタ生成器208は、図2を参照して説明されたように、パラメータ242に基づいて、発声ファクタ236を決定することができる。励起信号生成器222は、図2および図4−7を参照して説明されているように、低帯域励起信号244、ハーモニシティパラメータ246、および発声ファクタ236に基づいて、高帯域励起信号186を決定することができる。
[0086]励起信号生成器222は、高帯域エンコーダ172に高帯域励起信号186を提供することができる。高帯域エンコーダ172は、図1を参照して説明されたように、高帯域信号340および高帯域励起信号186に基づいて、高帯域ビットストリーム190を生成することができる。高帯域エンコーダ172は、MUX174に高帯域ビットストリーム190を提供することができる。MUX174は、ビットストリーム132を生成するために、低帯域ビットストリーム342と高帯域ビットストリーム190とを組み合わせることができる。
[0087]したがってエンコーダ300は、入力信号の発声分類に基づいて変調されるノイズ信号を使用して合成されたオーディオ信号を生成するデコーダのエミュレーションを受信デバイスで可能にしうる。エンコーダ300は、入力信号130に密接に近似するように合成されたオーディオ信号を生成するために使用される高帯域パラメータ(例えば、利得値)を生成することができる。
[0088]図4−7は、高帯域励起信号生成の方法の特定の実施形態を例示するための図である。図4−7の方法の各々は、図1−3のシステム100−300の1つ以上のコンポーネントによって実行されうる。例えば、図4−7の方法の各々は、図1の高帯域励起信号生成モジュール122、図2および/または図3の励起信号生成器222、図2の発声ファクタ生成器208、あるいはそれらの組み合わせのうちの1つ以上のコンポーネントによって実行されうる。図4−7は、変換ドメイン、時間ドメイン、または変換ドメインもしくは時間ドメインのどちらかで表現された高帯域励起信号を生成する方法の代わりの実施形態を例示している。
[0089]図4を参照すると、高帯域励起信号生成の方法の特定の実施形態の図が図示され、概して400と指定されている。方法400は、変換ドメインまたは時間ドメインのどちらかで表現された高帯域励起信号を生成することに対応しうる。
[0090]方法400は、404で、発声ファクタを決定することを含む。例えば、図2の発声ファクタ生成器208は、標本信号422に基づいて発声ファクタ236を決定することができる。特定の実施形態では、発声ファクタ生成器208は、1つ以上の他の信号パラメータに基づいて、発声ファクタ236を決定することができる。特定の実施形態では、いくつかの信号パラメータは、発声ファクタ236を決定するために組み合わさって機能しうる。例えば、発声ファクタ生成器208は、図2−3を参照して説明されたように、ビットストリームの低帯域部分232(または図3の低帯域信号334)、パラメータ242、前の発声決定、1つ以上の他のファクタ、またそれらの組み合わせに基づいて、発声ファクタ236を決定することができる。標本信号422は、ビットストリームの低帯域部分232、低帯域信号334、または低帯域励起信号244を拡張することによって生成された拡張された信号を含むことができる。標本信号422は、変換(例えば、周波数)ドメインまたは時間ドメインで表現されうる。例えば、励起信号生成モジュール122は、図1の入力信号130、ビットストリーム132、ビットストリームの低帯域部分232、低帯域信号334、図2の低帯域励起信号244を拡張することによって生成された拡張された信号、またはそれらの組み合わせに変換(例えば、フーリエ変換)を適用することによって、標本信号422を生成することができる。
[0091]方法400はまた、408におけるローパスフィルタ(LPF)カットオフ周波数を計算することと、401における信号包絡の量を制御することと、を含む。例えば、図1の包絡調整器162は、発声ファクタ236に基づいて、LPFカットオフ周波数426を計算することができる。発声ファクタ236が強力な有声オーディオを示す場合、LPFカットオフ周波数426はより高くあり得、時間包絡のハーモニックコンポーネントのより高い影響を示す。発声ファクタ236が強力な無声オーディオを示すとき、LPFカットオフ周波数426はより低くあり得、時間包絡のハーモニックコンポーネントのより低い影響(または全く無い影響)に対応する。
[0092]包絡調整器162は、信号包絡182の特性(例えば、周波数範囲)を制御することによって、信号包絡182の量を制御することができる。例えば、包絡調整器162は、標本信号422にローパスフィルタ450を適用することによって信号包絡182の特性を制御することができる。ローパスフィルタ450のカットオフ周波数は、LPFカットオフ周波数426に実質的に等しくありうる。包絡調整器162は、LPFカットオフ周波数426に基づいて、標本信号422の時間包絡を追跡することによって信号包絡182の周波数範囲を制御することができる。例えば、ローパスフィルタ450は、フィルタリングされた信号がLPFカットオフ周波数426によって定義された周波数範囲を有するように標本信号422をフィルタリングすることができる。例示するために、フィルタリングされた信号の周波数範囲は、LPFカットオフ周波数426未満でありうる。特定の実施形態では、フィルタリングされた信号は、LPFカットオフ周波数426未満の標本信号422の振幅に一致する振幅を有することができ、LPFカットオフ周波数426を上回る低振幅(例えば、0に実質的に等しい)を有することができる。
[0093]グラフ470は、元のスペクトル形状482を例示する。元のスペクトル形状482は、標本信号422の信号包絡182を表現することができる。第1のスペクトル形状484は、標本信号422にLPFカットオフ周波数426を有するフィルタを適用することによって生成されたフィルタリングされた信号に対応しうる。
[0094]LPFカットオフ周波数426は追跡速度を決定することができる。例えば、時間包絡は、発声ファクタ236が無声を示すときよりも発声ファクタ236が有声を示すときにより速く追跡されうる(例えば、より頻繁に更新されうる)。特定の実施形態では、包絡調整器162は、時間ドメインにおける信号包絡182の特性を制御することができる。代わりの実施形態では、包絡調整器162は、サンプル毎に信号包絡182の特性を制御することができる。代わりの実施形態では、包絡調整器162は、変換ドメインで表現された信号包絡182の特性を制御することができる。例えば、包絡調整器162は、追跡速度に基づいてスペクトル形状を追跡することによって信号包絡182の特性を制御することができる。包絡調整器162は、図1の変調器164に信号包絡182を提供することができる。
[0095]方法400はさらに、412で、信号包絡182をホワイトノイズ156と乗算することを含む。例えば、図1の変調器164は、変調されたホワイトノイズ184を生成するようにホワイトノイズ156を変調するために信号包絡182を使用することができる。信号包絡182は、変換ドメインまたは時間ドメインで表現されたホワイトノイズ156を変調することができる。
[0096]方法400はまた、406で、混合(mixture)を決定することを含む。例えば、図1の変調器164は、ハーモニシティパラメータ246および発声ファクタ236に基づいて、変調されたホワイトノイズに184に適用されるべき第1の利得(例えば、ノイズ利得434)および標本信号422に適用されるべき第2の利得(例えば、ハーモニクス利得436)を決定することができる。例えば、ノイズ利得434(例えば、0と1との間)およびハーモニクス利得436は、ハーモニシティパラメータによって示されたハーモニック対ノイズエネルギーの比率に一致するように計算されうる。変調器164は、発声ファクタ236が強力な無声を示すときにノイズ利得434を増加させ得、発声ファクタ236が強力な有声を示すときにノイズ利得434を低減することができる。特定の実施形態では、変調器164は、ノイズ利得434に基づいてハーモニクス利得436を決定することができる。特定の実施形態では、
Figure 2017517029
である。
[0097]方法400はさらに、414で、変調されたホワイトノイズ434とノイズ利得434とを乗算することを含む。例えば、図1の出力回路166は、変調されたホワイトノイズ184にノイズ利得434を適用することによって、スケーリングされた変調されたホワイトノイズ438を生成することができる。
[0098]方法400はまた、416で、標本信号422とハーモニクス利得436とを乗算することを含む。例えば、図1の出力回路166は、標本信号422にハーモニクス利得436を適用することによって、スケーリングされた標本信号440を生成することができる。
[0099]方法400はさらに、418で、スケーリングされた変調されたホワイトノイズ438およびスケーリングされた標本信号440を加算することを含む。例えば、図1の出力回路166は、スケーリングされた変調されたホワイトノイズ438とスケーリングされた標本信号440とを組み合わせる(例えば、加算すること)によって、高帯域励起信号186を生成することができる。代わりの実施形態では、動作414、動作416、またはその両方は、図1の変調器164によって実行されうる。高帯域励起信号186は、変換ドメインまたは時間ドメインにありうる。
[0100]したがって方法400は、信号包絡の量が、発声ファクタ236に基づいて包絡の特性を制御することによって制御されることを可能にしうる。特定の実施形態では、変調されたホワイトノイズ184と標本信号422の割合は、ハーモニシティパラメータ246に基づいて利得ファクタ(例えば、ノイズ利得434およびハーモニクス利得436)によって動的に決定されうる。変調されたホワイトノイズ184および標本信号422は、高帯域励起信号186のハーモニック対ノイズエネルギーの比率が入力信号130の高帯域信号のハーモニック対ノイズエネルギーの比率に近似するようにスケーリングされうる。
[0101]特定の実施形態では、図4の方法400は、中央処理ユニット(CPU)、デジタルシグナルプロセッサ(DSP)、もしくはコントローラのような処理ユニットのハードウェア(例えば、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)等)を介して、ファームウェアデバイスを介して、またはそれらのあらゆる組み合わせを介して実装されうる。例として、図4の方法400は、図9に関連して説明されるように、命令を実行するプロセッサによって実行されうる。
[0102]図5を参照すると、高帯域励起信号生成の方法の特定の実施形態の図が図示され、概して500と指定されている。方法500は、変換ドメインで表現された信号包絡の量を制御すること、変換ドメインで表現されたホワイトノイズを変調すること、またはその両方によって、高帯域励起信号を生成することを含むことができる。
[0103]方法500は、方法400の動作404、406、412、および414を含む。標本信号422は、図4を参照して説明されたように、変換(例えば、周波数)ドメインで表現されうる。
[0104]方法500はまた、508で、帯域幅拡大ファクタを計算することを含む。例えば、図1の包絡調整器162は、発声ファクタ236に基づいて、帯域幅拡大ファクタ526を決定することができる。例えば、帯域幅拡大ファクタ526は、発声ファクタ236がより強力な無声を示すときよりも、発声ファクタ236が強力な有声を示すときにより大幅な帯域幅拡大を示すことができる。
[0105]方法500はさらに、510で、高帯域LPC極点を調整することによってスペクトルを生成することを含む。例えば、包絡調整器162は、標本信号422に関連付けられたLPC極点を決定することができる。包絡調整器162は、信号包絡182の大きさ、信号包絡182の形状、信号包絡182の利得、またはそれらの組み合わせを制御することによって信号包絡182の特性を制御することができる。例えば、包絡調整器162は、帯域幅拡大ファクタ526に基づいてLPC極点を調整することによって、信号包絡182の大きさ、信号包絡182の形状、信号包絡182の利得、またはそれらの組み合わせを制御することができる。特定の実施形態では、LPC極点は変換ドメインにおいて調整されうる。包絡調整器162は、調整されたLPC極点に基づいてスペクトルを生成することができる。
[0106]グラフ570は、元のスペクトル形状582を例示する。元のスペクトル形状582は、標本信号422の信号包絡182を表現することができる。元のスペクトル形状582は、標本信号422に関連付けられたLPC極点に基づいて生成されうる。包絡調整器162は、発声ファクタ236に基づいてLPC極点を調整することができる。包絡調整器162は、第1のスペクトル形状584または第2のスペクトル形状586を有するフィルタリングされた信号を生成するために、標本信号422に、調整されたLPC極点に対応するフィルタを適用することができる。フィルタリングされた信号の第1のスペクトル形状584は、発声ファクタ236が強力な有声を示すとき、調整されたLPC極点に対応しうる。フィルタリングされた信号の第2のスペクトル形状586は、発声ファクタ236が強力な無声を示すとき、調整されたLPC極点に対応しうる。
[0107]信号包絡182は、生成されたスペクトル、調整されたLPC極点、調整されたLPC極点を有する標本信号422に関連付けられたLPC係数、またはそれらの組み合わせに対応しうる。包絡調整器162は、図1の変調器164に信号包絡182を提供することができる。
[0108]変調器164は、方法400の動作412を参照して説明されたように、変調されたホワイトノイズ184を生成するために信号包絡182を使用してホワイトノイズ156を変調することができる。変調器164は、変換ドメインで表現されたホワイトノイズ156を変調することができる。図1の出力回路166は、方法400の動作414を参照して説明されたように、変調されたホワイトノイズ184およびノイズ利得434に基づいて、スケーリングされた変調されたホワイトノイズ438を生成することができる。
[0109]方法500はまた、512で、高帯域LPCスペクトル542と標本信号422とを乗算することを含む。例えば、図1の出力回路166は、フィルタリングされた信号544を生成するために、高帯域LPCスペクトル542を使用して標本信号422をフィルタリングすることができる。特定の実施形態では、出力回路166は、標本信号422に関連付けられた高帯域パラメータ(例えば、高帯域LPC係数)に基づいて、高帯域LPCスペクトル542を決定することができる。例示するために、出力回路166は、図2のビットストリームの高帯域部分218に基づいて、または図3の高帯域信号340から生成された高帯域パラメータ情報に基づいて、高帯域LPCスペクトル542を決定することができる。
[0110]標本信号422は、図2の低帯域励起信号244から生成された拡張された信号に対応しうる。出力回路166は、フィルタリングされた信号544を生成するために、高帯域LPCスペクトル542を使用して拡張された信号を合成することができる。合成は、変換ドメインにありうる。例えば、出力回路166は、周波数ドメインにおいて乗算を使用して合成を実行することができる。
[0111]方法500はさらに、516で、フィルタリングされた信号544とハーモニクス利得436とを乗算することを含む。例えば、図1の出力回路166は、スケーリングされたフィルタリングされた信号540を生成するために、フィルタリングされた信号544をハーモニクス利得436と乗算することができる。特定の実施形態では、動作512、動作516、またはその両方は、図1の変調器164によって実行されうる。
[0112]方法500はまた、518で、スケーリングされた変調されたホワイトノイズ438およびスケーリングされたフィルタリングされた信号540を加算することを含む。例えば、図1の出力回路166は、高帯域励起信号186を生成するために、スケーリングされた変調されたホワイトノイズ438とスケーリングされたフィルタリングされた信号540とを組み合わせることができる。高帯域励起信号186は、変換ドメインで表現されうる。
[0113]したがって方法500は、信号包絡の量が、発声ファクタ236に基づいて変換ドメインにおいて高帯域LPC極点を調整することによって制御されることを可能にしうる。特定の実施形態では、変調されたホワイトノイズ184とフィルタリングされた信号544の割合は、ハーモニシティパラメータ246に基づいて利得(例えば、ノイズ利得434およびハーモニクス利得436)によって動的に決定されうる。変調されたホワイトノイズ184およびフィルタリングされた信号544は、高帯域励起信号186のハーモニック対ノイズエネルギーの比率が入力信号130の高帯域信号のハーモニック対ノイズエネルギーの比率に近似するようにスケーリングされうる。
[0114]特定の実施形態では、図5の方法500は、中央処理ユニット(CPU)、デジタルシグナルプロセッサ(DSP)、もしくはコントローラのような処理ユニットのハードウェア(例えば、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)等)を介して、ファームウェアデバイスを介して、またはそれらのあらゆる組み合わせを介して実装されうる。例として、図5の方法500は、図9に関連して説明されるように、命令を実行するプロセッサによって実行されうる。
[0115]図6を参照すると、高帯域励起信号生成の方法の特定の実施形態の図が図示され、概して600と指定されている。方法600は、時間ドメインにおいて信号包絡の量を制御することによって、高帯域励起信号を生成することを含むことができる。
[0116]方法600は、方法400の動作404、406、および414、ならびに方法500の動作508を含む。標本信号422およびホワイトノイズ156は、時間ドメインにありうる。
[0117]方法600はまた、610で、LPC合成を実行することを含む。例えば、図1の包絡調整器162は、帯域幅拡張ファクタ526に基づいてフィルタの係数を調整することによって、信号包絡182の特性(例えば、形状、大きさ、および/または利得)を制御することができる。特定の実施形態では、LPC合成は変換ドメインにおいて実行されうる。フィルタの係数は、高帯域LPC係数に対応しうる。LPCフィルタ係数は、スペクトルピークを表現することができる。LPCフィルタ係数を調整することによってスペクトルピークを制御することは、発声ファクタ236に基づいて、ホワイトノイズ156の変調の程度の制御を可能にしうる。
[0118]例えば、スペクトルピークは、発声ファクタ236が有声発話を示すとき維持されうる。別の例として、スペクトルピークは、発声ファクタ236が無声発話を示すとき、全体のスペクトル形状を維持しながらも平滑化されうる。
[0119]グラフ670は、元のスペクトル形状682を例示する。元のスペクトル形状682は、標本信号422の信号包絡182を表現ことができる。元のスペクトル形状682は、標本信号422に関連付けられたLPCフィルタ係数に基づいて生成されうる。包絡調整器162は、発声ファクタ236に基づいてLPCフィルタ係数を調整することができる。包絡調整器162は、第1のスペクトル形状684または第2のスペクトル形状686を有するフィルタリングされた信号を生成するために、標本信号422に、調整されたLPCフィルタ係数に対応するフィルタを適用することができる。フィルタリングされた信号の第1のスペクトル形状684は、発声ファクタ236が強力な有声を示すとき、調整されたLPCフィルタ係数に対応しうる。第1のスペクトル形状684によって例示されているように、発声ファクタ236が強力な有声を示すとき、スペクトルピークは維持されうる。第2のスペクトル形状686は、発声ファクタ236が強力な無声を示すとき、調整されたLPCフィルタ係数に対応しうる。第2のスペクトル形状686によって例示されているように、発声ファクタ236が強力な無声を示すときは、スペクトルピークが平滑化されながらも全体のスペクトル形状は維持されうる。信号包絡182は、調整されたフィルタ係数に対応しうる。包絡調整器162は、図1の変調器164に信号包絡182を提供することができる。
[0120]変調器164は、変調されたホワイトノイズ184を生成するために、信号包絡182(例えば、調整されたフィルタ係数)を使用してホワイトノイズ156を変調することができる。例えば、変調器164は、変調されたホワイトノイズ184を生成するためにホワイトノイズ156にフィルタを適用することができ、ここでフィルタは調整されたフィルタ係数を有する。変調器164は、図1の出力回路166に変調されたホワイトノイズ184を提供することができる。出力回路166は、図4の動作414を参照して説明されているように、スケーリングされた変調されたホワイトノイズ438を生成するために、変調されたホワイトノイズ184をノイズ利得434と乗算することができる。
[0121]方法600はさらに、612で、高帯域LPC合成を実行することを含む。例えば、図1の出力回路166は、合成された高帯域信号614を生成するために標本信号422を合成することができる。合成は時間ドメインにおいて実行されうる。特定の実施形態では、標本信号422は、低帯域励起信号を拡張することによって生成されうる。出力回路166は、標本信号422に、高帯域LPCを使用して同期フィルタを適用することによって、合成された高帯域信号614を生成することができる。
[0122]方法600はまた、616で、合成された高帯域信号614とハーモニクス利得436とを乗算することを含む。例えば、図1の出力回路166は、スケーリングされた合成された高帯域信号640を生成するために、合成された高帯域信号614にハーモニクス利得436を適用することができる。代わりの実施形態では、図1の変調器164は、動作612、動作616、またはその両方を実行することができる。
[0123]方法600はさらに、618で、スケーリングされた変調されたホワイトノイズ438およびスケーリングされた合成された高帯域信号640を加算することを含む。例えば、図1の出力回路166は、高帯域励起信号186を生成するために、スケーリングされた変調されたホワイトノイズ438とスケーリングされた合成された高帯域信号640とを組み合わせることができる。
[0124]したがって方法600は、信号包絡の量が、発声ファクタ236に基づいてフィルタの係数を調整することによって制御されることを可能にしうる。特定の実施形態では、変調されたホワイトノイズ184と合成された高帯域信号614の割合は、発声ファクタ236に基づいて動的に決定されうる。変調されたホワイトノイズ184および合成された高帯域信号614は、高帯域励起信号186のハーモニック対ノイズエネルギーの比率が入力信号130の高帯域信号のハーモニック対ノイズエネルギーの比率に近似するようにスケーリングされうる。
[0125]特定の実施形態では、図6の方法600は、中央処理ユニット(CPU)、デジタルシグナルプロセッサ(DSP)、もしくはコントローラのような処理ユニットのハードウェア(例えば、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)等)を介して、ファームウェアデバイスを介して、またはそれらのあらゆる組み合わせを介して実装されうる。例として、図6の方法600は、図9に関連して説明されるように、命令を実行するプロセッサによって実行されうる。
[0126]図7を参照すると、高帯域励起信号生成の方法の特定の実施形態の図が図示され、概して700と指定されている。方法700は、時間ドメインまたは変換(例えば、周波数)ドメインで表現された信号包絡の量を制御することによって、高帯域励起信号を生成することに対応しうる。
[0127]方法700は、方法400の動作404、406、412、414、および416を含む。標本信号422は、変換ドメインまたは時間ドメインで表現されうる。方法700はまた、710で、信号包絡を決定することを含む。例えば、図1の包絡調整器162は、一定の係数で標本信号422にローパスフィルタを適用することによって信号包絡182を生成することができる。
[0128]方法700はまた、702で、二乗平均平方根値を決定することを含む。例えば、図1の変調器164は、信号包絡182の二乗平均平方根エネルギーを決定することができる。
[0129]方法700はさらに、712で、二乗平均平方根値をホワイトノイズ156と乗算することを含む。例えば、図1の出力回路166は、変調されていないホワイトノイズ736を生成するために、二乗平均平方根値をホワイトノイズ156と乗算することができる。
[0130]図1の変調器164は、方法400の動作412を参照して説明されているように、変調されたホワイトノイズ184を生成するために信号包絡182をホワイトノイズ156と乗算することができる。ホワイトノイズ156は、変換ドメインまたは時間ドメインで表現されうる。
[0131]方法700はまた、704で、変調されたホワイトノイズおよび変調されていないホワイトノイズに関する利得の割合を決定することを含む。例えば、図1の出力回路166は、ノイズ利得434および発声ファクタ236に基づいて、変調されていないノイズ利得734および変調されたノイズ利得732を決定することができる。発声ファクタ236が、符号化されたオーディオ信号が強力な有声オーディオに対応することを示す場合、変調されたノイズ利得732は、ノイズ利得434のより高い割合に対応しうる。発声ファクタ236が、符号化されたオーディオ信号が強力な無声オーディオに対応することを示す場合、変調されていないノイズ利得734は、ノイズ利得434のより高い割合に対応しうる。
[0132]方法700はさらに、714で、変調されていないノイズ利得734と変調されていないホワイトノイズ736を乗算することを含む。例えば、図1の出力回路166は、スケーリングされた変調されていないホワイトノイズ742を生成するために、変調されていないホワイトノイズ736に変調されていないノイズ利得734を適用することができる。
[0133]出力回路166は、方法400の動作414を参照して説明されたように、スケーリングされた変調されたホワイトノイズ740を生成するために、変調されたホワイトノイズ184に変調されたノイズ利得732を適用することができる。
[0134]方法700はまた、716で、スケーリングされた変調されていないホワイトノイズ742およびスケーリングされたホワイトノイズ744を加算することを含む。例えば、図1の出力回路166は、スケーリングされたホワイトノイズ744を生成するために、スケーリングされた変調されていないホワイトノイズ742とスケーリングされた変調されたホワイトノイズ740とを組み合わせることができる。
[0135]方法700はさらに、718で、スケーリングされたホワイトノイズ744およびスケーリングされた標本信号440を加算することを含む。例えば、出力回路166は、高帯域励起信号186を生成するために、スケーリングされたホワイトノイズ744とスケーリングされた標本信号440とを組み合わせることができる。方法700は、標本信号422を使用して変換(または時間)ドメインで表現された高帯域励起信号186および変換(または時間)ドメインで表現されたホワイトノイズ156を生成することができる。
[0136]したがって方法700は、発声ファクタ236に基づいて、変調されていないホワイトノイズ736と変調されたホワイトノイズ184の割合が、利得ファクタ(例えば、変調されていないノイズ利得734および変調されたノイズ利得732)によって動的に決定されることを可能にしうる。強力な無声オーディオに関する高帯域励起信号186は、スパースコーディングされた低帯域残差に基づいて変調されたホワイトノイズに対応する高帯域信号よりも少ないアーチファクトを有する変調されていないホワイトノイズに対応しうる。
[0137]特定の実施形態では、図7の方法700は、中央処理ユニット(CPU)、デジタルシグナルプロセッサ(DSP)、もしくはコントローラのような処理ユニットのハードウェア(例えば、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)等)を介して、ファームウェアデバイスを介して、またはそれらのあらゆる組み合わせを介して実装されうる。例として、図7の方法700は、図9に関連して説明されるように、命令を実行するプロセッサによって実行されうる。
[0138]図8を参照すると、高帯域励起信号生成の方法の特定の実施形態のフローチャートが図示され、概して800と指定されている。方法800は、図1−3のシステム100−300の1つ以上のコンポーネントによって実行されうる。例えば、方法800は、図1の高帯域励起信号生成モジュール122、図2または図3の励起信号生成器222、図2の発声ファクタ生成器208、またはそれらの組み合わせのうちの1つ以上のコンポーネントによって実行されうる。
[0139]方法800は、802で、デバイスで入力信号の発声分類を決定することを含む。入力信号は、オーディオ信号に対応しうる。例えば、図1の発声分類器160は、図1を参照して説明されたように、入力信号130の発声分類180を決定することができる。入力信号130は、オーディオ信号に対応しうる。
[0140]方法800はまた、804で、発声分類に基づいて入力信号の表現の包絡の量を制御することを含む。例えば、図1の包絡調整器162は、図1を参照して説明されているように、発声分類180に基づいて、入力信号130の表現の包絡の量を制御することができる。入力信号130の表現は、ビットストリーム(例えば、図2のビットストリーム232)の低帯域部分、低帯域信号(例えば、図3の低帯域信号334)、低帯域励起信号(例えば、図2の低帯域励起信号244)を拡張することによって生成された拡張された信号、別の信号、またはそれらの組み合わせでありうる。例えば、入力信号130の表現は、図4−7の標本信号を含むことができる。
[0141]方法800はさらに、806で、制御された量の包絡に基づいて、ホワイトノイズ信号を変調することを含む。例えば、図1の変調器164は、信号包絡182に基づいてホワイトノイズ156を変調することができる。信号包絡182は、制御された量の包絡に対応しうる。例示するために、変調器164は、図4および6−7にあるように、時間ドメインにおいてホワイトノイズ156を変調することができる。代わりとして、変調器164は、図4−7にあるように、時間ドメインで表現されたホワイトノイズ156を変調することができる。
[0142]方法800はまた、808で、変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成することを含む。例えば、図1の出力回路166は、図1を参照して説明されたように、変調されたホワイトノイズ184に基づいて高帯域励起信号186を生成することができる。
[0143]したがって、図8の方法800は、入力信号の制御された量の包絡に基づく高帯域励起信号の生成を可能にし得、ここで包絡の量は、発声分類に基づいて制御される。
[0144]特定の実施形態では、図8の方法800は、中央処理ユニット(CPU)、デジタルシグナルプロセッサ(DSP)、もしくはコントローラのような処理ユニットのハードウェア(例えば、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)等)を介して、ファームウェアデバイスを介して、またはそれらのあらゆる組み合わせを介して実装されうる。例として、図8の方法800は、図9に関連して説明されるように、命令を実行するプロセッサによって実行されうる。
[0145]図1−8の実施形態は、低帯域信号に基づいて高帯域励起信号を生成することを説明しているけれども、他の実施形態では、入力信号130が、複数の帯域信号を作り出すためにフィルタリングされうる。例えば、複数の帯域信号は、より低い帯域信号、中間帯域信号、より高い帯域信号、1つ以上の追加の帯域信号、またはそれらの組み合わせを含むことができる。中間帯域信号は、より低い帯域信号よりもより高い周波数に対応し得、より高い帯域信号は、中間帯域信号よりも高い周波数範囲に対応しうる。より低い帯域信号および中間帯域信号は、重複する、または重複しない周波数範囲に対応しうる。中間帯域信号およびより高い帯域信号は、重複する、または重複しない周波数範囲に対応しうる。
[0146]励起信号生成モジュール122は、第2の帯域信号(例えば、中間帯域信号またはより高い帯域信号)に対応する励起信号を生成するために、第1の帯域信号(例えば、より低い帯域信号または中間帯域信号)を使用することができ、ここで第1の帯域信号は第2の帯域信号より低い周波数範囲に対応する。
[0147]特定の実施形態では、励起信号生成モジュール122は、複数の帯域信号に対応する複数の励起信号を生成するために第1の帯域信号を使用することができる。例えば、励起信号生成モジュール122は、中間帯域信号に対応する中間帯域信号、より高い帯域信号に対応するより高い帯域励起信号、1つ以上の追加の帯域励起信号、またはそれらの組み合わせを生成するためにより低い帯域信号を使用することができる。
[0148]図9を参照すると、デバイス(例えば、ワイヤレス通信デバイス)の特定の例示的な実施形態のブロック図が描写され、概して900と指定されている。様々な実施形態では、デバイス900は、図9で例示されているものよりも少ないか、またはより多いコンポーネントを有することができる。例示的な実施形態では、デバイス900は、図1のモバイルデバイス104またはデバイス102に対応しうる。例示的な実施形態では、デバイス900は、図4−8の方法400−800のうちの1つ以上にしたがって動作しうる。
[0149]特定の実施形態では、デバイス900は、プロセッサ906(例えば、中央処理ユニット(CPU))を含む。デバイス900は、1つ以上の追加のプロセッサ910(例えば、1つ以上のデジタルシグナルプロセッサ(DPS))を含むことができる。プロセッサ910は、発話および音楽コーダ−デコーダ(CODEC)908、およびエコーキャンセラ912を含むことができる。発話および音楽CODEC908は、図1の励起信号生成モジュール122、図2の励起信号生成器222、発声ファクタ生成器208、ボコーダエンコーダ936、ボコーダデコーダ938、またはその両方を含むことができる。特定の実施形態では、ボコーダエンコーダ936は、図1の高帯域エンコーダ172、図3の低帯域エンコーダ304、またはその両方を含むことができる。特定の実施形態では、ボコーダデコーダ938は、図1の高帯域合成器168、図2の低帯域合成器204、またはその両方を含むことができる。
[0150]例示されているように、励起信号生成モジュール122、発声ファクタ生成器208、および励起信号生成器222は、ボコーダエンコーダ936およびボコーダデコーダ938によってアクセス可能である、共有されるコンポーネントでありうる。他の実施形態では、励起信号生成モジュール122、発声ファクタ生成器208、および/または励起信号生成器222のうちの1つ以上は、ボコーダエンコーダ936およびボコーダデコーダ938に含まれうる。
[0151]発話および音楽コデック908は、プロセッサ910のコンポーネント(例えば、専用回路および/または実行可能なプログラミングコード)として例示されているけれども、他の実施形態では、励起信号生成モジュール122のような、発話および音楽コデック908のうちの1つ以上のコンポーネントは、プロセッサ906、CODEC934、別の処理コンポーネント、またはそれらの組み合わせに含まれうる。
[0152]デバイス900は、メモリ932およびCODEC934を含むことができる。デバイス900は、トランシーバ950を介してアンテナ942に結合されたワイヤレスコントローラ940を含むことができる。デバイス900は、ディスプレイコントローラ926に結合されたディスプレイ928を含むことができる。スピーカ948、マイクロフォン946、またはその両方は、CODEC934に結合されうる。特定の実施形態では、スピーカ948は、図1のスピーカ142に対応しうる。特定の実施形態では、マイクロフォン946は、図1のマイクロフォン146に対応しうる。CODEC934は、デジタルアナログコンバータ(DAC)902およびアナログデジタルコンバータ(ADC)904を含むことができる。
[0153]特定の実施形態では、CODEC934は、マイクロフォン946からアナログ信号を受信し、アナログデジタルコンバータ904を使用してアナログ信号をデジタル信号にコンバートし、例えばパルスコード変調(PCM)フォーマットで、発話および音楽コデック908にデジタル信号を提供することができる。発話および音楽コデック908は、デジタル信号を処理することができる。特定の実施形態では、発話および音楽コデック908は、CODEC934にデジタル信号を提供することができる。CODEC934は、デジタルアナログコンバータ902を使用してデジタル信号をアナログ信号にコンバートすることができ、スピーカ948にアナログ信号を提供することができる。
[0154]メモリ932は、図4−8の方法400−800のうちの1つ以上のような、本明細書で開示されている方法およびプロセスを実行するために、プロセッサ906、プロセッサ910、CODEC934、デバイス900の別の処理ユニット、またはそれらの組み合わせによって実行可能な命令956を含むことができる。
[0155]システム100−300の1つ以上のコンポーネントは、1つ以上のタスク、またはそれらの組み合わせを実行するための命令を実行するプロセッサによって、専用ハードウェア(例えば、電気回路)を介して実装されうる。例として、メモリ932、またはプロセッサ906、プロセッサ910、および/もしくはCODEC934のうちの1つ以上のコンポーネントは、ランダムアクセスメモリ(RAM)、磁気抵抗ランダムアクセスメモリ(MRAM)、スピン注入MRAM(STT−MRAM:spin-torque transfer MRAM)、フラッシュメモリ、読み取り専用メモリ(ROM)、プログラマブル読み取り専用メモリ(PROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、電気的に消去可能なプログラマブル読み取り専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、またはコンパクトディスク読み取り専用メモリ(CD−ROM)、のようなメモリデバイスでありうる。メモリデバイスは、コンピュータ(例えば、CODEC934におけるプロセッサ、プロセッサ906、および/またはプロセッサ910)によって実行されるとき、コンピュータに図4−8の方法400−800の1つ以上の少なくとも一部を実行させることができる命令(例えば、命令956)を含むことができる。例として、メモリ932、またはプロセッサ906、プロセッサ910、CODEC934のうちの1つ以上のコンポーネントは、コンピュータ(例えば、CODEC934におけるプロセッサ、プロセッサ906、および/またはプロセッサ910)によって実行されるとき、コンピュータに図4−8の方法400−800のうちの1つ以上の少なくとも一部を実行させることができる命令(例えば、命令956)を含む非一時的なコンピュータ可読媒体でありうる。
[0156]特定の実施形態では、デバイス900は、システムインパッケージまたはシステムオンチップデバイス(例えば、モバイル局モデム(MSM))922に含まれうる。特定の実施形態では、プロセッサ906、プロセッサ910、ディスプレイコントローラ926、メモリ932、CODEC934、ワイヤレスコントローラ940、およびトランシーバ950が、システムインパッケージまたはシステムオンチップデバイス922に含まれる。特定の実施形態では、タッチスクリーンおよび/またはキーパッドのような入力デバイス930、ならびに電源944が、システムオンチップデバイス922に結合されている。さらに、特定の実施形態では、図9で例示されるように、ディスプレイ928、入力デバイス930、スピーカ948、マイクロフォン946、アンテナ942、および電源944は、システムオンチップデバイス922の外部にある。しかしながら、ディスプレイ928、入力デバイス930、スピーカ948、マイクロフォン946、アンテナ942、および電源944の各々は、インタフェースまたはコントローラのようなシステムオンチップデバイス922のコンポーネントに結合されることができる。
[0157]デバイス900は、モバイル通信デバイス、スマートフォン、セルラ電話、ラップトップ、コンピュータ、タブレット、パーソナルデジタルアシスタント、ディスプレイデバイス、テレビジョン、ゲーム機、音楽プレイヤ、ラジオ、デジタルビデオプレイヤ、デジタルビデオディスク(DVD)プレイヤ、チューナ、カメラ、ナビゲーションデバイス、デコーダシステム、エンコーダシステム、またはそれらのあらゆる組み合わせも含むことができる。
[0158]例示的な実施形態では、プロセッサ910は、図1−8を参照して説明されている方法または動作のすべてまたは一部を実行するように実行可能でありうる。例えば、マイクロフォン946は、オーディオ信号(例えば、図1の入力信号130)を捕捉することができる。ADC904は、捕捉されたオーディオ信号を、アナログ波形からデジタルオーディオサンプルから成るデジタル波形にコンバートすることができる。プロセッサ910は、デジタルオーディオサンプルを処理することができる。利得調整器は、デジタルオーディオサンプルを調整することができる。エコーキャンセラ912は、スピーカ948の出力がマイクロフォン946に入ることによって生み出されただろうエコーを低減することができる。
[0159]ボコーダエンコーダ936は、処理された発話信号に対応するデジタルオーディオサンプルを圧縮し得、送信パケット(例えば、デジタルオーディオサンプルの圧縮されたビットの表現)を形成することができる。例えば、送信パケットは、図1のビットストリーム132の少なくとも一部に対応しうる。送信パケットは、メモリ932に記憶されうる。トランシーバ950は、送信パケットのいくらかの形態を変調することができ(例えば、他の情報は送信パケットに付与され得)、アンテナ942を介してその変調されたデータを送信することができる。
[0160]さらなる例として、アンテナ942は、受信パケットを含む、入ってくるパケットを受信することができる。受信パケットは、ネットワークを介して別のデバイスによって送られうる。例えば、受信パケットは、図1のビットストリーム132の少なくとも一部に対応しうる。ボコーダデコーダ938は、受信パケットを解凍することができる。解凍された波形は、再構築されたオーディオサンプルと称されうる。エコーキャンセラ912は、再構築されたオーディオサンプルからエコーを除去することができる。
[0161]発話および音楽コデック908を実行するプロセッサ910は、図1−8を参照して説明されたように高帯域励起信号186を生成することができる。プロセッサ910は、高帯域励起信号186に基づいて、図1の出力信号116を生成することができる。利得調整器は、出力信号116を増幅または抑制することができる。DAC902は、出力信号116を、デジタル波形からアナログ波形にコンバートすることができ、スピーカ948にそのコンバートされた信号を提供することができる。
[0162]説明されている実施形態と関係して、入力信号の発声分類を決定するための手段を含む装置が開示されている。入力信号は、オーディオ信号に対応しうる。例えば、発声分類を決定するための手段は、図1の発声分類器160、入力信号の発声分類を決定するように構成された1つ以上のデバイス(例えば、非一時的なコンピュータ可読記憶媒体で命令を実行するプロセッサ)、またはそれらのあらゆる組み合わせも含むことができる。
[0163]例えば、発声分類器160は、入力信号130の低帯域信号のゼロ交差率、第1の反射係数、低帯域励起における適応コードブック寄与のエネルギー対低帯域励起における適応コードブックおよび固定コードブック寄与の合計のエネルギーの比率、入力信号130の低帯域信号のピッチ利得、またはそれらの組み合わせを含むパラメータ242を決定することができる。特定の実施形態では、発声分類器160は、図3の低帯域信号334に基づいて、パラメータ242を決定することができる。代わりの実施形態では、発声分類器160は、図2のビットストリーム232の低帯域部分からパラメータ242を抽出することができる。
[0164]発声分類器160は、数式に基づいて、発声分類180(例えば、発声ファクタ236)を決定することができる。例えば、発声分類器160は、数式1およびパラメータ242に基づいて、発声分類180を決定することができる。例示するために、発声分類器160は、図4を参照して説明されたように、ゼロ交差率、第1の反射係数、エネルギーの比率、ピッチ利得、前の発声決定、一定値、またはそれらの組み合わせ、の重み付けされた合計を計算することによって発声分類180を決定することができる。
[0165]装置はまた、発声分類に基づいて、入力信号の表現の包絡の量を制御するための手段を含む。例えば、包絡の量を制御するための手段は、図1の発声調整器162、発声分類に基づいて入力信号の表現の包絡の量を制御するように構成された1つ以上のデバイス(例えば、非一時的なコンピュータ可読記憶媒体で命令を実行するプロセッサ)、またはそれらのあらゆる組み合わせも含むことができる。
[0166]例えば、包絡調整器162は、図1の発声分類180(例えば、図2の発声ファクタ236)にカットオフ周波数スケーリングファクタを乗算することによって周波数発声分類を生成することができる。カットオフ周波数スケーリングファクタはデフォルト値でありうる。LPFカットオフ周波数426は、デフォルトのカットオフ周波数に対応しうる。包絡調整器162は、図4を参照して説明されたように、LPFカットオフ周波数426を調整することによって、信号包絡182の量を制御することができる。例えば、包絡調整器162は、LPFカットオフ周波数426に周波数発声分類を加算することによってLPFカットオフ周波数426を調整することができる。
[0167]別の例として、包絡調整器162は、図1の発声分類180(例えば、図2の発声ファクタ236)に帯域幅スケーリングファクタを乗算することによって帯域幅拡張ファクタ526を生成することができる。包絡調整器162は、標本信号422に関連付けられた高帯域LPC極点を決定することができる。包絡調整器162は、帯域幅拡張ファクタ526に極点スケーリングファクタを乗算することによって極点調整ファクタを決定することができる。極点スケーリングファクタはデフォルト値でありうる。包絡調整器162は、図5を参照して説明されたように、高帯域LPC極点を調整することによって、信号包絡182の量を制御することができる。例えば、包絡調整器162は、極点調整ファクタによって原点(origin)に向けて高帯域LPC極点を調整することができる。
[0168]さらなる例として、包絡調整器162は、フィルタの係数を決定することができる。フィルタの係数はデフォルト値でありうる。包絡調整器162は、帯域幅拡張ファクタ526にフィルタスケーリングファクタを乗算することによってフィルタ調整ファクタを決定することができる。フィルタスケーリングファクタはデフォルト値でありうる。包絡調整器162は、図6を参照して説明されたように、フィルタの係数を調整することによって、信号包絡182の量を制御することができる。例えば、包絡調整器162は、フィルタ調整ファクタをフィルタの係数の各々に乗算することができる。
[0169]装置はさらに、制御された量の包絡に基づいて、ホワイトノイズ信号を変調するための手段を含む。例えば、ホワイトノイズ信号を変調するための手段は、図1の変調器164、制御された量の包絡に基づいてホワイトノイズ信号を変調するように構成された1つ以上のデバイス(例えば、非一時的なコンピュータ可読記憶媒体で命令を実行するプロセッサ)、またはそれらのあらゆる組み合わせも含むことができる。例えば、変調器164は、ホワイトノイズ156および信号包絡182が同じドメインにあるかどうかを決定することができる。ホワイトノイズ156が信号包絡182とは異なるドメインにある場合、変調器164は、ホワイトノイズ156を、信号包絡182と同じドメインにあることになるようにコンバートすることができるか、または信号包絡182を、ホワイトノイズ156と同じドメインにあることになるようにコンバートすることができる。変調器164は、図4を参照して説明されたように、信号包絡182に基づいて、ホワイトノイズ156を変調することができる。例えば、変調器164は、時間ドメインにおいてホワイトノイズ156と信号包絡182とを乗算することができる。別の例として、変調器164は、周波数ドメインにおいてホワイトノイズ156と信号包絡182とを畳み込むことができる。
[0170]装置はまた、変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成するための手段を含む。例えば、高帯域励起信号を生成するための手段は、図1の出力回路166、変調されたホワイトノイズ信号に基づいて高帯域励起信号を生成するように構成された1つ以上のデバイス(例えば、非一時的なコンピュータ可読記憶媒体で命令を実行するプロセッサ)、またはそれらのあらゆる組み合わせも含むことができる。
[0171]特定の実施形態では、出力回路166は、図4−7を参照して説明されたように、変調されたホワイトノイズ184に基づいて高帯域励起信号186を生成することができる。例えば、出力回路166は、図4−6を参照して説明されたように、スケーリングされた変調されたホワイトノイズ438を生成するために、変調されたホワイトノイズ184とノイズ利得434とを乗算することができる。出力回路166は、高帯域励起信号186を生成するために、スケーリングされた変調されたホワイトノイズ438と別の信号(例えば、図4のスケーリングされた標本信号440、図5のスケーリングされたフィルタリングされた信号540、または図6のスケーリングされた合成された高帯域信号640)を組み合わせることができる。
[0172]別の例として、出力回路166は、図7を参照して説明されたように、スケーリングされた変調されたホワイトノイズ740を生成するために、変調されたホワイトノイズ184と図7の変調されたノイズ利得732とを乗算することができる。出力回路166は、スケーリングされたホワイトノイズ744を生成するために、スケーリングされた変調されたホワイトノイズ740とスケーリングされた変調されていないホワイトノイズ742とを組み合わせる(例えば、加算する)ことができる。出力回路166は、高帯域励起信号186を生成するために、スケーリングされた標本信号440とスケーリングされたホワイトノイズ744と組み合わせることができる。
[0173]当業者は、本明細書で開示されている実施形態に関係して説明された様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップが、電子ハードウェア、ハードウェアプロセッサのような処理デバイスによって実行されるコンピュータソフトウェア、またはその両方の組み合わせとして実装されうることをさらに認識するであろう。様々な例示的なコンポーネント、ブロック、構成、モジュール、回路、およびステップは、概してそれらの機能の観点から上で説明されてきた。このような機能が、ハードウェアとして実装されるか、または実行可能なソフトウェアとして実装されるかは、特定のアプリケーションおよびシステム全体に課せられる設計制約に依存する。当業者は、各々の特定のアプリケーションに関して多様な方法で説明された機能を実装することができるが、このような実装の決定が、本開示の範囲からの逸脱を引き起すと解釈されるべきでない。
[0174]本明細書で開示されている実施形態に関係して説明された方法またはアルゴリズムのステップは、直接ハードウェアにおいて、プロセッサによって実行されるソフトウェアモジュールにおいて、またはこれら2つの組み合わせにおいて、具現化されうる。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、磁気抵抗ランダムアクセスメモリ(MRAM)、スピン注入MRAM(STT−MRAM)、フラッシュメモリ、読み取り専用メモリ(ROM)、プログラマブル読み取り専用メモリ(PROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、電気的に消去可能なプログラマブル読み取り専用メモリ(EEPROM)レジスタ、ハードディスク、リムーバブルディスク、またはコンパクトディスク読み取り専用メモリ(CD−ROM)のようなメモリデバイスに存在しうる。実例的なメモリデバイスは、プロセッサがメモリデバイスから情報を読み取り、およびメモリデバイスに情報を書き込むことができるように、プロセッサに結合される。代わりとして、メモリデバイスは、プロセッサと一体化されうる。プロセッサおよび記憶媒体は、特定用途向け集積回路(ASIC)に存在しうる。ASICは、計算デバイスまたはユーザ端末に存在しうる。代わりとして、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末にディスクリートコンポーネントとして存在しうる。
[0175]開示されている実施形態の先の説明は、当業者が開示されている実施形態を製造または使用すること可能にするために提供されている。これらの実施形態への様々な修正は、当業者には容易に明らかになり、本明細書で定義された原理は、本開示の範囲から逸脱することなく他の実施形態に適用されうる。したがって、本開示は、本明細書で図示されている実施形態に限定されるようには意図されておらず、下記の特許請求の範囲によって定義されるような原理および新規の特徴と一致する最大可能範囲を与えられることとする。
[0175]開示されている実施形態の先の説明は、当業者が開示されている実施形態を製造または使用すること可能にするために提供されている。これらの実施形態への様々な修正は、当業者には容易に明らかになり、本明細書で定義された原理は、本開示の範囲から逸脱することなく他の実施形態に適用されうる。したがって、本開示は、本明細書で図示されている実施形態に限定されるようには意図されておらず、下記の特許請求の範囲によって定義されるような原理および新規の特徴と一致する最大可能範囲を与えられることとする。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1]
デバイスで、入力信号の発声分類を決定することと、ここにおいて前記入力信号はオーディオ信号に対応する、
前記発声分類に基づいて、前記入力信号の表現の包絡の量を制御することと、
前記制御された量の前記包絡に基づいて、ホワイトノイズ信号を変調することと、
前記変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成することと、
を備える、方法。
[C2]
前記包絡の前記量を制御することは、前記包絡の特性を制御することを含む、C1に記載の方法。
[C3]
前記包絡の前記特性は、前記包絡の形状、前記包絡の大きさ、前記包絡の利得、または前記包絡の周波数範囲のうちの少なくとも1つを含む、C2に記載の方法。
[C4]
前記包絡の前記形状のバリエーションの程度は、前記発声分類が強力な無声に対応するときよりも、前記発声分類が強力な有声に対応するときの方が、より大きい、C3に記載の方法。
[C5]
前記包絡の前記周波数範囲は、前記入力信号の前記表現に適用されたフィルタのカットオフ周波数に基づいて制御される、C3に記載の方法。
[C6]
前記発声分類に基づいて前記カットオフ周波数を決定することをさらに備える、C5に記載の方法。
[C7]
前記フィルタはローパスフィルタを含み、前記カットオフ周波数は、前記発声分類が強力な無声に対応するときよりも、前記発声分類が強力な有声に対応するときの方が、より大きい、C6に記載の方法。
[C8]
前記デバイスはデコーダまたはエンコーダである、C1に記載の方法。
[C9]
前記包絡は時間変動する包絡である、C1に記載の方法。
[C10]
前記包絡は、前記入力信号のフレーム毎に1回よりも多い回数更新される、C9に記載の方法。
[C11]
前記包絡は、包絡調整器が前記オーディオ信号の各サンプルを受信したことに応答して更新される、C9に記載の方法。
[C12]
前記包絡は、変換ドメインにおいて前記入力信号の前記表現を調整することによって調整される、C1に記載の方法。
[C13]
前記入力信号の前記表現は、前記オーディオ信号の符号化されたバージョンの低帯域励起信号、または前記オーディオ信号の前記符号化されたバージョンの高帯域励起信号を含む、C1に記載の方法。
[C14]
前記入力信号の前記表現は、ハーモニカルに拡張された励起信号を含み、前記ハーモニカルに拡張された励起信号は前記オーディオ信号の符号化されたバージョンの低帯域励起信号から生成される、C1に記載の方法。
[C15]
変調されていないホワイトノイズ信号の第1の比率を前記変調されたホワイトノイズ信号の第2の比率を組み合わせることによってスケーリングされたホワイトノイズ信号を生成することをさらに備え、前記第1の比率および前記第2の比率は、前記発声分類に基づいて決定され、前記高帯域励起信号は前記スケーリングされたホワイトノイズ信号に基づく、C1に記載の方法。
[C16]
入力信号の発声分類を決定するように構成された発声分類器と、ここにおいて前記入力信号はオーディオ信号に対応する、
前記発声分類に基づいて、前記入力信号の表現の包絡の量を制御するように構成された包絡調整器と、
前記制御された量の前記包絡に基づいて、ホワイトノイズ信号を変調するように構成された変調器と、
前記変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成するように構成された出力回路と、
を備える、装置。
[C17]
前記包絡調整器は、前記発声分類に基づいて前記包絡の特性を制御するように構成され、前記包絡の前記特性は、前記包絡の形状、前記包絡の大きさ、前記包絡の利得、および前記包絡の周波数範囲のうちの少なくとも1つを含む、C16に記載の装置。
[C18]
前記包絡の前記形状、前記包絡の前記大きさ、および前記包絡の前記利得のうちの少なくとも1つは、前記発声分類に基づいて線形予測コーディング(LPC)係数の1つ以上の極点を調節することによって制御される、C17に記載の装置。
[C19]
前記包絡の前記形状、前記包絡の前記大きさ、および前記包絡の前記利得のうちの少なくとも1つは、前記発声分類に基づいてフィルタの係数を調整することによって制御され、前記フィルタは、前記変調されたホワイトノイズ信号を生成するために前記ホワイトノイズ信号に前記変調器によって適用される、C17に記載の装置。
[C20]
前記入力信号の前記表現は、前記入力信号の低帯域励起信号を含む、C16に記載の装置。
[C21]
前記入力信号の前記表現は、前記入力信号の高帯域励起信号を含む、C16に記載の装置。
[C22]
前記入力信号の前記表現は、ハーモニカルに拡張された励起信号を含む、C16に記載の装置。
[C23]
前記ハーモニカルに拡張された励起信号は、前記入力信号の低帯域励起信号から生成される、C22に記載の装置。
[C24]
前記高帯域励起信号に基づいて、オーディオ信号の高帯域部分を符号化するように構成された高帯域エンコーダと、
別のデバイスに符号化されたオーディオ信号を送信するように構成された送信機と、ここにおいて前記符号化されたオーディオ信号は前記オーディオ信号の符号化されたバージョンである、
をさらに備える、C16に記載の装置。
[C25]
命令を記憶するコンピュータ可読記憶デバイスであって、前記命令が少なくとも1つのプロセッサによって実行されるとき、前記少なくとも1つのプロセッサに、
入力信号の発声分類を決定することと、ここにおいて前記入力信号はオーディオ信号に対応する、
前記発声分類に基づいて、前記入力信号の表現の包絡の量を制御することと、
前記制御された量の前記包絡に基づいて、ホワイトノイズ信号を変調することと、
前記変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成することと、
行わせる、コンピュータ可読記憶デバイス。
[C26]
前記包絡の前記量を制御することは、前記発声分類に基づいて前記包絡の特性を制御することを含む、C25に記載のコンピュータ可読記憶デバイス。
[C27]
前記包絡の特性は、前記包絡の周波数範囲を含み、前記包絡の前記周波数範囲は、前記入力信号の前記表現に適用されたフィルタのカットオフ周波数に基づいて制御される、C26に記載のコンピュータ可読記憶デバイス。
[C28]
入力信号の発声分類を決定するための手段と、ここにおいて前記入力信号はオーディオ信号に対応する、
前記発声分類に基づいて、前記入力信号の表現の包絡の量を制御するための手段と、
前記制御された量の前記包絡に基づいて、ホワイトノイズ信号を変調するための手段と、
前記変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成するための手段と、
を備える、装置。
[C29]
前記入力信号の表現は、前記入力信号の低帯域励起信号、前記入力信号の高帯域励起信号、またはハーモニカルに拡張された励起信号を含み、前記ハーモニカルに拡張された励起信号は、前記入力信号の前記低帯域励起信号から生成される、C28に記載の装置。
[C30]
前記決定するための手段、前記制御するための手段、前記変調するための手段、および前記生成するための手段は、モバイル通信デバイス、スマートフォン、セルラ電話、ラップトップコンピュータ、コンピュータ、タブレット、パーソナルデジタルアシスタント、ディスプレイデバイス、テレビジョン、ゲーム機、音楽プレイヤ、ラジオ、デジタルビデオプレイヤ、デジタルビデオディスク(DVD)プレイヤ、チューナ、カメラ、ナビゲーションデバイス、コーダ、およびデコーダ、のうちの1つに統合される、C28に記載の装置。

Claims (30)

  1. デバイスで、入力信号の発声分類を決定することと、ここにおいて前記入力信号はオーディオ信号に対応する、
    前記発声分類に基づいて、前記入力信号の表現の包絡の量を制御することと、
    前記制御された量の前記包絡に基づいて、ホワイトノイズ信号を変調することと、
    前記変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成することと、
    を備える、方法。
  2. 前記包絡の前記量を制御することは、前記包絡の特性を制御することを含む、請求項1に記載の方法。
  3. 前記包絡の前記特性は、前記包絡の形状、前記包絡の大きさ、前記包絡の利得、または前記包絡の周波数範囲のうちの少なくとも1つを含む、請求項2に記載の方法。
  4. 前記包絡の前記形状のバリエーションの程度は、前記発声分類が強力な無声に対応するときよりも、前記発声分類が強力な有声に対応するときの方が、より大きい、請求項3に記載の方法。
  5. 前記包絡の前記周波数範囲は、前記入力信号の前記表現に適用されたフィルタのカットオフ周波数に基づいて制御される、請求項3に記載の方法。
  6. 前記発声分類に基づいて前記カットオフ周波数を決定することをさらに備える、請求項5に記載の方法。
  7. 前記フィルタはローパスフィルタを含み、前記カットオフ周波数は、前記発声分類が強力な無声に対応するときよりも、前記発声分類が強力な有声に対応するときの方が、より大きい、請求項6に記載の方法。
  8. 前記デバイスはデコーダまたはエンコーダである、請求項1に記載の方法。
  9. 前記包絡は時間変動する包絡である、請求項1に記載の方法。
  10. 前記包絡は、前記入力信号のフレーム毎に1回よりも多い回数更新される、請求項9に記載の方法。
  11. 前記包絡は、包絡調整器が前記オーディオ信号の各サンプルを受信したことに応答して更新される、請求項9に記載の方法。
  12. 前記包絡は、変換ドメインにおいて前記入力信号の前記表現を調整することによって調整される、請求項1に記載の方法。
  13. 前記入力信号の前記表現は、前記オーディオ信号の符号化されたバージョンの低帯域励起信号、または前記オーディオ信号の前記符号化されたバージョンの高帯域励起信号を含む、請求項1に記載の方法。
  14. 前記入力信号の前記表現は、ハーモニカルに拡張された励起信号を含み、前記ハーモニカルに拡張された励起信号は前記オーディオ信号の符号化されたバージョンの低帯域励起信号から生成される、請求項1に記載の方法。
  15. 変調されていないホワイトノイズ信号の第1の比率を前記変調されたホワイトノイズ信号の第2の比率を組み合わせることによってスケーリングされたホワイトノイズ信号を生成することをさらに備え、前記第1の比率および前記第2の比率は、前記発声分類に基づいて決定され、前記高帯域励起信号は前記スケーリングされたホワイトノイズ信号に基づく、請求項1に記載の方法。
  16. 入力信号の発声分類を決定するように構成された発声分類器と、ここにおいて前記入力信号はオーディオ信号に対応する、
    前記発声分類に基づいて、前記入力信号の表現の包絡の量を制御するように構成された包絡調整器と、
    前記制御された量の前記包絡に基づいて、ホワイトノイズ信号を変調するように構成された変調器と、
    前記変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成するように構成された出力回路と、
    を備える、装置。
  17. 前記包絡調整器は、前記発声分類に基づいて前記包絡の特性を制御するように構成され、前記包絡の前記特性は、前記包絡の形状、前記包絡の大きさ、前記包絡の利得、および前記包絡の周波数範囲のうちの少なくとも1つを含む、請求項16に記載の装置。
  18. 前記包絡の前記形状、前記包絡の前記大きさ、および前記包絡の前記利得のうちの少なくとも1つは、前記発声分類に基づいて線形予測コーディング(LPC)係数の1つ以上の極点を調節することによって制御される、請求項17に記載の装置。
  19. 前記包絡の前記形状、前記包絡の前記大きさ、および前記包絡の前記利得のうちの少なくとも1つは、前記発声分類に基づいてフィルタの係数を調整することによって制御され、前記フィルタは、前記変調されたホワイトノイズ信号を生成するために前記ホワイトノイズ信号に前記変調器によって適用される、請求項17に記載の装置。
  20. 前記入力信号の前記表現は、前記入力信号の低帯域励起信号を含む、請求項16に記載の装置。
  21. 前記入力信号の前記表現は、前記入力信号の高帯域励起信号を含む、請求項16に記載の装置。
  22. 前記入力信号の前記表現は、ハーモニカルに拡張された励起信号を含む、請求項16に記載の装置。
  23. 前記ハーモニカルに拡張された励起信号は、前記入力信号の低帯域励起信号から生成される、請求項22に記載の装置。
  24. 前記高帯域励起信号に基づいて、オーディオ信号の高帯域部分を符号化するように構成された高帯域エンコーダと、
    別のデバイスに符号化されたオーディオ信号を送信するように構成された送信機と、ここにおいて前記符号化されたオーディオ信号は前記オーディオ信号の符号化されたバージョンである、
    をさらに備える、請求項16に記載の装置。
  25. 命令を記憶するコンピュータ可読記憶デバイスであって、前記命令が少なくとも1つのプロセッサによって実行されるとき、前記少なくとも1つのプロセッサに、
    入力信号の発声分類を決定することと、ここにおいて前記入力信号はオーディオ信号に対応する、
    前記発声分類に基づいて、前記入力信号の表現の包絡の量を制御することと、
    前記制御された量の前記包絡に基づいて、ホワイトノイズ信号を変調することと、
    前記変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成することと、
    行わせる、コンピュータ可読記憶デバイス。
  26. 前記包絡の前記量を制御することは、前記発声分類に基づいて前記包絡の特性を制御することを含む、請求項25に記載のコンピュータ可読記憶デバイス。
  27. 前記包絡の特性は、前記包絡の周波数範囲を含み、前記包絡の前記周波数範囲は、前記入力信号の前記表現に適用されたフィルタのカットオフ周波数に基づいて制御される、請求項26に記載のコンピュータ可読記憶デバイス。
  28. 入力信号の発声分類を決定するための手段と、ここにおいて前記入力信号はオーディオ信号に対応する、
    前記発声分類に基づいて、前記入力信号の表現の包絡の量を制御するための手段と、
    前記制御された量の前記包絡に基づいて、ホワイトノイズ信号を変調するための手段と、
    前記変調されたホワイトノイズ信号に基づいて、高帯域励起信号を生成するための手段と、
    を備える、装置。
  29. 前記入力信号の表現は、前記入力信号の低帯域励起信号、前記入力信号の高帯域励起信号、またはハーモニカルに拡張された励起信号を含み、前記ハーモニカルに拡張された励起信号は、前記入力信号の前記低帯域励起信号から生成される、請求項28に記載の装置。
  30. 前記決定するための手段、前記制御するための手段、前記変調するための手段、および前記生成するための手段は、モバイル通信デバイス、スマートフォン、セルラ電話、ラップトップコンピュータ、コンピュータ、タブレット、パーソナルデジタルアシスタント、ディスプレイデバイス、テレビジョン、ゲーム機、音楽プレイヤ、ラジオ、デジタルビデオプレイヤ、デジタルビデオディスク(DVD)プレイヤ、チューナ、カメラ、ナビゲーションデバイス、コーダ、およびデコーダ、のうちの1つに統合される、請求項28に記載の装置。
JP2016565290A 2014-04-30 2015-03-31 高帯域励起信号生成 Active JP6599362B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/265,693 2014-04-30
US14/265,693 US9697843B2 (en) 2014-04-30 2014-04-30 High band excitation signal generation
PCT/US2015/023483 WO2015167732A1 (en) 2014-04-30 2015-03-31 High band excitation signal generation

Publications (3)

Publication Number Publication Date
JP2017517029A true JP2017517029A (ja) 2017-06-22
JP2017517029A5 JP2017517029A5 (ja) 2018-04-12
JP6599362B2 JP6599362B2 (ja) 2019-10-30

Family

ID=52829451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016565290A Active JP6599362B2 (ja) 2014-04-30 2015-03-31 高帯域励起信号生成

Country Status (28)

Country Link
US (2) US9697843B2 (ja)
EP (1) EP3138096B1 (ja)
JP (1) JP6599362B2 (ja)
KR (2) KR102433713B1 (ja)
CN (2) CN106256000B (ja)
AR (1) AR099952A1 (ja)
AU (1) AU2015253721B2 (ja)
BR (1) BR112016024971B1 (ja)
CA (1) CA2944874C (ja)
CL (1) CL2016002709A1 (ja)
DK (1) DK3138096T3 (ja)
ES (1) ES2711524T3 (ja)
HU (1) HUE041343T2 (ja)
IL (1) IL248562B (ja)
MX (1) MX361046B (ja)
MY (1) MY192071A (ja)
NZ (1) NZ724656A (ja)
PH (1) PH12016502137A1 (ja)
PL (1) PL3138096T3 (ja)
PT (1) PT3138096T (ja)
RU (1) RU2683632C2 (ja)
SA (1) SA516380088B1 (ja)
SG (1) SG11201607703PA (ja)
SI (1) SI3138096T1 (ja)
TR (1) TR201901357T4 (ja)
TW (1) TWI643186B (ja)
WO (1) WO2015167732A1 (ja)
ZA (1) ZA201607459B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102138320B1 (ko) 2011-10-28 2020-08-11 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
CN103516440B (zh) * 2012-06-29 2015-07-08 华为技术有限公司 语音频信号处理方法和编码装置
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
FR3008533A1 (fr) 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
CN105096958B (zh) 2014-04-29 2017-04-12 华为技术有限公司 音频编码方法及相关装置
US9697843B2 (en) 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
KR101837153B1 (ko) 2014-05-01 2018-03-09 니폰 덴신 덴와 가부시끼가이샤 주기성 통합 포락 계열 생성 장치, 주기성 통합 포락 계열 생성 방법, 주기성 통합 포락 계열 생성 프로그램, 기록매체
CN105225666B (zh) 2014-06-25 2016-12-28 华为技术有限公司 处理丢失帧的方法和装置
US9984699B2 (en) * 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
CN108198571B (zh) * 2017-12-21 2021-07-30 中国科学院声学研究所 一种基于自适应带宽判断的带宽扩展方法及系统
JP6903242B2 (ja) * 2019-01-31 2021-07-14 三菱電機株式会社 周波数帯域拡張装置、周波数帯域拡張方法、及び周波数帯域拡張プログラム
CN114171035A (zh) * 2020-09-11 2022-03-11 海能达通信股份有限公司 抗干扰方法及装置
US11682406B2 (en) * 2021-01-28 2023-06-20 Sony Interactive Entertainment LLC Level-of-detail audio codec

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002508526A (ja) * 1998-03-25 2002-03-19 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 狭帯域言語信号からの広帯域言語合成

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4764966A (en) * 1985-10-11 1988-08-16 International Business Machines Corporation Method and apparatus for voice detection having adaptive sensitivity
JP3343965B2 (ja) 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
ZA946674B (en) * 1993-09-08 1995-05-02 Qualcomm Inc Method and apparatus for determining the transmission data rate in a multi-user communication system
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
US6078880A (en) * 1998-07-13 2000-06-20 Lockheed Martin Corporation Speech coding system and method including voicing cut off frequency analyzer
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6665403B1 (en) * 1999-05-11 2003-12-16 Agere Systems Inc. Digital gyrator
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US7222070B1 (en) * 1999-09-22 2007-05-22 Texas Instruments Incorporated Hybrid speech coding and system
SI1278549T1 (sl) * 2000-05-02 2009-04-30 Theravance Inc Sestavek, ki vsebuje ciklodekstrin in glikopeptidni antibiotik
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
US7363219B2 (en) * 2000-09-22 2008-04-22 Texas Instruments Incorporated Hybrid speech coding and system
GB2370435A (en) * 2000-12-22 2002-06-26 Nokia Mobile Phones Ltd A polar loop transmitter for a mobile phone
EP1256937B1 (en) * 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
US20020184009A1 (en) * 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US6956914B2 (en) * 2001-09-19 2005-10-18 Gennum Corporation Transmit amplitude independent adaptive equalizer
US6985857B2 (en) * 2001-09-27 2006-01-10 Motorola, Inc. Method and apparatus for speech coding using training and quantizing
US6937978B2 (en) * 2001-10-30 2005-08-30 Chungwa Telecom Co., Ltd. Suppression system of background noise of speech signals and the method thereof
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP3918734B2 (ja) * 2002-12-27 2007-05-23 ヤマハ株式会社 楽音発生装置
WO2004084179A2 (en) 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Adaptive correlation window for open-loop pitch
DE602004029786D1 (de) * 2003-06-30 2010-12-09 Koninkl Philips Electronics Nv Verbesserung der qualität von dekodierten audio mittels hinzufügen von geräusch
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
NZ562182A (en) 2005-04-01 2010-03-26 Qualcomm Inc Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal
KR101118217B1 (ko) * 2005-04-19 2012-03-16 삼성전자주식회사 오디오 데이터 처리 장치 및 방법
TWI324336B (en) * 2005-04-22 2010-05-01 Qualcomm Inc Method of signal processing and apparatus for gain factor smoothing
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8135047B2 (en) 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
ES2778076T3 (es) * 2007-03-05 2020-08-07 Ericsson Telefon Ab L M Método y disposición para suavizar ruido estacionario de fondo
GB0705328D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
US8560307B2 (en) * 2008-01-28 2013-10-15 Qualcomm Incorporated Systems, methods, and apparatus for context suppression using receivers
KR101413967B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
KR101413968B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
WO2010035438A1 (ja) * 2008-09-26 2010-04-01 パナソニック株式会社 音声分析装置および音声分析方法
CN101770776B (zh) * 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
RU2394284C1 (ru) * 2009-03-24 2010-07-10 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи
US8484020B2 (en) 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
KR101826331B1 (ko) 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
US8311817B2 (en) * 2010-11-04 2012-11-13 Audience, Inc. Systems and methods for enhancing voice quality in mobile device
JP5649488B2 (ja) * 2011-03-11 2015-01-07 株式会社東芝 音声判別装置、音声判別方法および音声判別プログラム
CN102201240B (zh) * 2011-05-27 2012-10-03 中国科学院自动化研究所 基于逆滤波的谐波噪声激励模型声码器
US8972251B2 (en) * 2011-06-07 2015-03-03 Qualcomm Incorporated Generating a masking signal on an electronic device
US9264094B2 (en) * 2011-06-09 2016-02-16 Panasonic Intellectual Property Corporation Of America Voice coding device, voice decoding device, voice coding method and voice decoding method
CN104221081B (zh) 2011-11-02 2017-03-15 瑞典爱立信有限公司 带宽扩展音频信号的高频带扩展的生成
US9589576B2 (en) * 2011-11-03 2017-03-07 Telefonaktiebolaget Lm Ericsson (Publ) Bandwidth extension of audio signals
KR101897455B1 (ko) * 2012-04-16 2018-10-04 삼성전자주식회사 음질 향상 장치 및 방법
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9741350B2 (en) * 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
US10137301B2 (en) * 2013-03-11 2018-11-27 Ohio State Innovation Foundation Multi-carrier processing in auditory prosthetic devices
EP2981955B1 (en) * 2013-04-05 2023-06-07 Dts Llc Layered audio coding and transmission
RU2688247C2 (ru) * 2013-06-11 2019-05-21 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для расширения диапазона частот для акустических сигналов
US9384746B2 (en) * 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
GB201406574D0 (en) * 2014-04-11 2014-05-28 Microsoft Corp Audio Signal Processing
US9697843B2 (en) 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002508526A (ja) * 1998-03-25 2002-03-19 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 狭帯域言語信号からの広帯域言語合成

Also Published As

Publication number Publication date
HUE041343T2 (hu) 2019-05-28
MX2016013941A (es) 2017-01-09
KR20170003592A (ko) 2017-01-09
RU2016142184A (ru) 2018-05-30
CN106256000B (zh) 2019-12-24
SA516380088B1 (ar) 2021-01-28
BR112016024971A8 (pt) 2021-07-13
CL2016002709A1 (es) 2017-02-17
KR102433713B1 (ko) 2022-08-17
IL248562B (en) 2020-01-30
TW201606757A (zh) 2016-02-16
IL248562A0 (en) 2016-12-29
MX361046B (es) 2018-11-26
RU2683632C2 (ru) 2019-03-29
AR099952A1 (es) 2016-08-31
ES2711524T3 (es) 2019-05-06
SG11201607703PA (en) 2016-11-29
WO2015167732A1 (en) 2015-11-05
MY192071A (en) 2022-07-25
AU2015253721A1 (en) 2016-10-13
PL3138096T3 (pl) 2019-05-31
TWI643186B (zh) 2018-12-01
TR201901357T4 (tr) 2019-02-21
US20150317994A1 (en) 2015-11-05
US10297263B2 (en) 2019-05-21
DK3138096T3 (en) 2019-02-25
EP3138096B1 (en) 2018-11-14
RU2016142184A3 (ja) 2018-11-09
US9697843B2 (en) 2017-07-04
CN110827842B (zh) 2024-04-02
CN106256000A (zh) 2016-12-21
AU2015253721B2 (en) 2020-05-28
NZ724656A (en) 2021-12-24
PH12016502137A1 (en) 2017-02-06
US20170270942A1 (en) 2017-09-21
BR112016024971A2 (pt) 2017-08-15
CA2944874A1 (en) 2015-11-05
CN110827842A (zh) 2020-02-21
KR20220117347A (ko) 2022-08-23
PT3138096T (pt) 2019-02-25
CA2944874C (en) 2022-09-20
EP3138096A1 (en) 2017-03-08
JP6599362B2 (ja) 2019-10-30
KR102610946B1 (ko) 2023-12-06
BR112016024971B1 (pt) 2022-10-04
SI3138096T1 (sl) 2019-03-29
ZA201607459B (en) 2018-11-28

Similar Documents

Publication Publication Date Title
JP6599362B2 (ja) 高帯域励起信号生成
KR101849871B1 (ko) 고대역 신호 특성에 기초한 시간 이득 조정
KR101988710B1 (ko) 미스매치된 주파수 범위들을 이용한 고-대역 신호 코딩
US9818419B2 (en) High-band signal coding using multiple sub-bands
JP2017511503A (ja) デバイスにおいてコーディング技術を切り替える装置および方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170112

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180305

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191002

R150 Certificate of patent or registration of utility model

Ref document number: 6599362

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250