JP2013515287A

JP2013515287A - 音声帯域拡張方法及び音声帯域拡張システム

Info

Publication number: JP2013515287A
Application number: JP2012545928A
Authority: JP
Inventors: ロゼッロノーバート; クレインファビアン
Original assignee: マインドスピードテクノロジーズインコーポレイテッド
Priority date: 2009-12-21
Filing date: 2010-12-16
Publication date: 2013-05-02
Anticipated expiration: 2030-12-16
Also published as: KR101355549B1; US8447617B2; EP2517202A1; JP5620515B2; US20110153318A1; WO2011084138A1; KR20120107966A; EP2517202B1

Abstract

本発明は、第一帯域音声信号の帯域幅を拡張して、当該第一帯域音声信号より広く、かつ当該第一帯域音声記号を含む第二帯域音声信号を生成する装置及び方法を提供する。本発明の方法は、低域カットオフ周波数と高域カットオフ周波数とを有する第一帯域音声信号のセグメントを受信するステップと、第一帯域音声信号のセグメントの高域カットオフ周波数を特定するステップと、第一帯域音声信号のセグメントが有声及び無声のいずれであるかを判定するステップと、第一帯域音声信号のセグメントが有声である場合に、当該第一帯域音声信号の当該セグメントに第一帯域拡張関数を適用して、高周波における第一帯域拡張を生じさせるステップと、第一帯域音声信号の前記セグメントが無声である場合に、当該第一帯域音声信号の当該セグメントに第二帯域拡張関数を適用して、高周波における第二帯域拡張を生じさせるステップと、第一及び第二帯域拡張を用いて、第一帯域音声信号を高域カットオフ周波数より高く拡張するステップとを含む。

Description

［関連出願の相互参照］本出願は、２００９年１２月２１日に出願された米国仮特許出願第６１／２８４，６２６号に基づく優先権を主張するものであり、この仮特許出願の全体は、参照により本明細書に組み入れられる。

本発明は、概して、信号処理に関するものである。本発明は、特に、音声信号処理に関するものである。

ＶｏＩＰ（Voice Over Internet Protocol）ネットワークは、より良い音声品質をエンドユーザに提供することを目的として、サンプリング周波数を８ｋＨｚから１６ｋＨｚへ倍増させて音声帯域幅を拡げる広帯域音声技術の推進及び展開により進化し続けている。この新しいサンプリングレートは、７．５ｋＨｚ（理論上は８ｋＨｚ）までの新たな高帯域を含むことができ、音声の低周波数領域は５０Ｈｚまで拡張されることになる。その結果、音声の自然さ、識別性、ニュアンス、最終的な耳心地の良さが向上する。つまり、広帯域音声によって、摩擦音の「ｓ」や破裂音の「ｐ」などの特定の音がより正確に聞き取れるようになる。

この新しい技術の用途としては、主に、ヴォイスコール、会議、マルチメディアによるオーディオサービスが挙げられる。広帯域音声技術は、サンプリング周波数が８ｋＨｚ、周波数レンジが２００Ｈｚ〜３４００Ｈｚ（理論上は４ｋＨｚ）の狭帯域音声に基づく従来のキャリアクラスの音声サービスを上回る音声品質の実現を目指している。従来の狭帯域の電話端末では音声の理解性が第一に重視されたのに対して、新たな広帯域の電話端末では音声の心地良さが改善されることになる。広帯域音声技術は、当技術分野において、「高精細（ＨＤ）音声」とも称される。

図１は、広帯域音声周波数帯域幅と従来の旧式の狭帯域音声周波数帯域幅との比較を表す音声周波数帯域１００を示している。図示されているように、広帯域音声周波数帯域幅は、５０Ｈｚ〜７．５ｋＨｚの範囲であるのに対して、従来の旧式の狭帯域音声周波数帯域幅は２００Ｈｚ〜３．４ｋＨｚの範囲である。

しかし、ネットワーク及び端末のインフラストラクチャに広帯域音声が完全に導入されるまでには、中間段階として狭帯域と広帯域とが共存する期間を経なければならない。専門家によると、広帯域音声をサポートできるようインフラ機器をアップグレードするには時間がかかるため、広帯域から狭帯域への移行期間は７年にも及ぶと予想されている。この中間段階の間において、すなわち狭帯域音声と広帯域音声とが共存するシステムにおいて、音声品質を向上するために、信号処理の研究者によっていくつかのモデルが提案されている。これらの多くは、ＣＥＬＰ音声符号化アルゴリズムに基づいたモデルである。しかしながら、提案されたモデルでは、処理にかかる消費電力が高いにもかかわらず、わずかな性能向上しか得られないといった問題がある。

したがって、当技術分野においては、狭帯域と広帯域とが共存する中間段階の期間に対応して、狭帯域音声と広帯域音声とが共存するシステムの音声品質を効果的に一層改善することが必要とされている。

本発明は、音声帯域拡張システム及び音声帯域拡張方法を提供する。

これらのシステム及び方法は、少なくとも１つの図面と関連付けて概略的に図示及び／又は説明され、特許請求の範囲に完全な形で記載される。

広帯域音声周波数帯域幅と狭帯域音声周波数帯域幅との比較を示す音声周波数帯域の図である。本発明の一実施形態に係る、音声帯域拡張が適用された通信システムにおける狭帯域端末から広帯域端末への音声信号の流れを示す図である。本発明の一実施形態に係る、音声帯域拡張をスペクトログラムで示す図である。本発明の一実施形態に係る、音声帯域拡張システムにおいて狭帯域信号に適用され得る帯域拡張の様々な要素又はステップを示す図である。本発明の一実施形態に係る、高周波帯域拡張に用いられるシグモイド関数の理論形状を示す図である。本発明の一実施形態に係る、期待される区間へのマッピングのために図５の軸が正規化及び中心化されたシグモイド関数の正規形状を示す図である。本発明の一実施形態に係る、最適な高調波を発生させる、動的にスケーリングされたシグモイドを示す図である。本発明の一実施形態に係る、最適な高調波を発生させる、動的にスケーリングされたシグモイドを示す図である。本発明の一実施形態に係る、拡張された新たな音声信号エネルギーを規定範囲内に制御するための３７００Ｈｚハイパスフィルタ及び４０００Ｈｚハイパスフィルタの一例を示す図である。本発明の一実施形態により生成された音声帯域拡張信号の領域を、比較のため、狭帯域音声信号の領域と真の広帯域音声信号との間に配置して示す図である。

本発明の特徴及び利点は、以下の詳細な説明及び添付図面より、当業者により容易に理解されるであろう。

本明細書は、リアルオブジェクトに対応する仮想オブジェクトにアクセスするためのシステム及びその方法を対象とする。以下、本発明の具体的な実施形態について説明する。なお、当業者であれば、本発明が、本明細書において具体的に記載されたものとは別な形で構成され得ることを理解できるだろう。さらに、本発明の明りょう化のために、本発明の具体的な詳細全てが記載されているわけではない。本明細書において記載されていない具体的な詳細は、当業者の知識の範囲内である。本明細書に添付の図面及びその詳細な説明は、単に本発明の例示的な実施形態を対象にするものである。簡潔な説明のため、本発明の原理を利用する他の実施形態については、本明細書に具体的に記載せず、添付図面にも具体的に図示しない。

本発明の様々な実施形態は、新たな広帯域電話端末における広帯域音声品質を向上させるために、従来の狭帯域電話端末から発せられた音声を広帯域音声信号まで拡げる、ＶｏＩＰゲートウェイ及び広帯域電話端末の音声信号処理システム及び音声信号処理方法を提供することを目的とする。本発明の様々な実施形態による新規な音声信号処理アルゴリズムは、「音声帯域拡張（略称：ＳＢＥ又はＢＷＥ）」と称することができる。本発明の様々な実施形態において、狭帯域音声は、高周波及び低周波において拡張され、元々の自然な広帯域音声に近い音声となる。その結果、本発明による広帯域電話端末は、通常の広帯域電話端末が広帯域音声信号を受信する場合と同じ音声品質で、狭帯域音声信号を受信することができる。

図２は、本発明の音声帯域拡張が実現される通信システム２００における狭帯域端末２０５から広帯域端末２３０までの音声信号の流れを示す図である。図２に示されるように、通信システム２００は、狭帯域端末２０５を有する。狭帯域端末２０５は、音声信号受信用のマイクを有する通常の狭帯域ＰＯＴＳ（Plain Old Telephone System）電話とすることができる。第一周波数スペクトルは、周波数レンジが２００Ｈｚ〜３４００Ｈｚの第一狭帯域音声信号２０１を示し、第二周波数スペクトルは、周波数レンジがそれぞれ５０Ｈｚ〜２００Ｈｚ、３４００Ｈｚ〜７５００Ｈｚである第一広帯域音声信号２０２Ａ、２０２Ｂを示していない。第一狭帯域音声信号２０１は、ＰＳＴＮネットワーク２１０を通過して、第一メディアゲートウェイ２１５に送られる。第一メディアゲートウェイ２１５において、第一狭帯域音声信号２０１は、狭帯域エンコーダ２１６を用いて符号化され、Ｇ．７１１、Ｇ．７２９、Ｇ．７２３．１などの音声符号化技術を用いて符号化された狭帯域信号が生成される。符号化された狭帯域信号はその後、パケットネットワーク２２０を介して伝送され、第二メディアゲートウェイ２２５に送られる。第二メディアゲートウェイ２２５において、狭帯域デコーダ２２５が、第一狭帯域音声信号２０１を合成又は再生成するために、符号化された狭帯域信号を復号し、合成された狭帯域音声信号を生成する。この時、本発明の一実施形態では、第二メディアゲートウェイ２２５が、帯域拡張アルゴリズムを合成された狭帯域音声信号に適用し、周波数レンジが２００Ｈｚ〜３４００Ｈｚの第二狭帯域音声信号２２８と、周波数レンジがそれぞれ５０Ｈｚ〜２００Ｈｚ、３４００Ｈｚ〜７５００Ｈｚである第二広帯域音声信号２２９Ａ、２２９Ｂとを生成する。その後、周波数レンジが５０Ｈｚ〜７５００Ｈｚの音声信号が、広帯域端末２３０に送信されて、スピーカを通じてユーザに向けて再生される。本発明の帯域拡張アルゴリズムは、第二メディアゲートウェイ２２５において適用されるものとして説明したが、当該帯域拡張アルゴリズムは、音声信号が広帯域端末２３０で再生される前の、第二メディアゲートウェイ２２５を含む任意のコンピュータデバイスに適用され得る。

図３は、本発明の音声帯域拡張をスペクトログラムで示す図である。第一領域３１０は、従来の端末による８ｋＨｚの狭帯域信号の伝送を示す。第二領域３２０は、本発明の一実施形態に従って音声帯域拡張が実現された様子を示し、高帯域拡張３１７及び低帯域拡張３１９により、第一領域３１０の狭帯域信号が拡張されている。本発明の一実施形態において、音声帯域拡張アルゴリズムは、低周波数帯域拡張３１９ではなく高周波数帯域拡張３１７のみを実現し得る。第三領域３２０は、第一領域３１０との比較のため、１６ｋＨｚの完全な広帯域周波数を示す。

図４は、音声帯域拡張システム４００において狭帯域信号に適用され得る帯域拡張の様々な要素又はステップを示す図である。これらの要素又はステップはいずれも、コントローラ、マイクロプロセッサ、又は中央処理装置（ＣＰＵ）を用いて、ハードウェア及びソフトウェアで実現することができる。一例として、ＡＲＭコア技術を搭載したＭｉｎｄｓｐｅｅｄ（登録商標）社のＣｏｍｃｅｒｔｏとして実現することができる。

説明の簡略化のため、音声帯域拡張システム４００を、４つの主な要素又はステップで図示し説明する。これらの４つの要素又はステップとは、（１）信号の低域カットオフ周波数及び高域カットオフ周波数を特定する前処理（４１０）の要素又はステップ、（２）本発明の一実施形態において、最適な拡張を行うため、ノイズ／無声と、音声と、音楽とを区別する信号分類（４２０）の要素又はステップ、（３）低周波及び高周波に対する最適化された適応信号拡張（４３０）の要素又はステップ、そして（４）円滑な狭帯域信号との混合、イコライゼーション、そして利得適応などの、最終的な品質保証のための短期的及び長期的な後処理（４４０）の要素又はステップ、である。

前処理（４１０）の要素又はステップは、一実施形態において、０〜３００Ｈｚの低周波音声信号の有無を検出可能なローパスフィルタと、３２００Ｈｚを超える高周波の有無を検出可能なハイパスフィルタとを有する。低周波及び高周波においてカットオフされた狭帯域信号の検出又は特定は、後述するような、低周波及び高周波において帯域拡張された信号を既存の狭帯域信号と結合又は接続するための短期的及び長期的な後処理（４４０）の要素又はステップにおける更なる処理で利用され得る。例えば、低周波において、信号が０〜３００Ｈｚの間の何処で減衰するかが特定され、高周波において、カットオフ周波数が３２００〜４０００Ｈｚの何処で生じるかが特定され得る。

信号分類（４２０）の要素又はステップに関しては、上述したように、一実施形態において、拡張型音声アクティビティ検出器（ＶＡＤ）を用いて、ノイズと、音声と、音楽とを区別することができる。他実施形態においては、通常のＶＡＤを用いて、ノイズと音声とを区別することができる。ＶＡＤを、エネルギーと、ゼロ交差と、スペクトルの平坦度を算出するためのスペクトルの傾きとを用いるように拡張し、音声がノイズへの移行のため突然カットオフされることのないより円滑な切り換えを実現することもでき、例えば、音声のオーバーハング期間が長くなり得る。

最適な適応信号拡張（４３０）の要素又はステップは、高周波拡張の要素又はステップと、低周波拡張の要素とに分けることができる。

高周波拡張の要素又はステップに関する信号処理の理論的基礎は以下のように説明される。本発明の一実施形態では、高周波での音声帯域拡張において、周波数領域にマッピングされた非線形信号成分が利用される。１６ビットのサンプリングされた線形信号「x(n) 但し n = 0..N」を、表記の簡略化のため「x」で表すとすれば、下記のようになる。

狭帯域信号を示す信号「ｘ」は、区間［-1, 1］内の値、又は絶対値区間［0, 1］つまり| x | ≦ 1内にマッピングされ、それから［-1, 1］内の値の関数f(x)により変換される。

テイラー級数によれば、f(x)は、極限展開によりxの累乗の線形結合に展開され得る。つまり、下記のようになる。

フーリエ変換の線形性を利用すると以下のようになる。

ここで、F(e^jnθ)関数は、新たな周波数、特に、音声帯域拡張に必要とされる高周波を導くものである。

信号に適用される関数f(x)の選択も重要であり、本発明の一実施形態においては、有声フレーム又は有声の音声セグメントに対しては、以下のようにシグモイド関数が適用される。

パラメータ「a」の関数としたときのシグモイド関数の理論形状は、図５のようになる。そして、図５の軸は、期待される区間［-1, 1］へのマッピングで、正規化及び中心化され、図６のようになる。

この場合、例えば、a = 10の指数スケーリングにおいて中心化されたシグモイド関数は、以下のようになる。

入力信号の振幅に関わらず、新たな周波数を大幅に増やすために、すなわち、低い値がシグモイドの有限の非線形部分に収まり、高い値がより高い非線形部分に収まらないようにするために、本発明の一実施形態では、図７に示されるように、自動利得制御（ＡＧＣ）から得られる瞬時利得を利用し、シグモイドを動的にスケーリングして最適な高調波を発生させる。

本発明の一実施形態において、無声フレーム又は無声の音声セグメントに対しては、有声の音声セグメントとは異なる以下の関数が適用される。

そして、変換された関数f(x)の両結果は最終的に、位相不連続（アーティファクト）を回避し、円滑な拡張音声信号を伝送できるようにするため、以下のようにプログラム可能な２成分のバランスと適応的に混合され得る。

適応バランスは、以下のように定義され得る。

ここで、係数「v」は、以下のように、エネルギーと、ゼロ交差と、傾き測定とを組み合わせたＶＡＤからの音声信号の有声プロフィールの関数における混合比を決定する。

一実施形態において、有声の音声セグメントに対しては、シグモイド関数及び多項式関数の寄与が等しくなるように、q(v)に５０％が選択され、（摩擦音とも称される）無声の音声セグメントに対しては、多項式関数の寄与が大きくなるように、q(v)に１０％が選択される。当然のことながら、５０％及び１０％との値は一例にすぎない。また、時間パラメータ「t」は、２つの移行前状態からの移行を円滑にするために用いられ得る。

なお、少なくともＶＡＤが音楽信号を検出する一実施形態において、有声音声信号及び無声音声信号に用いられるものとは別の関数が、音楽品質の向上のために用いられる。

一方、低周波拡張ではまず、狭帯域信号における低周波の存在がスペクトル分析により特定される。次に、イコライザーは、推定される減衰を補償するため、低周波に対して適応増幅を行う。この処理により、低周波では、ネットワーク減衰（ＩＴＵ勧告Ｐ．８３０、ＭＩＲＳモデルを参照のこと）又は端末減衰から回復する。

４番目の短期的及び長期的な後処理（４０４）の要素又はステップは、適応ハイパスフィルタを用いて、広帯域領域に新たに拡張された高周波（例えば、図２の広帯域信号２２９Ａ、２２９Ｂ）を、既存の狭帯域信号（例えば、図２の狭帯域信号２２８）に結合するために用いられる。この後処理（４０４）の要素又はステップでは、上述したように、最初に特定される狭帯域信号の高周波の存在及び境界を特定する１番目のカットオフ周波数特定（４０１）の要素又はステップの結果が用いられ、一実施形態においては楕円フィルタリングが利用される。好ましい実施形態において、広帯域の高周波信号は、元の狭帯域とその最大値又はカットオフ周波数で結合され、これにより、元の信号の周波数はそのまま維持される。さらに、帯域拡張信号の信号レベルは、例えば４〜５ｄＢといった限られた変動幅で維持される。

図８は、３７００Ｈｚハイパスフィルタ及び４０００Ｈｚハイパスフィルタの一例を示す図である。最終的に広帯域端末に音声帯域拡張信号を伝送する前に、新たな拡張音声信号のエネルギーを例えば４〜５ｄＢの規定範囲内に制御するための適応エネルギー利得に音声信号を通過させてもよい。本発明の一実施形態による完全かつ最終的な音声帯域拡張を、図９の音声帯域拡張信号領域９２０で示す。当該領域９２０は、比較のため、狭帯域音声信号領域９１０と真の広帯域音声信号９３０との間に配置されている。

上述したように、本発明の様々な実施形態は、既存の狭帯域スペクトルに基づいて、高周波の生成及び低周波数スペクトルの復元を行い、真の広帯域音声信号に極めて一致させる。そして、本発明の様々な実施形態は、音声システム密度を最小化するために、例えば、ＣＥＬＰコードブックマッピング拡張モデルよりも低い低複雑度を実現し、音声及び音響をカバーするために、音声からノイズ／音楽までの範囲に柔軟に拡張できる。さらに、本発明の帯域拡張は、サンプリング周波数が１４ｋＨｚ、２０ｋＨｚ、３２ｋＨｚのスーパー広帯域から、「Ｈｉ−Ｆｉ音声」として知られる４４．１ｋＨｚのウルトラ広帯域までの、次世代の広帯域音声信号通信及び広帯域音響信号通信にも適用され得る。つまり、第一帯域音声／音響は、第二帯域音声／音響に拡張することができ、第二帯域広帯域音声／音響は、第一帯域音声／音響よりも拡く、かつ、第一帯域音声／音響を含んでいる。

本発明の上記説明から、様々な技術を用いて、本発明の範囲から逸脱することなく本発明の思想を実施できることは明らかである。また、ここまで、特定の実施形態を具体的に参照しながら本発明を説明してきたが、当業者であれば理解できるように、本発明の趣旨及び範囲から逸脱することなく、形式や細部において変更を加えることは可能である。従って、上述した実施形態は全て例であって限定されるべきものではない。さらに、本発明は、本明細書に記載の特定の実施形態に限定されず、発明の範囲から逸脱することなく、多くの再構成、修正、そして置換が可能であることを理解されたい。

Claims

第一帯域音声信号の帯域幅を拡張して、当該第一帯域音声信号より広く、かつ当該第一帯域音声信号を含む第二帯域音声信号を生成する方法であって、
低域カットオフ周波数と高域カットオフ周波数とを有する前記第一帯域音声信号のセグメントを受信するステップと、
前記第一帯域音声信号の前記セグメントの前記高域カットオフ周波数を特定するステップと、
前記第一帯域音声信号の前記セグメントが有声及び無声のいずれであるかを判定するステップと、
前記第一帯域音声信号の前記セグメントが有声である場合に、当該第一帯域音声信号の当該セグメントに第一帯域拡張関数を適用して、高周波における第一帯域拡張を生じさせるステップと、
前記第一帯域音声信号の前記セグメントが無声である場合に、当該第一帯域音声信号の当該セグメントに第二帯域拡張関数を適用して、前記高周波における第二帯域拡張を生じさせるステップと、
前記第一及び第二帯域拡張を用いて、前記第一帯域音声信号を前記高域カットオフ周波数より高く拡張するステップと
を含む方法。
前記第一帯域音声信号の前記セグメントの前記低域カットオフ周波数を特定するステップと、
前記第一帯域音声信号の前記セグメントの前記低域カットオフ周波数より低い低周波を増幅して、低周波における帯域拡張を生じさせるステップと、
前記低周波における帯域拡張を用いて、前記第一帯域音声信号を前記低域カットオフ周波数より低く拡張するステップと
をさらに含む、請求項１記載の方法。
前記第一帯域音声信号の前記セグメントが有声、無声、及び音楽のいずれであるかを判定するステップと、
前記第一帯域音声信号の前記セグメントが音楽である場合に、当該第一帯域音声信号の当該セグメントに第三帯域拡張関数を適用して、前記高周波における第三帯域拡張を生じさせるステップと
をさらに含む、請求項１記載の方法。
前記第一及び第二帯域拡張を用いる前記ステップは、前記第一帯域音声信号の前記セグメントが無声及び有声のいずれであるかに基づいて、前記第一及び第二帯域拡張の異なる部分を用いる、請求項１記載の方法。
前記第一帯域拡張関数は、

と定義され、xは前記第一帯域音声信号である、請求項１記載の方法。
前記第二帯域拡張関数は、

と定義され、xは前記第一帯域音声信号である、請求項５記載の方法。
前記第一及び第二帯域拡張を用いる前記ステップは、

を用いて、前記第一及び第二帯域拡張を適応的に混合するステップを有し、
適応バランスは、

と定義され、係数「v」は、各関数の混合比を決定する、請求項６記載の方法。
有声の音声セグメントに対しては、前記第一及び第二帯域拡張関数の寄与が等しくなるように、q(v)に５０％が選択される、請求項７記載の方法。
無声の音声セグメントに対しては、前記第二帯域拡張関数の寄与が大きくなるように、q(v)に１０％が選択される、請求項７記載の方法。
前記第二帯域拡張関数は、

と定義され、ｘは前記第一帯域音声信号である、請求項５記載の方法。
第一帯域音声信号の帯域幅を拡張して、当該第一帯域音声信号より広く、かつ当該第一帯域音声記号を含む第二帯域音声信号を生成する装置であって、
低域カットオフ周波数と高域カットオフ周波数とを有する前記第一帯域音声信号のセグメントを受信し、前記第一帯域音声信号の前記セグメントの前記高域カットオフ周波数を特定するように構成されているプリプロセッサと、
前記第一帯域音声信号の前記セグメントが有声及び無声のいずれであるかを判定するように構成されている音声アクティビティ検出器と、
プロセッサと
を備え、当該プロセッサは、
前記第一帯域音声信号の前記セグメントが有声である場合に、当該第一帯域音声信号の当該セグメントに第一帯域拡張関数を適用して、高周波における第一帯域拡張を生じさせ、
前記第一帯域音声信号の前記セグメントが無声の場合に、当該第一帯域音声信号の当該セグメントに第二帯域拡張関数を適用して、前記高周波における第二帯域拡張を生じさせ、
前記第一及び第二帯域拡張を用いて、前記第一帯域音声信号を前記高域カットオフ周波数より高く拡張する
ように構成されている、装置。
前記プリプロセッサはさらに、前記第一帯域音声信号の前記セグメントの前記低域カットオフ周波数を特定するように構成され、
前記プロセッサはさらに、
前記第一帯域音声信号の前記セグメントの前記低域カットオフ周波数より低い低周波を増幅して、低周波における帯域拡張を生じさせ、
前記低周波における帯域拡張を用いて、前記第一帯域音声信号を前記低域カットオフ周波数より低く拡張する
ように構成されている、請求項１１記載の装置。
前記音声アクティビティ検出器はさらに、前記第一帯域音声信号の前記セグメントが有声、無声、及び音楽のいずれであるかを判定するように構成され、
前記プロセッサはさらに、前記第一帯域音声信号の前記セグメントが音楽である場合に、当該第一帯域音声信号の当該セグメントに第三帯域拡張関数を適用して、前記高周波における第三帯域拡張を生じさせるように構成されている、
請求項１１記載の装置。
前記プロセッサは、前記第一帯域音声信号の前記セグメントが無声及び有声のいずれであるかに基づいて、前記第一及び第二帯域拡張の異なる部分を用いるように構成されている、請求項１１記載の装置。
前記第一帯域拡張関数は、

と定義され、xは前記第一帯域音声信号である、請求項１１記載の装置。
前記第二帯域拡張関数は、

と定義され、xは前記第一帯域音声信号である、請求項１５記載の装置。
前記プロセッサは、

を用いて、前記第一及び第二帯域拡張を適応的に混合するように構成され、
適応バランスは、

と定義され、係数「v」は、各関数の混合比を決定する、請求項１６記載の装置。
有声の音声セグメントに対しては、前記第一及び第二帯域拡張関数の寄与が等しくなるように、q(v)に５０％が選択される、請求項１７記載の装置。
無声の音声セグメントに対しては、前記第二帯域拡張関数の寄与が大きくなるように、q(v)に１０％が選択される、請求項１７記載の装置。
前記第二帯域拡張関数は、

と定義され、ｘは前記第一帯域音声信号である、請求項１１記載の装置。