JP2013511743A - 低域オーディオ信号の帯域拡張 - Google Patents

低域オーディオ信号の帯域拡張 Download PDF

Info

Publication number
JP2013511743A
JP2013511743A JP2012539849A JP2012539849A JP2013511743A JP 2013511743 A JP2013511743 A JP 2013511743A JP 2012539849 A JP2012539849 A JP 2012539849A JP 2012539849 A JP2012539849 A JP 2012539849A JP 2013511743 A JP2013511743 A JP 2013511743A
Authority
JP
Japan
Prior art keywords
frequency
audio signal
low
mapping
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012539849A
Other languages
English (en)
Other versions
JP5619177B2 (ja
Inventor
ヴォロージャ グランシャロヴ,
ステファン ブラーン,
ハラルド ポブロス,
シガーダー スヴェリソン,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2013511743A publication Critical patent/JP2013511743A/ja
Application granted granted Critical
Publication of JP5619177B2 publication Critical patent/JP5619177B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Abstract

低域オーディオ信号の高域拡張の推定が、低域オーディオ信号の特徴の1組を抽出するステップ(S1)と、抽出された特徴を一般化加法モデルによって少なくとも1つの高域パラメータへとマッピングするステップ(S2)と、低域オーディオ信号のコピーを高域へと周波数シフトさせるステップ(S3)と、周波数シフト後の低域オーディオ信号のコピーの包絡線を少なくとも1つの高域パラメータによって制御するステップ(S4)とを含む。

Description

本発明は、オーディオコーディングに関し、とくには低域オーディオ信号の帯域拡張に関する。
本発明は、オーディオ信号の帯域拡張(BWE)に関する。BWEの仕組みは、スピーチおよびオーディオのコーディング/デコーディングにおいて、所与のビットレートで知覚品質を改善するために、ますます使用されるようになってきている。BWEの根底にある主な考え方は、オーディオ信号の一部が伝送されないが、デコーダにおいて受信された信号成分から再現される(推定される)ことにある。
このように、BWEの仕組みにおいては、信号スペクトルの一部が、デコーダにおいて再現される。再現は、伝統的なコーディング法を使用して実際に伝送された信号スペクトルの特定の特徴を使用して実施される。典型的には、信号の高域(HB)が、特定の低域(LB)オーディオ信号の特徴から再現される。
LBの特徴とHB信号の特性との間の依存関係が、多くの場合に、例えば[1]および[2]など、混合ガウス分布モデル(GMM)または隠れマルコフモデル(HMM)によってモデル化される。最も頻繁に予測されるHBの特性は、スペクトル包絡線および/または時間包絡線に関係する。
BWEについて、2種類の主要な手法が存在する。
第1の手法においては、HB信号の特性が、特定のLBの特徴からすべて予測される。このようなBWEのやり方では、再現されるHBにアーチファクトが持ち込まれ、場合によっては、結果として、帯域制限信号と比べて品質が低くなることがある。高度なマッピング(例えば、GMMまたはHMMにもとづく)は、未知のデータを有する劣化につながりやすい。一般的な経験として、マッピングが複雑である(学習パラメータの数が多い)ほど、学習セットに存在しない種類のデータを有するアーチファクトが生じがちになる。全体としての予測精度と外れ値(学習セットのデータから著しく外れるデータ、すなわち上手くモデル化することができない成分)の少なさとの間の最適なバランスをもたらす複雑さを有するマッピングを見つけることは、簡単ではない。
第2の手法(一実施例が[3]に示されている)は、HB信号を、LBの特徴と伝送される少量のHB情報との組み合わせから再現することである。HB情報の伝送を含むBWEの仕組みは、(ビットの増加という代価において)性能を向上させる傾向にあるが、伝送されるパラメータと予測されるパラメータとを組み合わせる一般的な仕組みを提供していない。典型的には、1組のHBパラメータが伝送され、もう1組のHBパラメータが予測され、したがって伝送される情報で予測されるパラメータの不具合を補償することができないことを意味する。
本発明の目的は、改善されたBWEの仕組みを実現することにある。
この目的は、添付の特許請求の範囲に従って達成される。
第1の態様によれば、本発明は、低域オーディオ信号の高域拡張を推定する方法に関する。この方法は、以下の工程を含む。低域オーディオ信号の1組の特徴が抽出される。抽出された特徴が、一般化加法モデルによって少なくとも1つの高域パラメータへとマッピングされる。低域オーディオ信号のコピーが、高域へ周波数シフトされる。周波数シフト後の低域オーディオ信号のコピーの包絡線が、少なくとも1つの高域パラメータによって制御される。
第2の態様によれば、本発明は、低域オーディオ信号の高域拡張を推定するための装置に関する。特徴抽出ブロックが、低域オーディオ信号の1組の特徴を抽出するように構成される。マッピングブロックが、以下の構成要素を含み、すなわち、抽出された特徴を一般化加法モデルによって少なくとも1つの高域パラメータへとマッピングするように構成された一般化加法モデルマッピング部と、低域オーディオ信号のコピーを高域へと周波数シフトさせるように構成された周波数シフト部と、周波数シフト後のコピーの包絡線を少なくとも1つの高域パラメータによって制御するように構成された包絡線コントローラとを含む。
第3の態様によれば、本発明は、第2の態様による装置を含むスピーチデコーダに関する。
第4の態様によれば、本発明は、第3の態様によるスピーチデコーダを含むネットワークノードに関する。
提案されるBWEの仕組みの利点は、複雑なマッピングの仕組み(平均性能が良好であるが、外れ値が多量である)とより制約の多いマッピングの仕組み(平均性能はより低いが、よりロバストである)との間の良好なバランスを提供する点にある。
本発明ならびに本発明のさらなる目的および利点を、以下の説明を参照し、添付の図面と併せて検討することによって、最もよく理解することができる。
本発明の実施形態によるスピーチデコーダを含むコーディング/デコーディングの機構の実施形態を説明するブロック図である。 A〜Cは一般化加法モデルの原理を説明する図である。 HB拡張を生成するための本発明による装置の実施形態を説明するブロック図である。 本発明の実施形態に従って一般化加法モデルによって得られる高域パラメータの実施例を説明する図である。 本発明の別の実施形態における抽出に適した特徴の定義を説明する図である。 図5に示した特徴にもとづいてHB拡張を生成するために適した本発明による装置の実施形態を説明するブロック図である。 図5に示した特徴にもとづいて本発明の実施形態による一般化加法モデルによって得られる高域パラメータの実施例を説明する図である。 本発明の別の実施形態によるスピーチデコーダを含むコーディング/デコーディングの機構の別の実施形態を説明するブロック図である。 本発明のさらなる実施形態によるスピーチデコーダを含むコーディング/デコーディングの機構のさらなる実施形態を説明するブロック図である。 HB拡張を生成するための本発明による装置の別の実施形態を説明するブロック図である。 HB拡張を生成するための本発明による装置のさらなる実施形態を説明するブロック図である。 本発明によるスピーチデコーダの実施形態を含むネットワークノードの実施形態を説明するブロック図である。 本発明によるスピーチデコーダの実施形態を説明するブロック図である。 本発明による方法の実施形態を説明するフロー図である。
図面において、同じまたは類似の機能を有する構成要素には、同じ参照符号が添えられている。
以下では、一組のLBの特徴、およびにそれらを使用してマッピングによって信号のHB部分を推定することを説明する。さらに、伝送されるHB情報をどのようにマッピングの制御に使用できるのかも説明する。
図1は、本発明の実施形態によるスピーチデコーダを含むコーディング/デコーディングの機構の実施形態を説明するブロック図である。スピーチエンコーダ1が、ソースオーディオ信号s(典型的には、ソースオーディオ信号のフレーム)を受信し、このソースオーディオ信号が、オーディオ信号を低域部分sLBおよび高域部分sHBへと分割する分析フィルタバンク10へと転送される。この実施形態においては、HB部分は廃棄される(すなわち、分析フィルタバンクが、単に低域通過フィルタを備えることができることを意味する)。オーディオ信号のLB部分sLBが、LBエンコーダ12(典型的には符号励振線形予測(CELP)エンコーダ、例えば代数符号励振線形予測(ACELP)エンコーダ)においてエンコードされ、コードがスピーチデコーダ2へと送信される。ACELPコーディング/デコーディングの実施例を、[4]に見ることができる。スピーチデコーダ2によって受信されたコードは、LBデコーダ14(典型的にはCELPデコーダ、例えばACELPデコーダ)においてデコードされ、sLBに対応する低域オーディオ信号
Figure 2013511743

がもたらされる。この低域オーディオ信号
Figure 2013511743

が、
Figure 2013511743

信号の1組の特徴FLB(後述)を抽出する特徴抽出ブロック16へと送られる。抽出された特徴FLBが、それらを一般化加法モデル(後述)によって少なくとも1つの高域パラメータ(後述)へとマッピングするマッピングブロック18へと送られる。HBパラメータが、高域へと周波数シフトされたLBオーディオ信号
Figure 2013511743

のコピーの包絡線を制御するために使用され、廃棄されたHB部分sHBの予測または推定
Figure 2013511743

がもたらされる。信号
Figure 2013511743

および
Figure 2013511743

が、元のソースオーディオ信号の推定
Figure 2013511743

を再現する合成フィルタバンク20へと送られる。特徴抽出ブロック16およびマッピングブロック18が協働し、HB拡張を生成するための装置30(さらには後述)を形成する。
以下に提示される例示的なLBオーディオ信号の特徴(ローカル特徴と称される)が、特定のHB信号の特性を予測するために使用される。すべての特徴または例示される特徴の部分集合を、使用することが可能である。これらのローカル特徴はすべて、フレームごとのやり方で計算され、ローカル特徴の動態は先のフレームからの情報も含む。以下では、nがフレームの指数であり、lがサンプルの指数であり、s(n,l)がスピーチサンプルである。
最初の2つの例示的な特徴は、スペクトルの傾斜および傾斜の動態に関する。これらは、エネルギーの周波数分布の指標である。
Figure 2013511743
次の2つの例示的な特徴は、ピッチ(スピーチ基本周波数)およびピッチの動態の指標である。最適な遅延のために、調査はτMINおよびτMAXによって意味のあるピッチ範囲(例えば、50〜400Hz)に限定される。
Figure 2013511743
第5および第6の例示的な特徴は、信号中の音調成分と雑音状成分との間のバランスを反映する。ここで、σACB およびσFCB は、CELPコーデック(例えば、ACELPコーデック)における適応コードブックおよび固定コードブックのエネルギーであり、σ は、励振信号のエネルギーである。
Figure 2013511743
この例示的な組の最後のローカル特徴は、エネルギーの動態をフレームごとのやり方で取り込む。ここで、σ が、スピーチフレームのエネルギーである。
Figure 2013511743
マッピングにおいて使用されるこれらのローカル特徴はすべて、マッピングに先立って、以下のようにスケーリングされ、
Figure 2013511743

ΨMINおよびΨMAXは、あらかじめ定められた定数であり、所与の特徴の最小値および最大値に相当する。これにより、特徴の組
Figure 2013511743

が抽出される。
本発明によれば、ローカル特徴からのHB拡張の推定が、一般化加法モデルにもとづく。この理由で、この考え方を、図2A〜Cを参照して簡単に説明する。一般化加法モデルについてのさらなる詳細を、例えば[5]に見つけることができる。
統計学においては、パラメータの挙動を推定するために、回帰モデルが使用されることが多い。単純なモデルは、線形モデル
Figure 2013511743

であり、ここで
Figure 2013511743

は、(ランダム)変数X,・・・,Xに依存する変数Yの推定値である。これが、M=2について、図2Aに示されている。この場合には、
Figure 2013511743

は平面になる。
線形モデルの特徴は、合計におけるそれぞれの項が、ただ1つの変数に線形に従属する点にある。この特徴の一般化は、そのような線形関数(のうちの少なくとも1つ)を非線形関数(それぞれは、依然としてただ1つの変数に従属する)へと変更することである。これにより、加法モデル
Figure 2013511743

が導かれる。
この加法モデルが、M=2について、図2Bに示されている。この場合、
Figure 2013511743

を表わす表面が、湾曲する。関数f(X)が、典型的には、図2Bに示されるようなシグモイド関数(おおむね「S」字形の関数)である。シグモイド関数の実施例は、ロジスティック関数、コンペルツ曲線、オジー曲線、および双曲正接関数である。シグモイド関数を規定するパラメータを変えることによって、シグモイド形状を、最小値および最大値の間の近似の線形な形状から、同じ最小値および最大値の間の近似の階段関数へと、連続的に変化させることができる。
さらなる一般化が、一般化加法モデル
Figure 2013511743

によって得られ、ここでg(・)はリンク関数と呼ばれる。これが、図2Cに示されており、表面
Figure 2013511743

がさらに変更されている(
Figure 2013511743

が、式(11)の両側の逆関数g−1(・)(典型的には、やはりシグモイドである)をとることによって得られている)。リンク関数g(・)が恒等関数である特別な場合においては、式(11)が式(10)へと還元される。どちらの場合も興味深いため、本発明の目的において、「一般化加法モデル」は恒等リンク関数の場合も含む。しかしながら、上述のように、関数f(X)のうちの少なくとも1つが非線形であることで、モデルが非線形になる(表面
Figure 2013511743

が湾曲する)。
本発明の実施形態においては、式(1)〜(8)に従って得られた7つの(正規化された)特徴
Figure 2013511743

が、圧縮された(知覚的に動機付けられた)ドメインにおけるHBおよびLBのエネルギーの間の比Y(n)を推定するために使用される。この比は、さらに後述されるように、時間包絡線またはスペクトル包絡線の特定の部分あるいは全体としてのゲインに相当することができる。一実施例は、
Figure 2013511743

であり、ここでβを、例えばβ=0.2として選択することができる。別の実施例は、
Figure 2013511743

である。
式(12)および(13)においては、パラメータβおよびlog10関数が、エネルギーの比を圧縮された「知覚的に動機付けられた」ドメインへと変換するために使用される。この変換は、人間の耳のほぼ対数状の感度特性を考慮するために実施される。
デコーダにおいてエネルギーEHB(n)を入手することができないため、比Y(n)が予測または推定される。これは、抽出されたLBの特徴および一般化加法モデルにもとづいてy(n)の推定値
Figure 2013511743

をモデル化することによって行なわれる。一実施例が、
Figure 2013511743

によって与えられ、ここでMは、上述のように抽出されたローカル特徴により、M=7である(より少数の特徴でも実現可能である)。式(11)との比較から、
Figure 2013511743

が、変数X,・・・,Xに対応し、関数fが、合計の各項(モデルパラメータ
Figure 2013511743

および恒等リンク関数によって定められるシグモイド関数である)に対応することが、明らかである。一般化加法モデルのパラメータωおよびωは、デコーダに保存され、スピーチフレームのデータベースを学習することによって得られている。学習の手順は、スピーチデータベースについて式(14)によって推定される比
Figure 2013511743

と式(12)(または(13))によって与えられる実際の比Y(n)との間の誤差を最小にすることによって、適切なパラメータωおよびωを発見する。適切な方法(とくにシグモイドパラメータについて)は、例えば[6]に記載のLevenberg−Marquardt法である。
図3は、HB拡張を生成するための本発明による装置30の実施形態を説明するブロック図である。装置30は、低域オーディオ信号の1組の特徴
Figure 2013511743

を抽出するように構成された特徴抽出ブロック16を含んでいる。特徴抽出ブロック16へと接続されたマッピングブロック18が、抽出された特徴を一般化加法モデルによって高域パラメータ
Figure 2013511743

へとマッピングするように構成された一般化加法モデルマッピング部32を含んでいる。図示の実施形態においては、低域オーディオ信号
Figure 2013511743

のコピーについて高域への周波数シフトを行なうように構成された周波数シフト部34が、マッピングブロック18に含まれている。図示の実施形態においては、マッピングブロック18が、周波数シフト後のコピーの包絡線を高域パラメータ
Figure 2013511743

によって制御するように構成された包絡線コントローラ36をさらに含んでいる。
図4は、本発明の実施形態に従って一般化加法モデルによって得られる高域パラメータの実施例を説明する図である。図4は、推定された比(ゲイン)
Figure 2013511743

が、どのように周波数シフト後のLB信号のコピーの包絡線を制御するために使用されるのか(この場合には、周波数ドメインにおいて)を示している。破線が、LB信号の元のままのゲイン(1.0)を示している。このように、この実施形態においては、HB拡張が、信号の単一の推定されたゲイン
Figure 2013511743

を周波数シフト後のLB信号のコピーへと適用することによって得られる。
図5は、本発明の別の実施形態における抽出に適した特徴の定義を説明する図である。この実施形態は、LB信号の2つの特徴F、Fだけを抽出する。
図5に示した実施形態においては、特徴Fが、

Figure 2013511743

によって定義され、ここで
10.0−11.6は、10.0〜11.6kHzの周波数帯における低域オーディオ信号のエネルギーの推定値であり、
8.0−11.6は、8.0〜11.6kHzの周波数帯における低域オーディオ信号のエネルギーの推定値である。
さらに、図5に示した実施形態においては、特徴Fが、
Figure 2013511743

によって定義され、ここで
8.0−11.6は、8.0〜11.6kHzの周波数帯における低域オーディオ信号のエネルギーの推定値であり、
0.0−11.6は、0.0〜11.6kHzの周波数帯における低域オーディオ信号のエネルギーの推定値である。
特徴F、Fは、スペクトルの傾斜を表わし、上述の特徴
Figure 2013511743

に類似しているが、時間ドメインにおいてではなく、周波数ドメインにおいて決定される。さらに、LB信号の他の周波数区間について特徴F、Fを決定することも、実現可能である。しかしながら、本発明のこの実施形態においては、F、Fが、低域オーディオ信号のスペクトルの異なる部分の間のエネルギーの比を表わすことが不可欠である。
抽出された特徴F、Fを使用して、今やマッピング部32が、特徴F、FのHBパラメータ
Figure 2013511743

へのマッピングを、一般化加法モデル
Figure 2013511743

を使用して行うことができ、ここで
Figure 2013511743

k=1,・・・,Kは、周波数シフト後の低域オーディオ信号のコピーのK個のあらかじめ定められた周波数帯について包絡線を制御するゲインを規定する高域パラメータであり、
{w0k,w1mk,w2mk,w3mk}は、それぞれの高域パラメータ
Figure 2013511743

についてのシグモイド関数を定義するマッピング係数の組であり、
(m=1,2)は、低域オーディオ信号のスペクトルの異なる部分の間のエネルギーの比を表わす低域オーディオ信号の特徴である。
図6は、図5に示した特徴にもとづいてHB拡張を生成するために適した本発明による装置の実施形態を説明するブロック図である。この実施形態は、図3の実施形態と同様の構成要素を含んでいるが、この場合には、それらの構成要素が、特徴F、Fを単一のゲイン
Figure 2013511743

にではなく、K個のゲイン
Figure 2013511743

へとマッピングするように構成されている。
図7は、図5に示した特徴にもとづいて本発明の実施形態による一般化加法モデルによって得られる高域パラメータの実施例を説明する図である。この実施例においては、周波数シフト後の低域オーディオ信号のコピーの4つのあらかじめ定められた周波数帯についての包絡線を制御する、K=4である4つのゲイン
Figure 2013511743

が存在している。すなわち、この実施例では、HBの包絡線が、図4の実施例の単一のパラメータ
Figure 2013511743

によってではなく、4つのパラメータ
Figure 2013511743

によって制御される。より少数およびより多数のパラメータも、実現可能である。
図8は、本発明の別の実施形態によるデコーダを含むコーディング/デコーディングの機構の別の実施形態を説明するブロック図である。この実施形態は、HB信号sHBを廃棄しない点で、図1の実施形態から相違する。代わりに、HB信号が、HB信号を分類してNビットの分類インデックスをスピーチデコーダ2へと送信するHB情報ブロック22へと送られる。図8に示されるように、HB情報の伝送が可能である場合、マッピングが伝送によってもたらされるクラスタによって区分的になり、ここで分類の数は利用可能なビット数に依存する。分類インデックスは、後述のようにマッピングブロック18によって使用される。
図9は、本発明のさらなる実施形態によるデコーダを含むコーディング/デコーディングの機構のさらなる実施形態を説明するブロック図である。この実施形態は、図8の実施形態によく似ているが、分類インデックスを、HB信号sHBならびにLB信号sLBの両方を使用して形成する。この実施例では、N=1ビットであるが、より多くのビットを備えることによって3つ以上の分類を持つことも可能である。
図10は、HB拡張を生成するための本発明による装置の別の実施形態を説明するブロック図である。この実施形態は、受信される信号分類インデックスCに応じてマッピング係数の組ω={w 0k,w 1mk,w 2mk,w 3mk}を選択するように構成されたマッピング係数選択部38を含む点で、図3の実施形態から相違する。この実施形態においては、高域パラメータ
Figure 2013511743

が、1組の低域特徴
Figure 2013511743

およびあらかじめ保存されたマッピング係数ωから予測される。分類インデックスCが、マッピング係数の組を選択するが、マッピング係数の組は、データをクラスタにフィットさせるオフラインでの学習手順によって決定される。それを、HBが完全に予測される(分類がない)状態からHBが完全に量子化される(分類がある)状態への滑らかな移行として見ることができる。後者は、クラスタの数が増すにつれて、マッピングがクラスタの平均を予測する傾向にあるということの結果である。
図11は、HB拡張を生成するための本発明による装置のさらなる実施形態を説明するブロック図である。この実施形態は、図10の実施形態によく似ているが、図5に関して説明した特徴F、Fにもとづいている。さらに、この実施形態においては、信号の分類Cが
Figure 2013511743

によって与えられ(図5の上部も参照)、ここで
8.0−11.6は、8.0〜11.6kHzの周波数帯におけるソースオーディオ信号のエネルギーの推定値であり、
11.6−16.0は、11.6〜16.0kHzの周波数帯におけるソースオーディオ信号のエネルギーの推定値である。
この実施例では、Cが、(大まかに言うと、この例示的な部類の意味についての心象を与えるために)サウンドを「音声」(分類1)および「非音声」(分類2)へと分類する。
この分類にもとづき、マッピングブロック18を、(一般化加法モデル32)
Figure 2013511743

に従うマッピングを実施するように構成でき、
ここで
Figure 2013511743

(k=1,・・・,K)は、低域オーディオ信号(
Figure 2013511743

)によって表わされるソースオーディオ信号を分類する信号分類Cに関するゲインを定義するとともに、周波数シフト後の低域オーディオ信号のコピーのK個のあらかじめ定められた周波数帯についての包絡線を制御する高域パラメータであり、
{w 0k,w 1mk,w 2mk,w 3mk}は、信号分類Cにおけるそれぞれの高域パラメータ
Figure 2013511743

についてのシグモイド関数を定義するマッピング係数の組であり、
(m=1,2)は、低域オーディオ信号のスペクトルの異なる部分の間のエネルギーの比を表わす低域オーディオ信号の特徴である。
一実施例として、K=4であって、F、Fを式(15)および(16)によって定義することができる。
図8〜図11の実施形態の利点は、抽出された特徴のマッピングをエンコードされるサウンドの種類に合わせて「細かく調節」できる点にある。
図12は、本発明によるスピーチデコーダ2の実施形態を含むネットワークノードの実施形態を説明するブロック図である。この実施形態は、無線端末を示しているが、他のネットワークノードも実現可能である。例えば、ネットワークにおいてボイスオーバIP(インターネットプロトコル)が使用される場合、ノードはコンピュータを備えることができる。
図12のネットワークノードにおいて、アンテナが、コード化されたスピーチ信号を受信する。復調器およびチャネルデコーダ50が、この信号を低域スピーチパラメータ(および随意による信号分類C)に変換し、上述の種々の実施形態に関して説明したようにスピーチ信号
Figure 2013511743

を生成するスピーチデコーダ2へと送る(信号分類Cについては、「(分類C)」および破線の信号線によって示されているとおり)。
本明細書に記載の工程、機能、手順、および/またはブロックを、汎用の電子回路および特定用途向けの回路の両方を含むディスクリート回路または集積回路技術など、任意の従来からの技術を使用して、ハードウェアにて実現することができる。
あるいは、本明細書に記載の工程、機能、手順、および/またはブロックの少なくとも一部を、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、および/または任意の適切なプログラマブルな論理デバイス(フィールド・プログラマブル・ゲート・アレイ(FPGA)デバイスなど)などの適切な処理装置によって実行されるソフトウェアにて実現してもよい。
さらに、ネットワークノードの汎用の処理能力を再使用することも可能であることを、理解されたい。これは、例えば既存のソフトウェアをプログラムし直すことによって行なうことができ、または新たなソフトウェア構成要素を追加することによって行なうことができる。
実現の実施例として、図13が本発明によるスピーチデコーダ2の例示的な実施形態を説明するブロック図である。この実施形態は、低域スピーチ信号
Figure 2013511743

を推定するためのソフトウェア構成要素110、高域スピーチ信号
Figure 2013511743

を推定するためのソフトウェア構成要素120、ならびに
Figure 2013511743

および
Figure 2013511743

からスピーチ信号
Figure 2013511743

を生成するためのソフトウェア構成要素130を実行するプロセッサ100(例えば、マイクロプロセッサ)にもとづいている。このソフトウェアは、メモリ150に保存される。プロセッサ100が、システムバスを介してメモリと通信する。低域スピーチパラメータ(および、随意による信号分類C)が、I/Oバスを制御する入力/出力(I/O)コントローラ160によって受信され、I/Oバスにはプロセッサ100およびメモリ150が接続されている。この実施形態においては、I/Oコントローラ150によって受信されたパラメータが、メモリ150に保存され、ソフトウェア構成要素によって処理される。ソフトウェア構成要素110が、上述の実施形態のブロック14の機能を実現することができる。ソフトウェア構成要素120が、上述の実施形態のブロック30の機能を実現することができる。ソフトウェア構成要素130が、上述の実施形態のブロック20の機能を実現することができる。ソフトウェア構成要素130から得られるスピーチ信号が、メモリ150からI/Oバスを介してI/Oコントローラ160によって出力される。
図13の実施形態においては、スピーチパラメータがI/Oコントローラ160によって受信され、無線端末における復調およびチャネルデコーディングなどの他のタスクは、受信ネットワークノードの他のどこかで処理されるものと仮定されている。しかしながら、代案は、受信信号からのスピーチパラメータの抽出のためのデジタル信号処理のすべてまたは一部をメモリ150のさらなるソフトウェア構成要素に処理させることである。そのような実施形態においては、スピーチパラメータを、メモリ150から直接取り出すことができる。
受信ネットワークノードが、ボイスオーバIPのパケットを受信するコンピュータである場合、IPパケットが、典型的にはI/Oコントローラ160へと送られ、スピーチパラメータが、メモリ150のさらなるソフトウェア構成要素によって抽出される。
上述のソフトウェア構成要素の一部またはすべてを、例えばCD、DVD、またはハードディスクなどといったコンピュータにとって読み取り可能な媒体上に保持することができ、プロセッサによる実行のためにメモリへとロードすることができる。
図14は、本発明による方法の実施形態を説明するフロー図である。ステップS1が、低域オーディオ信号の1組の特徴(
Figure 2013511743

)を抽出する。ステップS2が、抽出された特徴を一般化加法モデルによって少なくとも1つの高域パラメータ(
Figure 2013511743

)へとマッピングする。ステップS3が、低域オーディオ信号
Figure 2013511743

のコピーを高域へと周波数シフトさせる。ステップS4が、周波数シフト後の低域オーディオ信号のコピーの包絡線を高域パラメータによって制御する。
添付の特許請求の範囲によって定められる本発明の範囲から逸脱することなく、本発明について、さまざまな修正実施形態および変更実施形態が可能であることを、当業者であれば理解できるであろう。
ACELP 代数符号励振線形予測
BWE 帯域拡張
CELP 符号励振線形予測
DSP デジタル信号プロセッサ
FPGA フィールド・プログラマブル・ゲート・アレイ
GMM 混合ガウス分布モデル
HB 高域
HMM 隠れマルコフモデル
IP インターネットプロトコル
LB 低域

Claims (19)

  1. 低域オーディオ信号(
    Figure 2013511743

    )の高域拡張(
    Figure 2013511743

    )を推定する方法であって、
    低域オーディオ信号の特徴の一組(
    Figure 2013511743

    )を抽出するステップ(S1)と、
    一般化加法モデルによって少なくとも1つの高域パラメータ(
    Figure 2013511743

    )へ、抽出された特徴をマッピングするステップ(S2)と、
    低域オーディオ信号(
    Figure 2013511743

    )のコピーを高域へと周波数シフトさせるステップ(S3)と、
    周波数シフト後の低域オーディオ信号のコピーの包絡線を前記少なくとも1つの高域パラメータによって制御するステップ(S4)と
    を含む方法。
  2. マッピングが、抽出された特徴(
    Figure 2013511743

    )のシグモイド関数の合計にもとづく請求項1に記載の方法。
  3. マッピングが、
    Figure 2013511743

    によって与えられ、
    Figure 2013511743

    k=1,・・・,Kが、周波数シフト後の低域オーディオ信号のコピーであってK個のあらかじめ定められた周波数帯について包絡線を制御するゲインを定義する高域パラメータであり、
    {w0k,w1mk,w2mk,w3mk}が、それぞれの高域パラメータ
    Figure 2013511743

    についてのシグモイド関数を定義するマッピング係数の組であり、
    (m=1,2)が、低域オーディオ信号のスペクトルの異なる部分の間のエネルギーの比を表わす低域オーディオ信号の特徴である請求項2に記載の方法。
  4. マッピングが、
    Figure 2013511743

    によって与えられ、
    Figure 2013511743

    k=1,・・・,Kが、低域オーディオ信号(
    Figure 2013511743

    )によって表わされるソースオーディオ信号を分類する信号分類Cに関するゲインを定義し、周波数シフト後の低域オーディオ信号のコピーであってK個のあらかじめ定められた周波数帯について包絡線を制御する高域パラメータであり、
    {w 0k,w 1mk,w 2mk,w 3mk}が、信号分類Cにおけるそれぞれの高域パラメータ
    Figure 2013511743

    についてのシグモイド関数を定義するマッピング係数の組であり、
    (m=1,2)が、低域オーディオ信号のスペクトルの異なる部分の間のエネルギーの比を表わす低域オーディオ信号の特徴である請求項2に記載の方法。
  5. 特徴Fが、
    Figure 2013511743

    によって与えられ、
    10.0−11.6が、10.0〜11.6kHzの周波数帯における低域オーディオ信号のエネルギーの推定値であり、
    8.0−11.6が、8.0〜11.6kHzの周波数帯における低域オーディオ信号のエネルギーの推定値である請求項3または4に記載の方法。
  6. 特徴Fが、
    Figure 2013511743

    によって与えられ、
    8.0−11.6が、8.0〜11.6kHzの周波数帯における低域オーディオ信号のエネルギーの推定値であり、
    0.0−11.6が、0.0〜11.6kHzの周波数帯における低域オーディオ信号のエネルギーの推定値である請求項3〜5のいずれか1項に記載の方法。
  7. K=4である請求項3〜6のいずれか1項に記載の方法。
  8. 信号の分類Cに対応するマッピング係数の組{w 0k,w 1mk,w 2mk,w 3mk}を選択するステップを含み、Cが
    Figure 2013511743

    によって与えられ、
    8.0−11.6が、8.0〜11.6kHzの周波数帯におけるソースオーディオ信号のエネルギーの推定値であり、
    11.6−16.0が、11.6〜16.0kHzの周波数帯におけるソースオーディオ信号のエネルギーの推定値である請求項4〜7のいずれか1項に記載の方法。
  9. 低域オーディオ信号(
    Figure 2013511743

    )の高域拡張(
    Figure 2013511743

    )を推定するための装置(30)であって、
    低域オーディオ信号の特徴一組(
    Figure 2013511743

    )を抽出する特徴抽出ブロック(16)と、
    一般化加法モデルによって抽出された特徴を少なくとも1つの高域パラメータ(
    Figure 2013511743

    )へマッピングする一般化加法モデルマッピング部(32)と、
    低域オーディオ信号(
    Figure 2013511743

    )のコピーを高域へ周波数シフトさせる周波数シフト部(34)と、
    周波数シフト後のコピーの包絡線を前記少なくとも1つの高域パラメータによって制御する包絡線コントローラ(36)とを含むマッピングブロック(18)と
    を備える装置(30)。
  10. 一般化加法モデルマッピング部(32)が、抽出された特徴(
    Figure 2013511743

    )のシグモイド関数の合計にもとづいてマッピングを行う請求項9に記載の装置。
  11. 一般化加法モデルマッピング部(32)が、
    Figure 2013511743

    に従ってマッピングを実施し、
    Figure 2013511743

    k=1,・・・,Kが、周波数シフト後の低域オーディオ信号のコピーであって、K個のあらかじめ定められた周波数帯について包絡線を制御するゲインを定義する高域パラメータであり、
    {w0k,w1mk,w2mk,w3mk}が、それぞれの高域パラメータ
    Figure 2013511743

    についてのシグモイド関数を定義するマッピング係数の組であり、
    (m=1,2)が、低域オーディオ信号のスペクトルの異なる部分の間のエネルギーの比を表わす低域オーディオ信号の特徴である請求項10に記載の装置。
  12. 一般化加法モデルマッピング部(32)が、
    Figure 2013511743

    に従ってマッピングを実施し、
    Figure 2013511743

    k=1,・・・,Kが、低域オーディオ信号(
    Figure 2013511743

    )によって表わされるソースオーディオ信号を分類する信号分類Cに関するゲインを定義し、周波数シフト後の低域オーディオ信号のコピーであってK個のあらかじめ定められた周波数帯についての包絡線を制御する高域パラメータであり、
    {w 0k,w 1mk,w 2mk,w 3mk}が、信号分類Cにおけるそれぞれの高域パラメータ
    Figure 2013511743

    についてのシグモイド関数を定義するマッピング係数の組であり、
    (m=1,2)が、低域オーディオ信号のスペクトルの異なる部分の間のエネルギーの比を表わす低域オーディオ信号の特徴である請求項10に記載の装置。
  13. 特徴抽出ブロック(16)が、
    Figure 2013511743

    によって与えられる特徴Fを抽出し、
    10.0−11.6が、10.0〜11.6kHzの周波数帯における低域オーディオ信号のエネルギーの推定値であり、
    8.0−11.6が、8.0〜11.6kHzの周波数帯における低域オーディオ信号のエネルギーの推定値である請求項11または12に記載の装置。
  14. 特徴抽出ブロック(16)が、
    Figure 2013511743

    によって与えられる特徴Fを抽出し、
    8.0−11.6が、8.0〜11.6kHzの周波数帯における低域オーディオ信号のエネルギーの推定値であり、
    0.0−11.6が、0.0〜11.6kHzの周波数帯における低域オーディオ信号のエネルギーの推定値である請求項11〜13のいずれか1項に記載の装置。
  15. 一般化加法モデルマッピング部(32)が、抽出された特徴をK=4個の高域パラメータ(
    Figure 2013511743

    )へマッピングする請求項11〜14のいずれか1項に記載の装置。
  16. 信号の分類Cに対応するマッピング係数の組{w 0k,w 1mk,w 2mk,w 3mk}を選択するマッピング係数の組選択部(38)を含み、
    Cが
    Figure 2013511743

    によって与えられ、
    8.0−11.6が、8.0〜11.6kHzの周波数帯におけるソースオーディオ信号のエネルギーの推定値であり、
    11.6−16.0が、11.6〜16.0kHzの周波数帯におけるソースオーディオ信号のエネルギーの推定値である請求項12〜15のいずれか1項に記載の装置。
  17. 請求項9〜16のいずれか1項に記載の装置(30)を含むスピーチデコーダ。
  18. 請求項17に記載のスピーチデコーダを含むネットワークノード。
  19. 無線端末である請求項18に記載のネットワークノード。
JP2012539849A 2009-11-19 2010-09-14 低域オーディオ信号の帯域拡張 Expired - Fee Related JP5619177B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US26259309P 2009-11-19 2009-11-19
US61/262,593 2009-11-19
PCT/SE2010/050984 WO2011062538A1 (en) 2009-11-19 2010-09-14 Bandwidth extension of a low band audio signal

Publications (2)

Publication Number Publication Date
JP2013511743A true JP2013511743A (ja) 2013-04-04
JP5619177B2 JP5619177B2 (ja) 2014-11-05

Family

ID=44059836

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012539849A Expired - Fee Related JP5619177B2 (ja) 2009-11-19 2010-09-14 低域オーディオ信号の帯域拡張

Country Status (7)

Country Link
US (1) US8929568B2 (ja)
EP (1) EP2502231B1 (ja)
JP (1) JP5619177B2 (ja)
CN (1) CN102612712B (ja)
BR (1) BR112012012119A2 (ja)
RU (1) RU2568278C2 (ja)
WO (1) WO2011062538A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016507080A (ja) * 2013-01-29 2016-03-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ エネルギー制限演算を用いて周波数増強信号を生成する装置および方法
JP2016537662A (ja) * 2013-09-26 2016-12-01 華為技術有限公司Huawei Technologies Co.,Ltd. 帯域幅拡張方法および装置
JP2018528463A (ja) * 2015-08-18 2018-09-27 クアルコム,インコーポレイテッド 帯域幅移行期間中の信号再使用

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447617B2 (en) * 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
MY167474A (en) * 2012-03-29 2018-08-29 Ericsson Telefon Ab L M Bandwith extension of harmonic audio signal
CN105551497B (zh) 2013-01-15 2019-03-19 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
EP2951822B1 (en) * 2013-01-29 2019-11-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
FR3017484A1 (fr) 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
JP2016038435A (ja) * 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US11216742B2 (en) 2019-03-04 2022-01-04 Iocurrents, Inc. Data compression and communication using machine learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US20070067163A1 (en) * 2005-09-02 2007-03-22 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
US20090144062A1 (en) * 2007-11-29 2009-06-04 Motorola, Inc. Method and Apparatus to Facilitate Provision and Use of an Energy Value to Determine a Spectral Envelope Shape for Out-of-Signal Bandwidth Content

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0732687B2 (en) 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
JP3861770B2 (ja) * 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
WO2005078707A1 (en) * 2004-02-16 2005-08-25 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore
EP1638083B1 (en) 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals
PL1866915T3 (pl) * 2005-04-01 2011-05-31 Qualcomm Inc Sposób i urządzenie do przeciwrozproszeniowego filtrowania sygnału pobudzającego predykcji mowy rozciągniętego na szerokość pasma
WO2006116025A1 (en) * 2005-04-22 2006-11-02 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
KR20070037945A (ko) * 2005-10-04 2007-04-09 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
TWI591625B (zh) * 2009-05-27 2017-07-11 杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US20070067163A1 (en) * 2005-09-02 2007-03-22 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
US20090144062A1 (en) * 2007-11-29 2009-06-04 Motorola, Inc. Method and Apparatus to Facilitate Provision and Use of an Energy Value to Determine a Spectral Envelope Shape for Out-of-Signal Bandwidth Content

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016507080A (ja) * 2013-01-29 2016-03-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ エネルギー制限演算を用いて周波数増強信号を生成する装置および方法
US10354665B2 (en) 2013-01-29 2019-07-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
JP2016537662A (ja) * 2013-09-26 2016-12-01 華為技術有限公司Huawei Technologies Co.,Ltd. 帯域幅拡張方法および装置
US10186272B2 (en) 2013-09-26 2019-01-22 Huawei Technologies Co., Ltd. Bandwidth extension with line spectral frequency parameters
JP2018528463A (ja) * 2015-08-18 2018-09-27 クアルコム,インコーポレイテッド 帯域幅移行期間中の信号再使用

Also Published As

Publication number Publication date
EP2502231B1 (en) 2014-06-04
US8929568B2 (en) 2015-01-06
US20120230515A1 (en) 2012-09-13
JP5619177B2 (ja) 2014-11-05
EP2502231A1 (en) 2012-09-26
CN102612712A (zh) 2012-07-25
RU2568278C2 (ru) 2015-11-20
RU2012125251A (ru) 2013-12-27
BR112012012119A2 (pt) 2021-01-05
CN102612712B (zh) 2014-03-12
EP2502231A4 (en) 2013-07-10
WO2011062538A1 (en) 2011-05-26
WO2011062538A9 (en) 2011-06-30

Similar Documents

Publication Publication Date Title
JP5619177B2 (ja) 低域オーディオ信号の帯域拡張
KR102237718B1 (ko) 시간 영역 디코더에서 양자화 잡음을 감소시키기 위한 디바이스 및 방법
US8856049B2 (en) Audio signal classification by shape parameter estimation for a plurality of audio signal samples
US10891964B2 (en) Generation of comfort noise
RU2631988C2 (ru) Заполнение шумом при аудиокодировании с перцепционным преобразованием
CN108831501A (zh) 用于带宽扩展的高频编码/高频解码方法和设备
KR101892662B1 (ko) 스피치 처리를 위한 무성음/유성음 결정
JP2010540990A (ja) 埋め込み話声およびオーディオコーデックにおける変換情報の効率的量子化のための方法および装置
JP6321684B2 (ja) サブバンドの時間的平滑化を用いて周波数増強信号を生成する装置および方法
JP2016505902A (ja) 第1の符号化アルゴリズム及び第2の符号化アルゴリズムのうちの1つを選択するための装置及び方法
US20180033444A1 (en) Audio encoder and method for encoding an audio signal
CN110992965A (zh) 信号分类方法和装置以及使用其的音频编码方法和装置
US9620139B2 (en) Adaptive linear predictive coding/decoding
US20220392458A1 (en) Methods and system for waveform coding of audio signals with a generative model
TWI587287B (zh) 柔和噪音產生模式選擇之裝置與方法
CN117935840A (en) Method and device for execution by a terminal device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140819

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140916

R150 Certificate of patent or registration of utility model

Ref document number: 5619177

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees