JP4945586B2 - 信号帯域拡張装置 - Google Patents

信号帯域拡張装置 Download PDF

Info

Publication number
JP4945586B2
JP4945586B2 JP2009021717A JP2009021717A JP4945586B2 JP 4945586 B2 JP4945586 B2 JP 4945586B2 JP 2009021717 A JP2009021717 A JP 2009021717A JP 2009021717 A JP2009021717 A JP 2009021717A JP 4945586 B2 JP4945586 B2 JP 4945586B2
Authority
JP
Japan
Prior art keywords
signal
unit
band
frequency
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009021717A
Other languages
English (en)
Other versions
JP2010176090A (ja
Inventor
隆 須藤
将高 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009021717A priority Critical patent/JP4945586B2/ja
Priority to US12/558,959 priority patent/US8930184B2/en
Publication of JP2010176090A publication Critical patent/JP2010176090A/ja
Application granted granted Critical
Publication of JP4945586B2 publication Critical patent/JP4945586B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Description

この発明は、帯域制限された音声や音楽・オーディオなどの信号を広帯域信号に変換する信号帯域拡張装置に関する。
音声や音楽・オーディオなどの信号(入力信号)を広帯域に帯域拡張する場合、人工的ではない自然な音に聞こえるようにするためには、入力信号に含まれる帯域拡張したい信号(目的信号)に応じて、周波数帯域を拡張する処理方法を適宜変化させる必要がある。
従来、帯域拡張処理方法としては、目的信号が音声である場合は音声向けに線形予測分析を行った上で周波数帯域を拡張する手法、目的信号が音楽・オーディオである場合は音楽・オーディオ向けに周波数領域変換を行った上で周波数帯域を拡張する手法、目的信号が音声である場合でも有声音か無声音であるかに基づいて、拡張する周波数帯域を切り替える手法(例えば、特許文献1)があった。
特開2002−82685号公報
従来の信号帯域拡張装置では、入力信号に目的信号と目的信号以外の信号(非目的信号)が混在する場合でも、すべての区間で帯域拡張を行うため、大きな計算量が必要になるという課題があった。
この発明は上記の問題を解決すべくなされたもので、入力信号に目的信号と非目的信号が混在する場合でも、大きな計算量を必要とすることなく、目的信号に対して原音により忠実に周波数帯域を拡張することが可能な信号帯域拡張装置を提供することを目的とする。
上記の目的を達成するために、この発明は、入力信号が目的信号である度合いを算出する目的信号度合算出手段と、この目的信号度合算出手段の結果に応じて、目的信号である度合が低い程、より簡易に周波数帯域を拡張するように制御する制御手段とを具備して構成するようにした。
この発明によれば、入力信号に目的信号と非目的信号が混在する場合でも、大きな計算量を必要とすることなく、目的信号に対して原音により忠実に周波数帯域を拡張することが可能な信号帯域拡張装置を提供できる。
本発明の実施形態に係る通信装置およびディジタルオーディオプレイヤの構成を示す回路ブロック図。 信号帯域拡張部の構成を示す回路ブロック図。 図2に示した信号帯域拡張部の目的信号度合算出部の構成例を示す回路ブロック図。 図2に示した信号帯域拡張部の制御部の動作を説明するための動作制御図。 図2に示した信号帯域拡張部の高域拡張部の構成例を示す回路ブロック図。 図5に示した信号帯域拡張部の高域拡張部の広帯域化処理部の非線形処理で用いる非線形関数の例を示す図。 図2に示した信号帯域拡張部の低域拡張部の構成例を示す回路ブロック図。 図2に示した信号帯域拡張部の変形例を示す回路ブロック図。 図8に示した信号帯域拡張部の非目的信号抑圧部の構成例を示す回路ブロック図。 本発明の第2の実施形態に係わる信号帯域拡張装置の信号帯域拡張部の構成例を示す回路ブロック図。 図10に示した信号帯域拡張部の制御部の動作を説明するための動作制御図。 図10に示した信号帯域拡張部の第1の帯域拡張部の構成例を示す回路ブロック図。 図10に示した信号帯域拡張部の第2の帯域拡張部の構成例を示す回路ブロック図。 図10に示した信号帯域拡張部の第3の帯域拡張部の構成例を示す回路ブロック図。 図10に示した信号帯域拡張部の第4の帯域拡張部の構成例を示す回路ブロック図。 図15に示した信号帯域拡張部の低域拡張部の構成例を示す回路ブロック図。 図10に示した信号帯域拡張部の第5の帯域拡張部の構成例を示す回路ブロック図。 本発明の第3の実施例に関わる信号帯域拡張装置の信号帯域拡張部の構成を示す回路ブロック図。 図18に示した信号帯域拡張部の目的信号度合算出部の構成例を示す回路ブロック図。
以下、図面を参照して、この発明の実施形態について説明する。
(第1の実施例)
図1(a)は、この発明の一実施形態に係わる通信装置の構成を示すものである。この図に示す通信装置は、例えば携帯電話などの無線通信装置の受信系を示すものであって、無線通信部1と、デコーダ2と、信号帯域拡張部3と、ディジタル・アナログ(D/A)変換器4と、スピーカ5とを備えている。
無線通信部1は、移動通信網に収容される無線基地局と無線通信し、そしてこの無線基地局および移動通信網を通じて通信相手局との間に通信リンクを確立して通信する。
デコーダ2は、無線通信部1が通信相手局から受信した受信データを、事前に決められた処理単位(1フレーム=Nサンプル)ごとに復号して、ディジタルの入力信号x[n] (n=0,1,…N-1)を得る。ただし、この入力信号x[n]は、サンプリング周波数はfs[Hz]で、fs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限された狭帯域の信号である。このようにして得られたディジタルの入力信号x[n]は、フレーム単位で信号帯域拡張部3に出力される。
信号帯域拡張部3は、1フレーム単位で上記入力信号x[n] (n=0,1,…N-1)に帯域拡張処理を施し、fs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張した出力信号y[n]を出力
する。このとき、出力信号y[n]のサンプリング周波数はデコーダ2でのサンプリング周波数fs[Hz]のままであるか、あるいはより高いサンプリング周波数fs’[Hz]に変更される。
ここでは、信号帯域拡張部3によって、サンプリング周波数fs’[Hz]の帯域拡張された出力信号y[n]が1フレーム単位で得られるとして説明する。ただし、fs_wb_low ≦ fs_nb_low < fs_nb_high < fs/2 ≦ fs_wb_high < fs’/2 を満たすものとする。また以下の説明では、低域拡張と高域拡張を例に挙げるため、fs_wb_low < fs_nb_low、fs_nb_high < fs_wb_highとして説明し、例えば、fs=8000[Hz]、fs’=16000[Hz]、fs_nb_low=340[Hz]、fs_nb_high=3950[Hz]、fs_wb_low=50[Hz]、fs_wb_high=7950[Hz]とする。また、ここでは1フレームをN=160サンプルとする。帯域制限の周波数帯域やサンプリング周波数、フレー
ムサイズについては、これに限らない。信号帯域拡張部3の具体的な構成例については後に詳述する。
D/A変換器4は、上記帯域拡張された出力信号y[n]をアナログ信号y(t)に変換して、ス
ピーカ5に出力する。スピーカ5は、アナログ信号である出力信号y(t)を音響空間へ出力する。
なお、図1(a)では、この発明を通信装置に適用した例を示したが、図1(b)に示すように、ディジタルオーディオプレイヤに適用することも可能である。このディジタルオーディオプレイヤは、無線通信部1に代わって、フラッシュメモリやHDD(Hard Disk Drive)を用いた記憶部6を備え、この記憶部6から読み出した音楽データをデコーダ2が上述したように復号する。
次に、信号帯域拡張部3について説明する。図2は、本実施形態に係わる信号帯域拡張部3の構成を示すものである。図2に示すように、信号帯域拡張部3は、目的信号度合算出部31と、制御部32と、信号帯域拡張処理部33とを備える。信号帯域拡張処理部33は、アップサンプリング部330と、信号遅延処理部331、339と、信号加算部332と、切替器333、335、336、338と、高域拡張部334と、低域拡張部337とを備える。これらは、1つのプロセッサと、図示しない記憶媒体に記録されたソフトウェアによって実現することも可能である。
図3に目的信号度合算出部31の構成例を示す。目的信号度合算出部31は、特徴量抽出部311と、重み付け加算部312とを備える。特徴量抽出部311は、自己相関算出部311Aと、自己相関係数最大値算出部311Bと、周波数領域変換部311Cと、周波数スペクトル更新部311Dと、周波数別SN比算出部311Eと、周波数別SN比総和算出部311Fと、周波数別SN比分散算出部311Gとを備える。
目的信号度合算出部31は、入力信号x[n]が帯域拡張したい目的信号である度合を表す目的信号度合type[f]を算出する。本実施例では、帯域拡張したい目的信号は音声信号で
あるとする。入力信号x[n]には、目的信号である音声信号と、それ以外の非目的信号(ノイズ成分、エコー成分、残響成分、音楽など)が混在しており、すなわち目的信号度合算出部31は、入力された1フレームごとの入力信号x[n]に目的信号である音声信号がどれぐらい含まれているかを示す目的信号度合type[f]を出力する。ここで、目的信号度合type[f]は、例えばSN比を用いるなど入力信号に目的信号が含まれる割合や量を表してもよいし、例えば自己相関を用いるなど入力信号の信号特性と所望される目的信号の信号特性との類似している度合いを表してもよい。
ここではこれ以降も、音声や音声信号とは、人間の発話による声を表すとする。またここではこれ以降も、音楽やオーディオ信号とは、楽器の音や人間の歌声による音を表すとする。
特徴量抽出部311は、入力信号x[n]から目的信号度合type[f]を出力するための複数
の特徴量を抽出する。ここでは複数の特徴量として、1次自己相関係数Acorr[f,1]、自己相関係数最大値Acorr_max[f]、周波数別SN比総和snr_sum[f]、周波数別SN比分散snr_var[f]を例に挙げて説明する。目的信号度合type[f]を算出する特徴量は、音声信号にお
ける短時間での定常性・周期性や、音声信号におけるパワースペクトルの不均一性・粗密性を利用するなど、入力信号に音声信号がどれぐらい含まれているかを表現するものであれば何でも構わない。
自己相関算出部311Aは、式(1)に示すように、フレーム単位でのパワーで正規化されて絶対値をとったk次自己相関係数Acorr[f,k] (k=1,…N-1)を計算し、自己相関係数
最大値算出部311Bに出力する。
Figure 0004945586

併せて、k=1である1次自己相関係数Acorr[f,1]を重み付け加算部312に出力する。1
次自己相関係数Acorr[f,1]は0から1の値をとり、0に近づくほどノイズ性が強い。つまり、1次自己相関係数Acorr[f,1]の値が小さいほど、入力信号に非目的信号が多く含まれ、目的信号である音声信号が少ないと判断される。
自己相関係数最大値算出部311Bは、自己相関算出部311Aから出力された正規化されたk次自己相関係数Acorr[f,k] (k=1,…N-1)を入力として、k次自己相関係数Acorr[f,k](k=1,...,N-1)のうち最大となる自己相関係数Acorr[f,k]を、自己相関係数最大値Acorr_max[f]として出力する。自己相関係数最大値Acorr_max[f]は0から1の値をとり、音声
信号は短時間では定常的で周期性があるため1に近づき、0に近づくほど無相関でノイズ性が強い。つまり、自己相関係数最大値Acorr_max[f]の値が小さいほど、入力信号に非目的信号が多く含まれ、目的信号である音声信号が少ないと判断される。
周波数領域変換部311Cには、現在のフレームfの入力信号x[n] (n=0,1,…N-1)が入力される。そして、この現在のフレームfの入力信号と、窓掛けによるオーバーラップのサンプル数分の直前(1フレーム前)のフレームの入力信号におけるサンプルとを時間方向に結合し、適宜零詰めなどを行って、周波数領域変換に必要なサンプル(2M)分の入力信号x[n] (n=0,1,…2M-1)を取り出す。直前のフレームでの入力信号のシフト幅と現在
の入力信号のデータ長の比であるオーバーラップは、50%である場合が考えられるが、ここでは、直前のフレームと現在のフレームとのオーバーラップのサンプル数をL=48として、直前のフレームの入力信号Lサンプルと当該フレームの入力信号x[n]のN=160サンプル分とLサンプル分の零詰めから、2M=256サンプルを用意するとする。この2
Mサンプルの信号に対して、正弦波窓による窓関数を乗じることで窓掛けを行う。そして、窓掛けを行った2Mサンプルの信号に対して周波数領域変換を行う。周波数領域への変換は、例えば次数を2MとしたFFT(Fast Fourier Transform)によって行うことができる。なお、周波数領域変換を施す信号に零詰めすることによってデータ長を2のべき乗(2M)にし、周波数領域変換の次数を2のべき乗(2M)にするとしたが、周波数領域変換の次数はこれに限らない。
入力信号x[n]が実信号である場合には、周波数領域変換を施して得られた信号から冗長なM=128ビンを除くと、周波数スペクトルX[f,w] (w=0,1,…M-1)が得られる。ただし、
ωは、周波数ビンを表す。周波数領域変換部311Cは、この周波数スペクトルX[f,w] (w=0,1,…M-1)を出力してもよいし、パワースペクトル|X[f,w]|2 (w=0,1,…M-1)や、振幅スペクトル|X[f,w]| (w=0,1,…M-1)や、位相スペクトルθX[f,w] (w=0,1,…M-1)を出力
してもよい。ここでは、パワースペクトル|X[f,w]|2 (w=0,1,…M-1)を出力するものとする。なお、入力信号x[n]が実信号のとき、冗長なのは本来M-1=127ビンであり、最高域の周波数ビンw=128を考慮するべきである。しかしながら、ここでは入力信号x[n]としてfs_nb_high=3950[Hz]までに帯域制限された音声信号を含むディジタル信号を前提としているため、最高域の周波数ビンw=128を考慮しなくても音質に影響を及ぼさない。そこで、こ
れ以降説明の簡略化のために、最高域の周波数ビンw=128を考慮しない記述にする。勿論
、最高域の周波数ビンw=128を考慮しても構わない。その際、最高域の周波数ビンw=128は、w=127と同等に扱うか、単独で扱うようにする。
なお、周波数領域変換部311Cで行う周波数領域変換は、FFTに限定されず、DFT(Discrete Fourier Transform)や離散コサイン変換(DCT: Discrete Cosine Transform)
、修正離散コサイン変換(MDCT:Modified DCT)、ウォルシュ・アダマール変換(WHT: Walsh Hadamard Transform)、ハーレ変換(HT: Harr Transform)、スラント変換(SLT: Slant Transform)、カルーネン・レーベ変換(KLT: Karhunen Loeve Transform)などの周波数領域に変換する他の直交変換を代用することも可能である。また
、窓掛けに用いる窓関数は、正弦波窓に限定せず、他の対称窓(ハニング窓、ブラックマン窓、ハミング窓など)あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。
周波数スペクトル更新部311Dは、重み付け加算部312から出力される目的信号度合type[f]と、周波数領域変換部311Cから出力される入力信号x[n]のパワースペクト
ル|X[f,w]|2 (w=0,1,…M-1)を用いて、各周波数帯域の非目的信号のパワースペクトル|N[f,w]|2 (w=0,1,…M-1)を推定して出力する。
まず、重み付け加算部312から出力される目的信号度合type[f]を用いて、フレーム
毎に入力信号x[n]は非目的信号が支配的に含まれている区間(非目的信号区間)であるか、そうではない区間、つまり目的信号である音声信号と非目的信号が混在している区間(目的信号区間)であるかの判別を行う。以降、当該成分のみしか存在しないか、あるいは当該成分が他の成分よりも非常に多く含まれる場合を「支配的に含まれる」と表現する。
非目的信号区間であるか目的信号区間であるかの判別は、例えば目的信号度合type[f]が
事前に決められた所定の閾値よりも小さい場合には非目的信号区間とし、そうでない場合には目的信号区間と判定するようにする。
そして、非目的信号が支配的に含まれる区間(非目的信号区間)であると判別されたフレームのパワースペクトル|X[f,w]|2 から平均的なパワースペクトルを算出し、これを各周波数帯域の非目的信号のパワースペクトル|N[f,w]|2 (w=0,1,…M-1)として出力する。
具体的には、式(2)に示されるように、各周波数帯域の非目的信号のパワースペクトル|N[f,w]|2 (w=0,1,…M-1)は、1フレーム前の各周波数帯域の非目的信号のパワースペク
トル|N[f-1,w]|2 を用いて再帰的に算出される。式(2)中の忘却係数αN[ω]は、1以
下の係数であって、例えば0.75〜0.95程度である。
Figure 0004945586

周波数別SN比算出部311Eには、周波数領域変換部311Cから出力される入力信号のパワースペクトル|X[f,w]|2と、周波数スペクトル更新部311Dから出力される非
目的信号のパワースペクトル|N[f,w]|2とが入力される。周波数別SN算出部311Eは
、入力信号のパワースペクトル|X[f,w]|2と非目的信号のパワースペクトル|N[f,w]|2との比である各周波数帯域のSN比を算出する。ここでは、各周波数帯域のSN比snr[f,ω]
は、式(3)を用いて算出され、dB表現されるものとする。
Figure 0004945586

周波数別SN比総和算出部311Fには、周波数別SN比算出部311Eから出力される各周波数帯域のSN比snr[f,w] (w=0,1,…M-1)が入力される。周波数別SN比総和算出部311Fは、各周波数帯域のSN比snr[f,w]の和を式(4)で算出し、周波数別SN比総和値snr_sum[f]として出力する。周波数別SN比総和値snr_sum[f]は0以上の値をとり、この値が小さいほど入力信号にノイズ成分などの非目的信号が多く含まれ、目的信号である音声信号が少ないと判断される。
Figure 0004945586

周波数別SN比分散算出部311Gには、周波数別SN比算出部311Eから出力される各周波数帯域のSN比snr[f,w] (w=0,1,…M-1)が入力される。そして、周波数別SN比分散算出部311Gは、各周波数帯域の分散を下式(5)で算出し、周波数別SN比分散値snr_var[f]として出力する。周波数別SN比分散値snr_var[f]は0以上の値をとり、音声信号ではパワースペクトルが均一でなく粗密性があることでこの値が大きくなるため、この値が小さいほど入力信号にノイズ成分などの非目的信号が多く含まれ、目的信号である音声信号が少ないと判断される。
Figure 0004945586

重み付け加算部312は、特徴量抽出部311で抽出された複数の特徴量である、自己相関算出部311Cから出力された1次自己相関係数Acorr[f,1]、自己相関係数最大値
算出部311Dから出力された自己相関係数最大値Acorr_max[f]、周波数別SN比総和算出部311Fから出力される周波数別SN比総和値snr_sum[f]、周波数別SN比分散算出部311Gから出力される周波数別SN比分散値snr_var[f]を用いて、これらにそれぞれ所定の重みによる重み付けを行い、これら複数の特徴量の重み付け和である目的信号度合type[f]を算出する。ここでは、目的信号度合type[f]が小さいほど非目的信号が支配的であるとし、大きいほど目的信号が支配的であるとする。重み付け加算部312は、例えば、重みw1、w2、w3、w4(ただしw1≧0、w2≧0、w3≧0、w4≧0)を線形識別関数による判定を用いた学習アルゴリズムなどで予め学習させておいた値に設定して、目的信号度合type[f]を、type[f] = w1・Acorr[f,1] + w2・Acorr_max[f] + w3・snr_sum[f] + w4・snr_var[f]と算出する。勿論、目的信号度合type[f]は、特徴量の1次の線形和によって表
すことに限定されなく、多次数の線形和で表現されたり、複数の特徴量による乗算項を含んで表現されたりしても構わない。
以上のように、周波数領域変換部311Cと、周波数スペクトル更新部311Dと、周波数別SN比算出部311Eと、周波数別SN比総和算出部311Fと、周波数別SN比分散算出部311Gは、周波数ビンごとに処理するように説明したが、周波数領域変換によって得られる隣接する複数の周波数ビンをまとめてグループを作り、そのグループ単位で処理を行ったり、周波数領域変換をフィルタバンクなどの帯域分割フィルタで実現してその帯域単位で処理を行ったりして、その結果に応じて目的信号度合type[f]をフレーム
単位で算出しても構わない。
また、目的信号度合算出部31で目的信号度合type[f]を算出する際に、前述した複数
の特徴量を全て使わなくてもよいし、他の特徴量を追加して用いてもよい。他の特徴量としては、後述する平均零交差数Zi[f]、LPCスペクトル包絡の平均値Vi[f]、フレームパワ
ーCi[f]などを用いてよいし、無線通信部1あるいはデコーダ2から出力されるコーデッ
ク情報、例えば、無音挿入記述子(SID)や音声検出器(VAD)による音声であるか音声でないかを表す音声検出情報や擬似背景雑音を生成したかどうかの情報などを用いてもよい。すなわち、目的信号度合type[f]を算出する特徴量は、入力信号に音声信号が含
まれる割合や量、入力信号が音声信号の信号特性との類似している度合などによって、入力信号に音声信号がどれぐらい含まれているかを表現するものであれば何でも構わない。
制御部32は、目的信号度合算出部31から出力される目的信号度合type[f]を入力と
して、目的信号度合type[f]に応じて、高域拡張部334と低域拡張部337を動作させ
るか動作させないかを制御する制御信号control[f]を出力する。図4に制御部32の制御動作を示す。このように制御部32では、目的信号である度合が低いほど簡易で低音質な帯域拡張処理方法になるように制御し、目的信号である度合が高いほど高精度で高音質な帯域拡張処理方法になるように制御する。またこのように制御部32では、目的信号である度合が低いほど拡張する周波数帯域の範囲が狭い帯域拡張処理方法になるように制御し、目的信号である度合が高いほど拡張する周波数帯域の範囲が広い帯域拡張処理方法になるように制御する。さらにこのように制御部32では、目的信号である度合が低いほど低域への帯域拡張処理を動作させないように制御し、目的信号である度合が高いほど高域への帯域拡張処理と低域への帯域拡張処理の両方が動作するように制御する。
一般的に、低音質な帯域拡張処理方法であるほど簡易な処理となるため小さい計算量となり、高音質な帯域拡張処理方法であるほど高精度な処理となるため大きい計算量となる。従って、このようにすれば、目的信号は高精度に帯域拡張処理することで高音質を維持でき、非目的信号は高精度に帯域拡張する必要がないため簡易な帯域拡張処理にして計算量を少なくすることができる。
具体的には、制御部32は、目的信号度合type[f]を所定の閾値THR_A、THR_Bと比較し
、目的信号度合type[f]がTHR_A以上である場合は制御信号control[f]=2として高域拡張
部334と低域拡張部337を共に動作させるように制御し、目的信号度合type[f]がTHR_A未満かつTHR_B以上である場合は制御信号control[f]=1として高域拡張部334を動作させ低域拡張部337を動作させないように制御し、目的信号度合type[f]がTHR_B未満である場合は制御信号control[f]=0として高域拡張部334と低域拡張部337を共に動
作させないように制御する。信号帯域拡張処理部33は、制御信号control[f]=2が入力
された場合は、切替器333と切替器335と切替器336と切替器338を閉じて、高域拡張部334と低域拡張部337を共に動作させるようにする。一方、制御信号control[f]=1が入力された場合は、切替器333と切替器335を閉じて、高域拡張部334
を動作させるようにし、切替器336と切替器338を開放して、低域拡張部337を動作させないようにする。また、制御信号control[f]=0が入力された場合は、切替器33
3と切替器335と切替器336と切替器338を開放して、高域拡張部334と低域拡張部337を共に動作させないようにする。
なお、制御部32は、制御信号control[f]を頻繁に変化させないように制御してもよい。目的信号度合type[f]はフレーム単位で算出されるため、一発話内の瞬時的な無音や無
声音などでは制御信号control[f]が頻繁に切り替わることで、帯域拡張の処理方法が頻繁に変更になり異音を生じてしまう可能性がある。従って、以下のような処理を実施することによって、一発話内においてフレーム単位で制御信号control[f]が頻繁に切り替わることを抑制することができる。
まず、切替を許可する情報として、以下のようにフレーム毎に累積加算する変数sum_flag[f]及びsum_flag2[f]を算出する。ただし、sum_flag[0]=0、sum_flag2[0]=0と信号帯域拡張部3の動作開始時に値を0にする。control_tmp[f]=control[f]と制御信号control[f]を格納しておき、control_tmp[f]=1またはcontrol_tmp[f]=2の場合、sum_flag[f] = sum_flag[f] + 1として、control[f]=1またはcontrol[f]=2であることを維持しやすくしたり、control[f]=0であることを更新しやすくしたりする。それに対して、control_tmp[f]=0の場合、sum_flag[f] = sum_flag[f] - 1として、control[f]=1またはcontrol[f]=2で
あることを更新しやすくしたり、control[f]=0であることを維持しやすくしたりする。同様にして、control_tmp[f]=2の場合、sum_flag2[f] = sum_flag2[f] + 1とし、control_tmp[f]=0またはcontrol_tmp[f]=1の場合、sum_flag2[f] = sum_flag2[f] - 1とする。
次に、語頭での検出を俊敏にするために、sum_flag[f] < -3の場合は、sum_flag[f] = -3として、sum_flag[f]の下限を制御する。同様にして、sum_flag2[f] < -3の場合は、sum_flag2[f] = -3とする。
そして、フレーム単位で頻繁に切り替わらないように変数sum_flag[f]及びsum_flag2[f]を用いて制御信号control[f]を以下のように判定条件を(1)〜(4)に優先順位付け
し、更新する。なお、番号が少ない方が優先順位が高く、条件が重なった場合は優先順位が高い条件における処理が実行される。
(1)control_tmp[f]=1かつsum_flag2[f]>0の場合、control[f]=2として更新する。
(2)control_tmp[f]=2かつsum_flag2[f]<0の場合、control[f]=1として更新する。
(3)control_tmp[f]=0かつsum_flag[f]>0の場合、control[f]=1として更新する。
(4)control_tmp[f]=1かつsum_flag[f]<0の場合、control[f]=0として更新する。
(5)その他の場合は、制御信号control[f]=control_tmp[f]として制御信号control[f]を維持する。
このようにすることで、一発話内においてフレーム単位で制御信号control[f]が頻繁に切り替わらないようにすることができ、帯域拡張の処理方法を頻繁に変更せずに常に自然な音質を保つことができる。
また、一発話内においてフレーム単位で制御信号control[f]が頻繁に切り替わらないようにするための別の方法として、control[f]=0からcontrol[f]=1へ切り替わるための閾値とcontrol[f]=1からcontrol[f]=0へ切り替わるための閾値とで異なった閾値を用いたり、制御信号control[f]が頻繁に切り替わりにくいように強制的に所定の時間は継続して同じ制御信号control[f]の結果を出力するように制御信号control[f]の制御を行ったりしても構わない。
信号帯域拡張処理部33は、入力信号x[n]に対して帯域拡張し、広帯域信号y[n]を出力信号として得る。このとき、制御部32から出力される制御信号control[f]に応じて、帯域拡張する処理を変化させる。
高域拡張部334は、制御部32から出力される制御信号control[f]に応じて、動作するか動作しないか制御される。高域拡張部334は、制御信号control[f]=1または2の場合に切替器333が閉じられることで動作し、動作する場合は入力信号x[n]に高域拡張処理を施すことによって入力信号x[n]の周波数帯域よりも高い周波数帯域を拡張した高域の広帯域信号y_high[n]を生成し、切替器335が閉じられることで高域の広帯域信号y_high[n]を出力する。一方で、高域拡張部334は、制御信号control[f]=0の場合に切替器
333が開放されることで動作せず、切替器335が開放されることで高域の広帯域信号y_high[n]を出力しない。
高域拡張部334は、例えば図5に示すように構成される。高域拡張部334は、窓掛け部334Aと、線形予測分析部334Bと、線スペクトル周波数変換部334Cと、スペクトル包絡広帯域化処理部334Dと、逆フィルタ部334Eと、帯域通過フィルタ部334Fと、アップサンプリング部334Gと、広帯域化処理部334Hと、有声/無声推定部334Iと、パワー制御部334Jと、雑音生成部334Kと、パワー制御部334Lと、信号加算部334Mと、信号合成部334Nと、フレーム合成処理部334Oと、帯域通過フィルタ部334Pとを備える。
窓掛け部334Aは、狭帯域に帯域制限された現在のフレームfの入力信号x[n] (n=0,1,…N-1)が入力され、このフレームと直前の1フレーム前の入力信号の合計2フレームを時間方向に結合したデータ長2Nの入力信号x[n] (n=0,1,…2N-1)に対して、窓関数をハミ
ング窓として窓関数を入力信号x[n]に乗じて、データ長2Nの窓掛けを行い、窓掛けを行った入力信号wx[n] (n=0,1,…2N-1)を出力する。なお、1フレーム前の入力信号x[n]は、窓掛け部334Aが備えるメモリを用いて保持する。ここでは、例として、次の時刻(フレーム)での入力信号x[n]のシフト幅(ここではNサンプル)と窓掛けを行った入力信号wx[n]のデータ長(ここでは2Nサンプル)の比であるオーバーラップは50%としている。ただ
し、窓掛けに用いる窓関数は、ハミング窓に限定せず、他の対称窓(ハニング窓、ブラックマン窓、正弦波窓など)あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。またオーバーラップは、50%に限らない。
線形予測分析部334Bは、窓掛け部334Aから出力された窓掛けを行った入力信号wx[n] (n=0,1,…2N-1)が入力され、これに対してDnb次の線形予測分析を行い、Dnb次の線形予測係数LPC[f,d](d=1,…,Dnb)を得る。ここでは例えば、Dnb=10とする。
線スペクトル周波数変換部334Cは、線形予測分析部334Bで得た線形予測係数LPC[f,d](d=1,…,Dnb)を、同じ次数の線スペクトル周波数(LSF)に変換して、狭帯域の
スペクトル包絡を表す狭帯域スペクトルパラメータとして線スペクトル周波数LSF_NB[f,d](d=1,…,Dnb)を得て、スペクトル包絡広帯域化処理部334Dに出力する。この実施
形態では、狭帯域のスペクトル包絡を表現する狭帯域スペクトルパラメータとして、線スペクトル周波数を用いる場合を例にしているが、狭帯域スペクトルパラメータとして、線形予測(LPC)係数や線スペクトル対(LSP)、PARCOR係数や反射係数、ケプストラム係数、メルケプストラム係数などを用いてもよい。
スペクトル包絡広帯域化処理部334Dは、狭帯域信号のスペクトル包絡を表す狭帯域スペクトルパラメータと広帯域信号のスペクトル包絡を表す広帯域スペクトルパラメータとの対応を事前にモデル化しておき、狭帯域スペクトルパラメータ(ここでは線スペクトル周波数LSF_NB[f,d])を取得し、このスペクトルパラメータを用いて、モデル化してお
いた狭帯域スペクトルパラメータと広帯域スペクトルパラメータとの対応から広帯域スペクトルパラメータ(ここでは線スペクトル周波数LSF_WB[f,d])を求める処理を行う。狭
帯域のスペクトル包絡を表すスペクトルパラメータから広帯域のスペクトル包絡を表すスペクトルパラメータに変換する手法としては、ベクトル量子化(VQ)による符号帳を用いる手法(例えば、吉田, 阿部, ”コードブックマッピングによる狭帯域音声から広帯域音声の生成法”, 信学論(D-II), vol.J78-D-II, No.3, pp.391-399, Mar. 1995.)や、GMMを
用いる手法(例えば、K. Y. Park, H. S. Kim, ”Narrowband to Wideband Conversion of Speech using GMM based Transformation”, Proc. ICASSP2000, vol.3, pp.1843-1846, Jun. 2000.)や、ベクトル量子化(VQ)による符号帳とHMMを用いる手法(例えば、G. Chen, V. Parsa, ”HMM-based Frequency Bandwidth Extension for Speech Enhancement using Line Spectral Frequencies”, Proc. ICASSP2004, vol.1, pp.709-712, 2004.)や、HMMを用いる手法(例えば、S. Yao, C. F. Chan, ”Block-based Bandwidth Extension of Narrowband Speech Signal by using CDHMM”, Proc. ICASSP2005, vol.1, pp.793-796, 2005.)などがあり、どれを用いても構わない。ここでは、例えば前述のGMM(Gaussian mixture model)を利用する手法を用いるとして、線スペクトル周波数変換部334Cで得た狭帯域スペクトルパラメータである線スペクトル周波数LSF_NB[f,d]を、fs_wb_low[Hz]からfs_wb_high[Hz]までに対応する第2の広帯域スペクトルパラメータであるDwb次の
広帯域の線スペクトル周波数LSF_WB[f,d](d=1,…,Dwb)に、事前に線スペクトル周波数LSF_NB[f,d]と線スペクトル周波数LSF_WB[f,d]の対応をモデル化しておいたGMMを利用して変換する。ここでは例えばDwb=18とする。なお、広帯域のスペクトルパラメータであるスペクトル包絡を表す特徴量データは、線スペクトル周波数に限らず、例えばLPC係数、PARCOR係数や反射係数、ケプストラム係数、メルケプストラム係数などでも構わない。
逆フィルタ334Eは、線形予測分析部334Bから出力される線形予測係数LPC[f,d]を用いて逆フィルタを形成し、その逆フィルタに窓掛け部334Aから出力されるデータ長2Nの窓掛けした入力信号wx[n]を入力して、狭帯域音源信号であるデータ長2Nの線形予
測残差信号e[n]を出力する。
帯域通過フィルタ部334Fは、逆フィルタ334Eの出力である線形予測残差信号e[n]から広帯域化に用いる周波数帯域を通過させるためのフィルタであって、帯域制限によって劣化した低域の影響を除去するために、少なくとも低域を低減する特性を有する。ここでは例えば1000[Hz]〜3400[Hz]を通過させる帯域通過フィルタとする。具体的には、逆フィルタ334Eで得たデータ長2Nの線形予測残差信号e[n]を入力として、帯域通過フィルタ処理し、帯域通過処理した線形予測残差信号をe_bp[n]としてアップサンプリング部
334Gに出力する。
アップサンプリング部334Gは、アップサンプリング部330と同様の処理を実施するものであって、帯域通過フィルタ部334Fから出力された信号e_bp[n]を、サンプリ
ング周波数fs[Hz]からfs’[Hz]にアップサンプリングし、エイリアシングを除去し、データ長4Nの信号e_us[n]として出力する。
広帯域化処理部334Hは、アップサンプリング部334Gで得たアップサンプリングされたデータ長4Nの線形予測残差信号e_us[n]に非線形処理を施して、少なくとも有声音
では基本周波数の倍音ごとに周波数領域でピークを持つ構造(調波構造)となる広帯域信号に変換する。これによって、広帯域化されたデータ長4Nの線形予測残差信号e_wb[n]が
得られる。
このような調波構造に変換する非線形処理の一例としては、図6(a)〜(b)に示すような非線形関数を用いた非線形処理がある。図6(a)は半波整流を表す。また、調波構造にする非線形処理としては図6(b)のように全波整流を用いることもできる。これらの処理に限らないが、帯域制限された入力信号が、この帯域制限によって、有声音において、基本周波数が欠落していた場合は基本周波数を生成し、基本周波数が欠落していない場合は基本周波数を生成しないようにするために、少なくとも周期性を残す関数が望ましい。
有声/無声推定部334Iは、入力信号x[n]と、線形予測分析部334Bが線形予測分析した狭帯域スペクトルパラメータであるDn次の線形予測係数LPC[f,d]とを入力として、入力信号x[n]がフレーム単位で「有声音」であるか「無声音」であるかを推定し、その推定情報vuv[f]を出力する。具体的には、有声/無声推定部334Iは、まず入力信号x[n]からフレーム単位での零交差の数を算出し、それをフレーム長Nで割って平均化した上で
マイナスにした負の平均零交差数Zi[f]を算出する。次に、式(6)に示すように、フレ
ーム単位での入力信号x[n]の2乗和をdB単位で計算し、これをフレームパワーCi[f]とす
る。
Figure 0004945586

また、式(7)に示すように、フレーム単位での1次自己相関係数In[f]を計算する。な
お、前述した目的信号度合算出部31における自己相関算出部311Cから出力されるパワーで正規化した1次自己相関係数Acorr[f,1]をそのままIn[f]として用いてもよい。
Figure 0004945586

そして、狭帯域スペクトルパラメータであるDn次の線形予測係数LPC[f,d]に零詰めしてデータ長を2のべき乗であるMの信号を生成し、次数をMとしたFFTを行う。例えば、M=256とする。wは周波数ビンの番号を表し、0≦w≦M-1とする。FFTの結果、周波数スペク
トルL[f,ω]を得て、周波数スペクトルL[f,ω]の2乗であるパワースペクトル|L[f,ω]|2に対して10を底とする対数を取り−10倍することでLPCによるスペクトル包絡をdB単
位で算出し、基本周波数が存在すると想定される帯域におけるLPCによるスペクトル包絡
の平均値Vi[f]を式(8)に示すように算出する。なお、例えば基本周波数が存在すると
想定される帯域を75[Hz]≦fs・ω/256[Hz]≦325[Hz]とし、つまりVi[f]として2≦ω≦11
の平均を求める。
Figure 0004945586

そして有声/無声推定部334Iは、負の平均零交差数Zi[f]、1次自己相関係数In[f]、LPCスペクトル包絡の平均値Vi[f]に対してそれぞれ適宜重みを付けた線形和にフレームパワーCi[f]を乗じた値をフレーム毎に監視し、所定の閾値を超えた場合に「有声音」であ
ると推定し、所定の閾値を超えない場合に「無声音」と推定し、その推定情報vuv[f]を出力する。
パワー制御部334Jは、アップサンプリング部334Gから出力されたデータ長4Nの信号e_us[n]と有音/無声推定部334Iから出力された1次自己相関係数In[f]に基づいて、広帯域化処理部334Hで得られた広帯域化されたデータ長4Nの信号e_wb[n]を所定
のレベルまで増幅し、e2_wb[n]として信号加算処理部334Mに出力する。具体的には、まずデータ長4Nの信号e_us[n]の2乗和を求め、データ長4Nの信号e_wb[n]の2乗和を求め、信号e_us[n]の2乗和を信号e_wb[n]の2乗和で割って増幅ゲインg1[f]を求める。次に
、有声音である程レベルを増幅させるために、1次自己相関係数In[f]の絶対値が1に近づけば1に近づき、1次自己相関係数In[f]の絶対値が0に近づけば0に近づく増幅ゲインg2[f]を求める。そして、増幅ゲインg1[f]とg2[f]を信号e_wb[n]に乗じることでパワー制御を行う。
雑音生成部334Kは、有声/無声推定部334Iの推定結果である推定情報vuv[f]が「無声音」の場合に、一様にランダムな乱数を生成し、それを信号の振幅値にすることにより、白色化された雑音信号wn[n]をデータ長4N分生成して出力する。
パワー制御部334Lは、アップサンプリング部334Gから出力されたデータ長4Nの信号e_us[n]と有音/無声推定部334Iから出力された1次自己相関係数In[f]に基づいて、雑音生成部334Kが生成した雑音信号wn[n]を所定のレベルまで増幅し、wn2[n]と
して信号加算処理部334Mに出力する。具体的には、まずデータ長4Nの信号e_us[n]の
2乗和を求め、データ長4Nの雑音信号wn[n]の2乗和を求め、信号e_us[n]の2乗和を雑音信号wn[n]の2乗和で割って増幅ゲインg3[f]を求める。次に、無声音である程レベルを増幅させるために、1次自己相関係数In[f]の絶対値が0に近づけば1に近づき、1次自己相
関係数In[f]の絶対値が1に近づけば0に近づく増幅ゲインg4[f]を求める。そして、増幅ゲインg3[f]とg4[f]を雑音信号wn[n]に乗じることでパワー制御を行い、その信号wn2[n]を
出力する。
信号加算処理部334Mは、パワー制御部334Lから出力される雑音信号wn2[n]と、パワー制御部334Jから出力される信号e2_wb[n]とを加算して、データ長4Nの信号e3_wb[n]を広帯域音源信号として信号合成部334Nに出力する。
信号合成部334Nは、スペクトル包絡広帯域化処理部334Dで得た上記広帯域スペクトルパラメータである線スペクトル周波数LSF_WB[f,d](d=1,…,Dwb)に基づいて線ス
ペクトル対LSP_WB[f,d](d=1,…,Dwb)を生成して、信号加算処理部334Mで得た広帯
域音源信号であるデータ長4Nの線形予測残差信号e3_wb[n]にLSP合成フィルタ処理を行い、データ長4Nの広帯域信号y1_high[n]を算出する。
フレーム合成処理部334Oは、窓掛け部334Aでのオーバーラップ分を戻すようにフレーム合成を行い、データ長2Nの広帯域信号y2_high[n]を算出する。具体的には、ここではオーバーラップ50%であるため、データ長4Nの広帯域信号y1_high[n]の時間的に前半
のデータ(データ長2N)と、1フレーム前に信号合成部334Nが出力したデータ長4Nの広帯域信号y1_high[n]の時間的に後半のデータ(データ長2N)とを加算して、データ長2Nの広帯域信号y2_high[n]を算出する。
帯域通過フィルタ部334Pは、フレーム合成処理部334Oから出力されたデータ長2Nの広帯域信号y2_high[n]に対して、拡張した周波数帯域のみを通過させるフィルタ処理を施し、これにより通過した信号、すなわち拡張した周波数帯域の信号をデータ長2Nの高域の広帯域信号y_high[n]として出力する。つまり、上記フィルタ処理により、fs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯域を通過させて、この周波数帯域の信号が高域
の広帯域信号y_high[n]として得られる。
低域拡張部337は、制御部32から出力される制御信号control[f]に応じて、動作するか動作しないか制御される。低域拡張部337は、制御信号control[f]=2の場合に切
替器336が閉じられることで動作し、動作する場合は入力信号x[n]に低域拡張処理を施して、入力信号x[n]の周波数帯域よりも低い周波数帯域を拡張した低域の広帯域信号y_low[n]を生成し、切替器338が閉じられることで低域の広帯域信号y_low[n]を出力する。
一方で、低域拡張部337は、制御信号control[f]=0または1の場合に切替器336が開放されることで動作せず、切替器338が開放されることで低域の広帯域信号y_low[n]を出力しない。
低域拡張部337は、例えば図7に示すように構成される。低域拡張部337は、窓掛け部337Aと、線形予測分析部337Bと、逆フィルタ部337Cと、広帯域化処理部337Dと、信号合成部337Eと、フレーム合成処理部337Fと、帯域通過フィルタ部337Gと、アップサンプリング部337Hとを備える。
窓掛け部337Aは、窓掛け部334Aと同様の処理を実施するものであって、狭帯域に帯域制限された現在のフレームfの入力信号x[n] (n=0,1,…N-1)が入力され、このフレームと直前の1フレーム前の入力信号の合計2フレームを時間方向に結合したデータ長2Nの入力信号x[n] (n=0,1,…2N-1)に対して、窓関数を入力信号に乗じて、データ長2Nの窓
掛けを行い、窓掛けを行った入力信号wx_low[n] (n=0,1,…2N-1)を出力する。勿論、wx_low[n]=wx[n] (n=0,1,…2N-1)として、窓掛け部334Aと処理を共通化させてもよい。
線形予測分析部337Bは、線形予測分析部334Bと同様の処理を実施するものであって、窓掛け部337Aから出力された窓掛けを行った入力信号wx_low[n] (n=0,1,…2N-1)が入力され、これを線形予測分析して、第2の狭帯域スペクトルパラメータとしてDn次の線形予測係数LPC_low[f,d](d=1,…,Dn)を得る。ここでは例えばDn=14とする。勿論、Dn=DnbとしLPC_low[f,d]=LPC[f,d]として、前記狭帯域スペクトルパラメータと第2の
狭帯域スペクトルパラメータを同じにして、線形予測分析部334Bと処理を共通化させてもよい。
逆フィルタ337Cは、逆フィルタ334Eと同様の処理を実施するものであって、線形予測分析部337Bで得た第2の狭帯域スペクトルパラメータである線形予測係数LPC_low[f,d]を用いて逆フィルタを形成し、その逆フィルタに窓掛け部337Aで窓掛けしたデータ長2Nの入力信号wx[n]を入力して、第2の狭帯域音源信号としてデータ長2Nの線形
予測残差信号e_low[n]を得る。勿論、Dn=DnbとしLPC_low[f,d]=LPC[f,d]として、逆フ
ィルタ334Eと処理を共通化させてもよい。
広帯域化処理部337Dは、広帯域化処理部334Hと同様の処理を実施するものであって、逆フィルタ337Dから出力されたデータ長2Nの信号e_low[n]に非線形処理を施して、少なくとも有声音では基本周波数の倍音ごとに周波数領域でピークを持つ構造(調波構造)となる広帯域信号に変換する。これによって、広帯域化されたデータ長2Nの線形予測残差信号e_low_wb[n]が得られる。
信号合成部337Eは、狭帯域スペクトルパラメータである線形予測係数LPC_low[f,d]と、データ長2Nの線形予測残差信号e_low_wb[n]を入力として、線形予測係数LPC_low[f,d]を用いて線形予測合成フィルタを生成し、データ長2Nの線形予測残差信号e_low_wb[n]に線形予測合成を行って、データ長2Nの広帯域信号y1_low[n]を生成する。
フレーム合成処理部337Fは、フレーム合成処理部334Oと同様の処理を実施するものであって、窓掛け部337Aでのオーバーラップ分を戻すようにフレーム合成を行い、データ長Nの広帯域信号y2_low[n]を算出する。具体的には、ここではオーバーラップ50%であるため、データ長2Nの広帯域信号y1_low[n]の時間的に前半のデータ(データ長N)
と、1フレーム前に信号合成部337Eが出力したデータ長2Nの広帯域信号y1_low[n]の
時間的に後半のデータ(データ長N)とを加算して、データ長Nの広帯域信号y2_low[n]を
算出する。
帯域通過フィルタ337Gは、フレーム合成処理部337Fから出力されるデータ長N
の広帯域信号y2_low[n]に対して、拡張したい周波数帯域のみを通過させるフィルタ処理
を施し、これにより通過した信号、すなわち拡張したい周波数帯域の信号をデータ長Nの
広帯域信号y3_low[n]として出力する。つまり、上記帯域通過フィルタ処理により、fs_wb_low[Hz]からfs_nb_low[Hz]までの周波数帯域を通過させて、この周波数帯域の信号が広
帯域信号y3_low[n]として得られる。
アップサンプリング部337Hは、帯域通過フィルタ337Gから出力されたデータ長Nの広帯域信号y3_low[n]を、サンプリング周波数fs[Hz]からfs’[Hz]にアップサンプリングし、エイリアシングを除去し、データ長2Nの低域の広帯域信号y_low[n]として出力する。
アップサンプリング部330は、アップサンプリング部334Gと同様の処理を実施するものであって、データ長Nの入力信号x[n]を、サンプリング周波数fs[Hz]からfs’[Hz]
にアップサンプリングし、エイリアシングを除去し、データ長2Nのx_us[n]として出力す
る。
信号遅延処理部331は、アップサンプリング部330から出力されたデータ長2Nのアップサンプリングされた入力信号x_us[n]を所定の時間(D1サンプル分)だけバッファす
ることによって遅延させ、x_us[n-D1]として出力することで、高域拡張部334から出力される信号y_high[n]とタイミングを合わせて同期をとる。すなわち、所定の時間(D1サ
ンプル分)は、高域拡張部334での入力から出力が得られるまでの処理遅延の時間D_highから、アップサンプリング部330での入力から出力が得られるまでの処理遅延の時間D_usを引いた分に相当する(D1=D_high−D_us)。この値は、事前に求めておき、D1を常に固定値として用いる。
信号遅延処理部339は、低域拡張部337から出力されたデータ長2Nの広帯域信号y_low[n]を所定の時間(D2サンプル分)だけバッファすることによって遅延させ、y_low[n-D2]として出力することで、高域拡張部334から出力される信号y_high[n]とタイミングを合わせて同期をとる。すなわち、所定の時間(D2サンプル分)は、高域拡張部334での入力から出力が得られるまでの処理遅延の時間D_highから、低域拡張部337での入力から出力が得られるまでの処理遅延の時間D_lowを引いた分に相当する(D2=D_high−D_low)。この値は、事前に求めておき、D2を常に固定値として用いる。ただし、信号遅延処理部339は、制御信号control[f]=2であって、低域拡張部337が動作して低域の広
帯域信号y_low[n]が出力される場合のみ動作をする。
信号加算部332は、制御信号control[f]=2のとき、信号遅延処理部331から出力
されるデータ長2Nの入力信号x_us[n-D1]と、信号遅延処理部339から出力されるデータ長2Nの広帯域信号y_low[n-D2]と、高域拡張部334から出力されるデータ長2Nの広帯域
信号y_high[n]とを、サンプリング周波数fs’[Hz]で加算して、データ長2Nの広帯域信号y[n]を出力信号として得る。これにより、アップサンプリングされた入力信号x[n-D1]は、広帯域信号y_high[n]と広帯域信号y_low[n]の分だけ帯域拡張されて、fs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張した信号が得られる。制御信号control[f]=1のときは
、信号加算部332は、信号遅延処理部331から出力されるデータ長2Nの入力信号x_us[n-D1]と、高域拡張部334から出力されるデータ長2Nの広帯域信号y_high[n]とを、サ
ンプリング周波数fs’[Hz]で加算して、データ長2Nの広帯域信号y[n]を出力信号として得る。これにより、アップサンプリングされた入力信号x[n-D1]は、広帯域信号y_high[n]の分だけ帯域拡張されて、fs_nb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張した信号が
得られる。制御信号control[f]=0のときは、信号加算部332は、信号遅延処理部33
1から出力されるデータ長2Nの入力信号x_us[n-D1]をそのままデータ長2Nの広帯域信号y[n]として出力信号とする。すなわち、この場合はアップサンプリングされるだけで帯域拡張されない。
このように構成した信号帯域拡張部3を信号帯域拡張装置に適用すれば、入力信号に目的信号である音声信号とそれ以外の非目的信号(ノイズ成分、エコー成分、残響成分、音楽など)が混在した場合に、常に高精度な帯域拡張処理を行うのではなく、目的信号である音声信号がどれぐらい含まれているかの目的信号度合に応じて帯域拡張処理の方法を変化させ、目的信号度合が高い場合は目的信号を高精度に帯域拡張処理することで原音により忠実に帯域を拡張することができて高音質を維持でき、目的信号度合が低い場合は非目的信号が多く、ユーザが所望しない非目的信号をそれ程高精度に帯域拡張処理をする必要がないため、処理を部分的に省いた簡易な帯域拡張処理にして計算量を少なくすることができる。
なお、この実施例では、デコーダ2から信号帯域拡張部3に入力信号x[n]のみが入力される構成となっているが、デコーダ2で得られた情報やそれを加工した情報(例えば線形予測係数LPC[f,d]や線形予測残差信号e[n]など)を信号帯域拡張部3で用いるようにしてもよい。このようにすることで、各信号を算出するモジュールが不要となり、計算量をさらに少なくすることができる。
(第1の実施例の変形例)
信号帯域拡張部3に、図8に示すような非目的信号抑圧部34を追加してもよい。非目的信号抑圧部34は、非目的信号区間判定部341と、非目的信号レベル推定部342と、非目的信号抑圧処理部343とを備える。非目的信号抑圧処理部343は、図9に示すように、周波数領域変換部343Aと、パワー算出部343Bと、パワー算出部343Cと、抑圧ゲイン算出部343Dと、スペクトル抑圧部343Eと、時間領域変換部343Fとを備える。
非目的信号抑圧部34は、目的信号度合算出部31から出力される目的信号度合type[f]を用いて、入力信号x[n]に対して非目的信号成分を抑圧して、非目的信号成分が抑圧さ
れた信号x_ns[n]を信号帯域拡張処理部33に入力する。本変形例では、信号帯域拡張処
理部33は入力信号x[n]の代わりに非目的信号成分が抑圧された信号x_ns[n]に対して帯
域拡張し、広帯域信号y[n]を出力信号として得るものである。
非目的信号区間判定部341は、目的信号度合算出部31から出力される目的信号度合type[f]を入力として、フレーム単位で目的信号度合type[f]から非目的信号が支配的に含まれる区間であるかどうかを表すフレーム判定値vad[f]を出力する。例えば、目的信号度合type[f]が閾値THR_B未満である場合に、非目的信号が支配的に含まれる区間であるとしてフレーム判定値vad[f]=0とし、目的信号度合type[f]が閾値THR_B以上である場合に、非目的信号が支配的には含まれない区間であるとしてフレーム判定値vad[f]=1と出力する。
非目的信号レベル推定部342は、非目的信号抑圧処理部343から出力される入力信号x[n]のパワースペクトル|X[f,w]|2 (w=0,1,…M-1)と、非目的信号区間判定部341から出力されるフレーム判定値vad[f]を用いて、フレーム判定値vad[f]=0である非目的信号が支配的に含まれる区間のみの入力信号x[n]のパワースペクトル|X[f,w]|2 を前述の式(2)と同様にしてフレーム単位で忘却させることで平均的なパワースペクトルを算出し、これを各周波数帯域の非目的信号のパワースペクトル|N2[f,w]|2 (w=0,1,…M-1)として
出力する。なお、計算量を小さくするために、目的信号度合算出部31の周波数スペクトル更新部311Dから出力される各周波数帯域の非目的信号のパワースペクトル|N[f,w]|2を|N2[f,w]|2として用いてもよい。
非目的信号抑圧処理部343は、非目的信号レベル推定部342から出力された各周波数帯域の非目的信号のパワースペクトル|N2[f,w]|2 (w=0,1,…M-1)を用いて、入力信号x[n]から非目的信号成分を抑圧して、非目的信号成分が抑圧された信号x_ns[n]を出力し、また入力信号x[n]のパワースペクトル|X[f,w]|2 も出力する。非目的信号抑圧処理部343は、図9のように構成される。
周波数領域変換部343Aは、周波数領域変換部311Cと同様にして、現在のフレームfの入力信号x[n] (n=0,1,…N-1)が入力され、直前のフレームの入力信号を用いたり、適宜零詰めなどを行ったりして、周波数領域変換に必要なサンプル(2M)分の信号を取り出し、窓掛けを行い、窓掛け後の2Mサンプルの信号に対して周波数領域変換を行い、入力信号の周波数スペクトルX[f,w] (w=0,1,…M-1)を出力する。
パワー算出部343Bは、周波数領域変換部343Aから出力された入力信号の周波数スペクトルX[f,w] (w=0,1,…M-1)から入力信号のパワースペクトル|X[f,w]|2 (w=0,1,
…M-1)を算出し出力する。
パワー算出部343Cは、スペクトル抑圧部343Eから出力された抑圧処理された信号の周波数スペクトルXns[f,w] (w=0,1,…M-1)から抑圧処理された信号のパワースペク
トル|Xns[f,w]|2 (w=0,1,…M-1)を算出し出力する。
抑圧ゲイン算出部343Dは、パワー算出部343Bから出力される入力信号のパワースペクトル|X[f,w]|2 (w=0,1,…M-1)と、非目的信号レベル推定部342から出力される非目的信号のパワースペクトル|N2[f,w]|2 (w=0,1,…M-1)と、パワー算出部343Cか
ら出力される1フレーム前の抑圧処理された信号のパワースペクトル|Xns[f-1,w]|2 (w=0,1,…M-1)とを用いて、各周波数帯域の抑圧ゲインG[f,w] (w=0,1,…M-1)を出力する。
例えば、抑圧ゲインG[f,w]の算出は、以下のアルゴリズムまたはそれらの組み合わせによって行う。すなわち、一般のノイズキャンセラであるスペクトル・サブトラクション(Spectral Subtraction)法(S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoustics, Speech, and Signal Processing, vol.ASSP-29, pp.113-120 (1979).)、ウィナー・フィルター(Wiener Filter)法(J. S. Lim, A. V. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. IEEE Vol.67, No.12, pp.1586-1604, Dec.1979.)及び最尤推定(Maximum Likelihood)法(R. J. McAulay, M. L. Malpass, “Speech enhancement using a soft-decision noise suppression filter”, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.ASSP-28, no.2, pp.137-145, Apr.1980.)などである。ここでは一例としてウィナー・フィルター法を用いて、抑圧ゲインG[f,w]を算出するとする。
スペクトル抑圧部343Eは、周波数領域変換部343Aから出力された入力信号の周波数スペクトルX[f,w] と、抑圧ゲイン算出部343Dから出力された抑圧ゲインG[f,w]
とを入力として、入力信号の周波数スペクトルX[f,w]を入力信号の振幅スペクトル|X[f,w]| (w=0,1,…M-1)と位相スペクトルθX[f,w] (w=0,1,…M-1)に分け、入力信号の振幅ス
ペクトル|X[f,w]| に抑圧ゲインG[f,w]を乗じて抑圧処理された信号の振幅スペクトル|Xns[f-1,w]|とし、位相スペクトルθX[f,w]をそのまま抑圧処理された信号の位相スペクト
ルθXns[f,w]として、抑圧処理された信号の周波数スペクトルXns[f,w] (w=0,1,…M-1)
を算出する。
時間領域変換部343Fは、スペクトル抑圧部343Eから出力された抑圧処理された信号の周波数スペクトルXns[f,w] (w=0,1,…M-1)を入力として、IFFT(Inverse Fast Fourier Transform)などの時間領域に変換する処理を施して時間領域の信号に変換し
、周波数領域変換部343Aにおける窓掛けによるオーバーラップ分を考慮して1フレーム前の抑圧処理された信号x_ns[n] (n=0,1,…N-1)を加算して、抑圧処理された信号x_ns[n] (n=0,1,…N-1)を算出する。
このような構成であっても、同様の効果を発揮する。また、このような構成によれば、入力信号に含まれる非目的信号の成分が抑圧された信号に対して、信号帯域拡張処理を行うので、目的信号のみを信号帯域拡張処理することができるため、原音により忠実で音質のよい帯域拡張された信号を生成することができるという効果が得られる。またこのように、目的信号度合算出部31と非目的信号抑圧部34を併用する構成とすれば、目的信号度合算出部31と非目的信号抑圧部34を全く独立に動作する構成とするよりも冗長な処理を削減することができ、計算量を削減することができる。
(第2の実施例)
次に、本発明の第2の実施例について説明する。本実施例の構成は、第1の実施例において図1を用いて説明した構成と同様であるため、説明を省略する。図10は、本実施形態の信号帯域拡張部3の構成を示すものである。なお、以下の説明では、第1の実施例と同じ構成については同じ番号を付番し、説明を簡明にするために必要に応じて重複する説明を省略する。
第2の実施例では、信号帯域拡張部3の入力信号x[n] (n=0,1,…N-1)は、fs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限されているものとし、信号帯域拡張部3の帯域拡張
処理によってサンプリング周波数fs[Hz]からより高いサンプリング周波数fs’[Hz]に変更され、fs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張されるものとする。ただし、fs_wb_low ≦ fs_nb_low < fs_nb_high < fs/2 ≦ fs_wb_high < fs’/2 を満たすものとする。
また以下の説明では、低域拡張と高域拡張を例に挙げるため、fs_wb_low < fs_nb_low、fs_nb_high < fs_wb_highとして説明し、例えば、fs=8000[Hz]、fs’=16000[Hz]、fs_nb_low=340[Hz]、fs_nb_high=3950[Hz]、fs_wb_low=50[Hz]、fs_wb_high=7950[Hz]とする
。また、ここでは1フレームをN=160サンプルとする。ただし、帯域制限の周波数帯域や
サンプリング周波数、フレームサイズについては、これらの値に限らない。
第2の実施例において、信号帯域拡張部3は、目的信号度合算出部35、制御部36、信号帯域拡張処理部37を有する。
信号帯域拡張処理部37は、第1の実施例の信号帯域拡張処理部33の高域拡張部334と、低域拡張部337と、切替部333、335、336、338に代わって、帯域拡張部371と、帯域拡張部372と、帯域拡張部373と、帯域拡張部374と、帯域拡張部375と、切替部3711、3712、3721、3722、3731、3732、3741、3742、3751、3752とを用い、さらに信号格納部376と、遅延時間設定部377と、信号遅延処理部378を追加した構成になっている。
第2の実施例に関わる目的信号度合算出部35は、第1の実施例の目的信号度合算出部31と同じ構成であるため説明を省略するが、1フレームをN/2サンプルと第1の実施例の半分にし、時間当たりの処理回数を増やして、目的信号度合算出部31よりも高精度に目的信号度合type[f]を算出する。
第2の実施例に関わる制御部36には、目的信号度合算出部35から出力される目的信号度合type[f]が入力される。制御部36は、目的信号度合type[f]に応じて、帯域拡張部371と、帯域拡張部372と、帯域拡張部373と、帯域拡張部374と、帯域拡張部375のいずれかを動作させるかを制御する制御信号control[f]を出力する。具体的には、制御信号control[f]=0のときは、切替器3711、3712、3721、3722、
3731、3732、3741、3742、3751、3752が開放されて帯域拡張部371〜375のいずれも動作しない。制御信号control[f]=1のときは、切替器371
1、3712のみが閉じられることで帯域拡張部371のみが動作を行う。制御信号control[f]=2のときは、切替器3721、3722のみが閉じられることで帯域拡張部37
2のみが動作を行う。制御信号control[f]=3のときは、切替器3731、3732のみ
が閉じられることで帯域拡張部373のみが動作を行う。制御信号control[f]=4のとき
は、切替器3741、3742のみが閉じられることで帯域拡張部374のみが動作を行う。制御信号control[f]=5のときは、切替器3751、3752のみが閉じられること
で帯域拡張部375のみが動作を行う。
図11に制御部36の制御動作を示す。このように制御部36では、目的信号である度合が低いほど簡易で低音質な帯域拡張処理方法になるように制御し、目的信号である度合が高いほど高精度で高音質な帯域拡張処理方法になるように制御する。一般的に、低音質な帯域拡張処理方法であるほど簡易な処理となるため小さい計算量となり、高音質な帯域拡張処理方法であるほど高精度な処理となるため大きい計算量となる。このように制御部36では、目的信号である度合が低いほど、動作を行う処理を部分的に省いたり、拡張する周波数帯域の範囲を狭くしたり、処理単位を大きくしたりすることで簡易で低音質な帯域拡張処理方法になるように制御する。
図10の帯域拡張処理部371が動作する場合とは、図11の「簡易な高域拡張のみ」を行う場合に相当し、図10の帯域拡張部372が動作する場合とは、図11の「やや簡易な高域拡張のみ」を行う場合に相当し、図10の帯域拡張部373が動作する場合とは、図11の「高域拡張のみ」を行う場合に相当し、図10の帯域拡張部374が動作する場合とは、図11の「低域拡張+高域拡張」を行う場合に相当し、図10の帯域拡張部375が動作する場合とは、図11の「高精度な低域拡張+高精度な高域拡張」を行う場合に相当し、図10の帯域拡張部371〜375のいずれも動作しない場合とは、図11のアップサンプリングのみを行う場合に相当する。つまり、制御部36が目的信号度合type[f]を用いて、帯域拡張部371〜375のいずれか1つを動作させるか、または帯域拡
張部371〜375のいずれも動作をさせないかを制御することにより、目的信号である度合が高いほど高精度で高音質な帯域拡張処理を行うことができる。
図12は、帯域拡張部371の構成例を示すブロック図である。帯域拡張部371は、入力信号x[n]を入力として、高域であるfs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯域が拡張された広帯域信号y_wb1[n]を出力する。帯域拡張部371は、図5に示した高域拡張部334からスペクトルパラメータの分析・合成(線形予測分析とスペクトル包絡の合成)に関する処理ブロックと、有声無声推定に関する処理ブロックとを除き、切替器37Qを設けた構成である。このように、大幅に処理を削減することによって、簡易な高域拡張処理を実現することができる。また、帯域拡張部371は、動作する度に、広帯域化処理部334Hから出力されるy1_wb1[n]の時間的に後半のデータ(データ長2N)を高
域拡張データy_high_buff[n]として信号格納部376に出力し、すべてのサンプルの値を0とした零信号を低域拡張データy_low_buff[n]として信号格納部376に出力する。な
お、これ以降も同様で、信号格納部376へ入力され信号格納部376から出力される信号y_high_buff[n]及びy_low_buff[n]のデータ長は、それぞれ窓掛け部334A及び窓掛
け部337Aでのオーバーラップ分を考慮したデータ長となる。
なお、制御部36の制御によって、信号帯域拡張処理部37で行われる帯域拡張処理のうちで帯域拡張部371が動作するように切り替わった初めのフレームだけは、切替器37Qが切り替えられる。切替器37Qが切り替えられると、帯域拡張部371のフレーム合成処理部334Oは、広帯域化処理部334Hで拡張された高域拡張データy1_wb1[n]
の時間的に前半のデータ(データ長2N)と信号格納部376に格納されたデータ長2Nの高域拡張データy_high_buff[n](実質的に1フレーム前の信号)を加算してy2_wb1[n]とし
て出力する。これによって、時間方向での信号の平滑化が行われ、信号帯域拡張処理部37での帯域拡張処理の方法を切り替えることによる音の不連続感を解消することができる。
図13は、帯域拡張部372の構成例を示すブロック図である。帯域拡張部372は、入力信号x[n]を入力として、高域であるfs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯域が拡張された広帯域信号y_wb2[n]を出力する。帯域拡張部372は、図5に示した帯域拡張部334からスペクトルパラメータの分析・合成(線形予測分析とスペクトル包絡の合成)に関する処理ブロックを除いた構成である。このため、帯域拡張部372は、図5に示した高域拡張部334による処理よりも計算量を削減することができる。ただし、帯域拡張処理部372は、有声無声推定に関する処理ブロックを有しているため、図12に示した帯域拡張部371よりは精度良く高域拡張処理を行うことができる。また、帯域拡張部372は、動作する度に、信号加算部334Mから出力されるy1_wb2[n]の時間的
に後半のデータ(データ長2N)を高域拡張データy_high_buff[n]として信号格納部376に出力し、零信号を低域拡張データy_low_buff[n]として信号格納部376に出力する。
そして、帯域拡張部372が動作するように切り替わった初めのフレームだけは、切替器37Qが切り替えられる。切替器37Qが切り替えられると、帯域拡張部372のフレーム合成処理部334Oは、高域拡張データy1_wb2[n]の時間的に前半のデータ(データ
長2N)と信号格納部376に格納された高域拡張データy_high_buff[n](実質的に1フレーム前の信号)を加算してy2_wb2[n]として出力する。これによって、時間方向での信号
の平滑化が行われ、信号帯域拡張処理部37での帯域拡張処理の方法を切り替えることによる音の不連続感を解消することができる。
図14は、帯域拡張部373の構成例を示すブロック図である。帯域拡張部373は、入力信号x[n]を入力として、高域であるfs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯域が拡張された広帯域信号y_wb3[n]を出力する。帯域拡張部373は、図5に示した帯域拡張部334に切替器37Qを設けた構成である。また、帯域拡張部373は、動作する度に、信号合成部334Nから出力されるy1_wb3[n]の時間的に後半のデータ(データ
長2N)を高域拡張データy_high_buff[n]として信号格納部376に出力し、零信号を低域拡張データy_low_buff[n]として信号格納部376に出力する。
そして同様に、帯域拡張部373が動作するように切り替わった初めのフレームだけは、切替器37Qが切り替えられる。切替器37Qが切り替えられると、帯域拡張部373のフレーム合成処理部334Oは、高域拡張データy1_wb3[n]の時間的に前半のデータ(
データ長2N)と信号格納部376に格納された高域拡張データy_high_buff[n](実質的に1フレーム前の信号)を加算してy2_wb3[n]として出力する。これによって、時間方向で
の信号の平滑化が行われ、信号帯域拡張処理部37での帯域拡張処理の方法を切り替えることによる音の不連続感を解消することができる。
図15は、帯域拡張部374の構成例を示すブロック図である。帯域拡張部374は、図14に示した帯域拡張部373と、低域拡張部374Aと、信号遅延処理部374Bと、信号加算部374Cとを備えた構成である。このため、帯域拡張部374は、図5に示した高域拡張部334や図14に示した帯域拡張部373による処理よりも計算量が増加するが、低域拡張処理が含まれるため、より精度良く原音に忠実な信号を生成することができる。帯域拡張部374は、入力信号x[n]を入力として、低域であるfs_wb_low[Hz]か
らfs_nb_low[Hz]までと、高域であるfs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯
域が拡張された広帯域信号y_wb4[n]を出力する。また、帯域拡張部374における帯域拡張部373は、動作する度に、信号合成部334Nから出力されるy1_wb4[n]の時間的に
後半のデータ(データ長2N)を高域拡張データy_high_buff[n]として信号格納部376に出力する。
図16は、図15に示した低域拡張処理部374Aの構成を示すブロック図である。帯域拡張部374Aは、図7に示した帯域拡張部337に切替器37Rを設けた構成である。帯域拡張部374Aは、入力信号x[n]を入力として、低域であるfs_wb_low[Hz]からfs_nb_low[Hz]までの周波数帯域が拡張された広帯域信号y_wb_low[n]を出力する。また、帯
域拡張部374Aは、動作する度に、信号合成部337Eから出力されるy1_low[n]の時
間的に後半のデータ(データ長2N)を低域拡張データy_low_buff[n]として信号格納部3
76に出力する。
なお、制御部36の制御によって、信号帯域拡張処理部37で行われる帯域拡張処理のうちで帯域拡張部374が動作するように切り替わった初めのフレームだけは、切替器37Rが切り替えられる。切替器37Rが切り替えられると、帯域拡張部374Aのフレーム合成処理部337Fは、信号合成部337Eで合成された高域拡張データy1_low[n]の
時間的に前半のデータ(データ長2N)と信号格納部376に格納された低域拡張データy_low_buff[n](実質的に1フレーム前の信号)を加算してy2_low[n]として出力する。これによって、時間方向での信号の平滑化が行われ、信号帯域拡張処理部37での帯域拡張処理の方法を切り替えることによる音の不連続感を解消することができる。
信号遅延処理部374Bは、低域拡張部374Aから出力された信号y_wb_low[n]を所
定の時間(D3サンプル分)だけバッファすることによって遅延させ、y_wb_low[n-D3]として出力することで、帯域拡張部373から出力される信号y_wb3[n]とタイミングを合わせて同期をとる。すなわち、所定の時間(D3サンプル分)は、帯域拡張部373での入力から出力が得られるまでの処理遅延の時間D_high1から、低域拡張部374Aでの入力から
出力が得られるまでの処理遅延の時間D_low1を引いた分に相当する(D3=D_high1−D_low1)この値は、事前に求めておき、D3を常に固定値として用いる。
信号加算部374Cは、信号遅延処理部374Bから出力される広帯域信号y_wb_low[n-D3]と、帯域拡張部373から出力される広帯域信号y_wb3[n]とを、サンプリング周波数fs’[Hz]で加算して、広帯域信号y_wb4[n]を得て出力する。
図17は、帯域拡張部375の構成例を示すブロック図である。帯域拡張部375は、帯域拡張部374と同じ構成であるが、帯域拡張部375で帯域拡張処理を行う処理単位(1フレーム)をN/2サンプルと帯域拡張部374の処理単位の半分にし、処理する時間間隔を短くし時間当たりの処理回数を増やすことで、帯域拡張部374よりも高精度に拡張処理をする。このため、帯域拡張部375は、図14に示した帯域拡張部374による処理よりも計算量が増加するが、時間当たりの処理回数を増やすことで、時間方向の精度が増し、より精度良く原音に忠実な信号を生成することができる。勿論1フレームをN/2サンプルにすることに限定されなく、目的信号度合type[f]が高くなるにつれて帯域
拡張処理における時間当たりのフレームサイズを小さくして時間分析長を短くするようにすれば、1フレームのサンプル数はどのような値でも構わない。
図17では帯域拡張部375は、帯域拡張部373−1と、低域拡張部374A−1と、信号遅延処理部374B−1と、信号加算部374C−1とを備えた構成であるが、それぞれ帯域拡張部373、低域拡張部374A、信号遅延処理部374B、信号加算部374Cの1フレームをN/2サンプルと時間当たりの処理回数を倍に増やしているだけで、動作は変わらないので、ここでは説明を省略する。
そして帯域拡張部375は、入力信号x[n]を入力として、低域であるfs_wb_low[Hz]か
らfs_nb_low[Hz]までと、高域であるfs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯
域が拡張された広帯域信号y_wb5[n]を出力する。また、帯域拡張部374と同様に、帯域拡張部375は、動作する度に、信号合成部334Nから出力されるy1_wb4[n]を高域拡
張データy_high_buff[n]として信号格納部376に出力する。
信号格納部376は、帯域拡張部371〜375のいずれか1つが動作している場合は、動作している帯域拡張部371〜375のいずれか1つから高域拡張データy_high_buff[n]と低域拡張データy_low_buff[n]が入力される。また、帯域拡張部371〜375の
いずれも動作しない場合は、高域拡張データy_high_buff[n]と低域拡張データy_low_buff[n]を両方ともに零信号に設定する。そして、制御信号control[f]が1〜5の中で切り替
わった場合の初めのフレームは、高域拡張データy_high_buff[n]と低域拡張データy_low_buff[n]を、動作している帯域拡張部371〜375のいずれか1つへ適宜出力する。
遅延時間設定部377は、入力信号が帯域拡張部371〜375のいずれかによって帯域拡張されたかにより処理の遅延時間は異なるため、事前に帯域拡張部371〜375のそれぞれについて、入力から出力が得られるまでの帯域拡張処理の遅延時間を事前に求めておき、そのうちで最大の遅延時間D_maxを求め、制御部36から出力された制御信号control[f]に応じて帯域拡張部371〜375のいずれかによって帯域拡張されるのかを判
断して、帯域拡張部371〜375のいずれが動作しても遅延時間が最大の遅延時間D_maxに揃うように事前に設定された遅延時間を信号遅延処理部378によって行われる信号
の遅延時間Dとして設定する。例えば、入力から出力が得られるまでの帯域拡張部371〜375の遅延時間をぞれぞれD21、D22、D23、D24、D25サンプルとしたとき、そのうち
で最大の遅延時間D_maxを求めて、帯域拡張部371が動作した場合はD=D_max−D21、
帯域拡張部372が動作した場合はD=D_max−D22、帯域拡張部373が動作した場合はD=D_max−D23、帯域拡張部374が動作した場合はD=D_max−D24、帯域拡張部375が動作した場合はD=D_max−D25と、遅延時間Dを設定する。これらの値は、事前に求めておき、常に固定値として用いる。このようにすることにより、遅延時間が異なる様々な帯域拡張の処理に切り替わった場合でも、周波数帯域ごとにタイミングが合って同期がとれた信号を生成することができ、また帯域拡張の処理の切り替わり前後で無音や異音を生成することを防ぐことができ、より原音音に忠実な信号を生成することができる。なお、帯域拡張部371〜375のいずれも動作しない場合は、遅延時間設定部377は動作しない。
信号遅延処理部378は、帯域拡張部371〜375のいずれか1つによって出力された広帯域信号をy_wb[n]とし、これを遅延時間設定部377で設定された所定の時間(Dサンプル分)だけバッファすることによって遅延させ、y_wb[n-D]として出力する。なお、
帯域拡張部371〜375のいずれも動作しない場合は、信号遅延処理部378は動作しない。
信号遅延処理部331Aは、アップサンプリング部330から出力された入力信号x_us[n]を所定の時間(D20サンプル分)だけバッファすることによって遅延させ、x_us[n-D20]として出力することで、帯域拡張部371〜375のいずれか1つによって出力された
広帯域信号をy_wb[n-D]とタイミングを合わせて同期をとる。すなわち、所定の時間(D20サンプル分)は、帯域拡張部371〜375での入力から出力が得られるまでの前述した最大の処理遅延の時間D_maxから、アップサンプリング部330での入力から出力が得ら
れるまでの処理遅延の時間D_usを引いた分に相当する(D20=D_max−D_us)。この値は、事前に求めておき、D20を常に固定値として用いる。
以上の帯域拡張部371〜375のいずれかによって帯域拡張されて信号遅延処理部378で遅延された広帯域信号y_wb[n-D]と、アップサンプリング部330によってアップ
サンプリングされ、信号遅延処理部331Aによって遅延させられた入力信号x_us[n-D20]は、信号加算部332に入力される。そして、信号加算部332は2つの信号を加算処
理し、出力信号y[n]として出力する。
以上のように目的信号度合に応じて帯域拡張処理方法を変えることによって、目的信号は高精度に帯域拡張処理することで高音質を維持でき、非目的信号は高精度に帯域拡張する必要がないため簡易な帯域拡張処理にして計算量を少なくすることができる。
(第3の実施例)
次に、本発明の第3の実施例について説明する。本実施例の構成は、第1の実施例において図1を用いて説明した構成と同様であるため、説明を省略する。図18は、本実施形態の信号帯域拡張部3の構成を示すものである。以下の説明では、上述した実施例と同じ構成については同じ番号を付番し、説明を簡明にするために必要に応じて重複する説明を省略する。
第3の実施例において、信号帯域拡張部3では、第1の実施例に関わる信号帯域拡張部3の目的信号度合算出部31の代わりに目的信号度合算出部38を用い、第1の実施例に関わる信号帯域拡張処理部33の代わりに信号帯域拡張処理部39を用いた構成になっている。また、信号帯域拡張部3の信号帯域拡張処理部39では、第1の実施例に関わる信号帯域拡張処理部33で用いていた高域拡張部334および低域拡張部337に代わって、帯域拡張部371および帯域拡張部372を用い、さらに信号格納部376、遅延時間設定部377、信号遅延処理378を追加した構成になっている。
第3の実施例では、前述した実施例1及び実施例2の信号帯域拡張部3は低域拡張と高域拡張を行うものであったが、高域についての拡張を行う機能のみを備える。
すなわち、第3の実施例では、信号帯域拡張部3の入力信号x[n] (n=0,1,…N-1)は、fs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限されているものとし、信号帯域拡張部3
の帯域拡張処理によってサンプリング周波数fs[Hz]からより高いサンプリング周波数fs’[Hz]に変更され、fs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張されるものとする
。以下の説明では、fs_wb_low = fs_nb_low、fs_nb_high < fs_wb_highとして、例えば、fs=22050[Hz]、fs’=44100[Hz]、fs_nb_low=50[Hz]、fs_nb_high=11000[Hz]、fs_wb_low=50[Hz]、fs_wb_high=22000[Hz]とする。帯域制限の周波数帯域やサンプリング周波数については、これに限らない。また、ここでは1フレームをN=1024サンプルとする。
図19に目的信号度合算出部38の構成例を示す。目的信号度合算出部38は、特徴量抽出部381と、重み付け加算部382とを備える。特徴量抽出部381は、零交差数算出部381Aと、零交差数分散算出部381Bと、パワー算出部381Cと、パワー分散算出部381Dと、周波数領域変換部381Eと、スペクトル重心算出部381Fと、スペクトル重心分散算出部381Gと、スペクトル差分算出部381Hと、スペクトル差分分散算出部381Iとを備える。
目的信号度合算出部38は、入力信号x[n]が帯域拡張したい目的信号である度合を表す目的信号度合type[f]を算出する。本実施例では、帯域拡張したい目的信号は音楽・オー
ディオ信号であるとする。入力信号x[n]には、目的信号である音楽信号と、それ以外の非目的信号(ノイズ成分、エコー成分、残響成分、音声など)が混在しており、すなわち目的信号度合算出部38は、入力された1フレームごとの入力信号x[n]に目的信号である音楽信号がどれぐらい含まれているかの目的信号度合type[f]を出力する。目的信号度合type[f]を算出する特徴量は、音声信号における母音などの有声音や子音などの無声音が切り替わる規則性や、音楽信号におけるパワースペクトルの均一性を利用するなど、入力信号に音楽信号がどれぐらい含まれているかを表現するものであれば何でも構わない。
零交差数算出部381Aは、入力信号x[n]からフレーム単位での零交差の数を算出し、それをフレーム長Nで割って平均化した平均零交差数Zi[f]を算出する。
零交差数分散算出部381Bには、零交差数算出部381Aから出力された現在のフレームfの平均零交差数Zi[f]が入力される。零交差数分散算出部381Bは、過去Fフレ
ーム分の平均零交差数Zi[f]を用いて、式(9)に示すように、フレーム毎に平均零交差
数Zi[f]の分散である零交差数分散値Zi_var[f]を算出し、この零交差数分散値Zi_var[f]
を出力する。零交差数分散算出部381Bで用いる過去の平均零交差数Zi[f]のフレーム
数Fは、例えば20とする。平均零交差数分散値zi_var[f]は0以上の値をとり、音声信
号では母音などの有声音や子音などの無声音が切り替わる規則性を有するため、音声信号では零交差数の変動が激しくなり、この値が大きいほど入力信号に音声成分が多くて非目的信号が多く含まれ、目的信号である音楽信号が少ないと判断される。
Figure 0004945586

パワー算出部381Cは、入力信号x[n]から式(10)に示すように、フレーム単位での入力信号x[n]の2乗和をdB単位で計算し、これをフレームパワーCi[f]とする。
Figure 0004945586

パワー分散算出部381Dは、パワー算出部381Cから出力された現在のフレームfのフレームパワーCi[f]が入力され、過去Fフレーム分のフレームパワーCi[f]を用いて、式(11)に示すように、フレーム毎にフレームパワーCi[f]の分散であるパワー分散値Ci_var[f]を出力する。パワー分散値Ci_var[f]は0以上の値をとり、これが大きいほど入
力信号に音声成分が多くて非目的信号が多く含まれ、目的信号である音楽信号が少ないと判断される。
Figure 0004945586

周波数領域変換部381Eは、帯域制限された現在のフレームfの入力信号x[n] (n=0,1,…N-1)が入力され、このフレームと直前の1フレーム前の入力信号の合計2フレームを時間方向に結合したデータ長2Nの入力信号x[n] (n=0,1,…2N-1)に対して、窓関数をハミ
ング窓として窓関数を入力信号に乗じて、データ長2Nの窓掛けを行い、窓掛けを行った入力信号wx[n] (n=0,1,…2N-1)を算出し、FFTの次数を2NとしFFTによる周波数領域変換を行い、周波数スペクトルX[f,w] (w=0,1,…M-1)を算出し、パワースペクトル|X[f,w]|2 (w=0,1,…M-1)を出力する。ただし、wは周波数ビンの番号を表し、w=0,1,…2M-1とす
る。なお、1フレーム前の入力信号は、周波数領域変換部381Eが備えるメモリを用いて保持する。ここでは、例として、次の時刻(フレーム)での入力信号x[n]のシフト幅(ここではNサンプル)と窓掛けを行った入力信号wx[n]のデータ長(ここでは2Nサンプル)の比であるオーバーラップは50%としている。ただし、窓掛けに用いる窓関数は、ハミン
グ窓に限定せず、他の対称窓(ハニング窓、ブラックマン窓、正弦波窓など)あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。またオーバーラップは、50%に限らない。
スペクトル重心算出部381Fは、周波数領域変換部381Eから出力されるパワースペクトル|X[f,w]|2 を用いて式(12)に示すように、フレーム単位でのパワースペクトルの重心を計算し、これをスペクトル重心sweight[f]として出力する。
Figure 0004945586

スペクトル重心分散算出部381Gには、スペクトル重心算出部381Fから出力された現在のフレームfのスペクトル重心sweight[f]が入力される。スペクトル銃身分散算出部381Gは、過去Fフレーム分のスペクトル重心sweight[f]を用いて、式(13)に示すように、フレーム毎にスペクトル重心sweight[f]の分散であるスペクトル重心分散値sweight_var[f]を算出して出力する。スペクトル重心分散値sweight_var[f]は0以上の値をとり、音楽信号ではパワースペクトルが均一で安定しやすくスペクトル重心の変動が小さくなり、この値が大きいほど入力信号に音声成分が多くて非目的信号が多く含まれ、目的信号である音楽信号が少ないと判断される。
Figure 0004945586

スペクトル差分算出部381Hは、周波数領域変換部381Eから出力されるパワースペクトル|X[f,w]|2 と、1フレーム前のパワースペクトル|X[f-1,w]|2 を用いて、式(14)に示すように、パワーで正規化された周波数ビン毎のパワースペクトルの差分の2乗和を計算し、これをスペクトル差分sdiff[f]として出力する。
Figure 0004945586

スペクトル差分分散算出部381Iには、スペクトル差分算出部381Hから出力された現在のフレームfのスペクトル差分sdiff[f]が入力される。スペクトル差分分散算出部381Iは、過去Fフレーム分のスペクトル差分sdiff[f]を用いて、式(15)に示すように、フレーム毎にスペクトル差分sdiff[f]の分散であるスペクトル差分分散値sdiff_var[f]を出力する。スペクトル差分分散値sdiff_var[f]は0以上の値をとり、これが大きいほど音声成分が多くて非目的信号が多く含まれ、目的信号である音楽信号が少ないと判断される。
Figure 0004945586

重み付け加算部382には、特徴量抽出部381で抽出された複数の特徴量(零交差数分散算出部381Bから出力された零交差数分散値Zi_var[f]、パワー分散算出部381
Dから出力されたパワー分散値Ci_var[f]、スペクトル重心分散算出部381Gから出力
されたスペクトル重心分散値sweight_var[f]、スペクトル差分分散算出部381Iから出力されたスペクトル差分分散値sdiff_var[f])が入力される。重み付け加算部382は、入力された複数の特徴量に対してそれぞれ所定の重み付けによる重み付けを行い、複数の特徴量の重み付け和として目的信号度合type[f]を算出する。ここでは、目的信号度合type[f]が小さいほど非目的信号が支配的であるとし、大きいほど目的信号が支配的であるとしているので、例えば、重みw1、w2、w3、w4(ただしw1≦0、w2≦0、w3≦0、w4≦0)を線形識別関数による判定を用いた学習アルゴリズムなどで予め学習させておいた値に設定して、目的信号度合type[f]を、type[f] = w1・Zi_var[f,1] + w2・Ci_var[f] + w3・sweight_var[f] + w4・sdiff_var[f]と算出する。勿論、目的信号度合type[f]は、特徴量
の1次の線形和によって表すことに限定されなく、多次数の線形和で表現されたり、複数の特徴量による乗算項を含んで表現されたりしても構わない。
第3の実施例に関わる制御部36には、目的信号度合算出部38から出力される目的信号度合type[f]が入力される。制御部36は、目的信号度合type[f]に応じて、帯域拡張部371と、帯域拡張部372のいずれかを動作させるかを制御する制御信号control[f]を出力する。具体的には、制御信号control[f]=0のときは、切替器3911、3912、
3921、3922が開放されて帯域拡張部371〜372のいずれも動作しない。制御信号control[f]=1のときは、切替器3911、3912のみが閉じられることで帯域拡
張部371のみが動作を行う。制御信号control[f]=2のときは、切替器3921、39
22のみが閉じられることで帯域拡張部372のみが動作を行う。
第3の実施例に関わる帯域拡張部371は、図12を用いて説明した帯域拡張部371と同じ構成である。帯域拡張部371は、入力信号x[n]を入力として、高域であるfs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯域が拡張された広帯域信号y_wb1[n]を出力する。また、帯域拡張部371は、動作する度に、広帯域化処理部334Hから出力されるy1_wb1[n]の時間的に後半のデータを高域拡張データy_high_buff[n]として信号格納部3
76に出力する。
第3の実施例に関わる帯域拡張部372は、図13を用いて説明した帯域拡張部372と同じ構成である。帯域拡張部372は、入力信号x[n]を入力として、高域であるfs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯域が拡張された広帯域信号y_wb2[n]を出力する。また、帯域拡張部372は、動作する度に、信号加算部334Mから出力されるy1_wb2[n]の時間的に後半のデータを高域拡張データy_high_buff[n]として信号格納部376
に出力する。
第3の実施例に関わる信号格納部376は、帯域拡張部371〜372のいずれか1つが動作している場合は、動作している帯域拡張部371〜372のいずれか1つから高域拡張データy_high_buff[n]が入力される。また、帯域拡張部371〜372のいずれも動作しない場合は、高域拡張データy_high_buff[n]を両方ともに零信号に設定する。そして、制御信号control[f]が1〜2の中で切り替わった場合の初めのフレームは、高域拡張データy_high_buff[n](実質的に1フレーム前の信号になる)を、動作している帯域拡張部371〜372のいずれか1つへ適宜出力する。
第3の実施例に関わる遅延時間設定部377は、入力信号が帯域拡張部371〜372のいずれかによって帯域拡張されたかにより処理の遅延時間は異なるため、事前に帯域拡張部371〜372のそれぞれについて、入力から出力が得られるまでの帯域拡張処理の遅延時間を事前に求めておき、そのうちで最大の遅延時間D_maxを求め、制御部36から
出力された制御信号control[f]に応じて帯域拡張部371〜372のいずれかによって帯域拡張されるのかを判断して、帯域拡張部371〜372のいずれが動作しても遅延時間が最大の遅延時間D_maxに揃うように事前に設定された遅延時間を信号遅延処理部378
によって行われる信号の遅延時間Dとして設定する。例えば、入力から出力が得られるまでの帯域拡張部371〜372の遅延時間をぞれぞれD21、D22サンプルとしたとき、そのうちで最大の遅延時間D_maxを求めて、帯域拡張部371が動作した場合はD=D_max−D21、帯域拡張部372が動作した場合はD=D_max−D22と、遅延時間Dを設定する。なお
、帯域拡張部371〜372のいずれも動作しない場合は、遅延時間設定部377は動作しない。
第3の実施例に関わる信号遅延処理部378は、帯域拡張部371〜372のいずれか1つによって出力された広帯域信号をy_wb[n]とし、これを遅延時間設定部377で設定
された所定の時間(Dサンプル分)だけバッファすることによって遅延させ、y_wb[n-D]として出力する。なお、帯域拡張部371〜372のいずれも動作しない場合は、信号遅延処理部378は動作しない。
このようにすることで、音楽・オーディオ信号が目的信号であった場合でも、入力信号における目的信号である度合を算出し、この目的信号度合算出手段の結果に応じて、目的信号である度合が低い程、より簡易に帯域を拡張するように制御するようにしている。
したがって、上記構成の信号帯域拡張装置によれば、入力信号に目的信号である音楽・オーディオ信号とそれ以外の非目的信号(ノイズ成分、エコー成分、残響成分、音声など)が混在した場合に、常に高精度な帯域拡張処理を行うのではなく、目的信号である音楽・オーディオ信号がどれぐらい含まれているかの目的信号度合に応じて帯域拡張処理の方法を変化させ、目的信号度合が低い場合は目的信号を高精度に帯域拡張処理することで原音により忠実に帯域を拡張することができて高音質を維持でき、目的信号度合が低い場合はより簡易な帯域拡張処理にして計算量を少なくすることができる。
なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
勿論、サンプリング周波数を変更しないような帯域拡張処理で構成したり、非可聴な周波数帯域へ拡張する帯域拡張処理で構成したりしても構わない。また、離散ウェーブレット変換などによる多重解析度解析を用いた上で狭帯域の特徴量と広帯域の特徴量との対応を表した辞書を引用することによって帯域拡張処理をする構成としても構わない。
また、帯域拡張処理を切り替える際に、切替器による二値判定ではなく、切り替わりの過渡状態を考慮して連続性を保って(ソフト・デシジョン)で切り替わるようにして、複数の帯域拡張処理からの広帯域信号をそれぞれ重み付けしてから加算することで出力信号を求めるような構成にしてもよい。さらに、音声信号と音楽・オーディオ信号の両方を目的信号とし、それ以外の雑音成分などを非目的信号として、音声信号度合の算出と音楽・オーディオ信号度合の算出を併用して用いた構成でも構わない。
また、入力信号がモノラル信号ではなくステレオ信号であったとしても、例えばL(左)チャネルとR(右)チャネルにそれぞれ上記信号帯域拡張部3における帯域拡張処理を施したり、和信号(LチャネルとRチャネルの信号の和)と差信号(LチャネルからRチャネルの信号の差)にそれぞれ上記の帯域拡張処理を施したりすることで同様の効果が得られる。勿論、マルチチャネル信号であったとしても例えば同様にそれぞれのチャネル信号に対して上記の帯域拡張処理を施したりすることで同様の効果が得られる。
その他、この発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。
1…無線通信部、2…デコーダ、3…信号帯域拡張部、4…D/A変換器、5…スピーカ、6…記憶部、31、35、38…目的信号度合算出部、32、36…制御部、33、37、39…信号帯域拡張処理部、34…目的信号抑圧部、311、381…特徴量抽出部、312、382…重み付け加算部、311A…自己相関算出部、311B…自己相関係数最大値算出部、311C、343A、381E…周波数領域変換部、311D…周波数スペクトル更新部、311E…周波数別SN比算出部、311F…周波数別SN比総和算出部、311G…周波数別SN比分散算出部、330、334G、337H…アップサンプリング部、331、331A、339、374B、374B−1、378…信号遅延処理部、332、334M、374C、374C−1…信号加算部、333、335、336、337、3711、3712、3721、3722、3731、3732、3741、3742、3751、3752、37Q、37R、3911、3912、3921、3922…切替器、334…高域拡張部、337、374A、374A−1…低域拡張部、334A、337A…窓掛け部、334B,337B…線形予測分析部、334C…線スペクトル周波数変換部、334D…スペクトル包絡広帯域化処理部、334E,337C…逆フィルタ部、334F、334P、337G…帯域通過フィルタ部、334H,337D…広帯域化処理部、334I…有声/無声推定部、334J,334L…パワー制御部、334K…雑音生成部、334N,337E…信号合成部、334O,337F…フレーム合成処理部、341…非目的信号区間判定部、342…非目的信号レベル推定部、343…非目的信号抑圧処理部、343B、343C…パワー算出部、343D…抑圧ゲイン算出部、343E…スペクトル抑圧部、343F…時間領域変換部、371、372、373、373−1、374、375…帯域拡張部、376…信号格納部、377…遅延時間設定部、381A…零交差数算出部、381B…零交差数分散算出部、381C…パワー算出部、381D…パワー分散算出部、381F…スペクトル重心算出部、381G…スペクトル重心分散算出部、381H…スペクトル差分算出部、381I…スペクトル差分分散算出部。

Claims (8)

  1. 入力信号に含まれる音声信号に応じて、前記入力信号の周波数帯域を拡張する帯域拡張手段と、
    入力信号に音声信号が含まれる割合をSN比と自己相関に基づいて算出する音声信号割合算出手段と、
    前記割合が所定の閾値よりも大きいときは第1の方法により周波数帯域に拡張させ、前記割合が前記所定の閾値よりも小さいときは前記第1の方法よりも計算量が少ない第2の方法で周波数帯域を拡張させるよう前記帯域拡張手段を制御する制御手段と、
    を有することを特徴とする信号帯域拡張装置。
  2. 前記制御手段は、前記割合が所定の閾値よりも小さいときは、拡張する周波数帯域の範囲を狭くするように前記帯域拡張手段を制御することを特徴とする請求項1に記載の信号帯域拡張装置。
  3. 前記制御手段は、前記割合が所定の閾値よりも小さいときは第1の周波数帯域に拡張させ、前記割合が所定の閾値よりも大きいときは第1の周波数帯域よりも広帯域に拡張させるよう前記帯域拡張手段を制御することを特徴とする請求項2に記載の信号帯域拡張装置。
  4. 前記制御手段は、前記割合が所定の閾値よりも小さいときは高周波数帯域を拡張させ、前記割合が所定の閾値よりも大きいときは高周波数帯域と低周波数帯域を拡張させるように前記帯域拡張手段を制御することを特徴とする請求項1に記載の信号帯域拡張装置。
  5. 前記制御手段は、前記割合が所定の閾値よりも小さいときは低周波数帯域を拡張させないように前記帯域拡張手段を制御することを特徴とする請求項1に記載の信号帯域拡張装置。
  6. 前記制御手段は、前記割合が所定の閾値よりも小さいときは、帯域を拡張する処理を行う周波数帯域での処理単位を大きくするように前記帯域拡張手段を制御することを特徴とする請求項1に記載の信号帯域拡張装置。
  7. 前記所定の閾値は、第1,第2の閾値から構成され、
    前記制御手段は、前記割合が第1の閾値よりも小さいときは第1の処理単位で第1の周波数帯域に拡張させ、前記割合が第1の閾値よりも大きく第2の閾値よりも小さいときは第1の処理単位で第1の周波数帯域よりも広帯域な第2の周波数帯域に拡張させ、前記割合が第2の閾値よりも大きいときは第1の処理単位よりも小さい第2の処理単位で第2の周波数帯域に拡張させるよう前記帯域拡張手段を制御することを特徴とする請求項1に記載の信号帯域拡張装置。
  8. 周波数帯域を拡張した信号を格納しておく信号格納手段と
    前記帯域拡張手段によって周波数帯域を拡張した信号を以前に帯域拡張した信号と平滑化する平滑化手段とをさらに有し、
    前記平滑化手段は、前記制御手段が周波数帯域を拡張する方法を変化させるよう前記帯域拡張手段を制御したときは、前記信号格納手段に格納された信号を用いて前記帯域拡張手段によって周波数帯域を拡張した信号を平滑化することを特徴とする請求項1乃至請求項7のいずれか1項に記載の信号帯域拡張装置。
JP2009021717A 2009-02-02 2009-02-02 信号帯域拡張装置 Expired - Fee Related JP4945586B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009021717A JP4945586B2 (ja) 2009-02-02 2009-02-02 信号帯域拡張装置
US12/558,959 US8930184B2 (en) 2009-02-02 2009-09-14 Signal bandwidth extending apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009021717A JP4945586B2 (ja) 2009-02-02 2009-02-02 信号帯域拡張装置

Publications (2)

Publication Number Publication Date
JP2010176090A JP2010176090A (ja) 2010-08-12
JP4945586B2 true JP4945586B2 (ja) 2012-06-06

Family

ID=42398432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009021717A Expired - Fee Related JP4945586B2 (ja) 2009-02-02 2009-02-02 信号帯域拡張装置

Country Status (2)

Country Link
US (1) US8930184B2 (ja)
JP (1) JP4945586B2 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
SG10202107800UA (en) * 2010-07-19 2021-09-29 Dolby Int Ab Processing of audio signals during high frequency reconstruction
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US9391579B2 (en) * 2010-09-10 2016-07-12 Dts, Inc. Dynamic compensation of audio signals for improved perceived spectral imbalances
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN102610231B (zh) * 2011-01-24 2013-10-09 华为技术有限公司 一种带宽扩展方法及装置
US8717152B2 (en) * 2011-02-11 2014-05-06 Immersion Corporation Sound to haptic effect conversion system using waveform
JP6147744B2 (ja) * 2011-07-29 2017-06-14 ディーティーエス・エルエルシーDts Llc 適応音声了解度処理システムおよび方法
CN103516440B (zh) 2012-06-29 2015-07-08 华为技术有限公司 语音频信号处理方法和编码装置
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US8614940B1 (en) 2012-11-14 2013-12-24 The Aerospace Corporation Systems and methods for reducing narrow bandwidth interference contained in broad bandwidth signals
BR112015017868B1 (pt) * 2013-01-29 2022-02-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Aparelho e método para gerar um sinal de melhoria de frequência utilizando uma operação de limitação de energia
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
CN104517611B (zh) * 2013-09-26 2016-05-25 华为技术有限公司 一种高频激励信号预测方法及装置
KR102356012B1 (ko) 2013-12-27 2022-01-27 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
US9931483B2 (en) * 2014-05-28 2018-04-03 Devilbiss Healtcare Llc Detection of periodic breathing during CPAP therapy
EP2963649A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
US9628122B1 (en) 2016-07-25 2017-04-18 The Aerospace Corporation Circuits and methods for reducing interference that spectrally overlaps a desired signal based on dynamic gain control and/or equalization
EP3382703A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for processing an audio signal
JP6960766B2 (ja) * 2017-05-15 2021-11-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 雑音抑圧装置、雑音抑圧方法及びプログラム
US10056675B1 (en) 2017-08-10 2018-08-21 The Aerospace Corporation Systems and methods for reducing directional interference based on adaptive excision and beam repositioning
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483878A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
CN110728986B (zh) * 2018-06-29 2022-10-18 华为技术有限公司 立体声信号的编码方法、解码方法、编码装置和解码装置
US11212015B2 (en) 2020-05-19 2021-12-28 The Aerospace Corporation Interference suppression using machine learning

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082685A (ja) 2000-06-26 2002-03-22 Matsushita Electric Ind Co Ltd 音声帯域拡張装置及び音声帯域拡張方法
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
JP2002162982A (ja) * 2000-11-24 2002-06-07 Matsushita Electric Ind Co Ltd 有音無音判定装置及び有音無音判定方法
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
JP3957589B2 (ja) * 2001-08-23 2007-08-15 松下電器産業株式会社 音声処理装置
EP1638083B1 (en) * 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals
JP4395772B2 (ja) * 2005-06-17 2010-01-13 日本電気株式会社 ノイズ除去方法及び装置
EP1970900A1 (en) * 2007-03-14 2008-09-17 Harman Becker Automotive Systems GmbH Method and apparatus for providing a codebook for bandwidth extension of an acoustic signal

Also Published As

Publication number Publication date
US8930184B2 (en) 2015-01-06
JP2010176090A (ja) 2010-08-12
US20100198588A1 (en) 2010-08-05

Similar Documents

Publication Publication Date Title
JP4945586B2 (ja) 信号帯域拡張装置
JP4818335B2 (ja) 信号帯域拡張装置
JP5127754B2 (ja) 信号処理装置
JP4892021B2 (ja) 信号帯域拡張装置
RU2552184C2 (ru) Устройство для расширения полосы частот
RU2543309C2 (ru) Устройство, способ и компьютерная программа для того, чтобы управлять аудиосигналом, включающим переходный сигнал
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
JP4440937B2 (ja) 暗騒音存在時の音声を改善するための方法および装置
US7792672B2 (en) Method and system for the quick conversion of a voice signal
US20080140396A1 (en) Model-based signal enhancement system
MX2011001339A (es) Aparato y metodo para procesar una señal de audio para mejora de habla, utilizando una extraccion de caracteristica.
JPH10124088A (ja) 音声帯域幅拡張装置及び方法
JP6896881B2 (ja) 音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法
JP5148414B2 (ja) 信号帯域拡張装置
Kornagel Techniques for artificial bandwidth extension of telephone speech
US20140019125A1 (en) Low band bandwidth extended
WO2018003849A1 (ja) 音声合成装置および音声合成方法
EP3262641A1 (en) Systems and methods for speech restoration
JP5443547B2 (ja) 信号処理装置
JP2009223210A (ja) 信号帯域拡張装置および信号帯域拡張方法
JPH10149198A (ja) ノイズ削減装置
Amini et al. Speech analysis/synthesis by Gaussian mixture approximation of the speech spectrum for voice conversion
CN112201261A (zh) 基于线性滤波的频带扩展方法、装置及会议终端系统
Balaji et al. A Novel DWT Based Speech Enhancement System through Advanced Filtering Approach with Improved Pitch Synchronous Analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110401

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20110401

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110401

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20110512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120305

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees