JP4892021B2 - 信号帯域拡張装置 - Google Patents

信号帯域拡張装置 Download PDF

Info

Publication number
JP4892021B2
JP4892021B2 JP2009044521A JP2009044521A JP4892021B2 JP 4892021 B2 JP4892021 B2 JP 4892021B2 JP 2009044521 A JP2009044521 A JP 2009044521A JP 2009044521 A JP2009044521 A JP 2009044521A JP 4892021 B2 JP4892021 B2 JP 4892021B2
Authority
JP
Japan
Prior art keywords
signal
band
unit
frequency
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009044521A
Other languages
English (en)
Other versions
JP2010197862A (ja
Inventor
将高 長田
隆 須藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009044521A priority Critical patent/JP4892021B2/ja
Priority to US12/573,242 priority patent/US8271292B2/en
Publication of JP2010197862A publication Critical patent/JP2010197862A/ja
Application granted granted Critical
Publication of JP4892021B2 publication Critical patent/JP4892021B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/662Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a time/frequency relationship, e.g. time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Description

この発明は、帯域制限された音声や音楽・オーディオなどの信号を広帯域信号に変換する信号帯域拡張装置に関する。
音声や音楽・オーディオなどの信号(入力信号)を広帯域に帯域拡張する場合、人工的ではない自然な音に聞こえるようにするためには、入力信号に含まれる帯域拡張したい信号(目的信号)に応じて、帯域を拡張する処理方法を適宜変化させる必要がある。目的信号に応じた帯域拡張処理方法としては、目的信号が音声である場合は音声向けに線形予測分析を行った上で帯域を拡張する手法、目的信号が音楽・オーディオである場合は音楽・オーディオ向けに周波数領域変換を行った上で帯域を拡張する手法、目的信号が音声である場合でも有声音か無声音であるかに基づいて、拡張する周波数帯域を切り替える手法がある。また、上記のような帯域拡張処理を行う場合、大きな演算量が必要となるが、システム負荷の状態に応じて帯域拡張方法を変更する手法(例えば、特許文献1)がある。
特開2006−259349号公報
従来の信号帯域拡張装置では、システム負荷の状態に応じて帯域拡張方法を変更することによって処理量オーバーを回避できるものの、拡張された帯域と既存帯域の周波数バランスまで考慮されていない。そのため、一部の帯域のみが拡張された際に全体的な周波数バランスが崩れて既存帯域の帯域感が相対的に低下し高音質化を体感できないという課題があった。
この発明は上記の問題を解決すべくなされたもので、システム負荷の影響によって本来必要な帯域拡張処理の全てを実行できない場合でも、ユーザーが高音質を体感することが可能な信号帯域拡張装置を提供することを目的とする。
上記の目的を達成するために、この発明は、入力信号に対して帯域を拡張する信号帯域拡張装置であって、時刻情報を取得する時刻取得手段と、帯域拡張処理のうち、拡張する帯域に応じた処理の優先度を保持する優先度保持手段と、前記優先度保持手段によって保持されている優先度情報を用いて、優先度の高い処理から順に実行し、処理が終了すると前記時刻取得手段を用いて処理にかかった時間を算出し、処理にかかった時間に応じて、次に優先度の高い処理を実行するかどうか制御する制御手段と、前記制御手段によって実行された処理により拡張された信号のスペクトル重心と帯域拡張前の信号のスペクトル重心との差に応じて拡張された帯域と既存帯域とのパワーのバランスを制御する周波数バランス補正手段を具備して構成するようにした。
前記周波数バランス補正手段は、前記制御手段によって実行された処理により信号のスペクトル重心が拡張された帯域側に所定の閾値以上移動した場合、拡張された帯域のパワーを抑制するよう制御する。また前記周波数バランス補正手段は、前記制御手段によって実行された処理により信号のスペクトル重心が拡張された帯域側に所定の閾値以上移動した場合、既存帯域のパワーを増幅するよう制御する。
この発明によれば、システム負荷の影響によって本来必要な帯域拡張処理の全てを実行できない場合でも、ユーザーが高音質を体感することが可能な信号帯域拡張装置を提供することができる。
本発明の実施形態に係る通信装置およびディジタルオーディオプレイヤの構成を示す回路ブロック図。 本発明の実施形態に係る通信装置の信号帯域拡張部の構成を示すブロック図。 信号帯域拡張装置の制御部の動作を説明するための動作制御図。 制御部の処理を示すフローチャート。 信号帯域拡張装置の高域拡張部の構成例を示す回路ブロック図。 信号帯域拡張装置の高域拡張部の広帯域化処理部の非線形処理で用いる非線形関数の例を示す図。 信号帯域拡張装置の低域拡張部の構成例を示す回路ブロック図。 周波数バランス補正部を示すブロック図。 周波数特性補正に利用する単調減少関数を示す図。 ラウドネス特性を説明する図。 周波数バランス補正部の他の例を示すブロック図。 イコライザ特性の例(高域抑制)。 イコライザ特性の例(高域抑制)。 イコライザ特性の例(低域抑制)。 イコライザ特性の例(低域抑制)。
以下、図面を参照して、この発明の実施形態について説明する。
図1(a)は、本発明の一実施形態である通信装置の構成を示すものである。この図に示す通信装置は、例えば携帯電話などの無線通信装置の受信系を示すものであって、無線通信部1と、デコーダ2と、帯域拡張処理部3と、ディジタル・アナログ(D/A)変換器4と、スピーカ5とを備えている。
無線通信部1は、移動通信網に収容される無線基地局と無線通信し、そしてこの無線基地局および移動通信網を通じて通信相手局との間に通信リンクを確立して通信する。
デコーダ2は、無線通信部1が通信相手局から受信した受信データを、事前に決められた単位(1フレーム=Nサンプル)ごとに復号して、ディジタルの入力信号x[n] (n=0,1,…N-1)を得る。そして、デコーダ2は、ディジタルの入力信号x[n]をフレームごとに帯域拡
張部3に出力する。なお、入力信号x[n]の1フレームのサンプル数(N)は、例えば160サンプルとする。また、入力信号x[n]のサンプリング周波数はfs[Hz]であるとする。ただし、この入力信号x[n]は、fs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限された狭帯域
の信号である。
帯域拡張部3は、1フレーム単位で入力信号x[n] (n=0,1,…N-1)に帯域拡張処理を施し、fs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張した出力信号y[n]を出力する。こ
のとき、出力信号y[n]のサンプリング周波数は、デコーダ2でのサンプリング周波数fs[Hz]のままでも良いし、より高いサンプリング周波数fs’[Hz]に変更しても良い。ここでは、帯域拡張部3によって、サンプリング周波数fs’[Hz]の帯域拡張された出力信号y[n]が1フレーム単位で得られるとして説明する。なお、帯域拡張部3の具体的な構成例については後に詳述する。ただし、fs_wb_low ≦ fs_nb_low < fs_nb_high < fs/2 ≦ fs_wb_high < fs’/2 を満たすものとする。また以下の説明では、低域拡張と高域拡張を例に挙げるため、fs_wb_low < fs_nb_low、fs_nb_high < fs_wb_highとして説明する。これらのパラメータは、例えば、fs=8000[Hz]、fs’=16000[Hz]、fs_nb_low=340[Hz]、fs_nb_high=3950[Hz]、fs_wb_low=50[Hz]、fs_wb_high=7950[Hz]であるが、これに限らない。
D/A変換器4は、上記帯域拡張された出力信号y[n]をアナログ信号y(t)に変換して、ス
ピーカ5に出力する。スピーカ5は、アナログ信号である出力信号y(t)を音響空間へ出力する。
なお、図1(a)では、この発明を通信装置に適用した例を示したが、図1(b)に示すように、ディジタルオーディオプレイヤに適用することも可能である。このディジタルオーディオプレイヤは、無線通信部1に代わって、フラッシュメモリやHDD(Hard Disk Drive)を用いた記憶部6を備え、この記憶部6から読み出した音楽データをデコーダ2が上述したように復号する。
次に、帯域拡張部3について説明する。図2は、本実施形態に係わる帯域拡張部3の構成を示すものである。図2に示すように、帯域拡張部3は、システム時刻取得部31と、制御部32と、信号帯域拡張処理部33と、モジュール優先度保持部34と、周波数バランス補正部35とを備える。信号帯域拡張処理部33は、アップサンプリング部331と、信号加算部332と、高域拡張部333と、低域拡張部334と、信号遅延処理部3321、3322と、切替器3331、3333、3341、3343とを備える。これらは、1つのプロセッサと、図示しない記憶媒体に記録されたソフトウェアによって実現することも可能である。
システム時刻取得部31は、システムにおける時刻情報の取得を行う。時刻情報としては、例えば、LSIでサポートされているハードウェアタイマーのカウンター値や、LSIのシステムクロックのカウンター値、またはシステムクロックを分周した値のカウンター値などが挙げられる。また、上記に限らずシステム上の経過時刻を把握できる手段であれば代用することが可能である。
モジュール優先度保持部34は、信号帯域拡張処理33を構成する各モジュールの中で優先的に処理すべきモジュールの順序(モジュール優先度)を保持し、制御部32へモジュール優先度priorityを出力する。モジュールの優先度の決め方としては、例えば、各モジュールによって生成される周波数帯域の聴覚上の重要度に基づく方法が考えられる。一般的に人間の聴覚は低周波数ほど高い分解能を持っている。この人間の聴覚の分解能が一定となる尺度の一つとしてバーク尺度が挙げられる。ここではバーク尺度を例に説明するが、他にもメル尺度など聴覚を模擬した尺度を利用しても良い。
バーク尺度はBark = 13*arctan(0.76*周波数(Hz) / 1000) + 3.5*arctan((周波数(Hz) / 7500)^2)として近似できることが知られている。これを利用してfs_nb_low=340[Hz]、fs_nb_high=3950[Hz]、fs_wb_low=50[Hz]、fs_wb_high=7950[Hz]をそれぞれバーク尺度に
変換するとfs_nb_low_bark= 3.294487107、fs_nb_high_bark= 17.18720761、fs_wb_low_bark= 0.493917983、fs_wb_high_bark= 21.24045106となる。つまり、低域拡張部分(50〜340[Hz])のバーク尺度幅bark_low=3.294487107-0.493917983=2.800569125、高域拡張部分(3950〜7950[Hz])のバーク尺度幅bark_high=21.24045106-17.18720761=4.053243445となり、バーク尺度幅としては、高域拡張部分>低域拡張部分となる。よって、モジュール優先度としては、既存帯域部分であり帯域拡張必須モジュールであるアップサンプリングを最も高い優先度とし、次に高い優先度が高域拡張処理、最も低い優先度が低域拡張処理とする。
このようにモジュール優先度保持部34は、帯域拡張の処理について優先度付けを行う。この優先度に基づいて、後述する制御部32が信号帯域拡張処理部33を制御することによって、システム負荷が大きい場合でも、聴覚的に重要な帯域を優先的に生成することができる高品質な音声帯域処理を行うことが可能となる。なお、ここでは低域拡張と高域拡張の2通りの拡張処理を例に説明したが、より細かく3つ以上の帯域に分割して拡張処理する場合にも同様の方法を取ることが可能である。
制御部32には、システム時刻取得部31から出力されるシステム時刻time[f]と、モ
ジュール優先度保持部34から出力されるモジュール優先度priorityと、アップサンプリング部331、高域拡張部333、低域拡張部334から出力される実行完了通知notifi_up[f]、notify_hi[f]が入力される。制御部32は、所定時間内に信号帯域拡張処理33の動作が完了するように、高域拡張部333と低域拡張部334を動作させるか動作させないかを制御する制御信号control[f]を出力する。
図3に制御部32の制御動作を示す。このように制御部32では、システム負荷の影響や信号帯域拡張処理内部の処理に依存した影響などによって、所定時間内に信号帯域拡張処理が完了しないと推測される場合には簡易な帯域拡張処理方法になるように制御し、所定時間内に完了すると推測される場合には高精度な帯域拡張処理方法になるように制御する。
従って、このようにすれば、システム負荷の影響や信号帯域拡張の処理時間の変動によらず信号帯域拡張処理を完了することができるため、音切れによる聴感上の音質劣化を抑制することができる。
図4は具体的な制御部32の処理を示すフローチャートである。制御部32は、信号帯域拡張処理部33が帯域拡張処理を開始する時点でシステム時刻time[f](start_time[f]と称する)を取得する(S11)。続いて、モジュール優先度priorityによって最も高い優先度の処理と通知されたアップサンプリング部331による入力信号x[n]に対するアップサンプリングが実行される(S12)。アップサンプリング部331による処理が完了すると、制御部32は、アップサンプリング部331から実行完了通知notify_up[f]を受け取り、この時点で再度システム時刻time[f](time_up[f]と称する)を取得する(S1
3)。そして、アップサンプリング部331での処理に要した時間time_start_up[f]=time_up[f]-time_start[f]と所定の閾値THR_Aとを比較する(S14)。
アップサンプリングに要した時間time_start_up[f]が閾値THR_Aを超える場合は(S1
4のNo)、所定時間内に他の信号帯域拡張処理が完了しないと推測できる。そこで、制御部32は、制御信号control[f]を「0」と設定する。制御信号control[f]が「0」であるとき、信号帯域拡張処理部33は、切替器3331と切替器3333と切替器3341と切替器3343を開放し、高域拡張部333と低域拡張部334を動作させない。ここでTHR_Aは、音声フレームが20(ms)とすると例えば3(ms)として設定する。
一方、time_start_up[f]がTHR_A以内の場合(S14のYes)、信号帯域拡張処理部
33は、所定時間内にアップサンプリング以外に帯域拡張処理を行う余裕があると推測できる。そこで、制御部32は、制御信号control[f]を「2」と設定し、信号帯域拡張処理
部33へ通知する。制御信号control[f]に「2」が設定された場合とは、信号帯域拡張処
理部33に切替器3331と切替器3333を閉じて高域拡張部333を動作させるように制御することを意味する。つまり、制御部32は、モジュール優先度priorityによって示されたアップサンプリングの次に優先度の高い処理である高域拡張処理を実行するよう制御する(S15)。高域拡張部333は、処理が完了すると実行完了通知notify_hi[f]を制御部32に出力する。制御部32は、notify_hi[f]を受け取った時点で、再度システム時刻time[f](time_hi[f]と称する)を取得する。そして、アップサンプリングと高域
拡張に要した時間time_start_hi[f]=time_hi[f]−time_start[f]と所定の閾値THR_Bとを
比較する。この閾値THR_Bは、アップサンプリングと高域拡張が帯域拡張処理全体に占め
るシステム負荷の程度に応じて設定する。
アップサンプリングと高域拡張に要した時間time_start_hi[f]が閾値THR_Bを超える場
合(S16のNo)、低域拡張部334による低域拡張処理を行うことができないと推測できる。そこで、制御部32は、制御信号control[f]を「1」と設定して、信号帯域拡張
処理部33へ通知する。制御信号control[f]に「1」が設定された場合とは、信号帯域拡
張処理部33に切替器3331と切替器3333を閉じて高域拡張333は動作した状態を維持し、切替器3341と切替器3343を開放して低域拡張部334を動作させないように制御することを意味する。ここでTHR_Bは、10(ms)として設定する。
アップサンプリングと高域拡張に要した時間time_start_hi[f]が閾値THR_B以内の場合
(S16のYes)、低域拡張部334による低域拡張処理を行う時間があると推測できる。そこで、制御部32は、制御信号control[f]を「2」と設定して、信号帯域拡張処理
部33へ通知する。高域拡張部333が動作している状態でcontrol[f]=2の制御信号を受信した信号帯域拡張処理部33は、切替器3341と切替器3343を閉じて低域拡張部334を動作させるように制御する。
以上によれば、信号帯域拡張処理が所定時間内に完了する場合には高精度な拡張処理が実行され、一方、所定時間内に完了しない場合には、高域拡張のみ、またはアップサンプリングのみといった簡易な拡張処理が実行される。そのため、常に所定時間内に処理が完了し、音切れなく安定した動作を保証することが可能となる。
次に、信号帯域拡張処理部33について詳細に説明する。信号帯域拡張処理部33は、入力信号x[n]に対して帯域拡張し、広帯域信号y[n]を出力信号として得る。このとき、制御部32から出力される制御信号control[f]に応じて、帯域拡張する処理を変化させる。
高域拡張部333は、制御部32から出力される制御信号control[f]に応じて、動作するか動作しないか制御される。制御部32から出力された制御信号control[f]が「1」ま
たは「2」の場合に、切替器3331が閉じられて、高域拡張部333が動作する。高域
拡張部333が動作する場合は、入力信号x[n]に高域拡張処理を施すことによって入力信号x[n]の周波数帯域よりも高い周波数帯域を拡張した高域の広帯域信号y_high[n]を生成
し、切替器3333を閉じることで高域の広帯域信号y_high[n]を出力する。一方で、高
域拡張部333は、制御信号control[f]=0の場合に切替器3331が開放されることで
動作せず、切替器3333が開放されることで高域の広帯域信号y_high[n]を出力しない
高域拡張部333は、例えば図5に示すように構成される。高域拡張部333は、窓掛け部333Aと、線形予測分析部333Bと、スペクトル包絡広帯域化処理部333Cと、逆フィルタ部333Dと、帯域通過フィルタ部333Eと、アップサンプリング部333Fと、広帯域化処理部333Gと、有声/無声推定部333Hと、パワー制御部333Iと、雑音生成部333Jと、パワー制御部333Kと、信号加算部333Lと、信号合成部333Mと、フレーム合成処理部333Nと、帯域通過フィルタ部333Oとを備える。
窓掛け部333Aは、狭帯域に帯域制限された現在のフレームfの入力信号x[n] (n=0,1,…N-1)が入力され、このフレームと直前の1フレーム前の入力信号の合計2フレームを時間方向に結合したデータ長2Nの入力信号x[n] (n=0,1,…2N-1)に対して、窓関数をハミ
ング窓として窓関数を入力信号に乗じて、データ長2Nの窓掛けを行い、窓掛けを行った入力信号wx[n] (n=0,1,…2N-1)を出力する。なお、1フレーム前の入力信号は、窓掛け部333Aが備えるメモリを用いて保持する。ここでは、例として、次の時刻(フレーム)での入力信号x[n]のシフト幅(ここではNサンプル)と窓掛けを行った入力信号wx[n]のデータ長(ここでは2Nサンプル)の比であるオーバーラップは50%としている。ただし、窓掛
けに用いる窓関数は、ハミング窓に限定せず、他の対称窓(ハニング窓、ブラックマン窓、正弦波窓など)あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。またオーバーラップは、50%に限らない。
線形予測分析部333Bは、窓掛け部333Aから出力された窓掛けを行った入力信号wx[n] (n=0,1,…2N-1)が入力され、これに対してDnb次の線形予測分析を行い、狭帯域の
スペクトル包絡を表す狭帯域スペクトルパラメータとして、Dnb次の線形予測係数LPC[f,d](d=1,…,Dnb)を得る。ここでは例えば、Dnb=10とする。この実施形態では、狭帯域の
スペクトル包絡を表現する狭帯域スペクトルパラメータとして、線形予測係数を用いる場合を例にしているが、狭帯域スペクトルパラメータとして、線スペクトル対(LSP)や線ス
ペクトル周波数(LSF)、PARCOR係数、メルケプストラム係数などを用いてもよい。
スペクトル包絡広帯域化処理部333Cは、狭帯域信号のスペクトル包絡を表す狭帯域スペクトルパラメータと広帯域信号のスペクトル包絡を表す広帯域スペクトルパラメータとの対応を事前にモデル化しておき、狭帯域スペクトルパラメータ(ここでは線形予測係数LPC[f,d])を取得し、このスペクトルパラメータを用いて、モデル化しておいた狭帯域スペクトルパラメータと広帯域スペクトルパラメータとの対応から広帯域スペクトルパラメータ(ここでは線スペクトル周波数LSF_WB[f,d])を求める処理を行う。狭帯域のスペ
クトル包絡を表すスペクトルパラメータから広帯域のスペクトル包絡を表すスペクトルパラメータに変換する手法としては、ベクトル量子化(VQ)による符号帳を用いる手法(例えば、吉田, 阿部, ”コードブックマッピングによる狭帯域音声から広帯域音声の生成法”, 信学論(D-II), vol.J78-D-II, No.3, pp.391-399, Mar. 1995.)や、GMMを用いる手法
(例えば、K. Y. Park, H. S. Kim, ”Narrowband to Wideband Conversion of Speech using GMM based Transformation”, Proc. ICASSP2000, vol.3, pp.1843-1846, Jun. 2000.)や、ベクトル量子化(VQ)による符号帳とHMMを用いる手法(例えば、G. Chen, V. Parsa, ”HMM-based Frequency Bandwidth Extension for Speech Enhancement using Line Spectral Frequencies”, Proc. ICASSP2004, vol.1, pp.709-712, 2004.)や、HMMを用
いる手法(例えば、S. Yao, C. F. Chan, ”Block-based Bandwidth Extension of Narrowband Speech Signal by using CDHMM”, Proc. ICASSP2005, vol.1, pp.793-796, 2005.)などがあり、どれを用いても構わない。ここでは、例えばGMM(Gaussian mixture model)を利用する手法を用いるとして、線形予測分析部333Bで得た狭帯域スペクトルパラ
メータである線形予測係数LPC[f,d]を、fs_wb_low[Hz]からfs_wb_high[Hz]までに対応す
る第2の広帯域スペクトルパラメータであるDwb次の広帯域の線スペクトル周波数LSF_WB[f,d](d=1,…,Dwb)に、事前に線形予測係数LPC[f,d]と線スペクトル周波数LSF_WB[f,d]
の対応をモデル化しておいたGMMを利用して変換する。ここでは例えばDwb=18とする。な
お、狭帯域スペクトルパラメータであるスペクトル包絡を表す特徴量データは、線形予測係数限らず、PARCOR係数や反射係数、線スペクトル周波数、ケプストラム係数、メルケプストラム係数などでも構わない。同様に、広帯域のスペクトルパラメータであるスペクトル包絡を表す特徴量データは、線スペクトル周波数に限らず、例えばLPC係数、PARCOR係
数や反射係数、ケプストラム係数、メルケプストラム係数などでも構わない。
逆フィルタ333Dは、線形予測分析部333Bから出力される線形予測係数LPC[f,d]を用いて逆フィルタを形成し、その逆フィルタに窓掛け部333Aから出力されるデータ長2Nの窓掛けした入力信号wx[n]を入力して、狭帯域音源信号であるデータ長2Nの線形予
測残差信号e[n]を出力する。
帯域通過フィルタ部333Eは、逆フィルタ333Dの出力である線形予測残差信号e[n]から広帯域化に用いる周波数帯域を通過させるためのフィルタであって、帯域制限によって劣化した低域の影響を除去するために、少なくとも低域を低減する特性を有する。ここでは例えば1000[Hz]〜3400[Hz]を通過させる帯域通過フィルタとする。具体的には、逆フィルタ333Dで得たデータ長2Nの線形予測残差信号e[n]を入力として、帯域通過フィルタ処理し、帯域通過処理した線形予測残差信号をe_bp[n]としてアップサンプリング部
333Fに出力する。
アップサンプリング部333Fは、アップサンプリング部331と同様の処理を実施するものであって、帯域通過フィルタ部333Eから出力された信号e_bp[n]を、サンプリ
ング周波数fs[Hz]からfs’[Hz]にアップサンプリングし、エイリアシングを除去し、データ長4Nの信号e_us[n]として出力する。
広帯域化処理部333Gは、アップサンプリング部333Fで得たアップサンプリングされたデータ長4Nの線形予測残差信号e_us[n]に非線形処理を施して、有声音では基本周
波数の倍音ごとに周波数領域でピークを持つ構造(調波構造)となる広帯域信号に変換する。これによって、広帯域化されたデータ長4Nの線形予測残差信号e_wb[n]が得られる。
このような調波構造に変換する非線形処理の一例としては、図6(a)〜(b)に示すような非線形関数を用いた非線形処理がある。図6(a)は半波整流を表す。また、調波構造にする非線形処理としては図6(b)のように全波整流を用いることもできる。これらの処理に限らないが、帯域制限された入力信号が、この帯域制限によって、有声音において、基本周波数が欠落していた場合は基本周波数を生成し、基本周波数が欠落していない場合は基本周波数を生成しないようにするために、少なくとも周期性を残す関数が望ましい。
有声/無声推定部333Hは、入力信号x[n]と、線形予測分析部333Bが線形予測分析した狭帯域スペクトルパラメータであるDn次の線形予測係数LPC[f,d]とを入力として、入力信号x[n]がフレーム単位で「有声音」であるか「無声音」であるかを推定し、その推定情報vuv[f]を出力する。具体的には、有声/無声推定部333Hは、まず入力信号x[n]からフレーム単位での零交差の数を算出し、それをフレーム長Nで割って平均化した上で
マイナスにした負の平均零交差数Zi[f]を算出する。次に、式(1)に示すように、フレ
ーム単位での入力信号x[n]の2乗和をdB単位で計算し、これをフレームパワーCi[f]とす
る。
Figure 0004892021
…(1)
また、式(2)に示すように、フレーム単位での1次自己相関係数In[f]を計算する。
Figure 0004892021
…(2)
そして、狭帯域スペクトルパラメータであるDn次の線形予測係数LPC[f,d]に零詰めしてデータ長を2のべき乗であるNの信号を生成し、次数をNとしたFFTを行う。例えば、N=256とする。以下の説明では、wは周波数ビンの番号を表し、1≦w≦Nとする。FFTの結果
、周波数スペクトルL[f,ω]を得て、周波数スペクトルL[f,ω]の2乗であるパワースペクトル|L[f,ω]|2に対して10を底とする対数を取り−10倍することでLPCによるスペク
トル包絡をdB単位で算出し、基本周波数が存在すると想定される帯域におけるLPCによる
スペクトル包絡の平均値Vi[f]を式(3)に示すように算出する。なお、例えば基本周波
数が存在すると想定される帯域を75[Hz]≦fs・ω/256[Hz]≦325[Hz]とし、つまりVi[f]として2≦ω≦11の平均を求める。
Figure 0004892021
…(3)
そして有声/無声推定部333Hは、負の平均零交差数Zi[f]、1次自己相関係数In[f]、LPCスペクトル包絡の平均値Vi[f]に対してそれぞれ適宜重みを付けた線形和にフレームパワーCi[f]を乗じた値をフレーム毎に監視し、所定の閾値を超えた場合に「有声音」で
あると推定し、所定の閾値を超えない場合に「無声音」と推定し、その推定情報vuv[f]を出力する。
パワー制御部333Iは、アップサンプリング部333Fから出力されたデータ長4Nの信号e_us[n]と有音/無声推定部333Hから出力された1次自己相関係数In[f]に基づいて、広帯域化処理部333Gで得られた広帯域化されたデータ長4Nの信号e_wb[n]を所定
のレベルまで増幅し、e2_wb[n]として信号加算処理部333Lに出力する。具体的には、まずデータ長4Nの信号e_us[n]の2乗和を求め、データ長4Nの信号e_wb[n]の2乗和を求め、信号e_us[n]の2乗和を信号e_wb[n]の2乗和で割って増幅ゲインg1[f]を求める。次に
、有声音である程レベルを増幅させるために、1次自己相関係数In[f]の絶対値が1に近づけば1に近づき、1次自己相関係数In[f]の絶対値が0に近づけば0に近づく増幅ゲインg2[f]を求める。そして、増幅ゲインg1[f]とg2[f]を信号e_wb[n]に乗じることでパワー制御を行う。
雑音生成部333Jは、有声/無声推定部333Hの推定結果である推定情報vuv[f]が「無声音」の場合に、一様にランダムな乱数を生成し、それを信号の振幅値にすることにより、白色化された雑音信号wn[n]をデータ長4N分生成して出力する。
パワー制御部333Kは、アップサンプリング部333Fから出力されたデータ長4Nの信号e_us[n]と有音/無声推定部333Hから出力された1次自己相関係数In[f]に基づいて、雑音生成部333Jが生成した雑音信号wn[n]を所定のレベルまで増幅し、wn2[n]と
して信号加算処理部333Lに出力する。具体的には、まずデータ長4Nの信号e_us[n]の
2乗和を求め、データ長4Nの雑音信号wn[n]の2乗和を求め、信号e_us[n]の2乗和を雑音信号wn[n]の2乗和で割って増幅ゲインg3[f]を求める。次に、無声音である程レベルを増幅させるために、1次自己相関係数In[f]の絶対値が0に近づけば1に近づき、1次自己相
関係数In[f]の絶対値が1に近づけば0に近づく増幅ゲインg4[f]を求める。そして、増幅ゲインg3[f]とg4[f]を雑音信号wn[n]に乗じることでパワー制御を行う。
信号加算処理部333Lは、パワー制御部333Kから出力される雑音信号wn2[n]と、パワー制御部333Iから出力される信号e2_wb[n]とを加算して、データ長4Nの信号e3_wb[n]を広帯域音源信号として信号合成部333Mに出力する。
信号合成部333Mは、スペクトル包絡広帯域化処理部333Cで得た上記広帯域スペクトルパラメータである線スペクトル周波数LSF_WB[f,d](d=1,…,Dwb)に基づいて線ス
ペクトル対LSP_WB[f,d](d=1,…,Dwb)を生成して、信号加算処理部333Lで得た広帯
域音源信号であるデータ長4Nの線形予測残差信号e3_wb[n]にLSP合成フィルタ処理を行い、データ長4Nの広帯域信号y1_high[n]を算出する。
フレーム合成処理部333Nは、窓掛け部333Aでのオーバーラップ分を戻すようにフレーム合成を行い、データ長2Nの広帯域信号y1[n]を算出する。具体的には、ここでは
オーバーラップ50%であるため、データ長4Nの広帯域信号y1_high[n]の時間的に前半のデ
ータ(データ長2N)と、1フレーム前に信号合成部333Mが出力したデータ長4Nの広帯域信号y1_high[n]の時間的に後半のデータ(データ長2N)とを加算して、データ長2Nの広帯域信号y1[n]を算出する。
帯域通過フィルタ部333Oは、フレーム合成処理部333Nから出力されたデータ長2Nの広帯域信号y2_high[n]に対して、拡張した周波数帯域のみを通過させるフィルタ処理を施し、これにより通過した信号、すなわち拡張した周波数帯域の信号をデータ長2Nの高域の広帯域信号y_high[n]として出力する。つまり、上記フィルタ処理により、fs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯域を通過させて、この周波数帯域の信号が高域
の広帯域信号y_high[n]として得られる。
次に、低域拡張部334について説明する。低域拡張部334は、制御部32から出力される制御信号control[f]に応じて、動作するか動作しないか制御される。低域拡張部334は、制御信号control[f]=2の場合に切替器3341が閉じられることで動作し、動
作する場合は入力信号x[n]に低域拡張処理を施して、入力信号x[n]の周波数帯域よりも低い周波数帯域を拡張した低域の広帯域信号y_low[n]を生成し、切替器3343が閉じられることで低域の広帯域信号y_low[n]を出力する。一方で、低域拡張部334は、制御信号control[f]=0または1の場合に切替器3341が開放されることで動作せず、切替器3343が開放されることで低域の広帯域信号y_low[n]を出力しない。
低域拡張部334は、入力信号x[n]に低域拡張処理を施して、入力信号x[n]の周波数帯域よりも低い周波数帯域を拡張した低域の広帯域信号y_low[n]を生成する。低域拡張部334は、例えば図7に示すように構成される。低域拡張部334は、窓掛け部334Aと、線形予測分析部334Bと、逆フィルタ部334Cと、広帯域化処理部334Dと、信号合成部334Eと、フレーム合成処理部334Fと、帯域通過フィルタ部334G、アップサンプリング部334Hとを備える。
窓掛け部334Aは、窓掛け部333Aと同様の処理を実施するものであって、狭帯域に帯域制限された現在のフレームfの入力信号x[n] (n=0,1,…N-1)が入力され、このフレームと直前の1フレーム前の入力信号の合計2フレームを時間方向に結合したデータ長2Nの入力信号x[n] (n=0,1,…2N-1)に対して、窓関数を入力信号に乗じて、データ長2Nの窓
掛けを行い、窓掛けを行った入力信号wx_low[n] (n=0,1,…2N-1)を出力する。勿論、wx_low[n]=wx[n] (n=0,1,…2N-1)として、窓掛け部333Aと処理を共通化させてもよい。
線形予測分析部334Bは、線形予測分析部333Bと同様の処理を実施するものであって、窓掛け部334Aから出力された窓掛けを行った入力信号wx_low[n] (n=0,1,…2N-1)が入力され、これを線形予測分析して、第2の狭帯域スペクトルパラメータとしてDn次の線形予測係数LPC_low[f,d](d=1,…,Dn)を得る。ここでは例えばDn=14とする。勿論、Dn=DnbとしLPC_low[f,d]=LPC[f,d]として、前記狭帯域スペクトルパラメータと第2の
狭帯域スペクトルパラメータを同じにして、線形予測分析部333Bと処理を共通化させてもよい。
逆フィルタ334Cは、逆フィルタ333Dと同様の処理を実施するものであって、線形予測分析部334Bで得た第2の狭帯域スペクトルパラメータである線形予測係数LPC_low[f,d]を用いて逆フィルタを形成し、その逆フィルタに窓掛け部334Aで窓掛けしたデータ長2Nの入力信号wx[n]を入力して、第2の狭帯域音源信号としてデータ長2Nの線形
予測残差信号e_low[n]を得る。勿論、Dn=DnbとしLPC_low[f,d]=LPC[f,d]として、逆フ
ィルタ333Dと処理を共通化させてもよい。
広帯域化処理部334Dは、広帯域化処理部333Gと同様の処理を実施するものであって、逆フィルタ334Dから出力されたデータ長2Nの信号e_low[n]に非線形処理を施して、有声音では基本周波数の倍音ごとに周波数領域でピークを持つ構造(調波構造)となる広帯域信号に変換する。これによって、広帯域化されたデータ長2Nの線形予測残差信号e_low_wb[n]が得られる。
信号合成部334Eは、狭帯域スペクトルパラメータである線形予測係数LPC_low[f,d]と、データ長2Nの線形予測残差信号e_low_wb[n]を入力として、線形予測係数LPC_low[f,d]を用いて線形予測合成フィルタを生成し、データ長2Nの線形予測残差信号e_low_wb[n]に線形予測合成を行って、データ長2Nの広帯域信号y1_low[n]を生成する。
フレーム合成処理部334Fは、レーム合成処理部333Nと同様の処理を実施するものであって、窓掛け部334Aでのオーバーラップ分を戻すようにフレーム合成を行い、データ長Nの広帯域信号y2_low[n]を算出する。具体的には、ここではオーバーラップ50%
であるため、データ長2Nの広帯域信号y1_low[n]の時間的に前半のデータ(データ長N)と、1フレーム前に信号合成部334Eが出力したデータ長2Nの広帯域信号y1_low[n]の時
間的に後半のデータ(データ長N)とを加算して、データ長Nの広帯域信号y2_low[n]を算
出する。
帯域通過フィルタ334Gは、フレーム合成処理部334Fから出力されるデータ長N
の広帯域信号y2_low[n]に対して、拡張したい周波数帯域のみを通過させるフィルタ処理
を施し、これにより通過した信号、すなわち拡張したい周波数帯域の信号をデータ長Nの
広帯域信号y3_low[n]として出力する。つまり、上記帯域通過フィルタ処理により、fs_wb_low[Hz]からfs_nb_low[Hz]までの周波数帯域を通過させて、この周波数帯域の信号が広
帯域信号y3_low[n]として得られる。
アップサンプリング部334Hは、帯域通過フィルタ334Gから出力されたデータ長Nの広帯域信号y3_low[n]を、サンプリング周波数fs[Hz]からfs’[Hz]にアップサンプリングし、エイリアシングを除去し、データ長2Nの低域の広帯域信号y_low[n]として出力する。
信号帯域拡張処理部33のアップサンプリング部331は、データ長Nの入力信号x[n]
を、サンプリング周波数fs[Hz]からfs’[Hz]にアップサンプリングし、エイリアシングを除去し、データ長2Nのx_us[n]として出力する。
信号遅延処理部3321は、アップサンプリング部331から出力されたデータ長2Nのアップサンプリングされた入力信号x_us[n]を所定の時間(D1サンプル分)だけバッファ
することによって遅延させ、x_us[n-D1]として出力することで、高域拡張部333から出力される信号y_high[n]とタイミングを合わせて同期をとる。すなわち、所定の時間(D1
サンプル分)は、高域拡張部333での入力から出力が得られるまでの処理遅延の時間D_highから、アップサンプリング部331での入力から出力が得られるまでの処理遅延の時間D_usを引いた分に相当する(D1=D_high−D_us)。この値は、事前に求めておき、D1を常に固定値として用いる。
信号遅延処理部3322は、低域拡張部334から出力されたデータ長2Nの広帯域信号y_low[n]を所定の時間(D2サンプル分)だけバッファすることによって遅延させ、y_low[n-D2]として出力することで、高域拡張部333から出力される信号y_high[n]とタイミングを合わせて同期をとる。すなわち、所定の時間(D2サンプル分)は、高域拡張部333での入力から出力が得られるまでの処理遅延の時間D_highから、低域拡張部334での入力から出力が得られるまでの処理遅延の時間D_lowを引いた分に相当する(D2=D_high−D_low)。この値は、事前に求めておき、D2を常に固定値として用いる。ただし、信号遅延処理部3322は、制御信号control[f]=2であって、低域拡張部334が動作して低域
の広帯域信号y_low[n]が出力される場合のみ動作をする。
信号加算部332は、制御信号control[f]=2のとき、信号遅延処理部3331から出
力されるデータ長2Nの入力信号x_us[n-D1]と、信号遅延処理部3331から出力されるデータ長2Nの広帯域信号y_low[n-D2]と、高域拡張部333から出力されるデータ長2Nの広
帯域信号y_high[n]とを、サンプリング周波数fs’[Hz]のままで加算して、データ長2Nの
広帯域信号y[n]を出力信号として得る。これにより、アップサンプリングされた入力信号x_us[n-D1]は、広帯域信号y_high[n]と広帯域信号y_low[n]の分だけ帯域拡張される。制
御信号control[f]=1のとき、信号加算部332は、信号遅延処理部3331から出力さ
れるデータ長2Nの入力信号x_us[n-D1]と、高域拡張部333から出力されるデータ長2Nの広帯域信号y_high[n]とを、サンプリング周波数fs’[Hz]で加算して、データ長2Nの広帯
域信号y[n]を出力信号として得る。これにより、アップサンプリングされた入力信号x[n-D1]は、広帯域信号y_high[n]の分だけ帯域拡張される。制御信号control[f]=0のときは
、信号加算部332は、信号遅延処理部3331から出力されるデータ長2Nの入力信号x_us[n-D1]をそのままデータ長2Nの広帯域信号y[n]として出力信号とする。すなわち、この場合はアップサンプリングされるだけで帯域拡張されない。
周波数バランス補正部35は、信号帯域拡張処理部33で生成された帯域の組合せに応じて、各帯域のパワー調整を行う。周波数バランス補正部35の詳細を図8に示す。周波数バランス補正部35の処理は、制御信号control[f]が0、1、2のいずれであるかに応じ
て異なるため、制御信号control[f]が0、1、2の場合に分けて説明する。
(制御信号control[f]=0の場合)
信号加算部332の出力信号は、入力信号がアップサンプリングされただけで帯域拡張されていない。そこで、FFT351、スペクトル重心算出部352、補正利得補正部353、IFFT部354では何も行わず、y[n]をそのまま出力信号y’[n]として出力とする。
(制御信号control[f]=1の場合)
信号加算部332から周波数バランス補正部35へ入力される信号y[n]は、アップサンプリングされた入力信号x[n-D1]に対して広帯域信号y_high[n]の分だけ帯域拡張を行った信号である(y_us_high[n]と称する)。
周波数バランス補正部35では、まず、アップサンプリングされた入力信号x_us[n]と
帯域拡張された信号y_us_high[n]がFFT部351に入力され、周波数変換される。なお、周波数変換処理は、ここでは1024点FFTによる時間/周波数変換を例に説明し、1024点FFTして得られるスペクトルの実部、虚部をそれぞれx_us_spec_r[i]、x_us_spec_i[i](i=0,1,…,511)とする。ただし、MDCTなど他の変換方法を使用しても良い。
続いて、スペクトル重心算出部352が、入力信号x_us[n]のスペクトル重心x_us_centroidと、広帯域化された出力信号y_us_high[n]のスペクトル重心x_us_high_centroidとを算出する。入力信号x_us[n]のスペクトル重心x_us_centroidは、式(4)によって算出される。広帯域化された出力信号y_us_high[n]のスペクトル重心x_us_high_centroidは、式(5)によって算出される。
Figure 0004892021
…(4)
ただし、P_x_us[i]=x_us_spec_r[i]2+x_us_spec_i[i]2_である。
Figure 0004892021
…(5)
ただし、P_y_us_high[i]=y_us_high_spec_r[i]2+y_us_high_spec_i[i]2_である。なお、y_us_high_spec_rは、広帯域化された出力信号_y_us_highのFFTスペクトル実部であり、y_us_high_spec_iは、広帯域化された出力信号_y_us_highのFFTスペクトル虚部である。
そして、補正利得乗算部353は補正利得の算出と乗算処理を行う。最初に、x_us_centroidとy_us_high_centroidの比較を行う。ここで、高域側に拡張処理が行われているこ
とから、y_us_high_centroidのスペクトル重心はx_us_centroidに比べて大きな値、つま
り高域側に変化している。これは、高域感が向上するというメリットがある一方で、大きすぎると低域感が相対的に低下するというデメリットがある。そこで、既定の閾値THR1として(y_us_high_centroid-x_us_centroid)> THR1である場合には、式(6)によって出力信号y_us_high[n]の周波数特性の補正を行う。
Figure 0004892021
…(6)
ここで、iの範囲が252以上としているのは、高域拡張された成分のみを補正することを意味している。またf1(x)は、スペクトル重心y_us_high_centroidとx_us_centroidの差分(重心差分)が大きいほど出力信号us_highの高域成分を抑圧することを目的として、重心
差分が0の場合には出力(利得となる)が1となるような単調減少関数とし、例えば、図9のような関数が考えられる。本関数の形状については、スペクトル重心の差分が大きいほど、利得が小さくなるという趣旨を逸脱しない範囲で設定して良い。また、式(6)による補正によって既存帯域と高域拡張された帯域の境界でスペクトル振幅値のスムージングを行うことで、境界における不連続感を抑制し良好な音質を実現することができる。
最後に、IFFT部354は、補正された信号を時間域に変換し、補正後の出力信号y
’[n]を出力する。
(制御信号control[f]=2の場合)
信号加算部332から周波数バランス補正部35へ入力される信号y[n]は、アップサンプリングされた入力信号x[n-D1]に対して、広帯域信号y_high[n]と広帯域信号y_low[n]の分だけ帯域拡張された信号である(y_us_high_low[n]と称する)。
制御信号control[f]=2の場合、周波数バランス補正部35は、まずFFT351によってアップサンプリングされた入力信号x[n-D1]と帯域拡張された信号y_us_high_low[n]に
対して周波数変換を行う。周波数変換の処理については、制御信号control[f]=1の場合と同じであるため、説明を省略する。
次に、スペクトル重心算出部352が、入力信号x_us[n]のスペクトル重心x_us_centroidと、広帯域化された出力信号y_us_high_low[n]のスペクトル重心x_us_high_low_centroidとを算出する。入力信号x_us[n]のスペクトル重心x_us_centroidは、式(4)によって算出される。広帯域化された出力信号y_us_high_low[n]のスペクトル重心x_us_high_low_centroidは、式(7)によって算出される。
Figure 0004892021
…(7)
ただし、P_y_us_high_low[i]=y_us_high_low_spec_r[i]2+y_us_high_low_spec_i[i]2である。また、y_us_high_low_spec_rは、広帯域化された出力信号_y_us_high_lowのFFTス
ペクトル実部であり、y_us_high_low_spec_iは、広帯域化された出力信号_y_us_high_lowのFFTスペクトル虚部である。
続いて、補正利得乗算部353において補正利得の算出と乗算処理が行われる。最初に、x_us_centroidとy_us_high_low_centroidの差を所定の閾値THR2、THR3と比較する。な
お、(y_us_high_low_centroid-x_us_centroid)> THR2である場合には、スペクトル重心が高域側に大きく移動することで低域感が低下すると判断して、式(8)によって出力信号y_us_high[n]の周波数特性の高域成分の補正(抑圧)を行う。
Figure 0004892021
…(8)
ここで、iの範囲が252以上としているのは、高域拡張された成分のみを補正することを意味している。またf2(x)は、スペクトル重心y_us_high_low_centroidとx_us_centroidの差分(重心差分)が大きいほど出力信号us_high_lowの高域成分を抑圧することを目的と
して、重心差分が0の場合には出力(利得となる)が1となるような単調減少関数とし、例えば、図9のような関数が考えられる。本関数の形状については、スペクトル重心の差分が大きいほど、利得が小さくなるという趣旨を逸脱しない範囲で設定して良い。また、式(8)による補正によって既存帯域と高域拡張された帯域の境界でスペクトル振幅値のスムージングを行うことで、境界における不連続感を抑制し良好な音質を実現することができる。一方、(x_us_centroid- y_us_high_low_centroid)> THR3である場合には、スペクトル重心が低域側に大きく移動することで高域感が低下すると判断して、式(9)によって出力信号y_us_high[n]の周波数特性の低域成分の補正(抑圧)を行う。
Figure 0004892021
…(9)
ここで、iの範囲を0以上22未満としているのは、低域拡張された成分のみを補正することを意味している。またf3(x)は、スペクトル重心y_us_high_low_centroidとx_us_centroidの差分が大きいほど出力信号us_high_lowの低域成分を抑圧することを目的として、前
記重心差分が0の場合には出力(利得となる)が1となるような単調減少関数とし、例えば、図9のような関数が考えられる。本関数の形状については、スペクトル重心の差分が大きいほど、利得が小さくなるという趣旨を逸脱しない範囲で設定して良い。また、式(9)による補正によって既存帯域と低域拡張された帯域の境界でスペクトル振幅値のスムージングを行うことで、境界における不連続感を抑制し良好な音質を実現することができる。
最後に、IFFT部354は、補正された信号を時間域に変換し、補正後の出力信号y
’[n]を出力する。
このように構成した帯域拡張部3を信号帯域拡張装置に適用すれば、システム負荷に応じてスケーラブルな帯域拡張処理を行った場合でも、拡張された帯域と既存帯域の周波数バランスを考慮して、既存帯域成分の帯域感が相対的に低下することを抑制することで、常に適切な周波数バランスを保った良好な音声を再生することができる。
なお、この実施例では、デコーダ2から帯域拡張部3に入力信号x[n]のみが入力される構成となっているが、デコーダ2で得られた情報やそれを加工した情報(例えば線形予測係数LPC[f,d]や線形予測残差信号e[n]など)を帯域拡張部3で用いるようにしてもよい。
このようにすることで、各信号を算出するモジュールが不要となり、計算量を少なくすることができる。
なお、上記実施形態に限定されることはなく、本発明の要旨を逸脱しない範囲において、適宜変更しても良い。
例えば、上記実施形態では、モジュール優先度保持部34によって保持されるモジュール優先度を、人間の聴覚の周波数分解能に基づいて決定するために、人間の聴覚の周波数分解能が一定となる尺度(例えば、バーク尺度)を用いて優先度を設定するものとして説明したが、図10に示すような各帯域におけるラウドネス特性を考慮することで、より聴覚特性に即した優先度を決定する事ができる。以下でその例を説明する。
まず、前述のバーク尺度への変換式を用いて低域拡張部分(50〜340[Hz])のバーク尺度
幅bark_lowと、高域拡張部分(3950〜7950[Hz])のバーク尺度幅bark_highとを算出する。
そして、音声データの統計的な周波数パワー分布を算出する。統計的な周波数パワー分布算出にあたっては、音声データベースや収録音声などを含む複数のデータの平均を取ることなどが考えられる。時間/周波数変換は、ここでは1024点FFTによる変換を例に説明す
るが、MDCTなど他の変換方法を使用しても良い。FFTされた周波数スペクトルを実部spec_r[i]、虚部spec_i[i](ただし、i = 0, 1, …, 1023)とすると、各周波数ビンのパワーspec_pow[i]は、spec_pow[i]=spec_r[i]*spec_r[i]+spec_i[i]*spec_i[i]として求められ
る。続いて、該周波数パワーをラウドネスに変換する。ここでは、周波数スペクトルパワーからラウドネスへの変換関数を便宜上L(x) (ただしxは周波数ビン毎のパワー)と記載する。これにより、周波数ビン毎のラウドネスloudness[i] =L(spec_pow[i])が算出され
る。続いて、信号帯域拡張によって拡張される帯域毎の平均ラウドネスを求める。低域拡張部分の平均ラウドネスは式(10)で表され、高域拡張部分の平均ラウドネスは式(11)で表される。
Figure 0004892021
・・・(10)
Figure 0004892021
・・・(11)
ここで、低域拡張部分でのΣ関数の加算区間インデックスi=2,…,20、高域拡張部分の
Σ関数の加算区間i=251,…,507は、それぞれ低域拡張部分(50〜340[Hz])、高域拡張部分(3950〜7950[Hz])の両端に対応している。このようにして求めた各拡張部分のラウドネス
を重みとして、前記バーク尺度幅bark_low、bark_highに乗算すると、bark_low’=w(ave_loudness_low)*bark_low、bark_high’=w(ave_loudness_high)*bark_high となる。ここ
でw()はラウドネス値を入力として重みを算出する単調増加の関数とする。以上のように
算出されたbark_low’とbark_high’のうち値が大きい方の帯域が聴覚的な重要度が高い
と判断して、優先度を高く設定する。以上により、システム負荷が大きい場合でも、聴覚的に重要な帯域を優先的に生成することができる高品質な音声帯域処理を行うことが可能となる。なお、ここでは低域拡張と高域拡張の2通りの拡張処理を例に説明したが、より細かく3つ以上の帯域に分割して拡張処理する場合にも同様の方法を取ることが可能である。
また、周波数バランス補正部35についても、変形例が考えられる。図11は、イコライザを用いた周波数バランス補正部35の構成を示すブロック図である。FFT351とスペクトル重心算出部352の処理は図8を用いた上述の説明と同様であるため、説明を省略する。なお、入力信号x[n]をアップサンプリングしただけの信号x_us[n]に対して算
出したスペクトル重心をx_us_centroid、広帯域化された信号y[n]に対して算出したスペ
クトル重心をy_centroidとする。イコライザ特性設定部355は、x_un_centroidとy_centroidとの差(重心差分)を所定の閾値THR4、THR5と比較する。
(y_centroid-x_us_centroid)> THR4の場合は、帯域拡張処理によってスペクトル重心が高域側に大きく移動したと判断して、高域成分を抑圧するようなイコライザ特性とする。高域成分を抑圧するイコライザ特性とは、例えば図12に示すような特性である。ただし、図12では、イコライザの最大ゲインを1としているが、逆に中低域を増幅させる図13のような特性であっても良い。中低域に比べて高域を抑制するという趣旨を逸脱しない範囲で任意の特性に設定しても良い。
一方、 (x_us_centroid- y_centroid)> THR5の場合は、帯域拡張処理によってスペクトル重心が低域側に大きく移動したと判断して、低域成分を抑制するようなイコライザ特性とする。例えば図14に示すように低域側のゲインを抑制する特性とする。図14において、イコライザの最大ゲインを1として説明しているが、逆に中低域を増幅させる図15のような特性であっても良い。また、中低域に比べて高域を抑制するという趣旨を逸脱しない範囲で任意の特性に設定しても良い。
このように構成した帯域拡張部3を信号帯域拡張装置に適用すれば、システム負荷に応じてスケーラブルな帯域拡張処理を行った場合でも、拡張された帯域と既存帯域の周波数バランスを考慮して、既存帯域成分の帯域感が相対的に低下することを抑制することで、常に適切な周波数バランスを保った良好な音声を再生することができる。
1 無線通信部、2 デコーダ、3 信号帯域拡張部、4 D/A変換器、5 スピーカ、6 記憶部、31 システム時刻取得部 32 制御部 33 信号帯域拡張処理部、34 モジュール優先度保持部、35 周波数バランス補正部、331 アップサンプリング部、332 信号加算部、333 高域拡張部、334 低域拡張部

Claims (3)

  1. 入力信号に対して帯域を拡張する信号帯域拡張装置であって、
    時刻情報を取得する時刻取得手段と、
    帯域拡張処理のうち、拡張する帯域に応じた処理の優先度情報を保持する優先度保持手段と、
    前記優先度保持手段によって保持されている優先度情報を用いて、優先度の高い処理から順に実行し、処理が終了すると前記時刻取得手段を用いて処理にかかった時間を算出し、処理にかかった時間に応じて、次に優先度の高い処理を実行するかどうか制御する制御手段と、
    前記制御手段によって実行された処理により拡張された信号のスペクトル重心と帯域拡張前の信号のスペクトル重心との差に応じて拡張された帯域と既存帯域とのパワーのバランスを制御する周波数バランス補正手段を有し、
    前記周波数バランス補正手段は、
    前記制御手段によって実行された処理により信号のスペクトル重心が拡張された帯域側に所定の閾値以上移動した場合、拡張された帯域のパワーを抑制するよう制御することを特徴とする信号帯域拡張装置。
  2. 入力信号に対して帯域を拡張する信号帯域拡張装置であって、
    時刻情報を取得する時刻取得手段と、
    帯域拡張処理のうち、拡張する帯域に応じた処理の優先度情報を保持する優先度保持手段と、
    前記優先度保持手段によって保持されている優先度情報を用いて、優先度の高い処理から順に実行し、処理が終了すると前記時刻取得手段を用いて処理にかかった時間を算出し、処理にかかった時間に応じて、次に優先度の高い処理を実行するかどうか制御する制御手段と、
    前記制御手段によって実行された処理により拡張された信号のスペクトル重心と帯域拡張前の信号のスペクトル重心との差に応じて拡張された帯域と既存帯域とのパワーのバランスを制御する周波数バランス補正手段を有し、
    前記周波数バランス補正手段は、
    前記制御手段によって実行された処理により信号のスペクトル重心が拡張された帯域側に所定の閾値以上移動した場合、既存帯域のパワーを増幅するよう制御することを特徴とする信号帯域拡張装置。
  3. 前記優先度保持手段が保持する優先度情報は、拡張する帯域毎の聴感上の重要度に基づいて設定された優先度情報であることを特徴とする請求項1または2いずれか記載の信号帯域拡張装置
JP2009044521A 2009-02-26 2009-02-26 信号帯域拡張装置 Expired - Fee Related JP4892021B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009044521A JP4892021B2 (ja) 2009-02-26 2009-02-26 信号帯域拡張装置
US12/573,242 US8271292B2 (en) 2009-02-26 2009-10-05 Signal bandwidth expanding apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009044521A JP4892021B2 (ja) 2009-02-26 2009-02-26 信号帯域拡張装置

Publications (2)

Publication Number Publication Date
JP2010197862A JP2010197862A (ja) 2010-09-09
JP4892021B2 true JP4892021B2 (ja) 2012-03-07

Family

ID=42631748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009044521A Expired - Fee Related JP4892021B2 (ja) 2009-02-26 2009-02-26 信号帯域拡張装置

Country Status (2)

Country Link
US (1) US8271292B2 (ja)
JP (1) JP4892021B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010070770A1 (ja) * 2008-12-19 2010-06-24 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
DE112010000035B4 (de) * 2009-08-03 2015-04-30 Honda Motor Co., Ltd. Roboter und Regelungs- /Steuerungssystem
EP2363852B1 (en) * 2010-03-04 2012-05-16 Deutsche Telekom AG Computer-based method and system of assessing intelligibility of speech represented by a speech signal
US8700391B1 (en) * 2010-04-01 2014-04-15 Audience, Inc. Low complexity bandwidth expansion of speech
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9245538B1 (en) * 2010-05-20 2016-01-26 Audience, Inc. Bandwidth enhancement of speech signals assisted by noise reduction
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
KR101826331B1 (ko) 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
EP3023985B1 (en) 2010-12-29 2017-07-05 Samsung Electronics Co., Ltd Methods for audio signal encoding and decoding
US20130029681A1 (en) * 2011-03-31 2013-01-31 Qualcomm Incorporated Devices, methods, and apparatuses for inferring a position of a mobile device
US9489962B2 (en) * 2012-05-11 2016-11-08 Panasonic Corporation Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
CN105229738B (zh) * 2013-01-29 2019-07-26 弗劳恩霍夫应用研究促进协会 用于使用能量限制操作产生频率增强信号的装置及方法
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
JPWO2021200260A1 (ja) * 2020-04-01 2021-10-07

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3410244B2 (ja) * 1995-04-17 2003-05-26 富士通テン株式会社 車載用音響システム
JP3466507B2 (ja) * 1998-06-15 2003-11-10 松下電器産業株式会社 音声符号化方式、音声符号化装置、及びデータ記録媒体
JP2001249692A (ja) * 2000-03-03 2001-09-14 Hitachi Ltd 伸長装置
JP2002290628A (ja) * 2001-03-23 2002-10-04 Sumitomo Denko Hightecs Kk マルチコーデックデータ伝送システム
JP2007534995A (ja) * 2004-04-29 2007-11-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声信号を分類する方法及びシステム
JP2006259349A (ja) 2005-03-17 2006-09-28 Matsushita Electric Ind Co Ltd 負荷適応オーバーサンプリング制御装置
JP4629495B2 (ja) * 2005-05-19 2011-02-09 大日本印刷株式会社 音響信号に対する情報の埋め込み装置および方法
US8423356B2 (en) 2005-10-17 2013-04-16 Koninklijke Philips Electronics N.V. Method of deriving a set of features for an audio input signal
JP2008033211A (ja) * 2006-06-26 2008-02-14 Sony Corp 付加信号生成装置、信号変換された信号の復元装置、付加信号生成方法、信号変換された信号の復元方法および付加信号生成プログラム

Also Published As

Publication number Publication date
JP2010197862A (ja) 2010-09-09
US8271292B2 (en) 2012-09-18
US20100217606A1 (en) 2010-08-26

Similar Documents

Publication Publication Date Title
JP4892021B2 (ja) 信号帯域拡張装置
JP4945586B2 (ja) 信号帯域拡張装置
RU2552184C2 (ru) Устройство для расширения полосы частот
RU2402826C2 (ru) Способы и устройство кодирования и декодирования части речевого сигнала диапазона высоких частот
JP6147744B2 (ja) 適応音声了解度処理システムおよび方法
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
JP4818335B2 (ja) 信号帯域拡張装置
JP5127754B2 (ja) 信号処理装置
RU2683632C2 (ru) Генерация высокополосного сигнала возбуждения
RU2651218C2 (ru) Гармоническое расширение полосы аудиосигналов
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
EP2394269A1 (en) Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5148414B2 (ja) 信号帯域拡張装置
JP2016537662A (ja) 帯域幅拡張方法および装置
TW201214419A (en) Systems, methods, apparatus, and computer program products for wideband speech coding
JPH10124088A (ja) 音声帯域幅拡張装置及び方法
US20080312916A1 (en) Receiver Intelligibility Enhancement System
RU2679346C2 (ru) Способ, аппарат, устройство, компьютерно-читаемый носитель для расширения полосы частот аудиосигнала с использованием масштабируемого возбуждения верхней полосы
RU2625945C2 (ru) Устройство и способ для генерирования сигнала с улучшенным спектром, используя операцию ограничения энергии
Kornagel Techniques for artificial bandwidth extension of telephone speech
WO2018003849A1 (ja) 音声合成装置および音声合成方法
EP2943954B1 (en) Improving speech intelligibility in background noise by speech-intelligibility-dependent amplification
JP2009223210A (ja) 信号帯域拡張装置および信号帯域拡張方法
WO2013054484A1 (ja) オーディオ信号出力装置およびオーディオ信号出力方法
JP6559576B2 (ja) 雑音抑圧装置、雑音抑圧方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110413

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20110413

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110413

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20110512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111216

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141222

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees