JP3770899B2 - 広帯域音声復元方法及び広帯域音声復元装置 - Google Patents

広帯域音声復元方法及び広帯域音声復元装置 Download PDF

Info

Publication number
JP3770899B2
JP3770899B2 JP2005182706A JP2005182706A JP3770899B2 JP 3770899 B2 JP3770899 B2 JP 3770899B2 JP 2005182706 A JP2005182706 A JP 2005182706A JP 2005182706 A JP2005182706 A JP 2005182706A JP 3770899 B2 JP3770899 B2 JP 3770899B2
Authority
JP
Japan
Prior art keywords
narrowband
wideband
signal
sound source
broadband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2005182706A
Other languages
English (en)
Other versions
JP2005321823A (ja
Inventor
裕久 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2005182706A priority Critical patent/JP3770899B2/ja
Publication of JP2005321823A publication Critical patent/JP2005321823A/ja
Application granted granted Critical
Publication of JP3770899B2 publication Critical patent/JP3770899B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

この発明は、帯域制限された狭帯域音声信号や、狭帯域音声信号を符号化した狭帯域音声符号から広帯域の音声信号を復元する広帯域音声復元装置に関するものである。
狭帯域音声信号の一例として、現在の電話音声がある。電話システムでは音声信号は約300Hzから3.4KHzの帯域に制限されて伝送されており、帯域制限がない場合に比べると、貧弱で籠った感じの音質となっている。高品質化するためには広帯域の音声信号を伝送できる電話システムを構築することが考えられるが、多くの時間と経費が必要である。
電話帯域に制限された狭帯域音声から広帯域音声信号を復元する広帯域音声復元方法として考えられた従来のものに、特開平6−118995号がある。
特開平6−118995号は、狭帯域音声信号をLPC分析してスペクトルパラメータを算出し、このスペクトルパラメータを狭帯域符号帳を用いてベクトル量子化する。そして、狭帯域符号帳と対応づけて学習した広帯域符号帳を用いて広帯域のスペクトルパラメータを復号する。このスペクトルパラメータを用いてLPC合成処理を行い、仮の広帯域音声信号を得る。狭帯域音声信号をアップサンプリングしたものに、仮の広帯域音声信号から狭帯域音声信号以外の帯域成分を抽出して加算することで、最終的な広帯域音声信号を生成する。なお、広帯域のLPC合成処理を行う場合には、広帯域の音源信号が必要となるが、この音源信号の生成方法については具体的に開示されていない。
特開平6−118995号と同じ構成を持ち、広帯域の音源信号生成について開示されている文献として、文献1「コードブックマッピングによる狭帯域音声から広帯域音声の復元」電子情報通信学会、信学技報SP93-61 (1993-08) がある。
この文献1では、広帯域の音源生成方法として2つの方法が開示されている。
第1の方法は、狭帯域音声を分析して得られたピッチとパワーを用いて、同業者間では一般的な方法によって音源生成を行う。すなわち、有声音ではピッチ周期で繰り返すインパルス列、無声音では白色雑音を生成し、パワーによってその振幅を決定する。
なお文献1では、音質改善のために幾つかの後処理を行っている。300Hz以下の低域を復元する場合には、復元帯域のパワー不足を補うために低域復元音のパワーを低数倍する。3.4Hzから7.3KHzの高域を復元する場合には、インパルス列を音源としたことによって発生するパルス的な音を軽減するためにパルスをつぶすようにcosine関数をかける。
第2の方法は、狭帯域音声信号のスペクトルパラメータをベクトル量子化し、得られた符号に対応する狭帯域の代表波形素片と高域の代表波形素片を選択する。そして、この2つの波形素片に対して以下の処理を行う。波形素片の有声無声を判定し、有声音の場合には狭帯域音声信号を分析して得られたピッチに同期して前記波形素片を重ね合わせる。無声音の場合には、波形素片のランダムな位置から必要な長さの信号を切り出す。狭帯域波形素片から上記処理によって生成された信号と狭帯域スペクトルパラメータを用いて合成された合成音と狭帯域音声のパワー比を算出する。そして、高域波形素片から上記処理によって生成された信号と広帯域のスペクトルパラメータを用いて合成音を生成し、これに前記パワー比を乗ずることで高域の復元信号を得る。
利用分野が異なるが、音源信号の帯域を広げる別の方法として、文献2「 A 2.4Kbps High−Qaulity Speech Coder 」IEEE International Conference on Acoustics, Speech, and Signal Processing vol.1, S9.5, pp. 589-592 (1991.5) に開示されているものがある。
文献2は、電話帯域音声を高能率に符号化し、復号化する方式に関するもので、符号化する際の音源の情報量を削減するために、0Hzから3.4KHzの音源信号を長周期予測分析し、長周期予測係数と長周期予測残差信号に分離する。0Hzから3.4KHzの長周期予測残差信号を0Hzから1KHzに帯域制限して符号化を行う。そして、復号化する際に帯域制限された長周期予測残差信号から3.4KHzまでの電話帯域の長周期予測残差信号を生成した後、長周期合成処理を行って音源信号を復元するものである。長周期予測残差信号の復元は、0Hzから1KHzの成分を持つ信号を8KHzのサンプリング周波数にアップサンプリングした後、4サンプル間隔で残し、それ以外を零にすることで行っている。
特開平06−118995号公報 特開昭63−034600号公報 特開平05−297898号公報 特開平06−085607号公報 信学技報,SP93−61,1993年
上記の従来法には、以下に述べる課題がある。
特開平6−118995号と、別の文献ではあるが、その具体的実用例を開示している文献1では、大別して次の4つの課題、つまり音源振幅推定、音源生成方法、スペクトルパラメータ推定法、通信系への適用に関する課題がある。
まず、第1の音源振幅推定に関して説明する。
文献1の第1の音源生成方法を用いる場合、復元音の合成に用いるパワーについては、狭帯域音声を分析して得られたパワー値をそのまま、もしくは定数倍して用いているが、狭帯域のスペクトルパラメータと推定された広帯域のスペクトルパラメータでは合成フィルタの利得が異なるので、同一の音源振幅を与えても得られる合成音の振幅が異なって来る。この差異がフレーム毎に変化するため、音源振幅、つまりパワー値を定数倍する事では、正しい振幅を持った広帯域音声は復元されない課題がある。
また、文献1の第2の音源生成方法を用いる場合、狭帯域合成音を生成して狭帯域音声とのパワー比を算出して、高域合成音に乗じているが、2つの波形素片に対して複雑な処理を実行する事が必要となる課題がある。
つぎに、第2の音源生成方法に関して説明する。
文献1の第1の音源生成方法を用いる場合、ピッチとパワーという僅かな情報だけで広帯域音源信号の生成を行うので、様々に変化する本来の広帯域音源を十分に推定する事はできない。この結果、cosine関数によってパルス的な音の軽減を行っているが、完全にパルス的な音の抑圧はできず、音質が不自然となる課題がある。また、話者毎に大きく性質が異なる有声音源を1つの固定音源で表現する事に無理があるため、話者によって音質が劣化する課題がある。
文献1の第2の音源生成方法を用いる場合、スペクトルパラメータのベクトル量子化結果の符号に対応する代表波形素片を用いているが、本来スペクトルパラメータは声道の形状に依存し、音源波形は声帯の振動の仕方に依存するものであるので、両者の間に強い対応関係は無い。音源波形は、むしろ話者に依存する所が大きい。従って、適切な音源が選択されない課題がある。
文献1中に記載されている様に、この第2の音源生成法を用いた場合には、有声音であるにもかかわらず無声音の波形素片を選択したり、逆に無声音であるにもかかわらず有声音の波形素片を選択してしまう場合があり、そのまま合成を行うと品質劣化を起こす課題がある。この事を回避するために、その部分でのパワー比を強制的に0としているが、この結果、復元された高域の振幅が部分的に0となってしまい別の品質劣化を起こす課題がある。
更に、どちらの音源生成法においても、有声無声判定、ピッチ抽出誤りが起こった場合の品質劣化が避けられないという課題がある。特に、雑音が重畳した狭帯域音声信号に対して適用した場合に、判定誤り、抽出誤りが増大し、大きな劣化が起こる課題がある。
また、有声音と無声音の2つのモードしかないため、中間的な性質を持つ音源が十分表現できず、有声音と無声音の境界部分において品質劣化が起こる課題がある。
つぎに第3のスペクトルパラメータ推定方法に関して説明する。
特開平6−118995号と文献1では、2つの符号帳を利用したベクトル量子化と逆量子化を行っているが、符号帳を蓄積しておくメモリが必要である事、量子化処理のための多くの演算量が必要である事が課題である。
また、雑音、無声音、有声音の区別はパワーによってしやすく、かつそれらの区別によって狭帯域のスペクトルパラメータと広帯域のスペクトルパラメータの対応関係は変化する。しかしながら、何れの場合も、スペクトルパラメータとパワーを独立に扱っているので、広帯域のスペクトルパラメータの推定にパワーに関する情報が反映されていない。このため、狭帯域のスペクトルの形状が類似していれば、パワーの大小に関係なく、同様な広帯域スペクトルが推定されてしまう課題がある。
最後に第4の通信系への適用に関して説明する。
特開平6−118995号と文献1の方法を通信系へ適用する場合、受信した音声符号から狭帯域合成音を復号した後、この狭帯域合成音を再分析して広帯域音声信号を復元する事となるが、スペクトルパラメータと音源情報が分離・符号化されて伝送されてくる場合には、その音声符号を直接利用して広帯域音声信号を復元する方が効率的と考えられる。つまり、特開平6−118995号と文献1の方法は再分析が必要である点で非効率である課題がある。また、合成と再分析を行って得られるパラメータには、合成時の補間や分析時の窓掛等による歪が重畳しており、広帯域音声の品質劣化もある。
この他、特開平6−118995号と文献1では、一般に合成音の雑音感の低減や了解性の改善のために導入される信号加工処理を付加していないため、復元された広帯域音声信号の音質が不足する場合にその改善をする事ができない課題がある。
また、通信系へ適用する場合、狭帯域合成音に対して信号加工処理が適用されることがあり、加工された狭帯域音声信号と加工されていない広帯域音声信号を重畳するために、両者の音質の連続性が悪くなる課題がある。
文献2の方法では、0Hzから1KHzを狭帯域、0Hzから3.4KHzを広帯域と考えれば、広帯域の音源信号推定を行っていることになるが、前記した通りこの方式は広帯域の音声信号を入力とし、これを分析して得たパラメータを符号化し、復号化して広帯域合成音を得るものであり、狭帯域の音声信号、または狭帯域の音声信号から抽出されたパラメータから広帯域の音声信号を復元する方法を開示したものではない。
以下に述べる実施例は、かかる課題を解決するためになされたものであり、狭帯域音声からより正しい振幅を持った広帯域音声信号を復元する広帯域音声復元装置を実現する事を目的としている。
また、比較的簡単な処理の広帯域音源振幅の推定処理を持った広帯域音声復元装置を実現する事を目的としている。
更に、話者に依存性が少なく、有声無声境界付近でも良好な広帯域音源を推定し、安定で自然な音質の広帯域音声を復元する広帯域音声復元装置を実現する事を目的としている。
また、雑音が重畳した狭帯域音声信号に対して起こりがちな有声無声判定誤りやピッチ抽出誤りの影響の少ない広帯域音声復元装置を実現する事を目的としている。
更に、通信系へ適用した場合に、再分析を行わずに効率良く広帯域音声の復元を行う広帯域音声復元装置を実現する事を目的としている。
更に、復元された広帯域音声信号の音質が不足する場合にその改善を可能とし、狭帯域合成音に対して信号加工処理が適用される場合に、加工された狭帯域連続性が良い広帯域音声信号が得られる広帯域音声復元装置を実現する事を目的としている。
この発明に係る広帯域音声復元方法は、狭帯域音声符号から狭帯域スペクトルパラメータを復号する狭帯域スペクトル復号ステップと、
上記狭帯域音声符号から狭帯域音源信号を復号する狭帯域音源復号ステップと、
白色雑音に基づいて上記狭帯域音源信号のパワーと同一パワーの広帯域音源信号を生成する広帯域音源復号ステップと、
上記狭帯域スペクトルパラメータを広帯域スペクトルパラメータとして出力する広帯域スペクトル復号ステップと、
上記広帯域スペクトルパラメータと上記広帯域音源信号とに基づいて広帯域音声信号を合成する合成ステップとを有することを特徴とする。
この発明に係る広帯域音声復元装置は、狭帯域音声符号から狭帯域スペクトルパラメータを復号する狭帯域スペクトル復号手段と、
上記狭帯域音声符号から狭帯域音源信号を復号する狭帯域音源復号手段と、
白色雑音に基づいて上記狭帯域音源信号のパワーと同一パワーの広帯域音源信号を生成する広帯域音源復号手段と、
上記狭帯域スペクトルパラメータを広帯域スペクトルパラメータとして出力する広帯域スペクトル復号手段と、
上記広帯域スペクトルパラメータと上記広帯域音源信号とに基づいて広帯域音声信号を合成する合成手段とを有することを特徴とする。
実施例1.
本発明の一実施例を図に基づいて説明する。
本実施例は、主として広帯域音源信号の生成をより正しい形で復元する構成と動作を説明するものである。
図1は本発明の実施例1の広帯域音声復元装置の構成図である。図において、1は入力の狭帯域音声信号、2は分析手段、3はスペクトル分析手段、4は狭帯域スペクトルパラメータ、5は逆フィルタ、6は狭帯域音源信号、7は広帯域スペクトル推定手段、8はベクトル量子化手段、9は狭帯域スペクトル符号帳、10はスペクトル符号、11は逆量子化手段、12は広帯域スペクトル符号帳、13は広帯域スペクトルパラメータである。14は本実施例での重要な新規構成要素である広帯域音源推定手段、15はその具体例としての零詰手段、16は広帯域音源信号、17は合成手段としての合成フィルタ、18は帯域フィルタ、19はアップサンプリング手段、20は広帯域音声信号である。
また、図2は、零詰手段15の処理を説明する信号説明図である。
以下、図1と図2を用いて本発明の実施例1の動作について説明する。
まず、例えば8KHzでサンプリングされ、300Hzから3.4KHzの電話帯域に制限された狭帯域音声信号1が分析手段2とアップサンプリング手段19に入力される。分析手段2内のスペクトル分析手段3は、狭帯域音声信号1を分析して狭帯域スペクトルパラメータ4を算出し、分析手段2内の逆フィルタ5と広帯域スペクトル推定手段7内に出力する。なお、狭帯域スペクトルパラメータ4としては、線形予測係数、LSP、PARCOR係数、ケプストラム等様々なものが適用可能である。逆フィルタ5は、狭帯域スペクトルパラメータ4を用いて狭帯域音声信号1を逆フィルタリングし、得られた狭帯域音源信号6を広帯域音源推定手段14内に出力する。
広帯域スペクトル推定手段7内のベクトル量子化手段8は、狭帯域スペクトル符号帳9を用いて前記狭帯域スペクトルパラメータ4をベクトル量子化し、得られたスペクトル符号10を広帯域スペクトル推定手段7内の逆量子化手段11に出力する。逆量子化手段11は、広帯域スペクトル符号帳12を用いてスペクトル符号10を逆量子化し、得られた広帯域スペクトルパラメータ13を合成フィルタ17に出力する。
なお、この広帯域スペクトル推定手段7内の処理は、文献1と同様であり、狭帯域スペクトル符号帳9と広帯域スペクトル符号帳12の生成法や、ベクトル量子化の方法に関する詳細な説明を省略する。
本実施例の重要部分である広帯域音源推定手段14内の零詰手段15は、狭帯域音源信号6の各サンプル値間にM−1サンプルずつ零を挿入し、得られたM倍のサンプル数の信号を広帯域音源信号16として合成フィルタ17に出力する。ここで、Mは、復元する広帯域音声信号のサンプリング周波数を、狭帯域音声信号のサンプリング周波数で除した値であり、この実施例では、Mが2の場合について説明する。図2(a)は、Nサンプルの狭帯域音源信号6である。この信号に対して、零詰手段15による零詰め処理を行うと、M−1サンプル、つまり1サンプルずつの零が各サンプル間に挿入されて、図2(b)に示す2Nサンプルの広帯域音源信号16が得られる。Mが2の零詰め処理を行うと、広帯域音声信号のサンプリング周波数の半分の周波数、つまり4KHzを中心にして、0Hzから4KHzと対称のスペクトルが4KHzから8KHzに復元される。
合成フィルタ17は、広帯域スペクトルパラメータ13を用いて広帯域音源信号16に合成フィルタ処理を行い仮の広帯域音声信号を生成する。帯域フィルタ18は、この仮の広帯域音声信号に対して、帯域通過フィルタ処理を行い、狭帯域音声の成分の存在する帯域以外の成分を抽出する。広帯域音声信号の帯域が0Hzから7.3KHzの場合、0Hzから300Hzと3.4KHzから7.3KHzの成分が抽出される。
アップサンプリング手段19は、狭帯域音声信号1をM倍にアップサンプリングする。アップサンプリングによって生成される信号は、サンプリング周波数が広帯域音声信号20と同じで、狭帯域音声信号1と同じ狭帯域成分を持つものである。そして、帯域フィルタ18の出力とアップサンプリング手段19の出力を加算して広帯域音声信号20を生成する。
本来狭帯域音源信号と広帯域音源信号は、同一の発声器官から生成された音源信号の特徴を反映しているので、ピッチ周波数の高調波成分の強さ、高調波成分間の雑音的成分の強さ等の音源信号の特徴において相関がある。つまり、狭帯域音源信号がピッチ周波数の高調波成分が強い規則的な特徴を持っている場合には、広帯域音源信号も同様にピッチ周波数の高調波成分が強い規則的な特徴を持っているし、逆に狭帯域音源信号が雑音的な成分が強い特徴を持っている場合には、広帯域音源信号も同様に雑音的な成分が強い特徴を持っている。
この実施例の様に広帯域音源推定手段を構成する事により、低域の0〜4KHzの狭帯域音源信号と同様の特徴を持つ0〜8KHzの広帯域音源信号を生成する事ができるので、話者に依存性が少なく、安定で自然な音質の広帯域音声を復元することができる効果がある。
また、従来例のように有声無声判定やピッチ抽出が必要なく、本構成により自ずと中間的な性質の音源も表現できるので、雑音が重畳した狭帯域音声信号に対して起こりがちな有声無声判定誤りやピッチ抽出誤りの影響がなく、有声無声境界付近でも良好な広帯域音源を推定することができ、安定で自然な音質の広帯域音声を復元することができる効果がある。
実施例2.
図3は本発明の実施例2の広帯域音声復元装置における音源推定手段14の構成図である。図において新規な部分は、21の音源分析手段、22の狭帯域適応符号帳、23の歪最小化手段、24の狭帯域駆動音源信号、25の狭帯域適応ラグ長、26の狭帯域適応ゲイン、27の広帯域駆動音源推定手段、28の零詰手段、29の広帯域駆動音源信号、30の広帯域適応音源推定手段、31の広帯域適応音源符号帳、32の広帯域適応音源信号、33の広帯域適応ラグ長、34の広帯域適応ゲインである。全体構成は、図1と同じであるので、構成の記載と図3以外の部分の動作の説明を省略する。
本構成によれば、広帯域音源信号が更によりよく復元できる。
以下、図3を用いて本発明の一実施例の動作について説明する。
狭帯域音源信号6が広帯域音源推定手段14内の音源分析手段21に入力される。音源分析手段21内の狭帯域適応符号帳22には、過去の狭帯域音源信号6が記憶されており、後述する歪最小化手段23が順次出力するラグ長に従って、ラグ長が整数値である場合には記憶してある過去の狭帯域音源信号6をこのラグ長で繰り返して得られる信号を出力する。ラグ長が非整数値である場合には、文献3「 Pitch Predictors with High Temporal Resolution 」IEEE International Conference on Acoustics, Speech, and Signal Processing vol.2, S12.6, pp.661-664 (1990.4) に記載されているようにポリフェイズフィルタ出力により信号を生成し、出力する。出力する信号の長さは、現在の狭帯域音源信号6と同じ長さである。
図4に、狭帯域適応符号帳22内に記憶されている過去の狭帯域音源信号6と、入力されたラグ長に従って出力される信号の例を示す。
図において、横軸は時間で矢印方向に時間が経過することを示す。(A1),(B1)は従って音源信号の時間的な長さを示し、(A2),(B2)は20〜128等、出力される時間に対して正規化されたラグ長を示し、(A3),(B3)は出力される音源信号の例を示す。
図4(a)は出力信号の長さがラグ長より短い場合を示し、その場合にはラグ長の最初から出力信号時間T1の長さの音源信号(A3)を過去の音源信号に引続いて出力する。ラグ長が出力する信号の長さよりもT2のように短い時には、図4(b)に示す様に複数回同じ音源信号(B3)を繰り返して過去の音源信号に続いて出力する。
歪最小化手段23は、前記狭帯域適応符号帳22に対して複数のラグ長の値を順次出力し、各ラグ長に対して狭帯域適応符号帳22が出力した信号にゲインを乗じた信号と狭帯域音源信号6との歪が最小になるようにそのゲインを決定していく。そして、全てのラグ長に中で歪を最小にするものを選択し、狭帯域適応ラグ長25として広帯域適応音源推定手段30に出力する。また、その時のゲインの値を狭帯域適応ゲイン26として広帯域適応音源推定手段30に出力し、狭帯域適応符号帳22が出力した信号に狭帯域適応ゲイン26を乗じた信号と狭帯域音源信号6の誤差信号を狭帯域駆動音源信号24として広帯域駆動音源推定手段27に出力する。なお、歪最小化手段23内でのゲインの決定方法としては、一般に知られているラグランジュの未定係数法を用いる事ができる。
即ち歪最小化手段23は、狭帯域音源信号6と狭帯域適応符号帳22出力を入力とし、狭帯域適応音源符号である歪最小のラグ長25とゲイン26と、誤差信号の狭帯域駆動音源信号24を出力する。
広帯域駆動音源推定手段27内の零詰手段28は、狭帯域駆動音源信号24の各サンプル値間にM−1サンプルずつ零を挿入し、得られたM倍のサンプル数の信号を広帯域駆動音源信号29として出力する。ここで、Mは、復元する広帯域音声信号のサンプリング周波数を、狭帯域音声信号のサンプリング周波数で除した値であり、零を挿入する動作は前記零詰手段15と同じである。
広帯域適応音源推定手段30内では、まず狭帯域適応ラグ長25をM倍して広帯域適応ラグ長33とし、狭帯域適応ゲイン26をg倍して広帯域適応ゲイン34とする。gを1とすると最終的に得られる広帯域音源信号16のピッチ周期性が狭帯域音源信号6と同等となり、1から小さくしていくにつれて狭帯域音源信号6に比べてピッチ周期性が弱くなっていく。実際の音声を観察すると、周波数が高い部分ほどピッチ周期性が弱くなっていく場合がおおいので、高域を復元する場合にgを1より小さい値に設定するとより高品質な広帯域音声が復元できる。
広帯域適応音源推定手段30内の広帯域適応音源符号帳31には、過去の広帯域音源信号16が記憶されており、この信号を前記広帯域適応ラグ長33で繰り返して得られる信号を出力する。そして広帯域適応音源推定手段30内でこの信号を前記広帯域適応ゲイン34で乗算して、広帯域適応音源信号32として出力する。
最後に広帯域駆動音源信号29と広帯域適応音源信号32を加算して、広帯域音源信号16として出力する。
この様に構成する事により、狭帯域音源信号の持つピッチ周期性の強さや変動に関する特徴が、狭帯域適応ラグ長25と狭帯域適応ゲイン26によって良好に表現され、広帯域音源信号に反映されるので、様々に変化する音源を十分に推定でき、パルス的な音もなく、良好な音質の広帯域音声を復元することができる効果がある。また、話者によらずに適切な音源が推定できる効果がある。
広帯域適応音源信号32において、広帯域適応ラグ長33によって決まる基本周波数とその高調波成分の周波数が、正しく整数倍の位置に並ぶので、最終的に復元される広帯域音声信号20での狭帯域成分と復元広帯域成分のつながりが良く、高品質な広帯域音声を復元できる効果がある。
更に、周波数が高くなるにつれてピッチ周期性が弱くなっていく特徴を係数gによって導入する事ができるので、より自然な音質が得られる効果がある。
また、有声無声判定やピッチ抽出が必要なく、中間的な性質の音源も表現できるので、雑音が重畳した狭帯域音声信号に対して起こりがちな有声無声判定誤りやピッチ抽出誤りの影響がなく、有声無声境界付近でも良好な広帯域音源を推定することができ、安定で自然な音質の広帯域音声を復元することができる効果がある。
実施例3.
図5は本発明の実施例3の広帯域音声復元装置における広帯域駆動音源推定手段27の構成図である。図において新規な部分は、35のパワー算出手段、36の雑音生成手段である。その他の構成は図1および図3と同じであるので、対応部分の動作の説明を省略する。
以下、図5を用いて本発明の実施例3の図に示された部分の動作について説明する。
狭帯域駆動音源信号24が広帯域駆動音源推定手段27内のパワー算出手段35に入力される。パワー算出手段35は狭帯域駆動音源信号24のパワーを算出し、出力する。雑音生成手段36は、パワー正規化された白色雑音信号を生成し出力する。そして、広帯域駆動音源推定手段27内で、前記白色雑音信号にパワー算出手段35が出力したパワーを乗じ、得られた信号を広帯域駆動音源信号29として出力する。
ピッチ周期や周期性の強さは時々刻々変化している。狭帯域音源信号6におけるピッチ周期や周期性の強さの細かい変動分は狭帯域適応ラグ長25と狭帯域適応ゲイン26では表現できないため、その誤差が狭帯域駆動音源信号24に含まれている。実施例2のようにこの誤差成分を含む狭帯域駆動音源信号24を用いて広帯域駆動音源信号29を生成すると、広帯域駆動音源信号29に不必要な乱れが生じてしまう事があり、パワーが同じ白色雑音を生成して広帯域駆動音源信号29として用いた方が良好な復元音が得られる場合がある事を実験的に確認している。
実施例3の様に構成する事により、狭帯域駆動音源信号24とパワーが同じ白色雑音を生成して広帯域駆動音源信号29として用いているので、実施例2が持つ効果に加えて、ピッチ周期や周期性の強さの変動分による乱れの少ない良好な復元音が得られる効果がある。
また、零詰め処理を行うと4KHzを中心に対称なスペクトルが生成される。従って、この0Hzから300Hzと3.4KHzから4.0KHzの成分がない狭帯域駆動音源信号24に対して零詰めを行うと、0Hzから300Hz、3.4KHzから4.6KHz、7.7KHzから8KHzの成分がない信号が得られてしまう。これに対し、白色雑音を用いるこの構成では、0Hzから8KHzまで全ての成分を持つ広帯域駆動音源信号29が得られるので、全域にわたって帯域がある良好な復元音が得られる効果がある。特に0Hzから300Hzの復元を行う場合には効果が大きい。
実施例4.
図6は本発明の実施例4の広帯域音声復元装置における広帯域駆動音源推定手段27の構成図である。図において、28の零詰手段、35のパワー算出手段、36の雑音生成手段は実施例2および実施例3のものと同一である。その他の構成は図1および図3と同じであるので、図示以外の部分の動作の説明を省略する。
以下、図6を用いて本発明の一実施例の動作について説明する。
狭帯域駆動音源信号24が広帯域駆動音源推定手段27内の零詰手段28とパワー算出手段35に入力される。広帯域駆動音源推定手段27内の零詰手段28は、狭帯域駆動音源信号24の各サンプル値間にM−1サンプルずつ零を挿入し、得られたM倍のサンプル数の信号を出力する。ここで、Mは、復元する広帯域音声信号のサンプリング周波数を、狭帯域音声信号のサンプリング周波数で除した値であり、零を挿入する動作は前記零詰手段15と同じである。
パワー算出手段35は狭帯域駆動音源信号24のパワーを算出し、出力する。雑音生成手段36は、パワー正規化された白色雑音信号を生成し出力する。そして、零詰手段28が出力した信号にゲインgr1を乗じた信号と、雑音生成手段36が出力した白色雑音信号にパワー算出手段35が出力したパワーを乗じ、さらにゲインgr2を乗じた信号を加算して広帯域駆動音源信号29として出力する。
実施例2および実施例3による復元音が、それぞれ一長一短を有している場合、この様に構成し、gr1とgr2を適切に設定することで、両者を上回る品質の広帯域音声が復元できる得られる効果がある。なお、実施例2と実施例3と同じ効果も持っている。
実施例5.
広帯域音源信号の良好な復元が出来る他の構成を説明する。
図7は本発明の実施例5の広帯域音声復元装置における広帯域音源推定手段14の構成図である。図において新規な部分は、37の狭帯域長周期予測分析手段、38の狭帯域長周期遅延、39の狭帯域長周期予測係数、40の長周期逆フィルタ、41の狭帯域長周期予測残差信号、42の広帯域長周期予測残差推定手段、43の零詰手段、44の広帯域長周期予測パラメータ(符号)推定手段、45の広帯域長周期遅延、46の広帯域長周期予測係数、47の長周期合成フィルタ、48の広帯域長周期予測残差信号である。全体構成は、図1と同じであるので、説明を省略する。
以下、図7を用いて本発明の一実施例の動作について説明する。
狭帯域音源信号6が広帯域音源推定手段14内の音源分析手段21に入力される。音源分析手段21内の狭帯域長周期予測分析手段37は、狭帯域音源信号6に対して長周期予測分析を行い、狭帯域長周期予測符号である狭帯域長周期遅延38と狭帯域長周期予測係数39を出力する。なお、長周期予測分析については、CELP系の符号化方式でしばしば用いられていた方法であるので説明を省略する。
音源分析手段21内の長周期逆フィルタ40は、狭帯域長周期遅延38と狭帯域長周期予測係数39を用いて狭帯域音源信号6を逆フィルタリングし、得られた信号を狭帯域長周期予測残差信号41として広帯域長周期予測残差推定手段42に出力する。
広帯域長周期予測残差推定手段42内の零詰手段43は狭帯域長周期予測残差信号41の各サンプル値間にM−1サンプルずつ零を挿入し、得られたM倍のサンプル数の信号を広帯域長周期予測残差信号48として出力する。ここで、Mは、復元する広帯域音声信号のサンプリング周波数を、狭帯域音声信号のサンプリング周波数で除した値であり、零を挿入する動作は前記零詰手段15と同じである。
広帯域長周期予測パラメータ(符号)推定手段44は、狭帯域長周期遅延38をM倍して予測符号の1つである広帯域長周期遅延45を出力し、また狭帯域長周期予測係数39をg倍して他の予測符号である広帯域長周期予測係数46を出力する。gを1とすると最終的に得られる広帯域音源信号16のピッチ周期性が狭帯域音源信号6と同等となり、1から小さくしていくにつれて狭帯域音源信号6に比べてピッチ周期性が弱くなっていく。実施例2と同様に、高域を復元する場合にはgを1より小さい値に設定した方が高品質となる。
最後に、長周期合成フィルタ47は、広帯域長周期遅延45と広帯域長周期予測係数46を用いて、広帯域長周期予測残差信号48に対して長周期合成フィルタリングを行い、得られた信号を広帯域音源信号16として出力する。
この様に構成する事により、狭帯域音源信号の持つピッチ周期性の強さや変動に関する特徴が、狭帯域長周期遅延38と狭帯域長周期予測係数39によって良好に表現され、広帯域音源信号に反映されるので、様々に変化する音源を十分に推定でき、パルス的な音もなく、良好な音質の広帯域音声を復元することができる効果がある。また、話者によらずに適切な音源が推定できる効果がある。
広帯域音源信号16において、広帯域長周期遅延45によって決まる基本周波数とその高調波成分の周波数が、正しく整数倍の位置に並ぶので、最終的に復元される広帯域音声信号20での狭帯域成分と復元広帯域成分のつながりが良く、高品質な広帯域音声を復元できる効果がある。
更に、周波数が高くなるにつれてピッチ周期性が弱くなっていく特徴を係数gによって導入する事ができるので、より自然な音質が得られる効果がある。
また、有声無声判定やピッチ抽出が必要なく、中間的な性質の音源も表現できるので、雑音が重畳した狭帯域音声信号に対して起こりがちな有声無声判定誤りやピッチ抽出誤りの影響がなく、有声無声境界付近でも良好な広帯域音源を推定することができ、安定で自然な音質の広帯域音声を復元することができる効果がある。
実施例6.
図8は本発明の実施例6の広帯域音声復元装置における広帯域長周期予測残差推定手段42の構成図である。図において、35のパワー算出手段、36の雑音生成手段は実施例3のものと同一である。その他の構成は図1および図7と同じであるので、説明を省略する。
以下、図8を用いて本発明の一実施例の動作について説明する。
狭帯域長周期予測残差信号41が広帯域長周期予測残差推定手段42内のパワー算出手段35に入力される。パワー算出手段35は狭帯域長周期予測残差信号41のパワーを算出し、出力する。雑音生成手段36は、パワー正規化された白色雑音信号を生成し出力する。そして、広帯域長周期予測残差推定手段42内で、前記白色雑音信号にパワー算出手段35が出力したパワーを乗じ、得られた信号を広帯域長周期予測残差信号48として出力する。
実施例3での説明と同様に、狭帯域音源信号6におけるピッチ周期や周期性の強さの細かい変動分は狭帯域長周期遅延38と狭帯域長周期予測係数39では表現できないため、その誤差が狭帯域長周期予測残差信号41に含まれている。実施例5のようにこの誤差成分を含む狭帯域長周期予測残差信号41を用いて広帯域長周期予測残差信号48を生成すると広帯域長周期予測残差信号48に不必要な乱れが生じてしまう事があり、パワーが同じ白色雑音を生成して広帯域長周期予測残差信号48として用いた方が良好な復元音が得られる場合がある。
実施例6の様に構成する事により、狭帯域長周期予測残差信号41とパワーが同じ白色雑音を生成して広帯域長周期予測残差信号48として用いているので、実施例5が持つ効果に加えて、ピッチ周期や周期性の強さの変動分による乱れの少ない良好な復元音が得られる効果がある。
また、零詰め処理を行うと4KHzを中心に対称なスペクトルが生成されるので、この0Hzから300Hzと3.4KHzから4.0KHzの成分がない狭帯域長周期予測残差信号41に対して行うと、0Hzから300Hz、3.4KHzから4.6、KHz7.7KHzから8KHzの成分がない信号が得られてしまう。これに対し、白色雑音を用いるこの構成では、0Hzから8KHzまで全ての成分を持つ広帯域長周期予測残差信号48が得られるので、不足する帯域がない良好な復元音が得られる効果がある。特に0Hzから300Hzの復元を行う場合には効果が大きい。
実施例7.
図9は本発明の実施例7の広帯域音声復元装置における広帯域長周期予測残差推定手段42の構成図である。図において、43の零詰手段、35のパワー算出手段、36の雑音生成手段は実施例5および実施例6のものと同一である。その他の構成は図1および図7と同じであるので、説明を省略する。
以下、図9を用いて本発明の一実施例の動作について説明する。
狭帯域長周期予測残差信号41が広帯域長周期予測残差推定手段42内の零詰手段43とパワー算出手段35に入力される。広帯域長周期予測残差推定手段42内の零詰手段43は、狭帯域長周期予測残差信号41の各サンプル値間にM−1サンプルずつ零を挿入し、得られたM倍のサンプル数の信号を出力する。ここで、Mは、復元する広帯域音声信号のサンプリング周波数を、狭帯域音声信号のサンプリング周波数で除した値であり、零を挿入する動作は前記零詰手段15と同じである。
パワー算出手段35は狭帯域長周期予測残差信号41のパワーを算出し、出力する。雑音生成手段36は、パワー正規化された白色雑音信号を生成し出力する。そして、零詰手段43が出力した信号にゲインgr1を乗じた信号と、雑音生成手段36が出力した白色雑音信号にパワー算出手段35が出力したパワーを乗じ、さらにゲインgr2を乗じた信号を加算して広帯域長周期予測残差信号48として出力する。
実施例5および実施例6による復元音が、それぞれ一長一短を有している場合、この様に構成し、gr1とgr2を適切に設定することで、両者を上回る品質の広帯域音声が復元できる得られる効果がある。なお、実施例5と実施例6と同じ効果も持っている。
実施例8.
図10は本発明の実施例8の広帯域音声復元装置における広帯域音源推定手段14の構成図である。図において新規な部分は、49のアップサンプリング手段、50の零化手段である。全体構成は、図1と同じであるので、説明を省略する。
以下、図10を用いて本発明の一実施例の動作について説明する。
狭帯域音源信号6がアップサンプリング手段49に入力される。アップサンプリング手段49は、狭帯域音源信号6をM倍にアップサンプリングして、得られた信号を音源分析手段21に出力する。
音源分析手段21内の狭帯域長周期予測分析手段37は、アップサンプリング手段49の出力信号に対して長周期予測分析を行い、狭帯域長周期遅延38と狭帯域長周期予測係数39を出力する。なお、長周期予測分析における遅延探索範囲が実施例5の場合のM倍になる。
音源分析手段21内の長周期逆フィルタ40は、狭帯域長周期遅延38と狭帯域長周期予測係数39を用いて、アップサンプリング手段49の出力信号を逆フィルタリングし、得られた信号を狭帯域長周期予測残差信号41として広帯域長周期予測残差推定手段42に出力する。
広帯域長周期予測残差推定手段42内の零化手段50は、狭帯域長周期予測残差信号41のMサンプル置きの信号のみを残し、残りの信号の値を零とする。そして、得られた信号を広帯域長周期予測残差信号48として出力する。
広帯域長周期予測パラメータ推定手段44は、狭帯域長周期遅延38をそのまま広帯域長周期遅延45として出力し、狭帯域長周期予測係数39をg倍して広帯域長周期予測係数46として出力する。gについては実施例5と同様である。
最後に、長周期合成フィルタ47は、広帯域長周期遅延45と広帯域長周期予測係数46を用いて、広帯域長周期予測残差信号48に対して長周期合成フィルタリングを行い、得られた信号を広帯域音源信号16として出力する。
この様に構成する事により、高いサンプリング周波数の信号に対して長周期分析が行えるので、より精度の高い遅延が分析できるようになり、狭帯域音源信号の持つピッチ周期性の強さや変動に関する特徴をより細かく広帯域音源信号に反映することが可能となり、様々に変化する音源を十分に推定でき、良好な音質の広帯域音声を復元することができる効果がある。なお、実施例5と同じ効果も持っている。
実施例9.
図11は本発明の実施例9の広帯域音声復元装置の構成図である。図において新規な部分は、51の狭帯域パワー算出手段、52の狭帯域音源パワー、53の狭帯域パワー込みスペクトル符号帳である。その他は、前記したものと同じであるので、動作に若干の差異があるものだけ説明を行う。
以下、図11を用いて本発明の一実施例の動作について説明する。
分析手段2内の狭帯域パワー算出手段51は、狭帯域音源信号6の振幅情報に含まれるパワーを算出して狭帯域音源パワー52として出力する。この他にスペクトルパラメータ4と、狭帯域音源信号6も出力する。
広帯域スペクトル推定手段7内のベクトル量子化手段8は、狭帯域パワー込みスペクトル符号帳53を用いて、狭帯域スペクトルパラメータ4と狭帯域音源パワー52を一括してベクトル量子化し、得られたスペクトル符号10を広帯域スペクトル推定手段7内の逆量子化手段11に出力する。
ここで、狭帯域パワー込みスペクトル符号帳53は、多くの狭帯域音声信号を分析して得られた狭帯域スペクトルパラメータと狭帯域音源パワーの対を学習データとして、文献1と同様な方法で作成する。狭帯域パワー込みスペクトル符号帳53の学習時とベクトル量子化手段8における距離尺度としては、パワーの対数値のユークリッド距離をw倍したものとスペクトルパラメータのユークリッド距離を加算したものを用いることができる。
なお、狭帯域パワー算出手段51が狭帯域音源信号6ではなく、狭帯域音声信号1のパワーを算出して、これを上記狭帯域音源パワー52の代わりに用いる事もできる。この場合には、狭帯域スペクトルパラメータと狭帯域音声信号のパワーの対を学習データとして、狭帯域パワー込みスペクトル符号帳53の学習を行う。
この様に構成する事により、実施例1が持つ効果に加えて、広帯域のスペクトルパラメータの推定にパワーに関する情報が反映され、より安定に良好なスペクトルが推定できる効果がある。
実施例10.
図12は本発明の実施例10の広帯域音声復元装置の構成図である。図において新規な部分は、54の音源正規化手段、55の狭帯域正規化音源信号、56の広帯域正規化音源信号、57の広帯域パワー符号帳、58の広帯域音源パワー、広帯域スペクトル推定手段に含まれる59の広帯域音源パワー推定手段である。その他は、前記したものと同じであるので、説明を省略する。
以下、図12を用いて本発明の一実施例の動作について説明する。
分析手段2内の音源正規化手段54は、狭帯域音源信号6の振幅情報に含まれるパワーを算出して狭帯域音源パワー52として広帯域音源パワー推定手段59に出力するとともに、狭帯域音源信号6のパワーを正規化した信号を狭帯域正規化音源信号55として広帯域音源推定手段14に出力する。
実際には広帯域スペクトル推定手段7内にある広帯域音源パワー推定手段59中のベクトル量子化手段8は、狭帯域パワー込みスペクトル符号帳53を用いて、狭帯域スペクトルパラメータ4と狭帯域音源パワー52を一括してベクトル量子化し、得られたスペクトル符号10を広帯域音源パワー推定手段59内の逆量子化手段11に出力する。逆量子化手段11は、広帯域パワー符号帳57を用いてスペクトル符号10を復号し、得られた広帯域音源パワー58を出力する。
広帯域音源推定手段14は、狭帯域正規化音源信号54を用いて、広帯域正規化音源信号56を推定する。なお、広帯域スペクトル推定手段7と広帯域音源推定手段14における推定には、実施例1ないし実施例8と同様な方法を用いる事ができる。そして、この広帯域正規化音源信号56に前記広帯域音源パワー58を乗じて広帯域音源信号16を生成する。
この様に構成する事により、実施例1が持つ効果に加えて、広帯域音源パワーの推定にスペクトルパラメータの違いを反映させる事ができるので、より正しい振幅を持った広帯域音声が復元できる効果がある。
実施例11.
図13は本発明の実施例11の広帯域音声復元装置の構成図である。図において新規な部分は、60の広帯域パワー込みスペクトル符号帳である。その他は、図11および図12と同じであるので、動作に若干の差異があるものだけ説明を行う。
以下、図13を用いて本発明の一実施例の動作について説明する。
広帯域スペクトル推定手段7内の逆量子化手段11は、広帯域パワー込みスペクトル符号帳60を用いてスペクトル符号10を復号し、得られた広帯域スペクトルパラメータ13と広帯域音源パワー58を出力する。
ここで、広帯域パワー込みスペクトル符号帳60は、多くの広帯域音声信号を分析して得られた広帯域スペクトルパラメータと広帯域音源パワーの対を学習データとして、文献1と同様な方法で作成する。距離尺度には、狭帯域パワー込みスペクトル符号帳53の作成に用いたものと同じものを用いる。
この様に構成する事により、実施例9と実施例10が持つ効果を合わせ持つ事ができる。
実施例12.
図14は本発明の実施例12の広帯域音声復元装置の構成図である。図において新規な部分は、61のポストフィルタ手段である。その他は、実施例1ないし実施例11と同じであり、説明を省略する。
以下、図14を用いて本発明の一実施例の動作について説明する。
ポストフィルタ手段61は、合成フィルタ17が出力した仮の広帯域音声信号に対してポストフィルタリング処理を行い、得られた信号を帯域フィルタ18に出力する。帯域フィルタ18は、ポストフィルタ手段61が出力した信号に対して、帯域通過フィルタ処理を行い、狭帯域音声の成分のある帯域以外の成分を抽出する。
なお、ポストフィルタリング処理は、聴感的品質を改善する信号加工処理のことで、ピッチ周期性やスペクトルの極を強調したり、高域を強調して明瞭性を改善したり、伝送路を通す際に発生する歪が多い帯域を抑圧して歪感を低減するものである。
ピッチ周期性の強調処理としては、ピッチ周期だけ前の仮の広帯域音声信号に1より小さい係数を乗じて現在の仮の広帯域音声信号に加算する方法が一般的である。
極強調処理としては、広帯域スペクトルパラメータ13を変形して、広帯域スペクトルパラメータ13の持つ極周波数近傍の周波数帯域に大きなゲインを持ち、広帯域スペクトルパラメータ13の持つ極近傍以外の周波数帯域に小さいゲインを持つ極零型のフィルタのフィルタ係数を算出する方法が各種提案されており、このフィルタを仮の広帯域音声信号に掛けることで実現できる。また、伝送路を通す際に発生する歪は振幅の小さい周波数帯域、つまり極近傍以外の周波数帯域に多いので、この極強調処理により歪が多い帯域を抑圧する事もできる。
高域強調処理としては、プリエンファシスと呼ばれる方法、すなわち1点前の仮の広帯域音声信号に1以下の係数を乗じて現在の仮の広帯域音声信号から減算する方法が一般的である。
また、図14において、ポストフィルタ手段61と帯域フィルタ18が逆の位置でも構わないし、広帯域音声信号20に対してポストフィルタ手段61をかける構成でも構わない。
この様に構成する事で、実施例1が持つ効果に加えて、復元された広帯域音声信号の音質が不足する場合に、広帯域音声信号のピッチ周期性やスペクトルの極を強調したり、高域を強調して明瞭性を改善したり、伝送路を通す際に発生する歪が多い帯域を抑圧して歪感を低減することができる効果がある。
なお、図14において逆フィルタ5と広帯域音源推定手段14を外した構成も可能である。この構成は、文献1に本発明を適用したものに相当し、上記と同様の効果がある。
実施例13.
実施例1ないし実施例12における広帯域スペクトル推定手段7が、狭帯域スペクトルパラメータ4をそのまま広帯域スペクトルパラメータ13として出力する構成も可能である。
図15は、この場合の狭帯域スペクトルと広帯域スペクトルの概形の関係を説明する説明図である。狭帯域スペクトルパラメータ4が表すスペクトル包絡が図15(a)である場合、これをそのまま広帯域スペクトルパラメータ13として用いると、結果的にその幅が伸張し、広帯域スペクトルパラメータ13が表すスペクトル包絡は図15(a)を周波数軸方向にM倍に引き伸ばした形で、Mが2の時には図15(b)のようになる。従って、狭帯域スペクトル包絡の2KHzから3.4KHzが高い場合には復元される3.4KHz以上の高域も高くなり、逆に2KHzから3.4KHzが低い場合には高域も低くなり、この結果狭帯域スペクトル包絡のおおまかな傾斜がそのまま高域に反映される事となる。
この様に構成する事で、実施例1が持つ効果に加えて、おおまかではあるが、極めて簡単に広帯域スペクトルを復元できる効果がある。実施例1に比べて、符号帳を蓄積しておくメモリが不必要で、演算量が少なくなる効果がある。
実施例14.
実施例1ないし実施例12において、広帯域スペクトル推定手段7が、狭帯域スペクトルパラメータ4の最低次から所定次数までを広帯域スペクトルパラメータ13として出力する構成も可能である。ただし、スペクトル分析手段3が出力する狭帯域スペクトルパラメータ4としては、PARCOR係数や自己相関係数のように最低次から所定次数までを取り出したものを広帯域スペクトルパラメータ13としてもちいても合成が常に安定なパラメータである場合に限られる。
図16は、この場合の狭帯域スペクトルと広帯域スペクトルの概形の関係を説明する説明図である。狭帯域スペクトルパラメータ4が表すスペクトル包絡が図16(a)である場合、これの最低次から所定次数までを広帯域スペクトルパラメータ13として用いると、広帯域スペクトルパラメータ13が表すスペクトル包絡は図16(a)を周波数軸方向にM倍に引き伸ばして更に極構造をなめらかにした形となり、Mが2の時には図16(b)のようになる。この結果狭帯域スペクトル包絡のおおまかな傾斜がそのまま高域に反映され、かつ存在しない強い極が高域に生成され、不自然な復元音が発生することを抑えることができる。
この様に構成する事で、実施例13が持つ効果に加えて、実施例13の場合にまれにおこる、存在しない強い極が高域に生成されて不自然な復元音の発生を抑える事ができる効果がある。
実施例15.
図17は本発明の実施例15の広帯域音声復元装置の広帯域スペクトル推定手段7の構成図である。図において新規な部分は、62のスペクトルパラメータ変換手段、63の次数低減手段、64のスペクトルパラメータ逆変換手段である。その他は、実施例1ないし実施例12と同じであり、説明を省略する。
以下、図17を用いて本発明の一実施例の動作について説明する。
広帯域スペクトル推定手段7内のスペクトルパラメータ変換手段62は、狭帯域スペクトルパラメータ4を、PARCOR係数や自己相関係数のように最低次から所定次数までを取り出した場合に合成が常に安定なパラメータに変換する。次数低減手段63は、スペクトルパラメータ変換手段62が出力したパラメータの最低次から所定次数までを取り出したものをスペクトルパラメータ逆変換手段64に出力する。スペクトルパラメータ逆変換手段64は、次数低減手段63の出力したパラメータを狭帯域スペクトルパラメータ4と同じ領域に戻し、広帯域スペクトルパラメータ13として出力する。
この様に構成する事で、狭帯域スペクトルパラメータ4が、最低次から所定次数までを取り出した場合に合成が不安定になるパラメータである場合でも、実施例14と同じ効果が得られる。
実施例16.
実施例14および実施例15では、次数低減によって強い極を抑制したが、スペクトルパラメータとして自己相関係数を用いてこれにラグ窓をかける等、類似の効果を与える方法を用いる事ができる。
この様に構成する事で、実施例14と同じ効果が別の手段で得られる効果がある。
なお、上記実施例13ないし16の広帯域スペクトル推定手段7を、文献1等の従来構成に適用する事も可能である。例えば文献1に適用する場合の全体構成は、図14から逆フィルタ5、広帯域音源推定手段14、ポストフィルタ手段61を外したものとなる。この様に構成した場合には、実施例13ないし16にて新たに発生した効果を従来技術に付加する事ができる。
実施例17.
以下の実施例では、伝送等による符号化情報を基に広帯域音声を復元する装置に対して本発明を適用する例を説明する。
図18は本発明の実施例17の広帯域音声復元装置の構成図である。図において、101は狭帯域音声符号、102は分離手段、103は狭帯域スペクトル符号、104は狭帯域音源符号、105は広帯域スペクトル復号手段、106は広帯域音源復号手段、107は狭帯域スペクトル復号手段、108は狭帯域音源復号手段、109は狭帯域音声復号手段である。その他は、実施例1ないし実施例16と同じであり、説明を省略する。
本実施例においても、再分析を行わずに良好な広帯域音源信号を得る構成となっている。
以下、図18を用いて本発明の一実施例の動作について説明する。
まず、狭帯域音声符号101が、分離手段102と狭帯域音声復号手段109に入力される。この狭帯域音声符号101は、例えば8KHzでサンプリングされ、300Hzから3.4KHzの電話帯域に制限された狭帯域音声信号が別途符号化されたものであり、蓄積メディアや通信路から入力されて来るものである。
分離手段102では、狭帯域音声符号101を狭帯域スペクトル符号103と狭帯域音源符号104に分離して、狭帯域スペクトル符号103を広帯域スペクトル復号手段105に、狭帯域音源符号104を広帯域音源復号手段106に出力する。
広帯域スペクトル復号手段105内の狭帯域スペクトル復号手段107は、狭帯域スペクトル符号103を復号して、得られた狭帯域スペクトルパラメータ4を出力する。なお、狭帯域スペクトル復号手段107は、狭帯域音声符号101が符号化された時に用いられた狭帯域スペクトルパラメータの符号化処理の逆の処理を行えば良い。
そして、広帯域スペクトル復号手段105内の広帯域スペクトル推定手段7が、前記狭帯域スペクトルパラメータ4を用いて広帯域スペクトルパラメータ13を推定する。なお、広帯域スペクトル推定手段7としては、これまで説明を行った実施例に記載されている方法を用いる事ができる。
広帯域音源復号手段106内の狭帯域音源復号手段108は、前記狭帯域音源符号104を復号して、得られた狭帯域音源信号6を出力する。そして、広帯域音源復号手段106内の広帯域音源推定手段14が、前記狭帯域音源信号6を用いて広帯域音源信号16を推定する。
なお、広帯域音源推定手段14には、零詰手段等を用いる事ができる。狭帯域音源復号手段108では、狭帯域音声符号101が符号化された時に用いられた狭帯域音源信号の符号化処理の逆の処理を行えば良い。
合成フィルタ17は、広帯域スペクトルパラメータ13を用いて広帯域音源信号16に合成フィルタ処理を行い仮の広帯域音声信号を生成する。帯域フィルタ18は、この仮の広帯域音声信号に対して、帯域通過フィルタ処理を行い、狭帯域音声の成分のある帯域以外の成分を抽出する。広帯域音声信号の帯域が0Hzから7.3KHzの場合、0Hzから300Hzと3.4KHzから7.3KHzの成分が抽出される。
一方、狭帯域音声復号手段109は、入力した狭帯域音声符号101を復号して、得られた狭帯域音声信号1をアップサンプリング手段19に出力する。この復号処理は、狭帯域音声符号101が符号化された時に用いられた符号化処理の逆の処理を行えば良い。
次に、アップサンプリング手段19は、狭帯域音声信号1をM倍にアップサンプリングする。アップサンプリングによって生成される信号は、サンプリング周波数が広帯域音声信号20と同じで、狭帯域音声信号1と同じ狭帯域成分を持つものである。そして、帯域フィルタ18の出力とアップサンプリング手段19の出力を加算して広帯域音声信号20を生成する。
この様に構成する事により、蓄積メディアや通信路から狭帯域音声符号を受信した場合、狭帯域音声を再分析する必要がないので少ない処理量で復元ができる効果がある。また、合成時の補間や分析時の窓掛等による歪が重畳しないので、より良い品質の広帯域音声が復元できる効果がある。なお、実施例1と同じ効果も持っている。
なお、狭帯域音声復号手段109は、狭帯域スペクトルパラメータ4と狭帯域音源信号6を入力して、狭帯域音声信号1を合成する構成でも良いし、逆に狭帯域音声復号手段109内の復号過程の中間パラメータとして算出される狭帯域スペクトルパラメータ4と狭帯域音源信号6を広帯域スペクトル復号手段105と広帯域音源復号手段106に入力する構成も可能である。この場合、重複している処理を省く事ができ、更に少ない処理量で広帯域音声が復元できる効果がある。
また、狭帯域音声符号101から、ピッチ周期符号とパワー符号が分離できる場合には、これらの符号からピッチ周期とパワー情報を復号して、前記広帯域スペクトルパラメータ13とこのピッチ周期とパワー情報を用いて文献1と同じ方法で仮の広帯域合成音を生成する構成も可能である。
実施例18.
図19は本発明の実施例18の広帯域音声復元装置の広帯域音源復号手段106の構成図である。図において新規な部分は、110の狭帯域ピッチ符号、111の狭帯域パワー符号、112の広帯域ピッチ復号手段、113の広帯域ピッチ周期、114の広帯域パワー復号手段、115の広帯域パワー、116の音源生成手段である。その他は、実施例17と同じであり、説明を省略する。
この実施例は、前記分離手段102にて簡単に狭帯域ピッチ符号110と狭帯域パワー符号111が分離できるような狭帯域音声符号101が入力される場合に限られる。この場合には図19の構成が意味を持つ。
以下、図19を用いて本発明の一実施例の動作について説明する。
狭帯域音源符号104として、狭帯域ピッチ符号110と狭帯域パワー符号111が広帯域音源復号手段106に入力される。
広帯域音源復号手段106内の広帯域ピッチ復号手段112は、狭帯域ピッチ符号110を用いて広帯域ピッチ周期113を推定する。推定の方法としては、狭帯域ピッチ符号110から狭帯域ピッチ周期を復号してその値をM倍してもよいが、その結果をテーブルとして持っておいて狭帯域ピッチ符号110に対応するテーブル成分を読みだす事で求めてもよい。
次に、広帯域音源復号手段106内の広帯域パワー復号手段114は、狭帯域パワー符号111を用いて広帯域パワー115を推定する。推定の方法としては、狭帯域パワー符号111から狭帯域パワーを復号してその値をg倍してもよいが、その結果をテーブルとして持っておいて狭帯域パワー符号111に対応するテーブル成分を読みだす事で求めてもよい。
音源生成手段116は、前記広帯域ピッチ周期113を繰り返し周期として、固定音源を並べ立てた信号を出力し、最後にこの音源生成手段116の出力信号に広帯域パワー115を乗じて、広帯域音源信号16として出力する。
この様に構成する事により、実施例17が持つ効果に加えて、狭帯域音源信号の復号を行わずに直接広帯域音源信号16が生成されるので、少ない処理量で復元ができる効果がある。
実施例19.
図20は本発明の実施例19の広帯域音声復元装置の広帯域音源復号手段106の構成図である。図において新規な部分は、117の狭帯域適応音源符号、118の狭帯域駆動音源符号、119の広帯域適応音源復号手段、120の広帯域駆動音源復号手段、121の狭帯域適応音源復号手段、122の狭帯域駆動音源復号手段である。その他は、前記したものと同じであり、説明を省略する。
この実施例は、前記分離手段102にて入力の狭帯域音声符号から簡単に狭帯域適応音源符号117と狭帯域駆動音源符号118が分離できるような狭帯域音声符号101が入力される場合に限られる。この場合には図20の構成が意味を持つ。
以下、図20を用いて本発明の一実施例の動作について説明する。
狭帯域音源符号104として、狭帯域適応音源符号117と狭帯域駆動音源符号118が広帯域音源復号手段106に入力される。
広帯域適応音源復号手段119内の狭帯域適応音源復号手段121は、前記狭帯域適応音源符号117を復号して、得られた狭帯域適応ラグ長25と狭帯域適応ゲイン26を出力する。広帯域適応音源復号手段119内の広帯域適応音源推定手段30は、この狭帯域適応ラグ長25と狭帯域適応ゲイン26から、広帯域適応音源信号32を生成し、出力する。広帯域適応音源推定手段30の動作については、実施例2と同様である。
広帯域駆動音源復号手段120内の狭帯域駆動音源復号手段122は、前記狭帯域駆動音源符号118を復号して、得られた狭帯域駆動音源信号24を出力する。広帯域駆動音源復号手段120内の広帯域駆動音源推定手段27は、この狭帯域駆動音源信号24から広帯域駆動音源信号29を推定し、出力する。広帯域駆動音源推定手段27の動作は、実施例2ないし実施例4と同様である。
最後に、広帯域適応音源信号32と広帯域駆動音源信号29を加算して、広帯域音源信号16として出力する。
この様に構成する事により、実施例2ないし実施例4および実施例17が持つ効果に加えて、狭帯域音源信号の復号を行わずに直接広帯域音源信号16が生成されるので、少ない処理量で復元ができる効果がある。
更に、基本周波数とその高調波成分の周波数が正しく整数倍の位置に並ぶので、最終的に復元される広帯域音声信号での狭帯域成分と復元広帯域成分のつながりが良く、高品質な広帯域音声を復元できる効果がある。
また、有声無声情報やピッチ周期情報を用いないので、中間的な性質の音源も表現できるので、雑音が重畳した狭帯域音声信号に対して起こりがちな有声無声判定誤りやピッチ抽出誤りの影響がなく、有声無声境界付近でも良好な広帯域音源を推定することができ、安定で自然な音質の広帯域音声を復元することができる効果がある。
実施例20.
図21は本発明の実施例20の広帯域音声復元装置の広帯域音源復号手段106の構成図である。図において新規な部分は、123の狭帯域長周期予測符号、124の広帯域長周期予測パラメータ(符号)復号手段、125の狭帯域長周期予測パラメータ(符号)復号手段、126の狭帯域長周期予測残差符号、127の広帯域長周期予測残差復号手段、128の狭帯域長周期予測残差復号手段である。その他は、前記したものと同じであり、説明を省略する。
この実施例は、前記分離手段102にて入力の狭帯域音声符号から簡単に狭帯域長周期予測符号123と狭帯域長周期予測残差符号126が分離できるような狭帯域音声符号101が入力される場合に限られる。この場合には図21の構成が意味を持つ。
以下、図21を用いて本発明の一実施例の動作について説明する。
狭帯域音源符号104として、狭帯域長周期予測符号123と狭帯域長周期予測残差符号126が広帯域音源復号手段106に入力される。
広帯域長周期予測パラメータ(符号)復号手段124内の狭帯域長周期予測パラメータ復号手段125は、前記狭帯域長周期予測符号123を復号して、得られた予測符号の1つである狭帯域長周期遅延38と、他の予測符号である狭帯域長周期予測係数39を出力する。広帯域長周期予測パラメータ復号手段124内の広帯域長周期予測パラメータ推定手段44は、この狭帯域長周期遅延38と狭帯域長周期予測係数39から、長周期予測符号の1つである広帯域長周期遅延45と、他の長周期予測符号の1つである広帯域長周期予測係数46を推定し、出力する。広帯域長周期予測パラメータ推定手段44の動作については、実施例5と同様である。
広帯域長周期予測残差復号手段127内の狭帯域長周期予測残差復号手段128は、前記狭帯域長周期予測残差符号126を復号して、得られた狭帯域長周期予測残差信号41を出力する。広帯域長周期予測残差復号手段127内の広帯域長周期予測残差推定手段42は、この狭帯域長周期予測残差信号41から広帯域長周期予測残差信号48を推定し、出力する。広帯域長周期予測残差推定手段42の動作は、実施例5ないし実施例7と同様である。
最後に、長周期合成フィルタ47は、広帯域長周期遅延45と広帯域長周期予測係数46を用いて、広帯域長周期予測残差信号48に対して長周期合成フィルタリングを行い、得られた信号を広帯域音源信号16として出力する。
この様に構成する事により、実施例5ないし実施例7および実施例17が持つ効果に加えて、狭帯域音源信号の復号を行わずに直接広帯域音源信号16が生成されるので、少ない処理量で復元ができる効果がある。
実施例21.
実施例17ないし実施例20では、狭帯域スペクトル符号103から狭帯域スペクトルパラメータ4を復号した後に広帯域スペクトルパラメータ13の推定を行っているが、狭帯域スペクトル符号103によって広帯域スペクトル符号帳を参照する事で直接広帯域スペクトルパラメータ13を算出する構成も可能である。
この様に構成する事により、実施例17ないし実施例20が持つ効果に加えて、更に少ない処理量で復元ができる効果がある。
実施例22.
図22は本発明の一実施例である広帯域音声復元装置の構成図である。図において新規な部分は、129の狭帯域パワー復号手段、130の広帯域正規化音源復号手段である。
広帯域スペクトル推定手段7は実施例11と同じであり、その他は前記したものと同じであり、説明を省略する。
以下、図22を用いて本発明の一実施例の動作について説明する。
狭帯域パワー復号手段129は、狭帯域音源符号104の中に含まれる狭帯域振幅情報からパワーに関する部分を復号して、得られた狭帯域音源パワー52を広帯域スペクトル推定手段7に対して出力する。広帯域スペクトル推定手段7は、狭帯域スペクトルパラメータ4と狭帯域音源パワー52を用いて、広帯域スペクトルパラメータ13と広帯域音源パワー58を推定する。
広帯域正規化音源復号手段130は、狭帯域音源符号104の中に含まれる狭帯域パワーに関する部分以外を用いて、パワーが正規化された広帯域の音源信号を推定し、広帯域正規化音源信号56として出力する。この広帯域正規化音源復号手段130における処理には、実施例18ないし実施例20と同様なものを用いる事ができる。そして、この広帯域正規化音源信号56に前記広帯域音源パワー58を乗じて広帯域音源信号16を生成する。
この様に構成する事により、実施例11および実施例18ないし実施例20が持つ効果を合わせ持つ事ができる。なお、実施例9や実施例10のように広帯域スペクトル推定手段7が広帯域スペクトルパラメータ13もしくは広帯域音源パワー58の一方だけを推定する構成も可能である。
実施例23.
実施例17ないし実施例22において、合成フィルタ17と帯域フィルタ18の間にポストフィルタ手段61を挿入した構成も可能である。また、ポストフィルタ手段61と帯域フィルタ18が逆の位置の構成も可能であるし、広帯域音声信号20に対してポストフィルタ手段61をかける構成も可能である。
この様に構成する事により、狭帯域音声復号手段109内でポストフィルタ処理が行なわれる場合に、狭帯域部と復元した帯域の連続性を良くする事ができる。また、実施例12および実施例17ないし実施例22が持つ効果を合わせ持つ事ができる。
実施例24.
図18から広帯域音源復号手段106を外した構成において、合成フィルタ17と帯域フィルタ18の間にポストフィルタ手段61を挿入した構成も可能である。また、ポストフィルタ手段61と帯域フィルタ18が逆の位置の構成も可能であるし、広帯域音声信号20に対してポストフィルタ手段61をかける構成も可能である。
この構成は、文献1に本発明の実施例17に実施例12を適用したものに相当し、狭帯域音声復号手段109内でポストフィルタ処理が行なわれる場合に、狭帯域部と復元した帯域の連続性を良くする事ができる効果がある。
以下に、各実施例の特徴をまとめて記載する。
前述した広帯域音声復元装置は、狭帯域音声信号を分析して狭帯域スペクトルパラメータと狭帯域音源信号を得る分析手段と、この狭帯域スペクトルパラメータを用いて広帯域スペクトルパラメータを推定するスペクトル推定手段と、狭帯域音源信号を用い広帯域音源信号を推定する広帯域音源推定手段と、この推定された広帯域スペクトルパラメータと広帯域音源信号とから広帯域音声信号を生成する合成手段を備えた。
また更に、広帯域音源推定手段として、入力の狭帯域音源信号の各サンプル間隔中に所定の零値を挿入する零詰手段を用いた。
また、広帯域音源推定手段は、入力の狭帯域音源信号を分析して狭帯域適応音源符号と狭帯域駆動音源信号を得る音源分析手段と、この狭帯域適応音源符号を用いて広帯域適応音源信号を推定する適応音源推定手段と、狭帯域駆動音源信号を用いて広帯域駆動音源信号を推定する駆動音源推定手段と、この推定された広帯域適応音源信号と広帯域駆動音源信号とから広帯域音源信号を生成する加算手段とで構成した。
または、広帯域音源推定手段は、入力の狭帯域音源信号を分析して狭帯域長周期予測符号と狭帯域長周期予測残差信号を得る音源分析手段と、この狭帯域長周期予測残差信号を用いて広帯域長周期予測残差信号を推定する長周期予測残差推定手段と、狭帯域長周期予測符号を用いて広帯域長周期予測符号を推定する広帯域長周期予測符号推定手段と、これら推定された広帯域長周期予測残差信号と広帯域長周期予測符号とから広帯域音源信号を合成する長周期合成手段とで構成した。
他の広帯域音声復元装置は、狭帯域音声信号を分析して狭帯域スペクトルパラメータと狭帯域振幅情報とを得る分析手段と、この狭帯域スペクトルパラメータと狭帯域振幅情報を用いて少なくとも広帯域スペクトルパラメータまたは広帯域振幅情報を推定するスペクトル推定手段と、これら推定された広帯域スペクトルパラメータと広帯域振幅情報または広帯域音源信号とから広帯域音声信号を生成する合成手段を備えた。
または、狭帯域音声信号を用いて広帯域音声信号を推定する広帯域推定手段と、推定された広帯域音声信号に対してポストフィルタリングを行うポストフィルタ手段を備えた。
または、狭帯域音声信号を分析して狭帯域スペクトルパラメータを得る分析手段と、狭帯域スペクトルパラメータをそのまま広帯域スペクトルパラメータとして用いて広帯域スペクトルパラメータを出力するスペクトル推定手段と、この出力された広帯域スペクトルパラメータから広帯域音声信号を生成する合成手段を備えた。
または、狭帯域音声信号を分析して狭帯域スペクトルパラメータを得る分析手段と、狭帯域スペクトルパラメータを必要に応じて別領域に変換し、変形を行い、スペクトルパラメータの領域に逆変換して広帯域スペクトルパラメータを出力するスペクトル推定手段と、この出力された広帯域スペクトルパラメータから広帯域音声信号を生成する合成手段を備えた。
他の広帯域音声復元装置は、狭帯域音声符号から広帯域スペクトルパラメータを推定するスペクトル復号手段と、この推定された広帯域スペクトルパラメータから広帯域音声信号を生成する合成手段を備えた。
または、狭帯域音声符号から分離された狭帯域スペクトル符号を用いて広帯域スペクトルパラメータを推定するスペクトル復号手段と、狭帯域音声符号から分離された狭帯域音源符号を用いて広帯域音源信号を推定する広帯域音源復号手段と、この推定された広帯域スペクトルパラメータと広帯域音源信号とから広帯域音声信号を生成する合成手段を備えた。
また更に、広帯域音源復号手段として、狭帯域音源符号から復元した狭帯域音源信号の各サンプル間隔中に所定の零値を挿入する零詰手段を用いた。
または、広帯域音源復号手段は、入力の狭帯域音声符号から分離した狭帯域適応音源符号を用いて広帯域適応音源信号を推定する広帯域適応音源復号手段と、入力の狭帯域音声符号から分離した狭帯域駆動音源符号を用いて広帯域駆動音源信号を推定する広帯域駆動音源復号手段と、これらの推定された広帯域適応音源信号と広帯域駆動音源信号とから広帯域音源信号を生成する加算手段とで構成した。
または、広帯域音源復号手段は、入力の狭帯域音声符号から分離した狭帯域長周期予測符号を用いて広帯域長周期予測符号を推定する広帯域長周期予測符号復号手段と、入力の狭帯域音声符号から分離した狭帯域長周期予測残差符号を用いて広帯域長周期予測残差信号を推定する広帯域長周期予測残差復号手段と、これら推定された広帯域長周期予測符号と広帯域長周期予測残差信号とから広帯域音源信号を生成する加算手段とで構成した。
または、狭帯域音声符号から分離された狭帯域音源符号を用いて狭帯域振幅情報を推定する狭帯域振幅情報復号手段と、狭帯域音声符号から分離された狭帯域スペクトル符号と狭帯域振幅情報を用いて少なくとも広帯域スペクトルパラメータまたは広帯域振幅情報を推定するスペクトル復号手段と、この推定された広帯域スペクトルパラメータと必要に応じて広帯域振幅情報または広帯域音源信号とから広帯域音声信号を生成する合成手段を備えた。
または、狭帯域音声符号を用いて広帯域音声信号を推定する広帯域音声復号手段と、この復号し推定された広帯域音声信号に対してポストフィルタリングを行うポストフィルタ手段を備えた。
前述した広帯域音声復元装置は、狭帯域スペクトルパラメータを用いて推定した広帯域スペクトルパラメータと、狭帯域音源信号を用いて推定した広帯域音源信号とから広帯域音声信号が合成される。
また、狭帯域音源信号の各サンプル間に所定個ずつの零を挿入する事で広帯域音源信号が生成され、これと推定した広帯域スペクトルとを用いて広帯域音声信号が合成される。
また、広帯域音源信号の推定にあたっては、入力の狭帯域音源信号を分析して狭帯域適応音源符号と狭帯域駆動音源信号が算出され、この狭帯域適応音源符号を用いて推定した広帯域適応音源信号と、狭帯域駆動音源を用いて推定した広帯域駆動音源信号とを加算して広帯域音源信号とした。これと推定した広帯域スペクトルとを用いて広帯域音声信号が合成される。
また、他の広帯域音源信号の推定のやり方として、入力狭帯域音源信号を分析して狭帯域長周期予測符号と狭帯域長周期残差信号が算出され、狭帯域長周期予測符号を用いて推定した広帯域長周期予測符号と、狭帯域長周期残差信号を用いて推定した広帯域長周期残差信号とを用いて広帯域音源信号とした。これと推定した広帯域スペクトルとを用いて広帯域音声信号が合成される。
また、他の広帯域音声復元装置は、狭帯域音声信号を分析して狭帯域スペクトルパラメータと狭帯域振幅情報と狭帯域音源信号が算出され、狭帯域スペクトルパラメータと狭帯域振幅情報を用いて広帯域スペクトルパラメータと広帯域振幅情報のいずれかまたはその両方が推定される。その後、これらの信号と狭帯域音源信号から推定された広帯域音源信号とで広帯域音声信号が合成される。
また、他の広帯域音声復元装置は、狭帯域音声信号を用いて推定した広帯域音声信号にポストフィルタリングが行われ、主として、高域特性が加工される。
また、他の広帯域音声復元装置は、狭帯域スペクトルパラメータの特性を全域に伸張して広帯域スペクトルパラメータとして用いて広帯域音声信号が合成される。
また、他の広帯域音声復元装置は、狭帯域スペクトルパラメータの特定次数までを用い、これを対応するスペクトルパラメータに逆変換する事で広帯域スペクトルパラメータを得、これを用いて広帯域音声信号が合成される。
また、他の広帯域音声復元装置は、狭帯域音声符号を用いて狭帯域合成音の生成と広帯域音声信号の推定を行い、狭帯域合成音をアップサンプリングした信号または狭帯域合成音に、前記広帯域音声信号の狭帯域合成音以外の主として高域の帯域の成分を抽出した信号を加算して広帯域音声信号が合成される。
また、他の広帯域音声復元装置は、狭帯域スペクトル符号を用いて推定した広帯域スペクトルパラメータと、狭帯域音源符号を用いて推定した広帯域音源信号とを用いて広帯域音声信号が合成される。
また、更に、広帯域音源復号手段により、狭帯域音源符号を用いて復号した狭帯域音源の各サンプル間に所定個ずつの零値を挿入する事で広帯域音源信号が生成され、これと推定した広帯域スペクトルとを用いて広帯域音声信号が合成される。
また、他の広帯域音源復号手段により、狭帯域適応音源符号を用いて推定した広帯域適応音源信号と、狭帯域駆動音源信号から推定した広帯域駆動音源信号が加算されて広帯域音源信号が生成される。これと推定した広帯域スペクトルとを用いて広帯域音声信号が合成される。
また、他の広帯域音源復号手段により、狭帯域音源符号を用いて推定した広帯域長周期予測符号と、狭帯域長周期予測残差信号から推定された広帯域長周期残差信号とから広帯域音源信号が合成される。これと推定した広帯域スペクトルとを用いて広帯域音声信号が合成される。
また、他の広帯域音声復元装置は、狭帯域スペクトル符号と狭帯域振幅情報を用いて広帯域スペクトルパラメータと広帯域振幅情報のいずれかまたはその両方が推定される。その後、これらの情報と狭帯域音源信号から推定された広帯域音源信号とで広帯域音声信号が合成される。
また、他の広帯域音声復元装置は、狭帯域音声符号を用いて推定した広帯域音声信号にポストフィルタリングが行われ、主として高域特性が加工される。
以上説明したように、狭帯域音源信号を用いて広帯域音源信号の推定を行い、これを用いて広帯域音声信号を合成するようにしたので、狭帯域音源信号の特徴を良好に広帯域音源信号に与える事ができ、話者に依存性が少なく、安定で自然な音質の広帯域音声を復元することができる効果がある。
また、広帯域音源推定手段として、狭帯域音源信号の各サンプル間に所定個ずつの零を挿入する零詰め手段を用いたので、有声無声判定やピッチ抽出が必要なく、有声無声判定誤りやピッチ抽出誤りの影響がない良好な広帯域音源を推定でき、安定で自然な音質の広帯域音声を復元することができる効果がある。
また、広帯域音源推定手段として、狭帯域適応音源符号と狭帯域駆動音源信号を用いて広帯域適応音源信号と広帯域駆動音源信号を推定するようにし、これから広帯域音源信号を生成するようにしたので、狭帯域音源信号の持つピッチ周期性の強さや変動に関する特徴が良好に広帯域音源信号に反映され、パルス的な音もなく、良好な音質の広帯域音声を復元することができる効果がある。
更に、基本周波数とその高調波成分の周波数が正しく整数倍の位置に並ぶので、広帯域音声信号での狭帯域成分と復元広帯域成分のつながりが良く、またピッチ周期性の実際的な性質も復元でき、高品質な広帯域音声を復元できる効果がある。
また、広帯域音源推定手段として、狭帯域長周期予測符号と狭帯域長周期残差信号を用いて広帯域長周期予測符号と広帯域長周期残差信号を推定するようにし、これらを用いて広帯域音源信号を合成するようにしたので、狭帯域音源信号の持つピッチ周期性の強さや変動に関する特徴が良好に広帯域音源信号に反映され、パルス的な音もなく、良好な音質の広帯域音声を復元することができる効果がある。
更に、基本周波数とその高調波成分の周波数が正しく整数倍の位置に並ぶので、最終的に復元される広帯域音声信号での狭帯域成分と復元広帯域成分のつながりが良く、実際のピッチ周期性の特性もとり入れることができ、高品質な広帯域音声を復元できる効果がある。
また、狭帯域スペクトルパラメータと狭帯域振幅情報を用いて広帯域スペクトルパラメータと広帯域振幅情報のいずれか、または両方を推定するようにしたので、広帯域のスペクトルパラメータの推定に狭帯域振幅情報が反映され、より安定に良好なスペクトルが推定でき、より正しい振幅を持った広帯域音声が復元できる効果がある。
また更に、狭帯域音声信号を用いて推定した広帯域音声信号にポストフィルタリングを行うようにしたので、復元された広帯域音声信号の音質が不足する場合に、ピッチ周期性の強調、スペクトル包絡の極の強調等の音質改善ができる効果がある。
また更に、狭帯域スペクトルパラメータを伸張して広帯域スペクトルパラメータとして用いて広帯域音声信号を合成するようにしたので、極めて簡単におおまかな広帯域スペクトルを復元できる効果がある。また、符号帳を蓄積しておくメモリが不必要で、演算量が少なくなる効果がある。
また更に、狭帯域スペクトルパラメータの所定次数までを用いてこれをスペクトルパラメータに逆変換する事で広帯域スペクトルパラメータを得るようにしたので、極めて簡単におおまかな広帯域スペクトルを復元できる効果がある。また、符号帳を蓄積しておくメモリが不必要で、演算量が少なくなる効果がある。
またこの発明によれば、狭帯域音声符号を用いて狭帯域合成音の生成と広帯域音声信号の推定を行い、狭帯域合成音をアップサンプリングした信号か狭帯域合成音に、広帯域音声信号の狭帯域合成音以外の帯域の成分を抽出して加算したので、符号化された狭帯域音声からでも広帯域音声の復元が可能となり、復号した狭帯域音声を再分析しないので、少ない処理量で復元ができる効果がある。
または、狭帯域スペクトル符号を用いて推定した広帯域スペクトルパラメータと、狭帯域音源符号を用いて推定した広帯域音源信号とを用いて広帯域音声信号を合成するようにしたので、復号した狭帯域音声を再分析する必要がなく、少ない処理量で復元ができる効果がある。また、合成時の補間や分析時の窓掛等による歪が重畳しないので、より良い品質の広帯域音声が復元できる効果がある。
また広帯域音源復号手段として、狭帯域音源符号を用いて復号した狭帯域音源の各サンプル間に所定個ずつの零を挿入する零詰め手段を用いたので、有声と無声の中間的な性質の音源も良好に復元でき、安定で自然な音質の広帯域音声を復元することができる効果がある。
また、広帯域音源復号手段として、狭帯域音源符号を用いて推定した広帯域適応音源信号と広帯域駆動音源信号を推定するようにし、それを加算して広帯域音源信号としたので、狭帯域音源信号の復号を行わずに直接広帯域音源信号が生成され、少ない処理量で復元ができる効果がある。
また、狭帯域音源符号が含んでいるピッチ周期性の強さや変動に関する特徴が良好に広帯域音源信号に反映されるので、良好な音質の広帯域音声を復元することができる効果がある。
また、広帯域音源復号手段として、狭帯域音源符号を用いて推定した広帯域長周期予測符号と広帯域長周期残差信号とを推定するようにし、これらを用いて広帯域音源信号を合成するようにしたので、狭帯域音源信号の復号を行わずに直接広帯域音源信号が生成され、少ない処理量で復元ができる効果がある。
また、狭帯域音源符号が含んでいるピッチ周期性の強さや変動に関する特徴が良好に広帯域音源信号に反映されるので、良好な音質の広帯域音声を復元することができる効果がある。
また、狭帯域スペクトル符号と狭帯域振幅情報を用いて広帯域スペクトルパラメータと広帯域振幅情報のいずれか、またはその両方を推定するようにしたので、広帯域のスペクトルパラメータの推定に狭帯域振幅情報が反映され、より安定に良好なスペクトルが推定でき、広帯域振幅情報の推定に狭帯域スペクトルパ符号の違いを反映させる事ができるので、より正しい振幅を持った広帯域音声が復元できる効果がある。
また更に、狭帯域音声符号を用いて推定した広帯域音声信号にポストフィルタリングを行うようにしたので、狭帯域合成音に対してポストフィルタ処理が適用される場合に、狭帯域部と復元した帯域の連続性がよくなる効果がある。また、復元された広帯域音声信号の音質が不足する場合に、ピッチ周期性の強調、スペクトル包絡の極の強調等の音質改善ができる効果がある。
この発明の実施例1の広帯域音声復元装置の構成図である。 この発明の実施例1における零詰手段の処理を説明する説明図である。 この発明の実施例2の広帯域音声復元装置における広帯域音源推定手段の構成図である。 この発明の実施例2における適応音源信号の一例を説明する説明図である。 この発明の実施例3の広帯域音声復元装置における広帯域駆動音源推定手段の構成図である。 この発明の実施例4の広帯域音声復元装置における広帯域駆動音源推定手段の構成図である。 この発明の実施例5の広帯域音声復元装置における広帯域音源推定手段の構成図である。 この発明の実施例6の広帯域音声復元装置における広帯域駆動音源推定手段の構成図である。 この発明の実施例7の広帯域音声復元装置における広帯域駆動音源推定手段の構成図である。 この発明の実施例8の広帯域音声復元装置における広帯域音源推定手段の構成図である。 この発明の実施例9の広帯域音声復元装置の構成図である。 この発明の実施例10の広帯域音声復元装置の構成図である。 この発明の実施例11の広帯域音声復元装置の構成図である。 この発明の実施例12の広帯域音声復元装置の構成図である。 この発明の実施例13における狭帯域スペクトルと広帯域スペクトルの概形の関係を説明する説明図である。 この発明の実施例14における狭帯域スペクトルと広帯域スペクトルの概形の関係を説明する説明図である。 この発明の実施例15の広帯域音声復元装置における広帯域スペクトル推定手段の構成図である。 この発明の実施例17の広帯域音声復元装置の構成図である。 この発明の実施例18の広帯域音声復元装置における広帯域音源復号手段の構成図である。 この発明の実施例19の広帯域音声復元装置における広帯域音源復号手段の構成図である。 この発明の実施例20の広帯域音声復元装置における広帯域音源復号手段の構成図である。 この発明の実施例22の広帯域音声復元装置の構成図である。
符号の説明
1 狭帯域音声信号、2 分析手段、3 スペクトル分析手段、4 狭帯域スペクトルパラメータ、5 逆フィルタ、6 狭帯域音源信号、7 広帯域スペクトル推定手段、8 ベクトル量子化手段、9 狭帯域スペクトル符号帳、10 スペクトル符号、11 逆量子化手段、12 広帯域スペクトル符号帳、13 広帯域スペクトルパラメータ、14 広帯域音源推定手段、15 零詰手段、16 広帯域音源信号、17 合成フィルタ、18 帯域フィルタ、19 アップサンプリング手段、20 広帯域音声信号、21 音源分析手段、22 狭帯域適応符号帳、23 歪最小化手段、24 狭帯域駆動音源信号、25 狭帯域適応ラグ長、26 狭帯域適応ゲイン、27 広帯域駆動音源推定手段、28 零詰手段、29 広帯域駆動音源信号、30 広帯域適応音源推定手段、31 広帯域適応音源符号帳、32 広帯域適応音源信号、33 広帯域適応ラグ長、34 広帯域適応ゲイン、35 パワー算出手段、36 雑音生成手段、37 狭帯域長周期予測分析手段、38 狭帯域長周期遅延、39 狭帯域長周期予測係数、40 長周期逆フィルタ、41 狭帯域長周期予測残差信号、42 広帯域長周期予測残差推定手段、43 零詰手段、44 広帯域長周期予測パラメータ推定手段、45 広帯域長周期遅延、46 広帯域長周期予測係数、47 長周期合成フィルタ、48 広帯域長周期予測残差信号、49 アップサンプリング手段、50 零化手段、51 狭帯域パワー算出手段、52 狭帯域音源パワー、53 狭帯域パワー込みスペクトル符号、54 音源正規化手段、55 狭帯域正規化音源信号、56 広帯域正規化音源信号、57 広帯域パワー符号帳、58 広帯域音源パワー、59 広帯域音源パワー推定手段、60 広帯域パワー込みスペクトル符号帳、61 ポストフィルタ手段、62 スペクトルパラメータ変換手段、63 次数低減手段、64 スペクトルパラメータ逆変換手段、101 狭帯域音声符号、102 分離手段、103 狭帯域スペクトル符号、104 狭帯域音源符号、105 広帯域スペクトル復号手段、106 広帯域音源復号手段、107 狭帯域スペクトル復号手段、108 狭帯域音源復号手段、109 狭帯域音声復号手段、110 狭帯域ピッチ符号、111 狭帯域パワー符号、112 広帯域ピッチ復号手段、113 広帯域ピッチ周期、114 広帯域パワー復号手段、115 広帯域パワー復号手段、116 音源生成手段、117 狭帯域適応音源符号、118 狭帯域駆動音源符号、119 広帯域適応音源復号手段、120 広帯域駆動音源復号手段、121 狭帯域適応音源復号手段、122 狭帯域駆動音源復号手段、123 狭帯域長周期予測符号、124 広帯域長周期予測パラメータ復号手段、125 狭帯域長周期予測パラメータ復号手段、126 狭帯域長周期予測残差符号、127 広帯域長周期予測残差復号手段、128 狭帯域長周期予測残差復号手段、129 狭帯域パワー復号手段、130 広帯域正規化音源復号手段。

Claims (2)

  1. 狭帯域音声符号から狭帯域スペクトルパラメータを復号する狭帯域スペクトル復号ステップと、
    上記狭帯域音声符号から狭帯域音源信号を復号する狭帯域音源復号ステップと、
    白色雑音に基づいて上記狭帯域音源信号のパワーと同一パワーの広帯域音源信号を生成する広帯域音源復号ステップと、
    上記狭帯域スペクトルパラメータを広帯域スペクトルパラメータとして出力する広帯域スペクトル復号ステップと、
    上記広帯域スペクトルパラメータと上記広帯域音源信号とに基づいて広帯域音声信号を合成する合成ステップとを有することを特徴とする広帯域音声復元方法。
  2. 狭帯域音声符号から狭帯域スペクトルパラメータを復号する狭帯域スペクトル復号手段と、
    上記狭帯域音声符号から狭帯域音源信号を復号する狭帯域音源復号手段と、
    白色雑音に基づいて上記狭帯域音源信号のパワーと同一パワーの広帯域音源信号を生成する広帯域音源復号手段と、
    上記狭帯域スペクトルパラメータを広帯域スペクトルパラメータとして出力する広帯域スペクトル復号手段と、
    上記広帯域スペクトルパラメータと上記広帯域音源信号とに基づいて広帯域音声信号を合成する合成手段とを有することを特徴とする広帯域音声復元装置。
JP2005182706A 2005-06-22 2005-06-22 広帯域音声復元方法及び広帯域音声復元装置 Expired - Lifetime JP3770899B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005182706A JP3770899B2 (ja) 2005-06-22 2005-06-22 広帯域音声復元方法及び広帯域音声復元装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005182706A JP3770899B2 (ja) 2005-06-22 2005-06-22 広帯域音声復元方法及び広帯域音声復元装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004220335A Division JP4087823B2 (ja) 2004-07-28 2004-07-28 広帯域音声復元方法及び広帯域音声復元装置

Publications (2)

Publication Number Publication Date
JP2005321823A JP2005321823A (ja) 2005-11-17
JP3770899B2 true JP3770899B2 (ja) 2006-04-26

Family

ID=35469093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005182706A Expired - Lifetime JP3770899B2 (ja) 2005-06-22 2005-06-22 広帯域音声復元方法及び広帯域音声復元装置

Country Status (1)

Country Link
JP (1) JP3770899B2 (ja)

Also Published As

Publication number Publication date
JP2005321823A (ja) 2005-11-17

Similar Documents

Publication Publication Date Title
JP3483958B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法
JP4958780B2 (ja) 符号化装置、復号化装置及びこれらの方法
KR20070121254A (ko) 광대역 부호화 및 복호화 방법 및 장치
JP4180677B2 (ja) 音声符号化並びに復号化方法及びその装置
JP3770901B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3748081B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP4447546B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3598111B2 (ja) 広帯域音声復元装置
JP3676801B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3770899B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3748080B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3770900B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3636327B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3748082B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3773509B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法
JP3748083B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP4087823B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3560964B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法
JP2005321828A (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP4438280B2 (ja) トランスコーダ及び符号変換方法
JP3598112B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP2005321824A (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP2005321827A (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP2005284317A (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP2005284314A (ja) 広帯域音声復元方法及び広帯域音声復元装置

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20050824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050906

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051129

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060207

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100217

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100217

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110217

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120217

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120217

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120217

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130217

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130217

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140217

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term