JP2011090031A - 音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラム - Google Patents

音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラム Download PDF

Info

Publication number
JP2011090031A
JP2011090031A JP2009241222A JP2009241222A JP2011090031A JP 2011090031 A JP2011090031 A JP 2011090031A JP 2009241222 A JP2009241222 A JP 2009241222A JP 2009241222 A JP2009241222 A JP 2009241222A JP 2011090031 A JP2011090031 A JP 2011090031A
Authority
JP
Japan
Prior art keywords
signal
narrowband
band
wideband
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009241222A
Other languages
English (en)
Inventor
Hiromi Aoyanagi
弘美 青柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2009241222A priority Critical patent/JP2011090031A/ja
Publication of JP2011090031A publication Critical patent/JP2011090031A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 狭帯域音声信号を広帯域音声信号に変換するための符号帳の記憶量を増大させずに、狭帯域音声信号の発話者に応じた拡張音声信号を得ることができる音声帯域拡張装置を提供する。
【解決手段】 音声帯域拡張装置を搭載した通信装置が広帯域音声信号を受信した場合には、発音出力させるだけでなく、符号帳を更新させる。この更新では、受信した広帯域音声信号と、その帯域を狭めた信号とを分析し、2つの信号についてそれぞれ、周波数概形を得る。狭帯域化信号について得られた周波数概形から、符号帳における更新対象を定め、広帯域音声信号について得られた周波数概形を反映させる学習を行う。通信装置が狭帯域音声信号を受信した場合には、学習された符号帳を適用して帯域拡張を行う。
【選択図】 図1

Description

本発明は、音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラムに関し、例えば、広帯域音声信号及び狭帯域音声信号共に処理可能な電話端末(ソフトフォンを含む)に適用し得るものである。
現在盛んに行われている音声通信である電話通信は、伝送可能な音声周波数に制限がある。具体的には、300Hz〜3.4kHzの音声信号しか伝送できず、その通話音声品質は十分とは言えない。また、聴き取りやすさも阻害されている。
このような課題に対し、例えば、特許文献1に示すような、帯域が制限された音声信号の帯域を拡張し、音声品質、聴き取りやすさを向上しようとする試みがある。特許文献1の記載技術は、帯域が制限された狭帯域音声信号(例えば300Hz〜3.4kHz)の概形的特徴と帯域が制限されていない広帯域音声信号(例えば300Hz〜8.0kHz)の概形的特徴の対応を予め調査しておき、この対応を符号帳(コードブック)として持ち、入力された狭帯域音声信号の概形的特徴を分析し、分析で得られた狭帯域音声信号の概形的特徴に近い、符号帳での狭帯域音声信号の概形的特徴を見つけ出し、これに対応する広帯域音声信号の概形的特徴を符号帳から引き出すことにより、音声の帯域を拡張としている。
特開平10−124088号公報
特許文献1の記載技術では、概ね良好な拡張音声品質が得られる。しかしながら、符号帳に用意されている狭帯域音声信号(の概形的特徴)と似ていない狭帯域音声信号が入力された場合には、拡張音声品質は必ずしも十分ではなくなる。当該音声帯域拡張装置への入力回数が非常に多い発話者がいたとしても、その者の狭帯域音声信号が、符号帳に用意されている狭帯域音声信号と似ていない場合には、全ての通話時において、拡張音声品質が十分ではない。
このような不都合を回避しようとすると符号帳に多くの広狭対応情報を記憶しなければならない。しかし、この場合には、膨大な記憶容量が必要となるだけでなく、符号帳の探索に多くの処理量が必要になるという新たな課題が生じる。
本発明は、以上の点に鑑みてなされたものであり、狭帯域音声信号を広帯域音声信号に変換するための広狭対応情報の記憶量を増大させることなく、当該音声帯域拡張装置へ入力される狭帯域音声信号の発話者に応じた拡張音声信号を得ることができる音声帯域拡張装置及びプログラムを提供しようとしたものである。また、本発明は、そのような拡張用パラメータ学習装置及びプログラムに適用可能な拡張用パラメータ学習装置及びプログラムを提供しようとしたものである。
第1の本発明は、入力された狭帯域音声信号の帯域を拡張し、得られた広帯域音声信号を出力する音声帯域拡張装置において、(1)狭帯域音声信号を分析して得られる狭帯域の音声パラメータと、その狭帯域音声信号に対応する広帯域音声信号を分析して得られる広帯域の音声パラメータとの対応である広狭対応情報を、複数記憶している拡張用パラメータ格納手段と、(2)学習用広帯域音声信号における、狭帯域音声信号の帯域と同様な帯域部分を得、上記学習用広帯域音声信号についての音声パラメータと得られた狭帯域部分についての音声パラメータとを得て、得られた2つの音声パラメータに基づいて、上記拡張用パラメータ格納手段に格納されている、少なくともいずれかの広狭対応情報の音声パラメータを更新させる拡張用パラメータ更新手段と、(3)拡張対象の狭帯域音声信号が入力されたとき、入力された拡張対象の狭帯域音声信号についての音声パラメータを得て、上記拡張用パラメータ格納手段から、得られた音声パラメータに対応する広帯域の音声パラメータを取り出し、この広帯域の音声パラメータに対する、分析の逆処理によって、拡張対象の狭帯域音声信号の帯域を拡張した広帯域音声信号を生成する帯域拡張手段とを有することを特徴とする。
第2の本発明は、入力された狭帯域音声信号の帯域を拡張し、得られた広帯域音声信号を出力する音声帯域拡張プログラムであって、コンピュータを、(1)狭帯域音声信号を分析して得られる狭帯域の音声パラメータと、その狭帯域音声信号に対応する広帯域音声信号を分析して得られる広帯域の音声パラメータとの対応である広狭対応情報を、複数記憶している拡張用パラメータ格納手段と、(2)学習用広帯域音声信号における、狭帯域音声信号の帯域と同様な帯域部分が抽出され、上記学習用広帯域音声信号についての音声パラメータと抽出された狭帯域部分についての音声パラメータとを得て、得られた2つの音声パラメータに基づいて、上記拡張用パラメータ格納手段に格納されている、少なくともいずれかの広狭対応情報の音声パラメータを更新させる拡張用パラメータ更新手段と、(3)拡張対象の狭帯域音声信号が入力されたとき、入力された拡張対象の狭帯域音声信号についての音声パラメータを得て、上記拡張用パラメータ格納手段から、得られた音声パラメータに対応する広帯域の音声パラメータを取り出し、この広帯域の音声パラメータに対する、分析の逆処理によって、拡張対象の狭帯域音声信号の帯域を拡張した広帯域音声信号を生成する帯域拡張手段として機能させることを特徴とする。
第3の本発明は、入力された狭帯域音声信号の帯域を拡張し、得られた広帯域音声信号を出力する音声帯域拡張装置に設けられた拡張用パラメータ格納手段であって、狭帯域音声信号を分析して得られる狭帯域の音声パラメータと、その狭帯域音声信号に対応する広帯域音声信号を分析して得られる広帯域の音声パラメータとの対応である広狭対応情報を、複数記憶している拡張用パラメータ格納手段の格納内容を更新させる拡張用パラメータ学習装置であって、(1)入力された学習用広帯域音声信号における、狭帯域音声信号の帯域と同様な帯域部分を得る狭帯域化手段と、(2)上記学習用広帯域音声信号についての音声パラメータを得る広帯域信号分析手段と、(3)得られた狭帯域部分についての音声パラメータを得る狭帯域信号分析手段と、(4)上記狭帯域信号分析手段が得た音声パラメータに基づいて、上記拡張用パラメータ格納手段に格納されている広狭対応情報の中から、更新対象の広狭対応情報を定め、上記広帯域信号分析手段が得た音声パラメータを利用して定められた広狭対応情報の少なくとも広帯域の音声パラメータを更新する更新手段とを有することを特徴とする。
第4の本発明は、入力された狭帯域音声信号の帯域を拡張し、得られた広帯域音声信号を出力する音声帯域拡張装置に設けられた拡張用パラメータ格納手段であって、狭帯域音声信号を分析して得られる狭帯域の音声パラメータと、その狭帯域音声信号に対応する広帯域音声信号を分析して得られる広帯域の音声パラメータとの対応である広狭対応情報を、複数記憶している拡張用パラメータ格納手段の格納内容を更新させる拡張用パラメータ学習プログラムであって、コンピュータを、(1)入力された学習用広帯域音声信号における、狭帯域音声信号の帯域と同様な帯域部分を得る狭帯域化手段と、(2)上記学習用広帯域音声信号についての音声パラメータを得る広帯域信号分析手段と、(3)得られた狭帯域部分についての音声パラメータを得る狭帯域信号分析手段と、(4)上記狭帯域信号分析手段が得た音声パラメータに基づいて、上記拡張用パラメータ格納手段に格納されている広狭対応情報の中から、更新対象の広狭対応情報を定め、上記広帯域信号分析手段が得た音声パラメータを利用して定められた広狭対応情報の少なくとも広帯域の音声パラメータを更新する更新手段として機能させることを特徴とする。
本発明によれば、狭帯域音声信号を広帯域音声信号に変換するための広狭対応情報の記憶量を増大させることなく、当該音声帯域拡張装置へ入力される狭帯域音声信号の発話者に応じた高品質の拡張音声信号を得ることができるようになる。
第1の実施形態の音声帯域拡張装置の機能的構成を示すブロック図である。 第1の実施形態の音声帯域拡張装置を搭載した電話端末が前提としている通信系を示すブロック図である。 第2の実施形態の音声帯域拡張装置の機能的構成を示すブロック図である。 第3の実施形態の音声帯域拡張装置の機能的構成を示すブロック図である。
(A)第1の実施形態
以下、本発明による音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラムの第1の実施形態を、図面を参照しながら詳述する。
第1の実施形態の音声帯域拡張装置は、図2に示すように、帯域が制限された狭帯域音声信号及び帯域が制限されていない広帯域音声信号の双方に対応可能な、当該音声帯域拡張装置を搭載した電話端末1に対して、通信系4を介して、通話相手となる狭帯域電話端末2若しくは広帯域電話端末3から、狭帯域音声信号が到来することもあれば広帯域音声信号が到来することもあり、しかも、同一の者が狭帯域電話端末2から電話端末1に通話することもあれば広帯域電話端末3から電話端末1に通話することもあることに着目し、広帯域音声信号の通信中に広狭対応情報(後述する符号帳参照)を更新(学習)し、狭帯域音声信号の通信中に、この更新された広狭対応情報を利用することにより、当該音声帯域拡張装置が十分な拡張音声品質を実現できる、入力狭帯域音声信号を動的に変化させようとしたものである。
(A−1)第1の実施形態の構成
図1は、第1の実施形態の音声帯域拡張装置100の機能的構成を示すブロック図である。例えば、ソフトフォンは、コンピュータにソフトフォン用アプリケーションをインストールして構築されるものであるが、そのソフトフォン用アプリケーションの部分的プログラムとして第1の実施形態の音声帯域拡張プログラムを適用し、第1の実施形態の音声帯域拡張装置100を構築しても良い。また、ソフトフォンに適用しない場合であっても、狭帯域音声信号の帯域拡張を行う構成を、CPU(DSPを含む)及びそれが実行する音声帯域拡張プログラムで実現するようにしても良い。音声帯域拡張プログラムを利用する場合であっても、機能的構成を図1で表すことができる。
図1において、第1の実施形態の音声帯域拡張装置100は、信号狭帯域化回路101、広帯域信号分析回路102、学習時用狭帯域信号分析回路103、符号帳更新回路104、符号帳105、拡張時用狭帯域信号分析回路106、残差信号生成回路107、残差信号広帯域化回路108、広帯域信号合成回路109及び2つのスイッチ110、111を有する。
ここで、信号狭帯域化回路101、広帯域信号分析回路102、学習時用狭帯域信号分析回路103及び符号帳更新回路104は、学習モード(後述するV=1)で機能するものであり、第1の実施形態における拡張用パラメータ学習装置の構成要素になっていると言うことができる。また、拡張時用狭帯域信号分析回路106、残差信号生成回路107、残差信号広帯域化回路108及び広帯域信号合成回路109は、拡張モード(V=0)で機能するものである。符号帳105は、学習モードで学習され、拡張モードで利用されるものである。連動するスイッチ110及び111が、学習モードで機能する部分と拡張モードで機能する部分との間で入出力を切り替えるものである。
なお、学習時用狭帯域信号分析回路103及び拡張時用狭帯域信号分析回路106は同時に動作することがないので、1つの狭帯域信号分析回路を、学習モードか拡張モードかによって、学習時用狭帯域信号分析回路103又は拡張時用狭帯域信号分析回路106として機能させるようにしても良い。
図1では省略しているが、その他、入力音声信号が狭帯域音声信号か広帯域音声信号かを識別する広狭識別回路も設けられており、広狭識別回路は、入力音声信号が広帯域音声信号の場合に学習モード(V=1)を表すと共に、入力音声信号が狭帯域音声信号の場合に拡張モード(V=0)を表すフラグVを出力するようになされている。広狭識別回路は、例えば、入力音声信号における、狭帯域音声信号の帯域外であって広帯域音声信号の帯域内の周波数成分について、平均パワーを求め、その平均パワーを閾値と比較することにより、入力音声信号が狭帯域音声信号か広帯域音声信号かを識別する。また、通信がパケット通信であって、パケットのいずれかの箇所に、狭帯域音声信号か広帯域音声信号かを示すフラグが挿入されている場合には、広狭識別回路は、その挿入フラグを、上述したフラグVとして利用するようにしても良い。
第1の実施形態の音声帯域拡張装置100には、図示しない音声復号回路によって復号された音声信号s(n)が入力される。ここで、入力される復号音声信号s(n)は、狭帯域音声信号のこともあれば広帯域音声信号のこともある。以下では、狭帯域音声信号又は広帯域音声信号によって復号音声信号s(n)のサンプリングレートが異なるとする。この場合、上述した特許文献1の記載技術のように、狭帯域音声信号のときに、適当な段階でアップサンプリングすることを要し、広帯域音声信号のときに、適当な段階でダウンサンプリングすることを要するが、図1では、アップサンプリングの処理段やダウンサンプリングの処理段を省略している。なお、狭帯域音声信号及び広帯域音声信号のいずれであっても、復号音声信号s(n)のサンプリングレートが同じにしていても良い。
音声帯域拡張装置100の各部は、所定期間又は所定サンプル数でなる復号音声信号s(n)のフレーム毎に処理を実行するものである。
1入力2出力のスイッチ110と、2入力1出力のスイッチ111とは、フラグVの値に応じて連動して切り替わるものである。フラグVが「1」である学習モードでは、スイッチ110及び111はコモン端子(c端子)をa端子に接続させる。このとき、スイッチ110は、復号音声信号s(n)を信号狭帯域化回路101、広帯域信号分析回路102及びスイッチ111のa端子に与え、スイッチ111は、スイッチ110のa端子から与えられた復号音声信号s(n)をコモン端子(c端子)に出力させるようになされている。フラグVが「0」である拡張モードでは、スイッチ110及び111はコモン端子(c端子)をb端子に接続させる。このとき、スイッチ110は、復号音声信号s(n)を拡張時用狭帯域信号分析回路106及び残差信号生成回路107に与え、スイッチ111は、広帯域信号合成回路109の出力音声信号sh(n)をコモン端子(c端子)に出力させるようになされている。
信号狭帯域化回路101は、広帯域音声信号になっている復号音声信号s(n)を、帯域が高々4kHzまでに制限された信号sl(n)に変換するものである。変換後の信号sl(n)は、狭帯域音声信号と同様な帯域の信号である。
広帯域信号分析回路102は、広帯域音声信号になっている復号音声信号s(n)から周波数概形情報Fhを計算して出力するものである。周波数概形情報としては、例えば、スペクトラム包絡を表す情報である(なお、後述する第3の実施形態では、周波数概形情報としてFFT情報を利用している)。
学習時用狭帯域信号分析回路103は、信号狭帯域化回路101の出力信号sl(n)から周波数概形情報Flを計算して出力するものである。
ここで、広帯域信号分析回路102及び学習時用狭帯域信号分析回路103の分析方法は同種のものであり、例えば、LPC分析を適用することができる。また、広帯域信号分析回路102への入力信号s(n)の方が、学習時用狭帯域信号分析回路103への入力信号sl(n)への入力信号sl(n)より広帯域であるので、周波数概形情報Fhの方が周波数概形情報Flより情報量が多くなるように分析する。例えば、分析方法としてLPC分析を適用し、線形予測係数を周波数概形情報として利用する場合であれば、周波数概形情報Fhの方の次数を周波数概形情報Flの次数より多くなるようにしておく。
符号帳105は、狭帯域の概形情報と広帯域の概形情報との対応を、複数対格納しているものである。ここで、初期状態で符号帳105に格納されている狭帯域の概形情報と広帯域の概形情報との対応は、例えば、広帯域信号分析回路102及び学習時用狭帯域信号分析回路103の出力のように完全に対応しているものである。
符号帳更新回路104は、符号帳105に格納されている狭帯域の概形情報の中から、学習時用狭帯域信号分析回路103から出力された概形情報Flに最も類似したものを選び、選ばれた狭帯域の概形情報に対応する符号帳105における広帯域の概形情報Cuを、広帯域信号分析回路102から出力された概形情報Fhを適用して、(1)式に従って更新する。但し、0<α<1とする。
Cu=αXCu+(1−α)XFh …(1)
例えば、概形情報が複数の要素の値でなるものであれば、2つの概形情報の対応要素の差の2乗和を、類似を判断する指標として用いる。なお、要素に軽重がある場合には、差の2乗に対して重み付け係数を掛けた後に和をとるようにしても良い。
ここで、概形情報Flと、最も類似した狭帯域の概形情報との類似度に応じて、(1)式における反映パラメータαの値を変更させるようにしても良い。例えば、類似度が大きいときには、反映パラメータαを小さくして広帯域信号分析回路102から出力された概形情報Fhの寄与を大きくし、類似度が小さいときには、反映パラメータαを大きくして広帯域信号分析回路102から出力された概形情報Fhの寄与を小さくするようにしても良い。
また例えば、符号帳105に格納されている対情報にそれぞれ、利用状況を表す情報(拡張モードにおける直前の未使用期間や、拡張モードでの使用率など)をも付加しておき、最も類似した狭帯域の概形情報との類似度でも非常に低い場合には(閾値との比較で判断する)、符号帳105に格納されている対情報の中で最も利用されていない対情報に代えて、学習時用狭帯域信号分析回路103及び広帯域信号分析回路102から出力された概形情報Fl及びFhを格納するようにしても良い。
上述した(1)式に従った更新では、符号帳105における広帯域の概形情報Cuだけを更新し、符号帳105における狭帯域の概形情報を更新しない。すなわち、(1)式に従った更新は、狭帯域の概形情報を固定化させたまま、それに対応する広帯域の概形情報Cuを、固定化されている狭帯域の概形情報に類似した狭帯域の概形情報にも対応させるようにしているものである。なお、上記説明とは異なるが、符号帳105における広帯域の概形情報Cuだけでなく、符号帳105における狭帯域の概形情報も、(1)式と同様な更新式に従って更新するようにしても良い。
狭帯域音声信号になっている復号音声信号s(n)は拡張時用狭帯域信号分析回路106に入力される。拡張時用狭帯域信号分析回路106は、復号音声信号s(n)から周波数概形情報Flcを計算して出力するものである。拡張時用狭帯域信号分析回路106は、上述した学習時用狭帯域信号分析回路103と同様なものである。
符号帳105は、周波数概形情報Flcが与えられた場合には、格納している狭帯域の概形情報の中から、概形情報Flcに最も類似したものを選び、選ばれた狭帯域の概形情報に対応する広帯域の概形情報Cを広帯域信号合成回路109に出力する。
残差信号生成回路107は、狭帯域音声信号になっている復号音声信号s(n)から、周波数概形情報Flcを除去した残差信号e(n)を生成するものである。ここで、残差信号e(n)は、励振源信号に対応するものである。
残差信号広帯域化回路108は、サンプリングレートの変更などを通じて、狭帯域の残差信号e(n)を、広帯域の残差信号eh(n)に変換して出力するものである。
広帯域信号合成回路109は、残差信号広帯域化回路108からの広帯域の残差信号eh(n)に、符号帳105からの概形情報Cを適用して合成音声信号sh(n)を生成し、これを拡張音声信号としてスイッチ111に与えるものである。
(A−2)第1の実施形態の動作
次に、第1の実施形態の音声帯域拡張装置100の動作を、学習モードでの動作、拡張モードでの動作の順に説明する。
図示しない音声復号回路によって復号された音声信号s(n)が広帯域音声信号のときには、フラグVが「1」となる。これにより、スイッチ110及び111はa端子に切り替わる。
これにより、広帯域音声信号になっている復号音声信号s(n)は、スイッチ110及び111を順次通過して、音声帯域拡張装置100外部の図示しないスピーカに与えられて発音出力される。
また、スイッチ110を介して音声帯域拡張装置100の内部に入力された復号音声信号s(n)は、信号狭帯域化回路101によって、狭帯域の音声信号sl(n)に変換され、その後、学習時用狭帯域信号分析回路103によって、狭帯域音声信号sl(n)から周波数概形情報Flが計算されて符号帳更新回路104に与えられる。音声帯域拡張装置100の内部に入力された復号音声信号s(n)は広帯域信号分析回路102にも与えられ、広帯域信号分析回路102によって、復号音声信号s(n)から周波数概形情報Fhが計算されて符号帳更新回路104に与えられる。
符号帳更新回路104において、符号帳105に格納されている狭帯域の概形情報の中から、学習時用狭帯域信号分析回路103から出力された概形情報Flに最も類似したものが探索され、選ばれた狭帯域の概形情報に対応する符号帳105における広帯域の概形情報Cuが、広帯域信号分析回路102から出力された概形情報Fhも適用されて、上述した(1)式に従って更新される。
一方、図示しない音声復号回路によって復号された音声信号s(n)が狭帯域音声信号のときには、フラグVが「0」となる。これにより、スイッチ110及び111はb端子に切り替わる。
狭帯域音声信号になっている復号音声信号s(n)は拡張時用狭帯域信号分析回路106に入力され、拡張時用狭帯域信号分析回路106によって、復号音声信号s(n)から周波数概形情報Flcが計算されて残差信号生成回路107及び符号帳105に出力される。
残差信号生成回路107によって、狭帯域音声信号になっている復号音声信号s(n)から、周波数概形情報Flcが除去された残差信号e(n)が生成され、この残差信号e(n)が、残差信号広帯域化回路108によって、広帯域の残差信号eh(n)に変換されて広帯域信号合成回路109に出力される。
符号帳105に格納されている狭帯域の概形情報の中から、拡張時用狭帯域信号分析回路106から出力された概形情報Flcに最も類似したものが探索され、選ばれた狭帯域の概形情報に対応する広帯域の概形情報Cが広帯域信号合成回路109に出力される。
広帯域信号合成回路109においては、残差信号広帯域化回路108からの広帯域の残差信号eh(n)に、符号帳105からの概形情報Cを適用して合成音声信号sh(n)が生成され、これが拡張音声信号としてスイッチ111を介して、音声帯域拡張装置100外部の図示しないスピーカに与えられて発音出力される。
一般に、個人が通話する相手はある程度限定され、不特定多数であることは非常に稀である。また、音声通信自体が広帯域で実施される場合が増加し、同じ通話相手でも、その時々で狭帯域通話であったり広帯域通話であったりすることが多くなる。
当該音声帯域拡張装置100を搭載した電話端末1に対して、ある人が広帯域電話端末3から通話した場合には、音声帯域拡張装置100は学習モードで動作し、符号帳105はその人の音声信号の特徴に合わせて更新される。このように更新された以降において、その人が、当該音声帯域拡張装置100を搭載した電話端末1に対して、狭帯域電話端末2によって通話した場合には、音声帯域拡張装置100は拡張モードで動作し、その際、学習モードで学習された符号帳105が適用され、良好な拡張音声信号が得られる。
(A−3)第1の実施形態の効果
第1の実施形態によれば、広帯域の音声信号の通信中に、広帯域及び狭帯域の周波数概形の対応を記憶している符号帳を更新しておき、狭帯域の音声信号の通信中には、このように更新された符号帳を利用するようにしたことにより、予め設定された符号帳を固定的に用いるよりも、現実の使用状況により近い符号帳が得られ、その結果、より品質の高い拡張音声信号を得ることができる。
すなわち、ある者が広帯域音声信号で通信したことがあれば、そのときに学習されているので、その後、その者が狭帯域音声信号で通信してきたときに、学習されている符号帳が利用されて帯域拡張がなされ、その結果、高品質の拡張音声信号を得ることができる。
(B)第2の実施形態
次に、本発明による音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラムの第2の実施形態を、図面を参照しながら詳述する。
図3は、第2の実施形態の音声帯域拡張装置100Aの機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
図3において、第2の実施形態の音声帯域拡張装置100Aは、符号帳として2面の符号帳105−1及び105−2を備えると共に、いずれの面の符号帳を有効とするかを指示する有効符号帳指示回路112が設けられている。
図3では、2面の符号帳の例を示しているが、3面以上の符号帳を適用しても良いことは勿論である。複数面の符号帳に分ける観点は任意であって良く、複数の観点の組み合わせであっても良い。
例えば、男性音声用の符号帳105−1と女性音声用の符号帳105−2とを別個に設けたものであっても良い。この場合、有効符号帳指示回路112は、学習モード及び拡張モードを問わず、音声帯域拡張装置100Aに入力される復号音声信号s(n)が男性音声に係るものであれば符号帳105−1を有効とし、音声帯域拡張装置100Aに入力される復号音声信号s(n)が女性音声に係るものであれば符号帳105−2を有効とする。ここで、有効符号帳指示回路112は、特開2001−56699号公報や特開2004−362280号公報に記載のような音声信号から性別を識別する性別識別回路を内蔵して、有効符号帳の指示信号Wを形成させるものであっても良く、また、キー入力装置等からユーザに性別を入力させ、それに応じて、有効符号帳の指示信号Wを形成させるものであっても良い。
また例えば、日本語用の符号帳105−1と日本語以外用の符号帳105−2とを別個に設けたものであっても良い。この場合、有効符号帳指示回路112は、学習モード及び拡張モードを問わず、音声帯域拡張装置100Aに入力される復号音声信号s(n)の言語が日本語であれば符号帳105−1を有効とし、音声帯域拡張装置100Aに入力される復号音声信号s(n)の言語が日本語以外であれば符号帳105−2を有効とする。ここで、有効符号帳指示回路112は、特開2007−81643号公報や特開2005−159395号公報に記載のような音声信号から日本語かそれ以外かを判別する言語特定回路を内蔵して、有効符号帳の指示信号Wを形成させるものであっても良く、また、キー入力装置等からユーザに言語を入力させ、それに応じて、有効符号帳の指示信号Wを形成させるものであっても良い。
なお、性別と言語種別との組み合わせに応じた面数だけ符号帳を用意し、性別識別と言語判定の結果に応じて、有効符号帳を定めるようにしても良い。
さらに例えば、通話相手となり得る個人毎に符号帳を用意するようにしても良い。この場合、例えば、ユーザがキー入力装置等に対して個人名を入力することで有効となる符号帳を特定するようにしても良い。また、完全に個人を特定する方法にはなっていないが、意図した個人が基本的に利用する電話番号毎に符号帳を用意し、受信したパケットに挿入されている送信元電話番号に応じて、有効となる符号帳を定めるようにしても良い。
第2の実施形態によれば、符号帳を多面構成とし、通話相手やその属性に応じて、符号帳を選択して学習したり拡張処理したりするようにしたので、第1の実施形態以上に、高品質な拡張音声信号を得ることが期待できる。
(C)第3の実施形態
次に、本発明による音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラムの第3の実施形態を、図面を参照しながら詳述する。
上記第1及び第2の実施形態においては、音声信号の周波数概形情報を得る分析方法は任意であるが、例えば、LPC分析等の声道パラメータが得られるようなものを意図していた。この第3の実施形態の音声帯域拡張装置は、音声信号の周波数概形情報を得る分析方法としてFFTを適用したものである。
図4は、第3の実施形態の音声帯域拡張装置100Bの機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
図4において、第3の実施形態の音声帯域拡張装置100Bは、信号狭帯域化回路101、広帯域信号FFT変換回路102B、学習時用狭帯域信号FFT変換回路103B、符号帳更新回路104B、符号帳105B、拡張時用狭帯域信号FFT変換回路106B、広帯域逆FFT変換回路109B及び2つのスイッチ110、111を有する。
次に、第3の実施形態の音声帯域拡張装置100Bの動作を、学習モードでの動作、拡張モードでの動作の順に説明する。
図示しない音声復号回路によって復号された音声信号s(n)が広帯域音声信号のときには、フラグVが「1」となる。これにより、スイッチ110及び111はa端子に切り替わる。
これにより、広帯域音声信号になっている復号音声信号s(n)は、スイッチ110及び111を順次通過して、音声帯域拡張装置100B外部の図示しないスピーカに与えられて発音出力される。
また、スイッチ110を介して音声帯域拡張装置100Bの内部に入力された復号音声信号s(n)は、信号狭帯域化回路101によって、狭帯域の音声信号sl(n)に変換され、その後、学習時用狭帯域信号FFT変換回路103Bによって、狭帯域音声信号sl(n)がFFT変換され、FFT変換情報FlBが符号帳更新回路104Bに与えられる。音声帯域拡張装置100の内部に入力された復号音声信号s(n)は広帯域信号FFT変換回路102Bにも与えられ、広帯域信号FFT変換回路102Bによって、復号音声信号s(n)がFFT変換され、FFT変換情報FhBが符号帳更新回路104Bに与えられる。
符号帳更新回路104Bにおいて、符号帳105Bに格納されている狭帯域のFFT変換情報の中から、学習時用狭帯域信号FFT変換回路103Bから出力されたFFT変換情報FlBに最も類似したものが探索され、選ばれた狭帯域のFFT変換情報に対応する符号帳105Bにおける広帯域のFFT変換情報CuBが、広帯域信号FFT変換回路102Bから出力されたFFT変換情報FhBも適用されて、上述した(1)式と同様な更新式に従って更新される。
一方、図示しない音声復号回路によって復号された音声信号s(n)が狭帯域音声信号のときには、フラグVが「0」となる。これにより、スイッチ110及び111はb端子に切り替わる。
狭帯域音声信号になっている復号音声信号s(n)は拡張時用狭帯域信号FFT変換回路106Bに入力され、拡張時用狭帯域信号FFT変換回路106によって、復号音声信号s(n)がFFT変換され、FFT変換情報FlcBが符号帳105Bに出力される。
符号帳105Bに格納されている狭帯域のFFT変換情報の中から、拡張時用狭帯域信号FFT変換回路106Bから出力されたFFT変換情報FlcBに最も類似したものが探索され、選ばれた狭帯域のFFT変換情報に対応する広帯域のFFT変換情報CBが広帯域逆FFT変換回路109Bに出力される。
広帯域逆FFT変換回路109Bにおいては、符号帳105Bからの広帯域のFFT変換情報CBに対し、逆FFT変換が施され、逆FFT変換後の信号shB(n)が拡張音声信号としてスイッチ111を介して、音声帯域拡張装置100B外部の図示しないスピーカに与えられて発音出力される。
第3の実施形態の音声帯域拡張装置100Bによっても、第1の実施形態の音声帯域拡張装置100と同様な効果を奏することができる。
(D)他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
上記各実施形態では、学習構成をも音声帯域拡張装置が有するものを示したが、他の装置に学習構成が設けられていても良い。例えば、音声帯域拡張装置を搭載した電話端末のメーカのサーバに学習構成を設けると共に、音声帯域拡張装置の符号帳と同じ内容を管理
させておく。そして電話端末の利用者の通話相手となり得る者は、このサーバに対して、広帯域音声信号を送信させて学習させ、サーバが、学習後に、更新された符号帳の内容を音声帯域拡張装置にダウンロードさせて、その符号帳を更新させる。
また、上記各実施形態では、広帯域の電話通信中に学習するものを示したが、電話通信を行っていないときに学習できるようにしても良い。例えば、音声帯域拡張装置を搭載した電話端末を学習モードに設定した後、当該電話端末の利用者の通話相手となり得る者が、当該電話端末のマイクロフォンに発話し、マイクロフォンから得られた広帯域音声信号を処理して符号帳を更新するようにしても良い。このような電話通信を行っていないときの学習モードに加え、各実施形態で説明した学習モードを別に設けるようにしても良い。
本発明の音声帯域拡張装置を搭載した装置は電話端末に限定されるものではない。例えば、無線LAN端末に、本発明の音声帯域拡張装置を搭載させるようにしても良い。
100、100A、100B…音声帯域拡張装置、101…信号狭帯域化回路、102…広帯域信号分析回路、102B…広帯域信号FFT変換回路、103…学習時用狭帯域信号分析回路、103B…学習時用狭帯域信号FFT変換回路、104、104B…符号帳更新回路、105、105−1、105−2、105B…符号帳、106…拡張時用狭帯域信号分析回路、106B…拡張時用狭帯域信号FFT変換回路、107…残差信号生成回路、108…残差信号広帯域化回路、109…広帯域信号合成回路、109B…広帯域逆FFT変換回路、110、111…スイッチ、112…有効符号帳指示回路。

Claims (8)

  1. 入力された狭帯域音声信号の帯域を拡張し、得られた広帯域音声信号を出力する音声帯域拡張装置において、
    狭帯域音声信号を分析して得られる狭帯域の音声パラメータと、その狭帯域音声信号に対応する広帯域音声信号を分析して得られる広帯域の音声パラメータとの対応である広狭対応情報を、複数記憶している拡張用パラメータ格納手段と、
    学習用広帯域音声信号における、狭帯域音声信号の帯域と同様な帯域部分を得、上記学習用広帯域音声信号についての音声パラメータと得られた狭帯域部分についての音声パラメータとを得て、得られた2つの音声パラメータに基づいて、上記拡張用パラメータ格納手段に格納されている、少なくともいずれかの広狭対応情報の音声パラメータを更新させる拡張用パラメータ更新手段と、
    拡張対象の狭帯域音声信号が入力されたとき、入力された拡張対象の狭帯域音声信号についての音声パラメータを得て、上記拡張用パラメータ格納手段から、得られた音声パラメータに対応する広帯域の音声パラメータを取り出し、この広帯域の音声パラメータに対する、分析の逆処理によって、拡張対象の狭帯域音声信号の帯域を拡張した広帯域音声信号を生成する帯域拡張手段と
    を有することを特徴とする音声帯域拡張装置。
  2. 当該音声帯域拡張装置を搭載した通信装置が対応する装置から受信している広帯域音声信号を上記学習用広帯域音声信号とすると共に、上記通信装置が対応する装置から受信している狭帯域音声信号を上記拡張対象の狭帯域音声信号とすることを特徴とする請求項1に記載の音声帯域拡張装置。
  3. 上記拡張用パラメータ更新手段には、上記学習用広帯域音声信号が入力され、この入力された学習用広帯域音声信号を処理して、上記拡張用パラメータ格納手段に格納されている、少なくともいずれかの広狭対応情報の音声パラメータを更新させることを特徴とする請求項2に記載の音声帯域拡張装置。
  4. 上記拡張用パラメータ格納手段として複数種類の拡張用パラメータ格納手段を有すると共に、どの種類の拡張用パラメータ格納手段が有効かを指示する有効種類指示手段を備え、
    上記拡張用パラメータ更新手段及び上記帯域拡張手段は、上記有効種類指示手段が指示している種類の上記拡張用パラメータ格納手段を利用することを特徴とする請求項1に記載の音声帯域拡張装置。
  5. 上記拡張用パラメータ更新手段には、外部装置が上記学習用広帯域音声信号を処理して得た更新内容が与えられ、上記拡張用パラメータ更新手段は、この与えられた更新内容に基づいて、上記拡張用パラメータ格納手段に格納されている、少なくともいずれかの広狭対応情報の音声パラメータを更新させることを特徴とする請求項1に記載の音声帯域拡張装置。
  6. 入力された狭帯域音声信号の帯域を拡張し、得られた広帯域音声信号を出力する音声帯域拡張プログラムであって、
    コンピュータを、
    狭帯域音声信号を分析して得られる狭帯域の音声パラメータと、その狭帯域音声信号に対応する広帯域音声信号を分析して得られる広帯域の音声パラメータとの対応である広狭対応情報を、複数記憶している拡張用パラメータ格納手段と、
    学習用広帯域音声信号における、狭帯域音声信号の帯域と同様な帯域部分が抽出され、上記学習用広帯域音声信号についての音声パラメータと抽出された狭帯域部分についての音声パラメータとを得て、得られた2つの音声パラメータに基づいて、上記拡張用パラメータ格納手段に格納されている、少なくともいずれかの広狭対応情報の音声パラメータを更新させる拡張用パラメータ更新手段と、
    拡張対象の狭帯域音声信号が入力されたとき、入力された拡張対象の狭帯域音声信号についての音声パラメータを得て、上記拡張用パラメータ格納手段から、得られた音声パラメータに対応する広帯域の音声パラメータを取り出し、この広帯域の音声パラメータに対する、分析の逆処理によって、拡張対象の狭帯域音声信号の帯域を拡張した広帯域音声信号を生成する帯域拡張手段と
    して機能させることを特徴とする音声帯域拡張プログラム。
  7. 入力された狭帯域音声信号の帯域を拡張し、得られた広帯域音声信号を出力する音声帯域拡張装置に設けられた拡張用パラメータ格納手段であって、狭帯域音声信号を分析して得られる狭帯域の音声パラメータと、その狭帯域音声信号に対応する広帯域音声信号を分析して得られる広帯域の音声パラメータとの対応である広狭対応情報を、複数記憶している拡張用パラメータ格納手段の格納内容を更新させる拡張用パラメータ学習装置であって、
    入力された学習用広帯域音声信号における、狭帯域音声信号の帯域と同様な帯域部分を得る狭帯域化手段と、
    上記学習用広帯域音声信号についての音声パラメータを得る広帯域信号分析手段と、
    得られた狭帯域部分についての音声パラメータを得る狭帯域信号分析手段と、
    上記狭帯域信号分析手段が得た音声パラメータに基づいて、上記拡張用パラメータ格納手段に格納されている広狭対応情報の中から、更新対象の広狭対応情報を定め、上記広帯域信号分析手段が得た音声パラメータを利用して定められた広狭対応情報の少なくとも広帯域の音声パラメータを更新する更新手段と
    を有することを特徴とする拡張用パラメータ学習装置。
  8. 入力された狭帯域音声信号の帯域を拡張し、得られた広帯域音声信号を出力する音声帯域拡張装置に設けられた拡張用パラメータ格納手段であって、狭帯域音声信号を分析して得られる狭帯域の音声パラメータと、その狭帯域音声信号に対応する広帯域音声信号を分析して得られる広帯域の音声パラメータとの対応である広狭対応情報を、複数記憶している拡張用パラメータ格納手段の格納内容を更新させる拡張用パラメータ学習プログラムであって、
    コンピュータを、
    入力された学習用広帯域音声信号における、狭帯域音声信号の帯域と同様な帯域部分を得る狭帯域化手段と、
    上記学習用広帯域音声信号についての音声パラメータを得る広帯域信号分析手段と、
    得られた狭帯域部分についての音声パラメータを得る狭帯域信号分析手段と、
    上記狭帯域信号分析手段が得た音声パラメータに基づいて、上記拡張用パラメータ格納手段に格納されている広狭対応情報の中から、更新対象の広狭対応情報を定め、上記広帯域信号分析手段が得た音声パラメータを利用して定められた広狭対応情報の少なくとも広帯域の音声パラメータを更新する更新手段と
    して機能させることを特徴とする拡張用パラメータ学習プログラム。
JP2009241222A 2009-10-20 2009-10-20 音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラム Pending JP2011090031A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009241222A JP2011090031A (ja) 2009-10-20 2009-10-20 音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009241222A JP2011090031A (ja) 2009-10-20 2009-10-20 音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2011090031A true JP2011090031A (ja) 2011-05-06

Family

ID=44108371

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009241222A Pending JP2011090031A (ja) 2009-10-20 2009-10-20 音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2011090031A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016510133A (ja) * 2013-02-15 2016-04-04 クゥアルコム・インコーポレイテッドQualcomm Incorporated パーソナライズされた帯域幅拡張

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06118995A (ja) * 1992-10-05 1994-04-28 Nippon Telegr & Teleph Corp <Ntt> 広帯域音声信号復元方法
JPH08147000A (ja) * 1994-11-18 1996-06-07 Yamaha Corp ベクトル量子化による符号化復号方式
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06118995A (ja) * 1992-10-05 1994-04-28 Nippon Telegr & Teleph Corp <Ntt> 広帯域音声信号復元方法
JPH08147000A (ja) * 1994-11-18 1996-06-07 Yamaha Corp ベクトル量子化による符号化復号方式
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016510133A (ja) * 2013-02-15 2016-04-04 クゥアルコム・インコーポレイテッドQualcomm Incorporated パーソナライズされた帯域幅拡張

Similar Documents

Publication Publication Date Title
Zhao et al. Perceptually guided speech enhancement using deep neural networks
RU2648604C2 (ru) Способ и аппаратура для генерации сигнала речи
KR20230043250A (ko) 뉴럴 네트워크들을 사용하여 대상 화자의 음성으로 텍스트로부터의 스피치의 합성
JP4818335B2 (ja) 信号帯域拡張装置
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
CN104781879B (zh) 用于对音频信号进行编码的方法和装置
US20090018826A1 (en) Methods, Systems and Devices for Speech Transduction
CN105981102B (zh) 音频信号的谐波带宽扩展
EP3182409A2 (en) Determining the inter-channel time difference of a multi-channel audio signal
WO2005117517A2 (en) Neuroevolution-based artificial bandwidth expansion of telephone band speech
JP2000187496A (ja) デジタル無線チャネル上の自動音声/話者認識
JP3955179B2 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
Wang et al. Phoneme-specific speech separation
JPWO2013027360A1 (ja) 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
CN112562681B (zh) 语音识别方法和装置、存储介质
CN113724683B (zh) 音频生成方法、计算机设备及计算机可读存储介质
CN113498536A (zh) 电子装置及其控制方法
CN105719640B (zh) 声音合成装置及声音合成方法
Mandel et al. Audio super-resolution using concatenative resynthesis
Ding et al. UltraSpeech: Speech Enhancement by Interaction between Ultrasound and Speech
JP4006770B2 (ja) ノイズ推定装置、ノイズ削減装置、ノイズ推定方法、及びノイズ削減方法
JP2014199445A (ja) サウンドマスキング装置、方法及びプログラム
JP2011090031A (ja) 音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラム
JP2007240654A (ja) 体内伝導通常音声変換学習装置、体内伝導通常音声変換装置、携帯電話機、体内伝導通常音声変換学習方法、体内伝導通常音声変換方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130724

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130903