JP6451136B2 - 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム - Google Patents

音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム Download PDF

Info

Publication number
JP6451136B2
JP6451136B2 JP2014159620A JP2014159620A JP6451136B2 JP 6451136 B2 JP6451136 B2 JP 6451136B2 JP 2014159620 A JP2014159620 A JP 2014159620A JP 2014159620 A JP2014159620 A JP 2014159620A JP 6451136 B2 JP6451136 B2 JP 6451136B2
Authority
JP
Japan
Prior art keywords
correction amount
amplitude
feature
amount
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014159620A
Other languages
English (en)
Other versions
JP2016038409A (ja
Inventor
大 藤枝
大 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2014159620A priority Critical patent/JP6451136B2/ja
Publication of JP2016038409A publication Critical patent/JP2016038409A/ja
Application granted granted Critical
Publication of JP6451136B2 publication Critical patent/JP6451136B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Description

本発明は音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムに関し、例えば、電話機器(ソフトフォン等を含む)に適用し得るものである。なお、「音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム」とネーミングしているが、本発明が取扱う信号は、音声信号に限定されず、音楽信号等の他の音信号であっても良い。
従来の音声帯域拡張装置として、特許文献1に開示されているものがある。図5は、特許文献1に記載の音声帯域拡張装置の技術をブロック図的に整理して示すブロック図である(なお、特許文献1に図5に示すブロック図は記載されていない)。
特許文献1に開示されている音声帯域拡張装置400は、周波数変換手段401、周波数拡張手段402、拡張音声生成手段403、特徴量抽出手段404、拡張ゲイン算出手段405、拡張音声調整手段406、拡張音声加算手段407及び周波数逆変換手段408を有する。
次に、特許文献1に開示の音声帯域拡張装置400の動作を簡単に説明する。
周波数変換手段401には、入力音声(入力音声信号)が与えられる。入力音声は、低いサンプリング周波数でサンプリングされた音声である。低いサンプリング周波数とは、例えば、音声信号であれば8kHz、音楽信号であれば48kHzなどである。周波数変換手段401は、入力音声を周波数変換して入力スペクトルを生成する。周波数拡張手段402は、入力スペクトルの高域側に0又は非常に小さな値を付け加えて長くすることで、入力スペクトルを高いサンプリング周波数を有するスペクトルへと拡張する。高いサンプリング周波数とは、例えば、音声信号であれば16kHz、音楽信号であれば96kHzなどである。拡張音声生成手段403は、入力音声の成分が存在する帯域(以下、入力帯域と呼ぶ)の一部又は全部を、入力音声の成分が存在しない帯域(以下、拡張帯域と呼ぶ)にコピーして、拡張スペクトルを生成する。特徴量抽出手段404は、入力帯域中の異なる2つの帯域の振幅を算出し、高い周波数側の振幅を低い周波数側の振幅で除した振幅比を算出する。なお、振幅の代わりにパワーを使用してパワー比を算出しても良い。拡張ゲイン算出手段405は、振幅比が小さい場合には小さい拡張ゲインを出力し、振幅比が大きい場合には大きい拡張ゲインを出力する。特許文献1の記載技術によれば、予め3つの閾値を定めておき、振幅比が閾値以上となる閾値の数に応じて予め定めておいた拡張ゲインを割り当てる。拡張音声調整手段406は、拡張スペクトルに拡張ゲインを乗じる。拡張音声加算手段407は、周波数拡張された入力スペクトルに、拡張ゲインを乗じた拡張スペクトルを加算して、広帯域化スペクトルを生成する。周波数逆変換手段408は、広帯域化スペクトルから周波数逆変換によって時間波形を生成する。
特許文献1の記載技術によれば、入力スペクトルの振幅比が小さいときには拡張スペクトルが減衰させられることで広帯域化スペクトルの不連続点が強調されにくくなり、振幅比が大きいときには拡張スペクトルが増幅されることによって高域になるほど振幅が増加する連続性のある構造とすることができ、結果として広帯域化音声の無声部が聴き取り易くなり、音声の明瞭度を向上させることができるとしている。
特開2009−134260号公報
しかしながら、特許文献1の記載技術は、通信のための帯域制限やノイズキャンセラ等の前処理によって入力音声が変形している場合が考慮されていない。ここで、前処理とは、当該音声帯域拡張装置を搭載している音声通信装置における処理に限定されず、当該音声帯域拡張装置を搭載している音声通信装置へ音声信号を送信する音声通信装置における処理が該当する場合もある。
例えば、当該音声帯域拡張装置への入力音声が帯域制限を受けている場合がある。この場合は、送信前に帯域制限フィルタがかけられ、さらにボコーダを介して音声を受信するため、帯域制限フィルタとボコーダによって当該音声帯域拡張装置への入力音声の周波数特性が、送信しようとしている原音声の周波数特性から変化している可能性が高い。また例えば、前処理として、ノイズキャンセラが適用されている場合がある。ノイズキャンセラは、低い周波数の雑音をより正確に除去できるため、周波数の低い成分が抑圧され易い。このように入力音声が変形していると、算出される拡張ゲインが不適切な値となり、結果として広帯域化音声の音質劣化が引き起こされる。
そのため、入力音声に前処理が施されていても、高音質の広帯域化音声が得られる音声帯域拡張装置及びプログラムが望まれている。また、入力音声に前処理が施されていても、前処理の影響を除外した音声特徴量を得ることができる音声特徴量抽出装置及びプログラムが望まれている。
以上の課題を解決するために、第1の本発明は、入力音声に成分が存在しない周波数帯域に音声成分を追加して周波数帯域を拡張する音声帯域拡張装置において、(1)上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、(2)上記特徴量に対する補正量を推定する補正量推定手段と、(3)上記補正量に基づいて、抽出された上記特徴量を補正して補正特徴量を得る特徴量補正手段と、(4)上記入力音声から、上記入力音声が存在しない周波数帯域に成分を有する、上記補正特徴量に基づいて振幅又はパワーが調整された拡張音声を生成し、上記入力音声と合成して広帯域化音声を生成する広帯域化音声生成手段とを備え、(5)上記補正量推定手段は、上記特徴量のうち1つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、上記特徴量の1つが、入力音声の異なる2つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が0より小さければ0とし、上記暫定補正量が0以上であれば上記暫定補正量とすることを特徴とする。
第2の本発明の音声帯域拡張プログラムは、入力音声に成分が存在しない周波数帯域に音声成分を追加して周波数帯域を拡張する音声帯域拡張プログラムであって、コンピュータを、(1)上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、(2)上記特徴量に対する補正量を推定する補正量推定手段と、(3)上記補正量に基づいて、抽出された上記特徴量を補正して補正特徴量を得る特徴量補正手段と、(4)上記入力音声から、上記入力音声が存在しない周波数帯域に成分を有する、上記補正特徴量に基づいて振幅又はパワーが調整された拡張音声を生成し、上記入力音声と合成して広帯域化音声を生成する広帯域化音声生成手段として機能させ、(5)上記補正量推定手段は、上記特徴量のうち1つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、上記特徴量の1つが、入力音声の異なる2つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が0より小さければ0とし、上記暫定補正量が0以上であれば上記暫定補正量とすることを特徴とする。
第3の本発明は、入力音声における振幅又はパワーに関する特徴量を抽出する音声特徴量抽出装置において、(1)上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、(2)上記特徴量に対する補正量を推定する補正量推定手段と、(3)上記補正量に基づいて、抽出された上記特徴量を補正して出力する特徴量補正手段とを備え、(4)上記補正量推定手段は、上記特徴量のうち1つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、上記特徴量の1つが、入力音声の異なる2つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が0より小さければ0とし、上記暫定補正量が0以上であれば上記暫定補正量とすることを特徴とする。
第4の本発明の音声特徴量抽出プログラムは、入力音声における振幅又はパワーに関する特徴量を抽出する音声特徴量抽出プログラムであって、コンピュータを、(1)上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、(2)上記特徴量に対する補正量を推定する補正量推定手段と、(3)上記補正量に基づいて、抽出された上記特徴量を補正して出力する特徴量補正手段として機能させ、(4)上記補正量推定手段は、上記特徴量のうち1つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、上記特徴量の1つが、入力音声の異なる2つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が0より小さければ0とし、上記暫定補正量が0以上であれば上記暫定補正量とすることを特徴とする。
第1及び第2の本発明によれば、入力音声に前処理が施されていても、高音質の広帯域化音声が得られる音声帯域拡張装置及びプログラムを実現できる。また、第3及び第4の本発明によれば、入力音声に前処理が施されていても、前処理の影響を除外した音声特徴量を得ることができる音声特徴量抽出装置及びプログラムを実現できる。
第1の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図である。 第2の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図である。 第3の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図である。 第4の実施形態に係る音声帯域拡張装置における、音声特徴量に対する音声区間での補正量の修正方法の説明図である。 従来の音声帯域拡張装置の構成を示す機能ブロック図である。
(A)各実施形態に共通する前提
後述する全ての実施形態において、拡張する対象を人間の音声であるとし、入力帯域は0Hz〜4kHz(又は300Hz〜3.4kHz)の帯域を有することを前提とする。しかし、本発明は、これに限定されず、例えば0Hz〜24kHzの帯域を有する音楽信号を帯域拡張対象とする場合こともでき、周波数に関する数値を音楽信号用に設定し直すことで、本発明を適用することができる。
(B)第1の実施形態
以下、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第1の実施形態を、図面を参照しながら説明する。
(B−1)第1の実施形態の構成
図1は、第1の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図である。ここで、第1の実施形態の音声帯域拡張装置は、ハードウェアで構成することも可能であり、また、CPUが実行するソフトウェア(音声帯域拡張プログラム)とCPUとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図1で表すことができる。
また、上述した特許文献1の記載技術の説明では、帯域拡張を周波数領域に変換された信号段階で行うように説明したが、図1に示す第1の実施形態に係る音声帯域拡張装置では、帯域拡張を時間領域の信号のまま行うものである。
第1の実施形態の音声帯域拡張装置100は、図1に示すように、特徴量抽出手段101と、目標特徴量保持手段102と、補正量推定手段103と、特徴量補正手段104と、拡張ゲイン算出手段105と、拡張音声生成手段106と、拡張音声調整手段107と、拡張音声加算手段108とを有する。
ここで、特徴量抽出手段101、目標特徴量保持手段102、補正量推定手段103及び特徴量補正手段104でなる部分が、第1の実施形態の音声特徴量抽出装置を構成している。
第1の実施形態の音声帯域拡張装置100に与えられた入力音声は、特徴量抽出手段101、補正量推定手段103、拡張音声生成手段106及び拡張音声加算手段108に与えられる。
特徴量抽出手段101は、与えられた入力音声の振幅に関する少なくとも1つ以上の情報を抽出し、得られた振幅特徴量を補正量推定手段103及び特徴量補正手段104に与える。振幅特徴量としては、例えば、入力帯域振幅比が好適に用いられる。入力帯域振幅比は、入力帯域中の異なる2つの帯域に対して、高域側の帯域の振幅を低域側の帯域の振幅で除して算出される。異なる2つの帯域は、入力帯域内であること以外に制限はないが、互いに重ならないように、低域側の帯域は2kHz以下とし、高域側の帯域は2kHz以上とすることが好適である。例えば、低域側の帯域を300Hz〜2kHz、高域側の帯域を2kHz〜3.4kHzとし、それぞれの所望の帯域成分を抽出するバンドパスフィルタを設けて、各バンドパスフィルタ出力の絶対値和を各帯域の振幅とする。なお、振幅の代わりにパワーを用いても良く、その場合には絶対値和の代わりに2乗和を用いる。
目標特徴量保持手段102は、予め定められたターゲットとなる振幅特徴量(以下、目標振幅特徴量と呼ぶ)を保持し、当該目標振幅特徴量を補正量推定手段103に与える。ここで、目標振幅特徴量は、例えば、音声帯域拡張装置100に与えられた入力音声が前処理の影響を受けないとした場合における、特徴量抽出手段101からの振幅特徴量の平均等であり、例えば、前処理が施されていない音声を適用したシミュレーション等によって予め決定されているものである。
補正量推定手段103は、特徴量抽出手段101で抽出された振幅特徴量が、目標特徴量保持手段102が保持している目標振幅特徴量に近付くように補正すべき量を推定し、得られた補正量を特徴量補正手段104に与える。
補正量の推定方法としていくつかのアプローチが考えられるが、好適なアプローチとして、振幅特徴量の期待値を目標振幅特徴量と一致させるように補正量を決める方法を挙げることができる。以下、このような補正量の推定方法を詳述する。
今、時刻をt、時刻tの振幅特徴量をVt、目標振幅特徴量をU、時刻tの補正量をctと置き、振幅特徴量を補正する関数をf(V;c)と定義すると、(1)式を満たすように補正量ctを決定すれば良い。(1)式におけるE{A|B}は条件付き期待値を表しており、f(Vτ;ct)は関数f(V;c)に対して具体的な値Vτ、ctを適用して得られた値を表している。(1)式の左辺は、時刻τがt0〜tの間のf(Vτ;ct)の期待値を意味している。t0は、入力音声の収録環境が変化しないのであれば、t0=0すなわち音声帯域拡張処理開始時点としても良く、また、任意の時刻としても良いが、収録環境の変化に対応できるように、期待値を計算する区間t0〜tの値(長さ)を1〜10秒にするのが好適である。なお、時定数フィルタ(リーク積分とも呼ばれる)を用いるなら、遠い過去の情報よりも近い過去の情報により大きい重みがおかれるので、t0=0としても良好に動作する。なお、t0=tすなわち期待値を取らなくても当該音声帯域拡張装置100は動作するが、この場合には補正後の振幅特徴量が常にUとなって、入力音声の変化を無視するようになってしまうため、期待値をUに近付ける構成が強く望まれる。また、(1)式を満たすctが解析的に求められない場合には、(2)式を満たすctを数値的に解くことになる。(2)式は、補正量となり得る範囲内で値c’を変化させた場合に、f(Vτ;c’)と目標振幅特徴量Uとの差の2乗和が最小となる値c’を時刻tの補正量ctとすることを表しており最小2乗法的なアプローチを表現している。
Figure 0006451136
以上では、補正される振幅特徴量が1つであって、Vt、U、ctがスカラ量である場合を示したが、補正される振幅特徴量が複数存在しても良い。例えば、高域側又は低域側の帯域が異なる複数の振幅特徴量を適用しても良い。また例えば、1つの振幅特徴量のごく短時間の平滑値を異なる振幅特徴量として適用するようにしても良い。補正される振幅特徴量が複数存在する場合には、少なくともVt、Uはベクトル量となる。この場合でも、(1)式はそのまま用いることができる(但し、少なくともVt、Uはベクトル量である)。補正される振幅特徴量が複数存在する場合には、(2)式はそのまま用いることができず、代わりに(3)式を用いることとなる。ここで、振幅特徴量Vtと目標振幅特徴量Uは列ベクトルである。なお、(3)式においてはベクトルXの転置をXTで表している。
Figure 0006451136
ここで、(1)式〜(3)式を計算するのに振幅特徴量Vtが必要になるとは限らないが(後述する(5)式〜(8)式参照)、仮に、振幅特徴量Vtが必要となる場合には、振幅特徴量Vtを当該補正量推定手段103で算出するのでなく、特徴量抽出手段101から供給されるようにすることで、計算量を減らすことができる。
特徴量補正手段104は、与えられた振幅特徴量Vtと補正量ctとに基づいて補正振幅特徴量V* tを算出し、拡張ゲイン算出手段105に与える。補正振幅特徴量V* tは上述の関数f()を用いて(4)式で算出される。
Figure 0006451136
なお、補正量推定手段103が行う上述した補正量の推定(探索)演算の際に、補正振幅特徴量V* tの算出が実行されるようなアルゴリズムであれば、特徴量補正手段104による演算に代え、補正量推定手段103が得た補正振幅特徴量V* tを流用するようにしても良い。
拡張ゲイン算出手段105は、与えられた補正振幅特徴量V* tに基づいて拡張ゲインを算出して拡張音声調整手段107に与える。拡張ゲインの算出方法として、任意の方法を適用することができる。例えば、振幅特徴量が入力帯域振幅比である場合には特許文献1に記載の方法を適用し得る。
拡張音声生成手段106は、与えられた入力音声に基づいて拡張帯域に成分を有する拡張音声を生成し、得られた拡張音声を拡張音声調整手段107に与える。拡張音声の生成方法として、既存の様々な方法のいずれかを適用できる。例えば、入力音声の2kHz〜4kHzをバンドパスフィルタで抽出した後に全波整流処理を行い、さらに4kHz以上をハイパスフィルタで抽出する方法を適用できる。また例えば、特許文献1に記載の方法を用いても良く、これを時間領域で実現する場合には、コピーしたい帯域をバンドパスフィルタで抽出した後にヒルベルト変換を行って負の周波数成分を除去し、適切な周波数の正弦波の解析信号を乗じて実部を取れば良い。
拡張音声調整手段107は、与えられた拡張ゲインに基づいて、与えられた拡張音声の振幅を調整し、得られた調整拡張音声を拡張音声加算手段108に与える。拡張音声の振幅の調整方法は、拡張ゲインを拡張音声に乗じる方法が好適であるが、拡張ゲインが拡張音声の真の振幅を表していると考えて拡張音声を拡張音声自身の振幅で除した後に拡張ゲインを乗じる構成を取るようにしても良い。
拡張音声加算手段108は、与えられた入力音声と調整拡張音声とを加算して広帯域化音声を生成して出力する。ここまで、拡張音声及び調整拡張音声は入力帯域に成分を有さないことを前提として説明したが、仮に、入力帯域に何らかの成分を有していて、しかもこれを除去したい場合には、入力音声との加算を行う前に入力帯域の成分を除去するフィルタを調整拡張音声にかける構成が取られる。
(B−2)第1の実施形態の動作
次に、第1の実施形態の音声帯域拡張装置100の動作を説明する。
音声帯域拡張装置100において、入力音声は、特徴量抽出手段101、目標特徴量保持手段102、補正量推定手段103、拡張音声生成手段106及び拡張音声加算手段108に与えられる。
特徴量抽出手段101においては、与えられた入力音声の振幅に関する少なくとも1つ以上の振幅特徴量が抽出され、抽出された振幅特徴量が特徴量補正手段104に与えられる。
予め定められた目標振幅特徴量が目標特徴量保持手段102に保持されており、この目標振幅特徴量は補正量推定手段103に与えられる。
補正量推定手段103においては、特徴量抽出手段101で算出された振幅特徴量が与えられた目標振幅特徴量に近付くようにする補正量が推定され、推定された補正量が特徴量補正手段104に与えられる。
上述した補正量推定手段103の機能説明では一般論として説明したが、以下では、一例として、前処理がノイズキャンセラ(の処理)であり、かつ拡張ゲインの算出に用いる振幅特徴量が入力帯域振幅比である場合の補正量推定手段103における動作を具体的に説明する。
ノイズキャンセラは、主マイクロホンと参照マイクロホンと呼ばれて区別される少なくとも2つ以上のマイクロホンを用いて、目的音声が主要な目的音優勢音声と非目的音声が主要な非目的音優勢音声とを含む周囲音声を収録し、得られた2つ以上の収録音声から目的音優勢音声に含まれる非目的音声を推定して減じることで、非目的音声を抑圧し、目的音声を強調する方法である。ノイズキャンセラは、非目的音声を逐次推定するという仕様のため、周波数の低い成分は精度良く推定できるが、周波数の高い成分は追従し切れずに精度が落ちる傾向がある。従って、低い周波数成分の方が高い周波数成分に比べてより強く抑圧され易い。このため、入力音声の前処理としてノイズキャンセラが行われると、前処理が行われない入力音声と比べて低い周波数成分が弱くなる現象が生じ、振幅特徴量(入力帯域振幅比)が想定より大きな値となってしまう。
そこで、ノイズキャンセラで低い周波数成分が高い周波数成分に比べて多く抑圧された量を推定して補正量とし、当該補正量を低域側の振幅に加算してから入力帯域振幅比を得ることで、ノイズキャンセラが行われない場合の入力帯域振幅比に近い値を得ることができる。
今、時刻tにおける低域側の帯域の振幅をLt、高域側の帯域の振幅をHtとし、補正量ctは低域側の帯域の振幅に加算されるものとする。なお、補正量ctを低域側の帯域の振幅に加算するようにしたのは、ノイズキャンセラでは、低い周波数成分の方が高い周波数成分に比べてより強く抑圧され易く、それを補うためである。この例の場合、特徴量抽出手段101は、振幅特徴量として、低域側帯域振幅Lt及び高域側帯域の振幅Htを抽出して補正量推定手段103に与え、補正量推定手段103に入力音声を与える必要はない。
低域側帯域振幅Ltの条件付き期待値を(5)式、高域側帯域振幅Htの条件付き期待値を(6)式として、(7)式を満たすctを補正量として推定する。(7)式は、補正後の入力帯域振幅比と目標とする(標準的な)入力帯域振幅比との差が最小となるような補正量を探索することを表しており、その探索範囲を非負値に限定することで、低域側の帯域の振幅を逆に小さくしてしまうような誤った補正が行われないようにしている。(7)式を満たす補正量ctは、(8)式によって求めることができる。(8)式において、max(A,B)はAとBの大きい方を選択する演算である。
Figure 0006451136
振幅特徴量Vtは、特徴量補正手段104において、推定された補正量ctに基づいて補正され、得られた補正振幅特徴量V* tが拡張ゲイン算出手段105に与えられる。ここで、前処理がノイズキャンセラであり、かつ拡張ゲインの算出に用いる振幅特徴量が入力帯域振幅比である場合には、補正振幅特徴量V* tは(9)式で算出される。
Figure 0006451136
拡張ゲイン算出手段105においては、与えられた補正振幅特徴量に基づいて拡張ゲインが算出されて拡張音声調整手段107に与えられる。また、拡張音声生成手段106においては、与えられた入力音声に基づいて拡張音声が生成され、得られた拡張音声が拡張音声調整手段107に与えられる。
拡張音声の振幅は、拡張音声調整手段107において、拡張ゲインに基づいて調整され、得られた調整拡張音声が拡張音声加算手段108に与えられる。そして、拡張音声加算手段108において、入力音声と調整拡張音声とが加算されて広帯域化音声が生成されて出力される。
(B−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、入力音声が何らかの前処理によって変形させられていても、補正振幅特徴量が前処理によって変形させられていない音声から得た振幅特徴量に近い値を取るようにできるので、前処理の影響を軽減したより明瞭性の高い広帯域化音声を得ることができる。
(C)第2の実施形態
次に、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第2の実施形態を、図面を参照しながら説明する。
第1の実施形態では、補正量を常に推定していた。しかし、音声は振幅も周波数特性も時間と共に大きく変化するため、予め定められる目標振幅特徴量を適切な値に決定するのは難しい。
そこで、第2の実施形態では、音声が存在しない無音区間に対して目標振幅特徴量を定めておき、無音区間で補正量の推定を行う。無音区間が「完全な無音」であれば補正量の推定はできないが、空気のある自然界において「完全な無音」はまず存在しないため、実環境における収録において「完全な無音」となることはない。さらに、自然界で観測される微小な雑音の周波数特性は、エネルギが低域に偏る傾向がある。従って、無音区間の目標振幅特徴量を観測に基づいて決定し、無音区間における振幅特徴量の条件付き期待値が目標振幅特徴量に近付くように補正量を推定することで、安定な補正が可能となる。
(C−1)第2の実施形態の構成
図2は、第2の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
第2の実施形態の音声帯域拡張装置200は、図2に示すように、特徴量抽出手段101と、目標特徴量保持手段102と、無音区間検出手段209と、補正量推定手段203と、特徴量補正手段104と、拡張ゲイン算出手段105と、拡張音声生成手段106と、拡張音声調整手段107と、拡張音声加算手段108とを有する。
ここで、特徴量抽出手段101、目標特徴量保持手段102、無音区間検出手段209、補正量推定手段203及び特徴量補正手段104でなる部分が、第2の実施形態の音声特徴量抽出装置を構成している。
なお、特徴量抽出手段101、目標特徴量保持手段102、特徴量補正手段104、拡張ゲイン算出手段105、拡張音声生成手段106、拡張音声調整手段107及び拡張音声加算手段108の機能は、第1の実施形態のものと同様であるので、その説明は省略する。
無音区間検出手段209は、与えられた入力音声が無音であるか否かを判定し、無音ならば真(True)、無音でないならば偽(False)を無音区間検出値として設定し、補正量推定手段203に与えるものである。ここで、無音区間を検出する方法としては、多数提案されている既存の音声区間検出技術のいずれを適用しても良い。例えば、入力音声の振幅に対して、予め適当な閾値を設定して、当該振幅が閾値以下なら無音区間検出値を真とし、そうでないなら偽とする方法を適用できる。また、1回の無音区間と検出された全区間を真とするのではなく、その区間の先頭若しくは終了間際の所定長の部分区間を偽に変更するようにしても良く、このようにすれば無音の誤判定の悪影響を未然に防止することができる。
第2の実施形態の補正量推定手段203は、無音区間における情報だけを用いる点と、無音区間でのみ補正量を更新する点が、第1の実施形態の補正量推定手段103と異なっている。
補正量推定手段203は、与えられた無音区間検出値が真であるときには、入力音声から補正量の推定に必要な情報を抽出して蓄積し、蓄積されている情報に基づいて補正量を推定して特徴量補正手段104に与える。また、補正量推定手段203は、無音区間検出値が偽であるときには、情報の蓄積は行わず、最後に更新された補正量を現在の補正量として特徴量補正手段104に与える。
(C−2)第2の実施形態の動作
次に、第2の実施形態の音声帯域拡張装置200における動作を、第1の実施形態と異なる動作を中心に説明する。
第2の実施形態の場合、入力音声は、特徴量抽出手段101、目標特徴量保持手段102、無音区間検出手段209、補正量推定手段203、拡張音声生成手段106及び拡張音声加算手段108に与えられる。
特徴量抽出手段101において、入力音声の振幅に関する振幅特徴量が抽出され、抽出された振幅特徴量が特徴量補正手段104に与えられる点、予め定められた目標振幅特徴量が目標特徴量保持手段102から補正量推定手段203に与えられる点は、第1の実施形態と同様である。
無音区間検出手段209においては、入力音声が無音であるか否かが判定され、その判定結果に応じて真偽が設定された無音区間検出値が補正量推定手段203に与えられる。
第2の実施形態の補正量推定手段203において、無音区間検出値が真であるときには、入力音声から補正量の推定に必要な情報が抽出されて蓄積されると共に、その蓄積された情報に基づいて、第1の実施形態と同様にして、補正量が推定されて特徴量補正手段104に与えられる。また、補正量推定手段203において、無音区間検出値が偽であるときには、情報の蓄積が実行されず、最後に更新された補正量が現在の補正量として特徴量補正手段104に与えられる。
特徴量補正手段104において、振幅特徴量が、補正量に基づいて補正され、得られた補正振幅特徴量が拡張ゲイン算出手段105に与えられる点、拡張ゲイン算出手段105において、与えられた補正振幅特徴量に基づいて拡張ゲインが算出されて拡張音声調整手段107に与えられる点、拡張音声生成手段106において、与えられた入力音声に基づいて拡張音声が生成され、得られた拡張音声が拡張音声調整手段107に与えられる点、拡張音声調整手段107において、拡張音声の振幅が拡張ゲインに基づいて調整され、得られた調整拡張音声が拡張音声加算手段108に与えられる点、拡張音声加算手段108において、入力音声と調整拡張音声とが加算されて広帯域化音声が生成されて出力される点等は、第1の実施形態の場合と同様である。
(C−3)第2の実施形態の効果
第2の実施形態によれば、変化の少ない無音区間で補正量の推定を行うことにより、振幅特徴量の安定な補正が可能となるため、より明瞭性の高い広帯域化音声を得ることができる。
(D)第3の実施形態
次に、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第3の実施形態を、図面を参照しながら説明する。
第2の実施形態では、無音区間の情報を補正量の推定に利用していた。しかし、入力音声に無音区間がほとんど存在しないこともあり得る。例えば、背景雑音がある場合(例えば、雑踏の中や、走行中の車の中、飲食店の中など)であって、前処理が背景雑音を抑圧する処理でない場合、若しくは、前処理が背景雑音をも抑圧する処理であるが抑圧が完全でない場合、無音区間はほとんど存在しない。このような場合には、第2の実施形態では、補正量の更新が行われなくなってしまう。
そこで、第3の実施形態では、無音区間の代わりに非音声区間(無音区間を含む)を検出すると共に、背景雑音(前処理による抑圧後の残留雑音を含む)の特徴によって目標振幅特徴量を切り替えることによって、背景雑音がある場合に前処理が行われた入力音声に対しても、前処理が行われない場合と同様の広帯域化音声を得られるようにしようとしたものである。
(D−1)第3の実施形態の構成
図3は、第3の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
第3の実施形態の音声帯域拡張装置300は、図3に示すように、特徴量抽出手段101と、非音声区間情報抽出手段310と、目標特徴量決定手段311と、補正量推定手段303と、特徴量補正手段104と、拡張ゲイン算出手段105と、拡張音声生成手段106と、拡張音声調整手段107と、拡張音声加算手段108とを有する。
ここで、特徴量抽出手段101、非音声区間情報抽出手段310、目標特徴量決定手段311、補正量推定手段303及び特徴量補正手段104でなる部分が、第3の実施形態の音声特徴量抽出装置を構成している。
なお、特徴量抽出手段101、特徴量補正手段104、拡張ゲイン算出手段105、拡張音声生成手段106、拡張音声調整手段107及び拡張音声加算手段108の機能は、第1の実施形態のものと同様であるので、その説明は省略する。
非音声区間情報抽出手段310は、与えられた入力音声が非音声区間であるか否かを判定して、非音声区間ならば非音声区間検出値を真とし、そうでないならば非音声区間検出値を偽とするものである。また、非音声区間情報抽出手段310は、入力音声が非音声区間であるならば、入力音声の周波数特性に関する情報を抽出して背景雑音情報とするものである。非音声区間情報抽出手段310は、得られた非音声区間検出値と背景雑音情報とを目標特徴量決定手段311に与え、得られた非音声区間検出値を補正量推定手段303に与えるものである。
非音声区間の検出については、単純に入力音声の振幅を閾値と比較するだけでは不十分であり、既存の音声検出技術を用いる必要がある。例えば、参考文献『R.Martin,”An Efficient Algorithm to Estimate the Instantaneous SNR of Speech Signals”,Proc. EUROSPEECH‘93,pp.1093−1096,1993』に開示されている方法を適用することができる。
背景雑音情報として用いられる入力音声の周波数特性は、ある程度、周波数軸方向に平滑化されている方が好ましい。例えば、6個程度の帯域数のフィルタバンクの各フィルタ出力の振幅(又はパワー)を背景雑音情報として適用することは好適である。また例えば、FFT(Fast Fourier Transform;高速フーリエ変換)によって得られた振幅スペクトルを6個程度にグルーピングしてグループ毎に平均値を取って、背景雑音情報とするようにしても良い。なお、上記では帯域数が6個である場合に言及したが、帯域数は限定されず、帯域数として4〜16個を適用することは好適である。
目標特徴量決定手段311は、非音声区間検出値が真であるときには、背景雑音情報に基づいて目標振幅特徴量を決定して記憶し、得られた目標振幅特徴量を補正量推定手段303に与える。一方、目標特徴量決定手段311は、非音声区間検出値が偽であるときには、目標振幅特徴量の決定動作を実行せず、最も直前に決定された目標振幅特徴量を補正量推定手段303に与える。
背景雑音情報に基づいた目標振幅特徴量の決定には、例えば、パターンマッチングを利用することが好適である。事前の学習により、背景雑音情報と目標振幅特徴量とを対応付けて(紐付けて)おく。目標特徴量決定手段311は、事前に学習しておいた背景雑音情報のコードブック(各帯域の値の集合)と入力音声から得られた現在の背景雑音情報とのパターンマッチングを行って目標振幅特徴量を選択する。例えば、用意しておくパターン(コードブック)は少なくとも4パターン以上であることが好ましい。
なお、前処理によって変形させられた背景雑音情報から変形させられる前の背景雑音を推定でき、適切な目標振幅特徴量を決定することができる方法であれば、パターンマッチング以外の方法を、背景雑音情報に基づいた目標振幅特徴量の決定に用いることもできる。
補正量推定手段303は、非音声区間検出値が真であるときには、入力音声から補正量の推定に必要な情報を抽出して蓄積し、与えられた目標振幅特徴量と蓄積されている情報とに基づいて補正量を推定して特徴量補正手段104に与える。一方、補正量推定手段303は、非音声区間検出値が偽であるときには、補正量の蓄積は行わず、最後に更新された補正量を現在の補正量として特徴量補正手段104に与える。
(D−2)第3の実施形態の動作
次に、第3の実施形態の音声帯域拡張装置300における動作を、第1の実施形態と異なる動作を中心に説明する。
第3の実施形態の場合、入力音声は、特徴量抽出手段101、非音声区間情報抽出手段310、目標特徴量決定手段311、補正量推定手段303、拡張音声生成手段106及び拡張音声加算手段108に与えられる。
特徴量抽出手段101において、入力音声の振幅に関する振幅特徴量が抽出され、抽出された振幅特徴量が特徴量補正手段104に与えられる点は、第1の実施形態と同様である。
非音声区間情報抽出手段310においては、入力音声が非音声区間であるか否かが判定されて判定結果に応じた非音声区間検出値が形成されると共に、入力音声が非音声区間であるならば、入力音声の周波数特性に関する情報が抽出されて背景雑音情報とされ、得られた非音声区間検出値と背景雑音情報とが目標特徴量決定手段311に与えられ、得られた非音声区間検出値が補正量推定手段303に与えられる。
目標特徴量決定手段311においては、非音声区間検出値が真であるときには、背景雑音情報に基づいて目標振幅特徴量が決定されて記憶され、得られた目標振幅特徴量が補正量推定手段303に与えられ、一方、非音声区間検出値が偽であるときには、目標振幅特徴量の決定動作は実行されず、最も直前に決定、記憶された目標振幅特徴量が補正量推定手段303に与えられる。
補正量推定手段303においては、非音声区間検出値が真であるときには、入力音声から補正量の推定に必要な情報が抽出されて蓄積され、与えられた目標振幅特徴量と蓄積されている情報とに基づいて補正量が推定されて特徴量補正手段104に与えられ、一方、非音声区間検出値が偽であるときには、補正量の推定、蓄積は実行されず、最後に更新された補正量が現在の補正量として特徴量補正手段104に与えられる。
特徴量補正手段104において、振幅特徴量が、補正量に基づいて補正され、得られた補正振幅特徴量が拡張ゲイン算出手段105に与えられる点、拡張ゲイン算出手段105において、与えられた補正振幅特徴量に基づいて拡張ゲインが算出されて拡張音声調整手段107に与えられる点、拡張音声生成手段106において、与えられた入力音声に基づいて拡張音声が生成され、得られた拡張音声が拡張音声調整手段107に与えられる点、拡張音声調整手段107において、拡張音声の振幅が拡張ゲインに基づいて調整され、得られた調整拡張音声が拡張音声加算手段108に与えられる点、拡張音声加算手段108において、入力音声と調整拡張音声とが加算されて広帯域化音声が生成されて出力される点等は、第1の実施形態の場合と同様である。
(D−3)第3の実施形態の効果
第3の実施形態によれば、背景雑音がある場合でも、振幅特徴量を適切に補正できるため、より明瞭性の高い広帯域化音声を得ることができる。
(E)第4の実施形態
次に、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第4の実施形態を、図面を参照しながら説明する。
第2の実施形態や第3の実施形態では、無音区間若しくは非音声区間でのみ補正量を更新し、音声区間では補正量を更新しない動作となっていた。しかし、音声区間においても前処理によって周波数特性が大きく変形している場合がある。例えば、ノイズキャンセラによって日本語の音素/i/の第1フォルマント(500Hz程度)が減衰させられる場合などがある。このような場合、無音区間若しくは非音声区間で推定された補正量では補正の度合いが不十分となることも生じる。
そこで、第4の実施形態では、補正量を入力音声の振幅によって変化させることにより、このような不都合を解決しようとしたものである。
上述のように、第4の実施形態の技術思想は、第2の実施形態の改良として適用することもできれば、第3の実施形態の改良として適用することもできるが、以下では、第2の実施形態を改良したものとして第4の実施形態を説明する。
第4の実施形態の音声帯域拡張装置400も、構成要素は、図2に示した第2の実施形態の音声帯域拡張装置200と同様である。しかし、補正量推定手段及び特徴量補正手段の機能が第2の実施形態のものと多少異なっている。以下では、第4の実施形態の補正量推定手段に対してそれぞれ、符号「403」を付与して言及する。
第2の実施形態の補正量推定手段203は、無音区間検出値が偽であった場合、すなわち、音声区間では補正量の更新は行わず、最も近い過去で更新された補正量(以下、直前更新補正量と呼ぶ)を出力していた。
これに対して、第4の実施形態の補正量推定手段403は、無音区間検出値が偽であった場合には、直前更新補正量を入力帯域の振幅で修正した修正補正量を算出し、特徴量補正手段404に与える。なお、補正量推定手段403は、無音区間検出値が真であった場合には、直前更新補正量をそのまま修正補正量として特徴量補正手段404に与える。
音声区間における直前更新補正量の修正は、入力帯域の振幅が大きい場合には大きくなるようにし、入力帯域の振幅が小さい場合には修正しないという処理であれば良い。このような処理を実現できるのであれば、実現方法は限定されない。以下、好適な実現方法例を説明する。
入力帯域の振幅の長期平均値を算出しておいて、現在の入力帯域の振幅を当該長期平均値で除することで正規化振幅を算出する。そして、補正量をct、修正補正量をdt、正規化振幅をaとして、(10)式によって修正補正量dtを算出する。ここで、wは修正重み係数、a1とa2は正規化振幅aに対する閾値である。例えば、a1=0.125、a2=1、wが10〜40の範囲内の値であることは好適である。図4は、(10)式の変換式をグラフ状に示した説明図である。
Figure 0006451136
特徴量補正手段104は、補正量ctの代わりに修正補正量dtを使って、振幅特徴量を補正する。
以上では第2の実施形態を改良した場合を説明したが、第3の実施形態を改良する場合であれば、以上の説明における「無音区間検出値」を「非音声区間検出値」に置き換えて適用すれば良い。
動作説明は省略するが、第4の実施形態によれば、音声区間でも振幅特徴量を適切に補正できるため、より明瞭性の高い広帯域化音声を得ることができる。
(F)他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
第1及び第2の実施形態においては、目標振幅特徴量は予め定められていたが、利用者ユーザが目標特徴量を指定できるようにしても良い。また、第3の実施形態に関して言えば、ユーザが背景雑音情報を指定し、指定した背景雑音情報を目標特徴量決定手段311に入力するようにしても良い。第3の実施形態に関する他の実施形態としては、予め学習して用意しておくパターンマッチング用の複数のパターンでなる組を、複数組用意しておき、適用するパターンの組をユーザが指定できるようにしても良い。
第4の実施形態は、音声区間の補正量を、入力音声の振幅によって修正させるものを示したが、他の特徴量に基づいて音声区間の補正量を修正するようにしても良い。例えば、ノイズキャンセラによって減衰の影響を大きく受ける音素は限られており、そのような音素を検出して音声区間の補正量を修正するようにしても良い。例えば、音素/i/は、500Hz近傍に第1フォルマントがあり、2000Hz近傍に第2フォルマントがあり、それらの強度の比もある範囲内にあるので、学習情報を用意しておくことで音素/i/を検出でき、音素/i/を検出した際の修正重み係数を予め定めておくことにより補正量を修正できる。
第1の実施形態の説明で用いた(1)式などにおける期待値算出の開始時刻t0若しくは算出期間τが固定値であったが、t0若しくはτをユーザが指定できるようにしても良い。例えば、背景雑音の多少が異なる室外と室内とでt0若しくはτとして別個の値を適用し得るようにしても良い。例えば、ユーザが室内、室外を指定できるようにしても良く、また、GPS電波の受信強度などに応じて室内、室外を自動判定してt0若しくはτを設定するようにしても良い。
上記各実施形態を、入力音声は広帯域化音声と同一のサンプリング周波数を有しているという前提で説明したが、入力音声のサンプリング周波数が広帯域化音声のサンプリング周波数より低くても良い。この場合には、入力音声と拡張音声加算手段108との間の線上の、補正量推定手段103、無音区間検出手段209、又は補正量推定手段303に係る分岐点と、拡張音声生成手段106に係る分岐点との間に、入力音声のサンプリング周波数を広帯域化音声のサンプリング周波数へ変換するサンプリング変換手段を挿入することを要する。
上記各実施形態では、特徴的な処理が時間領域の信号で処理される場合を示したが、特許文献1のように、周波数領域の信号で処理するようにしても良い。この場合において、入力音声と広帯域化音声のサンプリング周波数が異なるときには、上述したサンプリング変換手段に替えて特許文献1の周波数拡張手段を用いるようにしても良い。
上記では、音声帯域拡張装置を電話機器に適用する場合に言及したが、本発明の音声帯域拡張装置の用途が電話機器に限定されないことは勿論である。
また、上記各実施形態では、拡張帯域が高域側であるものを示したが、高域側に加えて低域側を拡張する場合にも、本発明の技術思想を適用することができる。
上記各実施形態では、本発明の音声特徴量抽出装置を音声帯域拡張装置に適用する場合を示したが、音声特徴量(振幅特徴量)を利用することを要する他の装置に、本発明の音声特徴量抽出装置を適用するようにしても良い。例えば、有声無声判定装置の中には、音声特徴量(振幅特徴量)を利用するものがあるが、有声無声判定装置における音声特徴量を抽出する構成として、本発明の音声特徴量抽出装置を適用するようにしても良い。
100、200、300、400…音声帯域拡張装置、101…特徴量抽出手段、102…目標特徴量保持手段、103、203、303、403…補正量推定手段、104、404…特徴量補正手段、105…拡張ゲイン算出手段、106…拡張音声生成手段、107…拡張音声調整手段、108…拡張音声加算手段、209…無音区間検出手段、310…非音声区間情報抽出手段、311…目標特徴量決定手段。

Claims (9)

  1. 入力音声に成分が存在しない周波数帯域に音声成分を追加して周波数帯域を拡張する音声帯域拡張装置において、
    上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、
    上記特徴量に対する補正量を推定する補正量推定手段と、
    上記補正量に基づいて、抽出された上記特徴量を補正して補正特徴量を得る特徴量補正手段と、
    上記入力音声から、上記入力音声が存在しない周波数帯域に成分を有する、上記補正特徴量に基づいて振幅又はパワーが調整された拡張音声を生成し、上記入力音声と合成して広帯域化音声を生成する広帯域化音声生成手段とを備え、
    上記補正量推定手段は、上記特徴量のうち1つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、
    上記特徴量の1つが、入力音声の異なる2つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、
    上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が0より小さければ0とし、上記暫定補正量が0以上であれば上記暫定補正量とする
    ことを特徴とする音声帯域拡張装置。
  2. 上記入力音声が無音であるか否かを判定する無音区間検出手段をさらに備え、
    上記補正量推定手段は、上記無音区間検出手段が無音区間であると判定した場合には上記補正量の推定を行い、上記無音区間検出手段が無音区間でないと判断した場合には上記補正量を更新しない
    ことを特徴とする請求項1に記載の音声帯域拡張装置。
  3. 上記補正量推定手段は、上記無音区間検出手段が無音区間でないと判断した場合には、上記入力音声の振幅に応じて、過去に無音区間と判定された中で最後に推定した上記補正量を修正することを特徴とする請求項に記載の音声帯域拡張装置。
  4. 上記入力音声を分析する非音声区間情報抽出手段をさらに備え、
    上記非音声区間情報抽出手段は、上記入力音声が非音声区間であるか否かを判定すると共に、非音声区間である場合には、上記入力音声の周波数特性を抽出し、
    上記補正量推定手段は、上記入力音声が非音声区間である場合には、上記周波数特性に基づいて目標特徴量を決定し、当該目標特徴量に基づいて上記補正量の推定を行い、上記入力音声が非音声区間でない場合には上記補正量を更新しない
    ことを特徴とする請求項1に記載の音声帯域拡張装置。
  5. 上記補正量推定手段は、上記入力音声が非音声区間でない場合には、上記入力音声の振幅に応じて、過去に非音声区間と判定された中で最後に推定した上記補正量を修正することを特徴とする請求項に記載の音声帯域拡張装置。
  6. 上記補正量推定手段は、
    上記入力音声の振幅の長期平均値を算出し、
    上記入力音声の振幅を上記長期平均値で除して正規化振幅を算出し、
    上記正規化振幅が第1の閾値より小さい場合には上記補正量を修正せず、
    上記正規化振幅が上記第1の閾値以上かつ第2の閾値より小さい場合には上記補正量に予め定められた修正重み係数と上記正規化振幅を乗じることで修正し、
    上記正規化振幅が上記第2の閾値以上の場合には上記補正量に上記修正重み係数と上記第2の閾値を乗じることで修正する
    ことを特徴とする請求項又はに記載の音声帯域拡張装置。
  7. 入力音声に成分が存在しない周波数帯域に音声成分を追加して周波数帯域を拡張する音声帯域拡張プログラムであって、
    コンピュータを、
    上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、
    上記特徴量に対する補正量を推定する補正量推定手段と、
    上記補正量に基づいて、抽出された上記特徴量を補正して補正特徴量を得る特徴量補正手段と、
    上記入力音声から、上記入力音声が存在しない周波数帯域に成分を有する、上記補正特徴量に基づいて振幅又はパワーが調整された拡張音声を生成し、上記入力音声と合成して広帯域化音声を生成する広帯域化音声生成手段と
    して機能させ、
    上記補正量推定手段は、上記特徴量のうち1つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、
    上記特徴量の1つが、入力音声の異なる2つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、
    上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が0より小さければ0とし、上記暫定補正量が0以上であれば上記暫定補正量とする
    ことを特徴とする音声帯域拡張プログラム。
  8. 入力音声における振幅又はパワーに関する特徴量を抽出する音声特徴量抽出装置において、
    上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、
    上記特徴量に対する補正量を推定する補正量推定手段と、
    上記補正量に基づいて、抽出された上記特徴量を補正して出力する特徴量補正手段とを備え、
    上記補正量推定手段は、上記特徴量のうち1つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、
    上記特徴量の1つが、入力音声の異なる2つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、
    上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が0より小さければ0とし、上記暫定補正量が0以上であれば上記暫定補正量とする
    ことを特徴とする音声特徴量抽出装置。
  9. 入力音声における振幅又はパワーに関する特徴量を抽出する音声特徴量抽出プログラムであって、
    コンピュータを、
    上記入力音声から振幅又はパワーに関する1つ以上の特徴量を抽出する特徴量抽出手段と、
    上記特徴量に対する補正量を推定する補正量推定手段と、
    上記補正量に基づいて、抽出された上記特徴量を補正して出力する特徴量補正手段と
    して機能させ、
    上記補正量推定手段は、上記特徴量のうち1つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、
    上記特徴量の1つが、入力音声の異なる2つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、
    上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が0より小さければ0とし、上記暫定補正量が0以上であれば上記暫定補正量とする
    ことを特徴とする音声特徴量抽出プログラム。
JP2014159620A 2014-08-05 2014-08-05 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム Active JP6451136B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014159620A JP6451136B2 (ja) 2014-08-05 2014-08-05 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014159620A JP6451136B2 (ja) 2014-08-05 2014-08-05 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2016038409A JP2016038409A (ja) 2016-03-22
JP6451136B2 true JP6451136B2 (ja) 2019-01-16

Family

ID=55529543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014159620A Active JP6451136B2 (ja) 2014-08-05 2014-08-05 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6451136B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6451143B2 (ja) * 2014-08-20 2019-01-16 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム
CN107886966A (zh) * 2017-10-30 2018-04-06 捷开通讯(深圳)有限公司 终端及其优化语音命令的方法、存储装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3400474B2 (ja) * 1992-11-09 2003-04-28 株式会社リコー 音声認識装置および音声認識方法
JPH11212588A (ja) * 1998-01-22 1999-08-06 Hitachi Ltd 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP5840087B2 (ja) * 2012-07-19 2016-01-06 三菱電機株式会社 音声信号復元装置および音声信号復元方法
JP6152639B2 (ja) * 2012-11-27 2017-06-28 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム

Also Published As

Publication number Publication date
JP2016038409A (ja) 2016-03-22

Similar Documents

Publication Publication Date Title
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
EP2788980B1 (en) Harmonicity-based single-channel speech quality estimation
US10510363B2 (en) Pitch detection algorithm based on PWVT
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
CN103440872B (zh) 瞬态噪声的去噪方法
EP3411876B1 (en) Babble noise suppression
CN107533848B (zh) 用于话音恢复的系统和方法
Kleinschmidt et al. The use of phase in complex spectrum subtraction for robust speech recognition
JP2011033717A (ja) 雑音抑圧装置
CN106356076B (zh) 基于人工智能的语音活动性检测方法和装置
JP6451136B2 (ja) 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム
US10297272B2 (en) Signal processor
Shannon et al. Role of phase estimation in speech enhancement
US20150162014A1 (en) Systems and methods for enhancing an audio signal
CN111755025B (zh) 一种基于音频特征的状态检测方法、装置及设备
Ouzounov A robust feature for speech detection
KR102051966B1 (ko) 음성 인식 향상 장치 및 방법
Tiwari et al. Speech enhancement using noise estimation with dynamic quantile tracking
JP5687522B2 (ja) 音声強調装置、方法、及びプログラム
JP2005258215A (ja) 信号処理方法及び信号処理装置
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Wang et al. Speech enhancement using a joint MAP estimation of LP parameters
Chen et al. Speech enhancement in car noise envoronment based on an analysis-synthesis approach using harmonic noise model
Son et al. Improved speech absence probability estimation based on environmental noise classification
Krishnamoorthy et al. Application of combined temporal and spectral processing methods for speaker recognition under noisy, reverberant or multi-speaker environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180612

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181126

R150 Certificate of patent or registration of utility model

Ref document number: 6451136

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150