JP2007079389A - 音声分析方法および音声分析装置 - Google Patents
音声分析方法および音声分析装置 Download PDFInfo
- Publication number
- JP2007079389A JP2007079389A JP2005269864A JP2005269864A JP2007079389A JP 2007079389 A JP2007079389 A JP 2007079389A JP 2005269864 A JP2005269864 A JP 2005269864A JP 2005269864 A JP2005269864 A JP 2005269864A JP 2007079389 A JP2007079389 A JP 2007079389A
- Authority
- JP
- Japan
- Prior art keywords
- band
- spectrum
- flooring
- component
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】スペクトル値のフロアリングを雑音の状況に応じて適切に行うことができる音声分析方法および音声分析装置を提供する。
【解決手段】 音声信号のスペクトル(帯域スペクトルまたは対数帯域スペクトル)が求められ、その所定時間に渡るヒストグラムがヒストグラム作成部31によって作成される。適合分布演算部32は、そのヒストグラムに適合する2成分混合ガウス分布を求める。経験則により、低パワー域の分布が雑音成分の分布と推定され、高パワー域の分布が信号成分の分布と推定される。フロアリング値演算部33は、信号成分または雑音成分の平均値を用いてフロアリング値を定める。フロアリング実行部34は、そのフロアリング値によりスペクトルをフロアリングする。フロアリング値は、信号成分または雑音成分の平均値および標準偏差を用いて定められてもよい。
【選択図】 図4
【解決手段】 音声信号のスペクトル(帯域スペクトルまたは対数帯域スペクトル)が求められ、その所定時間に渡るヒストグラムがヒストグラム作成部31によって作成される。適合分布演算部32は、そのヒストグラムに適合する2成分混合ガウス分布を求める。経験則により、低パワー域の分布が雑音成分の分布と推定され、高パワー域の分布が信号成分の分布と推定される。フロアリング値演算部33は、信号成分または雑音成分の平均値を用いてフロアリング値を定める。フロアリング実行部34は、そのフロアリング値によりスペクトルをフロアリングする。フロアリング値は、信号成分または雑音成分の平均値および標準偏差を用いて定められてもよい。
【選択図】 図4
Description
この発明は、音声波から特徴を抽出するための音声分析方法および音声分析装置に関し、とくに、雑音(騒音)環境中における音声の分析に効果的な音声分析方法および音声分析装置に関する。また、この発明は、そのような音声分析方法および音声分析装置をそれぞれ用いた音声認識方法および音声認識装置、ならびに音声認識装置を用いた音声指示装置に関する。
自動車に搭載されるカーナビゲーション装置には、音声指示装置(音声入力インタフェース)を備えているものがある。音声指示装置は、運転者の音声を認識する音声認識装置と、認識された音声に対応した指示コマンドを生成するコマンド生成部とを含む。このコマンド生成部によって生成された指示コマンドに従って、カーナビゲーション装置は、目的地の設定、ルート検索その他の動作を実行する。
音声指示装置は、アイズフリーおよびハンズフリーのインタフェースであるため、運転者は、自動車の安全な運転を阻害されることなくカーナビゲーション装置の操作を行える。
自動車に限らず、自動二輪車においても、ナビゲーション装置その他の情報機器を利用したいという要求がある。この場合にも、自動車の場合と同様に、アイズフリーおよびハンズフリーのインタフェースが必要であり、前述のような音声指示装置はその最有力候補である。
自動車に限らず、自動二輪車においても、ナビゲーション装置その他の情報機器を利用したいという要求がある。この場合にも、自動車の場合と同様に、アイズフリーおよびハンズフリーのインタフェースが必要であり、前述のような音声指示装置はその最有力候補である。
自動二輪車の運転時における音声認識には、乗員の音声の検出のために、ヘルメット内の口元または鼻元などの適所に設けたマイクロフォンを用いるのが適切である。
しかし、自動二輪車の走行中には、乗員の音声だけでなく、風切り音、エンジン音およびロードノイズを含む高レベルの騒音もマイクロフォンによって検出される。したがって、音声認識率を高めるためには、騒音に対して頑健なシステムを構築する必要がある。
しかし、自動二輪車の走行中には、乗員の音声だけでなく、風切り音、エンジン音およびロードノイズを含む高レベルの騒音もマイクロフォンによって検出される。したがって、音声認識率を高めるためには、騒音に対して頑健なシステムを構築する必要がある。
一方、音声認識装置は、音声の特徴を抽出する音声分析部と、この音声分析部によって抽出された特徴に基づいて言語に復元する言語復号部とを含む。音声分析部は、たとえば、下記非特許文献1に示されているように、音声信号に対してFFT(高速フーリエ変換)を行ってスペクトルを求めるスペクトル解析部と、求められたスペクトルに対してメルスケール上に配置した帯域フィルタバンクによる処理を行って帯域スペクトル(帯域毎のパワーを表すスペクトル推定値)を求めるフィルタ処理部と、求められた帯域スペクトルを対数化する対数化処理部と、求められた帯域対数スペクトルに離散コサイン変換(DCT:Discrete Cosine Transform)を行ってケプストラム係数(メル周波数ケプストラム係数)を求めるDTC処理部とを含む。
メルスケールとは、人の聴覚に近い周波数間隔で周波数域を切り分けるスケール(尺度)である。人の聴覚は、低い周波数では細かく、高い周波数では粗い周波数分解能を持つ。したがって、メルスケールは、対数に近い非線形の特性を持つ。
音声認識では、音声スペクトルから周波数成分毎の時系列データを抽出する必要がある。そこで、メルスケール上に等間隔に配置された帯域フィルタ群(帯域フィルタバンク)によって、人の聴覚に対応した複数の周波数帯域ごとの帯域スペクトル(スペクトル推定値)が求められる。
音声認識では、音声スペクトルから周波数成分毎の時系列データを抽出する必要がある。そこで、メルスケール上に等間隔に配置された帯域フィルタ群(帯域フィルタバンク)によって、人の聴覚に対応した複数の周波数帯域ごとの帯域スペクトル(スペクトル推定値)が求められる。
ケプストラム(cepstrum)とは、対数スペクトルを逆フーリエ変換(前述の例では離散コサイン変換)したものであり、spectrum(スペクトル)の綴りを入れ換えた造語である。その変数は、ケフレンシー(quefrency)とよばれ、frequency(周波数)の綴りを入れ換えた造語である。ケフレンシーの次元は、時間である。ケプストラムは、音声のスペクトル包絡を表し、帯域スペクトルの特徴を表すものとして、音声認識処理における重要な特徴量となる。
雑音環境下では、雑音の重畳によって、スペクトル包絡の谷部が変形してしまう。すなわち、音声成分のスペクトル包絡は、複数のピークを有する形状となり、ピーク間には谷部が存在する。この谷部において雑音成分が現れ、音声成分のスペクトル包絡を変形させてしまう。そのため、雑音の有無および大小によって、スペクトル包絡の谷部の形状に顕著な差異が現れる。
そこで、非特許文献1では、スペクトル解析部から得られる単一スペクトル(帯域フィルタ群による処理前の連続スペクトル)の全成分またはフィルタ処理部から得られる全帯域(全チャンネル)の帯域スペクトルに対して、フロアリング処理を行うことが提案されている。フロアリング処理とは、最低値を一定のフロアリング値に固定する処理である。
Qifeng Zhuら著、Non-linear feature extraction for robust speech recognition in stationary and non-stationary noise、Computer Speech and Language 17 (2003) 381-402
Qifeng Zhuら著、Non-linear feature extraction for robust speech recognition in stationary and non-stationary noise、Computer Speech and Language 17 (2003) 381-402
ところが、非特許文献1の先行技術では、スペクトル値を一定値にフロアリングすることとしているため、雑音の時間変動に対応することができない。
また、雑音成分といえども、全周波数域において一定のパワーを有しているわけではなく、周波数成分または周波数帯域によってパワーが異なる。それに応じて、スペクトル包絡の変形度合いも、周波数成分または周波数帯域によって異なる。したがって、非特許文献1の先行技術のように、全周波数成分または全帯域(全チャンネル)に対して一定値でフロアリングを行うことは必ずしも適切ではない。
また、雑音成分といえども、全周波数域において一定のパワーを有しているわけではなく、周波数成分または周波数帯域によってパワーが異なる。それに応じて、スペクトル包絡の変形度合いも、周波数成分または周波数帯域によって異なる。したがって、非特許文献1の先行技術のように、全周波数成分または全帯域(全チャンネル)に対して一定値でフロアリングを行うことは必ずしも適切ではない。
この問題は、二輪車両における走行中の音声分析処理に限らず、四輪車両の車内での音声認識、その他の環境での音声認識に対しても共通の課題である。むろん、二輪車両の運転中には、雑音環境が時々刻々と激しく変化するので、より深刻な問題となる。
そこで、この発明の目的は、スペクトル値のフロアリングをより適切に行うことができる音声分析方法および音声分析装置を提供することである。
そこで、この発明の目的は、スペクトル値のフロアリングをより適切に行うことができる音声分析方法および音声分析装置を提供することである。
または、この発明の他の目的は、雑音環境中における音声認識率を高めることができる音声認識方法および音声認識装置を提供することである。
この発明のさらに他の目的は、雑音環境球においても音声指示を快適に行うことができる音声指示装置を提供することである。
この発明のさらに他の目的は、雑音環境球においても音声指示を快適に行うことができる音声指示装置を提供することである。
上記の目的を達成するための請求項1記載の発明は、音声信号のスペクトルを求めるスペクトル演算ステップと、このスペクトル演算ステップにおいて得られたスペクトル(より具体的には所定時間内に繰り返し行われるスペクトル演算によって得られる複数のスペクトル)から、音声に対応した信号成分の分布(より具体的には信号成分パワーの分布)と、雑音に対応した雑音成分の分布(より具体的には雑音成分パワーの分布)とを推定する成分分布推定ステップと、この成分分布推定ステップにおいて推定された信号成分または雑音成分の分布に基づいて、前記スペクトル演算ステップにおいて求められたスペクトルに対してフロアリング処理を行うフロアリングステップとを含む、音声分析方法である。
この方法によれば、音声信号のスペクトルから、信号成分および雑音成分の分布(より具体的には信号成分および雑音成分のパワー分布。対数パワーの分布でもよい。)が推定され、これに基づいてフロアリング処理が行われる。すなわち、フロアリング処理の内容が、信号成分および雑音成分の分布に依存して変動する。これにより、雑音の状況に適応したフロアリング処理が可能となり、音声の特徴をより適切に抽出できる音声分析処理が可能となる。具体的には、雑音成分の時間変動にも適応可能なフロアリング処理が可能となる。
より具体的には、信号成分および雑音成分のパワーの分布から、信号成分を可能な限り失わず、かつ、雑音成分を可能な限り除去することができるフロアリング値が定められる。音声信号のスペクトルの最低値(下限値)をそのフロアリング値に固定する処理(フロアリング処理)を行うことによって、雑音成分を効率的に除去することができる。
音声信号中に混在する雑音には、音声信号のスペクトルに対する加算によって近似的に表現される加法性雑音と、音声信号のスペクトルに対する乗算によって近似的に表現される乗算性歪みとがある。加法性雑音の典型例は背景雑音であり、四輪車両および二輪車両に代表される車両(自動車)の場合には、風切り音、エンジン音およびロードノイズがその具体例である。乗法性歪みの典型例は、マイクロフォンなどの伝送特性であり、たとえば、ヘルメットにマイクロフォンを固定する状況においては、ヘルメット内の音響特性に起因する乗法性歪みが存在する。
音声信号中に混在する雑音には、音声信号のスペクトルに対する加算によって近似的に表現される加法性雑音と、音声信号のスペクトルに対する乗算によって近似的に表現される乗算性歪みとがある。加法性雑音の典型例は背景雑音であり、四輪車両および二輪車両に代表される車両(自動車)の場合には、風切り音、エンジン音およびロードノイズがその具体例である。乗法性歪みの典型例は、マイクロフォンなどの伝送特性であり、たとえば、ヘルメットにマイクロフォンを固定する状況においては、ヘルメット内の音響特性に起因する乗法性歪みが存在する。
これらの雑音のうち、フロアリングによって抑制または排除されるのは、加法性雑音である。乗法性歪みは、たとえば、CMN(Cepstral Mean Normalization:ケプストラム平均除去法)、CVN(Cepstral Variance Normalization:ケプストラム分散正規化法)、またはMVN(Mean and Variance Normalization:CMNおよびCVNを組み合わせた正規化法)その他の既知の方法で特徴量(たとえばケプストラム)を正規化することによって抑制または排除することができる。
請求項2記載の発明は、前記成分分布推定ステップおよびフロアリングステップを個々の周波数成分毎に行う、請求項1記載の音声分析方法である。この方法によれば、個々の周波数成分に対して適切なフロアリング処理を行えるから、信号成分の損失を抑制しつつ、かつ、雑音成分を効果的に排除できる。
請求項3記載の発明は、前記スペクトル演算ステップは、所定のスケール(好ましくはメルスケール)に従って周波数域を分割するように定められた複数の帯域フィルタ群(フィルタバンク)を用いて、帯域(チャンネル)毎の音声信号のパワー(対数パワーでもよい。)を表す帯域スペクトル(スペクトル推定値)を求める帯域スペクトル演算ステップを含み、前記成分分布推定ステップおよびフロアリングステップを個々の帯域毎に行う、請求項1記載の音声分析方法である。
請求項3記載の発明は、前記スペクトル演算ステップは、所定のスケール(好ましくはメルスケール)に従って周波数域を分割するように定められた複数の帯域フィルタ群(フィルタバンク)を用いて、帯域(チャンネル)毎の音声信号のパワー(対数パワーでもよい。)を表す帯域スペクトル(スペクトル推定値)を求める帯域スペクトル演算ステップを含み、前記成分分布推定ステップおよびフロアリングステップを個々の帯域毎に行う、請求項1記載の音声分析方法である。
この方法によれば、帯域フィルタ群によって複数の帯域それぞれの帯域スペクトルに関して、雑音成分および信号成分の分布が推定される。そして、帯域毎にフロアリング処理が行われる。これにより、周波数帯域毎に雑音成分のパワーが異なる場合であっても、個々の帯域において適切なフロアリング処理を行うことができる。その結果、信号成分の損失が少なく、かつ、雑音成分を効果的に抑制できるフロアリング処理を実現できる。
請求項4記載の発明は、前記スペクトル演算ステップは、音声信号を周波数分析して、スペクトル(帯域毎に分割されていない単一(連続)スペクトル)を生成する周波数分析ステップと、この周波数分析ステップによって求められた前記スペクトルを、所定のスケール(たとえばメルスケール)に従って周波数域を分割するように定められた複数の帯域フィルタ群(フィルタバンク)を用いて処理することにより、帯域(チャンネル)毎の音声信号のパワーを表す帯域スペクトルを求める帯域スペクトル演算ステップと、この帯域スペクトル演算ステップにおいて求められた帯域スペクトルの対数をとることにより帯域対数スペクトルを算出する帯域対数スペクトル演算ステップとを含み、前記音声分析方法は、さらに、帯域対数スペクトル演算ステップにおいて求められた帯域対数スペクトルからケプストラム係数を演算するケプストラム係数演算ステップを含み、前記成分分布推定ステップおよびフロアリングステップは、周波数分析ステップと帯域スペクトル演算ステップとの間、帯域スペクトル演算ステップと帯域対数スペクトル演算ステップとの間、または帯域対数スペクトル演算ステップとケプストラム係数演算ステップとの間に行われる、請求項1ないし3のいずれかに記載の音声分析方法である。
すなわち、成分分布推定ステップおよびフロアリングステップは、ケプストラム係数演算ステップより以前のいずれかの段階のスペクトルに対して行えばよい。
周波数分析ステップと帯域スペクトル演算ステップとの間に成分分布推定ステップおよびフロアリングステップを行う場合には、たとえば、単一スペクトル(帯域分割前の連続スペクトル)の個々の周波数成分に関して、信号成分および雑音成分の分布が推定され、その推定結果に基づいてフロアリング処理が行われることになる。このフロアリング処理後の単一スペクトルに対して帯域スペクトル演算が行われることになる。
周波数分析ステップと帯域スペクトル演算ステップとの間に成分分布推定ステップおよびフロアリングステップを行う場合には、たとえば、単一スペクトル(帯域分割前の連続スペクトル)の個々の周波数成分に関して、信号成分および雑音成分の分布が推定され、その推定結果に基づいてフロアリング処理が行われることになる。このフロアリング処理後の単一スペクトルに対して帯域スペクトル演算が行われることになる。
また、帯域スペクトル演算ステップと帯域対数スペクトル演算ステップとの間に成分分布推定ステップおよびフロアリングステップを行う場合には、個々の帯域スペクトルに関して、信号成分および雑音成分の分布が推定され、その推定結果に基づいてフロアリング処理が行われることになる。このフロアリング処理後の帯域スペクトルに対して対数化演算が行われることになる。
さらに、帯域対数スペクトル演算ステップとケプストラム係数演算ステップとの間に成分分布推定ステップおよびフロアリングステップを行う場合には、個々の帯域対数スペクトルに関して、信号成分および雑音成分の分布が推定され、その推定結果に基づいてフロアリング処理が行われることになる。このフロアリング処理後の帯域対数スペクトルからケプストラム係数が演算されることになる。
前述の正規化処理による乗法性歪み除去処理は、ケプストラム係数演算ステップによって求められたケプストラム係数に対して行えばよい。
前記周波数分析ステップは、たとえば、DFT(離散フーリエ変換)分析、FFT(高速フーリエ変換)分析、DCT(離散コサイン変換)分析、LPC(線形予測)分析その他の周波数分析処理を行うステップである。
前記周波数分析ステップは、たとえば、DFT(離散フーリエ変換)分析、FFT(高速フーリエ変換)分析、DCT(離散コサイン変換)分析、LPC(線形予測)分析その他の周波数分析処理を行うステップである。
帯域フィルタ群を構成する帯域フィルタは、個々に定められた周波数帯域(チャンネル)内の周波数成分に対して重みを乗じて和をとることによってフィルタ値(当該帯域を代表するスペクトル推定値)を生成するものであってもよい。前記重みは、当該周波数帯域内の中心寄りの周波数成分ほど大きく(周辺寄りの周波数成分ほど小さく)なるような特性(三角形状の特性)に定められていてもよい。
請求項5記載の発明は、前記フロアリングステップは、成分分布推定ステップにおいて求められた信号成分または雑音成分の分布の平均に基づいてフロアリング処理を行うステップを含む、請求項1ないし4のいずれかに記載の音声分析方法である。
たとえば、雑音成分の分布の平均のパワーをフロアリング値としたり、平均のパワーに対して所定の係数(実数)を乗じた値をフロアリング値としたりしてもよい。
たとえば、雑音成分の分布の平均のパワーをフロアリング値としたり、平均のパワーに対して所定の係数(実数)を乗じた値をフロアリング値としたりしてもよい。
また、信号分布の平均のパワーから所定の値を差し引いた値をフロアリング値としたりしてもよい。
請求項6記載の発明は、前記フロアリングステップは、成分分布推定ステップにおいて求められた信号成分または雑音成分の分布の平均および標準偏差に基づいてフロアリング処理を行うステップを含む、請求項1ないし4のいずれかに記載の音声分析方法である。
請求項6記載の発明は、前記フロアリングステップは、成分分布推定ステップにおいて求められた信号成分または雑音成分の分布の平均および標準偏差に基づいてフロアリング処理を行うステップを含む、請求項1ないし4のいずれかに記載の音声分析方法である。
たとえば、雑音成分の分布の平均パワーおよび標準偏差の一次結合によって、フロアリング値を定めてもよい。同様に、信号成分の分布の平均パワーおよび標準偏差の一次結合によってフロアリング値を定めてもよい。
より具体的には、時刻tにおけるj番目の周波数成分または帯域成分のスペクトルQ(t)jを、時刻tの近傍の時間における雑音成分分布の平均MNj(t)および標準偏差ΔNj(t)により、次式に従ってフロアリング処理し、フロアリング後のスペクトルQ′j(t)を求めてもよい。ただし、次式中、α>0、βは実数である。
より具体的には、時刻tにおけるj番目の周波数成分または帯域成分のスペクトルQ(t)jを、時刻tの近傍の時間における雑音成分分布の平均MNj(t)および標準偏差ΔNj(t)により、次式に従ってフロアリング処理し、フロアリング後のスペクトルQ′j(t)を求めてもよい。ただし、次式中、α>0、βは実数である。
また、時刻tにおけるj番目の周波数成分または帯域成分のスペクトルQj(t)は、時刻tの近傍の時間における信号成分分布の平均MSj(t)および標準偏差ΔSj(t)により、次式に従ってフロアリング処理し、フロアリング後のスペクトルQ′j(t)を求めてもよい。ただし、次式中、γ>0である。
請求項7記載の発明は、前記成分分布推定ステップは、信号成分および雑音成分の分布に適合する2成分混合ガウス分布を求めるステップを含む、請求項1ないし6のいずれかに記載の音声分析方法である。
2成分混合ガウス分布を求めるステップは、たとえば、EM(Expectation-Maximization)アルゴリズム(不完全データから最尤推定値を数値的に求める汎用アルゴリズム)によって行われてもよい。
2成分混合ガウス分布を求めるステップは、たとえば、EM(Expectation-Maximization)アルゴリズム(不完全データから最尤推定値を数値的に求める汎用アルゴリズム)によって行われてもよい。
より具体的には、成分分布推定ステップは、スペクトルのパワーに関する頻度を表すヒストグラムを所定時間(たとえば0.2秒)毎に繰り返し作成するヒストグラム作成ステップと、作成されたヒストグラムを統計分析するステップとを含んでいてもよい。この統計分析を、ヒストグラムに適合する2成分混合ガウス分布(2つのガウス分布の混合分布)を演算する混合ガウス分布演算ステップによって行うことが好ましい。
一般に、雑音成分のパワーの分布は信号成分のパワーの分布よりも低パワー域に現れるから、相対的に低パワー域の分布を雑音成分の分布と推定し、相対的に高パワー域の分布を信号成分の分布と推定すればよい。
請求項8記載の発明は、請求項1ないし7のいずれかに記載の方法によって音声信号を分析する音声分析ステップと、音声分析ステップの結果に基づいて、認識辞書(具体的には、音響モデルおよび単語辞書を含むもの)との照合処理を行う照合ステップとを含む、音声認識方法である。
請求項8記載の発明は、請求項1ないし7のいずれかに記載の方法によって音声信号を分析する音声分析ステップと、音声分析ステップの結果に基づいて、認識辞書(具体的には、音響モデルおよび単語辞書を含むもの)との照合処理を行う照合ステップとを含む、音声認識方法である。
この方法により、フロアリング処理によって雑音成分の影響を効果的に除去して行われる音声分析処理の結果に基づいて、分析された音声信号が認識辞書と照合されるので、高雑音環境中でも、高い認識率を実現できる。
請求項9記載の発明は、音声信号のスペクトルを求めるスペクトル演算手段と、このスペクトル演算手段によって求められたスペクトルから、音声に対応した信号成分の分布と、雑音に対応した雑音成分の分布とを推定する成分分布推定手段と、この成分分布推定手段によって推定された信号成分または雑音成分の分布に基づいて、前記スペクトル演算手段によって求められたスペクトルに対してフロアリング処理を行うフロアリング手段とを含む、音声分析装置である。この構成により、雑音の状況に適応したフロアリング処理が可能となる。その結果、音声の特徴をより適切に抽出することができる。
請求項9記載の発明は、音声信号のスペクトルを求めるスペクトル演算手段と、このスペクトル演算手段によって求められたスペクトルから、音声に対応した信号成分の分布と、雑音に対応した雑音成分の分布とを推定する成分分布推定手段と、この成分分布推定手段によって推定された信号成分または雑音成分の分布に基づいて、前記スペクトル演算手段によって求められたスペクトルに対してフロアリング処理を行うフロアリング手段とを含む、音声分析装置である。この構成により、雑音の状況に適応したフロアリング処理が可能となる。その結果、音声の特徴をより適切に抽出することができる。
請求項10記載の発明は、前記成分分布推定手段は、前記スペクトル演算手段によって求められたスペクトルの個々の周波数成分に対して、信号成分の分布と雑音成分の分布とを推定するものであり、前記フロアリング手段は、個々の周波数成分毎にフロアリング処理を行う、請求項9記載の音声分析装置である。この構成により、個々の周波数成分に対して適切なフロアリング処理を行えるから、信号成分の損失を抑制しつつ、かつ、雑音成分を効果的に排除できる。
請求項11記載の発明は、前記スペクトル演算手段は、所定のスケール(好ましくはメルスケール)に従って周波数域を分割するように定められた複数の帯域フィルタ群(フィルタバンク)を用いて、帯域(チャンネル)毎の音声信号のパワー(対数パワーでもよい。を表す帯域スペクトルを求める帯域スペクトル演算手段を含み、前記成分分布推定手段は、前記スペクトル演算手段によって求められた帯域スペクトルに対して、信号成分の分布と雑音成分の分布とを推定するものであり、前記フロアリング手段は、個々の帯域毎にフロアリング処理を行う、請求項9記載の音声分析装置である。この構成により、個々の周波数帯域において適切なフロアリング処理を行うことができるので、信号成分の損失が少なく、かつ、雑音成分を効果的に抑制できるフロアリング処理を実現できる。
請求項12に記載されているように、前記スペクトル演算手段は、音声信号を周波数分析して、スペクトル(帯域毎に分割される前の単一(連続)スペクトル)を生成する周波数分析手段と、この周波数分析手段によって求められた前記スペクトルを、所定のスケールに従って周波数域を分割するように定められた複数の帯域フィルタ群(フィルタバンク)を用いて処理することにより、帯域(チャンネル)毎の音声信号のパワーを表す帯域スペクトルを求める帯域スペクトル演算手段と、この帯域スペクトル演算手段によって求められた帯域スペクトルの対数をとることにより帯域対数スペクトルを算出する帯域対数スペクトル演算手段とを含み、前記音声分析装置は、さらに、前記帯域対数スペクトル演算手段によって求められた帯域対数スペクトルからケプストラム係数を演算するケプストラム係数演算手段を含むことが好ましい。この場合に、前記成分分布推定手段は、前記周波数分析手段によって求められたスペクトル、前記帯域スペクトル演算手段によって求められた個々の帯域スペクトル、または前記帯域対数スペクトル演算手段によって求められた帯域対数スペクトルを処理対象として、信号成分および雑音成分の分布を推定するものであることが好ましい。
請求項13に記載されているように、前記フロアリング手段は、前記成分分布推定手段によって求められた信号成分または雑音成分の分布の平均に基づいてフロアリング処理を行うものであってもよい。
請求項14に記載されているように、前記フロアリング手段は、前記成分分布推定手段によって求められた信号成分または雑音成分の分布の平均および標準偏差に基づいてフロアリング処理を行うものであってもよい。
請求項14に記載されているように、前記フロアリング手段は、前記成分分布推定手段によって求められた信号成分または雑音成分の分布の平均および標準偏差に基づいてフロアリング処理を行うものであってもよい。
さらに、請求項15に記載されているように、前記フロアリング手段は、信号成分および雑音成分の分布に適合する2成分混合ガウス分布を求める手段を含むものであってもよい。
請求項16記載の発明は、請求項1ないし7のいずれかに記載の音声分析装置と、この音声分析装置による分析結果に基づいて、認識辞書との照合処理を行う照合手段とを含む、音声認識装置である。この構成により、フロアリング処理によって雑音成分の影響を効果的に除去して行われる音声分析処理の結果に基づいて、分析された音声信号が認識辞書と照合されるので、高雑音環境中でも、高い認識率を実現できる。
請求項16記載の発明は、請求項1ないし7のいずれかに記載の音声分析装置と、この音声分析装置による分析結果に基づいて、認識辞書との照合処理を行う照合手段とを含む、音声認識装置である。この構成により、フロアリング処理によって雑音成分の影響を効果的に除去して行われる音声分析処理の結果に基づいて、分析された音声信号が認識辞書と照合されるので、高雑音環境中でも、高い認識率を実現できる。
請求項17記載の発明は、請求項16記載の音声認識装置と、この音声認識装置による認識結果を所定の機器に入力するための指示コマンドデータに変換するコマンドデータ生成手段とを含む、音声指示装置である。この構成により、高雑音環境中でも高認識率が得られるので、雑音の影響を抑制して、機器の音声操作を快適に行うことができる。
以下では、この発明の実施の形態を、添付図面を参照して詳細に説明する。
図1は、この発明の一実施形態に係る音声指示装置の構成を説明するためのブロック図である。この音声指示装置10は、たとえば、二輪車両(自動二輪車)のような鞍乗り型車両に備えられる車載用情報機器50に対して、音声による指示を与えるための装置である。車載用情報機器50は、音声による指示操作が可能な情報機器である。このような車載用情報機器50の例としては、ナビゲーション装置(好ましくは、音声案内が可能なもの)、移動電話機、音再生装置(たとえば、MDプレーヤ、CDプレーヤその他のオーディオ装置)を挙げることができる。
図1は、この発明の一実施形態に係る音声指示装置の構成を説明するためのブロック図である。この音声指示装置10は、たとえば、二輪車両(自動二輪車)のような鞍乗り型車両に備えられる車載用情報機器50に対して、音声による指示を与えるための装置である。車載用情報機器50は、音声による指示操作が可能な情報機器である。このような車載用情報機器50の例としては、ナビゲーション装置(好ましくは、音声案内が可能なもの)、移動電話機、音再生装置(たとえば、MDプレーヤ、CDプレーヤその他のオーディオ装置)を挙げることができる。
この実施形態では、車両の乗員(通常は運転者であるが、同乗者であってもよい。)が装着するヘルメット1にマイクロフォン2およびスピーカ3が装備されている。マイクロフォン2は、ヘルメット1の口元部分に設けられ、スピーカ3は、ヘルメット1の耳元部分に設けられている。マイクロフォン2は、乗員が発する音声を検出し、その音声に対応した電気信号である音声信号を音声指示装置10に入力する。スピーカ3は、車載用情報機器50からの音声信号を受けて、その音声信号を音に変換する。これにより、車両の乗員は、音声によって車載用情報機器50に指示を与えることができるとともに、車載用情報機器50が生成する音情報を聴取することができる。こうして、ハンズフリーおよびアイズフリーのインタフェースが構築されている。
音声指示装置10は、ヘルメット1に装備されてもよいが、ヘルメット1の付属品を可能な限り少なくするためには、乗員の着衣等に保持される携帯型装置として構成したり、車両側に取り付けられる車載用装置として構成したりすることが好ましい。
マイクロフォン2と音声指示装置10との間の接続は、ケーブルを用いた有線接続により行ってもよいが、音声指示装置10を車載用装置として構成する場合には、無線通信によってそれらの間を接続することが好ましい。スピーカ3と車載用情報機器50との間の接続も同様に、ケーブルを用いた有線接続により行ってもよいが、無線通信接続の方が好ましい。無線通信の方式としては、たとえば、ブルーツゥース、赤外線通信その他の短距離無線通信方式を採用することができる。
マイクロフォン2と音声指示装置10との間の接続は、ケーブルを用いた有線接続により行ってもよいが、音声指示装置10を車載用装置として構成する場合には、無線通信によってそれらの間を接続することが好ましい。スピーカ3と車載用情報機器50との間の接続も同様に、ケーブルを用いた有線接続により行ってもよいが、無線通信接続の方が好ましい。無線通信の方式としては、たとえば、ブルーツゥース、赤外線通信その他の短距離無線通信方式を採用することができる。
音声指示装置10は、マイクロフォン2から入力される音声を認識する音声認識装置11と、この音声認識装置11による認識結果をコマンドデータに変換するコマンドデータ生成部12(コマンドデータ生成手段)とを備えている。コマンドデータ生成部12は、車載用情報機器50に入力可能な形式のコマンドデータを生成し、このコマンドデータを車載用情報機器50に与える。
音声認識装置11は、マイクロフォン2から入力される音声信号を分析してその音響的特徴を表す特徴量(この実施形態ではMFCC(メル周波数ケプストラム係数))を抽出する音声分析処理部15(音声分析装置)と、この音声分析処理部15によって抽出された特徴量から尤もらしい単語を認識結果として生成する照合処理部16(照合手段)と、音響モデル17と、単語辞書(言語モデル)18とを備えている。音響モデル17は、音声の所定単位(たとえば単語)ごとに標準音声パターンの音響的特徴をモデル化したものであり、入力音声パターンとの音響的な類似性の評価を行うための参照情報である。また、単語辞書18は、音響モデルの接続に関する制約を与えるための情報である。このような情報の典型は、或る単語に引き続いて別の単語が出現する確率である。照合処理部16は、音声分析処理部15から与えられる特徴量に対して、尤もらしい単語(または音素)を求め、これを認識結果として出力する。
図2は、音声分析処理部15の構成例を説明するためのブロック図である。音声分析処理部15は、音声信号に対してFFT(高速フーリエ変換)その他の周波数解析処理を行ってスペクトル(単一スペクトル。帯域分割されていない連続スペクトル)を求めるスペクトル解析部21(周波数分析手段)と、求められたスペクトルに対してメルスケール上に等間隔に配置した帯域フィルタ群(メルスケールフィルタバンク)による処理を行って帯域スペクトル(スペクトル推定値)を求めるフィルタ処理部22(帯域スペクトル演算手段)と、求められた個々の帯域スペクトルを対数化する対数化処理部23(帯域対数スペクトル演算手段)と、求められた個々の帯域対数スペクトルにフロアリング処理を行うフロアリング処理部24と、フロアリング処理後の帯域対数スペクトルに対して離散コサイン変換(DCT)を行ってケプストラム係数(MFCC。メル周波数ケプストラム係数)を求めるDTC処理部25(ケプストラム係数演算手段)と、求められたケプストラム係数を正規化する正規化処理部26とを含む。この正規化されたケプストラム係数が、音声分析結果としての特徴量である。正規化処理は、乗法性歪みを抑制するための処理であり、前述のCMN、CVN、MVNなどを適用することができる。
図3は、メルスケール帯域フィル群を示す。メルスケール帯域フィルタ群は、p個(たとえば、p=24)の帯域フィルタを含み、これらの通過帯域は、第1チャンネル〜第pチャンネルとよばれる。個々の帯域フィルタは、三角形の形をしており、このような帯域フィルタがメルスケール上で等間隔に配置されている。個々の帯域フィルタは、中心周波数f1……fpに対して重み「1」を付与し、中心周波数から離れるに従って重みが漸減し、個々の帯域フィルタに固有の通過帯域外の重みは「0」に設定されている。
第k(1≦k≦p)チャンネルの帯域フィルタの出力Ykは、スペクトル解析部21が生成する単一のスペクトルの個々の周波数成分に対して、当該帯域フィルタの対応する周波数成分に対して設定された重みを乗じ、その乗算結果の総和をとることによって得られる。こうして、単一スペクトルをp個の帯域スペクトル(スペクトル推定値)に分割することができ、個々の周波数成分を取り扱う場合に比較して、データの次数を少なくすることができる。
こうして求められたp個の帯域スペクトルの値が、対数化処理部23によって対数化され、p個の帯域対数スペクトル(対数パワー)が求められる。
図4は、フロアリング処理部24の詳細な構成例を示すブロック図である。フロアリング処理部24は、第1〜第pチャンネルの帯域対数スペクトル(対数パワー)に対してそれぞれフロアリング処理を行うp個のフロアリングユニット24−1〜24−pを備えている。第1〜第pチャンネルのフロアリングユニット24−1〜24−pは、いずれも同様の構成を有する。
図4は、フロアリング処理部24の詳細な構成例を示すブロック図である。フロアリング処理部24は、第1〜第pチャンネルの帯域対数スペクトル(対数パワー)に対してそれぞれフロアリング処理を行うp個のフロアリングユニット24−1〜24−pを備えている。第1〜第pチャンネルのフロアリングユニット24−1〜24−pは、いずれも同様の構成を有する。
より具体的には、第kチャンネルに対応したフロアリングユニット24−kは、第kチャンネルの帯域対数スペクトル(対数パワー)に関して、所定時間(たとえば0.2秒間)に渡るヒストグラムを当該所定時間毎に繰り返し作成するヒストグラム作成部31と、作成されたヒストグラムに適合する2成分混合ガウス分布を求める適合分布演算部32(と、求められた2成分混合ガウス分布に基づいてフロアリング値を求めるフロアリング値演算部33と、求められたフロアリング値で帯域対数スペクトルをフロアリングするフロアリング実行部34とを備えている。前記ヒストグラム作成部31および適合分布演算部32は、信号成分および雑音成分の分布を推定する成分分布推定手段を構成している。また、前記フロアリング値演算部33およびフロアリング実行部34は、推定された成分分布に基づいてスペクトルをフロアリングするフロアリング手段を構成している。
この構成により、第1〜第pチャンネルの帯域対数スペクトルに対して、個々のフロアリング値に基づくフロアリング処理が行われることになる。また、各チャンネルのフロアリング値も時間とともに変動していくので、時々刻々と変化する雑音状況に適応したフロアリング処理が可能になる。
なお、図4には、第1〜第pチャンネルに関するフロアリング処理が並列に実行される構成を示したが、第1〜第pチャンネルに関するフロアリング処理を順次処理によって行うようにしても差し支えない。
なお、図4には、第1〜第pチャンネルに関するフロアリング処理が並列に実行される構成を示したが、第1〜第pチャンネルに関するフロアリング処理を順次処理によって行うようにしても差し支えない。
図5は、ヒストグラム作成部31によって作成されるヒストグラムの例を示す。帯域対数スペクトル(対数パワー)を横軸にとってあり、正規化された相対頻度が縦軸にとってある。より具体的には、各チャンネルの帯域対数スペクトル(対数パワー)は、たとえば、10ミリ秒〜20ミリ秒毎に繰り返し演算される。この帯域対数スペクトルの値を、たとえば0.2秒間に渡って収集し、その値毎の頻度を求めることによって、ヒストグラムが作成される。この処理が、個々のチャンネルに対して行われる。図5に示されているのは、或る一つのチャンネルについて或る時間に求められたヒストグラムである。
乗員が発した音声に対応する信号成分のパワーは相対的に大きく、一方、風切り音、エンジン音、ロードノイズその他の雑音に対応した雑音成分は相対的にパワーが小さい。これは、経験的にわかっている事実である。
したがって、信号成分および雑音成分がそれぞれガウス分布に従うとすれば、帯域対数スペクトルのヒストグラムは、2成分混合ガウス分布によって近似できると考えられる。そこで、適合分布演算部32は、帯域対数パワーのヒストグラムに尤も適合する2成分混合ガウス分布をEMアルゴリズムによって求める。
したがって、信号成分および雑音成分がそれぞれガウス分布に従うとすれば、帯域対数スペクトルのヒストグラムは、2成分混合ガウス分布によって近似できると考えられる。そこで、適合分布演算部32は、帯域対数パワーのヒストグラムに尤も適合する2成分混合ガウス分布をEMアルゴリズムによって求める。
図6は、図5のヒストグラムに適合する2成分混合ガウス分布の一例を示す図である。横軸は帯域対数スペクトル(対数パワー)を表し、縦軸は相対頻度を表す。前述のとおり、信号成分のパワーは相対的に大きく、雑音成分のパワーは相対的に小さいので、パワーの大きな方の山は信号成分の分布を表し、パワーの小さな方の山は雑音成分の分布を表すものと推定できる。
フロアリング値演算部33は、適合分布演算部32によって求められた2成分ガウス分布に基づいて、第1チャンネル〜第pチャンネルの帯域対数パワーに関し、雑音成分および信号成分の平均値μ,mおよび標準偏差σ,sを求める。たとえば、図6に示された第kチャンネルの2成分混合ガウス分布から、第kチャンネルの帯域対数パワーに関して、雑音成分の平均値μk、信号成分の平均値mk、雑音成分の標準偏差σk、信号成分の標準偏差skを求める。
フロアリング値演算部33は、次の式(1)または式(2)のうちのいずれかにより、第kチャンネルの時刻tの帯域対数スペクトル(対数パワー)に適用されるフロアリング値PFk(t)を定める。
PFk(t)=α・μk(t)+β・σk(t) …… (1)
PFk(t)=mk(t)−γsk …… (2)
ただし、μk(t)は時刻tの近傍の時間(たとえば時刻t直前の一定時間、時刻tを含む一定時間、時刻tの直後の一定時間など)の帯域対数スペクトルに関して得られたヒストグラムから算出された雑音成分の平均値である。また、σk(t)は同様の期間の雑音成分の標準偏差であり、mkは同様の期間の信号成分の平均値であり、skは同様の期間の信号成分の標準偏差である。また、α>0、β=実数、γ>0である。
PFk(t)=α・μk(t)+β・σk(t) …… (1)
PFk(t)=mk(t)−γsk …… (2)
ただし、μk(t)は時刻tの近傍の時間(たとえば時刻t直前の一定時間、時刻tを含む一定時間、時刻tの直後の一定時間など)の帯域対数スペクトルに関して得られたヒストグラムから算出された雑音成分の平均値である。また、σk(t)は同様の期間の雑音成分の標準偏差であり、mkは同様の期間の信号成分の平均値であり、skは同様の期間の信号成分の標準偏差である。また、α>0、β=実数、γ>0である。
式(1)に従ってフロアリング値PFkを求める場合において、β=0であれば、フロアリング値PFkは雑音成分の平均値μkに基づいて定められることになる。この場合、雑音成分の標準偏差σkならびに信号成分の平均値mkおよびその標準偏差skの演算は不要である。一方、β≠0であれば、フロアリング値PFkは雑音成分の平均値μkおよび標準偏差σkに基づいて定められることになる。この場合、信号成分の平均値mkおよびその標準偏差skの演算は不要である。
式(2)に従ってフロアリング値PFkを求める場合の例は、図7に示されている。この場合、フロアリング値PFkは、信号成分の平均値mkおよびその標準偏差skに基づいて定められることになる。この場合、雑音成分の平均値μkおよび標準偏差σkの演算は不要である。定数γは0よりも大きな値であることが必要であるが、信号成分を可能な限り失うことなく雑音成分を可能な限り排除するためには、γ≧1とすることが好ましい。
フロアリング実行部34は、次の式(3)に従って、時刻tの帯域対数パワーPk(t)を、フロアリング処理後の帯域対数パワーP′k(t)に変換する。
こうして、下限値をフロアリング値PFk(t)に固定した帯域対数スペクトルが得られることになる。
以上のように、この実施形態によれば、フロアリング値は、一定値ではなく、時間とともに変動する値である。そのため、時々刻々と変動する雑音状況に適したフロアリング処理が可能になる。また、フロアリング値がチャンネル毎に演算されるので、個々の周波数帯域において適切なフロアリング処理が可能となる。こうして、加法性雑音を効果的に抑制または排除することができる。
以上のように、この実施形態によれば、フロアリング値は、一定値ではなく、時間とともに変動する値である。そのため、時々刻々と変動する雑音状況に適したフロアリング処理が可能になる。また、フロアリング値がチャンネル毎に演算されるので、個々の周波数帯域において適切なフロアリング処理が可能となる。こうして、加法性雑音を効果的に抑制または排除することができる。
このようなフロアリング処理を経て得られる帯域対数スペクトルに対して離散コサイン変換を行ってケプストラム係数が求められる。これによって、信号成分を十分に反映し、かつ、雑音成分を十分に排除した状態で、音響モデル17および単語辞書18との照合処理のための特徴量としてのケプストラム係数を得ることができる。その結果、認識率の大幅な向上が可能となり、車載用情報機器50の音声操作を快適に行うことができる。
とくに、二輪車両の走行中における音声認識は、高雑音環境中での処理であるうえ、雑音が絶えず変動する状況中での処理となる。このような状況においても、この実施形態によれば、帯域毎の個別のフロアリング値を信号および雑音の分布に応じて時間変化させることにより、高い認識率を確保して、車載用情報機器50の快適な音声操作を実現できる。
図8は、この発明の第2の実施形態に係る音声分析処理部15Aの構成を説明するためのブロック図である。この図8において、前述の図2に示された各部に対応する部分には、図2の場合と同一の参照符号を付して示す。また、前述の図4を併せて参照する。
この実施形態では、フィルタ処理部22によって処理された後の帯域スペクトルに対してフロアリング処理部24Aによるフロアリング処理が行われ、このフロアリング処理部24Aによる処理後の帯域スペクトルが対数化処理部23によって対数化されるようになっている。
この実施形態では、フィルタ処理部22によって処理された後の帯域スペクトルに対してフロアリング処理部24Aによるフロアリング処理が行われ、このフロアリング処理部24Aによる処理後の帯域スペクトルが対数化処理部23によって対数化されるようになっている。
フロアリング処理部24Aによる処理内容は、前述の実施形態におけるフロアリング処理部24の処理と同様であるが、処理対象が対数化前の帯域スペクトル(帯域パワー)である点が異なる。
すなわち、図4に示すように、フロアリング処理部24Aは、第1〜第pチャンネルの帯域パワーに対してそれぞれフロアリング処理を行うp個のフロアリングユニット24−1〜24−pを備えるか、または、一つもしくは複数のフロアリングユニットによる順次処理によって、第1〜第pチャンネルの帯域スペクトルに対するフロアリング処理を行う。ここでは、p個のフロアリングユニットを備える場合について説明する。
すなわち、図4に示すように、フロアリング処理部24Aは、第1〜第pチャンネルの帯域パワーに対してそれぞれフロアリング処理を行うp個のフロアリングユニット24−1〜24−pを備えるか、または、一つもしくは複数のフロアリングユニットによる順次処理によって、第1〜第pチャンネルの帯域スペクトルに対するフロアリング処理を行う。ここでは、p個のフロアリングユニットを備える場合について説明する。
第1〜第pチャンネルのフロアリングユニット24−1〜24−pは、いずれも同様の構成を有する。より具体的には、第kチャンネルに対応したフロアリングユニット24−kは、第kチャンネルの帯域パワーに関して、所定時間(たとえば0.2秒間)に渡る帯域パワーのヒストグラムを作成するヒストグラム作成部31と、作成されたヒストグラムに適合する2成分混合ガウス分布を求める適合分布演算部32と、求められた2成分混合ガウス分布に基づいてフロアリング値を求めるフロアリング値演算部33と、求められたフロアリング値で帯域スペクトルをフロアリングするフロアリング実行部34とを備えている。
この構成により、第1〜第pチャンネルの帯域スペクトルに対して、個々のフロアリング値に基づくフロアリング処理が行われることになる。また、各チャンネルのフロアリング値も時間とともに変動していくので、時々刻々と変化する雑音状況に適切に対応したフロアリング処理が行われる。
フロアリング値演算部33は、適合分布演算部32によって求められた2成分ガウス分布に基づいて、第1チャンネル〜第pチャンネルの帯域パワーに関し、雑音成分および信号成分の平均値μ,mおよび標準偏差σ,sを求める。たとえば、第kチャンネルの2成分混合ガウス分布から、第kチャンネルの帯域パワーに関して、雑音成分の平均値μk、信号成分の平均値mk、雑音成分の標準偏差σk、信号成分の標準偏差skを求める。
フロアリング値演算部33は、適合分布演算部32によって求められた2成分ガウス分布に基づいて、第1チャンネル〜第pチャンネルの帯域パワーに関し、雑音成分および信号成分の平均値μ,mおよび標準偏差σ,sを求める。たとえば、第kチャンネルの2成分混合ガウス分布から、第kチャンネルの帯域パワーに関して、雑音成分の平均値μk、信号成分の平均値mk、雑音成分の標準偏差σk、信号成分の標準偏差skを求める。
フロアリング値演算部33は、次の式(4)または式(5)のうちのいずれかにより、第kチャンネルの時刻tの帯域スペクトル(パワー)に適用されるフロアリング値XFk(t)を定める。
XFk(t)=α・μk(t)+β・σk(t) …… (4)
XFk(t)=mk(t)−γsk …… (5)
ただし、μk(t)は時刻tの近傍の時間(たとえば時刻tの直前の一定時間、時刻tを含む一定時間、時刻tの直後の一定時間など)の帯域パワーに関して得られたヒストグラムから算出された雑音成分の平均値である。また、σk(t)は同様の期間の雑音成分の標準偏差であり、mkは同様の期間の信号成分の平均値であり、skは同様の期間の信号成分の標準偏差である。また、α>0、β=実数、γ>0である。
XFk(t)=α・μk(t)+β・σk(t) …… (4)
XFk(t)=mk(t)−γsk …… (5)
ただし、μk(t)は時刻tの近傍の時間(たとえば時刻tの直前の一定時間、時刻tを含む一定時間、時刻tの直後の一定時間など)の帯域パワーに関して得られたヒストグラムから算出された雑音成分の平均値である。また、σk(t)は同様の期間の雑音成分の標準偏差であり、mkは同様の期間の信号成分の平均値であり、skは同様の期間の信号成分の標準偏差である。また、α>0、β=実数、γ>0である。
式(4)に従ってフロアリング値XFkを求める場合において、β=0であれば、フロアリング値XFkは雑音成分の平均値μkに基づいて定められることになる。この場合、雑音成分の標準偏差σkならびに信号成分の平均値mkおよびその標準偏差skの演算は不要である。一方、β≠0であれば、フロアリング値XFkは雑音成分の平均値μkおよび標準偏差σkに基づいて定められることになる。この場合、信号成分の平均値mkおよびその標準偏差skの演算は不要である。
式(5)に従ってフロアリング値XFkを求める場合、フロアリング値XFkは、信号成分の平均値mkおよびその標準偏差skに基づいて定められることになる。この場合、雑音成分の平均値μkおよび標準偏差σkの演算は不要である。定数γは0よりも大きな値であることが必要であるが、信号成分を可能な限り失うことなく雑音成分を可能な限り排除するためには、γ≧1とすることが好ましい。
フロアリング実行部34は、次の式(6)に従って、時刻tの帯域パワーXk(t)を、フロアリング処理後の帯域パワーX′k(t)に変換する。
こうして、下限値をフロアリング値XFk(t)に固定した帯域スペクトルが得られることになる。
図9は、この発明の第3の実施形態に係る音声分析処理部15Bの構成を説明するためのブロック図である。この図9において、前述の図2に示された各部に対応する部分には、図2の場合と同一の参照符号を付して示す。
図9は、この発明の第3の実施形態に係る音声分析処理部15Bの構成を説明するためのブロック図である。この図9において、前述の図2に示された各部に対応する部分には、図2の場合と同一の参照符号を付して示す。
この実施形態では、スペクトル解析部21によって求められた単一スペクトルに対して、フロアリング処理部24Bによるフロアリング処理が行われ、このフロアリング処理部24Bによる処理後の単一スペクトルがフィルタ処理部22によって処理されるようになっている。
フロアリング処理部24Bによる処理内容は、前述の第1および第2実施形態におけるフロアリング処理部24,24Aの処理と同様であるが、処理対象がフィルタ処理前の単一スペクトルの個々の周波数成分である点が異なる。すなわち、この実施形態の場合、チャンネル数分のフロアリング処理ではなく、周波数成分の個数分だけフロアリング処理を行うことになる。すなわち、個々の周波数成分ごとにフロアリング値が定められる。
フロアリング処理部24Bによる処理内容は、前述の第1および第2実施形態におけるフロアリング処理部24,24Aの処理と同様であるが、処理対象がフィルタ処理前の単一スペクトルの個々の周波数成分である点が異なる。すなわち、この実施形態の場合、チャンネル数分のフロアリング処理ではなく、周波数成分の個数分だけフロアリング処理を行うことになる。すなわち、個々の周波数成分ごとにフロアリング値が定められる。
すなわち、図10に示すように、フロアリング処理部24Bは、第1〜第N周波数成分のパワーに対してそれぞれフロアリング処理を行うN個のフロアリングユニット24−1〜24−Nを備えるか、または、一つもしくは複数のフロアリングユニットによる順次処理によって、第1〜第N周波数成分に対するフロアリング処理を行う。ここでは、N個のフロアリングユニットを備える場合について説明する。
第1〜第N周波数成分に対応したフロアリングユニット24−1〜24−Nは、いずれも同様の構成を有する。より具体的には、第K(1≦K≦N)周波数成分に対応したフロアリングユニット24−Kは、第K周波数成分のパワーに関して、所定時間(たとえば0.2秒間)に渡るヒストグラムを作成するヒストグラム作成部31と、作成されたヒストグラムに適合する2成分混合ガウス分布を求める適合分布演算部32と、求められた2成分混合ガウス分布に基づいてフロアリング値を求めるフロアリング値演算部33と、求められたフロアリング値で第K周波数成分のパワーをフロアリングするフロアリング実行部34とを備えている。
この構成により、第1〜第N周波数成分のスペクトルに対して、個々の周波数成分毎のフロアリング値に基づくフロアリング処理が行われることになる。また、各周波数成分のフロアリング値は時間とともに変動していくので、時々刻々と変化する雑音状況に適切に対応したフロアリング処理が行われる。
フロアリング値演算部33は、適合分布演算部32によって求められた2成分ガウス分布に基づいて、第1〜第N周波数成分のパワーに関し、雑音成分および信号成分の平均値μ,mおよび標準偏差σ,sを求める。たとえば、第K周波数成分の2成分混合ガウス分布から、第K周波数成分のパワーに関して、雑音成分の平均値μK、信号成分の平均値mK、雑音成分の標準偏差σK、信号成分の標準偏差sKを求める。
フロアリング値演算部33は、適合分布演算部32によって求められた2成分ガウス分布に基づいて、第1〜第N周波数成分のパワーに関し、雑音成分および信号成分の平均値μ,mおよび標準偏差σ,sを求める。たとえば、第K周波数成分の2成分混合ガウス分布から、第K周波数成分のパワーに関して、雑音成分の平均値μK、信号成分の平均値mK、雑音成分の標準偏差σK、信号成分の標準偏差sKを求める。
フロアリング値演算部33は、次の式(7)または式(8)のうちのいずれかにより、第K周波数成分の時刻tのスペクトル(パワー)に適用されるフロアリング値FFK(t)を定める。
FFK(t)=α・μK(t)+β・σK(t) …… (7)
FFK(t)=mK(t)−γsK …… (8)
ただし、μK(t)は時刻tの近傍の時間(たとえば時刻tの直前の一定時間、時刻tを含む一定時間、時刻tの直後の一定時間など)のパワーに関して得られたヒストグラムから算出された雑音成分の平均値である。また、σK(t)は同様の期間の雑音成分の標準偏差であり、mKは同様の期間の信号成分の平均値であり、sKは同様の期間の信号成分の標準偏差である。また、α>0、β=実数、γ>0である。
FFK(t)=α・μK(t)+β・σK(t) …… (7)
FFK(t)=mK(t)−γsK …… (8)
ただし、μK(t)は時刻tの近傍の時間(たとえば時刻tの直前の一定時間、時刻tを含む一定時間、時刻tの直後の一定時間など)のパワーに関して得られたヒストグラムから算出された雑音成分の平均値である。また、σK(t)は同様の期間の雑音成分の標準偏差であり、mKは同様の期間の信号成分の平均値であり、sKは同様の期間の信号成分の標準偏差である。また、α>0、β=実数、γ>0である。
式(7)に従ってフロアリング値FFKを求める場合において、β=0であれば、フロアリング値FFKは雑音成分の平均値μKに基づいて定められることになる。この場合、雑音成分の標準偏差σKならびに信号成分の平均値mKおよびその標準偏差sKの演算は不要である。一方、β≠0であれば、フロアリング値FFKは雑音成分の平均値μKおよび標準偏差σKに基づいて定められることになる。この場合、信号成分の平均値mKおよびその標準偏差sKの演算は不要である。
式(8)に従ってフロアリング値FFKを求める場合、フロアリング値FFKは、信号成分の平均値mKおよびその標準偏差sKに基づいて定められることになる。この場合、雑音成分の平均値μKおよび標準偏差σKの演算は不要である。定数γは0よりも大きな値であることが必要であるが、信号成分を可能な限り失うことなく雑音成分を可能な限り排除するためには、γ≧1とすることが好ましい。
フロアリング実行部34は、次の式(9)に従って、時刻tのパワーFK(t)を、フロアリング処理後の帯域パワーF′K(t)に変換する。
こうして、下限値をフロアリング値FFK(t)に固定した単一スペクトルが得られることになる。
以上、この発明の3つの実施形態について説明したが、この発明は、さらに他の形態で実施することもできる。たとえば、前述の実施形態では、二輪車両に代表される鞍乗り型車両に適用される音声指示装置を例にとったが、むろん、この実施形態は、四輪車両の車内においてカーナビゲーション装置の音声操作のために用いられる音声指示装置にも適用することができる。また、この発明は、車載用情報機器の音声操作に限らず、とくに騒音環境中で音声操作される機器に対して広く適用することができる。
以上、この発明の3つの実施形態について説明したが、この発明は、さらに他の形態で実施することもできる。たとえば、前述の実施形態では、二輪車両に代表される鞍乗り型車両に適用される音声指示装置を例にとったが、むろん、この実施形態は、四輪車両の車内においてカーナビゲーション装置の音声操作のために用いられる音声指示装置にも適用することができる。また、この発明は、車載用情報機器の音声操作に限らず、とくに騒音環境中で音声操作される機器に対して広く適用することができる。
その他、特許請求の範囲に記載された事項の範囲で種々の設計変更を施すことが可能である。
1 ヘルメット
2 マイクロフォン
3 スピーカ
10 音声指示装置
11 音声認識装置
12 コマンドデータ生成部
15 音声分析処理部
15A 音声分析処理部
15B 音声分析処理部
16 照合処理部
17 音響モデル
18 単語辞書
21 スペクトル解析部
22 フィルタ処理部
23 対数化処理部
24 フロアリング処理部
24−1〜24−p フロアリングユニット
24−1〜24−N フロアリングユニット
24A フロアリング処理部
24B フロアリング処理部
25 DTC処理部
26 正規化処理部
31 ヒストグラム作成部
32 適合分布演算部
33 フロアリング値演算部
34 フロアリング実行部
50 車載用情報機器
2 マイクロフォン
3 スピーカ
10 音声指示装置
11 音声認識装置
12 コマンドデータ生成部
15 音声分析処理部
15A 音声分析処理部
15B 音声分析処理部
16 照合処理部
17 音響モデル
18 単語辞書
21 スペクトル解析部
22 フィルタ処理部
23 対数化処理部
24 フロアリング処理部
24−1〜24−p フロアリングユニット
24−1〜24−N フロアリングユニット
24A フロアリング処理部
24B フロアリング処理部
25 DTC処理部
26 正規化処理部
31 ヒストグラム作成部
32 適合分布演算部
33 フロアリング値演算部
34 フロアリング実行部
50 車載用情報機器
Claims (17)
- 音声信号のスペクトルを求めるスペクトル演算ステップと、
このスペクトル演算ステップにおいて得られたスペクトルから、音声に対応した信号成分の分布と、雑音に対応した雑音成分の分布とを推定する成分分布推定ステップと、
この成分分布推定ステップにおいて推定された信号成分または雑音成分の分布に基づいて、前記スペクトル演算ステップにおいて求められたスペクトルに対してフロアリング処理を行うフロアリングステップとを含む、音声分析方法。 - 前記成分分布推定ステップおよびフロアリングステップを個々の周波数成分毎に行う、請求項1記載の音声分析方法。
- 前記スペクトル演算ステップは、所定のスケールに従って周波数域を分割するように定められた複数の帯域フィルタ群を用いて、帯域毎の音声信号のパワーを表す帯域スペクトルを求める帯域スペクトル演算ステップを含み、
前記成分分布推定ステップおよびフロアリングステップを個々の帯域毎に行う、請求項1記載の音声分析方法。 - 前記スペクトル演算ステップは、
音声信号を周波数分析して、スペクトルを生成する周波数分析ステップと、
この周波数分析ステップによって求められた前記スペクトルを、所定のスケールに従って周波数域を分割するように定められた複数の帯域フィルタ群を用いて処理することにより、帯域毎の音声信号のパワーを表す帯域スペクトルを求める帯域スペクトル演算ステップと、
この帯域スペクトル演算ステップにおいて求められた帯域スペクトルの対数をとることにより帯域対数スペクトルを算出する帯域対数スペクトル演算ステップとを含み、
前記音声分析方法は、さらに、前記帯域対数スペクトル演算ステップにおいて求められた帯域対数スペクトルからケプストラム係数を演算するケプストラム係数演算ステップを含み、
前記成分分布推定ステップおよびフロアリングステップは、周波数分析ステップと帯域スペクトル演算ステップとの間、帯域スペクトル演算ステップと帯域対数スペクトル演算ステップとの間、または帯域対数スペクトル演算ステップとケプストラム係数演算ステップとの間に行われる、請求項1ないし3のいずれかに記載の音声分析方法。 - 前記フロアリングステップは、成分分布推定ステップにおいて求められた信号成分または雑音成分の分布の平均に基づいてフロアリング処理を行うステップを含む、請求項1ないし4のいずれかに記載の音声分析方法。
- 前記フロアリングステップは、成分分布推定ステップにおいて求められた信号成分または雑音成分の分布の平均および標準偏差に基づいてフロアリング処理を行うステップを含む、請求項1ないし4のいずれかに記載の音声分析方法。
- 前記成分分布推定ステップは、信号成分および雑音成分の分布に適合する2成分混合ガウス分布を求めるステップを含む、請求項1ないし6のいずれかに記載の音声分析方法。
- 請求項1ないし7のいずれかに記載の方法によって音声信号を分析する音声分析ステップと、
音声分析ステップの結果に基づいて、認識辞書との照合処理を行う照合ステップとを含む、音声認識方法。 - 音声信号のスペクトルを求めるスペクトル演算手段と、
このスペクトル演算手段によって求められたスペクトルから、音声に対応した信号成分の分布と、雑音に対応した雑音成分の分布とを推定する成分分布推定手段と、
この成分分布推定手段によって推定された信号成分または雑音成分の分布に基づいて、前記スペクトル演算手段によって求められたスペクトルに対してフロアリング処理を行うフロアリング手段とを含む、音声分析装置。 - 前記成分分布推定手段は、前記スペクトル演算手段によって求められたスペクトルの個々の周波数成分に対して、信号成分の分布と雑音成分の分布とを推定するものであり、
前記フロアリング手段は、個々の周波数成分毎にフロアリング処理を行う、請求項9記載の音声分析装置。 - 前記スペクトル演算手段は、所定のスケールに従って周波数域を分割するように定められた複数の帯域フィルタ群を用いて、帯域毎の音声信号のパワーを表す帯域スペクトルを求める帯域スペクトル演算手段を含み、
前記成分分布推定手段は、前記スペクトル演算手段によって求められた帯域スペクトルに対して、信号成分の分布と雑音成分の分布とを推定するものであり、
前記フロアリング手段は、個々の帯域毎にフロアリング処理を行う、請求項9記載の音声分析装置。 - 前記スペクトル演算手段は、
音声信号を周波数分析して、スペクトルを生成する周波数分析手段と、
この周波数分析手段によって求められた前記スペクトルを、所定のスケールに従って周波数域を分割するように定められた複数の帯域フィルタ群を用いて処理することにより、帯域毎の音声信号のパワーを表す帯域スペクトルを求める帯域スペクトル演算手段と、
この帯域スペクトル演算手段によって求められた帯域スペクトルの対数をとることにより帯域対数スペクトルを算出する帯域対数スペクトル演算手段とを含み、
前記音声分析装置は、さらに、前記帯域対数スペクトル演算手段によって求められた帯域対数スペクトルからケプストラム係数を演算するケプストラム係数演算手段を含み、
前記成分分布推定手段は、前記周波数分析手段によって求められたスペクトル、前記帯域スペクトル演算手段によって求められた個々の帯域スペクトル、または前記帯域対数スペクトル演算手段によって求められた帯域対数スペクトルを処理対象として、信号成分および雑音成分の分布を推定するものである、請求項9ないし11のいずれかに記載の音声分析装置。 - 前記フロアリング手段は、前記成分分布推定手段によって求められた信号成分または雑音成分の分布の平均に基づいてフロアリング処理を行うものである、請求項9ないし12のいずれかに記載の音声分析装置。
- 前記フロアリング手段は、前記成分分布推定手段によって求められた信号成分または雑音成分の分布の平均および標準偏差に基づいてフロアリング処理を行うものである、請求項9ないし12のいずれかに記載の音声分析装置。
- 前記フロアリング手段は、信号成分および雑音成分の分布に適合する2成分混合ガウス分布を求める手段を含む、請求項9ないし14のいずれかに記載の音声分析装置。
- 請求項1ないし7のいずれかに記載の音声分析装置と、
この音声分析装置による分析結果に基づいて、認識辞書との照合処理を行う照合手段とを含む、音声認識装置。 - 請求項16記載の音声認識装置と、
この音声認識装置による認識結果を所定の機器に入力するための指示コマンドデータに変換するコマンドデータ生成手段とを含む、音声指示装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005269864A JP2007079389A (ja) | 2005-09-16 | 2005-09-16 | 音声分析方法および音声分析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005269864A JP2007079389A (ja) | 2005-09-16 | 2005-09-16 | 音声分析方法および音声分析装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007079389A true JP2007079389A (ja) | 2007-03-29 |
Family
ID=37939730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005269864A Withdrawn JP2007079389A (ja) | 2005-09-16 | 2005-09-16 | 音声分析方法および音声分析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007079389A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008252389A (ja) * | 2007-03-29 | 2008-10-16 | Casio Comput Co Ltd | 撮像装置、雑音除去方法及びプログラム |
JP2009058708A (ja) * | 2007-08-31 | 2009-03-19 | Internatl Business Mach Corp <Ibm> | 音声処理システム、方法及びプログラム |
JP2011085904A (ja) * | 2009-10-15 | 2011-04-28 | Honda Research Inst Europe Gmbh | 参照情報により雑音から分離された音声 |
KR101250051B1 (ko) * | 2011-09-09 | 2013-04-03 | (주)알고코리아 | 발음 교정을 위한 음성 신호 분석 방법 및 장치 |
JP2014515101A (ja) * | 2011-03-31 | 2014-06-26 | クアルコム,インコーポレイテッド | 携帯デバイスの位置を推論するデバイス、方法、および装置 |
-
2005
- 2005-09-16 JP JP2005269864A patent/JP2007079389A/ja not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008252389A (ja) * | 2007-03-29 | 2008-10-16 | Casio Comput Co Ltd | 撮像装置、雑音除去方法及びプログラム |
JP2009058708A (ja) * | 2007-08-31 | 2009-03-19 | Internatl Business Mach Corp <Ibm> | 音声処理システム、方法及びプログラム |
US8812312B2 (en) | 2007-08-31 | 2014-08-19 | International Business Machines Corporation | System, method and program for speech processing |
JP2011085904A (ja) * | 2009-10-15 | 2011-04-28 | Honda Research Inst Europe Gmbh | 参照情報により雑音から分離された音声 |
JP2014515101A (ja) * | 2011-03-31 | 2014-06-26 | クアルコム,インコーポレイテッド | 携帯デバイスの位置を推論するデバイス、方法、および装置 |
JP2016039999A (ja) * | 2011-03-31 | 2016-03-24 | クアルコム,インコーポレイテッド | 携帯デバイスの位置を推論するデバイス、方法、および装置 |
KR101250051B1 (ko) * | 2011-09-09 | 2013-04-03 | (주)알고코리아 | 발음 교정을 위한 음성 신호 분석 방법 및 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4757158B2 (ja) | 音信号処理方法、音信号処理装置及びコンピュータプログラム | |
US20170323653A1 (en) | Speech Enhancement and Audio Event Detection for an Environment with Non-Stationary Noise | |
EP2151821B1 (en) | Noise-reduction processing of speech signals | |
EP2431972B1 (en) | Method and apparatus for multi-sensory speech enhancement | |
US9190072B2 (en) | Local peak weighted-minimum mean square error (LPW-MMSE) estimation for robust speech | |
US5596679A (en) | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs | |
US8812312B2 (en) | System, method and program for speech processing | |
JP3584458B2 (ja) | パターン認識装置およびパターン認識方法 | |
Mitra et al. | Medium-duration modulation cepstral feature for robust speech recognition | |
US8566084B2 (en) | Speech processing based on time series of maximum values of cross-power spectrum phase between two consecutive speech frames | |
CN108630221A (zh) | 基于量化snr分析和自适应维纳滤波的音频信号质量增强 | |
CN108847253B (zh) | 车辆型号识别方法、装置、计算机设备及存储介质 | |
CN102723081B (zh) | 语音信号处理方法、语音和声纹识别方法及其装置 | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
JP2007079389A (ja) | 音声分析方法および音声分析装置 | |
US20130185067A1 (en) | Noise reduction method. program product and apparatus | |
Lei et al. | Speaker recognition using wavelet cepstral coefficient, i-vector, and cosine distance scoring and its application for forensics | |
CN110767215A (zh) | 一种训练语音识别模型、识别语音的方法及装置 | |
Loh et al. | Speech recognition interactive system for vehicle | |
Wang et al. | Speech enhancement based on NMF under electric vehicle noise condition | |
JP3786038B2 (ja) | 入力信号処理方法および入力信号処理装置 | |
KR20150144640A (ko) | 이상음원 판단장치 및 방법 | |
Fukuda et al. | Improved voice activity detection using static harmonic features | |
JP3493849B2 (ja) | 音声認識装置 | |
JP4325044B2 (ja) | 音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080822 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20100211 |