JP2007079389A

JP2007079389A - 音声分析方法および音声分析装置

Info

Publication number: JP2007079389A
Application number: JP2005269864A
Authority: JP
Inventors: Hiroshi Tanaka; 寛田中; Katsunobu Ito; 克亘伊藤; Kazuya Takeda; 一哉武田; Takashi Akasaka; 貴志赤坂
Original assignee: Yamaha Motor Co Ltd
Current assignee: Yamaha Motor Co Ltd
Priority date: 2005-09-16
Filing date: 2005-09-16
Publication date: 2007-03-29

Abstract

【課題】スペクトル値のフロアリングを雑音の状況に応じて適切に行うことができる音声分析方法および音声分析装置を提供する。
【解決手段】音声信号のスペクトル（帯域スペクトルまたは対数帯域スペクトル）が求められ、その所定時間に渡るヒストグラムがヒストグラム作成部３１によって作成される。適合分布演算部３２は、そのヒストグラムに適合する２成分混合ガウス分布を求める。経験則により、低パワー域の分布が雑音成分の分布と推定され、高パワー域の分布が信号成分の分布と推定される。フロアリング値演算部３３は、信号成分または雑音成分の平均値を用いてフロアリング値を定める。フロアリング実行部３４は、そのフロアリング値によりスペクトルをフロアリングする。フロアリング値は、信号成分または雑音成分の平均値および標準偏差を用いて定められてもよい。
【選択図】図４

Description

この発明は、音声波から特徴を抽出するための音声分析方法および音声分析装置に関し、とくに、雑音（騒音）環境中における音声の分析に効果的な音声分析方法および音声分析装置に関する。また、この発明は、そのような音声分析方法および音声分析装置をそれぞれ用いた音声認識方法および音声認識装置、ならびに音声認識装置を用いた音声指示装置に関する。

自動車に搭載されるカーナビゲーション装置には、音声指示装置（音声入力インタフェース）を備えているものがある。音声指示装置は、運転者の音声を認識する音声認識装置と、認識された音声に対応した指示コマンドを生成するコマンド生成部とを含む。このコマンド生成部によって生成された指示コマンドに従って、カーナビゲーション装置は、目的地の設定、ルート検索その他の動作を実行する。

音声指示装置は、アイズフリーおよびハンズフリーのインタフェースであるため、運転者は、自動車の安全な運転を阻害されることなくカーナビゲーション装置の操作を行える。
自動車に限らず、自動二輪車においても、ナビゲーション装置その他の情報機器を利用したいという要求がある。この場合にも、自動車の場合と同様に、アイズフリーおよびハンズフリーのインタフェースが必要であり、前述のような音声指示装置はその最有力候補である。

自動二輪車の運転時における音声認識には、乗員の音声の検出のために、ヘルメット内の口元または鼻元などの適所に設けたマイクロフォンを用いるのが適切である。
しかし、自動二輪車の走行中には、乗員の音声だけでなく、風切り音、エンジン音およびロードノイズを含む高レベルの騒音もマイクロフォンによって検出される。したがって、音声認識率を高めるためには、騒音に対して頑健なシステムを構築する必要がある。

一方、音声認識装置は、音声の特徴を抽出する音声分析部と、この音声分析部によって抽出された特徴に基づいて言語に復元する言語復号部とを含む。音声分析部は、たとえば、下記非特許文献１に示されているように、音声信号に対してＦＦＴ（高速フーリエ変換）を行ってスペクトルを求めるスペクトル解析部と、求められたスペクトルに対してメルスケール上に配置した帯域フィルタバンクによる処理を行って帯域スペクトル（帯域毎のパワーを表すスペクトル推定値）を求めるフィルタ処理部と、求められた帯域スペクトルを対数化する対数化処理部と、求められた帯域対数スペクトルに離散コサイン変換（ＤＣＴ：Discrete Cosine Transform）を行ってケプストラム係数（メル周波数ケプストラム係数）を求めるＤＴＣ処理部とを含む。

メルスケールとは、人の聴覚に近い周波数間隔で周波数域を切り分けるスケール（尺度）である。人の聴覚は、低い周波数では細かく、高い周波数では粗い周波数分解能を持つ。したがって、メルスケールは、対数に近い非線形の特性を持つ。
音声認識では、音声スペクトルから周波数成分毎の時系列データを抽出する必要がある。そこで、メルスケール上に等間隔に配置された帯域フィルタ群（帯域フィルタバンク）によって、人の聴覚に対応した複数の周波数帯域ごとの帯域スペクトル（スペクトル推定値）が求められる。

ケプストラム（cepstrum）とは、対数スペクトルを逆フーリエ変換（前述の例では離散コサイン変換）したものであり、spectrum（スペクトル）の綴りを入れ換えた造語である。その変数は、ケフレンシー（quefrency）とよばれ、frequency（周波数）の綴りを入れ換えた造語である。ケフレンシーの次元は、時間である。ケプストラムは、音声のスペクトル包絡を表し、帯域スペクトルの特徴を表すものとして、音声認識処理における重要な特徴量となる。

雑音環境下では、雑音の重畳によって、スペクトル包絡の谷部が変形してしまう。すなわち、音声成分のスペクトル包絡は、複数のピークを有する形状となり、ピーク間には谷部が存在する。この谷部において雑音成分が現れ、音声成分のスペクトル包絡を変形させてしまう。そのため、雑音の有無および大小によって、スペクトル包絡の谷部の形状に顕著な差異が現れる。

そこで、非特許文献１では、スペクトル解析部から得られる単一スペクトル（帯域フィルタ群による処理前の連続スペクトル）の全成分またはフィルタ処理部から得られる全帯域（全チャンネル）の帯域スペクトルに対して、フロアリング処理を行うことが提案されている。フロアリング処理とは、最低値を一定のフロアリング値に固定する処理である。
Qifeng Zhuら著、Non-linear feature extraction for robust speech recognition in stationary and non-stationary noise、Computer Speech and Language 17 (2003) 381-402

ところが、非特許文献１の先行技術では、スペクトル値を一定値にフロアリングすることとしているため、雑音の時間変動に対応することができない。
また、雑音成分といえども、全周波数域において一定のパワーを有しているわけではなく、周波数成分または周波数帯域によってパワーが異なる。それに応じて、スペクトル包絡の変形度合いも、周波数成分または周波数帯域によって異なる。したがって、非特許文献１の先行技術のように、全周波数成分または全帯域（全チャンネル）に対して一定値でフロアリングを行うことは必ずしも適切ではない。

この問題は、二輪車両における走行中の音声分析処理に限らず、四輪車両の車内での音声認識、その他の環境での音声認識に対しても共通の課題である。むろん、二輪車両の運転中には、雑音環境が時々刻々と激しく変化するので、より深刻な問題となる。
そこで、この発明の目的は、スペクトル値のフロアリングをより適切に行うことができる音声分析方法および音声分析装置を提供することである。

または、この発明の他の目的は、雑音環境中における音声認識率を高めることができる音声認識方法および音声認識装置を提供することである。
この発明のさらに他の目的は、雑音環境球においても音声指示を快適に行うことができる音声指示装置を提供することである。

上記の目的を達成するための請求項１記載の発明は、音声信号のスペクトルを求めるスペクトル演算ステップと、このスペクトル演算ステップにおいて得られたスペクトル（より具体的には所定時間内に繰り返し行われるスペクトル演算によって得られる複数のスペクトル）から、音声に対応した信号成分の分布（より具体的には信号成分パワーの分布）と、雑音に対応した雑音成分の分布（より具体的には雑音成分パワーの分布）とを推定する成分分布推定ステップと、この成分分布推定ステップにおいて推定された信号成分または雑音成分の分布に基づいて、前記スペクトル演算ステップにおいて求められたスペクトルに対してフロアリング処理を行うフロアリングステップとを含む、音声分析方法である。

この方法によれば、音声信号のスペクトルから、信号成分および雑音成分の分布（より具体的には信号成分および雑音成分のパワー分布。対数パワーの分布でもよい。）が推定され、これに基づいてフロアリング処理が行われる。すなわち、フロアリング処理の内容が、信号成分および雑音成分の分布に依存して変動する。これにより、雑音の状況に適応したフロアリング処理が可能となり、音声の特徴をより適切に抽出できる音声分析処理が可能となる。具体的には、雑音成分の時間変動にも適応可能なフロアリング処理が可能となる。

より具体的には、信号成分および雑音成分のパワーの分布から、信号成分を可能な限り失わず、かつ、雑音成分を可能な限り除去することができるフロアリング値が定められる。音声信号のスペクトルの最低値（下限値）をそのフロアリング値に固定する処理（フロアリング処理）を行うことによって、雑音成分を効率的に除去することができる。
音声信号中に混在する雑音には、音声信号のスペクトルに対する加算によって近似的に表現される加法性雑音と、音声信号のスペクトルに対する乗算によって近似的に表現される乗算性歪みとがある。加法性雑音の典型例は背景雑音であり、四輪車両および二輪車両に代表される車両（自動車）の場合には、風切り音、エンジン音およびロードノイズがその具体例である。乗法性歪みの典型例は、マイクロフォンなどの伝送特性であり、たとえば、ヘルメットにマイクロフォンを固定する状況においては、ヘルメット内の音響特性に起因する乗法性歪みが存在する。

これらの雑音のうち、フロアリングによって抑制または排除されるのは、加法性雑音である。乗法性歪みは、たとえば、ＣＭＮ（Cepstral Mean Normalization：ケプストラム平均除去法）、ＣＶＮ（Cepstral Variance Normalization：ケプストラム分散正規化法）、またはＭＶＮ（Mean and Variance Normalization：ＣＭＮおよびＣＶＮを組み合わせた正規化法）その他の既知の方法で特徴量（たとえばケプストラム）を正規化することによって抑制または排除することができる。

請求項２記載の発明は、前記成分分布推定ステップおよびフロアリングステップを個々の周波数成分毎に行う、請求項１記載の音声分析方法である。この方法によれば、個々の周波数成分に対して適切なフロアリング処理を行えるから、信号成分の損失を抑制しつつ、かつ、雑音成分を効果的に排除できる。
請求項３記載の発明は、前記スペクトル演算ステップは、所定のスケール（好ましくはメルスケール）に従って周波数域を分割するように定められた複数の帯域フィルタ群（フィルタバンク）を用いて、帯域（チャンネル）毎の音声信号のパワー（対数パワーでもよい。）を表す帯域スペクトル（スペクトル推定値）を求める帯域スペクトル演算ステップを含み、前記成分分布推定ステップおよびフロアリングステップを個々の帯域毎に行う、請求項１記載の音声分析方法である。

この方法によれば、帯域フィルタ群によって複数の帯域それぞれの帯域スペクトルに関して、雑音成分および信号成分の分布が推定される。そして、帯域毎にフロアリング処理が行われる。これにより、周波数帯域毎に雑音成分のパワーが異なる場合であっても、個々の帯域において適切なフロアリング処理を行うことができる。その結果、信号成分の損失が少なく、かつ、雑音成分を効果的に抑制できるフロアリング処理を実現できる。

請求項４記載の発明は、前記スペクトル演算ステップは、音声信号を周波数分析して、スペクトル（帯域毎に分割されていない単一（連続）スペクトル）を生成する周波数分析ステップと、この周波数分析ステップによって求められた前記スペクトルを、所定のスケール（たとえばメルスケール）に従って周波数域を分割するように定められた複数の帯域フィルタ群（フィルタバンク）を用いて処理することにより、帯域（チャンネル）毎の音声信号のパワーを表す帯域スペクトルを求める帯域スペクトル演算ステップと、この帯域スペクトル演算ステップにおいて求められた帯域スペクトルの対数をとることにより帯域対数スペクトルを算出する帯域対数スペクトル演算ステップとを含み、前記音声分析方法は、さらに、帯域対数スペクトル演算ステップにおいて求められた帯域対数スペクトルからケプストラム係数を演算するケプストラム係数演算ステップを含み、前記成分分布推定ステップおよびフロアリングステップは、周波数分析ステップと帯域スペクトル演算ステップとの間、帯域スペクトル演算ステップと帯域対数スペクトル演算ステップとの間、または帯域対数スペクトル演算ステップとケプストラム係数演算ステップとの間に行われる、請求項１ないし３のいずれかに記載の音声分析方法である。

すなわち、成分分布推定ステップおよびフロアリングステップは、ケプストラム係数演算ステップより以前のいずれかの段階のスペクトルに対して行えばよい。
周波数分析ステップと帯域スペクトル演算ステップとの間に成分分布推定ステップおよびフロアリングステップを行う場合には、たとえば、単一スペクトル（帯域分割前の連続スペクトル）の個々の周波数成分に関して、信号成分および雑音成分の分布が推定され、その推定結果に基づいてフロアリング処理が行われることになる。このフロアリング処理後の単一スペクトルに対して帯域スペクトル演算が行われることになる。

また、帯域スペクトル演算ステップと帯域対数スペクトル演算ステップとの間に成分分布推定ステップおよびフロアリングステップを行う場合には、個々の帯域スペクトルに関して、信号成分および雑音成分の分布が推定され、その推定結果に基づいてフロアリング処理が行われることになる。このフロアリング処理後の帯域スペクトルに対して対数化演算が行われることになる。

さらに、帯域対数スペクトル演算ステップとケプストラム係数演算ステップとの間に成分分布推定ステップおよびフロアリングステップを行う場合には、個々の帯域対数スペクトルに関して、信号成分および雑音成分の分布が推定され、その推定結果に基づいてフロアリング処理が行われることになる。このフロアリング処理後の帯域対数スペクトルからケプストラム係数が演算されることになる。

前述の正規化処理による乗法性歪み除去処理は、ケプストラム係数演算ステップによって求められたケプストラム係数に対して行えばよい。
前記周波数分析ステップは、たとえば、ＤＦＴ（離散フーリエ変換）分析、ＦＦＴ（高速フーリエ変換）分析、ＤＣＴ（離散コサイン変換）分析、ＬＰＣ（線形予測）分析その他の周波数分析処理を行うステップである。

帯域フィルタ群を構成する帯域フィルタは、個々に定められた周波数帯域（チャンネル）内の周波数成分に対して重みを乗じて和をとることによってフィルタ値（当該帯域を代表するスペクトル推定値）を生成するものであってもよい。前記重みは、当該周波数帯域内の中心寄りの周波数成分ほど大きく（周辺寄りの周波数成分ほど小さく）なるような特性（三角形状の特性）に定められていてもよい。

請求項５記載の発明は、前記フロアリングステップは、成分分布推定ステップにおいて求められた信号成分または雑音成分の分布の平均に基づいてフロアリング処理を行うステップを含む、請求項１ないし４のいずれかに記載の音声分析方法である。
たとえば、雑音成分の分布の平均のパワーをフロアリング値としたり、平均のパワーに対して所定の係数（実数）を乗じた値をフロアリング値としたりしてもよい。

また、信号分布の平均のパワーから所定の値を差し引いた値をフロアリング値としたりしてもよい。
請求項６記載の発明は、前記フロアリングステップは、成分分布推定ステップにおいて求められた信号成分または雑音成分の分布の平均および標準偏差に基づいてフロアリング処理を行うステップを含む、請求項１ないし４のいずれかに記載の音声分析方法である。

たとえば、雑音成分の分布の平均パワーおよび標準偏差の一次結合によって、フロアリング値を定めてもよい。同様に、信号成分の分布の平均パワーおよび標準偏差の一次結合によってフロアリング値を定めてもよい。
より具体的には、時刻ｔにおけるｊ番目の周波数成分または帯域成分のスペクトルＱ(t)_ｊを、時刻ｔの近傍の時間における雑音成分分布の平均ＭＮ_ｊ(t)および標準偏差ΔＮ_ｊ(t)により、次式に従ってフロアリング処理し、フロアリング後のスペクトルＱ′_ｊ(t)を求めてもよい。ただし、次式中、α＞０、βは実数である。

また、時刻ｔにおけるｊ番目の周波数成分または帯域成分のスペクトルＱ_ｊ(t)は、時刻ｔの近傍の時間における信号成分分布の平均ＭＳ_ｊ(t)および標準偏差ΔＳ_ｊ(t)により、次式に従ってフロアリング処理し、フロアリング後のスペクトルＱ′_ｊ(t)を求めてもよい。ただし、次式中、γ＞０である。

請求項７記載の発明は、前記成分分布推定ステップは、信号成分および雑音成分の分布に適合する２成分混合ガウス分布を求めるステップを含む、請求項１ないし６のいずれかに記載の音声分析方法である。
２成分混合ガウス分布を求めるステップは、たとえば、ＥＭ（Expectation-Maximization）アルゴリズム（不完全データから最尤推定値を数値的に求める汎用アルゴリズム）によって行われてもよい。

より具体的には、成分分布推定ステップは、スペクトルのパワーに関する頻度を表すヒストグラムを所定時間（たとえば０．２秒）毎に繰り返し作成するヒストグラム作成ステップと、作成されたヒストグラムを統計分析するステップとを含んでいてもよい。この統計分析を、ヒストグラムに適合する２成分混合ガウス分布（２つのガウス分布の混合分布）を演算する混合ガウス分布演算ステップによって行うことが好ましい。

一般に、雑音成分のパワーの分布は信号成分のパワーの分布よりも低パワー域に現れるから、相対的に低パワー域の分布を雑音成分の分布と推定し、相対的に高パワー域の分布を信号成分の分布と推定すればよい。
請求項８記載の発明は、請求項１ないし７のいずれかに記載の方法によって音声信号を分析する音声分析ステップと、音声分析ステップの結果に基づいて、認識辞書（具体的には、音響モデルおよび単語辞書を含むもの）との照合処理を行う照合ステップとを含む、音声認識方法である。

この方法により、フロアリング処理によって雑音成分の影響を効果的に除去して行われる音声分析処理の結果に基づいて、分析された音声信号が認識辞書と照合されるので、高雑音環境中でも、高い認識率を実現できる。
請求項９記載の発明は、音声信号のスペクトルを求めるスペクトル演算手段と、このスペクトル演算手段によって求められたスペクトルから、音声に対応した信号成分の分布と、雑音に対応した雑音成分の分布とを推定する成分分布推定手段と、この成分分布推定手段によって推定された信号成分または雑音成分の分布に基づいて、前記スペクトル演算手段によって求められたスペクトルに対してフロアリング処理を行うフロアリング手段とを含む、音声分析装置である。この構成により、雑音の状況に適応したフロアリング処理が可能となる。その結果、音声の特徴をより適切に抽出することができる。

請求項１０記載の発明は、前記成分分布推定手段は、前記スペクトル演算手段によって求められたスペクトルの個々の周波数成分に対して、信号成分の分布と雑音成分の分布とを推定するものであり、前記フロアリング手段は、個々の周波数成分毎にフロアリング処理を行う、請求項９記載の音声分析装置である。この構成により、個々の周波数成分に対して適切なフロアリング処理を行えるから、信号成分の損失を抑制しつつ、かつ、雑音成分を効果的に排除できる。

請求項１１記載の発明は、前記スペクトル演算手段は、所定のスケール（好ましくはメルスケール）に従って周波数域を分割するように定められた複数の帯域フィルタ群（フィルタバンク）を用いて、帯域（チャンネル）毎の音声信号のパワー（対数パワーでもよい。を表す帯域スペクトルを求める帯域スペクトル演算手段を含み、前記成分分布推定手段は、前記スペクトル演算手段によって求められた帯域スペクトルに対して、信号成分の分布と雑音成分の分布とを推定するものであり、前記フロアリング手段は、個々の帯域毎にフロアリング処理を行う、請求項９記載の音声分析装置である。この構成により、個々の周波数帯域において適切なフロアリング処理を行うことができるので、信号成分の損失が少なく、かつ、雑音成分を効果的に抑制できるフロアリング処理を実現できる。

請求項１２に記載されているように、前記スペクトル演算手段は、音声信号を周波数分析して、スペクトル（帯域毎に分割される前の単一（連続）スペクトル）を生成する周波数分析手段と、この周波数分析手段によって求められた前記スペクトルを、所定のスケールに従って周波数域を分割するように定められた複数の帯域フィルタ群（フィルタバンク）を用いて処理することにより、帯域（チャンネル）毎の音声信号のパワーを表す帯域スペクトルを求める帯域スペクトル演算手段と、この帯域スペクトル演算手段によって求められた帯域スペクトルの対数をとることにより帯域対数スペクトルを算出する帯域対数スペクトル演算手段とを含み、前記音声分析装置は、さらに、前記帯域対数スペクトル演算手段によって求められた帯域対数スペクトルからケプストラム係数を演算するケプストラム係数演算手段を含むことが好ましい。この場合に、前記成分分布推定手段は、前記周波数分析手段によって求められたスペクトル、前記帯域スペクトル演算手段によって求められた個々の帯域スペクトル、または前記帯域対数スペクトル演算手段によって求められた帯域対数スペクトルを処理対象として、信号成分および雑音成分の分布を推定するものであることが好ましい。

請求項１３に記載されているように、前記フロアリング手段は、前記成分分布推定手段によって求められた信号成分または雑音成分の分布の平均に基づいてフロアリング処理を行うものであってもよい。
請求項１４に記載されているように、前記フロアリング手段は、前記成分分布推定手段によって求められた信号成分または雑音成分の分布の平均および標準偏差に基づいてフロアリング処理を行うものであってもよい。

さらに、請求項１５に記載されているように、前記フロアリング手段は、信号成分および雑音成分の分布に適合する２成分混合ガウス分布を求める手段を含むものであってもよい。
請求項１６記載の発明は、請求項１ないし７のいずれかに記載の音声分析装置と、この音声分析装置による分析結果に基づいて、認識辞書との照合処理を行う照合手段とを含む、音声認識装置である。この構成により、フロアリング処理によって雑音成分の影響を効果的に除去して行われる音声分析処理の結果に基づいて、分析された音声信号が認識辞書と照合されるので、高雑音環境中でも、高い認識率を実現できる。

請求項１７記載の発明は、請求項１６記載の音声認識装置と、この音声認識装置による認識結果を所定の機器に入力するための指示コマンドデータに変換するコマンドデータ生成手段とを含む、音声指示装置である。この構成により、高雑音環境中でも高認識率が得られるので、雑音の影響を抑制して、機器の音声操作を快適に行うことができる。

以下では、この発明の実施の形態を、添付図面を参照して詳細に説明する。
図１は、この発明の一実施形態に係る音声指示装置の構成を説明するためのブロック図である。この音声指示装置１０は、たとえば、二輪車両（自動二輪車）のような鞍乗り型車両に備えられる車載用情報機器５０に対して、音声による指示を与えるための装置である。車載用情報機器５０は、音声による指示操作が可能な情報機器である。このような車載用情報機器５０の例としては、ナビゲーション装置（好ましくは、音声案内が可能なもの）、移動電話機、音再生装置（たとえば、ＭＤプレーヤ、ＣＤプレーヤその他のオーディオ装置）を挙げることができる。

この実施形態では、車両の乗員（通常は運転者であるが、同乗者であってもよい。）が装着するヘルメット１にマイクロフォン２およびスピーカ３が装備されている。マイクロフォン２は、ヘルメット１の口元部分に設けられ、スピーカ３は、ヘルメット１の耳元部分に設けられている。マイクロフォン２は、乗員が発する音声を検出し、その音声に対応した電気信号である音声信号を音声指示装置１０に入力する。スピーカ３は、車載用情報機器５０からの音声信号を受けて、その音声信号を音に変換する。これにより、車両の乗員は、音声によって車載用情報機器５０に指示を与えることができるとともに、車載用情報機器５０が生成する音情報を聴取することができる。こうして、ハンズフリーおよびアイズフリーのインタフェースが構築されている。

音声指示装置１０は、ヘルメット１に装備されてもよいが、ヘルメット１の付属品を可能な限り少なくするためには、乗員の着衣等に保持される携帯型装置として構成したり、車両側に取り付けられる車載用装置として構成したりすることが好ましい。
マイクロフォン２と音声指示装置１０との間の接続は、ケーブルを用いた有線接続により行ってもよいが、音声指示装置１０を車載用装置として構成する場合には、無線通信によってそれらの間を接続することが好ましい。スピーカ３と車載用情報機器５０との間の接続も同様に、ケーブルを用いた有線接続により行ってもよいが、無線通信接続の方が好ましい。無線通信の方式としては、たとえば、ブルーツゥース、赤外線通信その他の短距離無線通信方式を採用することができる。

音声指示装置１０は、マイクロフォン２から入力される音声を認識する音声認識装置１１と、この音声認識装置１１による認識結果をコマンドデータに変換するコマンドデータ生成部１２（コマンドデータ生成手段）とを備えている。コマンドデータ生成部１２は、車載用情報機器５０に入力可能な形式のコマンドデータを生成し、このコマンドデータを車載用情報機器５０に与える。

音声認識装置１１は、マイクロフォン２から入力される音声信号を分析してその音響的特徴を表す特徴量（この実施形態ではＭＦＣＣ（メル周波数ケプストラム係数））を抽出する音声分析処理部１５（音声分析装置）と、この音声分析処理部１５によって抽出された特徴量から尤もらしい単語を認識結果として生成する照合処理部１６（照合手段）と、音響モデル１７と、単語辞書（言語モデル）１８とを備えている。音響モデル１７は、音声の所定単位（たとえば単語）ごとに標準音声パターンの音響的特徴をモデル化したものであり、入力音声パターンとの音響的な類似性の評価を行うための参照情報である。また、単語辞書１８は、音響モデルの接続に関する制約を与えるための情報である。このような情報の典型は、或る単語に引き続いて別の単語が出現する確率である。照合処理部１６は、音声分析処理部１５から与えられる特徴量に対して、尤もらしい単語（または音素）を求め、これを認識結果として出力する。

図２は、音声分析処理部１５の構成例を説明するためのブロック図である。音声分析処理部１５は、音声信号に対してＦＦＴ（高速フーリエ変換）その他の周波数解析処理を行ってスペクトル（単一スペクトル。帯域分割されていない連続スペクトル）を求めるスペクトル解析部２１（周波数分析手段）と、求められたスペクトルに対してメルスケール上に等間隔に配置した帯域フィルタ群（メルスケールフィルタバンク）による処理を行って帯域スペクトル（スペクトル推定値）を求めるフィルタ処理部２２（帯域スペクトル演算手段）と、求められた個々の帯域スペクトルを対数化する対数化処理部２３（帯域対数スペクトル演算手段）と、求められた個々の帯域対数スペクトルにフロアリング処理を行うフロアリング処理部２４と、フロアリング処理後の帯域対数スペクトルに対して離散コサイン変換（ＤＣＴ）を行ってケプストラム係数（ＭＦＣＣ。メル周波数ケプストラム係数）を求めるＤＴＣ処理部２５（ケプストラム係数演算手段）と、求められたケプストラム係数を正規化する正規化処理部２６とを含む。この正規化されたケプストラム係数が、音声分析結果としての特徴量である。正規化処理は、乗法性歪みを抑制するための処理であり、前述のＣＭＮ、ＣＶＮ、ＭＶＮなどを適用することができる。

図３は、メルスケール帯域フィル群を示す。メルスケール帯域フィルタ群は、ｐ個（たとえば、ｐ＝２４）の帯域フィルタを含み、これらの通過帯域は、第１チャンネル〜第ｐチャンネルとよばれる。個々の帯域フィルタは、三角形の形をしており、このような帯域フィルタがメルスケール上で等間隔に配置されている。個々の帯域フィルタは、中心周波数ｆ_１……ｆ_ｐに対して重み「１」を付与し、中心周波数から離れるに従って重みが漸減し、個々の帯域フィルタに固有の通過帯域外の重みは「０」に設定されている。

第ｋ（１≦ｋ≦ｐ）チャンネルの帯域フィルタの出力Ｙ_ｋは、スペクトル解析部２１が生成する単一のスペクトルの個々の周波数成分に対して、当該帯域フィルタの対応する周波数成分に対して設定された重みを乗じ、その乗算結果の総和をとることによって得られる。こうして、単一スペクトルをｐ個の帯域スペクトル（スペクトル推定値）に分割することができ、個々の周波数成分を取り扱う場合に比較して、データの次数を少なくすることができる。

こうして求められたｐ個の帯域スペクトルの値が、対数化処理部２３によって対数化され、ｐ個の帯域対数スペクトル（対数パワー）が求められる。
図４は、フロアリング処理部２４の詳細な構成例を示すブロック図である。フロアリング処理部２４は、第１〜第ｐチャンネルの帯域対数スペクトル（対数パワー）に対してそれぞれフロアリング処理を行うｐ個のフロアリングユニット２４−１〜２４−ｐを備えている。第１〜第ｐチャンネルのフロアリングユニット２４−１〜２４−ｐは、いずれも同様の構成を有する。

より具体的には、第ｋチャンネルに対応したフロアリングユニット２４−ｋは、第ｋチャンネルの帯域対数スペクトル（対数パワー）に関して、所定時間（たとえば０．２秒間）に渡るヒストグラムを当該所定時間毎に繰り返し作成するヒストグラム作成部３１と、作成されたヒストグラムに適合する２成分混合ガウス分布を求める適合分布演算部３２（と、求められた２成分混合ガウス分布に基づいてフロアリング値を求めるフロアリング値演算部３３と、求められたフロアリング値で帯域対数スペクトルをフロアリングするフロアリング実行部３４とを備えている。前記ヒストグラム作成部３１および適合分布演算部３２は、信号成分および雑音成分の分布を推定する成分分布推定手段を構成している。また、前記フロアリング値演算部３３およびフロアリング実行部３４は、推定された成分分布に基づいてスペクトルをフロアリングするフロアリング手段を構成している。

この構成により、第１〜第ｐチャンネルの帯域対数スペクトルに対して、個々のフロアリング値に基づくフロアリング処理が行われることになる。また、各チャンネルのフロアリング値も時間とともに変動していくので、時々刻々と変化する雑音状況に適応したフロアリング処理が可能になる。
なお、図４には、第１〜第ｐチャンネルに関するフロアリング処理が並列に実行される構成を示したが、第１〜第ｐチャンネルに関するフロアリング処理を順次処理によって行うようにしても差し支えない。

図５は、ヒストグラム作成部３１によって作成されるヒストグラムの例を示す。帯域対数スペクトル（対数パワー）を横軸にとってあり、正規化された相対頻度が縦軸にとってある。より具体的には、各チャンネルの帯域対数スペクトル（対数パワー）は、たとえば、１０ミリ秒〜２０ミリ秒毎に繰り返し演算される。この帯域対数スペクトルの値を、たとえば０．２秒間に渡って収集し、その値毎の頻度を求めることによって、ヒストグラムが作成される。この処理が、個々のチャンネルに対して行われる。図５に示されているのは、或る一つのチャンネルについて或る時間に求められたヒストグラムである。

乗員が発した音声に対応する信号成分のパワーは相対的に大きく、一方、風切り音、エンジン音、ロードノイズその他の雑音に対応した雑音成分は相対的にパワーが小さい。これは、経験的にわかっている事実である。
したがって、信号成分および雑音成分がそれぞれガウス分布に従うとすれば、帯域対数スペクトルのヒストグラムは、２成分混合ガウス分布によって近似できると考えられる。そこで、適合分布演算部３２は、帯域対数パワーのヒストグラムに尤も適合する２成分混合ガウス分布をＥＭアルゴリズムによって求める。

図６は、図５のヒストグラムに適合する２成分混合ガウス分布の一例を示す図である。横軸は帯域対数スペクトル（対数パワー）を表し、縦軸は相対頻度を表す。前述のとおり、信号成分のパワーは相対的に大きく、雑音成分のパワーは相対的に小さいので、パワーの大きな方の山は信号成分の分布を表し、パワーの小さな方の山は雑音成分の分布を表すものと推定できる。

フロアリング値演算部３３は、適合分布演算部３２によって求められた２成分ガウス分布に基づいて、第１チャンネル〜第ｐチャンネルの帯域対数パワーに関し、雑音成分および信号成分の平均値μ，ｍおよび標準偏差σ，ｓを求める。たとえば、図６に示された第ｋチャンネルの２成分混合ガウス分布から、第ｋチャンネルの帯域対数パワーに関して、雑音成分の平均値μ_ｋ、信号成分の平均値ｍ_ｋ、雑音成分の標準偏差σ_ｋ、信号成分の標準偏差ｓ_ｋを求める。

フロアリング値演算部３３は、次の式(1)または式(2)のうちのいずれかにより、第ｋチャンネルの時刻ｔの帯域対数スペクトル（対数パワー）に適用されるフロアリング値ＰＦ_ｋ(t)を定める。
ＰＦ_ｋ(t)＝α・μ_ｋ(t)＋β・σ_ｋ(t) …… (1)
ＰＦ_ｋ(t)＝ｍ_ｋ(t)−γｓ_ｋ …… (2)
ただし、μ_ｋ(t)は時刻ｔの近傍の時間（たとえば時刻ｔ直前の一定時間、時刻ｔを含む一定時間、時刻ｔの直後の一定時間など）の帯域対数スペクトルに関して得られたヒストグラムから算出された雑音成分の平均値である。また、σ_ｋ(t)は同様の期間の雑音成分の標準偏差であり、ｍ_ｋは同様の期間の信号成分の平均値であり、ｓ_ｋは同様の期間の信号成分の標準偏差である。また、α＞０、β＝実数、γ＞０である。

式(1)に従ってフロアリング値ＰＦ_ｋを求める場合において、β＝０であれば、フロアリング値ＰＦ_ｋは雑音成分の平均値μ_ｋに基づいて定められることになる。この場合、雑音成分の標準偏差σ_ｋならびに信号成分の平均値ｍ_ｋおよびその標準偏差ｓ_ｋの演算は不要である。一方、β≠０であれば、フロアリング値ＰＦ_ｋは雑音成分の平均値μ_ｋおよび標準偏差σ_ｋに基づいて定められることになる。この場合、信号成分の平均値ｍ_ｋおよびその標準偏差ｓ_ｋの演算は不要である。

式(2)に従ってフロアリング値ＰＦ_ｋを求める場合の例は、図７に示されている。この場合、フロアリング値ＰＦ_ｋは、信号成分の平均値ｍ_ｋおよびその標準偏差ｓ_ｋに基づいて定められることになる。この場合、雑音成分の平均値μ_ｋおよび標準偏差σ_ｋの演算は不要である。定数γは０よりも大きな値であることが必要であるが、信号成分を可能な限り失うことなく雑音成分を可能な限り排除するためには、γ≧１とすることが好ましい。

フロアリング実行部３４は、次の式(3)に従って、時刻ｔの帯域対数パワーＰ_ｋ(t)を、フロアリング処理後の帯域対数パワーＰ′_ｋ(t)に変換する。

こうして、下限値をフロアリング値ＰＦ_ｋ(t)に固定した帯域対数スペクトルが得られることになる。
以上のように、この実施形態によれば、フロアリング値は、一定値ではなく、時間とともに変動する値である。そのため、時々刻々と変動する雑音状況に適したフロアリング処理が可能になる。また、フロアリング値がチャンネル毎に演算されるので、個々の周波数帯域において適切なフロアリング処理が可能となる。こうして、加法性雑音を効果的に抑制または排除することができる。

このようなフロアリング処理を経て得られる帯域対数スペクトルに対して離散コサイン変換を行ってケプストラム係数が求められる。これによって、信号成分を十分に反映し、かつ、雑音成分を十分に排除した状態で、音響モデル１７および単語辞書１８との照合処理のための特徴量としてのケプストラム係数を得ることができる。その結果、認識率の大幅な向上が可能となり、車載用情報機器５０の音声操作を快適に行うことができる。

とくに、二輪車両の走行中における音声認識は、高雑音環境中での処理であるうえ、雑音が絶えず変動する状況中での処理となる。このような状況においても、この実施形態によれば、帯域毎の個別のフロアリング値を信号および雑音の分布に応じて時間変化させることにより、高い認識率を確保して、車載用情報機器５０の快適な音声操作を実現できる。

図８は、この発明の第２の実施形態に係る音声分析処理部１５Ａの構成を説明するためのブロック図である。この図８において、前述の図２に示された各部に対応する部分には、図２の場合と同一の参照符号を付して示す。また、前述の図４を併せて参照する。
この実施形態では、フィルタ処理部２２によって処理された後の帯域スペクトルに対してフロアリング処理部２４Ａによるフロアリング処理が行われ、このフロアリング処理部２４Ａによる処理後の帯域スペクトルが対数化処理部２３によって対数化されるようになっている。

フロアリング処理部２４Ａによる処理内容は、前述の実施形態におけるフロアリング処理部２４の処理と同様であるが、処理対象が対数化前の帯域スペクトル（帯域パワー）である点が異なる。
すなわち、図４に示すように、フロアリング処理部２４Ａは、第１〜第ｐチャンネルの帯域パワーに対してそれぞれフロアリング処理を行うｐ個のフロアリングユニット２４−１〜２４−ｐを備えるか、または、一つもしくは複数のフロアリングユニットによる順次処理によって、第１〜第ｐチャンネルの帯域スペクトルに対するフロアリング処理を行う。ここでは、ｐ個のフロアリングユニットを備える場合について説明する。

第１〜第ｐチャンネルのフロアリングユニット２４−１〜２４−ｐは、いずれも同様の構成を有する。より具体的には、第ｋチャンネルに対応したフロアリングユニット２４−ｋは、第ｋチャンネルの帯域パワーに関して、所定時間（たとえば０．２秒間）に渡る帯域パワーのヒストグラムを作成するヒストグラム作成部３１と、作成されたヒストグラムに適合する２成分混合ガウス分布を求める適合分布演算部３２と、求められた２成分混合ガウス分布に基づいてフロアリング値を求めるフロアリング値演算部３３と、求められたフロアリング値で帯域スペクトルをフロアリングするフロアリング実行部３４とを備えている。

この構成により、第１〜第ｐチャンネルの帯域スペクトルに対して、個々のフロアリング値に基づくフロアリング処理が行われることになる。また、各チャンネルのフロアリング値も時間とともに変動していくので、時々刻々と変化する雑音状況に適切に対応したフロアリング処理が行われる。
フロアリング値演算部３３は、適合分布演算部３２によって求められた２成分ガウス分布に基づいて、第１チャンネル〜第ｐチャンネルの帯域パワーに関し、雑音成分および信号成分の平均値μ，ｍおよび標準偏差σ，ｓを求める。たとえば、第ｋチャンネルの２成分混合ガウス分布から、第ｋチャンネルの帯域パワーに関して、雑音成分の平均値μ_ｋ、信号成分の平均値ｍ_ｋ、雑音成分の標準偏差σ_ｋ、信号成分の標準偏差ｓ_ｋを求める。

フロアリング値演算部３３は、次の式(4)または式(5)のうちのいずれかにより、第ｋチャンネルの時刻ｔの帯域スペクトル（パワー）に適用されるフロアリング値ＸＦ_ｋ(t)を定める。
ＸＦ_ｋ(t)＝α・μ_ｋ(t)＋β・σ_ｋ(t) …… (4)
ＸＦ_ｋ(t)＝ｍ_ｋ(t)−γｓ_ｋ …… (5)
ただし、μ_ｋ(t)は時刻ｔの近傍の時間（たとえば時刻ｔの直前の一定時間、時刻ｔを含む一定時間、時刻ｔの直後の一定時間など）の帯域パワーに関して得られたヒストグラムから算出された雑音成分の平均値である。また、σ_ｋ(t)は同様の期間の雑音成分の標準偏差であり、ｍ_ｋは同様の期間の信号成分の平均値であり、ｓ_ｋは同様の期間の信号成分の標準偏差である。また、α＞０、β＝実数、γ＞０である。

式(4)に従ってフロアリング値ＸＦ_ｋを求める場合において、β＝０であれば、フロアリング値ＸＦ_ｋは雑音成分の平均値μ_ｋに基づいて定められることになる。この場合、雑音成分の標準偏差σ_ｋならびに信号成分の平均値ｍ_ｋおよびその標準偏差ｓ_ｋの演算は不要である。一方、β≠０であれば、フロアリング値ＸＦ_ｋは雑音成分の平均値μ_ｋおよび標準偏差σ_ｋに基づいて定められることになる。この場合、信号成分の平均値ｍ_ｋおよびその標準偏差ｓ_ｋの演算は不要である。

式(5)に従ってフロアリング値ＸＦ_ｋを求める場合、フロアリング値ＸＦ_ｋは、信号成分の平均値ｍ_ｋおよびその標準偏差ｓ_ｋに基づいて定められることになる。この場合、雑音成分の平均値μ_ｋおよび標準偏差σ_ｋの演算は不要である。定数γは０よりも大きな値であることが必要であるが、信号成分を可能な限り失うことなく雑音成分を可能な限り排除するためには、γ≧１とすることが好ましい。

フロアリング実行部３４は、次の式(6)に従って、時刻ｔの帯域パワーＸ_ｋ(t)を、フロアリング処理後の帯域パワーＸ′_ｋ(t)に変換する。

こうして、下限値をフロアリング値ＸＦ_ｋ(t)に固定した帯域スペクトルが得られることになる。
図９は、この発明の第３の実施形態に係る音声分析処理部１５Ｂの構成を説明するためのブロック図である。この図９において、前述の図２に示された各部に対応する部分には、図２の場合と同一の参照符号を付して示す。

この実施形態では、スペクトル解析部２１によって求められた単一スペクトルに対して、フロアリング処理部２４Ｂによるフロアリング処理が行われ、このフロアリング処理部２４Ｂによる処理後の単一スペクトルがフィルタ処理部２２によって処理されるようになっている。
フロアリング処理部２４Ｂによる処理内容は、前述の第１および第２実施形態におけるフロアリング処理部２４，２４Ａの処理と同様であるが、処理対象がフィルタ処理前の単一スペクトルの個々の周波数成分である点が異なる。すなわち、この実施形態の場合、チャンネル数分のフロアリング処理ではなく、周波数成分の個数分だけフロアリング処理を行うことになる。すなわち、個々の周波数成分ごとにフロアリング値が定められる。

すなわち、図１０に示すように、フロアリング処理部２４Ｂは、第１〜第Ｎ周波数成分のパワーに対してそれぞれフロアリング処理を行うＮ個のフロアリングユニット２４−１〜２４−Ｎを備えるか、または、一つもしくは複数のフロアリングユニットによる順次処理によって、第１〜第Ｎ周波数成分に対するフロアリング処理を行う。ここでは、Ｎ個のフロアリングユニットを備える場合について説明する。

第１〜第Ｎ周波数成分に対応したフロアリングユニット２４−１〜２４−Ｎは、いずれも同様の構成を有する。より具体的には、第Ｋ（１≦Ｋ≦Ｎ）周波数成分に対応したフロアリングユニット２４−Ｋは、第Ｋ周波数成分のパワーに関して、所定時間（たとえば０．２秒間）に渡るヒストグラムを作成するヒストグラム作成部３１と、作成されたヒストグラムに適合する２成分混合ガウス分布を求める適合分布演算部３２と、求められた２成分混合ガウス分布に基づいてフロアリング値を求めるフロアリング値演算部３３と、求められたフロアリング値で第Ｋ周波数成分のパワーをフロアリングするフロアリング実行部３４とを備えている。

この構成により、第１〜第Ｎ周波数成分のスペクトルに対して、個々の周波数成分毎のフロアリング値に基づくフロアリング処理が行われることになる。また、各周波数成分のフロアリング値は時間とともに変動していくので、時々刻々と変化する雑音状況に適切に対応したフロアリング処理が行われる。
フロアリング値演算部３３は、適合分布演算部３２によって求められた２成分ガウス分布に基づいて、第１〜第Ｎ周波数成分のパワーに関し、雑音成分および信号成分の平均値μ，ｍおよび標準偏差σ，ｓを求める。たとえば、第Ｋ周波数成分の２成分混合ガウス分布から、第Ｋ周波数成分のパワーに関して、雑音成分の平均値μ_Ｋ、信号成分の平均値ｍ_Ｋ、雑音成分の標準偏差σ_Ｋ、信号成分の標準偏差ｓ_Ｋを求める。

フロアリング値演算部３３は、次の式(7)または式(8)のうちのいずれかにより、第Ｋ周波数成分の時刻ｔのスペクトル（パワー）に適用されるフロアリング値ＦＦ_Ｋ(t)を定める。
ＦＦ_Ｋ(t)＝α・μ_Ｋ(t)＋β・σ_Ｋ(t) …… (7)
ＦＦ_Ｋ(t)＝ｍ_Ｋ(t)−γｓ_Ｋ …… (8)
ただし、μ_Ｋ(t)は時刻ｔの近傍の時間（たとえば時刻ｔの直前の一定時間、時刻ｔを含む一定時間、時刻ｔの直後の一定時間など）のパワーに関して得られたヒストグラムから算出された雑音成分の平均値である。また、σ_Ｋ(t)は同様の期間の雑音成分の標準偏差であり、ｍ_Ｋは同様の期間の信号成分の平均値であり、ｓ_Ｋは同様の期間の信号成分の標準偏差である。また、α＞０、β＝実数、γ＞０である。

式(7)に従ってフロアリング値ＦＦ_Ｋを求める場合において、β＝０であれば、フロアリング値ＦＦ_Ｋは雑音成分の平均値μ_Ｋに基づいて定められることになる。この場合、雑音成分の標準偏差σ_Ｋならびに信号成分の平均値ｍ_Ｋおよびその標準偏差ｓ_Ｋの演算は不要である。一方、β≠０であれば、フロアリング値ＦＦ_Ｋは雑音成分の平均値μ_Ｋおよび標準偏差σ_Ｋに基づいて定められることになる。この場合、信号成分の平均値ｍ_Ｋおよびその標準偏差ｓ_Ｋの演算は不要である。

式(8)に従ってフロアリング値ＦＦ_Ｋを求める場合、フロアリング値ＦＦ_Ｋは、信号成分の平均値ｍ_Ｋおよびその標準偏差ｓ_Ｋに基づいて定められることになる。この場合、雑音成分の平均値μ_Ｋおよび標準偏差σ_Ｋの演算は不要である。定数γは０よりも大きな値であることが必要であるが、信号成分を可能な限り失うことなく雑音成分を可能な限り排除するためには、γ≧１とすることが好ましい。

フロアリング実行部３４は、次の式(9)に従って、時刻ｔのパワーＦ_Ｋ(t)を、フロアリング処理後の帯域パワーＦ′_Ｋ(t)に変換する。

こうして、下限値をフロアリング値ＦＦ_Ｋ(t)に固定した単一スペクトルが得られることになる。
以上、この発明の３つの実施形態について説明したが、この発明は、さらに他の形態で実施することもできる。たとえば、前述の実施形態では、二輪車両に代表される鞍乗り型車両に適用される音声指示装置を例にとったが、むろん、この実施形態は、四輪車両の車内においてカーナビゲーション装置の音声操作のために用いられる音声指示装置にも適用することができる。また、この発明は、車載用情報機器の音声操作に限らず、とくに騒音環境中で音声操作される機器に対して広く適用することができる。

その他、特許請求の範囲に記載された事項の範囲で種々の設計変更を施すことが可能である。

この発明の第１の実施形態に係る音声指示装置の構成を説明するためのブロック図である。音声分析処理部の構成例を説明するためのブロック図である。メルスケール帯域フィル群を説明するための図である。フロアリング処理部の詳細な構成例を示すブロック図である。ヒストグラム作成部によって作成されるヒストグラムの例を示す。図５のヒストグラムに適合する２成分混合ガウス分布の一例を示す図である。信号分布の平均値を用いてフロアリング値を定める例を説明するための図である。この発明の第２の実施形態に係る音声分析処理部の構成を説明するためのブロック図である。この発明の第３の実施形態に係る音声分析処理部の構成を説明するためのブロック図である。第３の実施形態におけるフロアリング処理部の詳細な構成例を説明するためのブロック図である。

符号の説明

１ヘルメット
２マイクロフォン
３スピーカ
１０音声指示装置
１１音声認識装置
１２コマンドデータ生成部
１５音声分析処理部
１５Ａ音声分析処理部
１５Ｂ音声分析処理部
１６照合処理部
１７音響モデル
１８単語辞書
２１スペクトル解析部
２２フィルタ処理部
２３対数化処理部
２４フロアリング処理部
２４−１〜２４−ｐフロアリングユニット
２４−１〜２４−Ｎフロアリングユニット
２４Ａフロアリング処理部
２４Ｂフロアリング処理部
２５ＤＴＣ処理部
２６正規化処理部
３１ヒストグラム作成部
３２適合分布演算部
３３フロアリング値演算部
３４フロアリング実行部
５０車載用情報機器

Claims

音声信号のスペクトルを求めるスペクトル演算ステップと、
このスペクトル演算ステップにおいて得られたスペクトルから、音声に対応した信号成分の分布と、雑音に対応した雑音成分の分布とを推定する成分分布推定ステップと、
この成分分布推定ステップにおいて推定された信号成分または雑音成分の分布に基づいて、前記スペクトル演算ステップにおいて求められたスペクトルに対してフロアリング処理を行うフロアリングステップとを含む、音声分析方法。
前記成分分布推定ステップおよびフロアリングステップを個々の周波数成分毎に行う、請求項１記載の音声分析方法。
前記スペクトル演算ステップは、所定のスケールに従って周波数域を分割するように定められた複数の帯域フィルタ群を用いて、帯域毎の音声信号のパワーを表す帯域スペクトルを求める帯域スペクトル演算ステップを含み、
前記成分分布推定ステップおよびフロアリングステップを個々の帯域毎に行う、請求項１記載の音声分析方法。
前記スペクトル演算ステップは、
音声信号を周波数分析して、スペクトルを生成する周波数分析ステップと、
この周波数分析ステップによって求められた前記スペクトルを、所定のスケールに従って周波数域を分割するように定められた複数の帯域フィルタ群を用いて処理することにより、帯域毎の音声信号のパワーを表す帯域スペクトルを求める帯域スペクトル演算ステップと、
この帯域スペクトル演算ステップにおいて求められた帯域スペクトルの対数をとることにより帯域対数スペクトルを算出する帯域対数スペクトル演算ステップとを含み、
前記音声分析方法は、さらに、前記帯域対数スペクトル演算ステップにおいて求められた帯域対数スペクトルからケプストラム係数を演算するケプストラム係数演算ステップを含み、
前記成分分布推定ステップおよびフロアリングステップは、周波数分析ステップと帯域スペクトル演算ステップとの間、帯域スペクトル演算ステップと帯域対数スペクトル演算ステップとの間、または帯域対数スペクトル演算ステップとケプストラム係数演算ステップとの間に行われる、請求項１ないし３のいずれかに記載の音声分析方法。
前記フロアリングステップは、成分分布推定ステップにおいて求められた信号成分または雑音成分の分布の平均に基づいてフロアリング処理を行うステップを含む、請求項１ないし４のいずれかに記載の音声分析方法。
前記フロアリングステップは、成分分布推定ステップにおいて求められた信号成分または雑音成分の分布の平均および標準偏差に基づいてフロアリング処理を行うステップを含む、請求項１ないし４のいずれかに記載の音声分析方法。
前記成分分布推定ステップは、信号成分および雑音成分の分布に適合する２成分混合ガウス分布を求めるステップを含む、請求項１ないし６のいずれかに記載の音声分析方法。
請求項１ないし７のいずれかに記載の方法によって音声信号を分析する音声分析ステップと、
音声分析ステップの結果に基づいて、認識辞書との照合処理を行う照合ステップとを含む、音声認識方法。
音声信号のスペクトルを求めるスペクトル演算手段と、
このスペクトル演算手段によって求められたスペクトルから、音声に対応した信号成分の分布と、雑音に対応した雑音成分の分布とを推定する成分分布推定手段と、
この成分分布推定手段によって推定された信号成分または雑音成分の分布に基づいて、前記スペクトル演算手段によって求められたスペクトルに対してフロアリング処理を行うフロアリング手段とを含む、音声分析装置。
前記成分分布推定手段は、前記スペクトル演算手段によって求められたスペクトルの個々の周波数成分に対して、信号成分の分布と雑音成分の分布とを推定するものであり、
前記フロアリング手段は、個々の周波数成分毎にフロアリング処理を行う、請求項９記載の音声分析装置。
前記スペクトル演算手段は、所定のスケールに従って周波数域を分割するように定められた複数の帯域フィルタ群を用いて、帯域毎の音声信号のパワーを表す帯域スペクトルを求める帯域スペクトル演算手段を含み、
前記成分分布推定手段は、前記スペクトル演算手段によって求められた帯域スペクトルに対して、信号成分の分布と雑音成分の分布とを推定するものであり、
前記フロアリング手段は、個々の帯域毎にフロアリング処理を行う、請求項９記載の音声分析装置。
前記スペクトル演算手段は、
音声信号を周波数分析して、スペクトルを生成する周波数分析手段と、
この周波数分析手段によって求められた前記スペクトルを、所定のスケールに従って周波数域を分割するように定められた複数の帯域フィルタ群を用いて処理することにより、帯域毎の音声信号のパワーを表す帯域スペクトルを求める帯域スペクトル演算手段と、
この帯域スペクトル演算手段によって求められた帯域スペクトルの対数をとることにより帯域対数スペクトルを算出する帯域対数スペクトル演算手段とを含み、
前記音声分析装置は、さらに、前記帯域対数スペクトル演算手段によって求められた帯域対数スペクトルからケプストラム係数を演算するケプストラム係数演算手段を含み、
前記成分分布推定手段は、前記周波数分析手段によって求められたスペクトル、前記帯域スペクトル演算手段によって求められた個々の帯域スペクトル、または前記帯域対数スペクトル演算手段によって求められた帯域対数スペクトルを処理対象として、信号成分および雑音成分の分布を推定するものである、請求項９ないし１１のいずれかに記載の音声分析装置。
前記フロアリング手段は、前記成分分布推定手段によって求められた信号成分または雑音成分の分布の平均に基づいてフロアリング処理を行うものである、請求項９ないし１２のいずれかに記載の音声分析装置。
前記フロアリング手段は、前記成分分布推定手段によって求められた信号成分または雑音成分の分布の平均および標準偏差に基づいてフロアリング処理を行うものである、請求項９ないし１２のいずれかに記載の音声分析装置。
前記フロアリング手段は、信号成分および雑音成分の分布に適合する２成分混合ガウス分布を求める手段を含む、請求項９ないし１４のいずれかに記載の音声分析装置。
請求項１ないし７のいずれかに記載の音声分析装置と、
この音声分析装置による分析結果に基づいて、認識辞書との照合処理を行う照合手段とを含む、音声認識装置。
請求項１６記載の音声認識装置と、
この音声認識装置による認識結果を所定の機器に入力するための指示コマンドデータに変換するコマンドデータ生成手段とを含む、音声指示装置。