JP2006084664A

JP2006084664A - 音声認識装置および音声認識プログラム

Info

Publication number: JP2006084664A
Application number: JP2004268182A
Authority: JP
Inventors: Toshihiko Abe; 敏彦阿部; Masahiko Tateishi; 雅彦立石
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2004-09-15
Filing date: 2004-09-15
Publication date: 2006-03-30

Abstract

【課題】韻律に基づいた新規な音声認識方法を提供する。
【解決手段】車両用ナビゲーション装置が、音声認識プログラム３０を実行することで、入力された音声信号から音響特徴量を算出しおよび瞬時周波数特徴量を算出し（音響分析部３１、瞬時周波数分析部３２）、算出した音響特徴量に基づいて、複数の認識候補語の音韻尤度を算出し（音韻尤度計算部３３、音素ＨＭＭ部３４）、算出した瞬時周波数特徴量に基づいて、複数の認識候補語の韻律尤度を算出し（韻律尤度計算部３５、韻律ＨＭＭ部３６）、算出した音韻尤度と韻律尤度に基づいて、認識候補となる語の結合尤度を算出し、複数の認識候補語のうちから、算出した結合尤度の最も高い１つを選択する。
【選択図】図２

Description

本発明は、音声認識装置および音声認識プログラムに関する。

従来、音声認識においては、「旦那」と「パンダ」、「橋」と「箸」等、韻律（具体的には高低アクセント）が異なるため人間が聴くと容易に区別できるにもかかわらず、音素列が似ているために区別が難しいような単語がある。

このような問題を解決するための方法として、例えば音声の基本周波数に関する情報を用いて音声認識性能を向上させる方法が提案されている。

例えば特許文献１には、音声信号の音響特徴量と基本周波数の微分係数を求め、それらをマルチストリームとして用いて単語音声認識を行う技術が開示されている。この特許文献１においては、基本周波数の微分係数は時間−ケプストラム平面のハフ変換により計算するようになっている。
岩野、関、古井、「雑音に頑健な音声認識のための韻律情報の利用」、情報処理学会研究報告、２００３年５月２７日、Vol.２００３、No.５８、ｐ５５-６０

しかし、基本周波数を用いて音声認識を行う方法には、いくつかの問題点がある。例えば、特許文献１の技術では、ケプストラムを用いるため、正確な計算を行うには、広い周波数の情報が必要であるという問題がある。また、特許文献１の技術では、ハフ変換を用いるため、計算量が多いという問題がある。

本発明は上記点に鑑み、韻律に基づいた新規な音声認識方法を提供することを目的とする。

上記目的を達成するための請求項１に記載の発明は、入力された音声信号から音響特徴量を算出する音響特徴量算出手段と、前記音声信号から瞬時周波数特徴量を算出する瞬時周波数特徴量算出手段と、前記音響特徴量算出手段が算出した音響特徴量および前記瞬時周波数特徴量算出手段が算出した瞬時周波数特徴量に基づいて、前記音声信号の音声認識を行う認識手段と、を備えた音声認識装置である。

このようになっているので、音声認識装置は、入力された音声信号から算出した音響特徴量および瞬時周波数特徴量に基づいて、音声信号の音声認識を行う。このように、瞬時周波数特徴量を用いて音声認識を行うことで、韻律に基づく音声認識が可能となる。

また、瞬時周波数の計算には、ハフ変換を必要としないので、計算量が少なくて済む。また、入力信号の全周波数帯域を用いて音声認識を行う必要がない。

なお、瞬時周波数特徴量とは、瞬時周波数そのもの、瞬時周波数の微分係数等、瞬時周波数によって特徴づけられる量をいう。

また、請求項２に記載の発明は、請求項１に記載の音声認識装置において、前記認識手段は、前記音響特徴量算出手段が算出した音響特徴量に基づいて、複数の認識候補語の音韻尤度を算出する音韻尤度算出手段と、前記瞬時周波数特徴量算出手段が算出した瞬時周波数特徴量に基づいて、複数の認識候補語の韻律尤度を算出する韻律尤度算出手段と、前記音韻尤度算出手段が算出した音韻尤度と、前記韻律尤度算出手段が算出した韻律尤度に基づいて、認識候補となる語の結合尤度を算出し、算出した結合尤度に基づいて、前記複数の認識候補語のうちから１つを選択することで、前記音声信号の音声認識を行う結合尤度算出手段と、を備えたことを特徴とする。

また、請求項３に記載の発明は、請求項１または２に記載の音声認識装置において、入力された音声信号に対して、独立に第１の雑音抑制および第２の雑音抑制を施す雑音抑制手段を備え、前記音響特徴量算出手段は、前記入力された音声信号に対して前記雑音抑制手段が前記第１の雑音抑制を施した信号から音響特徴量を算出し、前記瞬時周波数特徴量算出手段は、入力された音声信号に対して前記雑音抑制手段が前記第２の雑音抑制を施した信号から瞬時周波数特徴量を算出し、前記第１の雑音抑制は、前記第２の雑音抑制よりも前記音声信号中の音響特徴量の保存度合いが高く、前記第２の雑音抑制は、前記第１の雑音抑制よりも前記音声信号中の瞬時周波数特徴量の保存度合いが高いことを特徴とする。

このようになっているので、音響特徴量と瞬時周波数特徴量のそれぞれの特徴に応じた雑損抑制を行うことができる。

また、請求項４に記載の発明は、請求項３に記載の音声認識装置において、前記雑音抑制手段は、前記第１の雑音制御において、第１の減算パラメータを用いてスペクトルサブトラクション法を適用し、前記第２の雑音制御において、第１の減算パラメータより大きい第２の減算パラメータを用いてスペクトルサブトラクション法を適用することを特徴とする。

また、請求項５に記載の発明は、請求項１ないし４のいずれか１つに記載の音声認識装置において、入力された音声信号の雑音分析を行う雑音分析手段と、前記雑音分析手段の分析結果に基づいて、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量の算出に用いる音声信号の周波数帯域を制限する帯域制限手段と、を備えたことを特徴とする。

このように、雑音分析結果に基づいて使用周波数帯域を制限することで、雑音抑制の効果が高まる。

また、請求項６に記載の発明は、請求項５に記載の音声認識装置において、前記雑音分析手段は、入力された音声信号の周波数毎のＳ／Ｎ比を算出し、前記帯域制限手段は、前記雑音分析手段が算出したＳ／Ｎ比が基準値以下の周波数を、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量の算出に用いる音声信号の周波数帯域から除外することを特徴とする。

このように、周波数毎のＳ／Ｎに基づいて使用周波数帯域を制限することで、雑音抑制の効果が高まる。

また、請求項７に記載の発明は、請求項１ないし５のいずれか１つに記載の音声認識装置において、入力された音声信号の雑音分析を行う雑音分析手段と、前記雑音分析手段の分析結果に基づいて、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量を算出する対象の音声信号の、周波数毎の前記周波数特徴量への寄与度を決定する重み付け決定手段と、を備えたことを特徴とする。

このように、雑音分析結果に基づいて、入力された音声信号の、周波数毎の周波数特徴量への寄与度を決定することで、雑音抑制の効果が高まる。

また、請求項８に記載の発明は、請求項７に記載の音声認識装置において、前記雑音分析手段は、入力された音声信号の周波数毎のＳ／Ｎ比を算出し、前記重み付け手段は、前記雑音分析手段が算出したＳ／Ｎ比に基づいて、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量を算出する対象の音声信号の、周波数毎の前記周波数特徴量への寄与度を決定することを特徴とする。

このように、周波数毎のＳ／Ｎ比に基づいて、入力された音声信号の、周波数毎の周波数特徴量への寄与度を決定することで、雑音抑制の効果が高まる。

また、請求項９に記載の発明は、請求項８に記載の音声認識装置において、前記寄与度は、入力された音声信号の周波数ω毎のＳ／Ｎ比であるＳＮ（ω）より寄与度＝ＳＮ（ω）／（１＋ＳＮ（ω））と計算されることを特徴とする。

また、請求項１０に記載の発明は、入力された音声信号から音響特徴量を算出する音響特徴量算出手段、前記音声信号から瞬時周波数特徴量を算出する瞬時周波数特徴量算出手段、および前記音響特徴量算出手段が算出した音響特徴量および前記瞬時周波数特徴量算出手段が算出した瞬時周波数特徴量に基づいて、前記音声信号の音声認識を行う認識手段として、コンピュータを機能させる音声認識プログラムである。

このように、音声認識プログラムとしても、本発明の特徴を実現することができる。

（第１実施形態）
以下、本発明の第１実施形態について説明する。図１に、本実施形態の音声認識装置としての車両用ナビゲーション装置１のハードウェア構成を示す。

この車載用ナビゲーション装置１は、位置検出器１１、操作スイッチ群１２、画像表示装置１３、スピーカ１４、ＲＡＭ１６、ＲＯＭ１７、外部記憶媒体１８、制御回路１９、マイク２１、およびＡ／Ｄ変換器２２を有している。

位置検出器１１は、いずれも周知の図示しない地磁気センサ、ジャイロスコープ、車速センサ、およびＧＰＳ受信機等のセンサを有しており、これらセンサの各々の性質に基づいた、車両の現在位置や向きを特定するための情報を制御回路１９に出力する。

操作スイッチ群１２は、車両用ナビゲーション装置１に設けられた複数のメカニカルスイッチ、画像表示装置１３の表示面に重ねて設けられたタッチパネル等の入力装置から成り、ユーザによるメカニカルスイッチの押下、タッチパネルのタッチに基いた信号を制御回路１９に出力する。

画像表示装置１３は、制御回路１９から出力された映像信号に基いた映像をユーザに表示する。表示映像としては、例えば現在地を中心とする地図等がある。

Ａ／Ｄ変換器２２は、マイク２１から入力されたユーザのアナログ音声信号をデジタルデータに変換して制御回路１９に出力する回路である。

外部記憶媒体１８は、ＨＤＤ等の不揮発性の記憶媒体であり、制御回路１９が読み出して実行するプログラム、経路案内用の地図データ、認識辞書データ等を記憶している。

認識辞書データは、単語毎のエントリを有するテーブルであり、各エントリは、単語の文字列データ、その単語の読み仮名データ、その単語の韻律種別データを１つずつ有している。単語の文字列データとは、「橋」「箸」「自動車」「東京」等、その単語の文字列のデータである。単語の読み仮名データとは、「はし」、「じどうしゃ」、「とうきょう」等、その単語の読み仮名の文字列を示すデータである。単語の韻律種別データとは、例えばアクセントの低→低、高→低、低→高、高→高→低、高→低→高、低→中→高等、韻律についての複数の時間変化パターンのうち、その単語がどの時間変化パターンに属するかを示すデータである。

制御回路（コンピュータに相当する）１９は、ＲＯＭ１７および外部記憶媒体１８から読み出した車両用ナビゲーション装置１の動作のためのプログラムを実行し、その実行の際にはＲＡＭ１６、ＲＯＭ１７、および外部記憶媒体１８から情報を読み出し、ＲＡＭ１６および外部記憶媒体１８に対して情報の書き込みを行い、位置検出器１１、操作スイッチ群１２、画像表示装置１３、スピーカ１４、Ａ／Ｄ変換器２２と信号の授受を行う。

制御回路１９がプログラムを実行することによって行う具体的な処理としては、現在位置特定処理、案内経路探索処理、経路案内処理等がある。

現在位置特定処理は、位置検出器１１からの信号に基いて、周知のマップマッチング等の技術を用いて車両の現在位置や向きを特定する処理である。

案内経路探索処理は、操作スイッチ群１２からユーザによる目的地の入力を受け付け、現在位置から当該目的地までの最適な案内経路を算出する処理である。

経路案内処理は、外部記憶媒体１８から地図データを読み出し、算出された案内経路、目的施設、経由施設、現在位置等をこの地図データの示す地図上に重ねた画像を、画像表示装置１３に出力し、案内交差点の手前に自車両が到達した等の必要時に、右折、左折等を指示する案内音声信号をスピーカ１４に出力する処理である。

これらの処理において、制御回路１９は、Ａ／Ｄ変換器２２から入力された音声データに対して音声認識処理を行うことで、その音声データが示す単語または単語列を特定し、その単語または単語列の内容に基づいた処理を実行する。例えば、制御回路１９は、音声認識処理によって特定した単語列が「経路探索」「経路案内」等の、特定の処理を実行するための文字列であった場合、その処理のためのプログラムの実行を開始する。また例えば、制御回路１９は、上述の案内経路探索処理の目的地入力の段階において、音声認識処理が「志賀高原」「奈良東大寺」等の、地名を示す単語列を特定した場合、その地名を目的地として案内経路の探索を開始する。

このような音声認識処理を実行するために、制御回路１９が常時実行する音声認識プログラム３０の構成を、図２に示す。音声認識プログラム３０は、音響分析部３１、瞬時周波数分析部３２、音韻尤度計算部３３、音素ＨＭＭ部３４、韻律尤度計算部３５、韻律ＨＭＭ部３６、および結合尤度計算部３７を有している。以下、制御回路１９がこれら音声認識プログラム３０の各部を実行することで行う作動を、それら各部自体の作動であるとして説明する。

音響分析部３１は、Ａ／Ｄ変換器２２から入力のあった音声信号に対して周知の音響分析を行うことで、人の口の形状変化や舌の位置変化を反映する音響特徴量を算出する。

瞬時周波数分析部３２は、Ａ／Ｄ変換器２２から入力のあった音声信号に対して瞬時周波数分析を行うことで、瞬時周波数の微分係数を算出する。この算出は、具体的には、入力のあった音声信号をｘ（ｔ）（ただしｔは時間を示す）とすると、これに対して

（ただしπ（ｔ）は窓関数である）に示すようなＳＦＦＴ（ＳｈｏｒｔＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎ）を数値的に施した結果のＸ（ω，ｔ）（ただしωは角周波数を示す）を用い、

に示すような瞬時周波数λ（ω，ｔ）を数値的に算出し、さらにこのλ（ω，ｔ）を用いて、

に示すような瞬時周波数の微分係数ｑ（ｔ）を数値的に算出する。なお、ω_０、ω_１は、それぞれ周波数に関する積分の下限値および上限値である。数１、数２からもわかるように、数３における計算を行うためには、Ｘ（ω，ｔ）のうち、ω_０＜ω＜ω_１の範囲内のものだけを算出すればよい。したがって、ω_０、ω_１は、瞬時周波数特徴量の算出に用いる音声信号の周波数帯域を、その２つの値の間に制限するための値である。なお、積分区間は、上記のように必ずしも１つの連続した領域である必要はなく、離れた２つ以上の領域であってもよい。

また、α（ω、ｔ）は、重み付け関数である。この重み付け関数は、瞬時周波数特徴量の算出に用いる音声信号の、周波数毎の周波数特徴量への寄与度を決定することになる。すなわち、ある角周波数ωの値において値αが大きいほど、音声信号のその角周波数の成分の、周波数特徴量の算出への寄与度が高くなる。重み付け関数の具体例としては、例えば、α（ω、ｔ）≡１であってもよい。

また、数３中のｅ^ｊωτＸ（ω、ｔ）は、１に置き換えられてもよい。

音韻尤度計算部３３は、音響分析部３１が算出した音響特徴量に基づいて、複数の認識候補単語の音韻尤度を算出する。ここでは、認識候補単語とは、上述した認識辞書中の各エントリに対応する単語である。音韻尤度計算部３３は、この算出のために、音素ＨＭＭ部３４および上述の認識辞書データを用いる。

音素ＨＭＭ部３４は、「あ」、「い」、「う」等の複数の音素のそれぞれに対応して１つずつ音素尤度計算部を有している。各音素尤度計算部は、入力された音響特徴量の、対応する音素に対する尤度を、音声認識アルゴリズムの１つであるＨＭＭ（隠れマルコフモデル）を用いて算出する。

音韻尤度計算部３３はこれらを用い、認識辞書の各エントリ中の単語に対応する尤度計算を行うために、このエントリ中の読み仮名データが示す音素の並びに基づいて、音素ＨＭＭ部３４の各音素ＨＭＭを連結して単語ＨＭＭを作成することによって、認識辞書の各単語に対応する単語尤度計算部が作成される。そして音韻尤度計算部３３は、このようにして作成した各単語に対する単語尤度計算部のすべてに対して、音響分析部３１が算出した音響特徴量を入力し、それによってそれぞれの単語尤度計算部が算出した尤度を、各認識候補単語の音韻尤度とする。なお、単語尤度計算部は、車両用ナビゲーション装置１の出荷時にあらかじめ作成されていてもよいし、学習機能を用いることで車両用ナビゲーション装置１の使用と共に逐次更新されていくようになっていてもよい。

韻律尤度計算部３５は、瞬時周波数分析部３２が算出した瞬時周波数特徴量に基づいて、複数の認識候補単語の韻律尤度を算出する。このために、韻律尤度計算部３５は、韻律ＨＭＭ部３６を用いる。

韻律ＨＭＭ部３６は、韻律についての複数の時間変化パターンのそれぞれ（以下韻律種別）に対応して１つずつ韻律種別尤度計算部を有している。各韻律種別尤度計算部は、入力された瞬時周波数特徴量の、対応する韻律種別に対する尤度を、ＨＭＭを用いて算出する。なお、韻律種別尤度計算部は、車両用ナビゲーション装置１の出荷時にあらかじめ作成されていてもよいし、学習機能を用いることで車両用ナビゲーション装置１の使用と共に逐次更新されていくようになっていてもよい。

これを用いる韻律尤度計算部３５は、認識辞書の各エントリ中の単語に対応する尤度計算を行うために、瞬時周波数分析部３２が算出した瞬時周波数特徴量を、韻律ＨＭＭ部３６の韻律種別尤度計算部のすべてに入力し、その結果これらが算出した韻律種別に対する尤度を、その韻律種別を韻律種別データとして有する単語の韻律尤度であるとする。

結合尤度計算部３７は、音韻尤度計算部３３が算出した音響特徴量および韻律尤度計算部３５が算出した瞬時周波数特徴量をマルチストリームとして用いることで、認識辞書の各認識候補単語の結合尤度を算出し、算出した結合尤度に基づいて、複数の認識候補単語のうちから１つを選択する。具体的には、認識辞書中の各エントリ毎に、そのエントリの単語に対する音韻尤度に韻律尤度を乗算し、その乗算結果を結合尤度とする。そして、認識辞書中の結合尤度の最も高い１つを選択し、それを認識結果の単語とする。

なお、単語の結合尤度は、必ずしもその単語の音韻尤度と韻律尤度との乗算結果である必要はなく、その単語の音韻尤度と韻律尤度との関数であって、音韻尤度が高い程大きくなり、かつ、韻律尤度が高いほど高くなるような量であればよい。例えば、結合尤度は、音韻尤度をγ乗したものに、韻律尤度を（１−γ）乗したものを乗算した結果であるとしてもよい（ただしγは重み付け用の定数であり、０＜γ＜１である）。

このような処理を行うために音声認識プログラム３０の各部３１〜３７は、それぞれが制御回路１９によって並列的に実行され、その処理のために必要なデータを互いに授受するようになっていてもよいし、図３のフローチャートに示すような順で時系列に沿って実行されるようになっていてもよい。すなわち、制御回路１９による音声認識プログラム３０の実行においては、まず音響分析部３１が入力された音声信号から音響特徴量を算出し（ステップ１１０）、続いて音韻尤度計算部３３が音韻尤度を算出し（ステップ１２０）、続いて瞬時周波数分析部３２が瞬時周波数特徴量を算出し（ステップ１３０）、続いて韻律尤度計算部３５が韻律尤度を算出し（ステップ１４０）、続いて結合尤度計算部３７が結合尤度を算出して音声認識結果の単語を特定する（ステップ１５０）ようになっていてもよい。

ここで、以上のような車両用ナビゲーション装置１に対して、例えばユーザが音声で「箸」という音声を、マイク２１を用いて入力した場合を考える。この場合、音韻尤度計算部３３は、「はし」という読み仮名を有する認識辞書中の単語に対して最も高い音韻尤度を算出する。「はし」の読みを有する単語は例えば「箸」、「橋」等、複数あるので、音韻尤度計算部３３は、これらの単語に対しては同じ音韻尤度を算出する。

一方、「箸」と「橋」とは、韻律種別が異なる。図４および図５に、それぞれ「箸」の音声信号の瞬時周波数の微分係数の時間変化、および「橋」の音声信号の瞬時周波数の微分係数の時間変化を、横軸を時間、縦軸を微分係数とするグラフで示す。この図に見られるように、箸の場合は、は→しにかけてその高低アクセントが高→低となるので、その瞬時周波数の微分係数は負の値となる。また、橋の場合は、は→しにかけてその高低アクセントが低→高となるので、その瞬時周波数の微分係数は正の値となる。

したがって、音響分析部３１は、図４に示すような瞬時周波数特徴量を算出し、音韻尤度計算部３３は、この音響特徴量に対して、高→低となるような高低アクセント変化に相当する韻律種別を有する単語に対して、最も高い韻律尤度を算出する。従って、「箸」という単語の韻律尤度は、「橋」という単語の韻律尤度よりも高くなる。

結合尤度計算部３７は、これら音韻尤度計算部３３および韻律尤度計算部３５の算出結果に基づいて、各単語の結合尤度を算出する。図６に、「箸」という音声がユーザによって入力された場合の、音韻尤度、韻律尤度、結合尤度の関係の一例を、表として示す。上述したとおり、この場合における単語「箸」に対する音韻尤度と単語「橋」に対する音韻尤度とは同じであり（図６の例では０．２）、この場合における単語「箸」に対する韻律尤度（図６の例では０．１）は、単語「橋」に対する韻律尤度（図６の例では０．０５）より高い。したがって、結合尤度計算部３７が算出する単語「箸」に対する結合尤度（図６の例では０．０２）は、単語「橋」に対する韻律尤度（図６の例では０．０１）より高い。

このように、車両用ナビゲーション装置１は、読み仮名が同じで韻律が異なる単語を音声認識で区別することができる。そして、韻律に基づいた音声認識のために、瞬時周波数特徴量を用いるので、例えば、韻律に基づいた音声認識のために基本周波数の微分係数を時間−ケプストラム平面のハフ変換による計算する方法に比べ、ケプストラムを用いないので、入力された音声信号の周波数の全帯域を用いて計算する必要がなく、また、ハフ変換を用いないため、計算量が少なく済む。
（第２実施形態）
次に、本発明の第２実施形態について説明する。図７に、本実施形態における音声認識プログラム３０の構成図を示す。本実施形態が第１実施形態と異なるのは、制御回路１９が実行する音声認識プログラム３０が、更に雑音抑圧部３８を有していることである。

雑音抑圧部３８は、入力された音声信号に対して、独立に第１の雑音抑制および第２の雑音抑制を施す。ここで、第１の雑音抑制は、音響分析部３１の処理にとって適した雑音抑制であり、第２の雑音抑制は、瞬時周波数分析部３２の処理にとって適した雑音抑制である。そして、音響分析部３１は、雑音抑圧部３８が第１および第２の雑音抑制のうち第１の雑音抑制のみを施した信号から、第１実施形態と同様に音響特徴量を算出し、瞬時周波数分析部３２は、雑音抑圧部３８が第１および第２の雑音抑制のうち第２の雑音抑制のみを施した信号から、第１実施形態と同様に瞬時周波数特徴量を算出する。

以下、第１および第２の雑音抑制について説明する。第１の雑音抑制は、第２の雑音抑制よりも音声信号中の音響特徴量の保存度合いが高く、第２の雑音抑制は、第１の雑音抑制よりも音声信号中の瞬時周波数特徴量の保存度合いが高い。

具体的には、雑音抑圧部３８は、これら雑音抑制において、スペクトルサブトラクションを用いる。このスペクトルサブトラクションにおいては、非音声区間における信号、すなわち音声が発されていない状態におけるマイク２１、Ａ／Ｄ変換器２２からの入力信号の周波数毎の強度データ、すなわち推定雑音データをあらかじめ外部記憶媒体１８に記憶させておき、音声の雑音抑制の際には、Ａ／Ｄ変換器２２から入力のあった音声信号の周波数毎の音声信号強度から、この推定雑音データに所定の係数βを乗算した値を減算する。なお、減算の結果、負となった周波数成分については、その値をゼロに変更する。

ここで、βを大きい値に設定すると、雑音抑制効果が高くなるが、音響特徴量が欠落する度合いが大きくなる。しかし、瞬時周波数特徴量は、βの値が大きくなっても、その情報が欠落する度合いが、音響特徴量に比べて少ない。

この特性を利用して、本実施形態では、第１の雑音抑制と、第２の雑音抑制とでは、用いる定数βが異なるようにしている。具体的には、第１の雑音抑制に用いるβを第１の正係数β１、第２の雑音抑制に用いるβを第２の正係数β２とすると、０＜β１＜β２としている。例えば、β１としては１．５を、β２としては２．０を用いる。

このような処理を行うために音声認識プログラム３０の各部３１〜３８は、それぞれが制御回路１９によって並列的に実行され、その処理のために必要なデータを互いに授受するようになっていてもよいし、図８のフローチャートに示すような順で時系列に沿って実行されるようになっていてもよい。すなわち、制御回路１９は、制御回路１９による音声認識プログラム３０の実行においては、まず雑音抑圧部３８が入力された音声信号に対して第１の雑音抑制を行い（ステップ１０２）、続いて雑音抑圧部３８が入力された音声信号に対して、第１の雑音抑制とは独立に第２の雑音抑制を行い（ステップ１０４）、続いて音響分析部３１が第１の雑音抑制が施された音声信号から音響特徴量を算出し（ステップ１１０）、続いて音韻尤度計算部３３が音韻尤度を算出し（ステップ１２０）、続いて瞬時周波数分析部３２が第２の雑音抑制が施された音声信号から瞬時周波数特徴量を算出し（ステップ１３０）、続いて韻律尤度計算部３５が韻律尤度を算出し（ステップ１４０）、続いて結合尤度計算部３７が結合尤度を算出して音声認識結果の単語を特定する（ステップ１５０）ようになっていてもよい。

このようにすることで、第１実施形態の効果に加え、車両用ナビゲーション装置１は、音響分析部３１では、第２の雑音抑制よりも音響特徴量の欠落の少ない第１の雑音抑制の結果を用いて音響特徴量を算出し、瞬時周波数分析部３２では、第１の雑音抑制よりもより雑音抑制効果の高い第２の雑音抑制の結果を用いて、瞬時周波数を算出することができる。
（第３実施形態）
次に、本発明の第３実施形態について説明する。図９に、本実施形態における音声認識プログラム３０の構成図を示す。本実施形態が第２実施形態と異なるのは、制御回路１９が実行する音声認識プログラム３０が、雑音抑圧部３８に代えて雑音分析・抑圧部３９を有し、更に計算帯域決定部４０を有していることである。

雑音分析・抑圧部３９は、第２実施形態で示した雑音抑圧部３８の機能に加え、Ａ／Ｄ変換器２２から入力された音声信号の雑音分析処理を行う。雑音分析処理とは、入力された音声信号中に含まれる雑音量についての定量的計算である。本実施形態においては、この雑音分析処理として、周波数毎のＳ／Ｎ比計算を行う。具体的には、上述のように外部記憶媒体１８に記憶された推定雑音データに基づいて、入力された音声信号の周波数毎の信号部分の強度Ｓおよび雑音部分の強度Ｎを算出し、その比を算出する。

計算帯域決定部４０は、雑音分析・抑圧部３９の雑音分析結果に基づいて、瞬時周波数分析部３２が瞬時周波数特徴量の算出に用いる音声信号の周波数帯域を制限する。具体的には、雑音分析・抑圧部３９が算出した周波数毎のＳ／Ｎ比に基づいて、Ｓ／Ｎ比が基準値より低くなっている周波数帯域を、瞬時周波数の微分係数の計算のための周波数領域から除外する。すなわち、第１実施形態の積分区間ω_０≦ω≦ω_１から、Ｓ／Ｎ比が基準値より低くなっている角周波数帯域を除外する。

このような処理を行うために音声認識プログラム３０の各部３１〜４０は、それぞれが制御回路１９によって並列的に実行され、その処理のために必要なデータを互いに授受するようになっていてもよいし、図１０のフローチャートに示すような順で時系列に沿って実行されるようになっていてもよい。すなわち、制御回路１９は、制御回路１９による音声認識プログラム３０の実行においては、まず雑音抑圧部３８が入力された音声信号に対して第１の雑音抑制を行い（ステップ１０２）、続いて雑音抑圧部３８が入力された音声信号に対して、第１の雑音抑制とは独立に第２の雑音抑制を行い（ステップ１０４）、続いて音響分析部３１が第１の雑音抑制が施された音声信号から音響特徴量を算出し（ステップ１１０）、続いて音韻尤度計算部３３が音韻尤度を算出し（ステップ１２０）、続いて計算帯域決定部４０が上述の通り周波数帯域を制限し（ステップ１２５）、続いて瞬時周波数分析部３２が第２の雑音抑制が施された音声信号から瞬時周波数特徴量を算出し（ステップ１３０）、続いて韻律尤度計算部３５が韻律尤度を算出し（ステップ１４０）、続いて結合尤度計算部３７が結合尤度を算出して音声認識結果の単語を特定する（ステップ１５０）ようになっていてもよい。

このようにすることで、雑音分析結果に基づいて使用周波数帯域を制限することで、雑音抑制の効果が高まる。例えば、雑音の多い低周波数帯域を、瞬時周波数の微分係数の計算領域から自動的に除外することが可能となる。
（第４実施形態）
次に、本発明の第４実施形態について説明する。図１１に、本実施形態における音声認識プログラム３０の構成図を示す。本実施形態が第３実施形態と異なるのは、制御回路１９が実行する音声認識プログラム３０が、計算帯域決定部４０に代えて重み付け決定部４１を有していることである。

重み付け決定部４１は、雑音分析・抑圧部３９の雑音分析結果に基づいて、瞬時周波数分析部３２が瞬時周波数特徴量を算出する対象の音声信号の、周波数毎の周波数特徴量への寄与度、すなわち周波数毎の重み付けを決定する。

具体的には、重み付け決定部４１は、雑音分析・抑圧部３９の算出した周波数毎のＳ／Ｎ比ＳＮ（ω）に基づいて、第１実施形態で示した数３中の重み付け関数α（ω、ｔ）を、ＳＮ（ω）／（１＋ＳＮ（ω））の計算結果とする。この計算結果は、Ａ／Ｄ変換器２２から入力された音声信号の各周波数において、信号成分のパワーを、（信号成分のパワー＋雑音成分のパワー）で除算した値と同等である。

このような処理を行うために音声認識プログラム３０の各部３１〜４１は、それぞれが制御回路１９によって並列的に実行され、その処理のために必要なデータを互いに授受するようになっていてもよいし、図１２のフローチャートに示すような順で時系列に沿って実行されるようになっていてもよい。すなわち、制御回路１９は、制御回路１９による音声認識プログラム３０の実行においては、まず雑音抑圧部３８が入力された音声信号に対して第１の雑音抑制を行い（ステップ１０２）、続いて雑音抑圧部３８が入力された音声信号に対して、第１の雑音抑制とは独立に第２の雑音抑制を行い（ステップ１０４）、続いて音響分析部３１が第１の雑音抑制が施された音声信号から音響特徴量を算出し（ステップ１１０）、続いて音韻尤度計算部３３が音韻尤度を算出し（ステップ１２０）、続いて重み付け決定部４１が上述の通り重み付けを決定し（ステップ１２６）、続いて瞬時周波数分析部３２が第２の雑音抑制が施された音声信号から瞬時周波数特徴量を算出し（ステップ１３０）、続いて韻律尤度計算部３５が韻律尤度を算出し（ステップ１４０）、続いて結合尤度計算部３７が結合尤度を算出して音声認識結果の単語を特定する（ステップ１５０）ようになっていてもよい。

なお、上記の各実施形態における構成要素と特許請求の範囲における構成要素との対応関係は以下の通りである。すなわち、制御回路１９が、音響分析部３１を実行することで、音響特徴量算出手段として機能する。また、制御回路１９が、瞬時周波数分析部３２を実行することで、瞬時周波数特徴量算出手段として機能する。また、制御回路１９が、音韻尤度計算部３３、音素ＨＭＭ部３４、韻律尤度計算部３５、韻律ＨＭＭ部３６、および結合尤度計算部３７を実行することで、認識手段として機能する。

また、制御回路１９が、音韻尤度計算部３３および音素ＨＭＭ部３４を実行することで音韻尤度算出手段として機能する。また、制御回路１９が、韻律尤度計算部３５および韻律ＨＭＭ部３６を実行することで、韻律尤度算出手段として機能する。また、制御回路１９が、結合尤度計算部３７を実行することで、結合尤度算出手段として機能する。

また、制御回路１９が、雑音抑圧部３８、および雑音分析・抑圧部３９の雑音抑制部分（各フローチャートのステップ１０２および１０４に相当する）を実行することで、雑音抑制手段として機能する。また、制御回路１９が、雑音分析・抑圧部３９の雑音分析部分（各フローチャートのステップ１０１に相当する）を実行することで、雑音分析手段として機能する。

また、制御回路１９が、計算帯域決定部４０を実行することで、帯域制限手段として機能する。また、制御回路１９が、重み付け決定部４１を実行することで、重み付け決定手段として機能する。
（他の実施形態）
上記の各実施形態においては、音声認識プログラム３０を制御回路１９が実行することで、図２、７、９、１１に示すような各機能が実現されているが、音響分析部３１、瞬時周波数分析部３２、音韻尤度計算部３３、音素ＨＭＭ部３４、韻律尤度計算部３５、韻律ＨＭＭ部３６、結合尤度計算部３７、雑音抑圧部３８、雑音分析・抑圧部３９、計算帯域決定部４０、重み付け決定部４１は、それぞれが個々の機能を実現する回路を有するハードウェアとして実現されていてもよい。これらの機能を実現するハードウェアとしては、例えば回路構成がプログラム可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍａｂｌｅＧａｔｅＡｒｒａｙ）等がある。

また、上記の実施形態においては、瞬時周波数特徴量の一具体例としての瞬時周波数微分係数の計算において、周波数帯域の積分区間が限定されることで、瞬時周波数特徴量の算出のために用いる音声信号の周波数帯域が制限されているが、音声信号の周波数帯域の制限は、必ずしもこのようなものに限らない。例えば、Ａ／Ｄ変換器２２からの入力信号のうち、ある周波数区間の信号のみを取り出す周知のバンドパスフィルタを車両用ナビゲーション装置１が備え、瞬時周波数分析部３２は、このバンドパスフィルタの出力に基づいて瞬時周波数特徴量（瞬時周波数、瞬時周波数の１階微分、２階微分等）を算出してもよい。この場合、当該バンドパスフィルタが、帯域制限手段に相当する。

また、上記の実施形態においては、瞬時周波数特徴量の一具体例としての瞬時周波数微分係数の計算において、重み付け関数α（ω、ｔ）によって、瞬時周波数特徴量を算出する対象の音声信号の、周波数毎の当該周波数特徴量への寄与度が決まるようになっているが、必ずしもこのようになっている必要はない。上記のバンドパスフィルタが周波数毎に変化する透過特性を有している場合、その特性が重み付けに相当する。この場合、当該バンドパスフィルタが、重み付け決定手段に相当する。

また、上記の各実施形態においては、認識辞書は外部記憶媒体１８に記憶されるようになっているが、実際に制御回路１９がこの認識辞書を用いる場合は、外部記憶媒体１８中の認識辞書をＲＡＭ１６に複製し、そのＲＡＭ１６中の認識辞書から各エントリのデータを読み出すようになっていてもよい。このようにすることで、認識辞書の読み取り効果が高まる。

車両用ナビゲーション装置１のハードウェア構成を示す図である。第１実施形態の音声認識プログラム３０の構成図である。第１実施形態の音声認識プログラム３０のフローチャートである。「箸」の音声信号の瞬時周波数の微分形式の時間変化パターンを示すグラフである。「橋」の音声信号の瞬時周波数の微分形式の時間変化パターンを示すグラフである。結合尤度の計算例を示す図表である。第２実施形態の音声認識プログラム３０の構成図である。第２実施形態の音声認識プログラム３０のフローチャートである。第３実施形態の音声認識プログラム３０の構成図である。第３実施形態の音声認識プログラム３０のフローチャートである。第４実施形態の音声認識プログラム３０の構成図である。第４実施形態の音声認識プログラム３０のフローチャートである。

符号の説明

１…車両用ナビゲーション装置、１１…位置検出器、１２…操作スイッチ群、
１３…画像表示装置、１４…スピーカ、１５…ＣＰＵ、１６…ＲＡＭ、１７…ＲＯＭ、
１８…外部記憶媒体、１９…制御回路、２１…マイク、２２…Ａ／Ｄ変換器、
３０…音声認識プログラム、３１…音響分析部、３２…瞬時周波数分析部、
３３…音韻尤度計算部、３４…音素ＨＭＭ部、３５…韻律尤度計算部、
３６…韻律ＨＭＭ部、３７…結合尤度計算部、３８…雑音抑圧部、
３９…雑音分析・抑圧部、４０…計算帯域決定部、４１…重み付け決定部。

Claims

入力された音声信号から音響特徴量を算出する音響特徴量算出手段と、
前記音声信号から瞬時周波数特徴量を算出する瞬時周波数特徴量算出手段と、
前記音響特徴量算出手段が算出した音響特徴量および前記瞬時周波数特徴量算出手段が算出した瞬時周波数特徴量に基づいて、前記音声信号の音声認識を行う認識手段と、を備えた音声認識装置。
前記認識手段は、前記音響特徴量算出手段が算出した音響特徴量に基づいて、複数の認識候補語の音韻尤度を算出する音韻尤度算出手段と、
前記瞬時周波数特徴量算出手段が算出した瞬時周波数特徴量に基づいて、複数の認識候補語の韻律尤度を算出する韻律尤度算出手段と、
前記音韻尤度算出手段が算出した音韻尤度と、前記韻律尤度算出手段が算出した韻律尤度に基づいて、認識候補となる語の結合尤度を算出し、算出した結合尤度に基づいて、前記複数の認識候補語のうちから１つを選択することで、前記音声信号の音声認識を行う結合尤度算出手段と、を備えたことを特徴とする請求項１に記載の音声認識装置。
入力された音声信号に対して、独立に第１の雑音抑制および第２の雑音抑制を施す雑音抑制手段を備え、
前記音響特徴量算出手段は、前記入力された音声信号に対して前記雑音抑制手段が前記第１の雑音抑制を施した信号から音響特徴量を算出し、
前記瞬時周波数特徴量算出手段は、入力された音声信号に対して前記雑音抑制手段が前記第２の雑音抑制を施した信号から瞬時周波数特徴量を算出し、
前記第１の雑音抑制は、前記第２の雑音抑制よりも前記音声信号中の音響特徴量の保存度合いが高く、前記第２の雑音抑制は、前記第１の雑音抑制よりも前記音声信号中の瞬時周波数特徴量の保存度合いが高いことを特徴とする請求項１または２に記載の音声認識装置。
前記雑音抑制手段は、前記第１の雑音制御において、第１の減算パラメータを用いてスペクトルサブトラクション法を適用し、前記第２の雑音制御において、第１の減算パラメータより大きい第２の減算パラメータを用いてスペクトルサブトラクション法を適用することを特徴とする請求項３に記載の音声認識装置。
入力された音声信号の雑音分析を行う雑音分析手段と、
前記雑音分析手段の分析結果に基づいて、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量の算出に用いる音声信号の周波数帯域を制限する帯域制限手段と、を備えたことを特徴とする請求項１ないし４のいずれか１つに記載の音声認識装置。
前記雑音分析手段は、入力された音声信号の周波数毎のＳ／Ｎ比を算出し、
前記帯域制限手段は、前記雑音分析手段が算出したＳ／Ｎ比が基準値以下の周波数を、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量の算出に用いる音声信号の周波数帯域から除外することを特徴とする請求項５に記載の音声認識装置。
入力された音声信号の雑音分析を行う雑音分析手段と、
前記雑音分析手段の分析結果に基づいて、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量を算出する対象の音声信号の、周波数毎の前記周波数特徴量への寄与度を決定する重み付け決定手段と、を備えたことを特徴とする請求項１ないし５のいずれか１つに記載の音声認識装置。
前記雑音分析手段は、入力された音声信号の周波数毎のＳ／Ｎ比を算出し、
前記重み付け手段は、前記雑音分析手段が算出したＳ／Ｎ比に基づいて、前記瞬時周波数特徴量算出手段が瞬時周波数特徴量を算出する対象の音声信号の、周波数毎の前記周波数特徴量への寄与度を決定することを特徴とする請求項７に記載の音声認識装置。
請求項８記載の寄与度は、入力された音声信号の周波数毎のＳ／Ｎ比であるＳＮ（ω）より寄与度＝ＳＮ（ω）／（１＋ＳＮ（ω））と計算されることを特徴とする請求項８に記載の音声認識装置。
入力された音声信号から音響特徴量を算出する音響特徴量算出手段、
前記音声信号から瞬時周波数特徴量を算出する瞬時周波数特徴量算出手段、および
前記音響特徴量算出手段が算出した音響特徴量および前記瞬時周波数特徴量算出手段が算出した瞬時周波数特徴量に基づいて、前記音声信号の音声認識を行う認識手段として、コンピュータを機能させる音声認識プログラム。