JP2006163285A

JP2006163285A - 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体

Info

Publication number: JP2006163285A
Application number: JP2004358556A
Authority: JP
Inventors: Tomomi Matsuoka; 智美松岡; Takeo Kanamori; 丈郎金森
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2004-12-10
Filing date: 2004-12-10
Publication date: 2006-06-22

Abstract

【課題】音声認識装置を使用する環境によって周囲騒音の変化や発声レベルの変化があった場合でも、入力信号レベル情報と発声単語の使用頻度に連動して認識辞書の待ち受け語彙数の範囲を変化させることにより安定した音声認識が行える装置を提供する。
【解決手段】辞書設定部２は、現在の入力信号レベルの情報と、話者が過去に発声した語彙の発声回数情報とに応じて、認識辞書格納部４に格納された認識辞書に対する語彙数の範囲を変化させる。そして、認識部３は、変化した語彙数の範囲を用いて音声認識を行う。また、語彙に対する使用回数を認識辞書格納部４に対して登録更新することで、使用環境に依存することなく安定した音声認識を行うことができる。
【選択図】図１

Description

本発明は、音声認識装置、音声認識方法、音声認識プログラム、および記録媒体に関し、より特定的には、大規模な音声認識辞書を有する認識装置を使用する音声認識装置、音声認識方法、音声認識プログラム、および記録媒体に関する。

現在、音声認識装置を利用した機器が様々な分野で用いられている中、ユーザからの要望として、機器制御を行う際に安定した認識率の確保および誤認識なく安価で使いやすい認識装置が切望されている。その中で、認識率の安定と向上とを目的としている音声認識装置が開示されている（例えば、特許文献１参照）。

上記特許文献１で開示された音声認識装置は、制御する際に場面ごとに認識対象とする語彙を切替えて音声認識を行う。当該音声認識装置は、複数個の使用頻度付き語彙辞書、言語尤度作成手段、言語尤度付き語彙辞書、および照合手段を備えている。使用頻度付き語彙辞書は、場面ごとに認識語彙とその使用頻度とを保持している。言語尤度作成手段は、各認識語彙の使用頻度から計算される出現確率の対数値に、使用頻度付き語彙辞書ごとに異なる重み係数を乗じて言語尤度を計算する。言語尤度付き語彙辞書は、場面ごとの認識語彙と語彙尤度とを保持する。照合手段は、各場面に関し、この言語尤度付き語彙辞書の言語尤度を含むデータと音素モデルとから作成された単語モデルと入力音声信号の特徴ベクトルの時系列からパターンマッチングを行い語彙に対する認識スコアとして該認識スコアの一番高い候補を認識結果として出力する。そして、尤度作成手段は、使用頻度付き語彙辞書内の語彙数が大きい辞書ほど重み係数を大きな値に設定して言語尤度付き語彙辞書を作成し、使用頻度付き言語辞書内の語彙全体の使用頻度が閾値未満の使用頻度付き語彙辞書では、重み係数を０として言語尤度付き語彙辞書を作成している。また、尤度作成手段は、使用頻度付き語彙辞書内の語彙全体の使用頻度が多い辞書ほど重み係数を大きな値に設定して言語尤度付き語彙辞書を作成し、また言語尤度作成手段は、使用頻度付き語彙辞書内の語彙数と語彙全体の使用頻度が多い辞書ほど大きな値に設定し、また全体の使用頻度が多い辞書ほど大きな値に設定して言語尤度付き語彙辞書を作成している。
特開２００３−１５０１８９号公報

上記特許文献１で開示された音声認識装置は、使用頻度が高い辞書ほど重み係数を大きな値に設定して語彙辞書を作成している。また、使用頻度の高い語彙ほど尤度の重み付けを行い、使用頻度付き語彙辞書内の語彙全体が所定の閾値未満の使用頻度付き語彙辞書では、重み係数を０とし、使用頻度が所定の閾値以上の辞書では使用頻度付き語彙辞書内の語彙数と語彙の全体使用頻度の両者の値を参照し、認識語彙数が大きい辞書ほど大きな重み係数を設定して、使用頻度に応じた言語尤度付き語彙辞書を作成している。しかしながら、使用頻度を考慮し言語尤度の重み付けを設定する認識方法だけでは、認識装置を使用する環境の変化や状態に対応できず、環境によっては認識率を維持することが困難である。

それ故に、本発明の目的は、音声認識装置を使用する環境の変化や状態に適切に対応し、環境に応じた認識率を維持することができる音声認識装置、音声認識方法、音声認識プログラム、および記録媒体を提供することである。

上記目的を達成するために、本発明は、以下に述べるような特徴を有している。
第１の発明は、音声を含む入力信号に対して語彙を認識する音声認識装置である。音声認識装置は、認識辞書格納手段、入力レベル検出手段、および辞書設定手段を備える。認識辞書格納手段は、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された音声認識辞書を記憶する。入力レベル検出手段は、入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する。辞書設定手段は、入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、音声認識辞書に対する待ち受け語彙の範囲を変化させる。

第２の発明は、上記第１の発明において、辞書設定手段は、入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方と過去の使用回数とに基づいて、音声認識辞書に対する待ち受け語彙の範囲を変化させる。音声認識装置は、認識手段をさらに備える。認識手段は、辞書設定手段が設定した範囲に応じた音声認識辞書を用いて入力信号に対する音声認識を行う。認識手段は、音声認識を行った語彙に対して、音声認識辞書に記録されたその語彙に対する使用回数を更新する。

第３の発明は、上記第２の発明において、入力レベル検出手段は、入力信号に対する音声信号レベルを示す情報を検出する。辞書設定手段は、音声信号レベルに基づいて待ち受け語彙数および待ち受け語彙とする使用回数を決定して、範囲を変化させる。

第４の発明は、上記第２の発明において、入力レベル検出手段は、入力信号に対する背景騒音レベルを示す情報を検出する。辞書設定手段は、背景騒音レベルに基づいて待ち受け語彙数および待ち受け語彙とする使用回数を決定して、範囲を変化させる。

第５の発明は、上記第２の発明において、入力レベル検出手段は、入力信号に対する音声信号レベルと背景騒音レベルとの比率を示す情報を検出する。辞書設定手段は、比率に基づいて待ち受け語彙数および待ち受け語彙とする使用回数を決定して、範囲を変化させる。

第６の発明は、上記第２の発明において、音声認識装置は、入力レベル閾値設定手段を、さらに備える。入力レベル閾値設定手段は、ユーザの指示に応じて、音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に対する閾値を設定する。辞書設定手段は、入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方が閾値に対して所定の条件を満たす場合、音声認識辞書に対する待ち受け語彙の範囲を変化させる。

第７の発明は、上記第２の発明において、音声認識装置は、使用回数閾値設定手段を、さらに備える。使用回数閾値設定手段は、ユーザの指示に応じて、使用回数に対する閾値を設定する。辞書設定手段は、閾値以上を示す使用回数が登録された語彙を含むように音声認識辞書に対する待ち受け語彙の範囲を変化させる。

第８の発明は、上記第１の発明において、辞書設定手段は、音声認識辞書内のそれぞれの語彙に対する尤度重み付けの量を変化させることによって待ち受け語彙の範囲を変化させる。

第９の発明は、音声を含む入力信号に対して語彙を認識する音声認識方法である。音声認識方法は、入力レベル検出ステップおよび辞書設定ステップを含む。入力レベル検出ステップは、入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する。辞書設定ステップは、入力レベル検出ステップが検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された音声認識辞書に対する待ち受け語彙の範囲を変化させる。

第１０の発明は、上記第９の発明において、辞書設定ステップは、入力レベル検出ステップが検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方と過去の使用回数とに基づいて、音声認識辞書に対する待ち受け語彙の範囲を変化させる。音声認識方法は、認識ステップをさらに含む。認識ステップは、辞書設定ステップが設定した範囲に応じた音声認識辞書を用いて入力信号に対する音声認識を行う。認識ステップは、音声認識を行った語彙に対して、音声認識辞書に記録されたその語彙に対する使用回数を更新する。

第１１の発明は、上記第１０の発明において、入力レベル検出ステップは、入力信号に対する音声信号レベルを示す情報を検出する。辞書設定ステップは、音声信号レベルに基づいて待ち受け語彙数および待ち受け語彙とする使用回数を決定して、範囲を変化させる。

第１２の発明は、上記第１０の発明において、入力レベル検出ステップは、入力信号に対する背景騒音レベルを示す情報を検出する。辞書設定ステップは、背景騒音レベルに基づいて待ち受け語彙数および待ち受け語彙とする使用回数を決定して、範囲を変化させる。

第１３の発明は、上記第１０の発明において、入力レベル検出ステップは、入力信号に対する音声信号レベルと背景騒音レベルとの比率を示す情報を検出する。辞書設定ステップは、比率に基づいて待ち受け語彙数および待ち受け語彙とする使用回数を決定して、範囲を変化させる。

第１４の発明は、上記第１０の発明において、音声認識方法は、入力レベル閾値設定ステップをさらに含む。入力レベル閾値設定ステップは、ユーザの指示に応じて、音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に対する閾値を設定する。辞書設定ステップは、入力レベル検出ステップが検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方が閾値に対して所定の条件を満たす場合、音声認識辞書に対する待ち受け語彙の範囲を変化させる。

第１５の発明は、上記第１０の発明において、音声認識方法は、使用回数閾値設定ステップをさらに含む。使用回数閾値設定ステップは、ユーザの指示に応じて、使用回数に対する閾値を設定する。辞書設定ステップは、閾値以上を示す使用回数が登録された語彙を含むように音声認識辞書に対する待ち受け語彙の範囲を変化させる。

第１６の発明は、上記第９の発明において、辞書設定ステップは、音声認識辞書内のそれぞれの語彙に対する尤度重み付けの量を変化させることによって待ち受け語彙の範囲を変化させる。

第１７の発明は、記憶部を有する音声認識装置のコンピュータに実行される音声認識プログラムである。音声認識装置は、音声を含む入力信号に対して語彙を認識する。音声認識プログラムは、入力レベル検出手段および辞書設定手段としてコンピュータを機能させる。入力レベル検出手段は、入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する。辞書設定手段は、入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された記憶部に格納される音声認識辞書に対する待ち受け語彙の範囲を変化させる。

第１８の発明は、記憶部を有する音声認識装置のコンピュータに実行される音声認識プログラムを記録した記録媒体である。音声認識装置は、音声を含む入力信号に対して語彙を認識する。記録媒体に記憶された音声認識プログラムは、入力レベル検出手段および辞書設定手段としてコンピュータを機能させる。入力レベル検出手段は、入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する。辞書設定手段は、入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された記憶部に格納される音声認識辞書に対する待ち受け語彙の範囲を変化させる。

本発明の音声認識装置は、使用する環境によって背景騒音の変化や周囲の状況によって発声のレベルに変化が起こる場合、騒音環境下の場合でも、音声認識辞書内にある語彙数の範囲の狭く絞り込むことによって認識率を向上させることができる。また、音声認識装置は、話者が発声した語彙の使用回数の多いものを優先して、辞書内にある語彙数の範囲の狭く絞り込むまたは語彙それぞれに対する尤度重み付けを小さく変化させることで認識率を向上させることができる。また、周囲騒音が低いＳ／Ｎの良い状態では、話者が発声した語彙の回数に応じて、辞書内にある語彙数の範囲を広く設定することや、語彙それぞれに対する尤度重み付けを小さく変化させることで、認識の対象となる語彙数が多くなり、音声認識装置の使用環境に関わらず安定した音声認識率が得られる。

また、本発明の音声認識方法、音声認識プログラム、および記録媒体によれば、上述した音声認識装置と同様の効果が得られる。

（第１の実施形態）
以下、図１を参照して、本発明の第１の実施形態に係る音声による認識装置および制御装置（以下、単に音声認識装置と記載する）について説明する。なお、図１は、当該音声認識装置の構成を示すブロック図である。

図１において、当該音声認識装置は、入力信号レベル検出部１、辞書設定部２、認識部３、および認識辞書格納部４を備えている。入力信号レベル検出部１は、マイクロホン等で収音した信号から音声信号レベルまたは背景騒音レベルの検出を行い、音声信号レベル情報または背景騒音レベル情報を出力する。そして、入力信号レベル検出部１で検出された音声信号レベル情報または背景騒音レベル情報と話者が発声した語彙の使用回数とに応じて、辞書設定部２で辞書語彙数の範囲を変化させて認識部３で音声認識を行う。認識辞書格納部４は、音声認識辞書を格納しており、認識部３で認識した語彙に応じて、当該音声認識辞書における話者が発声した語彙に対する使用回数を登録更新する。以上のように構成された音声認識装置について、以下、その特徴を述べる。

なお、本発明の音声認識装置が音声認識対象とする語彙は、例えば命令語である。この場合、上記使用回数も命令語に対して話者が発声した回数が登録更新され、後述する語彙範囲も命令語に対する範囲となる。しかしながら、本発明の音声認識装置は、命令語とは異なった他の語彙を含めて音声認識対象にできることは言うまでもない。以下の説明においては、単に語彙と記載して説明を行う。

一般的に、音声認識装置は、入力信号のＳ／Ｎが良い場合には認識率が高く、Ｓ／Ｎが低くなるにつれて認識率が低下する。一方、語彙数と認識率との関係は、待ち受け語彙数が多いと認識率は低下し、語彙数を少なく絞り込むと認識率が上昇する。ここで、入力信号レベル検出部１から出力されたレベル情報が音声信号レベル情報である場合、当該音声信号レベル情報が示す音声レベルが高いときには収音Ｓ／Ｎが高いとみなし、待ち受けの語彙数を多くとっても十分な認識率が得られると考えられることから、待ち受ける語彙数を制限せずに動作させることができる。逆に、上記音声レベルが低い場合、認識に対して十分な収音Ｓ／Ｎが得られていないとみなし、待ち受ける語彙数を制限して認識率の低下を防止する。そして、待ち受ける語彙の範囲を決めるとき、過去の語彙の発声回数情報から使用頻度の高いものから優先して待ち受ける語彙の対象とする。なお、使用頻度の高いものから優先する方法としては、各語彙に対する使用回数に応じて語彙数を制限したり、尤度重み付けを用いたりすることによっても、同様の効果を得ることができる。

本実施形態における音声認識装置では、一例として過去の語彙の発声回数情報および入力信号レベル検出部１が検出する音声レベルを用いる。そして、上記音声レベルが高い、すなわちＳ／Ｎが高い状態では、辞書設定部２により認識辞書格納部４に格納された音声認識辞書の語彙数の範囲を広く設定したり、語彙それぞれに対する尤度重み付けを小さく変化させたりして、認識の対象となる語彙数を多くして認識部３で認識を行う。一方、上記音声レベルが低い、すなわちＳ／Ｎが低い状態では、辞書設定部２により話者が発声した語彙の使用回数が多いものを優先して認識辞書格納部４に格納された音声認識辞書の語彙数の範囲を狭く設定したり、語彙それぞれに対する尤度重み付けを大きく変化させたりして、認識の対象となる語彙数を絞り込んで認識部３で認識を行う。このようにして、発声レベルの個人差や、話者内における発声レベルのばらつきに応じて、最適な認識対象語彙数が自動的に設定され、発声レベルの変化によらず常に十分な認識率を得ることが出来るようになる。

また、本実施形態における音声認識装置では、他の例として入力信号レベル検出部１が検出する背景騒音レベルを用いる。そして、上記背景騒音レベルが低い、すなわちＳ／Ｎの高い状態では、辞書設定部２により認識辞書格納部４に格納された音声認識辞書の語彙数の範囲を広く設定したり、語彙それぞれに対する尤度重み付けを小さく変化させたりして、認識の対象となる語彙数を多くして認識部３で認識を行う。一方、上記背景騒音レベルが高い、すなわちＳ／Ｎの低い状態では、辞書設定部２により話者が発声した語彙の使用回数が多いものを優先して認識辞書格納部４に格納された音声認識辞書の語彙数の範囲を狭く設定したり、語彙それぞれに対する尤度重み付けを大きく変化させたりして、認識の対象となる語彙数を絞り込んで認識部３で認識を行う。このようにして、周囲騒音レベルに従って、自動的に認識対象語彙数が制御されることによって、使用する周囲騒音レベルによらず常に十分な認識率を得ることができる。

次に、図２を参照して、上記音声認識装置の音声認識動作について説明する。なお、図２は、音声認識装置の音声認識動作を示すフローチャートである。

図２において、入力信号レベル検出部１は、マイクロホン等で収音（ステップＳ５１）した信号から音声信号レベルまたは背景騒音レベルの検出を行い、音声信号レベル情報または背景騒音レベル情報等のレベル情報を出力する（ステップＳ５２）。次に、辞書設定部２は、上記ステップＳ５２で出力されたレベル情報に基づいて、収音された入力信号のＳ／Ｎを取得する（ステップＳ５３）。そして、辞書設定部２は、取得されたＳ／Ｎと語彙の使用回数とに応じて、音声認識辞書に対して認識の対象とする語彙範囲を設定する（ステップＳ５４）。次に、認識部３は、辞書設定部２が対象とする語彙範囲を用いて、収音した信号に対する音声認識を行い（ステップＳ５５）、当該フローチャートによる処理を終了する。

なお、入力信号レベル検出部１は、マイクロホン等で収音した信号から得られるＳ／Ｎ比をレベル情報として出力してもかまわない。入力信号レベル検出部１がＳ／Ｎ比をレベル情報として出力する場合も、以降の処理は上記の音声レベルまたは背景騒音レベルと同様に動作する。この場合、音声レベルまたは背景騒音レベルを用いたそれぞれの効果を同時に得られることになり、より汎用性が高まる。

また、認識辞書格納部４に格納された音声認識辞書の語彙数の範囲を狭く設定するとき、辞書設定部２により話者が発声した語彙の使用回数が多いものを優先する説明を行ったが、ユーザの指示に応じた使用回数に関する閾値を設けてもかまわない。そして、入力信号レベル検出部１で検出した音声信号レベル情報または背景騒音レベル情報に応じて、Ｓ／Ｎが低いときに上記閾値より使用回数が多いものに語彙範囲を制限する。これによって、ユーザによって認識語彙の範囲を調整することができるようになる。

（第２の実施形態）
以下、図３を参照して、本発明の第２の実施形態に係る音声認識装置について説明する。なお、図３は、当該音認識装置の構成を示すブロック図である。

図３において、当該音声認識装置は、入力信号レベル検出部１、辞書設定部２、認識部３、認識辞書格納部４、および入力レベル閾値決定部５を備えている。なお、第２の実施形態に係る音声認識装置は、第１の実施形態に対して入力レベル閾値決定部５をさらに備えているところが異なり、他の構成は同様である。したがって、第１の実施形態と同様の構成については同一の参照符号を付して、詳細な説明を省略する。

入力レベル閾値決定部５は、ユーザの操作に応じて、入力信号レベル検出部１が出力するレベル情報に対する閾値を設定して、当該閾値を辞書設定部２に出力する。辞書設定部２は、入力レベル閾値決定部５が設定した閾値に対して、入力信号レベル検出部１からのレベル情報が当該閾値を上回るまたは下回るかを判断し、当該判断結果に応じて語彙範囲を変化させたり、尤度重み付けを変化させたりする。

具体的には、辞書設定部２は、入力信号レベル検出部１から出力されるレベル情報が入力信号のＳ／Ｎ比または音声信号レベル情報である場合、当該レベル情報が設定された閾値より小さい場合に語彙範囲を狭く設定したり、尤度重み付けを大きくしたりする。一方、入力信号レベル検出部１から出力されるレベル情報が背景騒音レベル情報である場合、当該レベル情報が設定された閾値以上の場合に語彙範囲を狭くしたり、尤度重み付けを大きくしたりする。このように、使用環境やユーザの好みに応じて、認識語彙の範囲を調整することができるようになる。

次に、図４を参照して、上記音声認識装置の音声認識動作について説明する。なお、図４は、音声認識装置の音声認識動作を示すフローチャートである。

図４において、入力信号レベル検出部１は、マイクロホン等で収音（ステップＳ６１）した信号から音声信号レベルまたは背景騒音レベルの検出を行い、音声信号レベル情報または背景騒音レベル情報等のレベル情報を出力する（ステップＳ６２）。次に、辞書設定部２は、上記ステップＳ６２で出力されたレベル情報と入力レベル閾値決定部５が設定している閾値との関係を検出し、当該レベル情報が閾値に対して語彙範囲を縮小する条件を満たしているか否かを判断する（ステップＳ６３）。具体的には、辞書設定部２は、音声信号レベル情報の場合に閾値より小さければ条件を満たしていると判断し、背景騒音レベル情報の場合に閾値以上であれば条件を満たしていると判断する。そして、辞書設定部２は、語彙範囲を縮小する場合に処理を次のステップＳ６４に進め、語彙範囲を縮小しない場合、語彙範囲を通常の範囲（例えば、音声認識辞書全て）に設定して、処理を次のステップＳ６６に進める。

ステップＳ６４において、辞書設定部２は、収音された入力信号のＳ／Ｎを取得する。そして、辞書設定部２は、取得されたＳ／Ｎと語彙の使用回数とに応じて、音声認識辞書に対して認識の対象とする絞り込んだ語彙範囲を設定し（ステップＳ６５）、処理を次のステップＳ６６に進める。

ステップＳ６６において、認識部３は、辞書設定部２が対象とする語彙範囲を用いて、収音した信号に対する音声認識を行い、当該フローチャートによる処理を終了する。

なお、上述した第１および第２の実施形態に係る音声認識装置は、記憶部を備えた一般的なコンピュータシステムによって実現可能である。この場合、上記記憶部に格納された音声認識プログラムをコンピュータが実行することによって、上述した音声認識動作が行われる。なお、上記音声認識プログラムは、通信媒体を介してコンピュータシステムに供給されてもかまわない。また、光ディスク等の記録媒体に上記音声認識プログラムを記録し、当該記録媒体に記録された音声認識プログラムをコンピュータシステムで読み込んでもかまわない。

本発明にかかる音声認識装置、音声認識方法、音声認識プログラム、および記録媒体は、使用環境の変化に対応しながら安定した音声認識を行うことができ、音声認識リモコンやオーディオ符号化方式などの特徴パターンの抽出および選出を行う技術分野での応用としても有用である。

本発明の第１の実施形態に係る音声認識装置のブロック図図１の音声認識装置の音声認識動作を示すフローチャート本発明の第２の実施形態に係る音声認識装置のブロック図図３の音声認識装置の音声認識動作を示すフローチャート

符号の説明

１…入力信号レベル検出部
２…辞書設定部
３…認識部
４…認識辞書格納部
５…入力レベル閾値決定部

Claims

音声を含む入力信号に対して語彙を認識する音声認識装置であって、
辞書に含まれる語彙それぞれに対する過去の使用回数が記録された音声認識辞書を記憶する認識辞書格納手段と、
前記入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する入力レベル検出手段と、
前記入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、前記音声認識辞書に対する待ち受け語彙の範囲を変化させる辞書設定手段とを備える、音声認識装置。
前記辞書設定手段は、前記入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方と前記過去の使用回数とに基づいて、前記音声認識辞書に対する待ち受け語彙の範囲を変化させ、
前記音声認識装置は、前記辞書設定手段が設定した範囲に応じた音声認識辞書を用いて前記入力信号に対する音声認識を行う認識手段を、さらに備え、
前記認識手段は、音声認識を行った語彙に対して、前記音声認識辞書に記録された当該語彙に対する使用回数を更新することを特徴とする、請求項１に記載の音声認識装置。
前記入力レベル検出手段は、前記入力信号に対する音声信号レベルを示す情報を検出し、
前記辞書設定手段は、前記音声信号レベルに基づいて待ち受け語彙数および待ち受け語彙とする前記使用回数を決定して、前記範囲を変化させることを特徴とする、請求項２に記載の音声認識装置。
前記入力レベル検出手段は、前記入力信号に対する背景騒音レベルを示す情報を検出し、
前記辞書設定手段は、前記背景騒音レベルに基づいて待ち受け語彙数および待ち受け語彙とする前記使用回数を決定して、前記範囲を変化させることを特徴とする、請求項２に記載の音声認識装置。
前記入力レベル検出手段は、前記入力信号に対する音声信号レベルと背景騒音レベルとの比率を示す情報を検出し、
前記辞書設定手段は、前記比率に基づいて待ち受け語彙数および待ち受け語彙とする前記使用回数を決定して、前記範囲を変化させることを特徴とする、請求項２に記載の音声認識装置。
前記音声認識装置は、ユーザの指示に応じて、前記音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に対する閾値を設定する入力レベル閾値設定手段を、さらに備え、
前記辞書設定手段は、前記入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方が前記閾値に対して所定の条件を満たす場合、前記音声認識辞書に対する待ち受け語彙の範囲を変化させることを特徴とする、請求項２に記載の音声認識装置。
前記音声認識装置は、ユーザの指示に応じて、前記使用回数に対する閾値を設定する使用回数閾値設定手段を、さらに備え、
前記辞書設定手段は、前記閾値以上を示す使用回数が登録された語彙を含むように前記音声認識辞書に対する待ち受け語彙の範囲を変化させることを特徴とする、請求項２に記載の音声認識装置。
前記辞書設定手段は、前記音声認識辞書内のそれぞれの語彙に対する尤度重み付けの量を変化させることによって待ち受け語彙の範囲を変化させることを特徴とする、請求項１に記載の音声認識装置。
音声を含む入力信号に対して語彙を認識する音声認識方法であって、
前記入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する入力レベル検出ステップと、
前記入力レベル検出ステップが検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された音声認識辞書に対する待ち受け語彙の範囲を変化させる辞書設定ステップとを含む、音声認識方法。
前記辞書設定ステップは、前記入力レベル検出ステップが検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方と前記過去の使用回数とに基づいて、前記音声認識辞書に対する待ち受け語彙の範囲を変化させ、
前記音声認識方法は、前記辞書設定ステップが設定した範囲に応じた音声認識辞書を用いて前記入力信号に対する音声認識を行う認識ステップを、さらに含み、
前記認識ステップは、音声認識を行った語彙に対して、前記音声認識辞書に記録された当該語彙に対する使用回数を更新することを特徴とする、請求項９に記載の音声認識方法。
前記入力レベル検出ステップは、前記入力信号に対する音声信号レベルを示す情報を検出し、
前記辞書設定ステップは、前記音声信号レベルに基づいて待ち受け語彙数および待ち受け語彙とする前記使用回数を決定して、前記範囲を変化させることを特徴とする、請求項１０に記載の音声認識方法。
前記入力レベル検出ステップは、前記入力信号に対する背景騒音レベルを示す情報を検出し、
前記辞書設定ステップは、前記背景騒音レベルに基づいて待ち受け語彙数および待ち受け語彙とする前記使用回数を決定して、前記範囲を変化させることを特徴とする、請求項１０に記載の音声認識方法。
前記入力レベル検出ステップは、前記入力信号に対する音声信号レベルと背景騒音レベルとの比率を示す情報を検出し、
前記辞書設定ステップは、前記比率に基づいて待ち受け語彙数および待ち受け語彙とする前記使用回数を決定して、前記範囲を変化させることを特徴とする、請求項１０に記載の音声認識方法。
前記音声認識方法は、ユーザの指示に応じて、前記音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に対する閾値を設定する入力レベル閾値設定ステップを、さらに含み、
前記辞書設定ステップは、前記入力レベル検出ステップが検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方が前記閾値に対して所定の条件を満たす場合、前記音声認識辞書に対する待ち受け語彙の範囲を変化させることを特徴とする、請求項１０に記載の音声認識方法。
前記音声認識方法は、ユーザの指示に応じて、前記使用回数に対する閾値を設定する使用回数閾値設定ステップを、さらに含み、
前記辞書設定ステップは、前記閾値以上を示す使用回数が登録された語彙を含むように前記音声認識辞書に対する待ち受け語彙の範囲を変化させることを特徴とする、請求項１０に記載の音声認識方法。
前記辞書設定ステップは、前記音声認識辞書内のそれぞれの語彙に対する尤度重み付けの量を変化させることによって待ち受け語彙の範囲を変化させることを特徴とする、請求項９に記載の音声認識方法。
記憶部を有し、音声を含む入力信号に対して語彙を認識する音声認識装置のコンピュータに実行される音声認識プログラムであって、
前記コンピュータを、
前記入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する入力レベル検出手段、および
前記入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された前記記憶部に格納される音声認識辞書に対する待ち受け語彙の範囲を変化させる辞書設定手段として機能させる、音声認識プログラム。
記憶部を有し、音声を含む入力信号に対して語彙を認識する音声認識装置のコンピュータに実行される音声認識プログラムを記録した記録媒体であって、
前記コンピュータを、
前記入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する入力レベル検出手段、および
前記入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された前記記憶部に格納される音声認識辞書に対する待ち受け語彙の範囲を変化させる辞書設定手段として機能させる、音声認識プログラムを記録した記録媒体。