JP2006163285A - 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体 - Google Patents
音声認識装置、音声認識方法、音声認識プログラム、および記録媒体 Download PDFInfo
- Publication number
- JP2006163285A JP2006163285A JP2004358556A JP2004358556A JP2006163285A JP 2006163285 A JP2006163285 A JP 2006163285A JP 2004358556 A JP2004358556 A JP 2004358556A JP 2004358556 A JP2004358556 A JP 2004358556A JP 2006163285 A JP2006163285 A JP 2006163285A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- vocabulary
- speech recognition
- level
- standby
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 音声認識装置を使用する環境によって周囲騒音の変化や発声レベルの変化があった場合でも、入力信号レベル情報と発声単語の使用頻度に連動して認識辞書の待ち受け語彙数の範囲を変化させることにより安定した音声認識が行える装置を提供する。
【解決手段】 辞書設定部2は、現在の入力信号レベルの情報と、話者が過去に発声した語彙の発声回数情報とに応じて、認識辞書格納部4に格納された認識辞書に対する語彙数の範囲を変化させる。そして、認識部3は、変化した語彙数の範囲を用いて音声認識を行う。また、語彙に対する使用回数を認識辞書格納部4に対して登録更新することで、使用環境に依存することなく安定した音声認識を行うことができる。
【選択図】 図1
【解決手段】 辞書設定部2は、現在の入力信号レベルの情報と、話者が過去に発声した語彙の発声回数情報とに応じて、認識辞書格納部4に格納された認識辞書に対する語彙数の範囲を変化させる。そして、認識部3は、変化した語彙数の範囲を用いて音声認識を行う。また、語彙に対する使用回数を認識辞書格納部4に対して登録更新することで、使用環境に依存することなく安定した音声認識を行うことができる。
【選択図】 図1
Description
本発明は、音声認識装置、音声認識方法、音声認識プログラム、および記録媒体に関し、より特定的には、大規模な音声認識辞書を有する認識装置を使用する音声認識装置、音声認識方法、音声認識プログラム、および記録媒体に関する。
現在、音声認識装置を利用した機器が様々な分野で用いられている中、ユーザからの要望として、機器制御を行う際に安定した認識率の確保および誤認識なく安価で使いやすい認識装置が切望されている。その中で、認識率の安定と向上とを目的としている音声認識装置が開示されている(例えば、特許文献1参照)。
上記特許文献1で開示された音声認識装置は、制御する際に場面ごとに認識対象とする語彙を切替えて音声認識を行う。当該音声認識装置は、複数個の使用頻度付き語彙辞書、言語尤度作成手段、言語尤度付き語彙辞書、および照合手段を備えている。使用頻度付き語彙辞書は、場面ごとに認識語彙とその使用頻度とを保持している。言語尤度作成手段は、各認識語彙の使用頻度から計算される出現確率の対数値に、使用頻度付き語彙辞書ごとに異なる重み係数を乗じて言語尤度を計算する。言語尤度付き語彙辞書は、場面ごとの認識語彙と語彙尤度とを保持する。照合手段は、各場面に関し、この言語尤度付き語彙辞書の言語尤度を含むデータと音素モデルとから作成された単語モデルと入力音声信号の特徴ベクトルの時系列からパターンマッチングを行い語彙に対する認識スコアとして該認識スコアの一番高い候補を認識結果として出力する。そして、尤度作成手段は、使用頻度付き語彙辞書内の語彙数が大きい辞書ほど重み係数を大きな値に設定して言語尤度付き語彙辞書を作成し、使用頻度付き言語辞書内の語彙全体の使用頻度が閾値未満の使用頻度付き語彙辞書では、重み係数を0として言語尤度付き語彙辞書を作成している。また、尤度作成手段は、使用頻度付き語彙辞書内の語彙全体の使用頻度が多い辞書ほど重み係数を大きな値に設定して言語尤度付き語彙辞書を作成し、また言語尤度作成手段は、使用頻度付き語彙辞書内の語彙数と語彙全体の使用頻度が多い辞書ほど大きな値に設定し、また全体の使用頻度が多い辞書ほど大きな値に設定して言語尤度付き語彙辞書を作成している。
特開2003−150189号公報
上記特許文献1で開示された音声認識装置は、使用頻度が高い辞書ほど重み係数を大きな値に設定して語彙辞書を作成している。また、使用頻度の高い語彙ほど尤度の重み付けを行い、使用頻度付き語彙辞書内の語彙全体が所定の閾値未満の使用頻度付き語彙辞書では、重み係数を0とし、使用頻度が所定の閾値以上の辞書では使用頻度付き語彙辞書内の語彙数と語彙の全体使用頻度の両者の値を参照し、認識語彙数が大きい辞書ほど大きな重み係数を設定して、使用頻度に応じた言語尤度付き語彙辞書を作成している。しかしながら、使用頻度を考慮し言語尤度の重み付けを設定する認識方法だけでは、認識装置を使用する環境の変化や状態に対応できず、環境によっては認識率を維持することが困難である。
それ故に、本発明の目的は、音声認識装置を使用する環境の変化や状態に適切に対応し、環境に応じた認識率を維持することができる音声認識装置、音声認識方法、音声認識プログラム、および記録媒体を提供することである。
上記目的を達成するために、本発明は、以下に述べるような特徴を有している。
第1の発明は、音声を含む入力信号に対して語彙を認識する音声認識装置である。音声認識装置は、認識辞書格納手段、入力レベル検出手段、および辞書設定手段を備える。認識辞書格納手段は、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された音声認識辞書を記憶する。入力レベル検出手段は、入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する。辞書設定手段は、入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、音声認識辞書に対する待ち受け語彙の範囲を変化させる。
第1の発明は、音声を含む入力信号に対して語彙を認識する音声認識装置である。音声認識装置は、認識辞書格納手段、入力レベル検出手段、および辞書設定手段を備える。認識辞書格納手段は、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された音声認識辞書を記憶する。入力レベル検出手段は、入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する。辞書設定手段は、入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、音声認識辞書に対する待ち受け語彙の範囲を変化させる。
第2の発明は、上記第1の発明において、辞書設定手段は、入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方と過去の使用回数とに基づいて、音声認識辞書に対する待ち受け語彙の範囲を変化させる。音声認識装置は、認識手段をさらに備える。認識手段は、辞書設定手段が設定した範囲に応じた音声認識辞書を用いて入力信号に対する音声認識を行う。認識手段は、音声認識を行った語彙に対して、音声認識辞書に記録されたその語彙に対する使用回数を更新する。
第3の発明は、上記第2の発明において、入力レベル検出手段は、入力信号に対する音声信号レベルを示す情報を検出する。辞書設定手段は、音声信号レベルに基づいて待ち受け語彙数および待ち受け語彙とする使用回数を決定して、範囲を変化させる。
第4の発明は、上記第2の発明において、入力レベル検出手段は、入力信号に対する背景騒音レベルを示す情報を検出する。辞書設定手段は、背景騒音レベルに基づいて待ち受け語彙数および待ち受け語彙とする使用回数を決定して、範囲を変化させる。
第5の発明は、上記第2の発明において、入力レベル検出手段は、入力信号に対する音声信号レベルと背景騒音レベルとの比率を示す情報を検出する。辞書設定手段は、比率に基づいて待ち受け語彙数および待ち受け語彙とする使用回数を決定して、範囲を変化させる。
第6の発明は、上記第2の発明において、音声認識装置は、入力レベル閾値設定手段を、さらに備える。入力レベル閾値設定手段は、ユーザの指示に応じて、音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に対する閾値を設定する。辞書設定手段は、入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方が閾値に対して所定の条件を満たす場合、音声認識辞書に対する待ち受け語彙の範囲を変化させる。
第7の発明は、上記第2の発明において、音声認識装置は、使用回数閾値設定手段を、さらに備える。使用回数閾値設定手段は、ユーザの指示に応じて、使用回数に対する閾値を設定する。辞書設定手段は、閾値以上を示す使用回数が登録された語彙を含むように音声認識辞書に対する待ち受け語彙の範囲を変化させる。
第8の発明は、上記第1の発明において、辞書設定手段は、音声認識辞書内のそれぞれの語彙に対する尤度重み付けの量を変化させることによって待ち受け語彙の範囲を変化させる。
第9の発明は、音声を含む入力信号に対して語彙を認識する音声認識方法である。音声認識方法は、入力レベル検出ステップおよび辞書設定ステップを含む。入力レベル検出ステップは、入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する。辞書設定ステップは、入力レベル検出ステップが検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された音声認識辞書に対する待ち受け語彙の範囲を変化させる。
第10の発明は、上記第9の発明において、辞書設定ステップは、入力レベル検出ステップが検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方と過去の使用回数とに基づいて、音声認識辞書に対する待ち受け語彙の範囲を変化させる。音声認識方法は、認識ステップをさらに含む。認識ステップは、辞書設定ステップが設定した範囲に応じた音声認識辞書を用いて入力信号に対する音声認識を行う。認識ステップは、音声認識を行った語彙に対して、音声認識辞書に記録されたその語彙に対する使用回数を更新する。
第11の発明は、上記第10の発明において、入力レベル検出ステップは、入力信号に対する音声信号レベルを示す情報を検出する。辞書設定ステップは、音声信号レベルに基づいて待ち受け語彙数および待ち受け語彙とする使用回数を決定して、範囲を変化させる。
第12の発明は、上記第10の発明において、入力レベル検出ステップは、入力信号に対する背景騒音レベルを示す情報を検出する。辞書設定ステップは、背景騒音レベルに基づいて待ち受け語彙数および待ち受け語彙とする使用回数を決定して、範囲を変化させる。
第13の発明は、上記第10の発明において、入力レベル検出ステップは、入力信号に対する音声信号レベルと背景騒音レベルとの比率を示す情報を検出する。辞書設定ステップは、比率に基づいて待ち受け語彙数および待ち受け語彙とする使用回数を決定して、範囲を変化させる。
第14の発明は、上記第10の発明において、音声認識方法は、入力レベル閾値設定ステップをさらに含む。入力レベル閾値設定ステップは、ユーザの指示に応じて、音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に対する閾値を設定する。辞書設定ステップは、入力レベル検出ステップが検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方が閾値に対して所定の条件を満たす場合、音声認識辞書に対する待ち受け語彙の範囲を変化させる。
第15の発明は、上記第10の発明において、音声認識方法は、使用回数閾値設定ステップをさらに含む。使用回数閾値設定ステップは、ユーザの指示に応じて、使用回数に対する閾値を設定する。辞書設定ステップは、閾値以上を示す使用回数が登録された語彙を含むように音声認識辞書に対する待ち受け語彙の範囲を変化させる。
第16の発明は、上記第9の発明において、辞書設定ステップは、音声認識辞書内のそれぞれの語彙に対する尤度重み付けの量を変化させることによって待ち受け語彙の範囲を変化させる。
第17の発明は、記憶部を有する音声認識装置のコンピュータに実行される音声認識プログラムである。音声認識装置は、音声を含む入力信号に対して語彙を認識する。音声認識プログラムは、入力レベル検出手段および辞書設定手段としてコンピュータを機能させる。入力レベル検出手段は、入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する。辞書設定手段は、入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された記憶部に格納される音声認識辞書に対する待ち受け語彙の範囲を変化させる。
第18の発明は、記憶部を有する音声認識装置のコンピュータに実行される音声認識プログラムを記録した記録媒体である。音声認識装置は、音声を含む入力信号に対して語彙を認識する。記録媒体に記憶された音声認識プログラムは、入力レベル検出手段および辞書設定手段としてコンピュータを機能させる。入力レベル検出手段は、入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する。辞書設定手段は、入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された記憶部に格納される音声認識辞書に対する待ち受け語彙の範囲を変化させる。
本発明の音声認識装置は、使用する環境によって背景騒音の変化や周囲の状況によって発声のレベルに変化が起こる場合、騒音環境下の場合でも、音声認識辞書内にある語彙数の範囲の狭く絞り込むことによって認識率を向上させることができる。また、音声認識装置は、話者が発声した語彙の使用回数の多いものを優先して、辞書内にある語彙数の範囲の狭く絞り込むまたは語彙それぞれに対する尤度重み付けを小さく変化させることで認識率を向上させることができる。また、周囲騒音が低いS/Nの良い状態では、話者が発声した語彙の回数に応じて、辞書内にある語彙数の範囲を広く設定することや、語彙それぞれに対する尤度重み付けを小さく変化させることで、認識の対象となる語彙数が多くなり、音声認識装置の使用環境に関わらず安定した音声認識率が得られる。
また、本発明の音声認識方法、音声認識プログラム、および記録媒体によれば、上述した音声認識装置と同様の効果が得られる。
(第1の実施形態)
以下、図1を参照して、本発明の第1の実施形態に係る音声による認識装置および制御装置(以下、単に音声認識装置と記載する)について説明する。なお、図1は、当該音声認識装置の構成を示すブロック図である。
以下、図1を参照して、本発明の第1の実施形態に係る音声による認識装置および制御装置(以下、単に音声認識装置と記載する)について説明する。なお、図1は、当該音声認識装置の構成を示すブロック図である。
図1において、当該音声認識装置は、入力信号レベル検出部1、辞書設定部2、認識部3、および認識辞書格納部4を備えている。入力信号レベル検出部1は、マイクロホン等で収音した信号から音声信号レベルまたは背景騒音レベルの検出を行い、音声信号レベル情報または背景騒音レベル情報を出力する。そして、入力信号レベル検出部1で検出された音声信号レベル情報または背景騒音レベル情報と話者が発声した語彙の使用回数とに応じて、辞書設定部2で辞書語彙数の範囲を変化させて認識部3で音声認識を行う。認識辞書格納部4は、音声認識辞書を格納しており、認識部3で認識した語彙に応じて、当該音声認識辞書における話者が発声した語彙に対する使用回数を登録更新する。以上のように構成された音声認識装置について、以下、その特徴を述べる。
なお、本発明の音声認識装置が音声認識対象とする語彙は、例えば命令語である。この場合、上記使用回数も命令語に対して話者が発声した回数が登録更新され、後述する語彙範囲も命令語に対する範囲となる。しかしながら、本発明の音声認識装置は、命令語とは異なった他の語彙を含めて音声認識対象にできることは言うまでもない。以下の説明においては、単に語彙と記載して説明を行う。
一般的に、音声認識装置は、入力信号のS/Nが良い場合には認識率が高く、S/Nが低くなるにつれて認識率が低下する。一方、語彙数と認識率との関係は、待ち受け語彙数が多いと認識率は低下し、語彙数を少なく絞り込むと認識率が上昇する。ここで、入力信号レベル検出部1から出力されたレベル情報が音声信号レベル情報である場合、当該音声信号レベル情報が示す音声レベルが高いときには収音S/Nが高いとみなし、待ち受けの語彙数を多くとっても十分な認識率が得られると考えられることから、待ち受ける語彙数を制限せずに動作させることができる。逆に、上記音声レベルが低い場合、認識に対して十分な収音S/Nが得られていないとみなし、待ち受ける語彙数を制限して認識率の低下を防止する。そして、待ち受ける語彙の範囲を決めるとき、過去の語彙の発声回数情報から使用頻度の高いものから優先して待ち受ける語彙の対象とする。なお、使用頻度の高いものから優先する方法としては、各語彙に対する使用回数に応じて語彙数を制限したり、尤度重み付けを用いたりすることによっても、同様の効果を得ることができる。
本実施形態における音声認識装置では、一例として過去の語彙の発声回数情報および入力信号レベル検出部1が検出する音声レベルを用いる。そして、上記音声レベルが高い、すなわちS/Nが高い状態では、辞書設定部2により認識辞書格納部4に格納された音声認識辞書の語彙数の範囲を広く設定したり、語彙それぞれに対する尤度重み付けを小さく変化させたりして、認識の対象となる語彙数を多くして認識部3で認識を行う。一方、上記音声レベルが低い、すなわちS/Nが低い状態では、辞書設定部2により話者が発声した語彙の使用回数が多いものを優先して認識辞書格納部4に格納された音声認識辞書の語彙数の範囲を狭く設定したり、語彙それぞれに対する尤度重み付けを大きく変化させたりして、認識の対象となる語彙数を絞り込んで認識部3で認識を行う。このようにして、発声レベルの個人差や、話者内における発声レベルのばらつきに応じて、最適な認識対象語彙数が自動的に設定され、発声レベルの変化によらず常に十分な認識率を得ることが出来るようになる。
また、本実施形態における音声認識装置では、他の例として入力信号レベル検出部1が検出する背景騒音レベルを用いる。そして、上記背景騒音レベルが低い、すなわちS/Nの高い状態では、辞書設定部2により認識辞書格納部4に格納された音声認識辞書の語彙数の範囲を広く設定したり、語彙それぞれに対する尤度重み付けを小さく変化させたりして、認識の対象となる語彙数を多くして認識部3で認識を行う。一方、上記背景騒音レベルが高い、すなわちS/Nの低い状態では、辞書設定部2により話者が発声した語彙の使用回数が多いものを優先して認識辞書格納部4に格納された音声認識辞書の語彙数の範囲を狭く設定したり、語彙それぞれに対する尤度重み付けを大きく変化させたりして、認識の対象となる語彙数を絞り込んで認識部3で認識を行う。このようにして、周囲騒音レベルに従って、自動的に認識対象語彙数が制御されることによって、使用する周囲騒音レベルによらず常に十分な認識率を得ることができる。
次に、図2を参照して、上記音声認識装置の音声認識動作について説明する。なお、図2は、音声認識装置の音声認識動作を示すフローチャートである。
図2において、入力信号レベル検出部1は、マイクロホン等で収音(ステップS51)した信号から音声信号レベルまたは背景騒音レベルの検出を行い、音声信号レベル情報または背景騒音レベル情報等のレベル情報を出力する(ステップS52)。次に、辞書設定部2は、上記ステップS52で出力されたレベル情報に基づいて、収音された入力信号のS/Nを取得する(ステップS53)。そして、辞書設定部2は、取得されたS/Nと語彙の使用回数とに応じて、音声認識辞書に対して認識の対象とする語彙範囲を設定する(ステップS54)。次に、認識部3は、辞書設定部2が対象とする語彙範囲を用いて、収音した信号に対する音声認識を行い(ステップS55)、当該フローチャートによる処理を終了する。
なお、入力信号レベル検出部1は、マイクロホン等で収音した信号から得られるS/N比をレベル情報として出力してもかまわない。入力信号レベル検出部1がS/N比をレベル情報として出力する場合も、以降の処理は上記の音声レベルまたは背景騒音レベルと同様に動作する。この場合、音声レベルまたは背景騒音レベルを用いたそれぞれの効果を同時に得られることになり、より汎用性が高まる。
また、認識辞書格納部4に格納された音声認識辞書の語彙数の範囲を狭く設定するとき、辞書設定部2により話者が発声した語彙の使用回数が多いものを優先する説明を行ったが、ユーザの指示に応じた使用回数に関する閾値を設けてもかまわない。そして、入力信号レベル検出部1で検出した音声信号レベル情報または背景騒音レベル情報に応じて、S/Nが低いときに上記閾値より使用回数が多いものに語彙範囲を制限する。これによって、ユーザによって認識語彙の範囲を調整することができるようになる。
(第2の実施形態)
以下、図3を参照して、本発明の第2の実施形態に係る音声認識装置について説明する。なお、図3は、当該音認識装置の構成を示すブロック図である。
以下、図3を参照して、本発明の第2の実施形態に係る音声認識装置について説明する。なお、図3は、当該音認識装置の構成を示すブロック図である。
図3において、当該音声認識装置は、入力信号レベル検出部1、辞書設定部2、認識部3、認識辞書格納部4、および入力レベル閾値決定部5を備えている。なお、第2の実施形態に係る音声認識装置は、第1の実施形態に対して入力レベル閾値決定部5をさらに備えているところが異なり、他の構成は同様である。したがって、第1の実施形態と同様の構成については同一の参照符号を付して、詳細な説明を省略する。
入力レベル閾値決定部5は、ユーザの操作に応じて、入力信号レベル検出部1が出力するレベル情報に対する閾値を設定して、当該閾値を辞書設定部2に出力する。辞書設定部2は、入力レベル閾値決定部5が設定した閾値に対して、入力信号レベル検出部1からのレベル情報が当該閾値を上回るまたは下回るかを判断し、当該判断結果に応じて語彙範囲を変化させたり、尤度重み付けを変化させたりする。
具体的には、辞書設定部2は、入力信号レベル検出部1から出力されるレベル情報が入力信号のS/N比または音声信号レベル情報である場合、当該レベル情報が設定された閾値より小さい場合に語彙範囲を狭く設定したり、尤度重み付けを大きくしたりする。一方、入力信号レベル検出部1から出力されるレベル情報が背景騒音レベル情報である場合、当該レベル情報が設定された閾値以上の場合に語彙範囲を狭くしたり、尤度重み付けを大きくしたりする。このように、使用環境やユーザの好みに応じて、認識語彙の範囲を調整することができるようになる。
次に、図4を参照して、上記音声認識装置の音声認識動作について説明する。なお、図4は、音声認識装置の音声認識動作を示すフローチャートである。
図4において、入力信号レベル検出部1は、マイクロホン等で収音(ステップS61)した信号から音声信号レベルまたは背景騒音レベルの検出を行い、音声信号レベル情報または背景騒音レベル情報等のレベル情報を出力する(ステップS62)。次に、辞書設定部2は、上記ステップS62で出力されたレベル情報と入力レベル閾値決定部5が設定している閾値との関係を検出し、当該レベル情報が閾値に対して語彙範囲を縮小する条件を満たしているか否かを判断する(ステップS63)。具体的には、辞書設定部2は、音声信号レベル情報の場合に閾値より小さければ条件を満たしていると判断し、背景騒音レベル情報の場合に閾値以上であれば条件を満たしていると判断する。そして、辞書設定部2は、語彙範囲を縮小する場合に処理を次のステップS64に進め、語彙範囲を縮小しない場合、語彙範囲を通常の範囲(例えば、音声認識辞書全て)に設定して、処理を次のステップS66に進める。
ステップS64において、辞書設定部2は、収音された入力信号のS/Nを取得する。そして、辞書設定部2は、取得されたS/Nと語彙の使用回数とに応じて、音声認識辞書に対して認識の対象とする絞り込んだ語彙範囲を設定し(ステップS65)、処理を次のステップS66に進める。
ステップS66において、認識部3は、辞書設定部2が対象とする語彙範囲を用いて、収音した信号に対する音声認識を行い、当該フローチャートによる処理を終了する。
なお、上述した第1および第2の実施形態に係る音声認識装置は、記憶部を備えた一般的なコンピュータシステムによって実現可能である。この場合、上記記憶部に格納された音声認識プログラムをコンピュータが実行することによって、上述した音声認識動作が行われる。なお、上記音声認識プログラムは、通信媒体を介してコンピュータシステムに供給されてもかまわない。また、光ディスク等の記録媒体に上記音声認識プログラムを記録し、当該記録媒体に記録された音声認識プログラムをコンピュータシステムで読み込んでもかまわない。
本発明にかかる音声認識装置、音声認識方法、音声認識プログラム、および記録媒体は、使用環境の変化に対応しながら安定した音声認識を行うことができ、音声認識リモコンやオーディオ符号化方式などの特徴パターンの抽出および選出を行う技術分野での応用としても有用である。
1…入力信号レベル検出部
2…辞書設定部
3…認識部
4…認識辞書格納部
5…入力レベル閾値決定部
2…辞書設定部
3…認識部
4…認識辞書格納部
5…入力レベル閾値決定部
Claims (18)
- 音声を含む入力信号に対して語彙を認識する音声認識装置であって、
辞書に含まれる語彙それぞれに対する過去の使用回数が記録された音声認識辞書を記憶する認識辞書格納手段と、
前記入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する入力レベル検出手段と、
前記入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、前記音声認識辞書に対する待ち受け語彙の範囲を変化させる辞書設定手段とを備える、音声認識装置。 - 前記辞書設定手段は、前記入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方と前記過去の使用回数とに基づいて、前記音声認識辞書に対する待ち受け語彙の範囲を変化させ、
前記音声認識装置は、前記辞書設定手段が設定した範囲に応じた音声認識辞書を用いて前記入力信号に対する音声認識を行う認識手段を、さらに備え、
前記認識手段は、音声認識を行った語彙に対して、前記音声認識辞書に記録された当該語彙に対する使用回数を更新することを特徴とする、請求項1に記載の音声認識装置。 - 前記入力レベル検出手段は、前記入力信号に対する音声信号レベルを示す情報を検出し、
前記辞書設定手段は、前記音声信号レベルに基づいて待ち受け語彙数および待ち受け語彙とする前記使用回数を決定して、前記範囲を変化させることを特徴とする、請求項2に記載の音声認識装置。 - 前記入力レベル検出手段は、前記入力信号に対する背景騒音レベルを示す情報を検出し、
前記辞書設定手段は、前記背景騒音レベルに基づいて待ち受け語彙数および待ち受け語彙とする前記使用回数を決定して、前記範囲を変化させることを特徴とする、請求項2に記載の音声認識装置。 - 前記入力レベル検出手段は、前記入力信号に対する音声信号レベルと背景騒音レベルとの比率を示す情報を検出し、
前記辞書設定手段は、前記比率に基づいて待ち受け語彙数および待ち受け語彙とする前記使用回数を決定して、前記範囲を変化させることを特徴とする、請求項2に記載の音声認識装置。 - 前記音声認識装置は、ユーザの指示に応じて、前記音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に対する閾値を設定する入力レベル閾値設定手段を、さらに備え、
前記辞書設定手段は、前記入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方が前記閾値に対して所定の条件を満たす場合、前記音声認識辞書に対する待ち受け語彙の範囲を変化させることを特徴とする、請求項2に記載の音声認識装置。 - 前記音声認識装置は、ユーザの指示に応じて、前記使用回数に対する閾値を設定する使用回数閾値設定手段を、さらに備え、
前記辞書設定手段は、前記閾値以上を示す使用回数が登録された語彙を含むように前記音声認識辞書に対する待ち受け語彙の範囲を変化させることを特徴とする、請求項2に記載の音声認識装置。 - 前記辞書設定手段は、前記音声認識辞書内のそれぞれの語彙に対する尤度重み付けの量を変化させることによって待ち受け語彙の範囲を変化させることを特徴とする、請求項1に記載の音声認識装置。
- 音声を含む入力信号に対して語彙を認識する音声認識方法であって、
前記入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する入力レベル検出ステップと、
前記入力レベル検出ステップが検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された音声認識辞書に対する待ち受け語彙の範囲を変化させる辞書設定ステップとを含む、音声認識方法。 - 前記辞書設定ステップは、前記入力レベル検出ステップが検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方と前記過去の使用回数とに基づいて、前記音声認識辞書に対する待ち受け語彙の範囲を変化させ、
前記音声認識方法は、前記辞書設定ステップが設定した範囲に応じた音声認識辞書を用いて前記入力信号に対する音声認識を行う認識ステップを、さらに含み、
前記認識ステップは、音声認識を行った語彙に対して、前記音声認識辞書に記録された当該語彙に対する使用回数を更新することを特徴とする、請求項9に記載の音声認識方法。 - 前記入力レベル検出ステップは、前記入力信号に対する音声信号レベルを示す情報を検出し、
前記辞書設定ステップは、前記音声信号レベルに基づいて待ち受け語彙数および待ち受け語彙とする前記使用回数を決定して、前記範囲を変化させることを特徴とする、請求項10に記載の音声認識方法。 - 前記入力レベル検出ステップは、前記入力信号に対する背景騒音レベルを示す情報を検出し、
前記辞書設定ステップは、前記背景騒音レベルに基づいて待ち受け語彙数および待ち受け語彙とする前記使用回数を決定して、前記範囲を変化させることを特徴とする、請求項10に記載の音声認識方法。 - 前記入力レベル検出ステップは、前記入力信号に対する音声信号レベルと背景騒音レベルとの比率を示す情報を検出し、
前記辞書設定ステップは、前記比率に基づいて待ち受け語彙数および待ち受け語彙とする前記使用回数を決定して、前記範囲を変化させることを特徴とする、請求項10に記載の音声認識方法。 - 前記音声認識方法は、ユーザの指示に応じて、前記音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に対する閾値を設定する入力レベル閾値設定ステップを、さらに含み、
前記辞書設定ステップは、前記入力レベル検出ステップが検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方が前記閾値に対して所定の条件を満たす場合、前記音声認識辞書に対する待ち受け語彙の範囲を変化させることを特徴とする、請求項10に記載の音声認識方法。 - 前記音声認識方法は、ユーザの指示に応じて、前記使用回数に対する閾値を設定する使用回数閾値設定ステップを、さらに含み、
前記辞書設定ステップは、前記閾値以上を示す使用回数が登録された語彙を含むように前記音声認識辞書に対する待ち受け語彙の範囲を変化させることを特徴とする、請求項10に記載の音声認識方法。 - 前記辞書設定ステップは、前記音声認識辞書内のそれぞれの語彙に対する尤度重み付けの量を変化させることによって待ち受け語彙の範囲を変化させることを特徴とする、請求項9に記載の音声認識方法。
- 記憶部を有し、音声を含む入力信号に対して語彙を認識する音声認識装置のコンピュータに実行される音声認識プログラムであって、
前記コンピュータを、
前記入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する入力レベル検出手段、および
前記入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された前記記憶部に格納される音声認識辞書に対する待ち受け語彙の範囲を変化させる辞書設定手段として機能させる、音声認識プログラム。 - 記憶部を有し、音声を含む入力信号に対して語彙を認識する音声認識装置のコンピュータに実行される音声認識プログラムを記録した記録媒体であって、
前記コンピュータを、
前記入力信号の音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方を検出する入力レベル検出手段、および
前記入力レベル検出手段が検出した音声信号レベルおよび背景騒音レベルを示す情報の少なくとも一方に基づいて、辞書に含まれる語彙それぞれに対する過去の使用回数が記録された前記記憶部に格納される音声認識辞書に対する待ち受け語彙の範囲を変化させる辞書設定手段として機能させる、音声認識プログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004358556A JP2006163285A (ja) | 2004-12-10 | 2004-12-10 | 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004358556A JP2006163285A (ja) | 2004-12-10 | 2004-12-10 | 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006163285A true JP2006163285A (ja) | 2006-06-22 |
Family
ID=36665349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004358556A Pending JP2006163285A (ja) | 2004-12-10 | 2004-12-10 | 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006163285A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010061751A1 (ja) * | 2008-11-25 | 2010-06-03 | 旭化成株式会社 | 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム |
JP2018033048A (ja) * | 2016-08-25 | 2018-03-01 | Jcc株式会社 | メタデータ生成システム |
-
2004
- 2004-12-10 JP JP2004358556A patent/JP2006163285A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010061751A1 (ja) * | 2008-11-25 | 2010-06-03 | 旭化成株式会社 | 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム |
US8688449B2 (en) | 2008-11-25 | 2014-04-01 | Asahi Kasei Kabushiki Kaisha | Weight coefficient generation device, voice recognition device, navigation device, vehicle, weight coefficient generation method, and weight coefficient generation program |
JP2018033048A (ja) * | 2016-08-25 | 2018-03-01 | Jcc株式会社 | メタデータ生成システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9837068B2 (en) | Sound sample verification for generating sound detection model | |
JP2023041843A (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
EP3132442B1 (en) | Keyword model generation for detecting a user-defined keyword | |
US20190156818A1 (en) | Pre-wakeword speech processing | |
US7228275B1 (en) | Speech recognition system having multiple speech recognizers | |
US9466289B2 (en) | Keyword detection with international phonetic alphabet by foreground model and background model | |
JP5174937B2 (ja) | 音声認識装置及び方法 | |
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
CN114097026A (zh) | 语音识别的上下文偏置 | |
KR20140089863A (ko) | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 | |
WO2018047421A1 (ja) | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 | |
JP2006113570A (ja) | 音声分類および音声認識のための隠れ条件付確率場モデル | |
JP4667085B2 (ja) | 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法 | |
CN111833866A (zh) | 用于低资源设备的高准确度关键短语检测的方法和系统 | |
US11532301B1 (en) | Natural language processing | |
US20180301144A1 (en) | Electronic device, method for adapting acoustic model thereof, and voice recognition system | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US11626107B1 (en) | Natural language processing | |
US20060136209A1 (en) | Methodology for generating enhanced demiphone acoustic models for speech recognition | |
JP2006163285A (ja) | 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体 | |
KR20230118165A (ko) | 핫워드 속성에 기초한 자동화된 스피치 인식 파라미터적응시키기 | |
JP2003241787A (ja) | 音声認識装置および方法、並びにプログラム | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
US11763814B2 (en) | Hybrid voice command processing |