JP2005227555A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2005227555A JP2005227555A JP2004036465A JP2004036465A JP2005227555A JP 2005227555 A JP2005227555 A JP 2005227555A JP 2004036465 A JP2004036465 A JP 2004036465A JP 2004036465 A JP2004036465 A JP 2004036465A JP 2005227555 A JP2005227555 A JP 2005227555A
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- speech
- dictionary
- input
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】音声が再入力された場合においても、音声を精度良く認識する。
【解決手段】音声認識装置1は、音響分析器2、複数の辞書5,6、間隔計測器11、辞書選択器4、照合処理器3、認識結果補正器7及び補正テーブル8を備える。音響分析器2は、入力された音声の音響的特徴を得る。複数の辞書5,6は、各々において音響的特徴と語彙との関連付けがなされ、関連付けが音響的特徴によって相互に異なる。間隔計測器11は、音声の発話間隔を設定する。辞書選択器4は、発話間隔が所定の範囲内にある場合に、辞書5,6の複数を切り替える。照合処理器3は、辞書選択器4によって選択された一の辞書と音声とを照合して、音声に対応する語彙を、スコアを付加して、少なくとも一つ抽出する。認識結果補正器7は、補正テーブル8及から得られる、語彙の使用履歴に基づいてスコア補正する。そして、最も妥当な語彙をシステム10へと出力する。
【選択図】図1
【解決手段】音声認識装置1は、音響分析器2、複数の辞書5,6、間隔計測器11、辞書選択器4、照合処理器3、認識結果補正器7及び補正テーブル8を備える。音響分析器2は、入力された音声の音響的特徴を得る。複数の辞書5,6は、各々において音響的特徴と語彙との関連付けがなされ、関連付けが音響的特徴によって相互に異なる。間隔計測器11は、音声の発話間隔を設定する。辞書選択器4は、発話間隔が所定の範囲内にある場合に、辞書5,6の複数を切り替える。照合処理器3は、辞書選択器4によって選択された一の辞書と音声とを照合して、音声に対応する語彙を、スコアを付加して、少なくとも一つ抽出する。認識結果補正器7は、補正テーブル8及から得られる、語彙の使用履歴に基づいてスコア補正する。そして、最も妥当な語彙をシステム10へと出力する。
【選択図】図1
Description
本発明は、音声認識装置に関する。
従来の音声認識装置は、例えば入力された音声を分析したデータと辞書とを照合して、入力された音声に対応する妥当な語彙を抽出する。辞書は、互いに関連付けられた音声データと語彙等を含む。抽出された語彙は、温度や気圧等の環境に応じて補正される。そして、音声認識装置は、補正された語彙に基づいて音声を認識していた。このような技術は、例えば特許文献1に開示されている。
また、音声認識装置は、入力された音声が言い直しによる再入力であるか否かを、例えば直前に入力された音声との時間間隔により判断している。時間間隔が、ある閾値よりも小さい場合に再入力であると判断する技術が、例えば特許文献2に開示されている。
なお、語彙のデータベースから照合に必要な語彙を抽出し、抽出した語彙数によってその後の認識処理方法を異ならせる技術が、特許文献3に開示されている。また、入力された音声の認識に誤りが生じた場合に、その音声の特徴を表すデータを学習して、音声認識の精度を向上させる技術が、特許文献4に開示されている。
音声の再入力があった場合には、音声のリズム等が変化しやすい。従来の技術では、音声データと語彙とが一対一で関連付けられた辞書を一つしか設けていなかった。このため、同じ語彙であっても辞書内にない音声データをもつ音声が入力された場合には、その語彙を認識できないことがあった。
本発明は、上述の事情に鑑みてなされたものであり、音声が再入力された場合においても、音声を精度良く認識することが目的とされる。
この発明にかかる第1の音声認識装置は、音響分析器と、複数の辞書と、間隔計測器と、辞書選択器と、照合処理器とを備える。前記音響分析器は、入力された音声の音響的特徴を得る。複数の前記辞書は、各々において前記音響的特徴と語彙との関連付けがなされ、前記関連付けが前記音響的特徴によって相互に異なる。前記間隔計測器は、前記音声の発話間隔を設定する。前記辞書選択器は、前記発話間隔が所定の範囲内にある場合に、前記辞書の複数を切り替える。前記照合処理器は、前記辞書選択器によって選択された一の前記辞書と前記音声とを照合して、前記音声に対応する語彙を少なくとも一つ抽出する。
この発明にかかる第2の音声認識装置は、音響分析器と、辞書と、照合処理器と、位置センサと、加速度センサと、記憶部と、認識結果補正器とを備える。前記音響分析器は、入力された音声の音響的特徴を得る。前記辞書は、各々において前記音響的特徴と語彙との関連付けがなされる。前記照合処理器は、前記辞書と前記音声とを照合して、前記音声に対応する語彙を前記音声に対する妥当性に基づくスコアを付加して少なくとも一つ抽出する。前記位置センサは位置を測定する。前記加速度センサは加速度を測定する。前記記憶部は、前記位置と前記加速度とを履歴として記憶する。前記認識結果補正器は、前記スコアを、前記位置及び前記加速度並びにこれらの履歴に基づいて補正する。
この発明にかかる第1の音声認識装置によれば、誤った音声を入力したことによる言い直し(以下、「再入力」という)があるか否かが、間隔計測器が計測する時間間隔によって判断されるので、再入力された音声の認識が容易になる。また、再入力と判断した場合に、予め用意された複数の辞書から一つを辞書選択器によって選択して照合処理器に与えるので、再入力された音声のリズム等が変化した場合においても、その音声を精度良く認識することができる。
この発明にかかる第2の音声認識装置によれば、例えば地名が音声として入力された場合に、その地名と同一又は類似した地名が存在する場合においても、動作位置と動作状況並びにこれまでの履歴とから、入力された地名を正しく認識する。
実施の形態1.
図1は、本実施の形態にかかる音声認識装置1を概念的に示すブロック図である。音声認識装置1は、音響分析器2、照合処理器3、辞書選択器4、辞書群50、認識結果補正器7、補正テーブル8、出力データ記憶部9及び間隔計測器11を備える。
図1は、本実施の形態にかかる音声認識装置1を概念的に示すブロック図である。音声認識装置1は、音響分析器2、照合処理器3、辞書選択器4、辞書群50、認識結果補正器7、補正テーブル8、出力データ記憶部9及び間隔計測器11を備える。
音響分析器2は、入力された音声を分析して音響的特徴を求める。例えば、音声をフレーム化処理することで音響的特徴として離散的なパワースペクトルを得る、スペクトル分析を採用することができる。離散的なパワースペクトルはベクトル列として表現することもできる。音響的特徴は照合処理器3に与えられる。
辞書群50は辞書5,6を含む。辞書5,6は音響的特徴と語彙とが予め登録されている。辞書5,6の各々において音響的特徴と語彙とが関連付けられおり、例えば一対一で対応付けられている。辞書5と辞書6とは上記の関連付けが音響的特徴によって相互に異なっている。例えば、同じ語彙についての音響的特徴が相互に異なっている。辞書5,6に登録される語彙は、すべての辞書で同じでなくともよい。
辞書選択器4は、辞書群50から一つの辞書5,6を選択する。選択された辞書5,6は照合処理器3に与えられる。
照合処理器3は、辞書選択器4から入力される一つの辞書5(6)と、照合処理器3から入力される音響的特徴とを照合する。そして、照合処理器3は、入力された音声に対する妥当性に基づくスコアが付加された語彙を出力する。
図2は、照合処理器3の動作をフローチャートにより概念的に示す。入力待ち状態にある照合処理器3に(ステップ311)、音響分析器2から音響的特徴が与えられる。照合処理器3は、入力された音響的特徴を、辞書5(6)に登録された音響的特徴と照合する(ステップ312)。そして、音響的特徴の相関の強さに基づき、対応する語彙にスコアを付加する。語彙には、スコアに基づいて設定される順位を、スコアとともに付加してもよい。そして、スコアが所定の値よりも大きい語彙は、入力された音声と一致する語彙とされ、その他は不一致とされる(ステップ313)。スコアが付加された語彙のうち一致するものは、認識結果補正器7に与えられる(ステップ314)。その後、照合処理器7は入力待ち状態になる(ステップ311)。
図3は、ステップ313において語彙にスコアを付加する方法が例示される。語彙「あいうえを」の音響的特徴が照合処理器3に入力される。辞書5(6)には、語彙「あいうえお」,「あいうえを」など複数の語彙が、それらの音響的特徴とともに登録されている。照合処理器3は、語彙「あいうえを」の音響的特徴と、辞書に登録された音響的特徴とを照合する。そして相関の強さに基づき、音響的特徴に対応する語彙「あいうえお」にスコア50、語彙「あいうえを」にスコア30、以下すべての語彙にスコアがそれぞれ付加される。そして、スコアが所定の値(図3ではスコア1が所定の値とされる)よりも大きい語彙を一致する語彙とされ、その他を不一致とする。図3では、更にスコアに基づいて順位も付加されている。
認識結果補正器7は、各語彙に付加されたスコアをそれぞれ補正する。図4は、認識結果補正器7の動作をフローチャートにより概念的に示す。認識結果補正器7の動作はステップ201,202を備える。ステップ201は、スコアが付加された語彙を補正して、入力された音声に対して妥当な語彙を抽出する。ステップ202は、補正に用いる補正テーブル8の内容を更新する。
ステップ201では、入力待ち状態にある認識結果補正器7に(ステップ22)、スコアが付加された語彙もしくはキャンセル信号S3が与えられる。認識結果補正器7がこの信号S3を受けたときの動作(すなわち、ステップ23においてYesと判断する場合)及びキャンセル信号S3の内容については後述する。スコアが付加された語彙が与えられると(すなわち、ステップ23においてNoと判断すると)、認識結果補正器7は、補正テーブル8から頻度補正テーブルを取得して(ステップ24)、スコアを補正する(ステップ25)。頻度補正テーブルは、語彙と、その語彙の頻度に対応した値とを含む。例えば、頻度の大きい語彙については大きな値が、頻度の小さい語彙については小さい値が対応している。そして、認識結果補正器7は、語彙に付加されているスコアに、その語彙の頻度に対応する値を加算する。語彙に順位も付加されている場合には、スコアの補正に伴ってその順位を補正する。
図5は、頻度補正テーブル(a)によって、スコアを補正する方法(b)が例示される。図5では、認識結果補正器7に入力される語彙として、図3で示される語彙のうち一致した語彙が用いられる。頻度補正テーブルは、頻度が50回である語彙「あいうえお」には値17が、頻度が100回である「あいうえを」には値30が、それぞれ対応している。そして、頻度補正テーブルに含まれる全ての語彙に、その頻度に基づく値が対応している。
認識結果補正器7は、照合処理器3から入力された語彙のうち、語彙「あいうえお」についてはスコア50に値17を、語彙「あいうえを」についてはスコア30に値30を、それぞれ加算する(図5(b))。つまり、語彙「あいうえお」には補正されたスコア67が、語彙「あいうえを」には補正されたスコア60が、それぞれ付加される。このようにして、すべての語彙のスコアに、頻度補正テーブルに基づく値をそれぞれ加算する。つまり、それぞれの語彙に、補正されたスコアを付加する。図5(b)では、順位は図3で示される順位と変わらない。
ステップ25の後、認識結果補正器7は、出力データ記憶部9から履歴情報を(ステップ26)、補正テーブル8から履歴情報補正テーブルを(ステップ27)、それぞれ取得する。認識結果補正器7は、取得した履歴情報と履歴情報補正テーブルとからスコアを補正する(ステップ28)。履歴情報は、例えば一連の音声を入力する過程において、最初に入力された音声から直前に入力された音声までの認識結果の全て若しくはその一部を含む。履歴情報補正テーブルは、履歴情報の次に続く語彙と、その語彙の頻度に対応した値とを含む。例えば、履歴情報の次に続く語彙のうち頻度の大きい語彙については大きな値が、頻度の小さい語彙については小さい値が対応する。そして、認識結果補正器7は、語彙に付加されているスコアに、その語彙の頻度に対応した値を加算する。語彙に順位も付加されている場合には、スコアの補正に伴ってその順位を補正する。
図6は、履歴情報補正テーブル(a)によって、スコアを補正する方法(b)が例示される。図6では、図3で示される語彙のうち一致した語彙を用いるとともに、それらの語彙のスコアについては、図5(b)で示される補正されたスコアを用いる。履歴情報補正テーブルは、語彙「あいうえお」については、その直前に入力された一連の語彙Aに対しての頻度が10回であって値5が、一連の語彙Bに対しての頻度が40回であって値30が、それぞれ対応している。また、語彙「あいうえを」については、一連の語彙Aに対しては頻度が90回であって値50が、一連の語彙Bに対しては頻度が10回であって値5が、それぞれ対応している。そして、履歴情報補正テーブルに含まれる全ての語彙に、一連の語彙A,Bに対してその語彙が使用される頻度に基づく値が、それぞれ対応している。
認識結果補正器7は、取得した履歴情報が履歴Aであった場合には、履歴情報補正テーブルに基づいて、語彙「あいうえお」についてはスコア67に値5を、語彙「あいうえを」についてはスコア60に値50を、それぞれ加算する。つまり、語彙「あいうえお」には補正されたスコア72が、語彙「あいうえを」には補正されたスコア110が、それぞれ付加される。このようにして、すべての語彙のスコアに、履歴情報補正テーブルに基づく値をそれぞれ加算する。つまり、それぞれの語彙に、補正されたスコアを付加する。図6(b)では、スコアに基づいて順位も補正されている。
ステップ201で行われるスコアの補正において、ステップ26〜28の補正をステップ24,25の補正の前に行ってもよいし、それらの補正を並行して行ってもよい。
認識結果補正器7が語彙を補正する上述の動作は、語彙に付加されたスコアを、認識結果補正器がその語彙の使用履歴に基づいて補正する、と把握できる。また、頻度補正テーブルは語彙の使用頻度を含んだ使用履歴と把握できる。図6を用いて説明された履歴A,Bを認証済みの語彙と把握すると、履歴情報補正テーブルは認証済みの語彙との関連性を含んだ語彙の使用履歴と把握できる。
ステップ28の後、認識結果補正器7は、補正されたスコアが付加された語彙のうち最も大きいスコアが付加されている語彙、つまり入力された音声に対して妥当な語彙を抽出する(ステップ29)。例えば図6(b)で示される、スコアが補正された語彙においては、語彙「あいうえを」が抽出される。
図7は、図2で示されるステップ30に含まれる動作を示す。ステップ29の後、抽出された語彙は、出力データ記憶部9及びシステム10に与られる(ステップ301)。このときを、入力された音声の認識と把握できる。出力データ記憶部9は、抽出された語彙を履歴として記憶する。システム10は、例えば与えられた語彙を画面等に表示する。認識結果補正器7は信号S1を出力する(ステップ302)。信号S1は、ステップ29で抽出した語彙を、出力データ記憶部9及びシステム10に与えたことを知らせる。出力された信号S1は間隔計測器11に与えられる。
ステップ202では、新しく認識した音声を含む履歴情報に基づいて、頻度補正テーブルと履歴情報補正テーブルとを更新する(図4)。まず、認識結果補正器7は、出力データ記憶部9から履歴情報を取得する(ステップ31)。履歴情報は、出力データ記憶部9に新しく記憶された語彙と、過去の音声の認識結果とを含む。取得した履歴情報から、語彙と、その語彙の出力頻度とを対応させた出力頻度情報を作成する(ステップ32)。そして、その出力頻度情報に基づいて頻度補正テーブルを更新する(ステップ33)。
図8は、図5(a)で示される頻度補正テーブルを更新する場合が例示される。例えば、語彙「あいうえを」が新しく認識された場合、認識結果補正器7は、語彙「あいうえを」の頻度を100回から101回に更新した出力頻度情報を作成する。そして、この情報に基づいて頻度補正テーブルは、語彙「あいうえを」についての値が30から30.3に更新される。
ステップ33の後、一連の語彙の次に続く語彙を、履歴情報に含まれる語彙から抽出する(ステップ34)。一連の語彙は、新しく記憶された語彙を含む一連の音声入力のうち、最初に入力された音声から直前に入力された音声までの語彙を、入力順に含む。また、一連の語彙は、検索によって履歴情報から選択される。そして、選択された一連の語彙の次に続く語彙が抽出される。
抽出された語彙から、語彙と、その語彙の出力頻度とを対応させた出力頻度情報を作成する(ステップ35)。ここで作成された出力頻度情報は、一連の語彙に続くことを前提としている。この出力頻度情報に基づいて履歴情報補正テーブルを更新する(ステップ36)。その後、認識結果補正器7は結果の入力待ち状態になる(ステップ22)。
図9は、図6(a)の履歴情報補正テーブルを更新する場合が例示される。例えば、履歴Aの次の語彙として語彙「あいうえを」が新しく認識された場合、認識結果補正器7は、履歴Aの次に語彙「あいうえを」が使用される頻度を90回から91回に更新した出力頻度情報を作成する。そして、この情報に基づいて履歴情報補正テーブルは、履歴Aの次の語彙「あいうえを」についての値が、50から50.3に更新される。
図10は、間隔計測器11の動作をフローチャートにより概念的に示す。入力待ちの状態にある間隔計測器11(ステップ12)は、信号S1を検出すると(ステップ13)、カウンタをリセットして計測を開始する(ステップ14)。その後、音響分析器2に次の音声が入力されると、そのことを知らせる信号S2が音響分析器2から間隔計測器11に与えられる。間隔計測器11は、信号S2を検出すると(ステップ15)、計測を停止する(ステップ16)。
そして、計測の開始から計測の停止までの時間間隔の値を求め、その値によって入力された音声が再入力か否かを判断する(ステップ17)。この時間間隔は発話間隔と把握することができる。ステップ17における判断は、例えば予め閾値を設けておいて、時間間隔が閾値より小さい場合には再入力とし、大きい場合には新しい入力とする。ただし、閾値より小さくても一つの単語として認識できる場合、例えばある単語を発声したときに、その単語を構成する一つの文字を発声してから次の文字を発声するまでの時間間隔程度である場合には、再入力と判断しない。つまり、発話間隔が所定の範囲内にある場合に、間隔計測器は再入力と判断する。
再入力と判断した場合(ステップ17においてYesと判断する場合)には、間隔計測器11は、キャンセル信号S3を認識結果補正器7に与え(ステップ18)、辞書を切り替える信号S4を辞書選択器4に与える(ステップ19)。その後、間隔計測器11は入力待ちの状態になる(ステップ12)。
新しい入力と判断した場合(ステップ17においてNoと判断する場合)には、間隔計測器11は信号S3,S4を活性することなく、入力待ちの状態になる(ステップ12)。
認識結果補正器7は、キャンセル信号S3を受けた場合には、図4で示されるステップ23でYesと判断する。そして、認識結果補正器7は、キャンセル信号S5を出力データ記憶部9及びシステム10に与える(ステップ303(図7))。キャンセル信号S5が入力されたシステム10は、直前に入力された認識結果(抽出された語彙)をキャンセル(例えば、消去)して、次の語彙の入力を待つ。システム10におけるキャンセルは、例えば、直前に入力された語彙を画面に表示しないことや、画面に表示したとしてもそれを消すことである。
また、キャンセル信号S5が入力された出力データ記憶部9は、認識結果補正器7の動作がステップ31を経てから、直前に入力された認識結果(抽出された語彙)をキャンセル(例えば、消去)する。
その後、認識結果補正器7は、ステップ202(ステップ31〜36)において頻度補正テーブル及び履歴情報補正テーブルを更新する。ステップ31において取得する履歴情報は、ステップ31を経た後に出力データ記憶部においてキャンセルされる語彙も含む。また、ステップ33,36では、それぞれのテーブルは、例えばキャンセルされた語彙に対応する値が小さくなるように更新される。
辞書選択器4は、辞書切替信号S4を受けた場合には、照合処理器3に与える辞書を辞書5から辞書6に変更する。そして、照合処理器3は、再入力された音声に対して辞書6を用いて照合を行う。再入力された音声は、直前に入力した音声と、語彙が同じでもリズム等が異なることが多い。辞書6は、辞書5とは、関連付けが音響的特徴によって相互に異なっているので、そのような再入力された音声についても精度よい照合を可能にする。
上述した音声認識装置が備える辞書群50は、二つに限らず複数の辞書を含んでいてもよく、再々入力、更には複数の再入力に対応して辞書を切り替えてもよい。
辞書選択器4は、その後辞書切替信号S4が入力されない場合には、辞書5を選択する。つまり、照合処理器3は、新しく入力された音声については辞書5を用いて照合する。
上述した音声認識装置によれば、再入力であるか否かが、間隔計測器11が計測する時間間隔によって判断されるので、再入力された音声の認識が容易になる。また、再入力と判断した場合に、予め用意された複数の辞書5,6から一つを辞書選択器4によって選択して照合処理器3に与えるので、再入力された音声のリズム等が変化した場合においてもその音声を精度良く認識することができる。
また、認識結果補正器7は、補正テーブルが有する語彙の使用履歴(頻度補正テーブル及び履歴情報補正テーブル)を用いて語彙のスコアを修正するので、音声をより精度よく認識できる。
実施の形態2.
図11は、本実施の形態にかかる音声認識装置101を概念的に示すブロック図である。音声認識装置101は、音響分析器2、照合処理器3、辞書5、認識結果補正器7、補正テーブル8、位置センサ38,加速度センサ39及び履歴記憶部40を備える。
図11は、本実施の形態にかかる音声認識装置101を概念的に示すブロック図である。音声認識装置101は、音響分析器2、照合処理器3、辞書5、認識結果補正器7、補正テーブル8、位置センサ38,加速度センサ39及び履歴記憶部40を備える。
音響分析器2は、入力された音声を分析して音響的特徴を求める。音声の分析方法は、例えば実施の形態1で示される方法と同様である。音響的特徴は照合処理器3に与えられる。
辞書5は、音響的特徴と語彙とが予め登録されている。音響的特徴と語彙とは、例えば一対一で関連付けられている。本実施の形態では、語彙は地名を表す場合が多く、以下においても地名と記載する場合がある。
照合処理器3は、音響分析器4から入力される音響的特徴と、辞書5とを照合する。そして、照合処理器3は、入力された音声に対する妥当性に基づくスコアが付加された語彙を出力する。
図12は、照合処理器3の動作をフローチャートにより概念的に示す。図12では、図2で示されるステップと同じ内容のステップには、同符号が付されている。本実施の形態においては、照合処理器3は、ステップ312において辞書5のみを用いて照合する。そして、実施の形態1と同様の方法により語彙にスコアを付加する。語彙には、スコアに基づいて設定される順位を、スコアとともに付加してもよい。スコア及び順位を語彙に付加する方法が、図3に示されている。スコアが付加された語彙は、認識結果補正器7に与えられる。
認識結果補正器7は、各語彙に付加されたスコアを補正して、入力された音声に対して妥当な語彙を抽出する。図13は、認識結果補正器7の動作をフローチャートにより概念的に示す。入力待ちの状態にある認識結果補正器7(ステップ41)に、スコアが付加された語彙が与えられる。その語彙が与えられた認識結果補正器7は、位置センサ38及び加速度センサ39から現在の位置及び加速度を取得し(ステップ42)、履歴記憶部40から位置及び加速度に関する履歴情報を取得する(ステップ43)。また、補正テーブル8を取得する(ステップ44)。そして、補正テーブル8に基づいて、現在の位置及び加速度並びに履歴情報からスコアを補正する(ステップ45)。
図14は、補正テーブル(a)によって、スコアを補正する方法(b)が例示される。図14では、認識結果補正器7に入力される語彙として、図3で示される語彙のうち一致した語彙が用いられる。補正テーブルは、地名「あいうえお」には、地名「あいうえお」からの距離が100km未満である場合に値50、100km以上である場合に値10がそれぞれ対応している。また、地名「あいうえを」についても同様に、地名「あいうえを」からの距離が100km未満である場合に値50、100km以上である場合に値10がそれぞれ対応している。そして、補正テーブルに含まれる全ての地名についても同様に、その地名からの距離に基づいた値がそれぞれ対応している。
認識結果補正器7は、照合処理器3から入力された語彙(地名)と現在の位置との距離を計算する。この結果例えば、現在の位置と地名「あいうえを」との距離が100km未満であり、それ以外の地名(例えば地名「あいうえお」)との距離が100km以上であるとする。認識結果補正器7は、地名「あいうえを」についてはスコア30に値50を加算する(図14(b))。その他の地名については、各々のスコアに値10を加算する。図14(b)では、スコアに基づいて順位も補正されている。
上述した補正テーブル8は、地名からの距離が小さい程、その地名に大きい値が対応していたが、距離が大きい程、その地名に大きい値を対応させてもよい。このように対応した補正テーブル8に基づくスコアの補正は、音声認識装置101を用いている者が現在位置及びその周辺のことを良く知っている場合に、特に望ましい。良く知っている地名を認識させる場合は少ないと考えられるからである。その者が現在位置及びその周辺のことを良く知っているかどうかは、その地域の情報が、履歴記憶部40において頻繁に記憶されているかどうかで判断することできる。
認識結果補正器7が語彙を補正する上述の動作は、語彙に付加されたスコアを、位置及び加速度並びにこれらの履歴に基づいて補正すると把握することができる。
ステップ45の後、認識結果補正器7は、補正されたスコアが付加された語彙のうち最も大きいスコアが付加されている語彙、つまり入力された音声に対して妥当な語彙を抽出する(ステップ46)。例えば図14(b)で示される、スコア補正された語彙においては、語彙「あいうえを」が抽出される。そして、抽出した語彙をシステム41に与える(ステップ47)。システム41は、例えば与えられた語彙を画面等に表示する。
認識結果補正器7の動作において、ステップ41とステップ42との間に、若しくはステップ45とステップ46との間に、実施の形態1で説明される頻度補正テーブルに基づくスコアの補正(図4で示されるステップ24,25)を行ってもよい。この補正を行う場合には、音声認識装置101は、認識した語彙を記憶する出力データ記憶部9を備える。そして、認識結果補正器7は、出力データ記憶部9から得られる履歴情報(認識された語彙)に基づいて頻度補正テーブルを更新する(図4で示されるステップ31〜33)。
上述した音声認識装置によれば、例えば地名が音声として入力された場合に、その地名と同一又は類似した地名が存在する場合においても、動作位置と動作状況並びにこれまでの履歴とから、入力された地名を正しく認識する。
本実施の形態において、音声認識装置101は、補正テーブル8に替えて補正テーブル群を採用してもよい。図15は、補正テーブル群80を備える音声認識装置102を概念的に示す。補正テーブル群80は、補正テーブルを複数有する。一つの補正テーブルは特定の話者について作成される。図11で示される音声認識装置101を構成する要素と同内容のものには、同じ符号が付されている。
音声認識装置102は、入力された音声によって話者を特定する。そして、その話者に対応した補正テーブルを補正テーブル群80から選択して認識結果補正器7に与える。
図16〜図18は、入力された音声から話者を特定する方法が、ブロック図により示されている。音声認識装置102は、話者特定器70を更に備える。図16〜図18では、図15で示される音声認識装置102のうち、音響分析器2、照合処理器3、辞書5、認識結果補正器7、補正テーブル群80だけが示されている。
図16では、音響分析器2で分析された音響的特徴が、話者特定器70に与えられる。話者特定器70は、音響的特徴に基づいて話者を特定する。例えば、音響的特徴のピッチから話者を特定する。話者特定器7は話者特定信号S6を出力する。話者特定信号S6は、例えば特定の話者についてのデータを含む。話者特定信号S6は、認識結果補正器7に与えられる。話者特定信号S6が入力された認識結果補正器7は、話者特定信号S6に基づいて、補正テーブル群80から特定の話者の補正テーブルを取得する。
図17では、音響分析器2で分析された音響的特徴と、辞書5に登録された音響的特徴とが、話者特定器70に与えられる。話者特定器70は、前者の音響的特徴と後者の音響的特徴とを比較して、例えば両者のずれによって話者を特定する。以下の動作は図16で示される音声認識装置102と同様である。
図18では、音響分析器2を介さずに、入力された音声が話者特定器70に与えられる。この場合、話者特定器70では、例えば話者認識装置であり、音響分析器2の出力する音響的特徴とは異なる特徴を用いて話者を特定する。
上述した話者特定器70を備える音声認識装置102によれば、入力された音声ごとに話者を特定し、その話者に対応した補正テーブルを用いて音声を認識するので、音声をより精度良く認識することができる。
1,101,102 音声認識装置、2 音響分析器、3 照合処理器、4 辞書選択器、5,6 辞書、7 認識結果補正器、8 補正テーブル、11 間隔計測器、38 位置センサ、39 加速度センサ、40 履歴記憶部。
Claims (5)
- 入力された音声の音響的特徴を得る音響分析器と、
各々において前記音響的特徴と語彙との関連付けがなされ、前記関連付けが前記音響的特徴によって相互に異なる複数の辞書と、
前記音声の発話間隔を設定する間隔計測器と、
前記発話間隔が所定の範囲内にある場合に、前記辞書の複数を切り替える辞書選択器と、
前記辞書選択器によって選択された一の前記辞書と前記音声とを照合して、前記音声に対応する語彙を少なくとも一つ抽出する照合処理器と
を備える、音声認識装置。 - 前記照合処理器から複数の語彙が、前記音声に対する妥当性に基づくスコアが付加されて抽出され、
前記スコアを、前記語彙の使用履歴に基づいて補正する認識結果補正器
を更に備える、請求項1記載の音声認識装置。 - 前記語彙の使用頻度を含んだ前記語彙の前記使用履歴を前記認識結果補正器に与える補正テーブル
を更に備える、請求項2記載の音声認識装置。 - 既に認証済みの前記語彙との関連性を含んだ前記語彙の前記使用履歴を前記認識結果補正器に与える補正テーブル
を更に備える、請求項2記載の音声認識装置。 - 入力された音声の音響的特徴を得る音響分析器と、
各々において前記音響的特徴と語彙との関連付けがなされる辞書と、
前記辞書と前記音声とを照合して、前記音声に対応する語彙を前記音声に対する妥当性に基づくスコアを付加して少なくとも一つ抽出する照合処理器と、
位置を測定する位置センサと、
加速度を測定する加速度センサと、
前記位置と前記加速度とを履歴として記憶する記憶部と、
前記スコアを、前記位置及び前記加速度並びにこれらの履歴に基づいて補正する認識結果補正器と
を備える、音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004036465A JP2005227555A (ja) | 2004-02-13 | 2004-02-13 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004036465A JP2005227555A (ja) | 2004-02-13 | 2004-02-13 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005227555A true JP2005227555A (ja) | 2005-08-25 |
Family
ID=35002309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004036465A Pending JP2005227555A (ja) | 2004-02-13 | 2004-02-13 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005227555A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090058611A1 (en) * | 2006-02-28 | 2009-03-05 | Takashi Kawamura | Wearable device |
JP2010191400A (ja) * | 2009-01-21 | 2010-09-02 | Xanavi Informatics Corp | 音声認識装置およびデータ更新方法 |
JP2011203434A (ja) * | 2010-03-25 | 2011-10-13 | Fujitsu Ltd | 音声認識装置及び音声認識方法 |
JP2012093508A (ja) * | 2010-10-26 | 2012-05-17 | Nec Corp | 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム |
-
2004
- 2004-02-13 JP JP2004036465A patent/JP2005227555A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090058611A1 (en) * | 2006-02-28 | 2009-03-05 | Takashi Kawamura | Wearable device |
US8581700B2 (en) * | 2006-02-28 | 2013-11-12 | Panasonic Corporation | Wearable device |
JP2010191400A (ja) * | 2009-01-21 | 2010-09-02 | Xanavi Informatics Corp | 音声認識装置およびデータ更新方法 |
JP2011203434A (ja) * | 2010-03-25 | 2011-10-13 | Fujitsu Ltd | 音声認識装置及び音声認識方法 |
JP2012093508A (ja) * | 2010-10-26 | 2012-05-17 | Nec Corp | 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101892734B1 (ko) | 음성 인식 시스템에서의 오류 수정 방법 및 그 장치 | |
US8401847B2 (en) | Speech recognition system and program therefor | |
US9020819B2 (en) | Recognition dictionary system and recognition dictionary system updating method | |
US8346553B2 (en) | Speech recognition system and method for speech recognition | |
US8700398B2 (en) | Interface for setting confidence thresholds for automatic speech recognition and call steering applications | |
JP2011002656A (ja) | 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム | |
JP2007041319A (ja) | 音声認識装置および音声認識方法 | |
JP2021105736A (ja) | 情報処理装置、方法及びプログラム | |
JP2008051895A (ja) | 音声認識装置および音声認識処理プログラム | |
JP2008262120A (ja) | 発話評価装置及び発話評価プログラム | |
JP4634156B2 (ja) | 音声対話方法および音声対話装置 | |
WO2006093092A1 (ja) | 会話システムおよび会話ソフトウェア | |
JP4661239B2 (ja) | 音声対話装置及び音声対話方法 | |
JP6233867B2 (ja) | 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム | |
JP2005227555A (ja) | 音声認識装置 | |
JP2009116277A (ja) | 音声認識装置 | |
JP4212947B2 (ja) | 音声認識システムおよび音声認識の訂正・学習方法 | |
KR100998567B1 (ko) | 음성인식 방법 및 그 장치 | |
JPH03148750A (ja) | 音声ワープロ | |
JP6325770B2 (ja) | 音声認識誤り修正装置及びそのプログラム | |
JP2016191739A (ja) | 発音誤り検出装置、方法およびプログラム | |
JP4635743B2 (ja) | 音声対話装置及び音声理解結果生成方法 | |
JPH11249688A (ja) | 音声認識装置およびその方法 | |
US8688452B2 (en) | Automatic generation of distractors for special-purpose speech recognition grammars | |
JPH09198087A (ja) | 音声認識装置及び方法 |