JP2010072098A - 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム - Google Patents
発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム Download PDFInfo
- Publication number
- JP2010072098A JP2010072098A JP2008236872A JP2008236872A JP2010072098A JP 2010072098 A JP2010072098 A JP 2010072098A JP 2008236872 A JP2008236872 A JP 2008236872A JP 2008236872 A JP2008236872 A JP 2008236872A JP 2010072098 A JP2010072098 A JP 2010072098A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- voice
- input
- phoneme
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】発話入力の音声認識のためのコンピュータ・システムを提供する。該システムは、第1発話の入力に応答して、該入力された第1発話の音声が記憶部に登録された音声と一致するかどうかを判断する第1の判断部と、上記入力された第1発話の音声が上記記憶部に登録された音声と一致しない場合に、第2発話の入力を要求する要求部と、上記入力された第2発話の音声が上記記憶部に登録された音声と一致するかどうかを判断する第2の判断部と、上記第2発話の音声が上記記憶部に登録された音声と一致する場合に、上記第2発話の音素列と上記第1発話の音素列とを比較する比較部と、上記第2発話の音素列が上記第1発話の音素列と似ている場合に、上記第1発話の音声を上記第2発話に対応するコマンド又はアクションに関連付ける関連付け部とを含む。
【選択図】図1A
Description
1.音声タグ登録モードを起動、
2.発話内容をコマンドに関連付けするためのメニューの選択、
3.発話、
4.新規登録。
しかし、ユーザは、どの発話にどのコマンドを関連付けたかを常に意識しているわけではない。また、ユーザは、音声認識に失敗した場合において音声認識の失敗に初めて気付くか或いは失敗を気付きもしない。さらに、車載機器の環境において、ユーザは、発話内容の登録乃至は発音修正の作業を行うことを望んでいない。さらに、ユーザが、発話内容をコマンドへ関連付けるために、上記手順をその都度実行するのは面倒である。
また、単語又はフレーズの発音のバリエーションを追加する作業は人手を掛けないと精度がよくならないので、コスト面において敬遠されがちである。よって、単語又はフレーズの発音のバリエーションを自動的に登録する音声認識システムが求められている。
さらに、車載機器では、ハードウェア資源が限られている場合がある。それにも関わらず、例えば1つの単語又はフレーズに対して複数の音の揺らぎを関連付ける場合、より多くのメモリー容量が必要とされる。よって、ハードウェア資源の制約に対応できうるような音声認識システムが求められている。
上記コンピュータ・システムは、
第1発話の入力に応答して、該入力された第1発話の音声が記憶部に登録された音声と一致するかどうかを判断する第1の判断部と、
上記入力された第1発話の音声が上記記憶部に登録された音声と一致しない場合に、第2発話の入力を要求する要求部と、
上記入力された第2発話の音声が上記記憶部に登録された音声と一致するかどうかを判断する第2の判断部と、
上記第2発話の音声が上記記憶部に登録された音声と一致する場合に、上記第2発話の音素列と上記第1発話の音素列とを比較する比較部と、
上記第2発話の音素列が上記第1発話の音素列と似ている場合に、上記第1発話の音声を上記第2発話に対応するコマンド又はアクションに関連付ける関連付け部と
を含む。
上記入力された第2発話の音声が上記記憶部に登録された音声と一致しない場合に、第3発話の入力をさらに要求する第2の要求部と、
上記入力された第3発話の音声が上記記憶部に登録された音声と一致するかどうかを判断する第3の判断部と、
上記第3発話の音声が上記記憶部に登録された音声と一致する場合に、上記第3発話の音素列と上記第2発話の音素列とを比較する第2の比較部と、
上記第3発話の音素列が上記第2発話の音素列と似ている場合に、上記第2発話の音声を上記第3発話に対応するコマンド又はアクションに関連付ける第2の関連付け部と
をさらに含む。
該ステップは、
第1発話の入力に応答して、該入力された第1発話の音声が記憶部に登録された音声と一致するかどうかを判断する第1の判断ステップと、
上記入力された第1発話の音声が上記記憶部に登録された音声と一致しない場合に、第2発話の入力を要求するステップと、
上記入力された第2発話の音声が上記記憶部に登録された音声と一致するかどうかを判断する第2の判断ステップと、
上記第2発話の音声が上記記憶部に登録された音声と一致する場合に、上記第2発話の音素列と上記第1発話の音素列とを比較するステップと、
上記第2発話の音素列が上記第1発話の音素列と似ている場合に、上記第1発話の音声を上記第2発話に対応するコマンド又はアクションに関連付けるステップと
を含む。
上記入力された第2発話の音声が上記記憶部に登録された音声と一致しない場合に、第3発話の入力をさらに要求するステップと、
上記入力された第3発話の音声が上記記憶部に登録された音声と一致するかどうかを判断するステップと、
上記第3発話の音声が上記記憶部に登録された音声と一致する場合に、上記第3発話の音素列と上記第2発話の音素列とを比較するステップと、
上記第3発話の音素列が上記第2発話の音素列と似ている場合に、上記第2発話の音声を上記第3発話に対応するコマンド又はアクションに関連付けるステップと
を含む。
該ステップは、
第1発話の入力に応答して、該入力された第1発話の音声が記憶部に登録された音声と一致するかどうかを判断するステップと、
上記入力された第1発話の音声が上記記憶部に登録された音声と一致する場合に、上記第1発話に対応するアクションを実行するステップと、
上記入力された第1発話の音声が上記記憶部に登録された音声と一致しない場合に、第2発話の入力を要求するステップと、
上記入力された第2発話の音声が上記記憶部に登録された音声と一致するかどうかを判断するステップと、
上記第2発話の音声が上記記憶部に登録された音声と一致する場合に、上記第2発話の音素列と上記第1発話の音素列とを比較するステップと、
上記第2発話の音素列が上記第1発話の音素列と似ている場合に、上記第1発話の音声を上記第2発話に対応するコマンド又はアクションに関連付けるステップと、
上記第2発話の音素列が上記第1発話の音素列と似ていない場合に、上記第1発話の音声を上記第2発話に対応するコマンドに関連付けるかどうかをユーザに問い合わせるステップと、
上記第2発話の音声が上記記憶部に登録された音声と一致しない場合に、
第3発話の入力をさらに要求するステップと、
上記入力された第3発話の音声が上記記憶部に登録された音声と一致するかどうかを判断するステップと、
上記第3発話の音声が上記記憶部に登録された音声と一致する場合に、上記第3発話の音素列と上記第2発話の音素列とを比較するステップと、
上記第3発話の音素列が上記第2発話の音素列と似ている場合に、上記第2発話の音声を上記第3発話に対応するコマンド又はアクションに関連付けるステップと
を含む。
本発明の実施形態において、「記憶部」は、音声及び/又は音素列についてのデータを含む。「記憶部」は、データベースであってよい。該記憶部は、コンピュータ・システム内若しくはコンピュータ・システム外の記憶装置、又はコンピュータ・システムにネットワークを介して接続されたサーバ、プロキシの記憶装置に配置されうる。
本発明の実施形態において、「音声認識」の手法として、慣用の技術が使用されうる。例えば、音声認識技術として、IBM Embedded ViaVoice(EVV)を使用することができる。音声認識では、認識エンジン、単語又はフレーズ辞書、音響モデルを使用して、入力された発話について単語又はフレーズの認識の処理が行われる。
本発明の実施形態において、「音素列」は、音韻論で、任意の個別言語において意味の区別(弁別)に用いられる最小の音の単位を指す。音素は/ /で囲んで表記する。音素に使う記号は自由であり、各言語固有の音素文字が使われることもあるし、国際音声字母が使われることもある。
本発明の実施形態において、音素列間の比較の手法として、慣用の技術が使用されうる。例えば、音素列が似ているかどうかの判定は、例えばIBM EVVにおける音素列を比較するAPIを使用することができる。音素列を比較するAPIは例えば、esrCompareBaseformsである。
本発明の実施形態において、音声が一致するとは、認識結果の単語又はフレーズが、あらかじめ定義された閾値以上又はそれを超える値(スコア)で辞書(記憶域内の単語又はフレーズの集合)内の単語又はフレーズと一致することをいう。所定の閾値は、言語によっても変わりうる。また、音声が一致したとは、該音声に対応するアクションが実行されることで判定することも可能である。
本発明の実施形態において、音声が一致しないとは、上記あらかじめ定義された閾値以上又はそれを超える単語又はフレーズが上記辞書内にみつからないことをいう。また、音声が一致しないことは、該音声に対応するアクションが実行されなかったことで判定することも可能である。
本発明の実施形態において、音素列が似ているとは、音素列中の音素の一致度が、あらかじめ定義された閾値以上又はそれよりも高いことをいう。所定の閾値は、言語によっても変わりうる。
本発明の実施形態において、音素列が似ていないとは、音素列中の音素の一致度が、あらかじめ定義された閾値以下又はそれよりも低いことをいう。
本発明の実施形態において、「コンピュータ・システム」は、車載機器、例えばカーナビゲーション・システム、ハンドヘルド・コンピュータ、パーソナル・デジタル・アシスタント、携帯電話又はカーナビゲーション・システム以外のナビゲーション・システムを含むが、これらに制限されない。
音声認識システム(101)は、ナビゲーション・システム、ハンドヘルド・コンピュータ、パーソナル・デジタル・アシスタント、又は携帯電話でありうる。
音声認識システム(101)は、認識処理部(102)、判断部(103)、記憶部(104)、要求部(105)、比較部(106)、関連付け部(107)、問合部(108)、選択部(109)、登録部(110)、ポリシー(111)、実行部(112)、及び削除部(113)を含む。
認識処理部(102)は例えば、認識エンジン、単語又はフレーズ辞書、及び音響モデルを含む。認識エンジンは、発話が音声入力部(図示せず)、例えばマイクロフォン又はサウンドカードマイクを通して入力されると、該入力された発話について単語又はフレーズの音声認識の処理を、単語又はフレーズ辞書及び音響モデルを使用して実行し、同時に音素列を生成する。認識の処理は、発話と単語又はフレーズとのマッチングを行うことである。認識された音声と、生成された音素列は例えば、音素列が生成されることによって関連付けられる。
判断部(103)は、認識処理部(102)において処理された音声データが記憶部(104)内に格納された音声データと一致するかどうかを判断する。詳細には、判断部(103)は、ユーザによって最初の発話、例えば音声コマンドが入力されると、該音声コマンドの音素列が記憶部(104)に登録された音素列と一致するかどうかを判断する。同様に、判断部(103)は、ユーザによって2回目以降の発話、例えば音声コマンドが入力されると、該音声コマンドの音素列が記憶部(104)に登録された音素列と一致するかどうかを判断する。
記憶部(104)は、判断部(103)において使用するための音声データ、音素列データを格納する。記憶部(104)は例えば、データベースでありうる。
要求部(105)は、ユーザによって最初に入力された発話(第1発話)の音声が記憶部(104)に登録された音声と一致しない場合に、2回目の発話(第2発話)の入力を要求する。同様に、要求部(105)は、ユーザによって2回目に入力された発話(第2発話)の音声が記憶部(104)に登録された音声と一致しない場合に、3回目の発話(第3発話)の入力を要求する。以降、予め設定された回数について、要求部(105)は、ユーザに発話の入力を求める。
比較部(106)は、第2発話の音声が記憶部(104)に登録された音声と一致する場合に、第2発話の音素列と第1発話の音素列とを比較する。同様に、比較部(106)は、第n発話の音声が記憶部(104)に登録された音声と一致する場合に、第n発話の音素列と第n−1発話の音素列とを比較する。
関連付け部(107)は、第2発話の音素列が第1発話の音素列と似ている場合に、第1発話の音声を第2発話に対応するコマンド又はアクションに関連付ける。同様に、関連付け部(107)は例えば、第n発話の音素列が第n−1又はそれ以前の発話の音素列と似ている場合に、第n−1又はそれ以前の発話の音声を第n発話に対応するコマンドに関連付ける。
問合部(108)は、第2発話の音素列が第1発話の音素列と似ていない場合に、第1発話の音声を第2発話に対応するコマンドに関連付けるかどうかをユーザに問い合わせる。同様に、問合部(108)は、第n発話の音素列が第n−1発話の音素列と似ていない場合に、第n−1発話の音声を第n発話に対応するコマンドに関連付けるかどうかをユーザに問い合わせる。
選択部(109)は、第2発話の音素列が第1発話の音素列と似ていない場合に、第1発話の音声に対応するコマンドを選択することを許す。同様に、選択部(109)は例えば、第n発話の音素列が第n−1又はそれ以前の発話の音素列と似ている場合に、第n−1又はそれ以前の音声に対応するコマンドを選択することを許す。
登録部(110)は、第2発話の音素列が第1発話の音素列と似ている場合に、第1発話の音声データ、特に第1発生の音素列を記憶部(104)に登録するかどうかを判定するポリシーを参照し、該ポリシーに従い第1発話の音声データを記憶部(104)に登録するかどうかを判定する。
ポリシー(111)は例えば、ノイズ比の高さ、単語又はフレーズの使用頻度、又は音素列の並びに基づくがこれに限定されない。
実行部(112)は、入力された第1発話の音声が記憶部(104)に登録された音声と一致する場合に、第1発話に対応するアクションを実行する。特には、実行部(112)は、入力された第1の音声コマンドが記憶部(104)に登録された音声と一致する場合に、第1の音声コマンドに対応するアクションを実行する。同様に、実行部(112)は、入力された第n発話の音声が記憶部(104)に登録された音声と一致する場合に、第n発話に対応するアクションを実行する。特には、実行部(112)は、入力された第nの音声コマンドが記憶部(104)に登録された音声と一致する場合に、第nの音声コマンドに対応するアクションを実行する。
アクションは、音声認識システム(101)が実装される製品によって異なる。例えば、音声認識システム(101)がカーナビゲーション・システムの場合、アクションは例えば、検索のためのウィンドウを表示する、検索キーワードに従い所定の目的地までの経路を表示する、DVD再生機能又は音楽再生機能を呼び出す、カーナビゲーション・システムの電源をオン/オフする、であるがこれらに限定されない。
削除部(113)は、記憶部(104)に登録された音声データ又は音素列データをユーザが削除することを許す。削除する理由は、音声データ又は音素列データを格納する記憶部の容量にも限界があり、さらに音素列のバリエーションが増加し過ぎることによって認識率が却って低下するのを防ぐためである。
削除の対象は、使用頻度の低い音声データ又は音素列データである。音声認識システム(101)は、使用頻度の低い音声データ又は音素列データをリストとしてユーザに提示する提示部を有してもよい。該提示は、削除対象でありうる音声コマンドとともに、該音声コマンドを最後に使用した日付、該音声コマンドを使用した回数をディスプレイ上に同時に表示するようにしてもよい。該表示は例えば、ウィンドウ形式で表示される。代替的に、削除対象でありうる音声コマンドをディスプレイ上に表示する代わりに、該音声コマンドを音声で再生して削除するかどうかをユーザに都度確認しながら行うようにしてもよい。
音声認識システム(図1A、101)の音声入力部(122)に音声コマンドが入力される。認識処理部(123)は、入力された音声について、単語又はフレーズとしての音声認識と音素列の認識とを行う。記憶部(124)、例えばメモリー内は、認識処理部(123)において認識された音声コマンド「高速道路を利用」を格納する。実行部(図1A、112)は、該認識された音声コマンドに対応するコマンドがコマンド群(125)にあるかどうかを確認する。コマンド群は、予め所定の記憶部、例えばデータベースに格納されている。上記認識された音声コマンドに対応するコマンドがコマンド群において見つけられた場合、音声コマンド「高速道路を利用」に対応するアクション「目的地までの高速道路を利用した経路を表示する」をアクション群(126)から見つけ、該アクションを実行する。
ステップ201では、ユーザによって最初の発話(第1発話)が音声入力部を通して入力される。音声認識システム(図1A、101)が、音声認識を開始する。音声認識の開始は、第1発話が入力される前又は後のいずれであってもよい。入力された発話は電気的な音声信号に変換されて、認識エンジンに渡される。認識エンジンは、該入力された音声信号について、単語又はフレーズを認識し、同時に音素列を生成する。第1発話についての認識された単語又はフレーズ及び生成された音素列は、メモリー又はハードディスク・ドライブ若しくはソリッド・ステート・ディスク内に格納される。
例えば、ユーザが高速道路を利用し、目的地に行きたいと望む場合、ユーザは、カーナビゲーション・システムに「コーソクドーロオリヨウ」と発話する。
ステップ202では、音声認識システムが、第1発話の入力に応答して、該入力された第1発話の音声が記憶部に登録された音声と一致するかどうかを判断する。
上記例では、1回目の発話が、「高速道路を利用」について、1回目の発話の音素列が「k o o: s o k u d o o: r o o: r i y o o:」であると認識されたとする。一方、記憶部に登録されている音素列は、「k o u s o k u d o u r o o r i y o u」であるとする。該例では、1回目の発話の音素列が「u」について長音符「―」であると認識されているか又は認識されていないために、1回目の発話の音素列「k o o: s o k u d o o: r o o: r i y o o:」と記憶部に登録されている音素列「k o u s o k u d o u r o o r i y o u」とは、一致しないと判断される。
ステップ203では、音声認識システム(101)が、上記一致がない場合、2回目の発話(第2発話)の入力をユーザに要求する。該要求は例えば、音声による案内又は音声認識システムに接続された表示装置上に表示されうる。また、第1発話の音声又は音素列が、メモリー又はハードディスク・ドライブ若しくはソリッド・ステート・ディスク内に格納される。
例えば、ユーザは、カーナビゲーション・システムに「コウソクドウロオリヨウ」と発話する。
ステップ204では、音声認識システム(101)が、上記一致がある場合、第1発話に対応するアクションを実行する。
ステップ205では、ユーザによって第2発話が音声入力部を通して入力される。入力された発話は電気的な音声信号に変換されて、認識エンジンに渡される。認識エンジンは、該入力された発話は電気的な音声信号に変換されて、認識エンジンに渡される。認識エンジンは、該音声信号について、単語又はフレーズを認識し、同時に音素列を生成する。第2発話についての認識された単語又はフレーズ及び生成された音素列は、メモリー又はハードディスク・ドライブ若しくはソリッド・ステート・ディスク内に格納される。
上記例では、2回目の発話が、「高速道路を利用」について、2回目の発話の音素列が「k o u s o k u d o u r o o r i y o u」であると認識されたとする。
ステップ206では、音声認識システム(101)が、第2発話の入力に応答して、該入力された第2発話の音声が記憶部に登録された音声と一致するかどうかを判断する。
上記例では、2回目の発話の音素列「k o u s o k u d o u r o o r i y o u」が記憶部に登録されている音素列「k o u s o k u d o u r o o r i y o u」と一致する。
ステップ207では、音声認識システム(101)が、上記一致がある場合、第2発話の音素列と第1発話の音素列とを比較する。
上記例では、2回目の発話の音素列「k o u s o k u d o u r o o r i y o u」と1回目の発話の音素列「k o o: s o k u d o o: r o o: r i y o o:」とを比較する。
ステップ208では、音声認識システム(101)が、上記一致がある場合、第2発話に対応するアクションをさらに実行する。
該例では、2回目の発話の音素列「k o u s o k u d o u r o o r i y o u」が記憶部に登録されている音素列「k o u s o k u d o u r o o r i y o u」と一致する。よって、2回目の発話の音素列と記憶部に登録されている音素列とは、一致すると判断される。よって、「高速道路を利用」に対応するアクションとして、例えば、カーナビゲーション・システムの表示装置上に目的地までの高速道路を利用した経路が表示される。
ステップ209では、音声認識システム(101)が、上記一致がない場合、図2Bに示すステップに進む。
ステップ210では、音声認識システム(101)が、第2発話の音素列が第1発話の音素列と似ている場合、第1発話の音声を第2発話に対応するコマンド又はアクションに関連付ける。特には、第1の音素列を第2の音声コマンドに対応するコマンド又はアクションに関連付ける。該関連付けによって、第1の音声コマンドと同じ発話を以降に行うことによって、第2の音声コマンドに対応するアクションを実行することが可能になる。従って、第2の音声コマンドと同じ発話を以降に要求されることがない。
上記例では、2回目の発話の音素列「k o u s o k u d o u r o o r i y o u」が1回目の発話の音素列「k o o: s o k u d o o: r o o: r i y o o:」と比較して「u」が「o:」に及び「o」が「o:」に置き換わっているだけであることから、音素列は互いに似ていると判断される。よって、1回目の発話の音素列「k o o: s o k u d o o: r o o: r i y o o:」が、2回目の発話の2回目の発話の音素列「k o u s o k u d o u r o o r i y o u」に対応するコマンド又はアクションに関連付けられる。代替的には、1回目の発話の音素列「k o o: s o k u d o o: r o o: r i y o o:」が、音素列「ko u s o k u d o u r o o r i y o u」に関連付けられる。
ステップ211では、第2発話の音素列が第1発話の音素列と似ていない場合に、第1発話の音声を第2発話に対応するコマンド又はアクションに関連付けるかどうかをユーザに問い合わせる。例えば、記憶部に音声コマンド「エアコン」が登録されており、1回目の音声コマンドが「クーラー」であり、2回目の音声コマンドが「エアコン」であるとする。2回目の音声コマンドと記憶部に登録された単語又はフレーズが一致するが、2回目の音声コマンドの音素列「k u u: r a a:」は、1回目の音声コマンドの音素列「e a k o n」と似ていない。しかし、クーラーという音声コマンドで行われるアクションと、エアコンという音声コマンドで行われるアクションとが、”エアコンの電源を入れる”という点で共通しているために、ユーザは、1回目の音声コマンド「クーラー」に、2回目の音声コマンドのアクションであるエアコンの”エアコンの電源を入れる”を関連付けることができる。
代替的に、ステップ211では、音声認識システム(101)が、第2発話の音素列が第1発話の音素列と似ていない場合に、第1発話の音声に対応するコマンドを選択することを許す。該選択は例えば、ユーザが、提示された音声コマンドのリストの中から所望の音声コマンドを選択することによって行われる。該選択が行われると、関連付け部は、第1発話の音声を第2発話の音声のバリエーションとして登録する(ステップ217)。該登録によって、発音が違う場合に、ユーザに確認して第1の音声コマンドを第2の音声コマンドの同意語として登録する機会が与えられる。
なお、第1発話の音声を第2発話の音声のバリエーションとして登録する場合に、登録を行うかどうかの判定基準に従い、登録を行うようにすることができる。判定基準は、ポリシーに格納することができる。
判定基準は、下記の通りである。
・ノイズ比の高さ。
−例えばS/N比が所定の値よりも高いか。S/N比は、発話された環境によって異なりうる。
・登録しようとしている単語又はフレーズの使用頻度の高さ。
−現在位置から遠い住所はあまり使われることはないだろう。
−都道府県などだけは追加してもよいかもしれない。
−一般名詞と固有名詞
−神社は一般名詞であるから利用頻度が高いであろうが、固有名詞である熊野神社は利用頻度が低いであろう。
−よく知られた固有名詞とそうでないもの。
−マクドナルド(商標)は利用頻度が高いであろうが、マクドナルド港南中央点は利用頻度が低いであろう。
−利用頻度の高いコマンドとそうでないもの。
−カーナビゲーション・システムにおいて、”自宅へ帰る”は利用頻度が高いであろうが、”今日の運勢は”は利用頻度が低いであろう。
・音素列の並び
−ありえない音素の並びを検出したら登録しない。
−“んんんんん”(同じ音素が3つ以上続く)、但し、このありえない音素の並びは、言語によって異なる。
・位置情報、個人の嗜好情報などを利用する。
−現在位置からの距離、自宅位置からの距離によって頻度を判断する。
−登録地点
−好きな食べ物、よく行くお店
さらに、登録した音声データ又は音素列データを削除することを可能にするステップが用意される(図示せず)。
ステップ221では、音声認識システム(図1A、101)が、ステップ206において行われた判断において一致がない場合、3回目の発話(第3発話)の入力をユーザに要求する。該要求は例えば、音声による案内又は音声認識システムに接続された表示装置上に表示されうる。また、第1発話の音声又は音素列が、メモリー又はハードディスク・ドライブ若しくはソリッド・ステート・ディスク内に格納される。
ステップ222では、音声認識システム(101)が、ユーザによって第3発話が音声入力部を通して入力される。入力された発話がアナログである場合、アナログ−デジタル変換器を介して、デジタル・データに変換されてもよい。認識エンジンは、該入力された発話について、単語又はフレーズを認識し、同時に音素列を生成する。第2発話についての認識された単語又はフレーズ及び生成された音素列は、メモリー又はハードディスク・ドライブ若しくはソリッド・ステート・ディスク内に格納される。
ステップ223では、音声認識システム(101)が、第3発話の入力に応答して、該入力された第3発話の音声が記憶部に登録された音声と一致するかどうかを判断する。
ステップ224では、音声認識システム(101)が、上記一致がある場合、第3発話の音素列と第2発話の音素列とを比較する。
ステップ225では、音声認識システム(101)が、上記一致がある場合、第3発話に対応するアクションを実行する。
ステップ226では、音声認識システム(101)が、上記一致がない場合、図2Bのステップの最初(A)に戻る。
ステップ227では、音声認識システム(101)が、第3発話の音素列が第2発話の音素列と似ている場合、第2発話の音声を第3発話に対応するコマンドに関連付ける。特には、第2の音声コマンドを第3の音声コマンドに対応するアクションに関連付ける。該関連付けによって、第2発話と同じ発話を以降に行うことによって、以降の発話を要求されることなく、第3の音声コマンドに対応するアクションを実行することが可能になる。
ステップ228では、音声認識システム(101)が、第2発話の音素列が第1発話の音素列と似ていない場合に、第1発話の音声に対応するコマンドを選択することを許す。該選択は例えば、ユーザが、提示された音声コマンドのリストの中から所望の音声コマンドを選択することによって行われる。該選択が行われると、関連付け部は、第1発話の音声を第2発話の音声のバリエーションとして登録する(ステップ227)。
図3Aの音声認識は、グラマー(コマンド)を使用した音声認識を示す。
車載機器では、コマンドの認識が一般的に使用されている。
発話が例えば、「atama ga itai」であるとする。信号処理部(301)は、該発話が入力されると、当該発話を電気的な音声信号に変換して認識エンジン(302)に渡す。認識エンジン(302)は、辞書(303)及び音響モデル(304)を使用して、該音声信号について単語又はフレーズを認識する。
辞書(303)は、グラマーの集合体である認識辞書でありうる。グラマーは例えば、”<complaint>=<bodypart>が痛い”、で表記される。音声信号について、<bodypart>部分が、辞書(303)を使用して認識される。辞書には、頭、肩、腕、足が登録されている。
音響モデル(304)では、音響的な特徴が用いられる。音響的な特徴とは、認識対象の音素がそれぞれどのような周波数特性を持っているかを表したものである。音響モデルの表現としては、混合正規分布を出力確率とした隠れマルコフモデル(HMM)が適用可能である。隠れマルコフモデルが適用可能であるのは、音声信号が断片的又は短時間の定常信号と見ることができるからである。
認識エンジン(302)は、<bodypart>部分が「頭」であることを認識する。そして、認識エンジン(302)は、認識した単語列「頭が痛い」をアプリケーション・プログラム(305)に渡す。
図3Bの音声認識は、大語彙認識(口述筆記)を使用した音声認識を示す。
発話が例えば、「posuto-wa-akai-maru」であるとする。信号処理部(311)は、該発話が入力されると、当該発話を電気的な音声信号に変換して認識エンジン(312)に渡す。認識エンジン(312)は、言語モデル(313)及び音響モデル(314)を使用して、該音声信号について単語又はフレーズを認識する。
言語モデル(313)では、言語的な特徴が用いられる。言語的な特徴とは、音素の並び方に関する制約を表したものである。例えば、「あなた (a n a t a)」という発声の直後には、「が(g a)」や「は(w a)」などの発声が続く確率が高い、などの制約である。言語モデルの表現として、n-gramが用いられる。また、言語モデルの表現として、文脈自由文法が用いられる。n-gramは、直前の(N-1)個の単語を見て、次の単語を予測するモデルである。文脈自由文法は、全生成規則が、V→wの形式である形式文法のひとつである。ここで、Vは非終端記号であり、wは終端文字と非終端記号から構成される文字列である。「文脈自由」という用語は前後関係に依存せずに非終端記号Vをwに置換できることを意味する。n-gramは例えば認識対象の言語が大規模な場合に用いられ、文脈自由文法は例えば認識対象の言語が人手で網羅出来る程度に小さい場合に用いられる。
音響モデル(314)では、音響的な特徴が用いられる。音響的な特徴とは、認識対象の音素がそれぞれどのような周波数特性を持っているかを表したものである。音響モデルの表現としては、混合正規分布を出力確率とした隠れマルコフモデル(HMM)が適用可能である。隠れマルコフモデルが適用可能であるのは、音声信号が断片的又は短時間の定常信号と見ることができるからである。
認識エンジン(312)は、音声信号が「ポストは赤い 丸」であることを認識する。そして、認識エンジン(312)は、認識した単語列「ポストは赤い 丸」をアプリケーション・プログラム(315)に渡す。
該音声認識をするための処理は、IBM EVVを用いたキャラクタ・ユーザ・インターフェース(CUI)のWindows(商標)アプリケーションでの動作例である。
メイン・アプリケーション・スレッド(401)は、ユーザからのエンター入力により、音声認識処理のメインアプリケーションスレッド内での処理(ステップ402〜407)を開始する。
ステップ402では、音声認識システム(101)が、ユーザからのエンター入力により、音声認識を開始するためにマイクロフォンをオンにする。発話が開始されると、該発話が音声認識システム(101)に入力される。
ステップ403では、音声認識システム(101)が、認識エンジンの処理を開始するために、例えば、音声認識API esrRecoStartListeningをコールする。音声認識システム(101)が、音声の入力待ち受け状態になる。
ステップ404では、音声認識システム(101)が、ユーザからの再度のエンター入力により、発話が終了したと判断する。音声認識システム(101)が、音声認識が終了したためにマイクロフォンをオフにする。
ステップ405では、音声認識システム(101)が、認識エンジンの処理を終了するために、例えば、音声認識API esrRecoStopListeningをコールする。音声認識システム(101)は、音声の入力待ち受け状態を解除する。
ステップ406では、音声認識システム(101)が、認識エンジンから呼ばれるコールバック関数を通してエンジンの状態をチェックし、音声の認識結果の取得を待つ。
ステップ407では、音声認識システム(101)は、音声の認識結果の出力をする。音声認識システム(101)は、音声の認識結果が出力されると、各コマンドを実行する。
図4Aの408はESR認識エンジンスレッドであり、音声認識処理中、一定の間隔で逐次呼び出される。
ステップ409では、音声認識処理が開始されると、音声認識システム(101)は、音声認識結果が出るまでの間、認識エンジンが自らの状態(RECOGNITION STATE)を知らせるために、コールバック関数をコールし続ける。コールバック関数はユーザの定義した関数である。RECOGNITION STATEは、認識エンジンが内部で保持する状態である。
ステップ410では、音声認識システム(101)が、認識エンジンの状態を取得し、関数内にて目的の状態(例えば、認識完了)かどうかを確認する。判断結果がYESの場合、ステップ411に進む。一方、判断結果がNOの場合、ステップは412に進む。
ステップ411では、音声認識システム(101)が、信号の状態をアプリケーション側と共有する。
ステップ412では、音声認識システム(101)が、処理を完了し、最初に戻る。
ステップ413では、音声認識システム(101)が、信号の状態をアプリケーションと共有する。
図4Aの414では、音声認識処理が開始されると、音声認識システム(101)が、音声認識結果が出るまでの間、認識エンジンが自らの状態を知らせるために、コールバック関数をコールし続ける。コールバック関数はユーザの定義した関数である。
ステップ415では、音声認識システム(101)が、アプリケーションが必要とする認識結果を入力する。認識結果は、たとえばスペル、IDなどである。音声認識システム(101)が、認識結果を知らせるために、コールバック関数をコールし続ける。
ステップ416では、音声認識システム(101)が、音声認識結果をフレーズという形で様々な情報(スペル、音素列、ID、スコアなど)を保持するために、所望のデータを取り出す。
ステップ417では、音声認識システム(101)が、処理を完了し、最初に戻る。
ステップ418では、音声認識システム(101)が、イベントをアプリケーションと共有する。
メイン・アプリケーション・スレッド(421)は、ユーザからのエンター入力により、音素列認識処理のメインアプリケーションスレッド内での処理(ステップ422〜427)を開始する。
ステップ422では、音声認識システム(101)が、ユーザからのエンター入力により、音素列認識を開始するためにマイクロフォンをオンにする。発話が開始されると、該発話が音声認識システム(101)に入力される。
ステップ423では、音声認識システム(101)が、認識エンジンの処理を開始するために、例えば、音声認識API esrAcbfStartListeningをコールする。音声認識システム(101)が、音声の入力待ち受け状態になる。Acbfは、音素列(Acoustic baseform)の略である。
ステップ424では、音声認識システム(101)が、ユーザからの再度のエンター入力により、発話が終了したと判断する。音声認識システム(101)が、音声認識が終了したためにマイクロフォンをオフにする。
ステップ425では、音声認識システム(101)が、認識エンジンの処理を終了するために、例えば、音声認識API esrRecoStopListeningをコールする。音声認識システム(101)は、音声の入力待ち受け状態を解除する。
ステップ426では、音声認識システム(101)が、認識エンジンから呼ばれるコールバック関数を通してエンジンの状態をチェックし、音素列の認識結果の取得を待つ。
ステップ427では、音声認識システム(101)が、音素列の認識結果の出力をする。音声認識システム(101)は、音素列の認識結果が出力されると、各コマンドを実行する。
図4Bの428は、ESR認識エンジンスレッドであり、音素列認識処理中、一定の間隔で逐次呼び出される。
ステップ429では、音声認識処理が開始されると、音声認識システム(101)が、音声認識結果が出るまでの間、認識エンジンが自らの状態(RECOGNITION STATE)を知らせるために、コールバック関数をコールし続ける。コールバック関数はユーザの定義した関数である。RECOGNITION STATEは、認識エンジンが内部で保持する状態である。
ステップ430では、音声認識システム(101)が、認識エンジンの状態を取得し、関数内にて目的の状態(例えば、認識完了)かどうかを確認する。判断結果がYESの場合、ステップ431に進む。一方、判断結果がNOの場合、ステップは432に進む。
ステップ431では、音声認識システム(101)が、信号の状態をアプリケーション側と共有する。
ステップ432では、音声認識システム(101)が、処理を完了し、最初に戻る。
ステップ433では、音声認識システム(101)が、信号の状態をアプリケーションと共有する。
図4Aの434では、音素列認識処理が開始されると、音声認識システム(101)が、音素列の認識結果が出るまでの間、認識エンジンが自らの状態を知らせるために、コールバック関数をコールし続ける。コールバック関数はユーザの定義した関数である。
ステップ435では、音声認識システム(101)が、アプリケーションが必要とする認識結果を入力する。認識結果は、たとえば音素、IDなどである。音声認識システム(101)が、認識結果を知らせるために、コールバック関数をコールし続ける。
ステップ436では、音声認識システム(101)が、音素列認識結果をフレーズという形で様々な情報(スペル、音素列、ID、スコアなど)を保持するために、所望のデータを取り出す。
ステップ437では、音声認識システム(101)が、処理を完了し、最初に戻る。
ステップ438では、音声認識システム(101)が、イベントをアプリケーションと共有する。
ステップ501では、音声認識システム(101)が、第1の音素列と第2の音素列を比較する。音素列同士の比較は、音声認識システムに依存するために一概には言えないが、たとえば、単純な方法として音素列中の音素を比較して一致する数を数える。代替的には、音素列同士の比較は例えば、図5Bに示す音素列同士を比較するAPIを使用して行われる。
ステップ502では、第1の音素列と第2の音素列が似ている場合(YES)、ステップ503に進む。一方、第1の音素列と第2の音素列が似ていない場合(NO)、ステップ505に進む。
第1の音素列と第2の音素列とが似ているかどうかは、下記の基準により判断される。
判断基準:音素列中の音素の一致度が、あらかじめ定義された閾値以上であるかそれよりも低いか。
ステップ503では、音声認識システム(101)が、音の揺らぎを判断する。音の揺らぎの情報は、言語ごとに音素列の変化として対応付けられており、該情報は記憶部に格納されている。例えば、日本語の場合、"o u" という音素列は、"o o:" という音素列へ変化する可能性が高いということが記録されている。音素列同士の揺らぎは例えば、言語ごとに用意された音の揺らぎの情報を使用して求められる。認識された単語又はフレーズが揺らぎのある可能性のある単語かどうかは、与えられた音素列中に、前記記憶部に格納された揺らぎの情報に音素列が部分的に含まれているかどうかを検索することによって、が判定される。
言語による揺らぎの特徴を考慮して音素列同士が似ていると判断された場合、その音素列を他の音素列のバリエーションとして登録する。
言語による揺らぎの特徴を考慮して音素列同士が似ていないと判断された場合(NO)、ステップ505に進む。一方、言語による揺らぎの特徴を考慮して音素列同士が似ていると判断された場合(YES)、ステップ504に進む。
ステップ505では、音声認識システム(101)は、第1の音素列に対応するコマンドが、第2の音素列に対応するコマンドと違うと判断する。
ステップ504では、音声認識システム(101)は、第1の音素列に対応するコマンドが、第2の音素列に対応するコマンドと同じであると判断する。よって、音声認識システム(101)は、第1の音素列を、第2の音素列に対応するコマンド又はアクションに関連付ける。従って、音声認識システム(101)は、第1の音素列によって、第2の音素列に対応するコマンドを実行することができる。
API esrCompareBaseformsは、音素列同士を比較するAPIの一例を示す。コンピュータ・システムは、本APIを用いて、閾値を用いて音素列が似ているかどうかが判断される。
API esrBaseformCompareInfoは、音素列同士の比較した結果が入る構造体の一例を示す。
コンピュータ・システム(601)は、CPU(602)とメイン・メモリ(603)とを含み、これらはバス(605)に接続されている。CPU(602)は好ましくは、32ビットまたは64ビットのアーキテクチャに基づくものであり、例えば、インテル社のXeon(商標)シリーズ、Core(商標)シリーズ、ATOM(商標)シリーズ、Pentium(商標)シリーズ、Celeron(商標)シリーズ、AMD社のPhenom(商標)シリーズ、Athlon(商標)シリーズなどを使用することができる。バス(605)には、音声の入出力を行うためのサウンド・ボード(604)が接続される。サウンド・ボード(604)には、必要に応じて、マイクロフォン又はスピーカが接続される。バス(605)には、ディスプレイ・コントローラ(606)を介して、LCDモニタなどのディスプレイ(607)が接続される。ディスプレイ(607)は、そのコンピュータ・システム(601)上で動作中のソフトウェアについての情報を、適当なグラフィック・インターフェースで表示するために使用される。バス(605)にはまた、IDE又はSATAコントローラ(608)を介して、ハードディスク又はシリコン・ディスク(609)と、CD−ROM、DVD又はBlu−rayドライブ(610)が接続されている。CD−ROM、DVD又はBlu−rayドライブ(610)は、必要に応じて、CD−ROM、DVD−ROM又はBDからプログラムをハードディスク又はシリコン・ディスク(609)に追加導入するために使用される。バス(605)には更に、キーボード・マウスコントローラ(611)を介して、或いはUSBコントローラ(図示せず)を介して、キーボード(612)及びマウス(613)が接続されている。
Claims (25)
- 発話入力の音声認識のためのコンピュータ・システムであって、
第1発話の入力に応答して、該入力された第1発話の音声が記憶部に登録された音声と一致するかどうかを判断する第1の判断部と、
前記入力された第1発話の音声が前記記憶部に登録された音声と一致しない場合に、第2発話の入力を要求する要求部と、
前記入力された第2発話の音声が前記記憶部に登録された音声と一致するかどうかを判断する第2の判断部と、
前記第2発話の音声が前記記憶部に登録された音声と一致する場合に、前記第2発話の音素列と前記第1発話の音素列とを比較する比較部と、
前記第2発話の音素列が前記第1発話の音素列と似ている場合に、前記第1発話の音声を前記第2発話に対応するコマンド又はアクションに関連付ける関連付け部と
を含む、前記コンピュータ・システム。 - 前記第2発話の音素列が前記第1発話の音素列と似ていることが、音素列中の音素の一致度に基づいて判断される、請求項1に記載のコンピュータ・システム。
- 前記第2発話の音素列が前記第1発話の音素列と似ている場合に、音声が一致したかどうかが、音の揺らぎ情報に基づいて判断される、請求項1に記載のコンピュータ・システム。
- 前記第2発話の音素列が前記第1発話の音素列と似ている場合に、前記第1発話の音素列を前記記憶部に登録するかどうかを判定する登録部をさらに含む、請求項1に記載のコンピュータ・システム。
- 前記登録部が、前記第1発話の音素列を前記記憶部に登録するかどうかを判定するポリシーを参照する、請求項4に記載のコンピュータ・システム。
- 前記ポリシーが、ノイズ比の高さ、単語又はフレーズの使用頻度、音素列の並びの少なくとも1つに基づく、請求項5に記載のコンピュータ・システム。
- 前記登録された発話の音素列を前記記憶部から削除するかどうかを判定する削除部をさらに含む、請求項4に記載のコンピュータ・システム。
- 前記第2発話の音素列が前記第1発話の音素列と似ていない場合に、前記第1発話の音声を前記第2発話に対応するコマンド又はアクションに関連付けるかどうかをユーザに問い合わせる問合部をさらに含む、請求項1に記載のコンピュータ・システム。
- 前記関連付け部が、前記ユーザによって前記関連付けを行う命令を受信することに応じて、前記第1発話の音声を前記第2発話に対応するコマンド又はアクションに関連付ける、請求項8に記載のコンピュータ・システム。
- 前記第2発話の音素列が前記第1発話の音素列と似ていない場合に、前記第1発話の音声に対して前記第2発話に対応するコマンド又はアクションを選択することを許す選択部をさらに含む、請求項1に記載のコンピュータ・システム。
- 前記選択を許すことが、音声コマンドのリストを提示することを含む、請求項10に記載のコンピュータ・システム。
- 前記第1発話の音声を前記第2発話に対応するコマンド又はアクションに関連付けることが、前記第1発話の音声を前記第2発話の音声のバリエーションとして登録することを含む、請求項1に記載のコンピュータ・システム。
- 前記入力された第2発話の音声が前記記憶部に登録された音声と一致しない場合に、第3発話の入力をさらに要求する第2の要求部と、
前記入力された第3発話の音声が前記記憶部に登録された音声と一致するかどうかを判断する第3の判断部と、
前記第3発話の音声が前記記憶部に登録された音声と一致する場合に、前記第3発話の音素列と前記第2発話の音素列とを比較する第2の比較部と、
前記第3発話の音素列が前記第2発話の音素列と似ている場合に、前記第2発話の音声を前記第3発話に対応するコマンド又はアクションに関連付ける第2の関連付け部と
をさらに含む、請求項1に記載のコンピュータ・システム。 - 前記第1の判断とともに、前記第1発話に対応する第1の音素列を生成する第1の生成部をさらに含む、請求項1に記載のコンピュータ・システム。
- 前記第1の判断部が、前記生成された第1の音素列が前記記憶部に登録された音素列と一致するかどうかをさらに判断する、請求項13に記載のコンピュータ・システム。
- 前記第2の判断とともに、前記第2発話に対応する第2の音素列を生成する第2の生成部をさらに含む、請求項1に記載のコンピュータ・システム。
- 前記第2の判断部が、前記生成された第2の音素列が前記記憶部に登録された音素列と一致するかどうかをさらに判断する、請求項15に記載のコンピュータ・システム。
- 前記入力された第1発話の音声又は前記入力された第2発話の音声が前記記憶部に登録された音声と一致するかどうかが、音素列中の音素の一致度に基づいて判断される、請求項1に記載のコンピュータ・システム。
- 前記入力された第1発話の音声が前記記憶部に登録された音声と一致しない場合に、該第1発話の音声を記録部に格納する記録部をさらに含む、請求項1に記載のコンピュータ・システム。
- 前記入力された第1発話の音声が前記記憶部に登録された音声と一致する場合に、前記第1発話に対応するアクションを実行する実行部をさらに含む、請求項1に記載のコンピュータ・システム。
- 前記入力された第2発話の音声が前記記憶部に登録された音声と一致する場合に、前記第2発話に対応するアクションを実行する第2の実行部をさらに含む、請求項1に記載のコンピュータ・システム。
- 前記第1発話が第1の音声コマンドであり、前記第2発話が第2の音声コマンドである、請求項1に記載のコンピュータ・システム。
- 発話入力の音声認識のための方法であって、
第1発話の入力に応答して、該入力された第1発話の音声が記憶部に登録された音声と一致するかどうかを判断するステップと、
前記入力された第1発話の音声が前記記憶部に登録された音声と一致しない場合に、第2発話の入力を要求するステップと、
前記入力された第2発話の音声が前記記憶部に登録された音声と一致するかどうかを判断するステップと、
前記第2発話の音声が前記記憶部に登録された音声と一致する場合に、前記第2発話の音素列と前記第1発話の音素列とを比較するステップと、
前記第2発話の音素列が前記第1発話の音素列と似ている場合に、前記第1発話の音声を前記第2発話に対応するコマンド又はアクションに関連付けるステップと
を含む、前記方法。 - 発話入力の音声認識のための方法であって、
第1発話の入力に応答して、該入力された第1発話の音声が記憶部に登録された音声と一致するかどうかを判断するステップと、
前記入力された第1発話の音声が前記記憶部に登録された音声と一致する場合に、前記第1発話に対応するアクションを実行するステップと、
前記入力された第1発話の音声が前記記憶部に登録された音声と一致しない場合に、第2発話の入力を要求するステップと、
前記入力された第2発話の音声が前記記憶部に登録された音声と一致するかどうかを判断するステップと、
前記第2発話の音声が前記記憶部に登録された音声と一致する場合に、前記第2発話の音素列と前記第1発話の音素列とを比較するステップと、
前記第2発話の音素列が前記第1発話の音素列と似ている場合に、前記第1発話の音声を前記第2発話に対応するコマンド又はアクションに関連付けるステップと、
前記第2発話の音素列が前記第1発話の音素列と似ていない場合に、前記第1発話の音声を前記第2発話に対応するコマンド又はアクションに関連付けるかどうかをユーザに問い合わせるステップと、
前記第2発話の音声が前記記憶部に登録された音声と一致しない場合に、
第3発話の入力をさらに要求するステップと、
前記入力された第3発話の音声が前記記憶部に登録された音声と一致するかどうかを判断するステップと、
前記第3発話の音声が前記記憶部に登録された音声と一致する場合に、前記第3発話の音素列と前記第2発話の音素列とを比較するステップと、
前記第3発話の音素列が前記第2発話の音素列と似ている場合に、前記第2発話の音声を前記第3発話に対応するコマンド又はアクションに関連付けるステップと
を含む、前記方法。 - 発話入力の音声認識のためのコンピュータ・プログラムであって、コンピュータ・システムに請求項23又は24のいずれかに記載の方法の各ステップを実行させることを含む、前記コンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008236872A JP5263875B2 (ja) | 2008-09-16 | 2008-09-16 | 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008236872A JP5263875B2 (ja) | 2008-09-16 | 2008-09-16 | 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010072098A true JP2010072098A (ja) | 2010-04-02 |
JP5263875B2 JP5263875B2 (ja) | 2013-08-14 |
Family
ID=42203972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008236872A Expired - Fee Related JP5263875B2 (ja) | 2008-09-16 | 2008-09-16 | 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5263875B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012194337A (ja) * | 2011-03-16 | 2012-10-11 | Toshiba Corp | 自動音声応答装置、音声応答処理システム及び自動音声応答方法 |
JP2012226299A (ja) * | 2011-04-14 | 2012-11-15 | Hyundai Motor Co Ltd | 音声命令語処理装置及びその方法 |
US8913744B2 (en) | 2010-12-08 | 2014-12-16 | Nuance Communications, Inc. | Filtering confidential information in voice and image data |
JP2015230384A (ja) * | 2014-06-05 | 2015-12-21 | クラリオン株式会社 | 意図推定装置、及び、モデルの学習方法 |
JP2018180260A (ja) * | 2017-04-12 | 2018-11-15 | トヨタ自動車株式会社 | 音声認識装置 |
JP2019194733A (ja) * | 2015-09-03 | 2019-11-07 | グーグル エルエルシー | 強化された発話エンドポイント指定のための方法、システム、およびコンピュータ可読記憶媒体 |
CN111554298A (zh) * | 2020-05-18 | 2020-08-18 | 北京百度网讯科技有限公司 | 语音交互方法、语音交互设备和电子设备 |
JP2022003408A (ja) * | 2017-10-03 | 2022-01-11 | グーグル エルエルシーGoogle LLC | アシスタントアプリケーションのための音声ユーザインタフェースショートカット |
JP7489928B2 (ja) | 2021-02-04 | 2024-05-24 | Toa株式会社 | 音声により機器を操作するための情報処理装置、システム、機器制御装置、およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004029354A (ja) * | 2002-06-25 | 2004-01-29 | Toshiba Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2007213005A (ja) * | 2006-01-10 | 2007-08-23 | Nissan Motor Co Ltd | 認識辞書システムおよびその更新方法 |
-
2008
- 2008-09-16 JP JP2008236872A patent/JP5263875B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004029354A (ja) * | 2002-06-25 | 2004-01-29 | Toshiba Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2007213005A (ja) * | 2006-01-10 | 2007-08-23 | Nissan Motor Co Ltd | 認識辞書システムおよびその更新方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8913744B2 (en) | 2010-12-08 | 2014-12-16 | Nuance Communications, Inc. | Filtering confidential information in voice and image data |
US9330267B2 (en) | 2010-12-08 | 2016-05-03 | Nuance Communications, Inc. | Filtering confidential information in voice and image data |
JP2012194337A (ja) * | 2011-03-16 | 2012-10-11 | Toshiba Corp | 自動音声応答装置、音声応答処理システム及び自動音声応答方法 |
JP2012226299A (ja) * | 2011-04-14 | 2012-11-15 | Hyundai Motor Co Ltd | 音声命令語処理装置及びその方法 |
JP2015230384A (ja) * | 2014-06-05 | 2015-12-21 | クラリオン株式会社 | 意図推定装置、及び、モデルの学習方法 |
CN112735422A (zh) * | 2015-09-03 | 2021-04-30 | 谷歌有限责任公司 | 增强型语音端点确定 |
JP2019194733A (ja) * | 2015-09-03 | 2019-11-07 | グーグル エルエルシー | 強化された発話エンドポイント指定のための方法、システム、およびコンピュータ可読記憶媒体 |
JP7359886B2 (ja) | 2015-09-03 | 2023-10-11 | グーグル エルエルシー | 強化された発話エンドポイント指定のための方法、システム、およびコンピュータ可読記憶媒体 |
US11996085B2 (en) | 2015-09-03 | 2024-05-28 | Google Llc | Enhanced speech endpointing |
JP2018180260A (ja) * | 2017-04-12 | 2018-11-15 | トヨタ自動車株式会社 | 音声認識装置 |
JP2022003408A (ja) * | 2017-10-03 | 2022-01-11 | グーグル エルエルシーGoogle LLC | アシスタントアプリケーションのための音声ユーザインタフェースショートカット |
JP7297836B2 (ja) | 2017-10-03 | 2023-06-26 | グーグル エルエルシー | アシスタントアプリケーションのための音声ユーザインタフェースショートカット |
CN111554298A (zh) * | 2020-05-18 | 2020-08-18 | 北京百度网讯科技有限公司 | 语音交互方法、语音交互设备和电子设备 |
JP2021099534A (ja) * | 2020-05-18 | 2021-07-01 | 北京百度網訊科技有限公司 | 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品 |
CN111554298B (zh) * | 2020-05-18 | 2023-03-28 | 阿波罗智联(北京)科技有限公司 | 语音交互方法、语音交互设备和电子设备 |
JP7257434B2 (ja) | 2020-05-18 | 2023-04-13 | 阿波▲羅▼智▲聯▼(北京)科技有限公司 | 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品 |
JP7489928B2 (ja) | 2021-02-04 | 2024-05-24 | Toa株式会社 | 音声により機器を操作するための情報処理装置、システム、機器制御装置、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5263875B2 (ja) | 2013-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5263875B2 (ja) | 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
US11437041B1 (en) | Speech interface device with caching component | |
US6308151B1 (en) | Method and system using a speech recognition system to dictate a body of text in response to an available body of text | |
US6801897B2 (en) | Method of providing concise forms of natural commands | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US7624018B2 (en) | Speech recognition using categories and speech prefixing | |
US20070239453A1 (en) | Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances | |
US20070239454A1 (en) | Personalizing a context-free grammar using a dictation language model | |
JP2003308087A (ja) | 文法更新システム及び方法 | |
KR20220004224A (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
JP2007213005A (ja) | 認識辞書システムおよびその更新方法 | |
US6591236B2 (en) | Method and system for determining available and alternative speech commands | |
JPH07219961A (ja) | 音声対話システム | |
JP2001188777A (ja) | 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法 | |
JP2002511154A (ja) | ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN112927683A (zh) | 用于语音使能设备的动态唤醒词 | |
JP6275354B1 (ja) | 意図推定装置及び意図推定方法 | |
JP4236597B2 (ja) | 音声認識装置、音声認識プログラムおよび記録媒体。 | |
JP2010048953A (ja) | 対話文生成装置 | |
JP2006189730A (ja) | 音声対話方法および音声対話装置 | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP2006208486A (ja) | 音声入力装置 | |
JP2010009446A (ja) | 音声ファイルの検索システム、方法及びプログラム | |
JP3795409B2 (ja) | 音声認識装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110817 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130225 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130410 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20130410 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130425 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5263875 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |