JP2013134430A

JP2013134430A - コマンド処理装置、方法、及びプログラム

Info

Publication number: JP2013134430A
Application number: JP2011285897A
Authority: JP
Inventors: Seisho Watabe; 生聖渡部
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2013-07-08

Abstract

【課題】ユーザが簡便に音声による命令を行えるコマンド処理装置、方法、及びプログラムを提供すること。
【解決手段】本発明にかかるコマンド処理装置１は、音声によるコマンドを処理する。コマンド処理装置１は、音声認識部１１と、自立語抽出部１２と、類似コマンド群生成部１３と、類似自立語オントロジー１４と、認識タスクＤＢ１５と、自立語抽出部１６と、一致率算出部１７と、コマンド候補生成部１８と、表示部１９と、を備える。自立語抽出部１２は、ユーザの音声に含まれる自立語を抽出する。類似コマンド群生成部１３は、類似自立語オントロジー１４を参照して、抽出された自立語の意味と類似する意味を持つ自立語が含まれる類似コマンドを生成する。コマンド候補生成部１８は、生成された類似コマンドと、コマンド処理装置１が認識可能な認識コマンドと、に基づいて、実行するコマンドの候補を生成する。
【選択図】図１

Description

本発明はコマンド処理装置、方法、及びプログラムに関し、特に音声コマンドが入力されるコマンド処理装置、方法、及びプログラムに関する。

近年、サポートロボットやカーナビゲーション等の音声によりコマンド（命令）を入力する装置が普及している。このような装置は、入力された音声コマンドを解析して、装置自身が認識可能なコマンドを特定する。そして、装置は、特定したコマンドに対応する処理を実行する。

特許文献１には、検索キーワードを拡張させて情報を検索する情報検索装置が開示されている。情報検索装置は、ユーザから入力されたデータから検索キーワードを抽出し、抽出したキーワードに類似するキーワードをリスト化する。そして、情報検索装置は、ユーザから入力されたキーワードとリスト化したキーワードとの置換の正当性を評価し、評価結果に基づいて、リスト化したキーワードから情報を検索する。

特開２００８−２３４５１９号公報

しかしながら、サポートロボット等の装置は、認識可能なコマンド以外のコマンドは処理できない。そのため、音声によるコマンド入力においては、ユーザは、装置自身が認識可能なコマンドを発話する必要がある。つまり、ユーザが装置に命令する際には、ユーザは、自然な話し言葉ではなく、装置が認識可能なコマンド単位で発話する必要がある。したがって、ユーザは、装置への命令のために不自然な発話をしなければならず、装置に対する命令が煩わしいという問題があった。

なお、特許文献１に記載の情報検索装置においても、情報検索装置が認識可能な検索キーワードを含むデータを入力しなければならず、検索キーワードとして認識できない話し言葉でのデータが入力された場合の対策については、開示も示唆もされていない。

本発明は、このような問題を解決するためになされたものであり、ユーザが簡便に音声による命令を行えるコマンド処理装置、方法、及びプログラムを提供することを目的としている。

本発明の一態様にかかるコマンド処理装置は、音声によるコマンドを処理するコマンド処理装置であって、ユーザの音声を認識する音声認識手段と、前記ユーザの音声に含まれる自立語を抽出する第１の自立語抽出手段と、意味が類似する複数の自立語が予め格納された第１の記憶手段と、前記コマンド処理装置が認識可能な認識コマンドが予め格納された第２の記憶手段と、前記第１の記憶手段を参照して、抽出された前記自立語の意味と類似する意味を持つ自立語が含まれる類似コマンドを生成する類似コマンド生成手段と、生成された前記類似コマンドと、前記第２の記憶手段に格納された前記認識コマンドと、に基づいて、実行するコマンドの候補を生成するコマンド候補生成手段と、を備えるものである。これにより、ユーザの自然な話し言葉を類似コマンドとして拡張させ、認識可能なコマンドに変換する。このため、ユーザの自然な話し言葉をコマンド処理装置が認識することができる。その結果、ユーザは話し言葉によって簡便に命令を行うことができる。

また、前記第１の記憶手段に格納された前記自立語には、当該自立語と類似する意味を持つ他の自立語に対する類似の程度を示す類似度が設定されており、前記コマンド候補生成手段は、前記類似コマンドに含まれる前記自立語の前記類似度に基づいて、実行する前記コマンドの候補を生成されていてもよい。これにより、類似する度合いに応じて、コマンド候補を生成できるため、より精度の高いコマンド候補を生成できる。

また、前記類似コマンド生成手段は、前記類似コマンドに含まれる複数の前記自立語の語順を入れ替え、前記コマンド候補生成手段は、前記語順の変化に基づいて、実行する前記コマンドの候補を生成してもよい。これにより、語順変化に基づく命令内容の変化に対してペナルティを与えることができる。

また、前記類似コマンド生成手段は、前記第１の自立語抽出手段により抽出された複数の前記自立語の一部を用いずに、前記類似コマンドを生成してもよい。これにより、認識コマンドに含まれない自立語を省略できるため、コマンド候補の生成処理の負担が軽減する。

また、前記第１の記憶手段に格納された前記自立語の前記類似度に基づいて、前記類似コマンドと、前記認識コマンドと、の一致率を算出する一致率算出手段をさらに備え、前記コマンド候補生成手段は、前記一致率算出手段により算出された前記一致率に基づいて、実行する前記コマンドの候補を生成してもよい。これにより、類似コマンドにより似ている認識コマンドを用いてコマンド候補を生成できる。

また、前記コマンド候補生成手段により生成された複数のコマンドの候補を、前記一致率に応じて前記ユーザに報知する報知手段をさらに備えてもよい。これにより、ユーザはより一致率の高いコマンド候補を容易に特定できる。

また、前記第２の記憶手段には、前記認識コマンドを含む文章データが格納されており、前記第２の記憶手段に格納された前記文章データに含まれる自立語を前記認識コマンドとして抽出する第２の自立語抽出手段をさらに備えてもよい。これにより、第２の記憶手段に格納されている認識コマンドが文章として格納されている場合であっても、本発明を適用できる。

本発明の一態様にかかるコマンド処理方法は、音声によるコマンドを処理するコマンド処理方法であって、ユーザの音声を認識するステップと、前記ユーザの音声に含まれる自立語を抽出するステップと、意味が類似する複数の自立語が予め格納された第１の記憶手段を参照して、抽出された前記自立語の意味と類似する意味の自立語が含まれる類似コマンドを生成するステップと、生成された前記類似コマンドと、前記コマンド処理装置が認識可能な認識コマンドと、に基づいて、実行するコマンドの候補を生成するステップと、を備えるものである。これにより、ユーザの自然な話し言葉を類似コマンドとして拡張させ、認識可能なコマンドに変換する。このため、ユーザの自然な話し言葉をコマンド処理装置が認識することができる。その結果、ユーザは話し言葉によって簡便に命令を行うことができる。

本発明の一態様にかかるコマンド処理プログラムは、音声によるコマンドを処理するコマンド処理プログラムであって、コンピュータに対して、ユーザの音声を認識させるステップと、前記ユーザの音声に含まれる自立語を抽出させるステップと、意味が類似する複数の自立語が予め格納された第１の記憶手段を参照させ、抽出させた前記自立語の意味と類似する意味の自立語が含まれる類似コマンドを生成させるステップと、生成させた前記類似コマンドと、前記コマンド処理装置が認識可能な認識コマンドと、に基づいて、実行するコマンドの候補を生成させるステップと、を備えるものである。これにより、ユーザの自然な話し言葉を類似コマンドとして拡張させ、認識可能なコマンドに変換する。このため、ユーザの自然な話し言葉をコマンド処理装置が認識することができる。その結果、ユーザは話し言葉によって簡便に命令を行うことができる。

本発明により、ユーザが簡便に音声による命令を行えるコマンド処理装置、方法、及びプログラムを提供することができる。

実施の形態にかかるコマンド処理装置のブロック図である。実施の形態にかかるコマンド処理装置の動作を説明するための図である。実施の形態にかかるコマンド処理装置の動作を説明するための図である。

以下、図面を参照して本発明の実施の形態について説明する。本実施の形態にかかるコマンド処理装置１のブロック図を図１に示す。コマンド処理装置１は、音声認識部１１と、自立語抽出部１２と、類似コマンド群生成部１３と、類似自立語オントロジー１４と、認識タスクＤＢ（Database）と、一致率算出部１７と、コマンド候補生成部１８と、表示部１９と、を備える。コマンド処理装置１は、ユーザの音声による命令（コマンド）を受けて、当該命令に対応するタスクを実行するパートナーロボットや当該パートナーロボットを遠隔操作するための携帯端末等に設けられる。

音声認識部１１は、図示しないマイクユニットから入力されたユーザの音声を認識する。音声認識部１１は、入力された音声を認識し、音声認識結果（例えばテキストデータ）を出力する。なお、音声認識処理は、従来の手法を用いることができるため、詳細な説明は省略する。

自立語抽出部１２（第１の自立語抽出手段）は、音声認識部１１が認識した音声認識結果のデータから自立語を抽出する。本実施の形態においては、自立語とは、動詞、名詞、形容詞、及び指示代名詞のことを意味するが、勿論これらに限られるものではない。なお、自立語抽出処理は、例えば形態素解析等の従来の手法を用いることができる。そのため、自立語抽出処理の詳細な説明は省略する。

類似コマンド群生成部１３は、自立語抽出部１２により抽出された自立語の意味と類似する意味を持つ自立語が含まれるコマンド（以下、類似コマンドと称す）を生成する。より詳細には、類似コマンド群生成部１３は、類似自立語オントロジー１４に格納された自立語を用いて、抽出された自立語を、当該自立語と意味が類似する自立語に置き換えたり、自立語の語順を入れ替えたりすることにより、類似コマンドを生成する。

類似自立語オントロジー１４（第１の記憶手段）は、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）であり、意味が類似する複数の自立語を予め格納しているデータベースである。具体的には、ある自立語と当該自立語に意味が類似する自立語とが対応づけられて格納されている。そして、それぞれの自立語には、対応付けられた（意味が類似する）他の自立語に対する類似度が設定されている。類似度とは、意味が類似する２つの自立語がどの程度似ているかを示す値である。類似度は、類似自立語オントロジー１４の作成時に各自立語に対して設定してもよいし、ユーザの命令等に基づいてコマンド処理装置１が学習することにより設定してもよい。

認識タスクＤＢ１５（第２の記憶手段）は、例えばＲＡＭやＲＯＭであり、コマンド処理装置１が認識可能なコマンド（以下、認識コマンドと称す）を予め格納しているデータベースである。認識コマンドとは、言い換えると、コマンド処理装置１が実行可能なタスクに対応するコマンドである。なお、認識タスクＤＢ１５に格納されているデータの形式は、文章単位でもよいし、自立語単位でもよい。

自立語抽出部１６（第２の自立語抽出手段）は、上述した自立語抽出部１２と同様の構成であるため、説明を省略する。ただし、自立語抽出部１６は、認識タスクＤＢ１５に格納された文書単位の認識コマンドに含まれる自立語を抽出する。

一致率算出部１７は、類似コマンド及び認識コマンドに基づいて、類似コマンドと認識コマンドとの一致率を算出する。一致率は、類似コマンドが認識コマンドとして認識タスクＤＢ１５に登録されているか否か及び類似コマンドに含まれる自立語の類似度等に基づいて算出される。一致率の算出方法の詳細については後述する。

コマンド候補生成部１８は、類似コマンドと認識コマンドとに基づいて、コマンド処理装置１が実行するコマンドの候補を生成する。より詳細には、コマンド候補生成部１８は、類似コマンドと認識コマンドとに基づいて算出された一致率を参照して、コマンド候補を生成する。

表示部１９は、例えば、有機ＥＬ（Electro Luminescence）ディスプレイやＬＣＤ（Liquid Crystal Display）であり、コマンド候補生成部１８により生成されたコマンド候補をユーザに対して表示する。勿論、コマンド候補のユーザへの報知は、画面表示に限られず、音による報知であってもよい。

続いて、本実施の形態にかかるコマンド処理装置１の動作例について説明する。以下の説明では、例として、ユーザがキッチンにいるロボットに対して音声による命令を行い、ロボットを遠隔操作する状況について説明する。

まず、ユーザは、マイクロフォンがついた携帯端末に対して「そのボトルを運んで」と発話（命令）する。携帯端末は、ユーザからの音声データをコマンド処理装置１に送信する。

音声認識部１１は、受信した音声データ「そのボトルを運んで」に対して音声認識処理を行い、音声認識結果（例えばテキストデータ）を自立語抽出部１２に出力する。自立語抽出部１２は、音声認識結果に含まれる自立語を抽出する。つまり、自立語抽出部１２は、「その」、「ボトル」及び「運ぶ」の３つの自立語を抽出する（図２の自立語抽出結果９１を参照）。なお、自立語抽出処理においては、音声認識結果に含まれる動詞の活用形を終止形に直した状態で自立語が抽出される。自立語抽出部１２は、抽出した自立語を類似コマンド群生成部１３に出力する。

類似コマンド群生成部１３は、類似自立語オントロジー１４を参照して、自立語抽出部１２により抽出された自立語「その」、「ボトル」及び「運ぶ」に意味が類似する自立語を含む類似コマンドを生成する。

類似自立語オントロジー１４には、図２の類似自立語リスト９２に示すように、「その」に類似する複数の自立語（例えば「あの」や「目の前の」）が対応付けられて格納されている。加えて、各自立語には、当該自立語と類似する意味を持つ他の自立語に対する類似度が設定されている。図２の例においては、自立語「その」に対する自立語「あの」の類似度は０．９であり、自立語「その」に対する自立語「目の前の」の類似度は０．８である。なお、類似度の最大値は１．０とする。

同様に、自立語「ボトル」には、「ボトル」に意味が類似する自立語「ビン」や「ペットボトル」、「ワイン」等が対応付けられている。また、自立語「運ぶ」には、「運ぶ」に意味が類似する「運搬」や「配達」等が対応付けられている。そして、それぞれの自立語には、「ボトル」や「運ぶ」に対する類似度が設定されている。勿論、図２に示した内容は、類似自立語オントロジー１４に格納された自立語の一部であり、上記以外の様々な類似する自立語が対応付けられて格納されている。

類似コマンド群生成部１３は、抽出された自立語「その」、「ボトル」及び「運ぶ」の一部または全部の自立語を類似する自立語に置き換えたり、抽出された自立語の語順を入れ替えたりして、類似コマンドを全パターン生成する。例えば、類似コマンド群生成部１３は、「ボトル」を「ビン」に置き換えて、「その」、「ビン」及び「運ぶ」を含む類似コマンドを生成する（図２の類似コマンド群９３参照）。

また、類似コマンド群生成部１３は、自立語抽出部１２により抽出された自立語の一部を省略して、類似コマンドを生成する。言い換えると、類似コマンド群生成部１３は、自立語抽出部１２により抽出された自立語の一部を用いずに、類似コマンドを生成する。具体的には、類似コマンド群生成部１３は、抽出された自立語「その」を省略し、「ボトル」及び「運ぶ」からなる類似コマンドを生成する（図２の類似コマンド群９３参照）。類似コマンド群生成部１３は、生成した類似コマンド群９３を一致率算出部１７に出力する。

一致率算出部１７は、類似コマンド群９３と、認識タスクＤＢ１５に格納されている認識コマンドと、に基づいて、類似コマンドと認識コマンドとの一致率を算出する。認識タスクＤＢ１５には、コマンド処理装置１が実行可能なタスクに対応する認識コマンドが格納されている。例えば、図３の認識コマンドリスト９４に示すように、「運搬」、「ワイン」及び「赤」からなる認識コマンドや、「運搬」及び「リンゴ」からなる認識コマンドが格納されている。

自立語抽出部１６は、認識タスクＤＢ１５に格納されている認識コマンドに含まれる自立語を抽出する。つまり、認識コマンドが、図３の認識コマンドリスト９４のように自立語単位ではなく、文章単位で格納されている場合に、自立語抽出部１６は、当該文章単位の認識コマンドに含まれる自立語を抽出する。このため、認識タスクＤＢ１５に格納される認識コマンドの格納態様が自立語単位のみではなく、文章単位でも適用可能となるため、コマンド処理装置１の汎用性が向上する。

一致率算出部１７は、下記の式（１）を用いてユーザの命令と認識コマンドとの一致率を算出する。なお、ｒは一致率、ｗｏｒｄ_Ｎは認識コマンドに含まれる自立語数、ｗｏｒｄ_ｍは類似コマンドのｍ番目の自立語、ｗｅｉｇｈｔ（ｍ）は類似コマンドのｍ番目の自立語の類似度、Ｋは語順変化に対する補正係数である。また、関数ｅｘｉｓｔ（ｗｏｒｄ_ｍ）は、ｗｏｒｄ_ｍが認識コマンドのｍ番目の自立語と一致する場合は１、存在しない場合は０を出力する関数である。

一致率算出方法について詳細に説明する。例えば、ユーザが「そのボトルを運んで」と命令した場合において、「運搬」「ワイン」「赤」から構成される認識コマンドと、類似コマンドとの一致率の算出について説明する。なお、比較対象となる類似コマンドとしては例として、（ａ）「その」「ワイン」「運ぶ」、（ｂ）「その」「ワイン」「運搬」、（ｃ）「運搬」「その」「ワイン」、（ｄ）「運搬」「ワイン」の４パターンとする。また、図２に示すように、自立語「ボトル」に対する自立語「ワイン」の類似度は０．８、自立語「運ぶ」に対する自立語「運搬」の類似度は１．０とする。

類似コマンドが（ａ）「その」「ワイン」「運ぶ」の場合、一致率ｒは、下記の式（２）のように算出される。このとき、類似コマンドに含まれる自立語のうち、認識コマンドの自立語と一致する自立語は、２番目の「ワイン」だけである。つまり、関数ｅｘｉｓｔ（ｗｏｒｄ_ｍ）が１になるのは自立語「ワイン」のみであり、その他の自立語における関数ｅｘｉｓｔ（ｗｏｒｄ_ｍ）は０となる。なお、パターン（ａ）の例では、自立語抽出部１２により抽出された自立語の語順（「その」「ボトル」「運ぶ」）と、類似コマンドに含まれる自立語の語順（「その」「ワイン」「運ぶ」）との間で、語順の入れ替えはないため、補正係数Ｋは０となる。

類似コマンドが（ｂ）「その」「ワイン」「運搬」の場合、一致率は、下記の式（３）のように算出される。このとき、類似コマンドに含まれる自立語のうち、認識コマンドの自立語と一致する自立語は、２番目の「ワイン」のみである。つまり、関数ｅｘｉｓｔ（ｗｏｒｄ_ｍ）が１になるのは自立語「ワイン」のみである。なお、自立語「運搬」は、類似コマンド及び認識コマンドの双方に含まれるが、類似コマンドでは３番目に位置し、認識コマンドでは１番目に位置しており、自立語の位置（順番）が異なる。そのため、「運搬」については、一致していないものとして扱う。パターン（ｂ）も、パターン（ａ）と同様に、語順の入れ替えはないため、補正係数Ｋは０となる。

類似コマンドが（ｃ）「運搬」「その」「ワイン」の場合、一致率は、下記の式（４）のように算出される。このとき、関数ｅｘｉｓｔ（ｗｏｒｄ_ｍ）が１になるのは自立語「運搬」のみである。なお、パターン（ｃ）では、自立語抽出部１２により抽出された自立語の語順（「その」「ボトル」「運ぶ」）と、類似コマンドに含まれる自立語の語順（「運搬」「その」「ワイン」）との間で、語順の入れ替えがある。したがって、補正係数Ｋは、例えば−０．１となる。

つまり、コマンド処理装置１は、語順の入れ替えを一致率におけるペナルティとして扱う。なぜならば、ユーザからの音声によるコマンドと類似コマンドとの間で語順の入れ替えが行われると、ユーザからの音声コマンドとは異なる意味（処理）を示すコマンドとなり得るからである。例えば、ユーザによる音声のコマンドが「りんごを買って冷蔵庫にしまって」の場合、自立語抽出部１２において抽出される自立語は「リンゴ」「購入」「冷蔵庫」「保存」という語順で抽出される。しかし、語順を入れ替えて、「冷蔵庫」「購入」「リンゴ」「保存」という語順になってしまうと、ユーザが意図した命令と異なる内容の類似コマンドが生成されてしまう。そのため、自立語抽出部１２において抽出された自立語の語順を変更する場合には上記のようなペナルティが課される。

類似コマンドが（ｄ）「運搬」「ワイン」の場合、一致率は、下記の式（５）のように算出される。このとき、関数ｅｘｉｓｔ（ｗｏｒｄ_ｍ）が１になるのは自立語「ワイン」及び「運搬」である。なお、パターン（ｄ）では、パターン（ｃ）と同様に語順の入れ替えがある。したがって、補正係数Ｋは、例えば−０．１となる。

なお、認識タスクＤＢ１５の認識コマンドには、「その」等の指示代名詞が含まれている場合が少ない。そのため、類似コマンドに含まれる「その」等の存在が一致率を低下させる原因となる場合もある。上記の式（４）及び（５）から明らかなように、敢えて「その」の自立語を省略することによって、より認識コマンドに近い類似コマンドを生成でき、一致率が向上する場合もある。

このように、一致率算出部１７は、各認識コマンドに対して、類似コマンド群９３の各類似コマンドとの一致率を算出する。つまり、１つの認識コマンドに対して、類似コマンド群９３の全パターンとの一致率を算出する。例えば、認識コマンドリスト９４に含まれる認識コマンドが１０パターンあり、類似コマンド群９３に含まれる類似コマンドが２０パターンある場合、一致率算出部１７は、１０×２０＝２００通りの一致率を算出する。一致率算出部１７は、算出した一致率及び当該一致率に対応する認識コマンドをコマンド候補生成部１８に出力する。

コマンド候補生成部１８は、入力された複数の一致率のうち、上位の一致率の認識コマンドをコマンド候補として選択する。そして、表示部１９は、コマンド候補生成部１８によりコマンド候補として選択されたコマンドを表示する。図３では、表示部１９は、上位５つのコマンド候補を表示している（図３の表示画面９５参照）。具体的には、類似コマンド群の全パターンとの比較において、一致率が一番高い認識コマンドが「運搬」「ワイン」「赤」である。それに続いて、２位が「運搬」「ワイン」「白」、３位が「運搬」「ワイン」「グラス」、４位が「運搬」「りんご」、５位が「運搬」「メロン」である。なお、表示部１９の最上段の表示は、音声認識部１１により認識されたユーザの音声コマンドである。つまり、表示部１９は、音声コマンド「そのボトルを運んで」に対応する上位のコマンド候補は、「運搬」「ワイン」「赤」、「運搬」「ワイン」「白」、「運搬」「ワイン」「グラス」、「運搬」「りんご」及び「運搬」「メロン」である旨を示している。

ユーザは、表示部１９に表示されたコマンド候補の中に、自らが発話した命令に対応するコマンドが含まれている場合、当該コマンドを選択する。これにより、ロボットは、当該コマンドを実行する。なお、ユーザがコマンド候補に含まれるコマンドを再度音声により命令し、一致率が１．０の場合に、ロボットが当該コマンドを実行するようにしてもよい。

以上のように、本実施の形態にかかるコマンド処理装置１の構成によれば、音声認識部１１が、ユーザの音声コマンドを認識する。自立語抽出部１２は、ユーザの音声コマンドに含まれる自立語を抽出する。類似コマンド群生成部１３では、抽出された自立語と意味が類似する自立語を含む類似コマンドが生成される。つまり、類似コマンド群生成部１３は、ユーザが発話した音声に含まれる自立語と類似する自立語が含まれる類似コマンドを生成することにより、ユーザが発話した音声コマンドよりも認識コマンドに近いコマンドを生成する。言い換えると、ユーザの自然な話し言葉を類似コマンドとして拡張させ、コマンド処理装置１が認識可能なコマンドに変換する。そして、コマンド候補生成部１８が、類似コマンド及び認識コマンドに基づいて、コマンド候補を生成する。このため、ユーザがコマンド処理装置１の認識コマンドの自立語及び語順に合わせて命令を発話する必要がない。その結果、ユーザは、ロボットに対して簡便に音声による命令をすることができる。

さらに、類似自立語オントロジー１４においては、類似する自立語がどの程度似ているかを示す類似度が設定されている。そのため、類似コマンドと認識コマンドとの一致率を高精度で算出でき、最適なコマンド候補を提示することができる。

さらに、上述したコマンド処理は、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、若しくはＣＰＵ（Central Processing Unit）又はこれらの組み合わせを含むコンピュータにプログラムを実行させることによって実現してもよい。

上述の例において、コマンド処理をコンピュータに行わせるための命令群を含むプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更及び組み合わせをすることが可能である。例えば、コマンド候補生成部１８は、一致率以外の基準に基づいて、コマンド候補を生成してもよい。例えば、類似コマンドと認識コマンドとの完全一致のみをコマンド候補としてもよいし、類似コマンドに含まれる複数の自立語のうち、コマンドとして認識される自立語の個数に応じて、コマンド候補を生成してもよい。

また、上述の式（１）では、一致率算出において補正係数Ｋを加算することにより、語順変化に対するペナルティを与えているが、これに限られるものではない。例えば、語順変化に応じた係数（０〜１の値）を一致率ｒに乗算することにより、ペナルティを与えてもよい。

１コマンド処理装置
１１音声認識部
１２自立語抽出部
１３類似コマンド生成部
１４類似自立語オントロジー
１５認識タスクＤＢ
１６自立語抽出部
１７一致率算出部
１８コマンド候補生成部
１９表示部
９１自立語抽出結果
９２類似自立語リスト
９３類似コマンド群
９４認識コマンドリスト
９５表示画面

Claims

音声によるコマンドを処理するコマンド処理装置であって、
ユーザの音声を認識する音声認識手段と、
前記ユーザの音声に含まれる自立語を抽出する第１の自立語抽出手段と、
意味が類似する複数の自立語が予め格納された第１の記憶手段と、
前記コマンド処理装置が認識可能な認識コマンドが予め格納された第２の記憶手段と、
前記第１の記憶手段を参照して、抽出された前記自立語の意味と類似する意味を持つ自立語が含まれる類似コマンドを生成する類似コマンド生成手段と、
生成された前記類似コマンドと、前記第２の記憶手段に格納された前記認識コマンドと、に基づいて、実行するコマンドの候補を生成するコマンド候補生成手段と、
を備えるコマンド処理装置。
前記第１の記憶手段に格納された前記自立語には、当該自立語と類似する意味を持つ他の自立語に対する類似の程度を示す類似度が設定されており、
前記コマンド候補生成手段は、前記類似コマンドに含まれる前記自立語の前記類似度に基づいて、実行する前記コマンドの候補を生成する請求項１に記載のコマンド処理装置。
前記類似コマンド生成手段は、前記類似コマンドに含まれる複数の前記自立語の語順を入れ替え、
前記コマンド候補生成手段は、前記語順の変化に基づいて、実行する前記コマンドの候補を生成する請求項１または２に記載のコマンド処理装置。
前記類似コマンド生成手段は、前記第１の自立語抽出手段により抽出された複数の前記自立語の一部を用いずに、前記類似コマンドを生成する請求項１〜３のいずれか一項に記載のコマンド処理装置。
前記第１の記憶手段に格納された前記自立語の前記類似度に基づいて、前記類似コマンドと、前記認識コマンドと、の一致率を算出する一致率算出手段をさらに備え、
前記コマンド候補生成手段は、前記一致率算出手段により算出された前記一致率に基づいて、実行する前記コマンドの候補を生成する請求項２に記載のコマンド処理装置。
前記コマンド候補生成手段により生成された複数のコマンドの候補を、前記一致率に応じて前記ユーザに報知する報知手段をさらに備える請求項５に記載のコマンド処理装置。
前記第２の記憶手段には、前記認識コマンドを含む文章データが格納されており、
前記第２の記憶手段に格納された前記文章データに含まれる自立語を前記認識コマンドとして抽出する第２の自立語抽出手段をさらに備える請求項１〜６のいずれか一項に記載のコマンド処理装置。
音声によるコマンドを処理するコマンド処理方法であって、
ユーザの音声を認識するステップと、
前記ユーザの音声に含まれる自立語を抽出するステップと、
意味が類似する複数の自立語が予め格納された第１の記憶手段を参照して、抽出された前記自立語の意味と類似する意味の自立語が含まれる類似コマンドを生成するステップと、
生成された前記類似コマンドと、前記コマンド処理装置が認識可能な認識コマンドと、に基づいて、実行するコマンドの候補を生成するステップと、
を備えるコマンド処理方法。
音声によるコマンドを処理するコマンド処理プログラムであって、
コンピュータに対して、
ユーザの音声を認識させるステップと、
前記ユーザの音声に含まれる自立語を抽出させるステップと、
意味が類似する複数の自立語が予め格納された第１の記憶手段を参照させ、抽出させた前記自立語の意味と類似する意味の自立語が含まれる類似コマンドを生成させるステップと、
生成させた前記類似コマンドと、前記コマンド処理装置が認識可能な認識コマンドと、に基づいて、実行するコマンドの候補を生成させるステップと、
を備えるコマンド処理プログラム。