JP2014191029A

JP2014191029A - 音声認識システムおよび音声認識システムの制御方法

Info

Publication number: JP2014191029A
Application number: JP2013063875A
Authority: JP
Inventors: Masaki Shibuya; 正樹渋谷; Tomohiro Iwamoto; 智裕岩本; Hiroshi Takano; 啓高野; Kazunori Samejima; 一規鮫島
Original assignee: Fuji Soft Inc
Current assignee: Fuji Soft Inc
Priority date: 2013-03-26
Filing date: 2013-03-26
Publication date: 2014-10-06

Abstract

【課題】ユーザからの音声指示であるかを判定し、その判定結果に適した応答レベルを選択すること。
【解決手段】
音声認識システム１は、音声認識部１１の認識結果を含む所定の情報に基づいて、ユーザからの音声指示であるかを判定するための所定のパラメータを抽出するパラメータ抽出部１２と、所定のパラメータに基づいて、音声認識部で認識された音声がユーザからの音声指示であるか判定する判定部１３と、その判定結果に応じて、予め用意されている複数の応答レベルの中から一つの応答レベルを選択する応答レベル選択部１４と、音声認識結果と変更条件とを照合することにより、選択された応答レベルを修正する応答レベル変更部１５と、修正された応答レベルと音声認識部で認識されたユーザの音声指示とに従って所定の応答を行う応答部１６を備える。
【選択図】図１

Description

本発明は、音声認識システムおよび音声認識システムの制御方法に関する。

ユーザによる特別な操作無しで自動的に応答するコミュニケーションロボットは、音声認識の開始を定義できるパーソナルコンピュータ上で動作する音声認識システム等と異なり、自システム（ロボットに搭載された音声認識システム）への語りかけであるか否かを判別するのが難しい。

ユーザはスイッチ等を操作してからロボットに話しかけるのではなく、何のきっかけもなく突然にロボットに話しかけるため、コミュニケーションロボットにおいては音声認識を誤ったり、ユーザの期待する応答とは全く異なる応答を行ったりする可能性がある。そこで、ユーザによるロボットの話しかけであるかを判断するようにした技術が提案されている（特許文献１、２）。

特開２０１１−２２７２３７号公報特開２００７−１５５９８５号公報

特許文献１記載の従来技術では、音声認識の信頼度を判定し、音声認識の信頼度が低い場合は首を傾げる等の回答不可能行動を取り、誤った行動をしないようにしている。特許文献２記載の従来技術では、周囲に人物を検知した場合に、音声認識結果を有効なものとして取り扱う。しかし、それらの従来技術では、自システムへの話しかけであるか否かを単純に判別しているだけで、ユーザとのコミュニケーションの質に応じて応答内容を修正するものではなく、ユーザはロボットとのコミュニケーションに違和感を覚える。

本発明は、上記の問題に鑑みてなされたもので、その目的は、ユーザによる自システムへの話しかけであるかをより適切に判定して、ユーザの違和感の少ないコミュニケーションを行うことができるようにした音声認識システムおよび音声認識システムの制御方法を提供することにある。

本発明の一つの観点に係るシステムは、音声を認識して応答する音声認識システムであって、音声入力部から入力される音声を認識する音声認識部と、音声認識部の認識結果を含む所定の情報に基づいて、ユーザからの音声指示であるかを判定するための所定のパラメータを抽出するパラメータ抽出部と、パラメータ抽出部により抽出される所定のパラメータに基づいて、音声認識部で認識された音声がユーザからの音声指示であるか判定する判定部と、判定部で判定された判定結果に応じて、予め用意されている複数の応答レベルの中から一つの応答レベルを選択する応答レベル選択部と、音声認識部による認識結果と予め設定されている変更条件とを照合することにより、応答レベル選択部で選択された応答レベルを修正する応答レベル修正部と、応答レベル修正部で修正された応答レベルと音声認識部で認識されたユーザの音声指示とに従って所定の応答を行う応答部と、を備えている。

応答レベル修正部は、音声認識部の認識結果と変更条件とからユーザとの会話状況を複数段階のいずれか一つに分類し、分類された段階に応じて応答レベルを変更することもできる。

所定の情報には、撮像部で撮影した画像情報および／または音声の方向を示す音源方位情報が含まれており、所定のパラメータには、音声認識部で認識された最新の入力文に関する解析結果から得られる第１パラメータと、音声認識部で認識された認識結果履歴から得られる第２パラメータと、画像情報および／または音源方位情報から得られる第３パラメータとが含まれている。

音声認識システムの構成を示すブロック図。ユーザの発話の信頼度を評価するための複数のパラメータを抽出する方法を示す説明図。キーワードと動詞との関連づけ（ａ）、および、キーワード間の関連性（ｂ）を示す説明図。音声を認識して応答するまでの全体処理を示すフローチャート。図４に続く処理のフローチャート。図４に続く他の処理のフローチャート。ユーザとの会話状況がいずれの段階にあるかを示す注意脳レベルを判定する処理を示すフローチャート。注意脳のレベルと変更条件の関係、および、注意脳のレベルによる応答レベルの修正を示す説明図。ユーザとの会話の例と注意脳レベルが変化する様子を示す説明図。第２実施例に係り、ユーザが所定のキーワードを発した場合は、直ちに指示された行動を実行する処理を示すフローチャート。第３実施例に係り、発話信頼度の他の判定方法を示すテーブル。

本実施形態では、以下に詳述する通り、システムへの音声入力であることを明示するためのトリガまたはスイッチを備えない非トリガ型の音声認識システムにおいて、入力された音声が自システムに向けたユーザからの音声なのかを精度良く判定する音声認識システムを説明する。さらに、本実施形態の音声認識システムは、ユーザとのコミュニケーションの質（密度）に応じて応答レベルを修正する。

図１は、本実施例の音声認識システム１の全体構成を示すブロック図である。音声認識システム１は、コンピュータシステムとして構成される。音声認識システム１は、例えばロボット形状または筒型や直方体等の種々の形状を有するオブジェクト２に搭載することができる。さらに、音声認識システム１は、例えば、ディスプレイ装置、掃除機、冷蔵庫、洗濯機等の家電製品３に搭載することもできる。本実施例では、音声認識システム１を人型ロボット２に搭載する場合を例に挙げて説明する。

なお、音声認識システム１の全部をロボット２内に設けてもよいし、音声認識システム１の一部をロボット２の外部に設けてもよい。さらには、音声認識システム１のほぼ全体を外部サーバに設け、ユーザとの情報を交換するマンマシンインターフェース（音声入力部２１、音声出力部２８、表示部２９）をロボット２に設ける構成でもよい。但し、音声認識システム１の全体をロボット２に設けることで、ユーザとの会話にタイムラグが生じるのを防止し、より自然なコミュニケーションを実現することができる。

音声認識システム１は、例えば、音声認識部１１、発話信頼度パラメータ抽出部１２、発話信頼度判定部１３、応答レベル選択部１４、応答レベル変更部１５、応答部１６、注意脳判定部１７を備える。さらに、音声認識システム１は、音声入力部２１、カメラ２２、音響モデルデータベース２３、文法データベース２４、辞書データベース２５、キーワード−動詞データベース２６、認識結果履歴データベース２７、音声出力部２８、表示部２９、動作機構３０を備える。

音声入力部２１は、例えば一つまたは複数のマイクロフォン装置とＡ／Ｄ（Analog/Digital）変換回路等を含んで構成される。本実施例では、音源の方位を検出することのできる音源方位マイクも音声入力部２１に含まれているものとする。カメラ２２は「撮像部」の例であり、ロボット２の周囲に存在するユーザ等を撮影する。なお、カメラ２２はロボット２２に取り付けられている必要は必ずしもない。ロボット２から離れた場所にカメラ２２を設け、カメラ２２で撮影した画像情報を無線通信等を介して音声認識システム１に送信する構成でもよい。

音声認識部１１は、音声入力部２１から入力される音声を、音響モデルデータベース２３と文法データベース２４および辞書データベース２５を用いて解析し、単語に変換する機能である。

音響モデルデータベース２３は、テキスト（読み）とテキストを発音したときの波形とを対応づけて記憶したデータベースであり、どのような波形の音がどのような単語として認識されるかを定義している。文法データベース２４は、単語の並べ方（文法）などを記憶したデータベースである。辞書データベース２５には、所定のキーワードを含む種々の単語がその読みと共に登録されている。音声認識部１１による音声認識結果の履歴は、認識結果履歴データベース２７に記憶される。

発話信頼度パラメータ抽出部１２は、「パラメータ抽出部」の例であり、「所定のパラメータ」としての発話信頼度パラメータを抽出し、発話信頼度判定部１３に送る。発話信頼度パラメータ抽出部１２は、音声認識部１１の最新の認識結果と、カメラ２２の撮影した画像情報と、音源方位情報と、キーワード−動詞データベース２６と、認識結果履歴データベース２７を用いて、後述する３種類のパラメータを取得する。

発話信頼度判定部１３は、発話信頼度パラメータ抽出部１２で抽出された所定のパラメータに基づいて、音声認識部１１による認識結果がユーザからの音声指示であるかを判定する。より詳しくは、発話信頼度判定部１３は、ユーザからの音声指示である可能性を判定する。音声指示とは、基本的に、所定のキーワードと所定の動詞との組合せとして構成される。しかし、これに限らず、所定のキーワードのみでも音声指示であると判定することができる。

応答レベル選択部１４は、予め用意されている複数の応答レベルの中から発話信頼度判定部１３の判定結果に応じた応答レベルを一つ選択する。

応答レベル変更部１５は、応答レベル選択部１４で選択された応答レベルを、注意脳判定部１７で設定された注意脳レベルに応じて変更する。

ここで注意脳レベルとは、ユーザとの会話状況の解析から得られる、ユーザとのコミュニケーションの質（または密度）のレベルを意味する。または、注意脳レベルは、例えば、ユーザへの応答レベルを会話状況に基づいて変化させるための所定の指標値であると定義してもよい。

応答レベル変更部１５と共に「応答レベル修正部」を構成する注意脳判定部１７は、後述のように、音声認識部１１による音声認識結果と認識結果履歴データベース２７とに基づいて、所定の変更条件のいずれを満たすか判断する。注意脳判定部１７は、その判断結果に従って注意脳レベルを変更する。

応答部１６は、応答レベル変更部１５で変更された応答レベルに従って、ユーザの音声指示に対応する応答を実行する。応答部１６は、例えば、音声出力部２８、表示部２９、動作機構３０のいずれか一つまたは複数を用いて、ユーザに応答することができる。

音声出力部２８は、例えば合成音声出力装置とスピーカ等から構成されており、ユーザに音声で返事をする。表示部２９は、例えばロボット２に設けられるランプ、ディスプレイから構成され、メッセージを表示したり、ランプを点灯させたりする。動作機構３０は、例えば、ロボットの首、手足等を動かすための機構である。なお、音声出力、表示出力、動作以外に、プリンタ等への出力を行ってもよい。

図２を用いて、発話信頼度パラメータ抽出部１２が抽出する所定パラメータについて説明する。発話信頼度パラメータ抽出部１２は、以下に述べるように、第１パラメータ、第２パラメータおよび第３パラメータの全部または一部を抽出する。

図２（１）に示す第１パラメータは、音声入力部２１から音声認識部１１に入力された最新の入力文を解析することで得られる。第１パラメータは、さらに複数の（例えば３つの）サブパラメータ（１Ａ）〜（１Ｃ）を含む。

第１サブパラメータ（１Ａ）は、最新入力文に占める所定キーワード（および所定動詞）の率である。音声認識部１１は、音声入力部２１に入力された音声（ユーザの音声指示、周囲の会話、周囲の雑音等）を辞書データベース２５に当てはめて認識する。その認識された単語群の中に所定キーワード（および所定動詞）が含まれている割合から、発話信頼度の高低を判断できる。

所定キーワードとは、一般的なキーワードのうち、音声認識システム１が提供可能なサービス（詳しくは音声認識システム１が搭載されているシステム（ここではロボット２）で提供可能なサービス）を示すキーワードである。さらに、所定キーワードには、ユーザがサービスの利用に際して発する可能性のあるキーワード、例えば、「はい」、「いいえ」等の返事に相当するキーワードも含む。

所定のキーワードは、サービスを利用する際の音声指示となるキーワードとして、音声認識システム１に予め登録されている。具体的には、音声認識システム１が搭載されるコミュニケーションロボット２がユーザに提供可能なサービスに関するキーワードが、所定のキーワードとして音声認識システム１に登録されている。

例えば、ロボット２がダンスを踊ったり、ニュースや物語を読んだり、クイズを出題したり、天気を予測したり、占ったりするサービスを提供可能である場合、それらサービスを特定するためのキーワード（「ダンス」、「ニュース」、「物語」、「クイズ」、「天気」、「占い」）が所定のキーワードとして登録される。

先に図３を参照する。図３（ａ）は、所定のキーワードと所定の動詞との対応付けを管理するテーブルＴ１０の例である。このテーブルＴ１０は、例えば図１に示すキーワード−動詞データベース２６の例である。

所定のキーワードには、それぞれのキーワードに関連する所定の動詞が予め対応付けられている。例えばキーワード「ダンス」の場合、そのキーワードと共に使用される頻度の高い所定の動詞としては「やって」、「みせて」、「おどって」等が考えられる。キーワード「ニュース」の場合は、所定の動詞として「よんで」、「きかせて」、「おしえて」等が考えられる。

図２に戻る。第１サブパラメータ（１Ａ）として抽出される、最新入力文を構成する単語に占める所定キーワードの比率から、発話信頼度を判定することができる。

例えば、所定キーワードと所定動詞の両方が最新入力文に含まれている場合、発話信頼度は高いと判定できる。例えば、所定キーワードだけが最新入力文に含まれており、所定動詞は存在しない場合、発話信頼度は中程度であると判定できる。例えば、所定キーワードが含まれていない場合、または、所定キーワード以外の無意味な単語（非キーワード）の占める割合が所定の基準値より大きい場合、発話信頼度は低いと判定できる。

第１パラメータの第２サブパラメータ（１Ｂ）を説明する。第２サブパラメータ（１Ｂ）では、最新入力文全体の音の強さの平均値と単語ごとの音の強さとの関連性に基づいて、所定キーワードが含まれているかを判定する。

図２（１）に示す「ううう」は、例えば空調機、冷蔵庫、洗濯機等の発する機械音（サーボ音）であり、無意味な非キーワードである。音声認識部１１は、入力された音声データをできる限り何らかの単語に変換しようとするため、単なる機械音であっても例えば「ううう」のように何らかの単語に認識する。

しかし、機械音はユーザの発した言葉ではなく、単なる環境雑音であるため、音のレベルは弱い。これに対し、ユーザの発する言葉は比較的音のレベルが強い。特に、ユーザがロボット２の応答を期待して所定のキーワードを発する場合は、その音のレベルは相対的に強くなると考えられる。

そこで、第２サブパラメータ（１Ｂ）では、入力文全体の単語の音の強さの平均値と単語毎の音の強さとを比較して、強く発せられた所定キーワードだけを所定キーワードであると判定する。図示の例では、「ダンス」の音のレベルは３０００であり、「やって」の音のレベルは１０００であり、いずれも、他の単語の音の強さ（４５０〜６００）よりも明らかに強い。これに対し、所定キーワードとして認識された単語であっても、その音のレベルが入力文全体の音の強さの平均値に比べて弱い場合は無視する。音のレベルが弱いキーワードは、周囲の雑音等が組み合わさって偶然に誤認識されたものであると考えられるためである。

第１パラメータの第３サブパラメータ（１Ｃ）を説明する。第３パラメータ（１Ｃ）では、最新入力文を構成する各単語の音の長さ（フレーム長）に基づいて、ユーザの発した言葉であるか否かを判定する。換言すれば、第３サブパラメータ（１Ｃ）は、音の長さに基づいて、雑音等の認識結果を取り除く。１フレームの長さは、音声入力部２１のサンプリング周波数から求められる。

ユーザが或る所定キーワードを発声する場合、肉声の特性上、所定の時間を要する。これに対し、周囲の雑音等が偶然組み合わさり、所定キーワードであると誤認識された場合は、人の発声可能な時間よりも短い時間しか有さない場合が多い。そこで、第３サブパラメータ（１Ｃ）では、最新入力文の認識結果の中から不自然な長さの単語を除去し、自然な長さを有する単語をユーザの発した単語であると判定する。

図２（２）は、第２パラメータを示す。第２パラメータは、現在から所定期間（例えば数秒〜十数秒程度）の認識結果を分析して得られる。所定期間内の認識結果を均等に考慮してもよいし、過去の認識結果となるほど重みを下げて判断してもよい。例えば、所定期間を７秒間とすると、７秒前から５秒前までに認識した単語は０．４、４秒前から２秒前までに認識した単語は０．７、１秒前および最後に認識した単語は１．０を乗じて、判定してもよい。

第２パラメータは、以下に述べるように、複数の（例えば４つの）サブパラメータ（２Ａ）〜（２Ｄ）を含む。

第２パラメータの第１サブパラメータ（２Ａ）では、「ううう」等の機械音が連続した後で所定のキーワードが検出された場合、ユーザから話しかけられたと判断する。つまり、機械音しか聞こえなかった環境下で、所定のキーワードが発せられた場合は、ユーザからの言葉であると判定する。

第２パラメータの第２サブパラメータ（２Ｂ）では、無関係な単語が連続して認識された場合に、それはユーザの音声指示ではなく、ロボット２の周囲で行われている会話であると判定する。周囲の会話としては、例えば、人間同士の会話、人間と他の機械（音声指示で制御可能な他の機械）との会話、テレビまたはラジオ等からの音声を挙げることができる。

図３（ｂ）は、キーワード間の関連を模式的に示す。所定のキーワードの周辺には、その所定のキーワードと意味的に関連する関連キーワードが一つまたは複数存在する。例えば、所定のキーワード「クイズ」の場合、その周辺には「問題」、「答え」等の関連キーワードが存在する。さらに、所定のキーワード「クイズ」と関連性の少ない他のキーワードも存在する。関連性の少ない他のキーワードには、他の所定のキーワード、他の所定のキーワードに関連するキーワード等が含まれる。このように、キーワード同士（単語同士）の関連性を予め分析しておくことで、無関係な単語が連続して入力されたか否かを判定することができる。

図２に戻る。第２パラメータの第３サブパラメータ（２Ｃ）では、同一の所定キーワードの出現頻度が大きい場合、発話信頼度が高いと判定する。例えば、「ダンス」、「ダンス」、「ダンス」のように、同一の所定キーワードが高頻度で出現する場合は、ユーザが話している可能性が高い。特に、幼児、老人等の発話が不明瞭なユーザの場合、動詞を伴わずに所定のキーワードだけを連呼する可能性がある。

第２パラメータの第４サブパラメータ（２Ｄ）では、所定の無音期間が経過した後で、所定キーワードが検出された場合に、ユーザからロボット２への音声指示であると判定する。つまり、第４サブパラメータ（２Ｄ）は、第１サブパラメータ（２Ａ）の変形例であり、比較的静かな環境下で所定キーワードが検出された場合は、ユーザからの音声指示であると判定する。

第３パラメータを説明する。図２（３）に示す第３パラメータは、カメラ２２の撮影した画像情報、および、音声入力部２１に含まれる音源方位マイクで特定される音源方位情報から抽出される。第３パラメータは、複数の（例えば３つの）サブパラメータを含むことができる。

第１サブパラメータ（３Ａ）は、顔の有無である。カメラ２２が人間の顔を撮影した場合、そのときの認識結果はユーザからの音声指示である可能性が高い。第２サブパラメータ（３Ｂ）は、顔の向きである。ユーザの正面の顔がカメラ２２で撮影された場合、ユーザがロボット２に向けて話しかけている可能性が高い。第３サブパラメータ（３Ｃ）は、音源方位である。音声がロボット２の正面方向から発せられている場合、ユーザからの音声指示である可能性が高い。

図４は、音声認識システム１の全体処理を示すフローチャートである。音声認識システム１（以下、システム１）は、音声入力部２１を介して何らかの音声（ここでは、機械音などの単なる音も含めて音声と呼ぶ）を検出すると（Ｓ１）、その入力された音声を解析し、図２（１）に示す第１パラメータを全て抽出する（Ｓ２）。

最初に、システム１は、解析結果（認識結果）の中に所定キーワード（図中ＫＷ）が含まれているか判定する（Ｓ３）。所定キーワードが一つも含まれていない場合（Ｓ３：ＮＯ）、本処理は正常に終了する。音声入力部２１が再び音声を検出すると、本処理が開始される。

音声認識部１１の認識結果の中に所定キーワードが含まれている場合（Ｓ３：ＹＥＳ）、システム１は、認識結果履歴データベース２７に記憶された履歴を参照して、過去の所定期間に検出された所定キーワードを解析する（Ｓ４）。つまり、ステップＳ４において、システム１は、図２（２）に示す第２パラメータを抽出する。

続いてシステム１は、カメラ２２からの画像情報に基づいて、顔の画像を検出する（Ｓ５）。ステップＳ５において、システム１は、音源方位を特定してもよい。つまり、システム１は、第３パラメータの全部または一部をステップＳ５で抽出する。

以下に説明するステップＳ６〜Ｓ１６、図５のステップＳ６１〜Ｓ６４および図６のステップＳ７１〜Ｓ８３では、ステップＳ２、Ｓ４、Ｓ５で抽出したパラメータの少なくとも一部のパラメータに基づいて、発話信頼度を判定し、その判定結果に応じた応答レベルを選択する。

システム１は、カメラ２２で顔が検出されたか判定する（Ｓ６）。システム１は、顔が検出されなかった場合（Ｓ６：ＮＯ）、図５で後述するステップＳ６１に移る。

システム１は、顔が検出された場合（Ｓ６：ＹＥＳ）、正面の顔であるか判定する（Ｓ７）。システム１は、正面の顔ではないと判定した場合（Ｓ７：ＮＯ）、図６で後述するステップＳ７１に移る。

システム１は、正面の顔を検出した場合（Ｓ７：ＹＥＳ）、ステップＳ２で解析した音声の中に動詞が含まれているか判定する（Ｓ８）。システム１は、動詞が含まれていると判定した場合（Ｓ８：ＹＥＳ）、入力された音声に占めるキーワード率が予め設定された基準値よりも大きいか判定する（Ｓ９）。

システム１は、キーワード率が基準値よりも大きいと判定した場合（Ｓ９：ＹＥＳ）、図２（２）で述べた第２パラメータの第２サブパラメータ（２Ｂ）に基づいて、周辺で会話中であるか判定する（Ｓ１０）。

システム１は、周辺で会話していないと判定した場合（Ｓ１０：ＮＯ）、応答レベルとして「実行」を選択する。応答レベル「実行」とは、ユーザの音声指示に従って所定の応答を行うための応答レベルである。ユーザの正面の顔が検出され、入力文に動詞を含み、入力文に占めるキーワード率も大きく、かつ、周辺で会話が行われていない場合、ステップＳ１で検出した音声はユーザの音声指示である可能性が高い。そこで、ユーザの指示に従って応答すべく、応答レベルとして「実行」を選択する。

例えば、ユーザ指示が「クイズ」である場合、システム１の搭載されたロボット２は、ユーザにクイズを出題する。例えば、ユーザ指示が「ダンス」の場合、システム１の搭載されたロボット２はダンスを踊る。

但し、後述のように、応答レベルは注意脳レベルにより修正されるため、ステップＳ１１で「実行」が決定されたとしても、直ちに実行されるわけではない。応答レベルの修正が完了した後で、選択された応答レベルまたは修正後の応答レベルが確定し、その応答レベルに応じた応答が出力される。応答レベルの修正はコンピュータ処理により短時間で終了するため、ユーザに違和感を与えない。応答レベルの修正処理が完了した後で実際に応答が行われる点は、他の応答レベルについても同様である。

ところでシステム１は、キーワード率が基準値よりも大きくないと判定した場合（Ｓ９：ＮＯ）、または、キーワード率が基準値よりも大きいが（Ｓ９：ＹＥＳ）、周辺で会話中であると判定した場合（Ｓ１０：ＹＥＳ）、応答レベルとして「聞き返し」を選択する（Ｓ１２）。応答レベル「聞き返し」とは、ユーザの音声指示を聞き返す所定メッセージを音声出力するための応答レベルである。

ユーザの正面の顔が検出され、入力文に動詞も含まれているが、入力文に占めるキーワード率が低いか、または周辺で会話していると判定した場合、ユーザの音声指示であることを確認するために、応答レベルとして「聞き返し」を選択する。

システム１は、ステップＳ２で解析した音声中に動詞が含まれていないと判定した場合（Ｓ８：ＮＯ）、所定キーワードの音のレベルが入力文全体の音の強さの平均値よりも強いか判定する（Ｓ１３）。システム１は、所定キーワードの音のレベルが強いと判定した場合（Ｓ１３：ＹＥＳ）、音源の方位（ユーザの声が聞こえた方向）はロボット２の正面であるか判定する（Ｓ１４）。

システム１は、音源方位がロボット２の正面であると判定した場合（Ｓ１４：ＹＥＳ）、応答レベルとして「実行」を選択する。これに対し、システム１は、所定キーワードの音の強さが入力文全体の音の強さの平均値よりも強くない場合（Ｓ１３：ＮＯ）、または、音源の方位がロボット２の正面ではない場合（Ｓ１４：ＮＯ）、応答レベルとして「聞き返し」を選択する。

入力文に動詞は含まれていないが、所定キーワードの音が強く、かつ、音源の方位がロボットの正面である場合、ユーザの音声指示である可能性が高い。そこで、応答レベルとして「実行」を選択する（Ｓ１５）。これに対し、入力文に動詞は含まれておらず、キーワードの音も弱いか、または、音源の方向が正面ではない場合、ユーザからの音声指示であることを確認するために、応答レベルとして「聞き返し」を選択する（Ｓ１６）。

図５を参照する。システム１は、ユーザの顔が検出できない場合（Ｓ６：ＮＯ）、ステップＳ２で解析された入力文に動詞が含まれているか判定する（Ｓ６１）。システム１は、入力文が動詞を含むと判定すると（Ｓ６１：ＹＥＳ）、入力文に占めるキーワード率が大きいか判定する（Ｓ６２）。システム１は、入力文に占めるキーワード率が大きいと判定した場合（Ｓ６２：ＹＥＳ）、周辺で会話中であるか判定する（Ｓ６３）。

システム１は、周辺で会話中ではないと判定すると（Ｓ６３：ＮＯ）、応答レベルとして「んん？」を選択する。応答レベル「んん？」とは、ユーザからの音声指示らしきものを受領したことだけをユーザに知らせるための応答レベルである。換言すれば、応答レベル「んん？」とは、ユーザからの音声指示らしきものに対して誤った行動を行わないように、「聞き返し」と「無視」の間に設定された応答レベルである。

これに対し、図５において、システム１は、入力文に動詞が含まれていないと判定した場合（Ｓ６１：ＮＯ）、または、入力文に占めるキーワード率が低い場合（Ｓ６２：ＮＯ）、または、周辺で会話中の場合（Ｓ６３：ＹＥＳ）のいずれかの場合であると判定すると、応答レベルとして「無視」を選択する（Ｓ６５）。「無視」とは、何も応答しないための応答レベルである。

入力文に動詞が含まれていない、キーワード率が低い、周辺で会話中のいずれかの場合は、ステップＳ１で検出した音声がノイズやテレビの音声等である可能性が高い。そこで、この場合は一切応答しない。

図６を参照する。システム１は、図４においてユーザの正面の顔以外の顔（例えば、横顔、後ろ姿など）を検出すると（Ｓ７：ＮＯ）、図６の処理に移り、入力文に動詞が含まれているか判定する（Ｓ７１）。

システム１は、入力文に動詞が含まれていると判定すると（Ｓ７１：ＹＥＳ）、入力文に占めるキーワード率が大きいか判定する（Ｓ７２）。システム１は、入力文に占めるキーワード率が大きいと判定すると（Ｓ７２：ＹＥＳ）、周辺で会話中であるか判定する（Ｓ７３）。システム１は、周辺で会話中ではないと判定すると（Ｓ７３：ＮＯ）、応答レベルとして「聞き返し」を選択する（Ｓ７４）。

図４のステップＳ８：ＹＥＳ→Ｓ９：ＹＥＳ→Ｓ１０：ＮＯの流れの場合は、応答レベルとして「実行」が選択される。これに対し、図６のＳ７１：ＹＥＳ→Ｓ７２：ＹＥＳ→Ｓ７３：ＮＯの流れでは、応答レベルとして「聞き返し」が選択される。

この理由は、図６の処理は、そもそもユーザの正面の顔を検出できず、正面の顔以外の顔しか検出できていないためである。正面以外の顔の場合、ユーザの音声指示以外の音声を解析している可能性があり、判定の基礎となる情報の信頼性が低いため、応答レベルを１段階下げている。

システム１は、入力文に動詞が含まれているが（Ｓ７１：ＹＥＳ）、入力文に占めるキーワード率が小さい場合（Ｓ７２：ＮＯ）、または、周辺で会話が行われていると判定した場合（Ｓ７３：ＹＥＳ）のいずれかであると判定すると、応答レベルとして「んん？」を選択する。

システム１は、入力文に動詞が含まれていない場合（Ｓ７１：ＮＯ）、同一の所定キーワードが二回続けて入力されたか判定する（Ｓ７６）。つまり、システム１は、図２に示す第２パラメータの第３サブパラメータ（２Ｃ）に基づいて応答レベルを選択する。

システム１は、同一の所定キーワードが二連続で入力された場合（Ｓ７６：ＹＥＳ）、キーワード率が大きいか判定し（Ｓ７７）、キーワード率が大きいと判定した場合（Ｓ７７：ＹＥＳ）、周辺で会話中であるか判定する（Ｓ７８）。システム１は、周辺で会話が行われていないと判定すると（Ｓ７８：ＮＯ）、応答レベルとして「聞き返し」を選択する（Ｓ７９）。

これに対し、システム１は、同一の所定キーワードが二回続けて入力されたが（Ｓ７６：ＹＥＳ）、入力文に占めるキーワード率が低い場合（Ｓ７７：ＮＯ）、または、周辺で会話中の場合（Ｓ７８：ＹＥＳ）のいずれかであると判定すると、応答レベルとして「んん？」を選択する（Ｓ８０）。

システム１は、同一の所定キーワードが二回続けて入力されたのではなく、三回続けて入力されたか判定する（Ｓ８１）。システム１は、同一の所定キーワードが３回も連続して入力された場合（Ｓ８１：ＹＥＳ）、他のパラメータを参酌せずに、応答レベルとして「聞き返し」を選択する（Ｓ８２）。

同一の所定キーワードが続けて３回も入力された場合は、ユーザの音声指示ある可能性が高い。しかし、図６の処理においてシステム１は、ユーザの正面の顔を検出していないため、応答レベルを「実行」よりも１つ下げて「聞き返し」を選択する。

システム１は、二回連続した所定キーワードとは異なる所定キーワードが三回目に入力された場合（Ｓ８１：ＮＯ）、応答レベルとして「無視」を選択する（Ｓ８３）。キーワードの連なりに脈絡がなく、ユーザの音声指示である可能性が低いためである。

図７を用いて注意脳のレベルを設定する処理を説明する。注意脳とは、ユーザとのコミュニケーションの質（または密度）に応じて、ユーザへの応答レベルを変化させるための特殊な指標である。注意脳レベルとしては、例えば、「高」、「標準」、「低」の３段階がある。注意脳レベルが高いほど応答レベルが高くなるように、注意脳レベルが低いほど応答レベルが低くなるように、修正される。

システム１は、注意脳レベルの変更について事前に設定されている変更条件を満たすか否か判定するための情報を取得する（Ｓ１０１）。そのような判定のための情報としては、例えば、認識結果の履歴、顔の検出の有無、ユーザからの返事の有無、ユーザの返事の内容等がある。

システム１は、注意脳を高レベルに変更するための高レベル条件を満たすか判定し（Ｓ１０２）、高レベル条件を満たすと判定した場合（Ｓ１０２：ＹＥＳ）、注意脳レベルを高レベルに設定して（Ｓ１０３）、本処理を終了する。システム１は、現在の注意脳レベルが「標準」または「低」のいずれにある場合でも、「高」に設定する。現在の注意脳レベルから１段階高くなるように設定するのではない。

システム１は、高レベル条件を満たさないと判定すると（Ｓ１０２：ＮＯ）、注意脳を低レベルに設定するための低レベル条件を満たすか判定する（Ｓ１０４）。システム１は、低レベル条件を満たすと判定した場合（Ｓ１０４：ＹＥＳ）、注意脳レベルを「低」に設定して（Ｓ１０５）、本処理を終了する。システム１は、現在の注意脳レベルが「高」または「標準」のいずれにある場合でも、「低」に設定する。現在の注意脳レベルから１段階低くなるように設定するのではない。

システム１は、低レベル条件を満たさないと判定すると（Ｓ１０４：ＮＯ）、注意脳を標準レベルに戻すための標準レベル条件を満たすか判定する（Ｓ１０６）。システム１は、標準レベル条件を満たすと判定した場合（Ｓ１０６：ＹＥＳ）、注意脳レベルを「標準」に戻す。システム１は、標準レベル条件も満たさないと判定した場合（Ｓ１０６：ＮＯ）、本処理を終了する。

図８は、注意脳のレベルを変更するための条件を規定する変更条件管理テーブルＴ２０の例と、注意脳のレベルに応じて応答レベルを修正するための応答レベル修正テーブルＴ３０の例を示す。

変更条件管理テーブルＴ２０は、注意脳レベルと、その注意脳レベルに変更するための条件とを対応付けて管理する。注意脳レベルを「高」にするための高レベル条件としては、例えば以下の４つがある。

（Ｈ１）静かなときに（音声が入力されていないときに）、コマンド（例えば、所定キーワードと所定動詞の組合せ）が入力されること、
（Ｈ２）自分の名前（例えばロボットの名前）が呼ばれたこと、
（Ｈ３）ユーザとの会話が成立していること、
（Ｈ４）ユーザの顔を検出したこと、
である。条件Ｈ１において、動詞を含まない所定のキーワードだけであっても、コマンドとして認識してもよい。条件Ｈ２において、ロボットの名前は初期設定される固定値を用いてもよいし、ユーザが設定した名前であってもよい。また、名前以外の言葉を、注意脳のレベルを高くするための特別なキーワードとして事前に登録する構成でもよい。

条件Ｈ３において、ユーザとの会話が成立しているとは、システム１からの応答に対してユーザから所定時間内に何らかの返事があり、かつ、その返事が会話を打ち切る言葉として事前に登録された所定キーワード（例えば「いいえ」、「終わり」などの否定語）ではない場合を意味する。

注意脳レベルを「標準」に戻すための標準レベル条件としては、例えば、（Ｓ１）システム１が応答してから所定時間内にユーザの返事がなく、いわゆるタイムアウトが発生したこと、を挙げることができる。

注意脳レベルを「低」に変更するための低レベル条件としては、例えば、（Ｌ１）システム１がユーザの音声を聞き返した場合に、ユーザから「いいえ」、「べつに」、「かんけいない」等の所定の否定的なキーワードが返されたことを、挙げることができる。

応答レベル修正テーブルＴ３０は、注意脳レベルと、応答レベルに対する処理内容（修正内容）とを対応付けて管理する。注意脳レベルが「高」の場合、システム１は、応答レベルを１段階上げる。応答レベルは、高い方から順番に「実行」、「聞き返し」、「んん？」、「無視」の４段階であることは既に述べた通りである。

注意脳レベルが「高」の場合、応答レベルはそれぞれ１段階ずつ高くなる。「実行」は「実行」のままであるが、「聞き返し」は「実行」に、「んん？」は「聞き返し」に、「無視」は「んん？」にそれぞれ変化する。

注意脳レベルが「標準」の場合、応答レベルはそのまま維持される。即ち、「実行」は「実行」、「聞き返し」は「聞き返し」、「んん？」は「んん？」、「無視」は「無視」のままである。

注意脳レベルが「低」の場合、応答レベルは１段階低下する。「実行」は「聞き返し」に、「聞き返し」は「んん？」に、「んん？」は「無視」に変化する。「無視」は「無視」のままである。

図９を参照してロボット２とユーザとのコミュニケーションの例を説明する。初期状態では、注意脳レベルは「標準」である。ここで、ユーザからの音声指示「ダンスやって」が入力されたとする。ユーザはロボット２の側面から話しかけており、カメラ２２にユーザの正面の顔は写っていないものとする。

図９（１）に示すように、ユーザが横顔を見せた状態で「ダンスやって」と発した場合、システム１は、例えば図６のステップＳ７５において、「んん？」と応答する。注意脳レベルは「標準」なので、ステップＳ７５で選択された応答レベルは修正されない。しかし、静かな状態のときに「ダンスやって」とユーザから話しかけられたため、高レベル条件（Ｈ１）が成立し、注意脳レベルは「標準」から「高」に変更される。

続いて、ユーザが再び「ダンスやって」と話しかけた場合、所定のタイムスロット内に占めるキーワード率が大きくなり、例えばステップＳ７４で応答レベルとして「聞き返し」が選択されたとする。

注意脳レベルが「標準」のままであれば、図９（２）に示すように、システム１は「ダンスですか？」と応答してユーザに指示内容を聞き返す。しかし、図９（１）でユーザに応答した時点で注意脳レベルは「高」に変更されているため、応答レベルは１段階上の「実行」に修正される。従って、図９（２Ａ）に示すように、システム１はユーザの指示通りに、動作機構３０を駆動させるなどしてロボット２にダンスを踊らせる。このように、最初の応答時の状況により注意脳レベルを高くするため、「聞き返し」という無駄な応答を省略して、ユーザの希望通りの応答を返すことができる。

もしも図９（１）での応答「んん？」に対して「いいえ」等の否定語を返した場合、システム１は、注意脳レベルを「低」に変化する。従って、システム１の標準の応答が「んん？」である場合、それは「無視」に変更される。

図９（１）での応答「んん？」から所定時間ｔ１内にユーザが返事をしない場合、会話のタイムアウトが発生し、注意脳レベルは「標準」に変化する。

このように構成される本実施例によれば、ユーザからの特別な操作、トリガが無くても、ユーザからの話しかけであることを適切に判断して、違和感のできるだけ少ない自然な会話を行うことができる。

本実施例では、最新の入力文の認識結果だけでなく、過去の認識結果、画像情報なども総合的に考慮してユーザからの音声入力を細かく場面に分けて判断する。従って，本実施例では、ユーザの音声であるか否か、ユーザがロボット２に（システム１に）対して話しかけた言葉であるか否かを適切に判断することができる。

本実施例では、一般的な音声認識により抽出されるキーワードだけで、ユーザからの発話であるか否か等を判断するのではなく、ユーザから発せられる可能性の高い所定キーワードに着目して判断する。従って、発話信頼度の判定精度を高めることができる。

本実施例では、所定キーワードが占める率と、所定動詞の有無とに着目して発話信頼度を判定するため、比較的簡単な処理でありながら判定精度を高くすることができる。

本実施例では、最新の入力文の認識結果だけでなく認識結果履歴も使用して、ユーザとシステム１との会話状況を推定し、発話信頼度を判定する。従って、図２（２）の第２パラメータに示すように比較的簡単に低コストに会話状況を推定でき、会話状況を推定した上で発話信頼度を判定するため、精度を高めることができる。

本実施例では、発話信頼度の段階に応じて応答レベルを選択する。本実施例では、発話信頼度が高いと判定した場合、つまりユーザの音声指示を正確に認識した可能性が高いと判定した場合は、「実行」または「無視」という自信ある応答を行う。応答レベルとして「実行」を選択できるのは、ユーザからの音声指示であると判定できたためである。応答レベルとして「無視」を選択できるのは、ユーザからの指示ではないと判断できたためである。ユーザからの音声指示であるか否か真偽が不明の場合は、誤った応答を行わずに、聞き返したり、「んん？」と答えたりして、曖昧な応答、無難な応答を返す。

本実施例では、システム１とユーザとのコミュニケーションの解析結果から得られる指標（注意脳）に基づいて、応答レベルを修正する。従って、発話信頼度に基づいて選択された応答レベルを、さらにコミュニケーションの解析結果に応じて修正することができるため、より適切な応答をユーザに返すことができる。

図１０を用いて第２実施例を説明する。本実施例を含む以下の各実施例は、第１実施例の変形例に相当する。従って、以下、第１実施例との相違を中心に説明する。

図１０は、優先的に応答する処理のフローチャートである。本処理は、システム１が所定の応答をユーザに返した場合に実行される。所定の応答とは、例えば「んん？」のような、最初のユーザ指示を受領したことだけを伝えるような応答である。これに限らず、「聞き返し」を所定の応答としてもよい。

システム１は、所定の応答としての「んん？」を応答したか判定し（Ｓ１１１）、所定の応答を返したと判定した場合は（Ｓ１１１：ＹＥＳ）、自分の名前がユーザに呼ばれたか否か判定する（Ｓ１１２）。

自分の名前とは、本実施例では例えばロボット２の名前であるが、システム１の名称として捉えてもよい。「自分の名前」は、ユーザの指示を優先的に実行させるための優先キーワードである。

システム１は、「自分の名前」が音声入力部２１に入力されて音声認識部１１で認識されると（Ｓ１１２：ＹＥＳ）、Ｓ１１１を開始する前に認識された所定キーワード（指示、コマンド）に従って応答する（Ｓ１１３）。

システム１は、図５のステップＳ６４、図６のステップＳ７５、ステップＳ８０のいずれかで「んん？」とユーザに応答した後で、ユーザが自分の名を呼んだ場合には、ステップＳ２で抽出された所定キーワードに従って応答する。

このように構成される本実施例も第１実施例と同様の効果を奏する。さらに本実施例では、所定の応答をユーザに返した後で、ユーザが予め設定されている優先キーワードを発した場合、ユーザの指示に応じた応答を直ちに実行する。従って、ユーザは速やかにロボット２を自分の希望通り応答させることができ、使い勝手が向上する。本実施例は、第１実施例または後述の第３実施例のいずれにも適用できる。

図１１を参照して第３実施例を説明する。本実施例では、図４〜図６で述べた処理とは異なる方法で、発話信頼度を判定し、発話信頼度に適した応答レベルを選択する。本実施例では、前回のシステム１の応答を考慮して、今回の応答レベルを決定する。

図１１に示す応答レベルテーブルＴ４０は、例えば、顔情報の有無、解析された入力文、前回の応答または履歴、入力文の解析結果および履歴、応答レベルを場合分けして対応付けている。

図１１中の「ｘｘｘ」は所定キーワードを意味する。「やって」は所定動詞の一例である。「話中」とはロボット２の（システム１の）周辺で会話中であることを意味する。「話無」とは、ロボット２の周辺で会話が行われていないことを意味する。「ｘｘｘ１個」とは、同一の所定キーワードが１個入力されたことを意味する。「ｘｘｘ２個」とは、同一の所定キーワードが２個入力されたことを意味する。

図１１中の「前回応答ｏｒ履歴」とは、前回の応答内容（んん？、聞き返し）、または前回までの応答履歴から得られる内容（同一キーワードの連続数）を示す。

このように構成される本実施例も第１実施例と同様の効果を奏する。さらに本実施例では、前回の応答（または履歴）を考慮して今回の応答レベルを選択するため、より自然なコミュニケーションを実現することができる。

なお、本発明は、上述した実施の形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。例えば応答レベルは４段階に限らず、３段階でもよいし、５段階以上でもよい。また、注意脳レベルも３段階以上に細かく設定してもよい。また、実施形態で述べた音声認識システムの中から、注意脳レベルに基づいて応答レベルを修正する構成（図７の処理）を取り除いたシステムも本発明の範囲に含むことができる。

１：音声認識システム、２：ロボット、３：家電製品、１１：音声認識部、１２：発話信頼度パラメータ抽出部、１３：発話信頼度判定部、１４：応答選択部、１５：応答修正部、１６：応答部、１７：注意脳判定部、２１：音声入力部、２２：カメラ、２７：認識結果履歴データベース、２８：音声出力部、２９：表示部、３０：動作機構

なお、本発明は、上述した実施の形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。例えば応答レベルは４段階に限らず、３段階でもよいし、５段階以上でもよい。また、注意脳レベルも３段階以上に細かく設定してもよい。

Claims

音声を認識して応答する音声認識システムであって、
音声入力部から入力される音声を認識する音声認識部と、
前記音声認識部の認識結果を含む所定の情報に基づいて、ユーザからの音声指示であるかを判定するための所定のパラメータを抽出するパラメータ抽出部と、
前記パラメータ抽出部により抽出される前記所定のパラメータに基づいて、前記音声認識部で認識された音声がユーザからの音声指示であるか判定する判定部と、
前記判定部で判定された判定結果に応じて、予め用意されている複数の応答レベルの中から一つの応答レベルを選択する応答レベル選択部と、
前記音声認識部による認識結果と予め設定されている変更条件とを照合することにより、前記応答レベル選択部で選択された応答レベルを修正する応答レベル修正部と、
前記応答レベル修正部で修正された応答レベルと前記音声認識部で認識されたユーザの音声指示とに従って所定の応答を行う応答部と、
を備える音声認識システム。
前記応答レベル修正部は、前記音声認識部の認識結果と前記変更条件とからユーザとの会話状況を複数段階のいずれか一つに分類し、分類された段階に応じて前記応答レベルを変更する、
請求項１に記載の音声認識システム。
前記所定の情報には、撮像部で撮影した画像情報および／または音声の方向を示す音源方位情報が含まれており、
前記所定のパラメータには、前記音声認識部で認識された最新の入力文に関する解析結果から得られる第１パラメータと、前記音声認識部で認識された認識結果履歴から得られる第２パラメータと、前記画像情報および／または前記音源方位情報から得られる第３パラメータとが含まれている、
請求項１または２のいずれかに記載の音声認識システム。
前記第１パラメータには、所定のキーワードが前記最新の入力文に含まれる割合を示すキーワード率、前記最新の入力文を構成する各単語の音の強さ、前記最新の入力文を構成する各単語の音の長さ、のいずれか少なくとも一つが含まれる、
請求項３に記載の音声認識システム。
前記第２パラメータには、周囲でユーザからの音声指示と無関係な会話が行われているかを示す可能性が含まれており、
前記第３パラメータには、ユーザの顔が検出されたか否か、検出された顔の向き、のいずれかが少なくとも一つ含まれる、
請求項４に記載の音声認識システム。
前記複数の応答レベルには、応答しない無視レベル、音声を認識したことを示す受領レベル、音声の再入力を促す聞き返しレベル、音声指示に応じて所定動作を実行する実行レベルが含まれている、
請求項１〜５のいずれかに記載の音声認識システム。
音声を認識して応答する音声認識システムの制御方法であって、
音声入力部から入力される音声を認識する音声認識ステップと、
前記音声認識ステップの認識結果を含む所定の情報に基づいて、ユーザからの音声指示であるかを判定するための所定のパラメータを抽出するパラメータ抽出ステップと、
前記パラメータ抽出ステップにより抽出される前記所定のパラメータに基づいて、前記音声認識ステップで認識された音声がユーザからの音声指示であるか判定する判定ステップと、
前記判定ステップで判定された判定結果に応じて、予め用意されている複数の応答レベルの中から一つの応答レベルを選択する応答選択ステップと、
を実行する音声認識システムの制御方法。
さらに、前記音声認識ステップによる認識結果と予め設定されている変更条件とを照合することにより、前記応答選択ステップで選択された応答レベルを修正する応答レベル修正ステップと、
前記応答レベル修正ステップで修正された応答レベルと前記音声認識ステップで認識されたユーザの音声指示とに従って所定の応答を行う応答ステップと、
を実行する、請求項７に記載の音声認識システムの制御方法。
コンピュータを、音声を認識して応答する音声認識システムとして機能させるためのコンピュータプログラムであって、
前記コンピュータに接続した音声入力部から入力される音声を認識する音声認識部と、前記音声認識部の認識結果を含む所定の情報に基づいて、ユーザからの音声指示であるかを判定するための所定のパラメータを抽出するパラメータ抽出部と、
前記パラメータ抽出部により抽出される前記所定のパラメータに基づいて、前記音声認識部で認識された音声がユーザからの音声指示であるか判定する判定部と、
前記判定部で判定された判定結果に応じて、予め用意されている複数の応答レベルの中から一つの応答レベルを選択する応答レベル選択部と、
前記音声認識部による認識結果と予め設定されている変更条件とを照合することにより、前記応答レベル選択部で選択された応答レベルを修正する応答レベル修正部と、
前記応答レベル修正部で修正された応答レベルと前記音声認識部で認識されたユーザの音声指示とに従って所定の応答を行う応答部と、
を前記コンピュータ上に実現するためのコンピュータプログラム。