JP6044819B2

JP6044819B2 - 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム

Info

Publication number: JP6044819B2
Application number: JP2012123804A
Authority: JP
Inventors: 小林　佳和; 佳和小林
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-05-30
Filing date: 2012-05-30
Publication date: 2016-12-14
Anticipated expiration: 2032-05-30
Also published as: US20150142437A1; JP2013250683A; EP2857958A1; WO2013179985A1; US9489951B2; EP2857958A4

Description

本発明は、複数の異なる指示情報からユーザの指示内容を認識する技術に関する。

上記技術分野において、特許文献１には、カメラによって撮影されたユーザのジェスチャーに基づく操作指示候補と、マイクロフォンによって集音されたユーザの音声に基づく操作指示候補とを統合して、ユーザの意図する１つの操作指示を出力する技術が開示されている。

特開２００２−１８２６８０号公報

しかしながら、上記文献に記載の技術では、ユーザのジェスチャーに基づく操作指示候補の解析と、ユーザの音声に基づく操作指示候補の解析とはそれぞれ独立して行なわれるので、ユーザに対応した操作指示候補を効果的に絞ることができなかった。

本発明の目的は、上述の課題を解決する技術を提供することにある。

上記目的を達成するため、本発明に係る情報処理装置は、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
前記指示情報受信手段が受信した指示音声情報および指示動作情報と、前記ユーザ指示認識手段がユーザの指示を誤って認識した認識失敗とを対応付けて蓄積する指示履歴蓄積手段と、
を備え、
前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする。

上記目的を達成するため、本発明に係る情報処理装置の制御方法は、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記指示情報受信ステップにおいて受信した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
を含み、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする。

上記目的を達成するため、本発明に係るプログラムは、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記指示情報受信ステップにおいて受信した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
をコンピュータに実行させる情報処理装置の制御プログラムであって、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする。

上記目的を達成するため、本発明に係る装置は、
上記情報処理装置と通信する通信端末であって、
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
前記動作命令受信手段が受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
を備えることを特徴とする。

上記目的を達成するため、本発明に係る方法は、
上記情報処理装置と通信する通信端末の制御方法であって、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
を含むことを特徴とする。

上記目的を達成するため、本発明に係るプログラムは、
上記情報処理装置と通信する通信端末の制御プログラムであって、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
をコンピュータに実行させることを特徴とする。

上記目的を達成するため、本発明に係る通信端末は、
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
前記指示情報取得手段が取得した指示音声情報および指示動作情報と、前記ユーザ指示認識手段がユーザの指示を誤って認識した認識失敗とを対応付けて蓄積する指示履歴蓄積手段と、
を備え、
前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする。

上記目的を達成するため、本発明に係る通信端末の制御方法は、
ユーザの音声を検出する音声検出ステップと、
前記ユーザの動作を検出する動作検出ステップと、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記指示情報取得ステップにおいて取得した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
を含み、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする。

上記目的を達成するため、本発明に係るプログラムは、
ユーザの音声を検出する音声検出ステップと、
前記ユーザの動作を検出する動作検出ステップと、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記指示情報取得ステップにおいて取得した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
をコンピュータに実行させる通信端末の制御プログラムであって、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする。

上記目的を達成するため、本発明に係るシステムは、
ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムであって、
前記情報処理装置が、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得されたユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
前記ユーザ指示認識手段が認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信手段と、
前記指示情報受信手段が受信した指示音声情報および指示動作情報と、前記ユーザ指示認識手段がユーザの指示を誤って認識した認識失敗とを対応付けて蓄積する指示履歴蓄積手段と、
を備え、
前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加し、
前記通信端末が、
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
前記動作命令受信手段が受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
を備えることを特徴とする。

上記目的を達成するため、本発明に係る方法は、
ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムの情報処理方法であって、
前記情報処理装置が、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記ユーザ指示認識ステップにおいて認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信ステップと、
前記指示情報受信ステップにおいて受信した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
を含み、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加し、
前記通信端末が、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
を含むことを特徴とする。

本発明によれば、複数の異なる指示情報から互いの検索範囲を決定するので、操作指示候補を拡張してもユーザに対応した操作指示候補を効果的に絞ることができる。

本発明の第１実施形態に係る情報処理装置の構成を示すブロック図である。本発明の第２実施形態に係る情報処理システムの構成を示すブロック図である。本発明の第２実施形態に係る情報処理システムの動作概念を説明する図である。本発明の第２実施形態に係る情報処理システムの動作手順を示すシーケンス図である。本発明の第２実施形態に係るクラウドサーバの機能構成を示すブロック図である。本発明の第２実施形態に係るオーダ用タブレットの機能構成を示すブロック図である。本発明の第２実施形態に係る指示履歴学習データベースの構成を示す図である。本発明の第２実施形態に係るクラウドサーバのハードウェア構成を示すブロック図である。本発明の第２実施形態に係る検索範囲決定テーブルの構成を示す図である。本発明の第２実施形態に係るユーザの属性を示す図である。本発明の第２実施形態に係る指示情報認識テーブルの構成を示す図である。本発明の第２実施形態に係る指示動作命令生成テーブルの構成を示す図である。本発明の第２実施形態に係るクラウドサーバの処理手順を示すフローチャートである。本発明の第２実施形態に係る検索範囲決定処理の処理手順を示すフローチャートである。本発明の第２実施形態に係るユーザ指示認識処理の処理手順を示すフローチャートである。本発明の第２実施形態に係るオーダ用タブレットのハードウェア構成を示すブロック図である。本発明の第２実施形態に係るオーダ用タブレットの処理手順を示すフローチャートである。本発明の第３実施形態に係る情報処理システムの動作概念を説明する図である。本発明の第３実施形態に係る指示履歴学習データベースの構成を示す図である。本発明の第３実施形態に係る検索範囲決定処理の処理手順を示すフローチャートである。本発明の第４実施形態に係る情報処理システムの動作概念を説明する図である。本発明の第５実施形態に係る情報処理システムの動作手順を示すシーケンス図である。本発明の第５実施形態に係るオーダ用タブレットの機能構成を示すブロック図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。

［第１実施形態］
本発明の第１実施形態としての情報処理装置１００について、図１を用いて説明する。情報処理装置１００は、ユーザ１１１〜１１ｎの指示内容を認識する装置である。

図１に示すように、情報処理装置１００は、指示情報受信部１０１と、検索範囲決定部１０２と、ユーザ指示認識部１０３と、を含む。指示情報受信部１０１は、ユーザ１１１〜１１ｎの音声を介して取得されたユーザの指示音声を示す指示音声情報１０１ａと、ユーザ１１１〜１１ｎの動作を介して取得されたユーザの指示動作を示す指示動作情報１０１ｂとを、受信する。検索範囲決定部１０２は、指示音声情報１０１ａに応じて指示動作情報１０１ｂを認識するための検索範囲を決定し、または、指示動作情報１０１ｂに応じて指示音声情報１０１ａを認識するための検索範囲を決定する。ユーザ指示認識部１０３は、検索範囲決定部１０２で決定された検索範囲において指示音声情報１０１ａまたは指示動作情報１０１ｂを検索し、検索結果からユーザの指示を認識する。

本実施形態によれば、複数の異なる指示情報から互いの検索範囲を決定するので、操作指示候補を拡張してもユーザに対応した操作指示候補を効果的に絞ることができる。

［第２実施形態］
次に、本発明の第２実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、ユーザの音声による指示音声情報や、ユーザのジェスチャーやモーションによる指示動作情報を取得し、互いに操作指示候補を検索する検索範囲を決定する。

本実施形態に係る情報処理システムにおいては、具体的な例として、回転寿司における皿の自動回収において、皿投入口の駆動を店員が指示する場合を示す。店員は、手や指によるジェスチャーやモーションによる動作指示と同時に、音声指示も行なう。回転寿司の客席に用意されたオーダ用タブレットには、カメラやマイクが搭載され、ジェスチャーやモーションによる指示動作情報と指示音声情報とを取得する。情報処理装置であるクラウドサーバは、蓄積された過去の履歴から、指示動作情報と指示音声情報とに基づき、検索する互いの操作指示候補の範囲を決定する。例えば、回転寿司の客席における指示であることに基づく検索範囲の決定や、指示音声による使用言語や国籍に基づく動作指示の検索範囲の決定や、指示動作による人種や癖に基づく音声指示の検索範囲の決定が、行なわれる。

本実施形態によれば、操作指示をしたユーザの属性に対応した検索範囲に絞って操作指示候補の検索を行なうので、異なるユーザの属性を含む膨大な操作指示候補を用意でき、その場合においてもユーザに対応した操作指示候補を効果的に絞ることができる。

なお、本実施形態においては、認識した操作指示に基づいてオーダ用タブレットに指示動作命令を返す例を示すが、本実施形態は、操作指示を認識する技術として有用である。

《情報処理システム》
図２〜図４を参照して、本実施形態の情報処理システム２００の動作について説明する。

（システム構成）
図２は、本実施形態に係る情報処理システム２００の構成を示すブロック図である。

情報処理システム２００は、情報処理装置であるクラウドサーバ２１０と、クラウドサーバ２１０にネットワーク２５０を介して接続する通信端末であるオーダ用タブレット２２０と、オーダ用タブレット２２０の接続する皿投入口駆動部２３０と、皿投入口２４０とを有する。

オーダ用タブレット２２０は、タッチパネル２２１をユーザが指示することによって、寿司をオーダする機能を有すると共に、カメラ２２２により客席のユーザおよび店員の映像を撮像し、マイク２２３によりユーザおよび店員の音声を取得する。ユーザおよび店員の映像および音声はネットワーク２５０を介してクラウドサーバ２１０に送信される。

クラウドサーバ２１０は、指示情報受信部２１１と、検索範囲決定部２１２と、ユーザ指示認識部２１３とを備える。また、ユーザおよび店員の指示履歴を蓄積する指示履歴蓄積部である指示履歴学習データベース（図中、指示履歴学習ＤＢ）２１４を有する。

（動作概念）
図３は、本実施形態に係る情報処理システム２００の動作概念を説明する図である。

図３においては、回転寿司屋の店員２５１、２５２が、皿投入口駆動部２３０を駆動して皿投入口２４０を開く指示を、音声指示および動作指示（モーションやジェスチャー）で行なった場合に、クラウドサーバ２１０が指示内容を認識して、皿投入口駆動部２３０を駆動する例を示している。図３においては、左右の図が店員２５１および２５２による音声指示および動作指示を示し、中央図が皿投入口駆動部２３０を駆動して皿投入口２４０を開いた状態を示している。

まず、左図において、店員２５１は、“ＯＰＥＮ”と英語で音声指示を行ない、人差し指で皿投入口２４０を指す動作指示を行なっている。店員２５１を撮像するオーダ用タブレット２２０のカメラ２２２は、皿投入口２４０を指す店員２５１の動作の映像を撮像する。また、店員２５１の音声を取得するオーダ用タブレット２２０のマイク２２３は、店員２５１の“ＯＰＥＮ”との音声を取得する。オーダ用タブレット２２０は、撮像した店員２５１の動作の映像と、“ＯＰＥＮ”との音声とを、クラウドサーバ２１０に送信する。クラウドサーバ２１０は、過去の指示情報と認識結果との履歴を蓄積する指示履歴学習データベース２１４を参照して、店員２５１が皿投入口２４０を開くように指示したことを認識する。そして、中央図のように、店員２５１の指示を取得したオーダ用タブレット２２０を介して、皿投入口駆動部２３０を駆動して皿投入口２４０を開き、皿２６０を投入する。

一方、右図において、店員２５２は、“ひらけ”と日本語で音声指示を行ない、親指と人差し指とで輪を作る動作指示を行なっている。店員２５２を撮像するオーダ用タブレット２２０のカメラ２２２は、親指と人差し指とで輪を作る店員２５２の動作の映像を撮像する。また、店員２５２の音声を取得するオーダ用タブレット２２０のマイク２２３は、店員２５２の“ひらけ”との音声を取得する。オーダ用タブレット２２０は、撮像した店員２５２の動作の映像と、“ひらけ”との音声とを、クラウドサーバ２１０に送信する。クラウドサーバ２１０は、過去の指示情報と認識結果との履歴を蓄積する指示履歴学習データベース２１４を参照して、店員２５２が皿投入口２４０を開くように指示したことを認識する。そして、中央図のように、店員２５２の指示を取得したオーダ用タブレット２２０を介して、皿投入口駆動部２３０を駆動して皿投入口２４０を開き、皿２６０を投入する。

ここで、クラウドサーバ２１０の指示履歴学習データベース２１４には、店員２５１あるいは店員２５２の音声指示や動作指示から、互いの指示情報からユーザ指示を検索するための検索範囲を決定するように、指示履歴が蓄積されている。例えば、簡単な例としては、指示を行なっているシーンが、回転寿司屋の客席における店員の皿の後片付けのシーンであると認識すれば、そのシーンにおける店員の指示内容に音声や映像による検索範囲を絞る。あるいは、店員の言葉から言語認識を行ない、店員の国籍や使用言語、人種などを判定すれば、店員の動作指示（モーションやジェステャー）の検索範囲を、国籍や使用言語、人種などに特徴的な動作認識の検索範囲に絞る。あるいは、店員の動作指示（モーションやジェステャー）や店員の顔映像から店員の国籍や人種、あるいは表現方法などを判定すれば、店員の音声指示の検索範囲を、国籍や人種などに特徴的な音声認識の検索範囲に絞る。

本実施形態のクラウドサーバ２１０は、世界の様々なシーンにおける、他国籍・他人種の音声指示および動作指示を集積しており、世界中の通信端末からの音声指示および動作指示の送信に基づいて、それぞれの指示認識のための検索範囲を決定することにより、迅速で正確な指示認識ができる。さらに、クラウドサーバ２１０の指示履歴学習データベース２１４には、取得した音声指示および動作指示と、認識結果の指示とが一致しない場合も集積しており、一致しない出現数が閾値を超える場合には音声指示および動作指示を認識するための検索範囲に追加する。このように間違った言葉や動作を覚えた人の指示も受け付けることにより、柔軟性のある指示認識を可能とする。

なお、図３には、タッチパネル２２１を使用した店員の動作指示については、煩雑なため図示していないが、タッチパネル２２１からの動作指示も本実施形態には含まれる（図１５および図１８参照）。

（動作手順）
図４は、本実施形態に係る情報処理システム２００の動作手順を示すシーケンス図である。

まず、ステップＳ４０１において、オーダ用タブレット２２０のタッチパネル２２１からユーザまたは店員の指示入力を取得する。次に、ステップＳ４０３において、オーダ用タブレット２２０のカメラ２２２からユーザまたは店員のジェスチャー映像を取得する。次に、ステップＳ４０５においては、オーダ用タブレット２２０のマイク２２３からユーザまたは店員の音声指示を取得する。オーダ用タブレット２２０は、ステップＳ４０７において、取得した指示情報（指示音声情報および指示動作情報を含む）をクラウドサーバ２１０に送信する。なお、図４においては、タッチパネル２２１からの指示入力と、カメラ２２２からのジェスチャー映像と、マイク２２３からの音声指示とを示したが、少なくとも２つが組み合わされればよく、その取得順序も図４に限定されない。また、本例のように、指示がオーダ用タブレット２２０に接続する皿投入口駆動部２３０への指示である場合には、ユーザの指示対象となるデバイス情報も共に送信される。

指示情報を受信したクラウドサーバ２１０は、ステップＳ４０９において、指示履歴学習データベース２１４を参照して、互いの指示情報の検索範囲を決定する。かかる検索範囲の決定には、図３で説明したように、検索範囲の絞り込みと検索範囲の拡張とを含む。次に、クラウドサーバ２１０は、ステップＳ４１１において、指示履歴学習データベース２１４を参照して、決定した検索範囲において指示認識処理を行なう。次に、クラウドサーバ２１０は、ステップＳ４１３において、認識した指示に応じた動作命令を生成して、オーダ用タブレット２２０を介してデバイスに送信する。なお、本実施形態においては、デバイスは皿投入口駆動部２３０であり、指示動作命令は皿投入口駆動部２３０への皿投入口２４０を開く駆動命令である。そして、ステップＳ４１５において、指示情報と認識結果とを対応付けて、指示履歴学習データベース２１４に蓄積して、以降の検索範囲の決定および指示認識処理において参照する。

その後、他の店員などによる指示があれば、前述と同様に、ステップＳ４０１〜Ｓ４１５を繰り返して、指示履歴学習データベース２１４を参照して、その指示情報からより迅速により確実に指示内容を認識することが可能になる。

《クラウドサーバの機能構成》
図５は、本実施形態に係るクラウドサーバ２１０の機能構成を示すブロック図である。なお、実際には、ユーザ登録などを行なう構成も含まれるが、図５においては煩雑さを避けるため省略する。

クラウドサーバ２１０は、ネットワーク２５０を介してオーダ用タブレット２２０と通信する通信制御部５０１を有する。通信制御部５０１がオーダ用タブレット２２０から受信したメッセージから、指示情報受信部２１１は、オーダ用タブレット２２０のタッチパネル２２１、カメラ２２２、あるいはマイク２２３から取得した指示情報を受信する。指示情報蓄積部５０２は、指示情報受信部２１１が受信した指示情報を指示履歴学習データベース２１４（図７参照）に蓄積する。

検索範囲決定部２１２は、検索範囲決定テーブル２１２ａ（図９Ａ参照）を有し、指示情報受信部２１１が受信した指示情報から、指示履歴学習データベース２１４を参照して、お互いの指示認識のための検索範囲を決定する。ユーザ指示認識部２１３は、ユーザ指示認識テーブル２１３ａ（図９Ｃ参照）を有し、指示情報受信部２１１が受信した指示情報同士を組み合わせて、検索範囲決定部２１２が決定した検索範囲を、指示履歴学習データベース２１４を参照して検索し、ユーザ指示を認識する。

指示動作命令生成部５０３は、指示動作命令生成テーブル５０３ａ（図１０参照）を有し、ユーザ指示認識部２１３が認識したユーザ指示に応じた指示動作命令を生成する。そして、指示動作命令送信部５０４は、指示動作命令生成部５０３が生成した指示動作命令を、オーダ用タブレット２２０を介して皿投入口駆動部２３０に送信する。

《オーダ用タブレットの機能構成》
図６は、本実施形態に係るオーダ用タブレット２２０の機能構成を示すブロック図である。

本実施形態の通信端末であるオーダ用タブレット２２０は、クラウドサーバ２１０とのネットワークを介した通信を制御する通信制御部６０４を有する。また、オーダ用タブレット２２０は、タッチパネル２２１からなる操作部６０１と、入出力部６０６とを有する。入出力部６０６は、画面受信部６０５が受信したクラウドサーバ２１０からの画面、あるいはオーダ用タブレット２２０のオーダ入力用画面を表示する表示部６０７と、音声検出部であるマイク２２３を含み音声を入出力する音声入出力部６０８と、動作検出部であるカメラ２２２とを有する。そして、複数の指示情報をクラウドサーバ２１０に送信する指示情報送信部６０３を有する。

また、オーダ用タブレット２２０は、皿投入口駆動部２３０がＵＳＢ接続されたＵＳＢコネクタ６１０を有する。指示動作命令受信部６１２は、通信制御部６０４を介してクラウドサーバ２１０から、認識結果の指示情報に応じた指示動作命令を受信する。そして、動作命令出力部であるＵＳＢドライバ実行部６１１は、指示動作命令を、ＵＳＢコネクタ６１０を介して、皿投入口駆動部２３０に送信する。なお、図６においては、ＵＳＢコネクタ６１０を介したＵＳＢ接続を示したが、ＵＳＢ接続に限定されない。

（指示履歴学習データベース）
図７は、本実施形態に係る指示履歴学習データベース２１４の構成を示す図である。なお、指示履歴学習データベース２１４は、図７の構成に限定されない。

指示履歴学習データベース２１４は、マイク２２３が取得した音声指示データ７０１と、カメラ２２２が取得したジェスチャー指示データ７０２と、タッチパネル２２１が取得した操作指示データ７０３とに対応付けて、以下のデータを蓄積する。蓄積するデータは、かかる組合せの出現カウント７０４、指示認識が指示と一致した指示認識成功カウント７０５、指示認識が指示と異なった指示認識失敗カウント７０６、指示認識結果７０７、そして、指示認識の成功率７０８を記憶する。

《クラウドサーバのハードウェア構成》
図８は、本実施形態に係るクラウドサーバ２１０のハードウェア構成を示すブロック図である。

図８で、ＣＰＵ（Central Processing Unit)８１０は演算制御用のプロセッサであり、プログラムを実行することで図５のクラウドサーバ２１０の各機能構成部を実現する。ＲＯＭ（Read Only Memory)８２０は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部５０１は通信制御部であり、本実施形態においては、ネットワーク２５０を介してオーダ用タブレット２２０と通信する。なお、ＣＰＵ８１０は１つに限定されず、複数のＣＰＵであっても、あるいは画像処理用のＧＰＵ（Graphics Processing Unit）を含んでもよい。

ＲＡＭ（Random Access Memory)８４０は、ＣＰＵ８１０が一時記憶のワークエリアとして使用するランダムアクセスメモリである。ＲＡＭ８４０には、本実施形態の実現に必要なデータを記憶する領域が確保されている。ユーザＩＤ／ユーザ認証情報８４１は、通信中のユーザの識別子とその認証情報などである。端末ＩＤ／端末認証情報８４２は、通信中の携帯端末の識別子とその認証情報などである。指示情報８４３は、オーダ用タブレット２２０から受信した情報であり、指示音声８４４と、ジェスチャー映像８４５、操作入力８４６のいずれかを含む。検索範囲決定テーブル２１２ａは、検索範囲決定部２１２が検索範囲を決定するために使用するテーブルである（図９Ａ参照）。ユーザ指示認識テーブル２１３ａは、ユーザ指示認識部２１３がユーザ指示を認識するために使用するテーブルである（図９Ｃ参照）。指示動作命令生成テーブル５０３ａは、指示動作命令生成部５０３がユーザ指示の認識結果に応じて指示動作命令を生成するために使用するテーブルである（図１０参照）。送受信データ８４７は、通信制御部５０１を介してオーダ用タブレット２２０と送受信するデータである。

ストレージ８５０には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。指示履歴学習データベース２１４は、図７に示したデータベースである。ストレージ８５０には、以下のプログラムが格納される。クラウドサーバ制御プログラム８５１は、本クラウドサーバ２１０の全体を制御するプログラムである。検索範囲決定モジュール８５２は、クラウドサーバ制御プログラム８５１において、各指示情報を認識するための検索範囲を決定するモジュールである（図１２Ａ参照）。ユーザ指示認識モジュール８５３は、クラウドサーバ制御プログラム８５１において、決定された検索範囲においてユーザ指示を認識するモジュールである（図１２Ｂ参照）。指示動作命令生成モジュール８５４は、クラウドサーバ制御プログラム８５１において、認識したユーザ指示に応じた指示動作命令を生成するモジュールである。

なお、図８には、本実施形態に必須なデータやプログラムのみが示されており、本実施形態に関連しないデータやプログラムは図示されていない。

（検索範囲決定テーブル）
図９Ａは、本実施形態に係る検索範囲決定テーブル２１２ａの構成を示す図である。検索範囲決定テーブル２１２ａは、指示情報に基づき指示履歴学習データベース２１４を参照して、検索範囲決定部２１２の検索範囲決定のために使用される。

検索範囲決定テーブル２１２ａは、音声指示による検索範囲決定テーブル９１０と、ジェスチャー映像による検索範囲決定テーブル９２０と、操作入力による検索範囲決定テーブル９３０とを含む。音声指示による検索範囲決定テーブル９１０は、音声指示に基づいて、ジェスチャー映像の検索範囲や操作入力の検索範囲を決定するために使用される。また、ジェスチャー映像による検索範囲決定テーブル９２０は、ジェスチャー映像に基づいて、音声指示の検索範囲や操作入力の検索範囲を決定するために使用される。また、操作入力による検索範囲決定テーブル９３０は、操作入力に基づいて、音声指示の検索範囲やジェスチャー映像の検索範囲を決定するために使用される。

音声指示による検索範囲決定テーブル９１０は、音声指示９１１における受信音声、認識言語、あるいはその他の属性に対応付けて、ジェスチャー映像９１２の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、操作入力９１３の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、ジェスチャー映像による検索範囲決定テーブル９２０は、ジェスチャー映像９２１における受信映像、認識国籍、あるいはその他の属性に対応付けて、音声指示９２２の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、操作入力９２３の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、操作入力による検索範囲決定テーブル９３０は、操作入力９３１における受信操作、認識シーン、あるいはその他の属性に対応付けて、音声指示９３２の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、ジェスチャー映像９３３の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。

（ユーザの属性）
図９Ｂは、本実施形態に係るユーザの属性９４０を示す図である。上記図９Ａにおいては、検索範囲を決定する情報として、受信音声による認識言語や、受信映像からの認識国籍や、受信操作からの認識シーンを代表例として示した。しかしながら、検索範囲を決定する情報としては、他の情報を利用可能である。図９Ｂには、利用可能な情報として、ユーザの属性についてその例を示す。なお、検索範囲を決定する情報は、ユーザの属性に限定されない。

ユーザの属性９４０としては、ユーザＩＤ９４１に対応付けて、ユーザの国籍９４２と、ユーザの出生地９４３、ユーザの発声言語９４４と、ユーザの人種９４５と、ユーザの職業９４６と、ユーザが置かれた環境９４７と、ユーザが遭遇したシーン９４８と、ユーザの癖９４９とを含む。さらに、ユーザの属性９４０やユーザの癖９４９として、ユーザの方言などが含まれてもよい。

（ユーザ指示認識テーブル）
図９Ｃは、本実施形態に係るユーザ指示認識テーブル２１３ａの構成を示す図である。ユーザ指示認識テーブル２１３ａは、ユーザ指示認識部２１３が、検索範囲決定部２１２が決定した検索範囲内で、ユーザ指示を認識するために使用される。

ユーザ指示認識テーブル２１３ａは、音声指示９５１の受信音声、検索範囲、そして指示予測と、ジェスチャー映像９５２の受信映像、検索範囲、そして指示予測と、操作入力９５３の受信操作、検索範囲、そして指示予測と、を記憶する。そして、指示予測に基づいて、指示認識結果９５４と成功率９５５とを記憶する。

（指示動作命令生成テーブル）
図１０は、本実施形態に係る指示動作命令生成テーブル５０３ａの構成を示す図である。指示動作命令生成テーブル５０３ａは、指示動作命令生成部５０３が、ユーザ指示認識部２１３の認識結果に応じて、指示動作命令を生成するために使用される。

指示動作命令生成テーブル５０３ａは、動作命令送信先ＩＤ１００１に対応付けて、指示認識結果１００２、成功率１００３、指示認識結果１００２の成功率を判定するための閾値１００４、そして、成功率１００３が閾値１００４を超える場合に生成した指示動作命令１００５を記憶する。なお、動作命令送信先ＩＤ１００１は、オーダ用タブレット２２０のＩＤ、あるいは皿投入口駆動部２３０のＩＤを含む。

《クラウドサーバの処理手順》
図１１は、本実施形態に係るクラウドサーバ２１０の処理手順を示すフローチャートである。このフローチャートは、図８のＣＰＵ８１０がＲＡＭ８４０を使用して実行し、図５の各機能構成部を実現する。

まず、ステップＳ１１０１において、オーダ用タブレット２２０からの指示情報の受信か否かを判定する。指示情報の受信でなければ他の処理を行なう。指示情報の受信であればステップＳ１１０３に進んで、受信した指示情報から音声指示を取得する。また、ステップＳ１１０５において、受信した指示情報からジェスチャー映像を取得する。また、ステップＳ１１０７において、受信した指示情報から操作入力を取得する。

そして、ステップＳ１１０９においては、取得したそれぞれの指示情報に基づいて、他の指示情報の検索範囲決定処理を行なう（図１２Ａ参照）。続いて、ステップＳ１１１１において、検索範囲決定処理で決定された検索範囲で検索を行ない、ユーザ指示認識処理を実行する（図１２Ｂ参照）。

その後、ステップＳ１１１３において、ユーザ指示認識処理の認識結果に応じた、指示動作命令を生成して、指示動作命令の送信先に送信する。そして、受信した指示情報と、決定した検索範囲、認識結果のユーザ指示、対応する指示動作命令、を対応付けて、指示履歴を指示履歴学習データベース２１４に蓄積する。

（検索範囲決定処理）
図１２Ａは、本実施形態に係る検索範囲決定処理Ｓ１１０９−１の処理手順を示すフローチャートである。図１２Ａの検索範囲決定処理Ｓ１１０９−１は、操作入力をタッチパネル上のユーザの動作入力に限定しない場合を示す。なお、図１２Ａにおいては、ユーザの属性を検索範囲決定のために使用するが、これに限定されない。

まず、ステップＳ１２１１において、音声指示、ジェスチャー映像、操作入力からユーザの属性を取得する。次に、ステップＳ１２１３において、取得したユーザの属性に基づいて、音声指示、ジェスチャー映像、または操作入力の検索範囲を設定する。次に、ステップＳ１２１５において、取得したユーザの属性に基づいて、音声指示、ジェスチャー映像、または操作入力の非検索範囲を設定する。そして、ステップＳ１２１７において、指示履歴学習データベース２１４を参照して、音声指示、ジェスチャー映像、または操作入力の検索範囲を追加する。すなわち、ユーザあるいは店員が同じ間違いを繰り返す場合には、指示履歴学習からその間違いをユーザ指示と認識する処理を行なう。

（ユーザ指示認識処理）
図１２Ｂは、本実施形態に係るユーザ指示認識処理Ｓ１１１１の処理手順を示すフローチャートである。

まず、ステップＳ１２２１において、指示情報の組合せによる指示予測の認識成功カウントを取得する。ステップＳ１２２３においては、認識成功カウントが閾値αを超えるか否かを判定する。認識成功カウントが閾値αを超える場合はステップＳ１２２９に進んで、指示予測をユーザ指示と決定する。

一方、認識成功カウントが閾値αを超えない場合はステップＳ１２２５に進んで、指示情報の組合せによる指示予測の認識失敗カウントを取得する。ステップＳ１２２７においては、認識失敗カウントが閾値βを超えるか否かを判定する。認識失敗カウントが閾値βを超える場合はステップＳ１２２９に進んで、認識失敗した指示予測をユーザ指示と決定する。

認識失敗カウントが閾値βを超えない場合はステップＳ１２３１に進んで、ユーザ指示の認識失敗をオーダ用タブレット２２０に通知する。

《オーダ用タブレットのハードウェア構成》
図１３は、本実施形態に係るオーダ用タブレット２２０のハードウェア構成を示すブロック図である。

図１３で、ＣＰＵ１３１０は演算制御用のプロセッサであり、プログラムを実行することで図６のオーダ用タブレット２２０の各機能構成部を実現する。ＲＯＭ１３２０は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部６０４は通信制御部であり、本実施形態においては、ネットワークを介してクラウドサーバ２１０と通信する。なお、ＣＰＵ１３１０は１つに限定されず、複数のＣＰＵであっても、あるいは画像処理用のＧＰＵを含んでもよい。

ＲＡＭ１３４０は、ＣＰＵ１３１０が一時記憶のワークエリアとして使用するランダムアクセスメモリである。ＲＡＭ１３４０には、本実施形態の実現に必要なデータを記憶する領域が確保されている。ユーザＩＤ／ユーザ認証情報１３４１は、オーダ用タブレット２２０を使用中のユーザの識別子とその認証情報である。端末ＩＤ／端末認証情報１３４２は、当該オーダ用タブレット２２０の識別子とその認証情報である。指示情報１３４３は、各指示情報入力部を介して取得し、クラウドサーバ２１０に送信する情報であり、指示音声１３４４と、ジェスチャー映像１３４５、操作入力１３４６のいずれかを含む。指示動作命令１３４７は、クラウドサーバ２１０から受信したユーザに指示に応じた動作命令である。送受信データ１３４８は、通信制御部５０１を介してクラウドサーバ２１０と送受信するデータである。入出力データ１３４９は、入出力インタフェース１３６０を介して入出力される入出力データを示す。

ストレージ１３５０には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。オーダ用タブレット情報１３５１は、本オーダ用タブレット２２０の識別子を含む情報である。ストレージ１３５０には、以下のプログラムが格納される。オーダ用タブレット制御プログラム１３５２は、本オーダ用タブレット２２０の全体を制御する制御プログラムである。指示情報取得・送信モジュール１３５３は、オーダ用タブレット制御プログラム１３５２において、各指示情報入力部を介して指示情報を取得し、クラウドサーバ２１０に送信するモジュールである。指示動作命令受信・実行モジュール１３５４は、オーダ用タブレット制御プログラム１３５２において、クラウドサーバ２１０から指示動作命令を受信し、ＵＳＢコネクタ６１０を介して皿投入口駆動部２３０に送信して、指示動作を実行するモジュールである。

入出力インタフェース１３６０は、入出力機器との入出力データをインタフェースする。入出力インタフェース１３６０には、表示部６０７、タッチパネル２２１などからなる操作部６０１が接続される。また、スピーカやマイク２２３などの音声入出力部６０８が接続される。さらに、ＧＰＳ位置生成部１３６１やカメラ２２２などが接続される。そして、ＵＳＢコネクタ６１０が接続される。

なお、図１３には、本実施形態に必須なデータやプログラムのみが示されており、本実施形態に関連しないデータやプログラムは図示されていない。

《オーダ用タブレットの処理手順》
図１４は、本実施形態に係るオーダ用タブレット２２０の処理手順を示すフローチャートである。このフローチャートは、図１３のＣＰＵ１３１０がＲＡＭ１３４０を使用して実行し、図６の各機能構成部を実現する。

まず、ステップＳ１４１１において、タッチパネル２２１からユーザのオーダ操作を受けたか否かを判定する。また、タッチパネル２２１からユーザのオーダ操作を受けてない場合、ステップＳ１４２１において、店員による操作か否かを判定する。また、タッチパネル２２１からユーザのオーダ操作を受けてなく、かつ、店員による操作でない場合、ステップＳ１４３１において、クラウドサーバ２１０から指示動作命令を受信したか否かを判定する。

タッチパネル２２１からユーザのオーダ操作を受けた場合は、ステップＳ１４１３に進んで、タッチパネル２２１からオーダ情報を取得する。そして、ステップＳ１４１５において、オーダ情報を、オーダ処理をする店員に通知する。本実施形態の回転寿司屋であれば、オーダ内容を寿司職人に通知する。また、ステップＳ１４０７においては、売上げの勘定を行なうＰＯＳ（Point of sale：図示せず）に対してもオーダ情報を通知する。

また、店員の操作であればステップＳ１４２３に進んで、マイク２２３により音声指示を取得する。次に、ステップＳ１４２５において、カメラ２２２によりジェスチャー映像を取得する。そして、ステップＳ１４２７において、タッチパネル２２１からの操作入力を取得する。なお、ステップＳ１４２３〜Ｓ１４２７の順序はいずれでもよい。ステップＳ１４２９において、取得した指示情報をクラウドサーバ２１０に送信する。

また、クラウドサーバ２１０からの指示動作命令の受信であればステップＳ１４３３に進んで、指示動作命令を取得する。そして、ステップＳ１４３５において、出力先デバイス（本例では、皿投入口駆動部２３０）に指示動作命令を出力する。

なお、文字が読める従業員はタッチパネルを用いて、読めない従業員のみが音声＋モーションで指示を行なってもよい。また、本実施形態を他の業態に適用することも可能である。例えば、ホテルの従業員による作業において、道具を持ったときは、音声＋モーション、移動時は、手が使えるのでタッチパネルで入力という切り替えを行なってもよい。さらに、さらに、コンタクトセンタにおいて、手や足が不自由な人や、視力が弱い人の業務遂行を容易にするために上記のようなクラウドサーバを利用した音声＋モーションによる操作入力判定を行なってもよい。

［第３実施形態］
次に、本発明の第３実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、上記第２実施形態と比べると、オーダ用タブレットのタッチパネル上のユーザの動作指示を指示動作情報とする点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

本実施形態によれば、手や指によるジェスチャーやモーションによる動作指示に加えて、タッチパネル上のユーザのタッチ軌跡を指示動作情報として入力できる。

《情報処理システムの動作概念》
図１５は、本実施形態に係る情報処理システム１５００の動作概念を説明する図である。

図１５においては、回転寿司屋の店員２５１が、皿投入口駆動部２３０を駆動して皿投入口２４０を開く指示を、音声指示および動作指示（オーダ用タブレット１５２０のタッチパネル上の動作指示）で行なった場合に、クラウドサーバ１５１０が指示内容を認識して、皿投入口駆動部２３０を駆動する例を示している。図１５においては、左図が店員２５１による音声指示および動作指示を示し、右図が皿投入口駆動部２３０を駆動して皿投入口２４０を開いた状態を示している。

まず、左図において、オーダ用タブレット１５２０の表示画面には、カメラ２２２で撮像された客席が表示される。店員２５１は、“ＯＰＥＮ”と英語で音声指示を行ない、表示画面の皿投入口２４０の位置を、人差し指によって皿投入口２４０を指す動作指示を行なっている。オーダ用タブレット１５２０のタッチパネル２２１は、皿投入口２４０を指す動作指示を取得する。図１５においては、丸を描く動作１５２１を示している。また、オーダ用タブレット１５２０のマイク２２３は、店員２５１の“ＯＰＥＮ”との音声を取得する。オーダ用タブレット１５２０は、タッチパネル２２１上の動作指示と、“ＯＰＥＮ”との音声とを、クラウドサーバ１５１０に送信する。クラウドサーバ１５１０は、過去の指示情報と認識結果との履歴を蓄積する指示履歴学習データベース１５１４を参照して、店員２５１が皿投入口２４０を開くように指示したことを認識する。そして、右図のように、オーダ用タブレット１５２０を介して、皿投入口駆動部２３０を駆動して皿投入口２４０を開き、皿２６０を投入する。なお、動作指示の形状（丸や三角、四角など）と音声との関連による検索範囲の決定は、第２実施形態と同様に、本実施形態においても実行される。

なお、本実施形態のクラウドサーバ１５１０の機能構成部は、図５の指示履歴学習データベース２１４を指示履歴学習データベース１５１４に置き換えた機能構成となり、他は同様であるので、図示および説明は省略する。

（指示履歴学習データベース）
図１６は、本実施形態に係る指示履歴学習データベース１５１４の構成を示す図である。なお、指示履歴学習データベース１５１４は、図１６の構成に限定されない。

指示履歴学習データベース１５１４は、カメラ２２２が撮像したカメラ映像１６０１と、そのオーダ用タブレット１５２０への表示映像１６０２と、マイク２２３が取得した音声入力１６０３と、に対応付けて、以下のデータを蓄積する。蓄積するデータは、オーダ用タブレット１５２０のタッチパネル２２１上のモーション検索範囲１６０４、タッチパネル２２１上のモーション１６０５、指示認識結果１６０６、成功率１６０７を記憶する。

なお、図１６には図示しないが、図７のように、出現カウントや指示認識成功カウントや指示認識失敗カウントを記憶してもよい。

（検索範囲決定処理）
図１７は、本実施形態に係る検索範囲決定処理Ｓ１１０９−２の処理手順を示すフローチャートである。この図１７の検索範囲決定処理Ｓ１１０９−２は、第２実施形態の図１２Ａの検索範囲決定処理Ｓ１１０９−２を代替するフローチャートである。

まず、ステップＳ１７１１において、音声指示、表示映像からユーザの属性を取得する。次に、ステップＳ１７１３において、取得したユーザの属性に基づいて、タッチパネル・モーションの検索範囲を設定する。次に、ステップＳ１７１５において、取得したユーザの属性に基づいて、タッチパネル・モーションの非検索範囲を設定する。そして、ステップＳ１７１７において、指示履歴学習データベース１５１４を参照して、タッチパネル・モーションの検索範囲を追加する。すなわち、ユーザあるいは店員が同じ間違いを繰り返す場合には、指示履歴学習からその間違いをユーザ指示と認識する処理を行なう。

本実施形態によれば、ユーザのタッチ軌跡をも指示履歴学習データベースに格納したので、手や指によるジェスチャーやモーションによる動作指示に加えて、タッチパネル上のユーザのタッチ軌跡を指示動作情報として入力できる。

［第４実施形態］
次に、本発明の第４実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、上記第２および第３実施形態と比べると、タブレットのカメラから撮像した部屋の映像の表示を使って、指示音声情報と指示動作情報とに基づいて部屋の電子機器を自動制御する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

本実施形態によれば、指示音声情報と指示動作情報とを組み合わせて、部屋の電子機器の自動制御を指示できる。

《情報処理システムの動作概念》
図１８は、本実施形態に係る情報処理システム１８００の動作概念を説明する図である。なお、クラウドサーバ１８１０の有する指示履歴学習データベース１５１４は、図１６と同様であってよい。

図１８においては、タブレットあるいはスマートフォンなどの通信端末１８２０に、カメラ２２２で撮像した部屋の映像が表示されている。部屋には、空調機とテレビが存在する。この部屋の映像から制御対象を動作指示しながら、各ユーザ１８１１〜１８１３が各国の言語で、制御内容を指示している。

映像上では、タッチパネル２２１上で、空調機の指示動作１８２１とテレビの指示動作１８２２とが入力される。なお、指示動作１８２１と指示動作１８２２は異なる形状であってもよい。

そして、日本人１８１１は、“室温２３℃、３チャンネル受像”との音声指示が行なわれる。また、中国人１８１２の場合は、図１８に示すように中国語で音声指示が行なわれる。また、米国人１８１３に場合は、“Room temperature to 23 degree. Televising of the channel 3.”との音声指示が行なわれる。

本実施形態によれば、音声指示の話者の国籍や発声言語によらず、クラウドサーバ１８１０が、指示内容の検索範囲を決定して、迅速で確実な指示認識を行なう。そして、ユーザ指示に応じた指示動作命令をクラウドサーバ１８１０から送信することによって、ユーザ指示に従う動作を実現する。

なお、図１８においては、動作指示をタッチパネル２２１上の動作指示としたが、第２実施形態のように、ユーザのジェスチャーやモーションをカメラ２２２で撮像した映像から取得してもよい。

［第５実施形態］
次に、本発明の第５実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、上記第２および第４実施形態と比べると、指示音声情報と指示動作情報とに基づいてユーザの操作指示を、クラウドサーバではなく通信端末において認識する点で異なる。その他の構成および動作は、第２および第４実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

本実施形態によれば、ユーザの操作指示を通信端末において認識するので、通信のトラフィックを軽減して迅速な指示認識ができる。

《情報処理システムの動作手順》
図１９は、本実施形態に係る情報処理システム１９００の動作手順を示すシーケンス図である。なお、図１９において、第２実施形態の図４と同様のステップには同じステップ番号を付して、説明は省略する。

まず、ステップＳ１９０１においては、クラウドサーバ１９１０から通信端末であるオーダ用タブレット１９２０に対して、指示認識アプリケーション（以下、指示認識アプリ）と指示履歴学習ＤＢ２１４の一部をダウンロードする。なお、指示履歴学習ＤＢ２１４の一部は、オーダ用タブレット１９２０において認識するユーザの操作指示に対応する範囲のデータであってよい。

オーダ用タブレット１９２０は、受信した指示履歴学習ＤＢ２１４の一部を自分の指示履歴学習ＤＢ１９２４に格納して、ステップＳ１９０３において、ダウンロードされた指示認識アプリを起動する。そして、オーダ用タブレット１９２０は、図４と同様に、ステップＳ４０１、Ｓ４０３、または、Ｓ４０５において、タッチパネルからの指示入力取得、カメラからのジェスチャー映像取得、または、マイクからの音声指示取得をする。

オーダ用タブレット１９２０は、ステップＳ１９０９において、指示履歴学習ＤＢ１９２４を参照して、タッチパネルからの指示入力取得、カメラからのジェスチャー映像取得、または、マイクからの音声指示取得に基づいて、それぞれの指示認識のための検索範囲を決定する。そして、ステップＳ１９１１において、指示履歴学習ＤＢ１９２４を参照して、検索範囲を検索して合致した検索結果を指示として認識する。そして、ステップＳ１９１３において、認識した指示に対応する指示動作命令を生成して、対象機器に送信する。本例では、対象機器は、皿投入口起動部２３０である。

次に、オーダ用タブレット１９２０は、ステップＳ１９１５において、認識した指示履歴を取得した指示情報に対応付けて、指示履歴学習ＤＢ１９２４に蓄積する。また、ステップＳ１９１７において、認識した指示履歴を取得した指示情報に対応付けてクラウドサーバ１９１０に送信する。クラウドサーバ１９１０は、ステップＳ１９１９において、認識した指示履歴を取得した指示情報に対応付けて、指示履歴学習ＤＢ２１４に全体の学習履歴として蓄積する。

なお、指示履歴学習ＤＢ１９２４の構成は、その蓄積データ量がオーダ用タブレット１９２０に対応する量だけであることを除いて、図７と同様であるので、説明は省略する。また、図１９においては、指示履歴学習ＤＢ１９２４の内容は、クラウドサーバ１９１０からダウンロードされるように説明したが、オーダ用タブレット１９２０が独立して有する構成であってもよい。

《オーダ用タブレットの機能構成》
図２０は、本発明の第５実施形態に係るオーダ用タブレット１９２０の機能構成を示すブロック図である。なお、図２０において、第２実施形態の図６と同様の機能構成部には同じ参照番号を付して、説明を省略する。

指示認識アプリ／指示履歴学習ＤＢ受信部２００１は、クラウドサーバ１９１０から通信制御部６０４を介して、指示認識アプリと、オーダ用タブレット１９２０に関連する指示履歴学習ＤＢのデータとを受信する。そして、指示履歴学習ＤＢのデータは、指示履歴学習ＤＢ１９２５に格納される。

指示認識アプリ実行部２００２は、クラウドサーバ１９１０からダウンロードされた指示認識アプリを実行して、指示認識を実現する。指示認識アプリ実行部２００２は、指示情報取得部２００３と、検索範囲決定部２００４と、ユーザ指示認識部２００５と、指示動作命令生成部２００６と、を有する。

指示情報取得部２００３は、タッチパネル２２１、マイク２２３、または、カメラ２２２からのユーザの指示情報を取得する。検索範囲決定部２００４は、指示情報取得部２００３が取得した指示情報から、指示履歴学習データベース１９２４を参照して、お互いの指示認識のための検索範囲を決定する。ユーザ指示認識部２００５は、指示情報取得部２００３が受信した指示情報同士を組み合わせて、検索範囲決定部２００４が決定した検索範囲を、指示履歴学習データベース１９２４を参照して検索し、ユーザ指示を認識する。

指示動作命令生成部２００６は、ユーザ指示認識部２００５が認識したユーザ指示に応じた指示動作命令を生成する。そして、指示動作命令生成部２００６が生成した指示動作命令は、ＵＳＢドライバ実行部６１１により、ＵＳＢコネクタ６１０を介して皿投入口駆動部２３０に送信される。また、指示動作命令生成部２００６が生成した指示動作命令は、取得した指示情報と対応付けて通信制御部６０４を介してクラウドサーバ１９１０に送信され、蓄積される。

なお、第２実施形態のクラウドサーバ２１０と同様に、図２０のオーダ用タブレット１９２０の検索範囲決定部２００４は、検索範囲決定テーブル（図示せず）を有する。また、ユーザ指示認識部２００５は、ユーザ指示認識テーブル（図示せず）を有する。また、指示動作命令生成部２００６は、指示動作命令生成テーブル（図示せず）を有する。これらテーブルの構成は、図９Ａ、図９Ｂまたは図１０と同様であるので、説明は省略する。

［他の実施形態］
なお、上記実施形態においては、店舗における店員の操作指示、あるいは部屋内に設置された電子機器への操作指示を音声と動作とに基づいて認識する例を示した。しかしながら、本発明のユーザの操作指示を音声と動作とに基づいて認識する技術は、カメラやマイクを併用する通信端末に対するユーザの操作指示を認識する種々の技術に適用ができる。例えば、クラウドサーバが、ユーザが参加する会議システムを管理している場合に、ユーザによる会議システムへの指示を、会議システムを構成する通信端末が取得したユーザの音声と動作とに基づいて認識する技術に、容易に適用される。

また、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。

また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるＷＷＷ（World Wide Web)サーバも、本発明の範疇に含まれる。

Claims

ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
前記指示情報受信手段が受信した指示音声情報および指示動作情報と、前記ユーザ指示認識手段がユーザの指示を誤って認識した認識失敗とを対応付けて蓄積する指示履歴蓄積手段と、
を備え、
前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする情報処理装置。
前記指示情報受信手段は、さらに、前記ユーザの指示対象となるデバイスのデバイス情報を受信し、
前記ユーザ指示認識手段が認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信手段をさらに備えることを特徴とする請求項１に記載の情報処理装置。
前記指示動作情報は、ユーザの指示動作を撮像するカメラを介して、前記ユーザのジェスチャーあるいはモーションに基づいて取得されることを特徴とする請求項１または２に記載の情報処理装置。
前記指示動作情報は、ユーザの指示動作を入力するタッチパネルを介して、前記ユーザの指の前記タッチパネルでのモーションに基づいて取得されることを特徴とする請求項１乃至３のいずれか１項に記載の情報処理装置。
前記検索範囲決定手段は、前記指示音声情報または前記指示動作情報に基づいてユーザの属性を取得し、前記ユーザの属性に応じて前記検索範囲を決定することを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
前記ユーザの属性は、前記ユーザの国籍と、前記ユーザの発声言語と、前記ユーザの人種と、前記ユーザの職業と、前記ユーザが置かれた環境と、前記ユーザが遭遇したシーンと、前記ユーザの癖と、前記ユーザの方言とのいずれかを含むことを特徴とする請求項５に記載の情報処理装置。
前記指示履歴蓄積手段は、さらに、前記指示情報受信手段が受信した指示音声情報および指示動作情報と、前記検索範囲と、前記ユーザ指示認識手段が認識したユーザの指示とを対応付けて蓄積し、
前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記指示音声情報または前記指示動作情報を認識するための検索範囲を決定することを特徴とする請求項１乃至６のいずれか１項に記載の情報処理装置。
前記ユーザは店の店員であって、前記ユーザ指示認識手段は、前記店員の指示を認識することを特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。
前記ユーザ指示認識手段は、部屋に設置された機器に対する操作指示を認識することを特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。
前記情報処理装置は前記ユーザが参加する会議システムを管理し、
前記ユーザ指示認識手段は、前記ユーザによる前記会議システムへの指示を認識することを特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記指示情報受信ステップにおいて受信した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
を含み、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする情報処理装置の制御方法。
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記指示情報受信ステップにおいて受信した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
をコンピュータに実行させる情報処理装置の制御プログラムであって、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする情報処理装置の制御プログラム。
請求項２に記載の情報処理装置と通信する通信端末であって、
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
前記動作命令受信手段が受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
を備えることを特徴とする通信端末。
請求項２に記載の情報処理装置と通信する通信端末の制御方法であって、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
を含むことを特徴とする通信端末の制御方法。
請求項２に記載の情報処理装置と通信する通信端末の制御プログラムであって、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
をコンピュータに実行させることを特徴とする通信端末の制御プログラム。
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
前記指示情報取得手段が取得した指示音声情報および指示動作情報と、前記ユーザ指示認識手段がユーザの指示を誤って認識した認識失敗とを対応付けて蓄積する指示履歴蓄積手段と、
を備え、
前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする通信端末。
ユーザの音声を検出する音声検出ステップと、
前記ユーザの動作を検出する動作検出ステップと、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記指示情報取得ステップにおいて取得した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
を含み、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする通信端末の制御方法。
ユーザの音声を検出する音声検出ステップと、
前記ユーザの動作を検出する動作検出ステップと、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記指示情報取得ステップにおいて取得した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
をコンピュータに実行させる通信端末の制御プログラムであって、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする通信端末の制御プログラム。
ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムであって、
前記情報処理装置が、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得されたユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
前記ユーザ指示認識手段が認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信手段と、
前記指示情報受信手段が受信した指示音声情報および指示動作情報と、前記ユーザ指示認識手段がユーザの指示を誤って認識した認識失敗とを対応付けて蓄積する指示履歴蓄積手段と、
を備え、
前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加し、
前記通信端末が、
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
前記動作命令受信手段が受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
を備えることを特徴とする情報処理システム。
ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムの情報処理方法であって、
前記情報処理装置が、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記ユーザ指示認識ステップにおいて認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信ステップと、
前記指示情報受信ステップにおいて受信した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
を含み、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加し、
前記通信端末が、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
を含むことを特徴とする情報処理方法。