JP6044819B2 - 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム - Google Patents

情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム Download PDF

Info

Publication number
JP6044819B2
JP6044819B2 JP2012123804A JP2012123804A JP6044819B2 JP 6044819 B2 JP6044819 B2 JP 6044819B2 JP 2012123804 A JP2012123804 A JP 2012123804A JP 2012123804 A JP2012123804 A JP 2012123804A JP 6044819 B2 JP6044819 B2 JP 6044819B2
Authority
JP
Japan
Prior art keywords
instruction
user
information
voice
search range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012123804A
Other languages
English (en)
Other versions
JP2013250683A (ja
Inventor
小林 佳和
佳和 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012123804A priority Critical patent/JP6044819B2/ja
Priority to EP13797821.9A priority patent/EP2857958A4/en
Priority to US14/403,268 priority patent/US9489951B2/en
Priority to PCT/JP2013/064238 priority patent/WO2013179985A1/ja
Publication of JP2013250683A publication Critical patent/JP2013250683A/ja
Application granted granted Critical
Publication of JP6044819B2 publication Critical patent/JP6044819B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、複数の異なる指示情報からユーザの指示内容を認識する技術に関する。
上記技術分野において、特許文献1には、カメラによって撮影されたユーザのジェスチャーに基づく操作指示候補と、マイクロフォンによって集音されたユーザの音声に基づく操作指示候補とを統合して、ユーザの意図する1つの操作指示を出力する技術が開示されている。
特開2002−182680号公報
しかしながら、上記文献に記載の技術では、ユーザのジェスチャーに基づく操作指示候補の解析と、ユーザの音声に基づく操作指示候補の解析とはそれぞれ独立して行なわれるので、ユーザに対応した操作指示候補を効果的に絞ることができなかった。
本発明の目的は、上述の課題を解決する技術を提供することにある。
上記目的を達成するため、本発明に係る情報処理装置は、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
前記指示情報受信手段が受信した指示音声情報および指示動作情報と、前記ユーザ指示認識手段がユーザの指示を誤って認識した認識失敗とを対応付けて蓄積する指示履歴蓄積手段と、
を備え
前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする。
上記目的を達成するため、本発明に係る情報処理装置の制御方法は、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記指示情報受信ステップにおいて受信した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
を含み、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする。
上記目的を達成するため、本発明に係るプログラムは、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記指示情報受信ステップにおいて受信した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
をコンピュータに実行させる情報処理装置の制御プログラムであって、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする。
上記目的を達成するため、本発明に係る装置は、
上記情報処理装置と通信する通信端末であって、
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
前記動作命令受信手段が受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
を備えることを特徴とする。
上記目的を達成するため、本発明に係る方法は、
上記情報処理装置と通信する通信端末の制御方法であって、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
を含むことを特徴とする。
上記目的を達成するため、本発明に係るプログラムは、
上記情報処理装置と通信する通信端末の制御プログラムであって、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
をコンピュータに実行させることを特徴とする。
上記目的を達成するため、本発明に係る通信端末は、
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
前記指示情報取得手段が取得した指示音声情報および指示動作情報と、前記ユーザ指示認識手段がユーザの指示を誤って認識した認識失敗とを対応付けて蓄積する指示履歴蓄積手段と、
を備え
前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする。
上記目的を達成するため、本発明に係る通信端末の制御方法は、
ユーザの音声を検出する音声検出ステップと、
前記ユーザの動作を検出する動作検出ステップと、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記指示情報取得ステップにおいて取得した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
を含み、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする。
上記目的を達成するため、本発明に係るプログラムは、
ユーザの音声を検出する音声検出ステップと、
前記ユーザの動作を検出する動作検出ステップと、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記指示情報取得ステップにおいて取得した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
をコンピュータに実行させる通信端末の制御プログラムであって、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする。
上記目的を達成するため、本発明に係るシステムは、
ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムであって、
前記情報処理装置が、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得されたユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
前記ユーザ指示認識手段が認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信手段と、
前記指示情報受信手段が受信した指示音声情報および指示動作情報と、前記ユーザ指示認識手段がユーザの指示を誤って認識した認識失敗とを対応付けて蓄積する指示履歴蓄積手段と、
を備え、
前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加し、
前記通信端末が、
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
前記動作命令受信手段が受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
を備えることを特徴とする。
上記目的を達成するため、本発明に係る方法は、
ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムの情報処理方法であって、
前記情報処理装置が、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記ユーザ指示認識ステップにおいて認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信ステップと、
前記指示情報受信ステップにおいて受信した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて指示履歴蓄積手に蓄積する指示履歴蓄積ステップと、
を含み、
前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加し、
前記通信端末が、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
を含むことを特徴とする。
本発明によれば、複数の異なる指示情報から互いの検索範囲を決定するので、操作指示候補を拡張してもユーザに対応した操作指示候補を効果的に絞ることができる。
本発明の第1実施形態に係る情報処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る情報処理システムの構成を示すブロック図である。 本発明の第2実施形態に係る情報処理システムの動作概念を説明する図である。 本発明の第2実施形態に係る情報処理システムの動作手順を示すシーケンス図である。 本発明の第2実施形態に係るクラウドサーバの機能構成を示すブロック図である。 本発明の第2実施形態に係るオーダ用タブレットの機能構成を示すブロック図である。 本発明の第2実施形態に係る指示履歴学習データベースの構成を示す図である。 本発明の第2実施形態に係るクラウドサーバのハードウェア構成を示すブロック図である。 本発明の第2実施形態に係る検索範囲決定テーブルの構成を示す図である。 本発明の第2実施形態に係るユーザの属性を示す図である。 本発明の第2実施形態に係る指示情報認識テーブルの構成を示す図である。 本発明の第2実施形態に係る指示動作命令生成テーブルの構成を示す図である。 本発明の第2実施形態に係るクラウドサーバの処理手順を示すフローチャートである。 本発明の第2実施形態に係る検索範囲決定処理の処理手順を示すフローチャートである。 本発明の第2実施形態に係るユーザ指示認識処理の処理手順を示すフローチャートである。 本発明の第2実施形態に係るオーダ用タブレットのハードウェア構成を示すブロック図である。 本発明の第2実施形態に係るオーダ用タブレットの処理手順を示すフローチャートである。 本発明の第3実施形態に係る情報処理システムの動作概念を説明する図である。 本発明の第3実施形態に係る指示履歴学習データベースの構成を示す図である。 本発明の第3実施形態に係る検索範囲決定処理の処理手順を示すフローチャートである。 本発明の第4実施形態に係る情報処理システムの動作概念を説明する図である。 本発明の第5実施形態に係る情報処理システムの動作手順を示すシーケンス図である。 本発明の第5実施形態に係るオーダ用タブレットの機能構成を示すブロック図である。
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
[第1実施形態]
本発明の第1実施形態としての情報処理装置100について、図1を用いて説明する。情報処理装置100は、ユーザ111〜11nの指示内容を認識する装置である。
図1に示すように、情報処理装置100は、指示情報受信部101と、検索範囲決定部102と、ユーザ指示認識部103と、を含む。指示情報受信部101は、ユーザ111〜11nの音声を介して取得されたユーザの指示音声を示す指示音声情報101aと、ユーザ111〜11nの動作を介して取得されたユーザの指示動作を示す指示動作情報101bとを、受信する。検索範囲決定部102は、指示音声情報101aに応じて指示動作情報101bを認識するための検索範囲を決定し、または、指示動作情報101bに応じて指示音声情報101aを認識するための検索範囲を決定する。ユーザ指示認識部103は、検索範囲決定部102で決定された検索範囲において指示音声情報101aまたは指示動作情報101bを検索し、検索結果からユーザの指示を認識する。
本実施形態によれば、複数の異なる指示情報から互いの検索範囲を決定するので、操作指示候補を拡張してもユーザに対応した操作指示候補を効果的に絞ることができる。
[第2実施形態]
次に、本発明の第2実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、ユーザの音声による指示音声情報や、ユーザのジェスチャーやモーションによる指示動作情報を取得し、互いに操作指示候補を検索する検索範囲を決定する。
本実施形態に係る情報処理システムにおいては、具体的な例として、回転寿司における皿の自動回収において、皿投入口の駆動を店員が指示する場合を示す。店員は、手や指によるジェスチャーやモーションによる動作指示と同時に、音声指示も行なう。回転寿司の客席に用意されたオーダ用タブレットには、カメラやマイクが搭載され、ジェスチャーやモーションによる指示動作情報と指示音声情報とを取得する。情報処理装置であるクラウドサーバは、蓄積された過去の履歴から、指示動作情報と指示音声情報とに基づき、検索する互いの操作指示候補の範囲を決定する。例えば、回転寿司の客席における指示であることに基づく検索範囲の決定や、指示音声による使用言語や国籍に基づく動作指示の検索範囲の決定や、指示動作による人種や癖に基づく音声指示の検索範囲の決定が、行なわれる。
本実施形態によれば、操作指示をしたユーザの属性に対応した検索範囲に絞って操作指示候補の検索を行なうので、異なるユーザの属性を含む膨大な操作指示候補を用意でき、その場合においてもユーザに対応した操作指示候補を効果的に絞ることができる。
なお、本実施形態においては、認識した操作指示に基づいてオーダ用タブレットに指示動作命令を返す例を示すが、本実施形態は、操作指示を認識する技術として有用である。
《情報処理システム》
図2〜図4を参照して、本実施形態の情報処理システム200の動作について説明する。
(システム構成)
図2は、本実施形態に係る情報処理システム200の構成を示すブロック図である。
情報処理システム200は、情報処理装置であるクラウドサーバ210と、クラウドサーバ210にネットワーク250を介して接続する通信端末であるオーダ用タブレット220と、オーダ用タブレット220の接続する皿投入口駆動部230と、皿投入口240とを有する。
オーダ用タブレット220は、タッチパネル221をユーザが指示することによって、寿司をオーダする機能を有すると共に、カメラ222により客席のユーザおよび店員の映像を撮像し、マイク223によりユーザおよび店員の音声を取得する。ユーザおよび店員の映像および音声はネットワーク250を介してクラウドサーバ210に送信される。
クラウドサーバ210は、指示情報受信部211と、検索範囲決定部212と、ユーザ指示認識部213とを備える。また、ユーザおよび店員の指示履歴を蓄積する指示履歴蓄積部である指示履歴学習データベース(図中、指示履歴学習DB)214を有する。
(動作概念)
図3は、本実施形態に係る情報処理システム200の動作概念を説明する図である。
図3においては、回転寿司屋の店員251、252が、皿投入口駆動部230を駆動して皿投入口240を開く指示を、音声指示および動作指示(モーションやジェスチャー)で行なった場合に、クラウドサーバ210が指示内容を認識して、皿投入口駆動部230を駆動する例を示している。図3においては、左右の図が店員251および252による音声指示および動作指示を示し、中央図が皿投入口駆動部230を駆動して皿投入口240を開いた状態を示している。
まず、左図において、店員251は、“OPEN”と英語で音声指示を行ない、人差し指で皿投入口240を指す動作指示を行なっている。店員251を撮像するオーダ用タブレット220のカメラ222は、皿投入口240を指す店員251の動作の映像を撮像する。また、店員251の音声を取得するオーダ用タブレット220のマイク223は、店員251の“OPEN”との音声を取得する。オーダ用タブレット220は、撮像した店員251の動作の映像と、“OPEN”との音声とを、クラウドサーバ210に送信する。クラウドサーバ210は、過去の指示情報と認識結果との履歴を蓄積する指示履歴学習データベース214を参照して、店員251が皿投入口240を開くように指示したことを認識する。そして、中央図のように、店員251の指示を取得したオーダ用タブレット220を介して、皿投入口駆動部230を駆動して皿投入口240を開き、皿260を投入する。
一方、右図において、店員252は、“ひらけ”と日本語で音声指示を行ない、親指と人差し指とで輪を作る動作指示を行なっている。店員252を撮像するオーダ用タブレット220のカメラ222は、親指と人差し指とで輪を作る店員252の動作の映像を撮像する。また、店員252の音声を取得するオーダ用タブレット220のマイク223は、店員252の“ひらけ”との音声を取得する。オーダ用タブレット220は、撮像した店員252の動作の映像と、“ひらけ”との音声とを、クラウドサーバ210に送信する。クラウドサーバ210は、過去の指示情報と認識結果との履歴を蓄積する指示履歴学習データベース214を参照して、店員252が皿投入口240を開くように指示したことを認識する。そして、中央図のように、店員252の指示を取得したオーダ用タブレット220を介して、皿投入口駆動部230を駆動して皿投入口240を開き、皿260を投入する。
ここで、クラウドサーバ210の指示履歴学習データベース214には、店員251あるいは店員252の音声指示や動作指示から、互いの指示情報からユーザ指示を検索するための検索範囲を決定するように、指示履歴が蓄積されている。例えば、簡単な例としては、指示を行なっているシーンが、回転寿司屋の客席における店員の皿の後片付けのシーンであると認識すれば、そのシーンにおける店員の指示内容に音声や映像による検索範囲を絞る。あるいは、店員の言葉から言語認識を行ない、店員の国籍や使用言語、人種などを判定すれば、店員の動作指示(モーションやジェステャー)の検索範囲を、国籍や使用言語、人種などに特徴的な動作認識の検索範囲に絞る。あるいは、店員の動作指示(モーションやジェステャー)や店員の顔映像から店員の国籍や人種、あるいは表現方法などを判定すれば、店員の音声指示の検索範囲を、国籍や人種などに特徴的な音声認識の検索範囲に絞る。
本実施形態のクラウドサーバ210は、世界の様々なシーンにおける、他国籍・他人種の音声指示および動作指示を集積しており、世界中の通信端末からの音声指示および動作指示の送信に基づいて、それぞれの指示認識のための検索範囲を決定することにより、迅速で正確な指示認識ができる。さらに、クラウドサーバ210の指示履歴学習データベース214には、取得した音声指示および動作指示と、認識結果の指示とが一致しない場合も集積しており、一致しない出現数が閾値を超える場合には音声指示および動作指示を認識するための検索範囲に追加する。このように間違った言葉や動作を覚えた人の指示も受け付けることにより、柔軟性のある指示認識を可能とする。
なお、図3には、タッチパネル221を使用した店員の動作指示については、煩雑なため図示していないが、タッチパネル221からの動作指示も本実施形態には含まれる(図15および図18参照)。
(動作手順)
図4は、本実施形態に係る情報処理システム200の動作手順を示すシーケンス図である。
まず、ステップS401において、オーダ用タブレット220のタッチパネル221からユーザまたは店員の指示入力を取得する。次に、ステップS403において、オーダ用タブレット220のカメラ222からユーザまたは店員のジェスチャー映像を取得する。次に、ステップS405においては、オーダ用タブレット220のマイク223からユーザまたは店員の音声指示を取得する。オーダ用タブレット220は、ステップS407において、取得した指示情報(指示音声情報および指示動作情報を含む)をクラウドサーバ210に送信する。なお、図4においては、タッチパネル221からの指示入力と、カメラ222からのジェスチャー映像と、マイク223からの音声指示とを示したが、少なくとも2つが組み合わされればよく、その取得順序も図4に限定されない。また、本例のように、指示がオーダ用タブレット220に接続する皿投入口駆動部230への指示である場合には、ユーザの指示対象となるデバイス情報も共に送信される。
指示情報を受信したクラウドサーバ210は、ステップS409において、指示履歴学習データベース214を参照して、互いの指示情報の検索範囲を決定する。かかる検索範囲の決定には、図3で説明したように、検索範囲の絞り込みと検索範囲の拡張とを含む。次に、クラウドサーバ210は、ステップS411において、指示履歴学習データベース214を参照して、決定した検索範囲において指示認識処理を行なう。次に、クラウドサーバ210は、ステップS413において、認識した指示に応じた動作命令を生成して、オーダ用タブレット220を介してデバイスに送信する。なお、本実施形態においては、デバイスは皿投入口駆動部230であり、指示動作命令は皿投入口駆動部230への皿投入口240を開く駆動命令である。そして、ステップS415において、指示情報と認識結果とを対応付けて、指示履歴学習データベース214に蓄積して、以降の検索範囲の決定および指示認識処理において参照する。
その後、他の店員などによる指示があれば、前述と同様に、ステップS401〜S415を繰り返して、指示履歴学習データベース214を参照して、その指示情報からより迅速により確実に指示内容を認識することが可能になる。
《クラウドサーバの機能構成》
図5は、本実施形態に係るクラウドサーバ210の機能構成を示すブロック図である。なお、実際には、ユーザ登録などを行なう構成も含まれるが、図5においては煩雑さを避けるため省略する。
クラウドサーバ210は、ネットワーク250を介してオーダ用タブレット220と通信する通信制御部501を有する。通信制御部501がオーダ用タブレット220から受信したメッセージから、指示情報受信部211は、オーダ用タブレット220のタッチパネル221、カメラ222、あるいはマイク223から取得した指示情報を受信する。指示情報蓄積部502は、指示情報受信部211が受信した指示情報を指示履歴学習データベース214(図7参照)に蓄積する。
検索範囲決定部212は、検索範囲決定テーブル212a(図9A参照)を有し、指示情報受信部211が受信した指示情報から、指示履歴学習データベース214を参照して、お互いの指示認識のための検索範囲を決定する。ユーザ指示認識部213は、ユーザ指示認識テーブル213a(図9C参照)を有し、指示情報受信部211が受信した指示情報同士を組み合わせて、検索範囲決定部212が決定した検索範囲を、指示履歴学習データベース214を参照して検索し、ユーザ指示を認識する。
指示動作命令生成部503は、指示動作命令生成テーブル503a(図10参照)を有し、ユーザ指示認識部213が認識したユーザ指示に応じた指示動作命令を生成する。そして、指示動作命令送信部504は、指示動作命令生成部503が生成した指示動作命令を、オーダ用タブレット220を介して皿投入口駆動部230に送信する。
《オーダ用タブレットの機能構成》
図6は、本実施形態に係るオーダ用タブレット220の機能構成を示すブロック図である。
本実施形態の通信端末であるオーダ用タブレット220は、クラウドサーバ210とのネットワークを介した通信を制御する通信制御部604を有する。また、オーダ用タブレット220は、タッチパネル221からなる操作部601と、入出力部606とを有する。入出力部606は、画面受信部605が受信したクラウドサーバ210からの画面、あるいはオーダ用タブレット220のオーダ入力用画面を表示する表示部607と、音声検出部であるマイク223を含み音声を入出力する音声入出力部608と、動作検出部であるカメラ222とを有する。そして、複数の指示情報をクラウドサーバ210に送信する指示情報送信部603を有する。
また、オーダ用タブレット220は、皿投入口駆動部230がUSB接続されたUSBコネクタ610を有する。指示動作命令受信部612は、通信制御部604を介してクラウドサーバ210から、認識結果の指示情報に応じた指示動作命令を受信する。そして、動作命令出力部であるUSBドライバ実行部611は、指示動作命令を、USBコネクタ610を介して、皿投入口駆動部230に送信する。なお、図6においては、USBコネクタ610を介したUSB接続を示したが、USB接続に限定されない。
(指示履歴学習データベース)
図7は、本実施形態に係る指示履歴学習データベース214の構成を示す図である。なお、指示履歴学習データベース214は、図7の構成に限定されない。
指示履歴学習データベース214は、マイク223が取得した音声指示データ701と、カメラ222が取得したジェスチャー指示データ702と、タッチパネル221が取得した操作指示データ703とに対応付けて、以下のデータを蓄積する。蓄積するデータは、かかる組合せの出現カウント704、指示認識が指示と一致した指示認識成功カウント705、指示認識が指示と異なった指示認識失敗カウント706、指示認識結果707、そして、指示認識の成功率708を記憶する。
《クラウドサーバのハードウェア構成》
図8は、本実施形態に係るクラウドサーバ210のハードウェア構成を示すブロック図である。
図8で、CPU(Central Processing Unit)810は演算制御用のプロセッサであり、プログラムを実行することで図5のクラウドサーバ210の各機能構成部を実現する。ROM(Read Only Memory)820は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部501は通信制御部であり、本実施形態においては、ネットワーク250を介してオーダ用タブレット220と通信する。なお、CPU810は1つに限定されず、複数のCPUであっても、あるいは画像処理用のGPU(Graphics Processing Unit)を含んでもよい。
RAM(Random Access Memory)840は、CPU810が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM840には、本実施形態の実現に必要なデータを記憶する領域が確保されている。ユーザID/ユーザ認証情報841は、通信中のユーザの識別子とその認証情報などである。端末ID/端末認証情報842は、通信中の携帯端末の識別子とその認証情報などである。指示情報843は、オーダ用タブレット220から受信した情報であり、指示音声844と、ジェスチャー映像845、操作入力846のいずれかを含む。検索範囲決定テーブル212aは、検索範囲決定部212が検索範囲を決定するために使用するテーブルである(図9A参照)。ユーザ指示認識テーブル213aは、ユーザ指示認識部213がユーザ指示を認識するために使用するテーブルである(図9C参照)。指示動作命令生成テーブル503aは、指示動作命令生成部503がユーザ指示の認識結果に応じて指示動作命令を生成するために使用するテーブルである(図10参照)。送受信データ847は、通信制御部501を介してオーダ用タブレット220と送受信するデータである。
ストレージ850には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。指示履歴学習データベース214は、図7に示したデータベースである。ストレージ850には、以下のプログラムが格納される。クラウドサーバ制御プログラム851は、本クラウドサーバ210の全体を制御するプログラムである。検索範囲決定モジュール852は、クラウドサーバ制御プログラム851において、各指示情報を認識するための検索範囲を決定するモジュールである(図12A参照)。ユーザ指示認識モジュール853は、クラウドサーバ制御プログラム851において、決定された検索範囲においてユーザ指示を認識するモジュールである(図12B参照)。指示動作命令生成モジュール854は、クラウドサーバ制御プログラム851において、認識したユーザ指示に応じた指示動作命令を生成するモジュールである。
なお、図8には、本実施形態に必須なデータやプログラムのみが示されており、本実施形態に関連しないデータやプログラムは図示されていない。
(検索範囲決定テーブル)
図9Aは、本実施形態に係る検索範囲決定テーブル212aの構成を示す図である。検索範囲決定テーブル212aは、指示情報に基づき指示履歴学習データベース214を参照して、検索範囲決定部212の検索範囲決定のために使用される。
検索範囲決定テーブル212aは、音声指示による検索範囲決定テーブル910と、ジェスチャー映像による検索範囲決定テーブル920と、操作入力による検索範囲決定テーブル930とを含む。音声指示による検索範囲決定テーブル910は、音声指示に基づいて、ジェスチャー映像の検索範囲や操作入力の検索範囲を決定するために使用される。また、ジェスチャー映像による検索範囲決定テーブル920は、ジェスチャー映像に基づいて、音声指示の検索範囲や操作入力の検索範囲を決定するために使用される。また、操作入力による検索範囲決定テーブル930は、操作入力に基づいて、音声指示の検索範囲やジェスチャー映像の検索範囲を決定するために使用される。
音声指示による検索範囲決定テーブル910は、音声指示911における受信音声、認識言語、あるいはその他の属性に対応付けて、ジェスチャー映像912の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、操作入力913の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、ジェスチャー映像による検索範囲決定テーブル920は、ジェスチャー映像921における受信映像、認識国籍、あるいはその他の属性に対応付けて、音声指示922の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、操作入力923の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、操作入力による検索範囲決定テーブル930は、操作入力931における受信操作、認識シーン、あるいはその他の属性に対応付けて、音声指示932の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、ジェスチャー映像933の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。
(ユーザの属性)
図9Bは、本実施形態に係るユーザの属性940を示す図である。上記図9Aにおいては、検索範囲を決定する情報として、受信音声による認識言語や、受信映像からの認識国籍や、受信操作からの認識シーンを代表例として示した。しかしながら、検索範囲を決定する情報としては、他の情報を利用可能である。図9Bには、利用可能な情報として、ユーザの属性についてその例を示す。なお、検索範囲を決定する情報は、ユーザの属性に限定されない。
ユーザの属性940としては、ユーザID941に対応付けて、ユーザの国籍942と、ユーザの出生地943、ユーザの発声言語944と、ユーザの人種945と、ユーザの職業946と、ユーザが置かれた環境947と、ユーザが遭遇したシーン948と、ユーザの癖949とを含む。さらに、ユーザの属性940やユーザの癖949として、ユーザの方言などが含まれてもよい。
(ユーザ指示認識テーブル)
図9Cは、本実施形態に係るユーザ指示認識テーブル213aの構成を示す図である。ユーザ指示認識テーブル213aは、ユーザ指示認識部213が、検索範囲決定部212が決定した検索範囲内で、ユーザ指示を認識するために使用される。
ユーザ指示認識テーブル213aは、音声指示951の受信音声、検索範囲、そして指示予測と、ジェスチャー映像952の受信映像、検索範囲、そして指示予測と、操作入力953の受信操作、検索範囲、そして指示予測と、を記憶する。そして、指示予測に基づいて、指示認識結果954と成功率955とを記憶する。
(指示動作命令生成テーブル)
図10は、本実施形態に係る指示動作命令生成テーブル503aの構成を示す図である。指示動作命令生成テーブル503aは、指示動作命令生成部503が、ユーザ指示認識部213の認識結果に応じて、指示動作命令を生成するために使用される。
指示動作命令生成テーブル503aは、動作命令送信先ID1001に対応付けて、指示認識結果1002、成功率1003、指示認識結果1002の成功率を判定するための閾値1004、そして、成功率1003が閾値1004を超える場合に生成した指示動作命令1005を記憶する。なお、動作命令送信先ID1001は、オーダ用タブレット220のID、あるいは皿投入口駆動部230のIDを含む。
《クラウドサーバの処理手順》
図11は、本実施形態に係るクラウドサーバ210の処理手順を示すフローチャートである。このフローチャートは、図8のCPU810がRAM840を使用して実行し、図5の各機能構成部を実現する。
まず、ステップS1101において、オーダ用タブレット220からの指示情報の受信か否かを判定する。指示情報の受信でなければ他の処理を行なう。指示情報の受信であればステップS1103に進んで、受信した指示情報から音声指示を取得する。また、ステップS1105において、受信した指示情報からジェスチャー映像を取得する。また、ステップS1107において、受信した指示情報から操作入力を取得する。
そして、ステップS1109においては、取得したそれぞれの指示情報に基づいて、他の指示情報の検索範囲決定処理を行なう(図12A参照)。続いて、ステップS1111において、検索範囲決定処理で決定された検索範囲で検索を行ない、ユーザ指示認識処理を実行する(図12B参照)。
その後、ステップS1113において、ユーザ指示認識処理の認識結果に応じた、指示動作命令を生成して、指示動作命令の送信先に送信する。そして、受信した指示情報と、決定した検索範囲、認識結果のユーザ指示、対応する指示動作命令、を対応付けて、指示履歴を指示履歴学習データベース214に蓄積する。
(検索範囲決定処理)
図12Aは、本実施形態に係る検索範囲決定処理S1109−1の処理手順を示すフローチャートである。図12Aの検索範囲決定処理S1109−1は、操作入力をタッチパネル上のユーザの動作入力に限定しない場合を示す。なお、図12Aにおいては、ユーザの属性を検索範囲決定のために使用するが、これに限定されない。
まず、ステップS1211において、音声指示、ジェスチャー映像、操作入力からユーザの属性を取得する。次に、ステップS1213において、取得したユーザの属性に基づいて、音声指示、ジェスチャー映像、または操作入力の検索範囲を設定する。次に、ステップS1215において、取得したユーザの属性に基づいて、音声指示、ジェスチャー映像、または操作入力の非検索範囲を設定する。そして、ステップS1217において、指示履歴学習データベース214を参照して、音声指示、ジェスチャー映像、または操作入力の検索範囲を追加する。すなわち、ユーザあるいは店員が同じ間違いを繰り返す場合には、指示履歴学習からその間違いをユーザ指示と認識する処理を行なう。
(ユーザ指示認識処理)
図12Bは、本実施形態に係るユーザ指示認識処理S1111の処理手順を示すフローチャートである。
まず、ステップS1221において、指示情報の組合せによる指示予測の認識成功カウントを取得する。ステップS1223においては、認識成功カウントが閾値αを超えるか否かを判定する。認識成功カウントが閾値αを超える場合はステップS1229に進んで、指示予測をユーザ指示と決定する。
一方、認識成功カウントが閾値αを超えない場合はステップS1225に進んで、指示情報の組合せによる指示予測の認識失敗カウントを取得する。ステップS1227においては、認識失敗カウントが閾値βを超えるか否かを判定する。認識失敗カウントが閾値βを超える場合はステップS1229に進んで、認識失敗した指示予測をユーザ指示と決定する。
認識失敗カウントが閾値βを超えない場合はステップS1231に進んで、ユーザ指示の認識失敗をオーダ用タブレット220に通知する。
《オーダ用タブレットのハードウェア構成》
図13は、本実施形態に係るオーダ用タブレット220のハードウェア構成を示すブロック図である。
図13で、CPU1310は演算制御用のプロセッサであり、プログラムを実行することで図6のオーダ用タブレット220の各機能構成部を実現する。ROM1320は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部604は通信制御部であり、本実施形態においては、ネットワークを介してクラウドサーバ210と通信する。なお、CPU1310は1つに限定されず、複数のCPUであっても、あるいは画像処理用のGPUを含んでもよい。
RAM1340は、CPU1310が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM1340には、本実施形態の実現に必要なデータを記憶する領域が確保されている。ユーザID/ユーザ認証情報1341は、オーダ用タブレット220を使用中のユーザの識別子とその認証情報である。端末ID/端末認証情報1342は、当該オーダ用タブレット220の識別子とその認証情報である。指示情報1343は、各指示情報入力部を介して取得し、クラウドサーバ210に送信する情報であり、指示音声1344と、ジェスチャー映像1345、操作入力1346のいずれかを含む。指示動作命令1347は、クラウドサーバ210から受信したユーザに指示に応じた動作命令である。送受信データ1348は、通信制御部501を介してクラウドサーバ210と送受信するデータである。入出力データ1349は、入出力インタフェース1360を介して入出力される入出力データを示す。
ストレージ1350には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。オーダ用タブレット情報1351は、本オーダ用タブレット220の識別子を含む情報である。ストレージ1350には、以下のプログラムが格納される。オーダ用タブレット制御プログラム1352は、本オーダ用タブレット220の全体を制御する制御プログラムである。指示情報取得・送信モジュール1353は、オーダ用タブレット制御プログラム1352において、各指示情報入力部を介して指示情報を取得し、クラウドサーバ210に送信するモジュールである。指示動作命令受信・実行モジュール1354は、オーダ用タブレット制御プログラム1352において、クラウドサーバ210から指示動作命令を受信し、USBコネクタ610を介して皿投入口駆動部230に送信して、指示動作を実行するモジュールである。
入出力インタフェース1360は、入出力機器との入出力データをインタフェースする。入出力インタフェース1360には、表示部607、タッチパネル221などからなる操作部601が接続される。また、スピーカやマイク223などの音声入出力部608が接続される。さらに、GPS位置生成部1361やカメラ222などが接続される。そして、USBコネクタ610が接続される。
なお、図13には、本実施形態に必須なデータやプログラムのみが示されており、本実施形態に関連しないデータやプログラムは図示されていない。
《オーダ用タブレットの処理手順》
図14は、本実施形態に係るオーダ用タブレット220の処理手順を示すフローチャートである。このフローチャートは、図13のCPU1310がRAM1340を使用して実行し、図6の各機能構成部を実現する。
まず、ステップS1411において、タッチパネル221からユーザのオーダ操作を受けたか否かを判定する。また、タッチパネル221からユーザのオーダ操作を受けてない場合、ステップS1421において、店員による操作か否かを判定する。また、タッチパネル221からユーザのオーダ操作を受けてなく、かつ、店員による操作でない場合、ステップS1431において、クラウドサーバ210から指示動作命令を受信したか否かを判定する。
タッチパネル221からユーザのオーダ操作を受けた場合は、ステップS1413に進んで、タッチパネル221からオーダ情報を取得する。そして、ステップS1415において、オーダ情報を、オーダ処理をする店員に通知する。本実施形態の回転寿司屋であれば、オーダ内容を寿司職人に通知する。また、ステップS1407においては、売上げの勘定を行なうPOS(Point of sale:図示せず)に対してもオーダ情報を通知する。
また、店員の操作であればステップS1423に進んで、マイク223により音声指示を取得する。次に、ステップS1425において、カメラ222によりジェスチャー映像を取得する。そして、ステップS1427において、タッチパネル221からの操作入力を取得する。なお、ステップS1423〜S1427の順序はいずれでもよい。ステップS1429において、取得した指示情報をクラウドサーバ210に送信する。
また、クラウドサーバ210からの指示動作命令の受信であればステップS1433に進んで、指示動作命令を取得する。そして、ステップS1435において、出力先デバイス(本例では、皿投入口駆動部230)に指示動作命令を出力する。
本実施形態によれば、操作指示をしたユーザの属性に対応した検索範囲に絞って操作指示候補の検索を行なうので、異なるユーザの属性を含む膨大な操作指示候補を用意でき、その場合においてもユーザに対応した操作指示候補を効果的に絞ることができる。
なお、文字が読める従業員はタッチパネルを用いて、読めない従業員のみが音声+モーションで指示を行なってもよい。また、本実施形態を他の業態に適用することも可能である。例えば、ホテルの従業員による作業において、道具を持ったときは、音声+モーション、移動時は、手が使えるのでタッチパネルで入力という切り替えを行なってもよい。さらに、さらに、コンタクトセンタにおいて、手や足が不自由な人や、視力が弱い人の業務遂行を容易にするために上記のようなクラウドサーバを利用した音声+モーションによる操作入力判定を行なってもよい。
[第3実施形態]
次に、本発明の第3実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、上記第2実施形態と比べると、オーダ用タブレットのタッチパネル上のユーザの動作指示を指示動作情報とする点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、手や指によるジェスチャーやモーションによる動作指示に加えて、タッチパネル上のユーザのタッチ軌跡を指示動作情報として入力できる。
《情報処理システムの動作概念》
図15は、本実施形態に係る情報処理システム1500の動作概念を説明する図である。
図15においては、回転寿司屋の店員251が、皿投入口駆動部230を駆動して皿投入口240を開く指示を、音声指示および動作指示(オーダ用タブレット1520のタッチパネル上の動作指示)で行なった場合に、クラウドサーバ1510が指示内容を認識して、皿投入口駆動部230を駆動する例を示している。図15においては、左図が店員251による音声指示および動作指示を示し、右図が皿投入口駆動部230を駆動して皿投入口240を開いた状態を示している。
まず、左図において、オーダ用タブレット1520の表示画面には、カメラ222で撮像された客席が表示される。店員251は、“OPEN”と英語で音声指示を行ない、表示画面の皿投入口240の位置を、人差し指によって皿投入口240を指す動作指示を行なっている。オーダ用タブレット1520のタッチパネル221は、皿投入口240を指す動作指示を取得する。図15においては、丸を描く動作1521を示している。また、オーダ用タブレット1520のマイク223は、店員251の“OPEN”との音声を取得する。オーダ用タブレット1520は、タッチパネル221上の動作指示と、“OPEN”との音声とを、クラウドサーバ1510に送信する。クラウドサーバ1510は、過去の指示情報と認識結果との履歴を蓄積する指示履歴学習データベース1514を参照して、店員251が皿投入口240を開くように指示したことを認識する。そして、右図のように、オーダ用タブレット1520を介して、皿投入口駆動部230を駆動して皿投入口240を開き、皿260を投入する。なお、動作指示の形状(丸や三角、四角など)と音声との関連による検索範囲の決定は、第2実施形態と同様に、本実施形態においても実行される。
なお、本実施形態のクラウドサーバ1510の機能構成部は、図5の指示履歴学習データベース214を指示履歴学習データベース1514に置き換えた機能構成となり、他は同様であるので、図示および説明は省略する。
(指示履歴学習データベース)
図16は、本実施形態に係る指示履歴学習データベース1514の構成を示す図である。なお、指示履歴学習データベース1514は、図16の構成に限定されない。
指示履歴学習データベース1514は、カメラ222が撮像したカメラ映像1601と、そのオーダ用タブレット1520への表示映像1602と、マイク223が取得した音声入力1603と、に対応付けて、以下のデータを蓄積する。蓄積するデータは、オーダ用タブレット1520のタッチパネル221上のモーション検索範囲1604、タッチパネル221上のモーション1605、指示認識結果1606、成功率1607を記憶する。
なお、図16には図示しないが、図7のように、出現カウントや指示認識成功カウントや指示認識失敗カウントを記憶してもよい。
(検索範囲決定処理)
図17は、本実施形態に係る検索範囲決定処理S1109−2の処理手順を示すフローチャートである。この図17の検索範囲決定処理S1109−2は、第2実施形態の図12Aの検索範囲決定処理S1109−2を代替するフローチャートである。
まず、ステップS1711において、音声指示、表示映像からユーザの属性を取得する。次に、ステップS1713において、取得したユーザの属性に基づいて、タッチパネル・モーションの検索範囲を設定する。次に、ステップS1715において、取得したユーザの属性に基づいて、タッチパネル・モーションの非検索範囲を設定する。そして、ステップS1717において、指示履歴学習データベース1514を参照して、タッチパネル・モーションの検索範囲を追加する。すなわち、ユーザあるいは店員が同じ間違いを繰り返す場合には、指示履歴学習からその間違いをユーザ指示と認識する処理を行なう。
本実施形態によれば、ユーザのタッチ軌跡をも指示履歴学習データベースに格納したので、手や指によるジェスチャーやモーションによる動作指示に加えて、タッチパネル上のユーザのタッチ軌跡を指示動作情報として入力できる。
[第4実施形態]
次に、本発明の第4実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、上記第2および第3実施形態と比べると、タブレットのカメラから撮像した部屋の映像の表示を使って、指示音声情報と指示動作情報とに基づいて部屋の電子機器を自動制御する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、指示音声情報と指示動作情報とを組み合わせて、部屋の電子機器の自動制御を指示できる。
《情報処理システムの動作概念》
図18は、本実施形態に係る情報処理システム1800の動作概念を説明する図である。なお、クラウドサーバ1810の有する指示履歴学習データベース1514は、図16と同様であってよい。
図18においては、タブレットあるいはスマートフォンなどの通信端末1820に、カメラ222で撮像した部屋の映像が表示されている。部屋には、空調機とテレビが存在する。この部屋の映像から制御対象を動作指示しながら、各ユーザ1811〜1813が各国の言語で、制御内容を指示している。
映像上では、タッチパネル221上で、空調機の指示動作1821とテレビの指示動作1822とが入力される。なお、指示動作1821と指示動作1822は異なる形状であってもよい。
そして、日本人1811は、“室温23℃、3チャンネル受像”との音声指示が行なわれる。また、中国人1812の場合は、図18に示すように中国語で音声指示が行なわれる。また、米国人1813に場合は、“Room temperature to 23 degree. Televising of the channel 3.”との音声指示が行なわれる。
本実施形態によれば、音声指示の話者の国籍や発声言語によらず、クラウドサーバ1810が、指示内容の検索範囲を決定して、迅速で確実な指示認識を行なう。そして、ユーザ指示に応じた指示動作命令をクラウドサーバ1810から送信することによって、ユーザ指示に従う動作を実現する。
なお、図18においては、動作指示をタッチパネル221上の動作指示としたが、第2実施形態のように、ユーザのジェスチャーやモーションをカメラ222で撮像した映像から取得してもよい。
本実施形態によれば、指示音声情報と指示動作情報とを組み合わせて、部屋の電子機器の自動制御を指示できる。
[第5実施形態]
次に、本発明の第5実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、上記第2および第4実施形態と比べると、指示音声情報と指示動作情報とに基づいてユーザの操作指示を、クラウドサーバではなく通信端末において認識する点で異なる。その他の構成および動作は、第2および第4実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、ユーザの操作指示を通信端末において認識するので、通信のトラフィックを軽減して迅速な指示認識ができる。
《情報処理システムの動作手順》
図19は、本実施形態に係る情報処理システム1900の動作手順を示すシーケンス図である。なお、図19において、第2実施形態の図4と同様のステップには同じステップ番号を付して、説明は省略する。
まず、ステップS1901においては、クラウドサーバ1910から通信端末であるオーダ用タブレット1920に対して、指示認識アプリケーション(以下、指示認識アプリ)と指示履歴学習DB214の一部をダウンロードする。なお、指示履歴学習DB214の一部は、オーダ用タブレット1920において認識するユーザの操作指示に対応する範囲のデータであってよい。
オーダ用タブレット1920は、受信した指示履歴学習DB214の一部を自分の指示履歴学習DB1924に格納して、ステップS1903において、ダウンロードされた指示認識アプリを起動する。そして、オーダ用タブレット1920は、図4と同様に、ステップS401、S403、または、S405において、タッチパネルからの指示入力取得、カメラからのジェスチャー映像取得、または、マイクからの音声指示取得をする。
オーダ用タブレット1920は、ステップS1909において、指示履歴学習DB1924を参照して、タッチパネルからの指示入力取得、カメラからのジェスチャー映像取得、または、マイクからの音声指示取得に基づいて、それぞれの指示認識のための検索範囲を決定する。そして、ステップS1911において、指示履歴学習DB1924を参照して、検索範囲を検索して合致した検索結果を指示として認識する。そして、ステップS1913において、認識した指示に対応する指示動作命令を生成して、対象機器に送信する。本例では、対象機器は、皿投入口起動部230である。
次に、オーダ用タブレット1920は、ステップS1915において、認識した指示履歴を取得した指示情報に対応付けて、指示履歴学習DB1924に蓄積する。また、ステップS1917において、認識した指示履歴を取得した指示情報に対応付けてクラウドサーバ1910に送信する。クラウドサーバ1910は、ステップS1919において、認識した指示履歴を取得した指示情報に対応付けて、指示履歴学習DB214に全体の学習履歴として蓄積する。
なお、指示履歴学習DB1924の構成は、その蓄積データ量がオーダ用タブレット1920に対応する量だけであることを除いて、図7と同様であるので、説明は省略する。また、図19においては、指示履歴学習DB1924の内容は、クラウドサーバ1910からダウンロードされるように説明したが、オーダ用タブレット1920が独立して有する構成であってもよい。
《オーダ用タブレットの機能構成》
図20は、本発明の第5実施形態に係るオーダ用タブレット1920の機能構成を示すブロック図である。なお、図20において、第2実施形態の図6と同様の機能構成部には同じ参照番号を付して、説明を省略する。
指示認識アプリ/指示履歴学習DB受信部2001は、クラウドサーバ1910から通信制御部604を介して、指示認識アプリと、オーダ用タブレット1920に関連する指示履歴学習DBのデータとを受信する。そして、指示履歴学習DBのデータは、指示履歴学習DB1925に格納される。
指示認識アプリ実行部2002は、クラウドサーバ1910からダウンロードされた指示認識アプリを実行して、指示認識を実現する。指示認識アプリ実行部2002は、指示情報取得部2003と、検索範囲決定部2004と、ユーザ指示認識部2005と、指示動作命令生成部2006と、を有する。
指示情報取得部2003は、タッチパネル221、マイク223、または、カメラ222からのユーザの指示情報を取得する。検索範囲決定部2004は、指示情報取得部2003が取得した指示情報から、指示履歴学習データベース1924を参照して、お互いの指示認識のための検索範囲を決定する。ユーザ指示認識部2005は、指示情報取得部2003が受信した指示情報同士を組み合わせて、検索範囲決定部2004が決定した検索範囲を、指示履歴学習データベース1924を参照して検索し、ユーザ指示を認識する。
指示動作命令生成部2006は、ユーザ指示認識部2005が認識したユーザ指示に応じた指示動作命令を生成する。そして、指示動作命令生成部2006が生成した指示動作命令は、USBドライバ実行部611により、USBコネクタ610を介して皿投入口駆動部230に送信される。また、指示動作命令生成部2006が生成した指示動作命令は、取得した指示情報と対応付けて通信制御部604を介してクラウドサーバ1910に送信され、蓄積される。
なお、第2実施形態のクラウドサーバ210と同様に、図20のオーダ用タブレット1920の検索範囲決定部2004は、検索範囲決定テーブル(図示せず)を有する。また、ユーザ指示認識部2005は、ユーザ指示認識テーブル(図示せず)を有する。また、指示動作命令生成部2006は、指示動作命令生成テーブル(図示せず)を有する。これらテーブルの構成は、図9A、図9Bまたは図10と同様であるので、説明は省略する。
本実施形態によれば、ユーザの操作指示を通信端末において認識するので、通信のトラフィックを軽減して迅速な指示認識ができる。
[他の実施形態]
なお、上記実施形態においては、店舗における店員の操作指示、あるいは部屋内に設置された電子機器への操作指示を音声と動作とに基づいて認識する例を示した。しかしながら、本発明のユーザの操作指示を音声と動作とに基づいて認識する技術は、カメラやマイクを併用する通信端末に対するユーザの操作指示を認識する種々の技術に適用ができる。例えば、クラウドサーバが、ユーザが参加する会議システムを管理している場合に、ユーザによる会議システムへの指示を、会議システムを構成する通信端末が取得したユーザの音声と動作とに基づいて認識する技術に、容易に適用される。
また、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。

Claims (20)

  1. ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信手段と、
    前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
    前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
    前記指示情報受信手段が受信した指示音声情報および指示動作情報と、前記ユーザ指示認識手段がユーザの指示を誤って認識した認識失敗とを対応付けて蓄積する指示履歴蓄積手段と、
    を備え、
    前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする情報処理装置。
  2. 前記指示情報受信手段は、さらに、前記ユーザの指示対象となるデバイスのデバイス情報を受信し、
    前記ユーザ指示認識手段が認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信手段をさらに備えることを特徴とする請求項1に記載の情報処理装置。
  3. 前記指示動作情報は、ユーザの指示動作を撮像するカメラを介して、前記ユーザのジェスチャーあるいはモーションに基づいて取得されることを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記指示動作情報は、ユーザの指示動作を入力するタッチパネルを介して、前記ユーザの指の前記タッチパネルでのモーションに基づいて取得されることを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 前記検索範囲決定手段は、前記指示音声情報または前記指示動作情報に基づいてユーザの属性を取得し、前記ユーザの属性に応じて前記検索範囲を決定することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記ユーザの属性は、前記ユーザの国籍と、前記ユーザの発声言語と、前記ユーザの人種と、前記ユーザの職業と、前記ユーザが置かれた環境と、前記ユーザが遭遇したシーンと、前記ユーザの癖と、前記ユーザの方言とのいずれかを含むことを特徴とする請求項5に記載の情報処理装置。
  7. 前記指示履歴蓄積手段は、さらに、前記指示情報受信手段が受信した指示音声情報および指示動作情報と、前記検索範囲と、前記ユーザ指示認識手段が認識したユーザの指示とを対応付けて蓄積し、
    前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記指示音声情報または前記指示動作情報を認識するための検索範囲を決定することを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 前記ユーザは店の店員であって、前記ユーザ指示認識手段は、前記店員の指示を認識することを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  9. 前記ユーザ指示認識手段は、部屋に設置された機器に対する操作指示を認識することを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  10. 前記情報処理装置は前記ユーザが参加する会議システムを管理し、
    前記ユーザ指示認識手段は、前記ユーザによる前記会議システムへの指示を認識することを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  11. ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
    前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
    前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
    前記指示情報受信ステップにおいて受信した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
    を含み、
    前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする情報処理装置の制御方法。
  12. ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
    前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
    前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
    前記指示情報受信ステップにおいて受信した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
    をコンピュータに実行させる情報処理装置の制御プログラムであって、
    前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする情報処理装置の制御プログラム。
  13. 請求項2に記載の情報処理装置と通信する通信端末であって、
    ユーザの音声を検出する音声検出手段と、
    前記ユーザの動作を検出する動作検出手段と、
    前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
    前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
    前記動作命令受信手段が受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
    を備えることを特徴とする通信端末。
  14. 請求項2に記載の情報処理装置と通信する通信端末の制御方法であって、
    ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
    前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
    前記動作命令受信ステップにおいて受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
    を含むことを特徴とする通信端末の制御方法。
  15. 請求項2に記載の情報処理装置と通信する通信端末の制御プログラムであって、
    ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
    前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
    前記動作命令受信ステップにおいて受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
    をコンピュータに実行させることを特徴とする通信端末の制御プログラム。
  16. ユーザの音声を検出する音声検出手段と、
    前記ユーザの動作を検出する動作検出手段と、
    ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得手段と、
    前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
    前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
    前記指示情報取得手段が取得した指示音声情報および指示動作情報と、前記ユーザ指示認識手段がユーザの指示を誤って認識した認識失敗とを対応付けて蓄積する指示履歴蓄積手段と、
    を備え、
    前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする通信端末。
  17. ユーザの音声を検出する音声検出ステップと、
    前記ユーザの動作を検出する動作検出ステップと、
    ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
    前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
    前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
    前記指示情報取得ステップにおいて取得した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
    を含み、
    前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする通信端末の制御方法。
  18. ユーザの音声を検出する音声検出ステップと、
    前記ユーザの動作を検出する動作検出ステップと、
    ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
    前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
    前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
    前記指示情報取得ステップにおいて取得した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて、指示履歴蓄積手段に蓄積する指示履歴蓄積ステップと、
    をコンピュータに実行させる通信端末の制御プログラムであって、
    前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加することを特徴とする通信端末の制御プログラム。
  19. ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムであって、
    前記情報処理装置が、
    ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得されたユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信手段と、
    前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
    前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
    前記ユーザ指示認識手段が認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信手段と、
    前記指示情報受信手段が受信した指示音声情報および指示動作情報と、前記ユーザ指示認識手段がユーザの指示を誤って認識した認識失敗とを対応付けて蓄積する指示履歴蓄積手段と、
    を備え、
    前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加し、
    前記通信端末が、
    ユーザの音声を検出する音声検出手段と、
    前記ユーザの動作を検出する動作検出手段と、
    前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
    前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
    前記動作命令受信手段が受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
    を備えることを特徴とする情報処理システム。
  20. ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムの情報処理方法であって、
    前記情報処理装置が、
    ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信ステップと、
    前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
    前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
    前記ユーザ指示認識ステップにおいて認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信ステップと、
    前記指示情報受信ステップにおいて受信した指示音声情報および指示動作情報と、前記ユーザ指示認識ステップでユーザの指示を誤って認識した認識失敗とを対応付けて指示履歴蓄積手に蓄積する指示履歴蓄積ステップと、
    を含み、
    前記検索範囲決定ステップにおいては、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加し、
    前記通信端末が、
    ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
    前記指示音声情報および前記指示動作情報と前記デバイス情報とから生成された、前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
    前記動作命令受信ステップにおいて受信した動作命令を中継して、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
    を含むことを特徴とする情報処理方法。
JP2012123804A 2012-05-30 2012-05-30 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム Expired - Fee Related JP6044819B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012123804A JP6044819B2 (ja) 2012-05-30 2012-05-30 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム
EP13797821.9A EP2857958A4 (en) 2012-05-30 2013-05-22 INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING METHOD, COMMUNICATION TERMINAL, INFORMATION PROCESSING DEVICE AND CONTROL METHOD AND CONTROL PROGRAM THEREFOR
US14/403,268 US9489951B2 (en) 2012-05-30 2013-05-22 Information processing system, information processing method, communication terminal, information processing apparatus, and control method and control program thereof
PCT/JP2013/064238 WO2013179985A1 (ja) 2012-05-30 2013-05-22 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012123804A JP6044819B2 (ja) 2012-05-30 2012-05-30 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム

Publications (2)

Publication Number Publication Date
JP2013250683A JP2013250683A (ja) 2013-12-12
JP6044819B2 true JP6044819B2 (ja) 2016-12-14

Family

ID=49673186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012123804A Expired - Fee Related JP6044819B2 (ja) 2012-05-30 2012-05-30 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム

Country Status (4)

Country Link
US (1) US9489951B2 (ja)
EP (1) EP2857958A4 (ja)
JP (1) JP6044819B2 (ja)
WO (1) WO2013179985A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6155555B2 (ja) * 2012-05-30 2017-07-05 日本電気株式会社 情報処理システム、情報処理方法、情報処理装置、携帯端末およびその制御方法と制御プログラム
CN105023575B (zh) * 2014-04-30 2019-09-17 中兴通讯股份有限公司 语音识别方法、装置和系统
US9730671B2 (en) * 2014-10-03 2017-08-15 David Thomas Gering System and method of voice activated image segmentation
JP6316214B2 (ja) * 2015-01-14 2018-04-25 シャープ株式会社 システム、サーバ、電子機器、サーバの制御方法、およびプログラム
EP3392740A4 (en) * 2015-12-18 2018-12-19 Sony Corporation Information processing device, information processing method, and program
JP2017113903A (ja) * 2015-12-21 2017-06-29 キヤノン株式会社 画像形成装置、画像形成装置の制御方法、及び、プログラム
US10960540B2 (en) * 2017-05-05 2021-03-30 Accenture Global Solutions Limited Robot orchestration architecture
US20230113524A1 (en) * 2021-10-07 2023-04-13 International Business Machines Corporation Reactive voice device management
CN116580826B (zh) * 2023-05-25 2024-04-19 深圳市米软科技有限公司 基于人工智能的住院管理系统及方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214258A (ja) * 1997-01-28 1998-08-11 Victor Co Of Japan Ltd データ処理システム
US20020036617A1 (en) 1998-08-21 2002-03-28 Timothy R. Pryor Novel man machine interfaces and applications
US6185529B1 (en) * 1998-09-14 2001-02-06 International Business Machines Corporation Speech recognition aided by lateral profile image
JP2001188555A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
JP4294853B2 (ja) 2000-12-19 2009-07-15 アルパイン株式会社 操作指示装置
JP4624577B2 (ja) 2001-02-23 2011-02-02 富士通株式会社 複数のセンサによるヒューマンインタフェースシステム
JP2004317604A (ja) * 2003-04-14 2004-11-11 Mitsubishi Electric Corp 表示制御装置及び表示制御方法及び表示制御プログラム
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム
JP4311190B2 (ja) * 2003-12-17 2009-08-12 株式会社デンソー 車載機器用インターフェース
JP4572615B2 (ja) * 2004-07-27 2010-11-04 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP4650888B2 (ja) * 2005-09-09 2011-03-16 株式会社豊田中央研究所 発話検出装置、方法及びプログラム
JP2007293595A (ja) * 2006-04-25 2007-11-08 Canon Inc 情報処理装置及び情報処理方法
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
JP5636888B2 (ja) 2010-11-09 2014-12-10 ソニー株式会社 情報処理装置、プログラムおよびコマンド生成方法
KR101172213B1 (ko) 2010-12-08 2012-08-07 현대자동차주식회사 얼굴인증 시스템 및 그 방법

Also Published As

Publication number Publication date
US20150142437A1 (en) 2015-05-21
JP2013250683A (ja) 2013-12-12
EP2857958A1 (en) 2015-04-08
WO2013179985A1 (ja) 2013-12-05
US9489951B2 (en) 2016-11-08
EP2857958A4 (en) 2016-03-23

Similar Documents

Publication Publication Date Title
JP6044819B2 (ja) 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム
US20240152548A1 (en) Electronic apparatus for searching related image and control method therefor
EP3188034A1 (en) Display terminal-based data processing method
CN110298309B (zh) 基于图像的动作特征处理方法、装置、终端及存储介质
CN106030610B (zh) 移动设备的实时3d姿势识别和跟踪系统
CN111259751A (zh) 基于视频的人体行为识别方法、装置、设备及存储介质
CN107479691A (zh) 一种交互方法及其智能眼镜和存储装置
JP2021034003A (ja) 人物識別方法、装置、電子デバイス、記憶媒体、及びプログラム
JP5293570B2 (ja) 表示装置、表示プログラム及び表示方法
CN112052784B (zh) 物品的搜索方法、装置、设备及计算机可读存储介质
US11789998B2 (en) Systems and methods for using conjunctions in a voice input to cause a search application to wait for additional inputs
CN111026949A (zh) 一种基于电子设备的搜题方法及系统
CN108804971A (zh) 一种图像识别系统、增强现实显示设备和图像识别方法
CN112632349A (zh) 展区指示方法、装置、电子设备及存储介质
CN115525158A (zh) 互动处理方法及装置
CN109947239A (zh) 一种空气成像系统及其实现方法
US11244149B2 (en) Processing apparatus, processing method, and non-transitory storage medium
CN111782041A (zh) 打字方法及装置、设备、存储介质
KR101724143B1 (ko) 검색 서비스 제공 장치, 시스템, 방법 및 컴퓨터 프로그램
CN110827487A (zh) 物品图像数据的采集方法、装置、存储介质及电子设备
CN109084750B (zh) 一种导航方法及电子设备
US11604830B2 (en) Systems and methods for performing a search based on selection of on-screen entities and real-world entities
Jindal et al. Spatio-Temporal Attention and Gaussian Processes for Personalized Video Gaze Estimation
Voronin et al. Action recognition algorithm from visual sensor data for contactless robot control systems
CN112579868A (zh) 多模态识图搜索方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161102

R150 Certificate of patent or registration of utility model

Ref document number: 6044819

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees