JP5790238B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP5790238B2
JP5790238B2 JP2011160592A JP2011160592A JP5790238B2 JP 5790238 B2 JP5790238 B2 JP 5790238B2 JP 2011160592 A JP2011160592 A JP 2011160592A JP 2011160592 A JP2011160592 A JP 2011160592A JP 5790238 B2 JP5790238 B2 JP 5790238B2
Authority
JP
Japan
Prior art keywords
information processing
processing apparatus
command
voice
input mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011160592A
Other languages
English (en)
Other versions
JP2013025605A5 (ja
JP2013025605A (ja
Inventor
瑛子 櫻田
瑛子 櫻田
脩 繁田
脩 繁田
斉昭 佐藤
斉昭 佐藤
康之 古賀
康之 古賀
山本 一幸
一幸 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2011160592A priority Critical patent/JP5790238B2/ja
Priority to US13/545,615 priority patent/US9268524B2/en
Priority to CN2012102438346A priority patent/CN103021410A/zh
Publication of JP2013025605A publication Critical patent/JP2013025605A/ja
Publication of JP2013025605A5 publication Critical patent/JP2013025605A5/ja
Application granted granted Critical
Publication of JP5790238B2 publication Critical patent/JP5790238B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/0416Control or interface arrangements specially adapted for digitisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/14Solving problems related to the presentation of information to be displayed
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本技術は、音声入力に応じた処理を実行可能な情報処理装置、当該情報処理装置における情報処理方法及びプログラムに関する。
従来から、音声(ユーザの声)を検出及び認識してそれに応じた処理を行う情報処理装置が存在する。例えば下記特許文献1には、角度検出部により音声入力装置の角度を検出し、距離検出部によりユーザとの距離を検出し、検出した角度及び距離に基づいて音声入力部のオンオフを制御する音声入力装置が記載されている。この音声入力装置は、当該装置がユーザの口元に近づいたことを検出して音声入力モードをオンにすることができる。
特開2010−217754号公報
しかしながら、上記特許文献1に記載の技術は、音声入力モードがオンになったことをユーザにフィードバックとして返すことができない。すなわちユーザは、実際に音声を入力してそれに応じた処理が実行されるのを確かめる以外に、音声入力モードがオンであることを知る術がなく、使い勝手がよいものとは言えない。
以上のような事情に鑑み、本技術の目的は、音声入力モードになったことをユーザに確実に報知することが可能な情報処理装置、情報処理方法及びプログラムを提供することにある。
上述の課題を解決するため、本技術の一形態に係る情報処理装置は、状態検出部と、タッチセンサと、マイクロフォンと、制御部とを有する。上記状態検出部は、当該情報処理装置の第1の状態変化を検出可能である。上記タッチセンサは、ユーザのタッチを検出可能である。上記マイクロフォンは、入力された上記ユーザの音声を音声信号に変換可能である。上記制御部は、上記音声信号を文字情報として認識する音声入力モードを実行可能である。また制御部は、上記第1の状態変化が検出された場合に、上記音声入力モードが準備状態であることを示す第1の画像を出力するための第1のコマンドを生成可能である。さらに制御部は、上記第1の状態変化に続いて上記タッチが検出された場合に、上記音声入力モードが実行可能な状態であることを示す第2の画像の出力するための第2のコマンドを生成可能である。
これにより情報処理装置は、第1の画像と第2の画像による2段階のビジュアルフィードバックにより、音声入力モードになったことをユーザに確実に報知することができる。ここで上記第1の状態変化とは、情報処理装置の筐体の角度変化や、情報処理装置に設けられたボタンの押下操作の検出、所定のタッチ操作の検出等を含む。上記第1の画像及び第2の画像は、上記第1のコマンド及び第2のコマンドに基づいて、当該情報処理装置で表示されてもよいし、外部機器で表示されてもよい。
上記情報処理装置は、上記第1のコマンド及び上記第2のコマンドを外部の表示装置へ送信可能な通信部をさらに具備してもよい。
これにより情報処理装置は、外部の表示装置に第1の画像及び第2の画像を表示させ、ユーザに、音声入力モードになったことのビジュアルフィードバックをより見やすい形で与えることができる。
上記情報処理装置は、筐体をさらに具備してもよい。この場合上記状態検出部は、上記筐体の角度を検出可能な角度センサを有してもよく、上記制御部は、上記筐体の角度が所定角度範囲になったことが検出された場合に上記第1のコマンドを生成可能であってもよい。
これにより情報処理装置は、ユーザが筐体を上記所定角度範囲まで傾けた場合に音声入力モードの準備を開始し、それをユーザにビジュアル的にフィードバックすることができる。ここで所定角度範囲とは、例えば地面に対する筐体の正面の角度がほぼ垂直になるような角度を中心にした所定範囲の角度である。
上記第2の画像は、上記第1の画像の一部が変化した画像であってもよい。
これにより情報処理装置は、第1の画像と第2の画像とに関連性を持たせることで、情報処理装置が、音声入力モードの準備状態から実行可能状態へ遷移したことをユーザに容易に把握させることができる。ここで「一部が変化」とは、例えば、第1の画像における所定領域の色(輝度)が第2の画像において変化したり、第1の画像における所定のオブジェクトの位置や形態が第2の画像において変化したりすることであるが、これらに限られない。
上記制御部は、上記第2の画像が出力された状態で、上記マイクロフォンに上記ユーザの音声が入力された場合に、上記第2の画像に代えて第3の画像を出力するための第3のコマンドを生成可能であってもよい。
これにより情報処理装置は、ユーザの音声が入力されていることを、さらなるビジュアルフィードバックによりユーザに報知することができる。
上記制御部は、上記タッチが検出されなくなった場合に、上記音声入力モードを終了してもよい。
これによりユーザは、タッチを解除するという極めて単純かつ容易な操作により音声入力モードを終了させることができる。
上記状態検出部は、当該情報処理装置の第2の状態変化を検出可能であってもよい。この場合上記制御部は、上記音声信号の認識中に上記第2の状態変化が検出された場合に、当該音声信号の認識を中止してもよい。
これにより情報処理装置は、音声信号の認識中であっても、第2の状態変化の検出によりその処理をキャンセルすることができる。ここで第2の状態変化とは、例えば情報処理装置が有するタッチパネルへのユーザのフリック操作の検出や、情報処理装置の筐体をユーザが振る操作の検出、特定の音声の入力等であるが、これらに限られない。
上記情報処理装置は、ネットワーク上の検索エンジンと通信可能な通信部をさらに有してもよい。この場合上記制御部は、上記認識された文字情報を含む認識結果画像を出力するためのコマンドを生成してもよい。さらに制御部は、上記認識された文字情報をキーとした検索処理を要求する検索要求情報を上記通信部により上記検索エンジンへ送信してもよい。
これにより情報処理装置は、認識された文字情報をユーザに把握させた上で、当該文字情報をキーとした検索処理を検索エンジンに行わせることができる。
上記状態検出部は、当該情報処理装置の第2の状態変化を検出可能であってもよく、上記認識結果画像は、認識された文字情報が表示される第1の領域と、当該第1の領域とは異なる第2の領域とを有してもよい。この場合上記制御部は、第1の文字情報が認識された場合に、当該第1の文字情報を上記第1の領域へ表示させ、上記第1の文字情報の認識後、所定時間内に上記第2の状態変化が検出された場合に、上記第1の文字情報を上記第1の領域から上記第2の領域へ移動させてもよい。さらに制御部は、上記第2の状態変化の検出後に第2の文字情報が認識された場合に、上記第2の文字情報を上記第1の領域へ表示させ、上記第2の文字情報の認識後、上記所定時間内に上記第2の状態変化が検出されない場合に、上記第1の文字情報と上記第2の文字情報とをキーとした検索処理を要求する検索要求情報を送信してもよい。
これにより情報処理装置は、第2の状態変化があった場合に、第1の文字情報を第2の領域に表示することで、当該第1の文字情報がスタックされていることをユーザに容易に把握させ、当該第1の文字情報と、続けて認識された第2の文字情報とに基づいて、いわゆるAND検索処理を検索エンジンに実行させることができる。ここで第2の状態変化とは、例えば情報処理装置の筐体が振られる(往復移動する)こと、タッチセンサがユーザのフリック操作を検出すること等であるが、これらに限られない。
上記タッチセンサは、上記音声入力モード以外のモードにおいてそれぞれ異なる機能が割り当てられた複数のタッチ領域を有してもよい。この場合上記制御部は、上記音声入力モードの準備状態及び実行可能状態においては、上記複数の領域に割り当てられた機能を無効にしてもよい。
これにより情報処理装置は、音声入力モードにおいては、ユーザのタッチ操作を当該音声入力モードの実行用としてのみ機能させることができ、ユーザの誤操作を防止できる。
上記タッチセンサは、複数のポイントに対するタッチを同時に検出可能であってもよい。この場合上記制御部は、上記複数のポイントに対するタッチが検出されている場合は、上記第1の状態変化が検出されても上記第1のコマンドを生成しなくてもよい。
これにより情報処理装置は、ユーザがマルチタッチにより、例えばゲームや文字入力等、情報処理装置を特定の目的で用いている場合には、音声入力モードを実行するのを規制することができる。
上記表示装置は音声を出力可能であってもよい。この場合上記制御部は、上記第1の状態変化が検出された場合に、上記表示装置により出力される音声の音量を下げるための音量コマンドを生成し、当該音量コマンドを上記通信部により送信してもよい。
これにより情報処理装置は、音声入力モードにおいて、表示装置から出力される音声の影響を極力排除し、音声認識の精度を向上させることができる。
上記制御部は、上記マイクロフォンへの上記音声の入力レベルが第1の値以下であることを示す画像を出力するためのコマンドと、上記マイクロフォンへの上記音声の上記入力レベルが第2の値よりも大きいことを示す画像を出力するためのコマンドを生成してもよい。
これにより情報処理装置は、ユーザから入力される音声のレベルに応じて、情報処理装置とユーザの口との距離を調整させ、音声認識処理の精度を向上させることができる。
本技術の他の形態に係る情報処理装置は、表示部と、通信部と、制御部とを有する。上記通信部は、ユーザが携帯する携帯機器から、当該携帯機器の所定の状態変化が検出されたことを示す状態情報と、上記携帯機器が有するタッチセンサにより上記ユーザのタッチが検出されたことを示すタッチ情報とを受信可能である。上記制御部は、上記状態情報を受信した場合に、上記携帯機器において実行される音声入力モードが準備状態であることを示す第1の画像を表示するように上記表示部を制御可能である。さらに制御部は、上記状態情報の受信後に上記タッチ情報を受信した場合に、上記音声入力モードが実行可能な状態であることを示す第2の画像を表示するように上記表示部を制御可能である。
本技術の他の形態に係る情報処理方法は、情報処理装置における情報処理方法であって、上記情報処理装置の所定の状態変化を検出することを含む。上記所定の状態変化が検出された場合には、音声入力モードが準備状態であることを示す第1の画像を出力するための第1のコマンドが生成される。上記音声入力モードは、ユーザの音声から変換された音声信号が文字情報として認識されるモードである。上記所定の状態変化に続いて上記ユーザのタッチが検出される。上記タッチが検出された場合には、上記音声入力モードが実行可能な状態であることを示す第2の画像を出力するための第2のコマンドが生成される。
本技術の他の形態に係るプログラムは、情報処理装置に、第1の検出ステップと、第1の生成ステップと、第2の検出ステップと、第2の生成ステップとを実行させる。上記第1の検出ステップでは、上記情報処理装置の所定の状態変化が検出される。上記第1の生成ステップでは、上記所定の状態変化が検出された場合に、音声入力モードが準備状態であることを示す第1の画像を出力するための第1のコマンドが生成される。上記音声入力モードは、ユーザの音声から変換された音声信号が文字情報として認識されるモードである。上記第2の検出ステップでは、上記所定の状態変化に続いて上記ユーザのタッチが検出される。上記第2の生成ステップでは、上記タッチが検出された場合に、上記音声入力モードが実行可能な状態であることを示す第2の画像を出力するための第2のコマンドが生成される。
以上のように、本技術によれば、音声入力モードになったことをユーザに確実に報知することができる。
本技術の一実施形態におけるシステムの構成を示す図である。 上記システムにおけるリモートコントローラのハードウェア構成を示す図である。 上記システムにおけるTVのハードウェア構成を示す図である。 リモートコントローラが音声入力モードへ移行するまでの動作の流れを示したフローチャートである。 音声入力モードが準備状態であることを示す画像及び音声入力モードが実行可能な状態であることを示す画像の例を示した図である。 音声入力モードが準備状態であることを示す画像及び音声入力モードが実行可能な状態であることを示す画像の例を示した図である。 音声入力モードが準備状態であることを示す画像及び音声入力モードが実行可能な状態であることを示す画像の例を示した図である。 音声入力モードが準備状態であることを示す画像及び音声入力モードが実行可能な状態であることを示す画像の例を示した図である。 音声入力モードを終了する際のリモートコントローラの動作の流れを示したフローチャートである。 音声入力モードにより音声検索処理が実行される際の、AND検索処理の流れを示したフローチャートである。 上記AND検索処理において表示されるユーザインタフェースの例を示した図である。 上記音声入力モードにおける入力音声の音量の大小を、グラフによりユーザに報知する処理を示した図である。 上記音声入力モードにおける入力音声の音量の大小をアイコンによりユーザに報知する場合の表示例を示した図である。 上記音声入力モードにおける入力音声の音量の大小をアイコンによりユーザに報知する場合の表示例を示した図である。 上記音声入力モードにおいてTVの音声を除去する様子を示した図である。 上記音声入力モードにおいてTVの音声を除去する処理を実行する際のTVの概略構成を示したブロック図である。
以下、本技術に係る実施形態を、図面を参照しながら説明する。
[システムの概要]
図1は、本技術の一実施形態における音声入力システムの構成を示す図である。
同図に示すように、本システムは、リモートコマンダー100(以下、リモコン100と称する)とテレビジョン装置(TV)200とで構成される。後述するが、リモコン100は、ユーザの音声を音声信号に変換し、当該音声信号を文字情報として認識する音声入力モードを実行可能である。当該音声入力モードにおいて、TV200の表示画面26には、当該音声入力モードの実行が準備状態であることを示す画像(アイコン)と、当該音声入力モードが実行可能な状態であることを示す画像(アイコン)とが表示され得る。
[携帯端末のハードウェア構成]
図2は、上記リモコン100のハードウェア構成を示す図である。同図に示すように、リモコン100は、CPU11、タッチセンサ(タッチパッド)12、傾きセンサ13、通信部14、マイクロフォン15、RAM(Random Access Memory)16及びフラッシュメモリ17を有する。
CPU11は、リモコン100の各部を統括的に制御し、各種のプログラムに基づき種々の演算を実行する。例えばCPU11は、マイクロフォン15から入力されたユーザの音声を音声信号に変換する上記音声入力モードを実行する。
タッチセンサ12は、例えばリモコン100の表面全体または表面及び裏面の全体にわたって設けられ、ユーザのタッチを検出する。
傾きセンサ13は、例えば加速度センサ、角速度(ジャイロ)センサ、機械式の傾斜センサ等であり、リモコン100の傾きを検出する。傾きセンサ13が加速度センサの場合、少なくとも1軸あれば角度が検出可能であるが、2軸または3軸を有していてもよい。
通信部14は、例えば赤外線や電波により、CPU11で生成されたコマンドをTV200へ送信する。また通信部14は、TV200以外のネットワーク上の機器との通信が可能であってもよい。
マイクロフォン15は、アナログ/デジタル変換機等を有し、ユーザから通話口を介して入力された音声をデジタル音声信号へ変換してCPU11へ出力する。
RAM16は、CPU11の作業領域として用いられる揮発性のメモリであり、CPU11の処理に用いられる各種のプログラムや各種のデータを一時的に記憶する。
フラッシュメモリ17は、CPU11の処理に必要な各種のプログラムや各種のデータが記憶される不揮発性のメモリである。
[システムのソフトウェア構成]
図3は、上記システム(リモコン100及びTV200)が有する機能(ソフトウェア)の構成を示したブロック図である。
同図に示すように、本実施形態のシステムは、入力デバイス31、センサ感知部32、音声入力判定部33、音声認識部34及び出力デバイス35を有する。
入力デバイス31は、上記タッチセンサ12が担い、ユーザのタッチ操作の入力を受け付ける。
センサ感知部32は、上記傾きセンサ13が担い、リモコン100の傾き(角度)を検出する。
音声入力判定部33は、ユーザがマイクロフォン15を介して音声を入力する際に、音声入力モードがONかOFFか(実行可能な否か)を判定する。
音声認識部34は、例えばCPU11が担い、音声入力モードにおいて、入力内容を文字列として認識する処理(音声認識処理)を実行する。音声認識処理は、CPU11が自ら実行してもよいし、CPU11が、入力された音声信号をTV200へ送信し、TV200に実行させてもよい。また、リモコン100またはTV200に接続されたネットワーク上のサーバが音声認識処理を実行してもよい。
出力デバイス35は、上記TV200の表示画面が担い、音声入力モードに入る前及び音声入力モード実行中における各種GUI(Graphical User Interface)を表示する。
音声入力モードによって実行される具体的なアプリケーションとしては、例えば、ネットワーク上の検索エンジンを用いた音声検索アプリケーション、音声コマンド、P2P(Peer to Peer)によるインターネット電話サービス等が挙げられるが、これらに限られない。
[システムの動作]
次に、以上のように構成された音声入力システムにおけるリモコン100及びTV200の動作について説明する。以降では、リモコン100のCPU11を主な動作主体として説明するが、この動作は、リモコン100のその他のハードウェア及びソフトウェアと協働して実行される。
(音声入力モードへの遷移)
図4は、本実施形態におけるリモコン100が音声入力モードへ移行するまでの動作の流れを示したフローチャートである。
同図に示すように、まずCPU11は、上記傾きセンサ13によりリモコン100の角度を検出する(ステップ41)。
続いてCPU11は、上記検出された傾き角が、所定の閾値範囲内か否かを判断する(ステップ42)。すなわち、CPU11は、リモコン100が立った状態(リモコン100の主面が鉛直方向にある状態)にあるかを検出する。当該閾値範囲は例えば水平面を0度とした場合に、リモコン100の主面が60度〜90度程度の範囲であるが、これに限られない。
続いてCPU11は、所定時間(例えば1秒程度)経過後、音声入力モードの「準備」状態に遷移する(ステップ43)。ここでCPU11が所定時間の経過を待つのは、傾きセンサ13のチャタリングを防止するためである。
続いてCPU11は、音声入力モードの準備状態を示すアイコン(第1のアイコン)をTV200の表示画面26に出力するための出力コマンドを生成し、当該コマンドをTV200へ送信する(ステップ44)。TV200は、当該コマンドを受信すると、上記第1のアイコンを表示画面26に表示する。
続いてCPU11は、タッチセンサ12によりユーザのタッチが検出されたか否かを判断する(ステップ45)。このとき、タッチセンサ12は、通常のポインティングデバイスとしては機能せずに、ON/OFFボタンとしてだけの機能を割り当てられている。したがって、例えばタッチセンサ12が複数のタッチ領域を有し、それらに異なる機能が割り当てられている場合であっても、音声入力モードの準備状態及び実行可能状態においては、それらの機能は全て無効とされている。
タッチが検出されたと判断した場合(Yes)、CPU11は、音声入力モードへ遷移する(ステップ46)。それとともにCPU11は、音声入力モードが実行可能な状態であることを示すアイコン(第2のアイコン)をTV200の表示画面26に出力するための出力コマンドを生成し、それをTV200へ送信する(ステップ47)。TV200は、このコマンドを受信すると、上記第2のアイコンを表示する。
そしてCPU11は、タッチが検出されている間、ユーザからの音声の入力に応じて、音声入力・認識処理(音声入力モード)を実行する(ステップ48)。このとき、音声入力・認識の状態も、アイコンとしてTV200の表示画面26に表示される(第3のアイコン)。
図5、図6、図7、図8は、それぞれ、上記第1のアイコン、第2のアイコン及び第3のアイコンの例を示した図である。各図において、(A)が第1のアイコン、(B)が第2のアイコン、(C)が第3のアイコンの例を示し、それぞれ音声入力モードの遷移に応じて、第1のアイコンが第2のアイコンに変化し、第2のアイコンが第3のアイコンへと変化する。
図5の例では、アイコンの色の変化により上記音声入力モードの状態の違いが示されている。すなわち、リモコン100が立った状態では、第1のアイコンとして、マイクを模した形状のアイコンが表示画面26に出現する。その際、当該アイコンの色は例えば灰色等の所定色に表示される。その後ユーザのタッチが検出されると、第2のアイコンとして、色が変化した(例えば緑色)マイク型アイコンが表示される。さらに、ユーザの声がマイクロフォン15から入力されると、第3のアイコンとして、さらに色が変化した(例えば黄色)マイク型アイコンが表示される。
図6の例では、アイコンの大きさの変化により上記音声入力モードの状態の違いが示されている。すなわち、第1のアイコンとして比較的小さいマイク型アイコンが表示され、タッチが検出されると、第2のアイコンとして例えば第1のアイコンの2倍程度のマイク型アイコンが表示される。そして、第3のアイコンとして、ユーザの声の大きさにリアルタイムで応じた大きさのマイク型アイコンが表示される。例えば、入力されるユーザの声が比較的小さい場合には、第3のアイコンは第2のアイコンよりも小さくなり、ユーザの声が比較的大きい場合には、第3のアイコンは第2のアイコンよりも大きくなる。
図7の例では、アイコンの色の濃さの変化により上記音声入力モードの状態の違いが示されている。すなわち、第1のアイコンとしては、半透明の状態のマイク型アイコンが表示され、タッチが検出されると、第2のアイコンとして、不透明な状態のマイク型アイコンが表示される。そして、ユーザの音声が入力されると、第3のアイコンとして、さらに濃い状態のマイク型アイコンが表示される。
図8の例では、アイコンの形状の変化により上記音声入力モードの状態の違いが示されている。すなわち、第1のアイコンとして、リモコン100の形状を模したアイコンが表示され、タッチが検出されると、第2のアイコンとして、上記リモコン100を模したアイコンがマイク型アイコンに変化して表示される。そして、ユーザの音声が入力されると、例えば第3のアイコンとして、マイク型アイコンの上部に、波状のアニメーションが付加されたものが表示される。この波状のアニメーションは、その中心から波紋が外側へ広がるように表示される。この波紋の数が、入力されたユーザの声の大きさを反映したインジケータとして機能しても構わない。
(音声入力モードの終了)
図9は、リモコン100が音声入力モードを終了する際の動作の流れを示したフローチャートである。
同図に示すように、まずCPU11は、ユーザのタッチが検出されなくなったか否かを判断し(ステップ91)、タッチが検出されなくなったと判断した場合(Yes)には音声入力モードを終了する(ステップ92)。またCPU11は、タッチが検出されなくなっただけでなく、リモコン100の角度が上記所定角度範囲から外れたことをさらに検出することで音声入力モードを終了してもよい。
ここでCPU11は、ユーザにより入力されて解析中(認識中)の音声があるか否かを判断する(ステップ93)。解析中の音声が無いと判断した場合(No)には、CPU11は処理を終了する。
解析中の音声があると判断した場合(Yes)、CPU11は、ユーザから解析処理中断コマンドが入力されたか否かを判断する(ステップ94)。解析処理中断コマンドとしては、例えば、ユーザがタッチセンサ12上で入力する所定方向(例えば左側)へのフリック操作や、ユーザがリモコン100を左右または上下に振る操作や、ユーザからの特定の音声の入力(例えば「中止」「やめ」等)等が考えられる。すなわち、当該コマンドは、リモコン100に何らかの状態変化をもたらすコマンドである。この場合、リモコン100は、解析処理中断を受け付けるための特殊なモードに遷移している。
上記解析処理中断コマンドが入力されたと判断した場合(Yes)、CPU11は、解析処理を中断し(ステップ95)、処理を終了する。
一方、解析処理中断コマンドが入力されていないと判断した場合(No)、CPU11は、上記音声の解析処理を続行し(ステップ96)、解析結果に応じた処理を実行する(ステップ97)。
(AND検索処理)
上述のように、音声入力モードで実行されるアプリケーションの1つに、音声検索がある。図10は、上記音声入力モードにより音声検索処理が実行される際の、AND検索処理の流れを示したフローチャートである。
同図に示すように、CPU11はまず、上記音声認識処理により、ユーザから入力された音声が示す文字列を認識する(ステップ101)。
続いてCPU11は、認識した文字列を、認識結果表示領域へ表示するためのコマンドをTV200へ送信する(ステップ102)。
図11は、上記AND検索処理において表示されるユーザインタフェースの例を示した図である。同図に示すように、上記コマンドが受信されることで、TV200の表示画面26のAND検索処理のユーザインタフェース上では、当該認識された文字列が、認識結果表示領域111内に表示される。
続いてCPU11は、所定時間内に、ユーザによる所定のアクションが検出されたか否かを判断する(ステップ103)。ここで所定のアクションとは、例えばユーザがリモコン100を振る操作や、タッチセンサ12上での右フリック操作等であるが、これに限られない。
上記所定のアクションが所定時間内に検出されなかった場合(No)、CPU11は、認識結果表示領域111内の文字列を検索キーワードとした検索要求を、ネットワーク上の検索エンジンへ送信する(ステップ105)。当該検索要求の検索エンジンへの送信は、リモコン100から、TV200を介して実行されてもよいし、TV200を介さずに直接実行されてもよい。
一方、上記所定のアクションが所定時間内に検出された場合(Yes)、CPU11は、上記認識されて認識結果表示領域111内に表示されている文字列を、リザーブ領域に移動するためのコマンドをTV200へ送信する(ステップ104)。
図11に示すように、上記コマンドが受信されることで、表示画面26の認識結果表示領域111に表示されていた文字列が、例えばその右隣に設けられたリザーブ領域112へ移動して表示される。ここで、上記所定のアクションと異なる(対照的な)ユーザのアクション(例えば左クリック)が検出された場合には、CPU11は、認識結果表示領域111に表示された文字列の入力をキャンセル(消去)してもよい。
そして、CPU11は、上記所定時間内の所定のアクションを待機し、アクションがない場合には、認識結果表示領域111に表示された文字列とリザーブ領域112に表示された文字列とをキーワードとするAND検索要求を上記検索エンジンへ送信する(ステップ105)。検索エンジンから受信された検索結果は表示画面26に表示される。
このように、リモコン100は、ユーザのアクションに基づいて認識結果表示領域111とリザーブ領域112とに文字列を表示することで、音声入力モードにおけるAND検索処理をユーザに容易に実行させることができる。
[まとめ]
以上説明したように、本実施形態によれば、リモコン100は、リモコン100の所定の状態変化に基づいて、音声入力モードの準備状態を示すアイコン(第1のアイコン)と音声入力モードの実行可能状態を示すアイコン(第2のアイコン)とを表示することができる。したがってリモコン100は、ユーザに、音声入力モードの状態及びその遷移を容易に把握させることができる。
[変形例]
本技術は上述の実施形態にのみ限定されるものではなく、本開示の要旨を逸脱しない範囲内において種々変更され得る。
(音量の大小のビジュアルフィードバック)
上述の実施形態において、リモコン100は、入力されるユーザの音声が、音声認識に適した音量に比して大きすぎる、または小さすぎることをユーザに視覚的に報知してもよい。以下、この処理の詳細について説明する。
図12は、音量の大小を、グラフによりユーザに報知する処理を示した図である。
音量の大小をグラフで示す場合、音声は時間経過により大小が刻々変化するので、リアルタイムに(追従性よく)表現するアニメーションよりも、たとえば、以下のように加工することが好ましい。
CPU11はまず、同図(A)に示すような、ユーザの音声から変換された元の音声信号の波形を、同図(B)に示すように絶対値処理(ABS処理)し、正符号のスカラ量に変換する。ここで音声信号は、絶対値処理ではなく二乗処理により正符号に変換されてもよい。
さらにCPU11は、上記絶対値処理された音声信号を平滑化処理する。平滑化処理の方法としては、同図(C)に示すようなローパスフィルタを適用するものが考えられる。また同図(C)´に示すように、現在の音声値が前値よりも大きいときはその値を現在値として適用し、ある時点の音声値が前値よりも小さいときは現在の音声値から所定値を減じた値を現在値として適用することで、値がピーク値から徐々に落ちていくような平滑化処理が施されてもよい。
そしてCPU11は、同図(C)または同図(C)´に示すようなグラフをTV200の表示画面26に表示させることで、ユーザに、自身の声が大きすぎるまたは小さすぎることを把握させ、声の大きさを調整させることができる。
またCPU11は、音量の大小をアイコンとして表示させてもよい。図13及び図14は、当該音量の大小をアイコンによりユーザに報知する場合の表示例をそれぞれ示した図である。
図13(A)に示すように、CPU11は、ユーザの声が大きすぎる場合(マイクロフォン15への音声の入力レベルが所定の第1の閾値よりも大きい場合)には、上記図5〜図8で示したようなマイクのアイコンを拡大してその一部を抽出したようなアイコンを表示するコマンドをTV200へ送信する。これによりユーザは、マイクのアイコンが大きくなって全体が見えなくなることから、自身の声が大きすぎることを把握できる。
一方、図13(B)に示すように、CPU11は、ユーザの声が小さすぎる場合(マイクロフォン15への音声の入力レベルが、上記第1の閾値よりも小さい所定の第2の閾値以下の場合)には、上記マイクのアイコンが縮小されたアイコンを表示するコマンドをTV200へ送信する。またCPU11は、これに代えて、上記マイクのアイコンが半透明になったり色が淡くなったりしたアイコンを表示させてもよい。これによりユーザは、マイクのアイコンが小さくなることから、自身の声が小さすぎることを把握することができる。
また図14に示すように、CPU11は、マイクのアイコンの上部に表示される波紋における強調表示の位置によって、音量の大小をユーザに報知してもよい。
すなわち、CPU11は、マイクロフォン15への音声の入力レベルが上記第1の閾値よりも大きい場合には、マイクのアイコンの最も外側の波紋を強調して表示するコマンドをTV200へ送信する。この表示を確認することで、ユーザは、自身の声が大きすぎることを把握することができる。
またCPU11は、マイクロフォン15への音声の入力レベルが上記第2の閾値以下である場合には、マイクのアイコンの最も内側の波紋を強調して表示するコマンドをTV200へ送信する。この表示を確認することで、ユーザは、自身の声が小さすぎることを把握することができる。
一方、CPU11は、マイクロフォン15への音声の入力レベルが、上記第2の閾値よりも大きく上記第1の閾値以下である場合には、マイクのアイコンの真ん中の波紋を強調して表示するコマンドをTV200へ送信する。この表示を確認することで、ユーザは、自身の声の大きさが適切であることを把握することができる。
(TVの音声の除去)
上述の実施形態において、音声入力モードの実行中は、音声の入力の状態はTV200の表示画面26に表示される。ここで、TV200が何らかの音声を出力している場合、マイクロフォン15が、ユーザの音声以外にTV200から出力される音声も拾ってしまい、認識精度が下がってしまう可能性が考えられる。そこで、TV200は、音声入力モードにおいては、出力される音声を除去する機能を有していてもよい。
図15は、上記音声入力モードにおいてTV200の音声を除去する様子を示した図であり、図16は、上記音声入力モードにおいてTV200の音声を除去する処理を実行する際のTV200の概略構成を示したブロック図である。
図16に示すように、TV200は、表示画面26のほか、プロセッサ21、ノイズキャンセラー22、受信機23、マイクロフォン24及びスピーカー25を有する。
プロセッサ21は、TV200の各ブロックを統括的に制御する。ノイズキャンセラー22は、所定の条件が満たされた場合に、マイクロフォン24に入力された音声を除去する。受信機23は、リモコン100から上記各種コマンドや、各種センサからの値を受信する。スピーカー25は、プロセッサ21により生成された音声を出力する。
図15に示すように、リモコン100のCPU11は、ユーザがリモコン100を立てた(所定角度回転させた)ことを傾きセンサ13等により検出すると、TV200のマイクロフォン24をオンにするコマンドをTV200へ送信する。
一方TV200のプロセッサ21は、上記コマンドを受信すると、マイクロフォン24をオンにするとともに、ノイズキャンセラー22も起動させる。
そしてプロセッサ21は、スピーカー25から出力されマイクロフォン24によって入力された音声を、ノイズキャンセラー22によりノイズとして除去する。したがって、上記リモコン100からTV200へ送信されるコマンドは、マイクロフォン24をオンさせるコマンドであると同時に、TV200から出力される音声の音量を下げるためのコマンドであるともいえる。
これにより、音声入力モードにおいては、TV200のスピーカー25から出力される音声は全て除去されるため、リモコン100における音声認識処理に対する悪影響が排除される。
(その他の変形例)
上述の実施形態では、リモコン100は、音声入力モードの準備状態へ遷移するために、傾きセンサ13の出力を用いた。しかし、リモコン100は、傾きセンサ13に代えて、リモコン100からユーザの口元までの距離を検出する距離センサ(赤外線センサ)を有し、検出された距離が所定値(例えば3cm〜10cm程度)以下になった場合に、音声入力モードの準備状態に遷移してもよい。
同様に、リモコン100は、傾きセンサ13に代えて、ユーザの口元を撮影するカメラを有し、所定大のユーザの口が撮影された場合に、音声入力モードの準備状態に遷移してもよい。
すなわち、リモコン100は、音声入力モードの準備状態へ遷移するために、リモコン100の何らかの状態変化を検出するための状態検出部を有していればよい。
また、TV200に、ユーザ及びリモコン100の状態を撮像するカメラが設けられ、リモコン100が、リモコン100が立った状態であることを、傾きセンサ13の検出値と当該カメラの映像との双方によりロバストに検出してもよい。
上述の実施形態では、傾きセンサ13やタッチセンサ12による検出値や検出の有無により音声入力モードが遷移した。しかし、それらセンサに代えて、ハードウェアボタンやGUIアイコンにより、ユーザが能動的にモードを遷移させてもよい。
上述の実施形態にでは、リモコン100は、傾きセンサ13によりリモコン100が立てられたことが検出された場合に、音声入力モードの準備状態へ遷移していた。しかし、例えば、ユーザがリモコン100をゲームのコントローラとして用いている場合には、リモコン100を両手の指で把持して立てた状態にすることが考えられる。そこで、リモコン100は、タッチセンサ12の複数のポイントに対するタッチが検出された場合(マルチタッチが検出された場合)には、上記傾きセンサ13の検出値が上記閾値範囲内であっても、音声入力モードの準備状態へ遷移しないよう制御してもよい。
上述の実施形態においてリモコン100のCPU11が実行した処理の少なくとも一部は、TV200のプロセッサ21が担ってもよい。例えば、傾きセンサ13の検出値が所定閾値範囲にあるか否かの判断処理(図4のステップ42)、所定時間経過後に音声入力モードの準備状態に遷移する処理(同図ステップ43)、タッチセンサ12の検出に基づく音声入力モードの実行可能状態へ遷移する処理(同図ステップ46)等については、リモコン100は単に各センサの出力のみTV200へ送信し、実際の処理はプロセッサ21が実行してもよい。
上述の実施形態においては、音声入力モードを実行する情報処理装置として、上記図2で示した構成を有するリモコン100が示された。しかし、当該リモコン100に代えて、携帯電話機、スマートフォン、携帯型オーディオプレイヤー、携帯型ゲーム機器等、ユーザが携帯可能な他のあらゆる情報処理装置が用いられてもよい。また、上述の実施形態では、音声入力モード中にユーザにビジュアルフィードバックを提供する装置としてTV200が示されたが、当該TVに替えて、PC(Personal Computer)、PVR(Personal Video Recorder)、ゲーム機器等のあらゆる情報処理装置が用いられてもよい。
上述の実施形態では、音声入力モードを実行する情報処理装置と、当該音声入力モードの実行中にその遷移状態のビジュアルフィードバックを提供する情報処理装置とが別個に存在する(リモコン100とTV200)例が示された。しかし、音声入力モードを実行する情報処理装置とそのビジュアルフィードバックを提供する情報処理装置とが同一であっても構わない。すなわち、上記リモコン100がディスプレイを有し、当該ディスプレイ上で、音声入力モード中に上記2段階または3段階のビジュアルフィードバックが提供されてもよい。この場合、リモコン100のCPU11が、第1〜第3のアイコンを表示させるための各コマンドを生成して自身のディスプレイに各アイコンをそれぞれ出力させる。
[その他]
本技術は以下のような構成も採ることができる。
(1)情報処理装置であって、
当該情報処理装置の第1の状態変化を検出可能な状態検出部と、
ユーザのタッチを検出可能なタッチセンサと、
入力された前記ユーザの音声を音声信号に変換可能なマイクロフォンと、
前記音声信号を文字情報として認識する音声入力モードを実行可能であり、前記第1の状態変化が検出された場合に、前記音声入力モードが準備状態であることを示す第1の画像を出力するための第1のコマンドを生成可能であり、前記第1の状態変化に続いて前記タッチが検出された場合に、前記音声入力モードが実行可能な状態であることを示す第2の画像を出力するための第2のコマンドを生成可能な制御部と
を具備する情報処理装置。
(2)上記(1)に記載の情報処理装置であって、
前記第1のコマンド及び前記第2のコマンドを外部の表示装置へ送信可能な通信部をさらに具備する
情報処理装置。
(3)上記(1)または(2)に記載の情報処理装置であって、
筐体をさらに具備し、
前記状態検出部は、前記筐体の角度を検出可能な角度センサを有し、
前記制御部は、前記筐体の角度が所定角度範囲になったことが検出された場合に前記第1のコマンドを生成可能である
情報処理装置。
(4)上記(1)から(3)のいずれか1つに記載の情報処理装置であって、
前記第2の画像は、前記第1の画像の一部が変化した画像である
情報処理装置。
(5)上記(1)から(4)のいずれか1つに記載の情報処理装置であって、
前記制御部は、前記第2の画像が出力された状態で、前記マイクロフォンに前記ユーザの音声が入力された場合に、前記第2の画像に代えて第3の画像を出力するための第3のコマンドを生成可能である
情報処理装置。
(6)上記(1)から(5)のいずれか1つに記載の情報処理装置であって、
前記制御部は、前記タッチが検出されなくなった場合に、前記音声入力モードを終了する
情報処理装置。
(7)上記(1)から(6)のいずれか1つに記載の情報処理装置であって、
前記状態検出部は、当該情報処理装置の第2の状態変化を検出可能であり、
前記制御部は、前記音声信号の認識中に前記第2の状態変化が検出された場合に、当該音声信号の認識を中止する
情報処理装置。
(8)上記(1)から(6)のいずれか1つに記載の情報処理装置であって、
ネットワーク上の検索エンジンと通信可能な通信部をさらに具備し、
前記制御部は、
前記認識された文字情報を含む認識結果画像を出力するためのコマンドを生成し、
前記認識された文字情報をキーとした検索処理を要求する検索要求情報を前記通信部により前記検索エンジンへ送信する
情報処理装置。
(9)上記(8)に記載の情報処理装置であって、
前記状態検出部は、当該情報処理装置の第2の状態変化を検出可能であり、
前記認識結果画像は、前記認識された文字情報が表示される第1の領域と、当該第1の領域とは異なる第2の領域とを有し、
前記制御部は、
第1の文字情報が認識された場合に、当該第1の文字情報を前記第1の領域へ表示させ、
前記第1の文字情報の認識後、所定時間内に前記第3の状態変化が検出された場合に、前記第1の文字情報を前記第1の領域から前記第2の領域へ移動させ、
前記第3の状態変化の検出後に第2の文字情報が認識された場合に、前記第2の文字情報を前記第1の領域へ表示させ、
前記第2の文字情報の認識後、前記所定時間内に前記第3の状態変化が検出されない場合に、前記第1の文字情報と前記第2の文字情報とをキーとした検索処理を要求する検索要求情報を送信する
情報処理装置。
(10)上記(1)から(9)のいずれか1つに記載の情報処理装置であって、
前記タッチセンサは、前記音声入力モード以外のモードにおいてそれぞれ異なる機能が割り当てられた複数のタッチ領域を有し、
前記制御部は、前記音声入力モードの準備状態及び実行可能状態においては、前記複数の領域に割り当てられた機能を無効にする
情報処理装置。
(11)上記(1)から(10)のいずれか1つに記載の情報処理装置であって、
前記タッチセンサは、複数のポイントに対するタッチを同時に検出可能であり、
前記制御部は、前記複数のポイントに対するタッチが検出されている場合は、前記第1の状態変化が検出されても前記第1のコマンドを生成しない
情報処理装置。
(12)上記(2)から(11)のいずれか1つに記載の情報処理装置であって、
前記表示装置は音声を出力可能であり、
前記制御部は、前記第1の状態変化が検出された場合に、前記表示装置により出力される音声の音量を下げるための音量コマンドを生成し、当該音量コマンドを前記通信部により送信する
情報処理装置。
(13)上記(1)〜(12)のいずれか1つに記載の情報処理装置であって、
前記制御部は、前記マイクロフォンへの前記音声の入力レベルが第1の値以下であることを示す画像を出力するためのコマンドと、前記マイクロフォンへの前記音声の前記入力レベルが第2の値よりも大きいことを示す画像を出力するためのコマンドを生成する
情報処理装置。
11…CPU
12…タッチセンサ
13…傾きセンサ
14…通信部
15…マイクロフォン
21…プロセッサ
22…ノイズキャンセラー
23…受信機
24…マイクロフォン
25…スピーカー
26…表示画面
31…入力デバイス
32…センサ感知部
33…音声入力判定部
34…音声認識部
35…出力デバイス
100…リモートコマンダー(リモコン)
111…認識結果表示領域
112…リザーブ領域
200…テレビジョン装置(TV)

Claims (15)

  1. 情報処理装置であって、
    当該情報処理装置の第1の状態変化を検出可能な状態検出部と、
    ユーザのタッチを検出可能なタッチセンサと、
    入力された前記ユーザの音声を音声信号に変換可能なマイクロフォンと、
    前記音声信号を文字情報として認識する音声入力モードを実行可能であり、前記第1の状態変化が検出された場合に、前記音声入力モードが準備状態であることを示す第1の画像を出力するための第1のコマンドを生成可能であり、前記第1の状態変化に続いて前記タッチが検出された場合に、前記音声入力モードが実行可能な状態であることを示す第2の画像を出力するための第2のコマンドを生成可能な制御部と
    前記第1のコマンド及び前記第2のコマンドを外部の表示装置へ送信可能な第1の通信部と
    を具備する情報処理装置。
  2. 請求項に記載の情報処理装置であって、
    筐体をさらに具備し、
    前記状態検出部は、前記筐体の角度を検出可能な角度センサを有し、
    前記制御部は、前記筐体の角度が所定角度範囲になったことが検出された場合に前記第1のコマンドを生成可能である
    情報処理装置。
  3. 請求項1または2に記載の情報処理装置であって、
    前記第2の画像は、前記第1の画像の一部が変化した画像である
    情報処理装置。
  4. 請求項1からのいずれか1項に記載の情報処理装置であって、
    前記制御部は、前記第2の画像が出力された状態で、前記マイクロフォンに前記ユーザの音声が入力された場合に、前記第2の画像に代えて第3の画像を出力するための第3のコマンドを生成可能である
    情報処理装置。
  5. 請求項1からのいずれか1項に記載の情報処理装置であって、
    前記制御部は、前記タッチが検出されなくなった場合に、前記音声入力モードを終了する
    情報処理装置。
  6. 請求項1からのいずれか1項に記載の情報処理装置であって、
    前記状態検出部は、当該情報処理装置の第2の状態変化を検出可能であり、
    前記制御部は、前記音声信号の認識中に前記第2の状態変化が検出された場合に、当該音声信号の認識を中止する
    情報処理装置。
  7. 請求項1から6のいずれか1項に記載の情報処理装置であって、
    ネットワーク上の検索エンジンと通信可能な第2の通信部をさらに具備し、
    前記制御部は、
    前記認識された文字情報を含む認識結果画像を出力するためのコマンドを生成し、
    前記認識された文字情報をキーとした検索処理を要求する検索要求情報を前記第2の通信部により前記検索エンジンへ送信する
    情報処理装置。
  8. 請求項に記載の情報処理装置であって、
    前記状態検出部は、当該情報処理装置の第2の状態変化を検出可能であり、
    前記認識結果画像は、前記認識された文字情報が表示される第1の領域と、当該第1の領域とは異なる第2の領域とを有し、
    前記制御部は、
    第1の文字情報が認識された場合に、当該第1の文字情報を前記第1の領域へ表示させ、
    前記第1の文字情報の認識後、所定時間内に前記第2の状態変化が検出された場合に、前記第1の文字情報を前記第1の領域から前記第2の領域へ移動させ、
    前記第2の状態変化の検出後に第2の文字情報が認識された場合に、前記第2の文字情報を前記第1の領域へ表示させ、
    前記第2の文字情報の認識後、前記所定時間内に前記第2の状態変化が検出されない場合に、前記第1の文字情報と前記第2の文字情報とをキーとした検索処理を要求する検索要求情報を送信する
    情報処理装置。
  9. 請求項1からのいずれか1項に記載の情報処理装置であって、
    前記タッチセンサは、前記音声入力モード以外のモードにおいてそれぞれ異なる機能が割り当てられた複数のタッチ領域を有し、
    前記制御部は、前記音声入力モードの準備状態及び実行可能状態においては、前記複数の領域に割り当てられた機能を無効にする
    情報処理装置。
  10. 請求項1からのいずれか1項に記載の情報処理装置であって、
    前記タッチセンサは、複数のポイントに対するタッチを同時に検出可能であり、
    前記制御部は、前記複数のポイントに対するタッチが検出されている場合は、前記第1の状態変化が検出されても前記第1のコマンドを生成しない
    情報処理装置。
  11. 請求項から10のいずれか1項に記載の情報処理装置であって、
    前記表示装置は音声を出力可能であり、
    前記制御部は、前記第1の状態変化が検出された場合に、前記表示装置により出力される音声の音量を下げるための音量コマンドを生成し、当該音量コマンドを前記第1の通信部により送信する
    情報処理装置。
  12. 請求項1から11のいずれか1項に記載の情報処理装置であって、
    前記制御部は、前記マイクロフォンへの前記音声の入力レベルが第1の値以下であることを示す画像を出力するためのコマンドと、前記マイクロフォンへの前記音声の前記入力レベルが第2の値よりも大きいことを示す画像を出力するためのコマンドを生成する
    情報処理装置。
  13. 表示部と、
    ユーザが携帯する携帯機器から、当該携帯機器の所定の状態変化が検出されたことを示す状態情報と、前記携帯機器が有するタッチセンサにより前記ユーザのタッチが検出されたことを示すタッチ情報とを受信可能な通信部と、
    前記状態情報を受信した場合に、前記携帯機器において実行される音声入力モードが準備状態であることを示す第1の画像を表示し、前記状態情報の受信後に前記タッチ情報を受信した場合に、前記音声入力モードが実行可能な状態であることを示す第2の画像を表示するように前記表示部を制御可能な制御部と
    を具備する情報処理装置。
  14. 情報処理装置における情報処理方法であって、
    前記情報処理装置の所定の状態変化を検出し、
    前記所定の状態変化が検出された場合に、ユーザの音声から変換された音声信号を文字情報として認識する音声入力モードが準備状態であることを示す第1の画像を出力するための第1のコマンドを生成し、
    前記所定の状態変化に続いて前記ユーザのタッチを検出し、
    前記タッチが検出された場合に、前記音声入力モードが実行可能な状態であることを示す第2の画像を出力するための第2のコマンドを生成し、
    前記第1のコマンド及び前記第2のコマンドを外部の表示装置へ送信する
    情報処理方法。
  15. 情報処理装置に、
    前記情報処理装置の所定の状態変化を検出するステップと、
    前記所定の状態変化が検出された場合に、ユーザの音声から変換された音声信号を文字情報として認識する音声入力モードが準備状態であることを示す第1の画像を出力するための第1のコマンドを生成するステップと、
    前記所定の状態変化に続いて前記ユーザのタッチを検出するステップと、
    前記タッチが検出された場合に、前記音声入力モードが実行可能な状態であることを示す第2の画像を出力するための第2のコマンドを生成するステップと
    前記第1のコマンド及び前記第2のコマンドを外部の表示装置へ送信するステップと
    を実行させるプログラム。
JP2011160592A 2011-07-22 2011-07-22 情報処理装置、情報処理方法及びプログラム Expired - Fee Related JP5790238B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011160592A JP5790238B2 (ja) 2011-07-22 2011-07-22 情報処理装置、情報処理方法及びプログラム
US13/545,615 US9268524B2 (en) 2011-07-22 2012-07-10 Information processing apparatus, information processing method, and computer readable medium
CN2012102438346A CN103021410A (zh) 2011-07-22 2012-07-13 信息处理装置、信息处理方法和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011160592A JP5790238B2 (ja) 2011-07-22 2011-07-22 情報処理装置、情報処理方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2013025605A JP2013025605A (ja) 2013-02-04
JP2013025605A5 JP2013025605A5 (ja) 2014-08-21
JP5790238B2 true JP5790238B2 (ja) 2015-10-07

Family

ID=47555472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011160592A Expired - Fee Related JP5790238B2 (ja) 2011-07-22 2011-07-22 情報処理装置、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US9268524B2 (ja)
JP (1) JP5790238B2 (ja)
CN (1) CN103021410A (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2610862B1 (en) * 2011-12-30 2015-07-08 Samsung Electronics Co., Ltd. Electronic apparatus and method of controlling electronic apparatus
US20130179165A1 (en) * 2012-01-11 2013-07-11 Jeffrey T. Holman Dynamic presentation aid
KR102091236B1 (ko) * 2012-09-28 2020-03-18 삼성전자 주식회사 전자기기 및 그 제어방법
HK1186912A2 (en) * 2013-01-25 2014-03-21 Zhipei Wang Remote control system and device
US20140215332A1 (en) * 2013-01-31 2014-07-31 Hewlett-Packard Development Company, Lp Virtual microphone selection corresponding to a set of audio source devices
FR3003373B1 (fr) * 2013-03-14 2015-04-03 Compagnie Ind Et Financiere Dingenierie Ingenico Procede et dispositif de visualisation securisee sur un ecran d'un terminal electronique, terminal correspondant
KR102106779B1 (ko) 2013-06-28 2020-05-06 삼성전자주식회사 펜 입력 처리 방법 및 상기 방법이 적용되는 장치
WO2015029231A1 (ja) * 2013-08-30 2015-03-05 日立マクセル株式会社 端末装置およびリモート制御方法
US11068128B2 (en) 2013-09-03 2021-07-20 Apple Inc. User interface object manipulations in a user interface
CN110262677B (zh) 2013-09-03 2022-08-09 苹果公司 计算机实现的方法、电子设备和计算机可读存储介质
CN104469619B (zh) * 2013-09-12 2017-10-27 晨星半导体股份有限公司 应用于音频装置的控制器与相关的操作方法
CN104392729B (zh) * 2013-11-04 2018-10-12 贵阳朗玛信息技术股份有限公司 一种动画内容的提供方法及装置
US9564128B2 (en) * 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
CN104715753B (zh) * 2013-12-12 2018-08-31 联想(北京)有限公司 一种数据处理的方法及电子设备
JP6137040B2 (ja) * 2014-04-25 2017-05-31 Smk株式会社 リモートコントロールシステム及びリモートコントローラ
JP6137039B2 (ja) * 2014-04-25 2017-05-31 Smk株式会社 リモートコントロールシステム及びリモートコントローラ
WO2015167008A1 (ja) * 2014-05-02 2015-11-05 株式会社ソニー・コンピュータエンタテインメント 案内装置、案内方法、プログラム及び情報記憶媒体
US20150350141A1 (en) 2014-05-31 2015-12-03 Apple Inc. Message user interfaces for capture and transmittal of media and location content
EP3161603B1 (en) 2014-06-27 2019-10-16 Apple Inc. Manipulation of calendar application in device with touch screen
JP6333092B2 (ja) * 2014-07-04 2018-05-30 本田技研工業株式会社 情報処理システム
WO2016036509A1 (en) 2014-09-02 2016-03-10 Apple Inc. Electronic mail user interface
CN113824998A (zh) 2014-09-02 2021-12-21 苹果公司 音乐用户界面
TWI582641B (zh) 2014-09-02 2017-05-11 蘋果公司 按鈕功能性
US20160062571A1 (en) 2014-09-02 2016-03-03 Apple Inc. Reduced size user interface
WO2016051519A1 (ja) * 2014-09-30 2016-04-07 三菱電機株式会社 音声認識システム
CN105812918A (zh) * 2014-12-30 2016-07-27 Tcl海外电子(惠州)有限公司 电视机语音信息采集方法及系统
CN104598112B (zh) 2015-01-23 2019-01-18 小米科技有限责任公司 按钮交互方法和装置
JP6669073B2 (ja) * 2015-03-31 2020-03-18 ソニー株式会社 情報処理装置、制御方法、およびプログラム
EP3091422B1 (en) * 2015-05-08 2020-06-24 Nokia Technologies Oy Method, apparatus and computer program product for entering operational states based on an input type
JP2016136085A (ja) * 2016-02-19 2016-07-28 シャープ株式会社 システム
US10528241B2 (en) * 2016-03-21 2020-01-07 Roku, Inc. Controlling display device settings from a mobile device touch interface
JP2017194779A (ja) * 2016-04-19 2017-10-26 ソニー株式会社 情報処置装置、情報処置方法及びプログラム
USD826984S1 (en) * 2016-09-29 2018-08-28 General Electric Company Display screen or portion thereof with graphical user interface
WO2018116556A1 (ja) * 2016-12-22 2018-06-28 ソニー株式会社 情報処理装置、および情報処理方法
CN106653025A (zh) * 2017-01-10 2017-05-10 四川长虹电器股份有限公司 智能电视语音遥控器及其语音控制方法
JP7056020B2 (ja) * 2017-07-04 2022-04-19 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
KR102392087B1 (ko) * 2017-07-10 2022-04-29 삼성전자주식회사 원격 조정 장치 및 원격 조정 장치의 사용자 음성 수신방법
KR102419597B1 (ko) * 2017-09-29 2022-07-11 삼성전자주식회사 입력 디바이스와 전자 장치, 이를 포함하는 시스템 및 그 제어 방법
US11435830B2 (en) 2018-09-11 2022-09-06 Apple Inc. Content-based tactile outputs
WO2022254670A1 (ja) * 2021-06-03 2022-12-08 日産自動車株式会社 表示制御装置及び表示制御方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6903723B1 (en) * 1995-03-27 2005-06-07 Donald K. Forest Data entry method and apparatus
JP2003345390A (ja) * 2002-05-23 2003-12-03 Matsushita Electric Ind Co Ltd 音声処理装置及びリモートコントローラ装置
JP2004265217A (ja) * 2003-03-03 2004-09-24 Nec Corp 音声認識機能を有する移動通信端末とその端末を利用したキーワード検索方法
JP4585759B2 (ja) * 2003-12-02 2010-11-24 キヤノン株式会社 音声合成装置、音声合成方法、プログラム、及び記録媒体
WO2005107903A1 (ja) * 2004-05-10 2005-11-17 Sega Corporation 電子遊戯装置、電子遊戯装置におけるデータ処理方法及びこのためのプログラム並びに記憶媒体
EP1812892B1 (en) * 2004-08-02 2010-09-29 Koninklijke Philips Electronics N.V. Touch screen with pressure-dependent visual feedback
JP4756953B2 (ja) * 2005-08-26 2011-08-24 富士通株式会社 情報検索装置および情報検索方法
US7848314B2 (en) * 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
JP2009025579A (ja) * 2007-07-20 2009-02-05 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP5646146B2 (ja) 2009-03-18 2014-12-24 株式会社東芝 音声入力装置、音声認識システム及び音声認識方法
JP2011118822A (ja) * 2009-12-07 2011-06-16 Nec Casio Mobile Communications Ltd 電子機器、発話検出装置、音声認識操作システム、音声認識操作方法及びプログラム
WO2011104709A2 (en) * 2010-02-23 2011-09-01 Rami Parham A system for projecting content to a display surface having user-controlled size, shape and location/direction and apparatus and methods useful in conjunction therewith
US8384770B2 (en) * 2010-06-02 2013-02-26 Nintendo Co., Ltd. Image display system, image display apparatus, and image display method
KR101660505B1 (ko) * 2011-03-08 2016-10-10 엘지전자 주식회사 이동 단말기 및 그 제어방법

Also Published As

Publication number Publication date
US9268524B2 (en) 2016-02-23
JP2013025605A (ja) 2013-02-04
US20130021362A1 (en) 2013-01-24
CN103021410A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
JP5790238B2 (ja) 情報処理装置、情報処理方法及びプログラム
US10956028B2 (en) Portable device and method for providing user interface mode thereof
RU2662690C2 (ru) Устройство и способ управления объектом пользовательского прибора
US20130342456A1 (en) Remote control apparatus and control method thereof
WO2018082269A1 (zh) 菜单显示方法及终端
WO2015024252A1 (zh) 一种遥控器、信息处理方法及系统
JP5994328B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
US20120092283A1 (en) Information processing apparatus, information processing method, and program
KR20140035870A (ko) 스마트 에어 마우스
US20140022171A1 (en) System and method for controlling an external system using a remote device with a depth sensor
WO2018076380A1 (zh) 在电子设备中生成视频缩略图的方法及电子设备
CN108920069B (zh) 一种触控操作方法、装置、移动终端和存储介质
EP2713606B1 (en) Method for controlling camera and mobile device
US20140317545A1 (en) Information processing device, information processing method and program
US10785441B2 (en) Running touch screen applications on display device not having touch capability using remote controller having at least a touch sensitive surface
WO2020078234A1 (zh) 显示控制方法及终端
JP6575518B2 (ja) 表示制御装置、表示制御方法およびプログラム
WO2015081485A1 (zh) 一种终端设备识别用户手势的方法和设备
CN111338521A (zh) 一种图标显示控制方法及电子设备
KR101231105B1 (ko) 휴대기기의 ui를 위한 모션 센서 제어 시스템 및 그 방법
CN110780784B (zh) 一种显示方法及电子设备
JP6233471B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
KR101424562B1 (ko) 공간 인식 장치, 이의 동작 방법 및 이를 포함하는 시스템
KR102086181B1 (ko) 제어 노출

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140707

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150720

R151 Written notification of patent or utility model registration

Ref document number: 5790238

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees