JP5790238B2

JP5790238B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP5790238B2
Application number: JP2011160592A
Authority: JP
Inventors: 瑛子櫻田; 脩繁田; 斉昭佐藤; 康之古賀; 山本　一幸; 一幸山本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-07-22
Filing date: 2011-07-22
Publication date: 2015-10-07
Anticipated expiration: 2031-07-22
Also published as: US9268524B2; JP2013025605A; US20130021362A1; CN103021410A

Description

本技術は、音声入力に応じた処理を実行可能な情報処理装置、当該情報処理装置における情報処理方法及びプログラムに関する。

従来から、音声（ユーザの声）を検出及び認識してそれに応じた処理を行う情報処理装置が存在する。例えば下記特許文献１には、角度検出部により音声入力装置の角度を検出し、距離検出部によりユーザとの距離を検出し、検出した角度及び距離に基づいて音声入力部のオンオフを制御する音声入力装置が記載されている。この音声入力装置は、当該装置がユーザの口元に近づいたことを検出して音声入力モードをオンにすることができる。

特開２０１０−２１７７５４号公報

しかしながら、上記特許文献１に記載の技術は、音声入力モードがオンになったことをユーザにフィードバックとして返すことができない。すなわちユーザは、実際に音声を入力してそれに応じた処理が実行されるのを確かめる以外に、音声入力モードがオンであることを知る術がなく、使い勝手がよいものとは言えない。

以上のような事情に鑑み、本技術の目的は、音声入力モードになったことをユーザに確実に報知することが可能な情報処理装置、情報処理方法及びプログラムを提供することにある。

上述の課題を解決するため、本技術の一形態に係る情報処理装置は、状態検出部と、タッチセンサと、マイクロフォンと、制御部とを有する。上記状態検出部は、当該情報処理装置の第１の状態変化を検出可能である。上記タッチセンサは、ユーザのタッチを検出可能である。上記マイクロフォンは、入力された上記ユーザの音声を音声信号に変換可能である。上記制御部は、上記音声信号を文字情報として認識する音声入力モードを実行可能である。また制御部は、上記第１の状態変化が検出された場合に、上記音声入力モードが準備状態であることを示す第１の画像を出力するための第１のコマンドを生成可能である。さらに制御部は、上記第１の状態変化に続いて上記タッチが検出された場合に、上記音声入力モードが実行可能な状態であることを示す第２の画像の出力するための第２のコマンドを生成可能である。

これにより情報処理装置は、第１の画像と第２の画像による２段階のビジュアルフィードバックにより、音声入力モードになったことをユーザに確実に報知することができる。ここで上記第１の状態変化とは、情報処理装置の筐体の角度変化や、情報処理装置に設けられたボタンの押下操作の検出、所定のタッチ操作の検出等を含む。上記第１の画像及び第２の画像は、上記第１のコマンド及び第２のコマンドに基づいて、当該情報処理装置で表示されてもよいし、外部機器で表示されてもよい。

上記情報処理装置は、上記第１のコマンド及び上記第２のコマンドを外部の表示装置へ送信可能な通信部をさらに具備してもよい。

これにより情報処理装置は、外部の表示装置に第１の画像及び第２の画像を表示させ、ユーザに、音声入力モードになったことのビジュアルフィードバックをより見やすい形で与えることができる。

上記情報処理装置は、筐体をさらに具備してもよい。この場合上記状態検出部は、上記筐体の角度を検出可能な角度センサを有してもよく、上記制御部は、上記筐体の角度が所定角度範囲になったことが検出された場合に上記第１のコマンドを生成可能であってもよい。

これにより情報処理装置は、ユーザが筐体を上記所定角度範囲まで傾けた場合に音声入力モードの準備を開始し、それをユーザにビジュアル的にフィードバックすることができる。ここで所定角度範囲とは、例えば地面に対する筐体の正面の角度がほぼ垂直になるような角度を中心にした所定範囲の角度である。

上記第２の画像は、上記第１の画像の一部が変化した画像であってもよい。

これにより情報処理装置は、第１の画像と第２の画像とに関連性を持たせることで、情報処理装置が、音声入力モードの準備状態から実行可能状態へ遷移したことをユーザに容易に把握させることができる。ここで「一部が変化」とは、例えば、第１の画像における所定領域の色（輝度）が第２の画像において変化したり、第１の画像における所定のオブジェクトの位置や形態が第２の画像において変化したりすることであるが、これらに限られない。

上記制御部は、上記第２の画像が出力された状態で、上記マイクロフォンに上記ユーザの音声が入力された場合に、上記第２の画像に代えて第３の画像を出力するための第３のコマンドを生成可能であってもよい。

これにより情報処理装置は、ユーザの音声が入力されていることを、さらなるビジュアルフィードバックによりユーザに報知することができる。

上記制御部は、上記タッチが検出されなくなった場合に、上記音声入力モードを終了してもよい。

これによりユーザは、タッチを解除するという極めて単純かつ容易な操作により音声入力モードを終了させることができる。

上記状態検出部は、当該情報処理装置の第２の状態変化を検出可能であってもよい。この場合上記制御部は、上記音声信号の認識中に上記第２の状態変化が検出された場合に、当該音声信号の認識を中止してもよい。

これにより情報処理装置は、音声信号の認識中であっても、第２の状態変化の検出によりその処理をキャンセルすることができる。ここで第２の状態変化とは、例えば情報処理装置が有するタッチパネルへのユーザのフリック操作の検出や、情報処理装置の筐体をユーザが振る操作の検出、特定の音声の入力等であるが、これらに限られない。

上記情報処理装置は、ネットワーク上の検索エンジンと通信可能な通信部をさらに有してもよい。この場合上記制御部は、上記認識された文字情報を含む認識結果画像を出力するためのコマンドを生成してもよい。さらに制御部は、上記認識された文字情報をキーとした検索処理を要求する検索要求情報を上記通信部により上記検索エンジンへ送信してもよい。

これにより情報処理装置は、認識された文字情報をユーザに把握させた上で、当該文字情報をキーとした検索処理を検索エンジンに行わせることができる。

上記状態検出部は、当該情報処理装置の第２の状態変化を検出可能であってもよく、上記認識結果画像は、認識された文字情報が表示される第１の領域と、当該第１の領域とは異なる第２の領域とを有してもよい。この場合上記制御部は、第１の文字情報が認識された場合に、当該第１の文字情報を上記第１の領域へ表示させ、上記第１の文字情報の認識後、所定時間内に上記第２の状態変化が検出された場合に、上記第１の文字情報を上記第１の領域から上記第２の領域へ移動させてもよい。さらに制御部は、上記第２の状態変化の検出後に第２の文字情報が認識された場合に、上記第２の文字情報を上記第１の領域へ表示させ、上記第２の文字情報の認識後、上記所定時間内に上記第２の状態変化が検出されない場合に、上記第１の文字情報と上記第２の文字情報とをキーとした検索処理を要求する検索要求情報を送信してもよい。

これにより情報処理装置は、第２の状態変化があった場合に、第１の文字情報を第２の領域に表示することで、当該第１の文字情報がスタックされていることをユーザに容易に把握させ、当該第１の文字情報と、続けて認識された第２の文字情報とに基づいて、いわゆるＡＮＤ検索処理を検索エンジンに実行させることができる。ここで第２の状態変化とは、例えば情報処理装置の筐体が振られる（往復移動する）こと、タッチセンサがユーザのフリック操作を検出すること等であるが、これらに限られない。

上記タッチセンサは、上記音声入力モード以外のモードにおいてそれぞれ異なる機能が割り当てられた複数のタッチ領域を有してもよい。この場合上記制御部は、上記音声入力モードの準備状態及び実行可能状態においては、上記複数の領域に割り当てられた機能を無効にしてもよい。

これにより情報処理装置は、音声入力モードにおいては、ユーザのタッチ操作を当該音声入力モードの実行用としてのみ機能させることができ、ユーザの誤操作を防止できる。

上記タッチセンサは、複数のポイントに対するタッチを同時に検出可能であってもよい。この場合上記制御部は、上記複数のポイントに対するタッチが検出されている場合は、上記第１の状態変化が検出されても上記第１のコマンドを生成しなくてもよい。

これにより情報処理装置は、ユーザがマルチタッチにより、例えばゲームや文字入力等、情報処理装置を特定の目的で用いている場合には、音声入力モードを実行するのを規制することができる。

上記表示装置は音声を出力可能であってもよい。この場合上記制御部は、上記第１の状態変化が検出された場合に、上記表示装置により出力される音声の音量を下げるための音量コマンドを生成し、当該音量コマンドを上記通信部により送信してもよい。

これにより情報処理装置は、音声入力モードにおいて、表示装置から出力される音声の影響を極力排除し、音声認識の精度を向上させることができる。

上記制御部は、上記マイクロフォンへの上記音声の入力レベルが第１の値以下であることを示す画像を出力するためのコマンドと、上記マイクロフォンへの上記音声の上記入力レベルが第２の値よりも大きいことを示す画像を出力するためのコマンドを生成してもよい。

これにより情報処理装置は、ユーザから入力される音声のレベルに応じて、情報処理装置とユーザの口との距離を調整させ、音声認識処理の精度を向上させることができる。

本技術の他の形態に係る情報処理装置は、表示部と、通信部と、制御部とを有する。上記通信部は、ユーザが携帯する携帯機器から、当該携帯機器の所定の状態変化が検出されたことを示す状態情報と、上記携帯機器が有するタッチセンサにより上記ユーザのタッチが検出されたことを示すタッチ情報とを受信可能である。上記制御部は、上記状態情報を受信した場合に、上記携帯機器において実行される音声入力モードが準備状態であることを示す第１の画像を表示するように上記表示部を制御可能である。さらに制御部は、上記状態情報の受信後に上記タッチ情報を受信した場合に、上記音声入力モードが実行可能な状態であることを示す第２の画像を表示するように上記表示部を制御可能である。

本技術の他の形態に係る情報処理方法は、情報処理装置における情報処理方法であって、上記情報処理装置の所定の状態変化を検出することを含む。上記所定の状態変化が検出された場合には、音声入力モードが準備状態であることを示す第１の画像を出力するための第１のコマンドが生成される。上記音声入力モードは、ユーザの音声から変換された音声信号が文字情報として認識されるモードである。上記所定の状態変化に続いて上記ユーザのタッチが検出される。上記タッチが検出された場合には、上記音声入力モードが実行可能な状態であることを示す第２の画像を出力するための第２のコマンドが生成される。

本技術の他の形態に係るプログラムは、情報処理装置に、第１の検出ステップと、第１の生成ステップと、第２の検出ステップと、第２の生成ステップとを実行させる。上記第１の検出ステップでは、上記情報処理装置の所定の状態変化が検出される。上記第１の生成ステップでは、上記所定の状態変化が検出された場合に、音声入力モードが準備状態であることを示す第１の画像を出力するための第１のコマンドが生成される。上記音声入力モードは、ユーザの音声から変換された音声信号が文字情報として認識されるモードである。上記第２の検出ステップでは、上記所定の状態変化に続いて上記ユーザのタッチが検出される。上記第２の生成ステップでは、上記タッチが検出された場合に、上記音声入力モードが実行可能な状態であることを示す第２の画像を出力するための第２のコマンドが生成される。

以上のように、本技術によれば、音声入力モードになったことをユーザに確実に報知することができる。

本技術の一実施形態におけるシステムの構成を示す図である。上記システムにおけるリモートコントローラのハードウェア構成を示す図である。上記システムにおけるＴＶのハードウェア構成を示す図である。リモートコントローラが音声入力モードへ移行するまでの動作の流れを示したフローチャートである。音声入力モードが準備状態であることを示す画像及び音声入力モードが実行可能な状態であることを示す画像の例を示した図である。音声入力モードが準備状態であることを示す画像及び音声入力モードが実行可能な状態であることを示す画像の例を示した図である。音声入力モードが準備状態であることを示す画像及び音声入力モードが実行可能な状態であることを示す画像の例を示した図である。音声入力モードが準備状態であることを示す画像及び音声入力モードが実行可能な状態であることを示す画像の例を示した図である。音声入力モードを終了する際のリモートコントローラの動作の流れを示したフローチャートである。音声入力モードにより音声検索処理が実行される際の、ＡＮＤ検索処理の流れを示したフローチャートである。上記ＡＮＤ検索処理において表示されるユーザインタフェースの例を示した図である。上記音声入力モードにおける入力音声の音量の大小を、グラフによりユーザに報知する処理を示した図である。上記音声入力モードにおける入力音声の音量の大小をアイコンによりユーザに報知する場合の表示例を示した図である。上記音声入力モードにおける入力音声の音量の大小をアイコンによりユーザに報知する場合の表示例を示した図である。上記音声入力モードにおいてＴＶの音声を除去する様子を示した図である。上記音声入力モードにおいてＴＶの音声を除去する処理を実行する際のＴＶの概略構成を示したブロック図である。

以下、本技術に係る実施形態を、図面を参照しながら説明する。

［システムの概要］
図１は、本技術の一実施形態における音声入力システムの構成を示す図である。

同図に示すように、本システムは、リモートコマンダー１００（以下、リモコン１００と称する）とテレビジョン装置（ＴＶ）２００とで構成される。後述するが、リモコン１００は、ユーザの音声を音声信号に変換し、当該音声信号を文字情報として認識する音声入力モードを実行可能である。当該音声入力モードにおいて、ＴＶ２００の表示画面２６には、当該音声入力モードの実行が準備状態であることを示す画像（アイコン）と、当該音声入力モードが実行可能な状態であることを示す画像（アイコン）とが表示され得る。

［携帯端末のハードウェア構成］
図２は、上記リモコン１００のハードウェア構成を示す図である。同図に示すように、リモコン１００は、ＣＰＵ１１、タッチセンサ（タッチパッド）１２、傾きセンサ１３、通信部１４、マイクロフォン１５、ＲＡＭ（Random Access Memory）１６及びフラッシュメモリ１７を有する。

ＣＰＵ１１は、リモコン１００の各部を統括的に制御し、各種のプログラムに基づき種々の演算を実行する。例えばＣＰＵ１１は、マイクロフォン１５から入力されたユーザの音声を音声信号に変換する上記音声入力モードを実行する。

タッチセンサ１２は、例えばリモコン１００の表面全体または表面及び裏面の全体にわたって設けられ、ユーザのタッチを検出する。

傾きセンサ１３は、例えば加速度センサ、角速度（ジャイロ）センサ、機械式の傾斜センサ等であり、リモコン１００の傾きを検出する。傾きセンサ１３が加速度センサの場合、少なくとも１軸あれば角度が検出可能であるが、２軸または３軸を有していてもよい。

通信部１４は、例えば赤外線や電波により、ＣＰＵ１１で生成されたコマンドをＴＶ２００へ送信する。また通信部１４は、ＴＶ２００以外のネットワーク上の機器との通信が可能であってもよい。

マイクロフォン１５は、アナログ／デジタル変換機等を有し、ユーザから通話口を介して入力された音声をデジタル音声信号へ変換してＣＰＵ１１へ出力する。

ＲＡＭ１６は、ＣＰＵ１１の作業領域として用いられる揮発性のメモリであり、ＣＰＵ１１の処理に用いられる各種のプログラムや各種のデータを一時的に記憶する。

フラッシュメモリ１７は、ＣＰＵ１１の処理に必要な各種のプログラムや各種のデータが記憶される不揮発性のメモリである。

［システムのソフトウェア構成］
図３は、上記システム（リモコン１００及びＴＶ２００）が有する機能（ソフトウェア）の構成を示したブロック図である。

同図に示すように、本実施形態のシステムは、入力デバイス３１、センサ感知部３２、音声入力判定部３３、音声認識部３４及び出力デバイス３５を有する。

入力デバイス３１は、上記タッチセンサ１２が担い、ユーザのタッチ操作の入力を受け付ける。

センサ感知部３２は、上記傾きセンサ１３が担い、リモコン１００の傾き（角度）を検出する。

音声入力判定部３３は、ユーザがマイクロフォン１５を介して音声を入力する際に、音声入力モードがＯＮかＯＦＦか（実行可能な否か）を判定する。

音声認識部３４は、例えばＣＰＵ１１が担い、音声入力モードにおいて、入力内容を文字列として認識する処理（音声認識処理）を実行する。音声認識処理は、ＣＰＵ１１が自ら実行してもよいし、ＣＰＵ１１が、入力された音声信号をＴＶ２００へ送信し、ＴＶ２００に実行させてもよい。また、リモコン１００またはＴＶ２００に接続されたネットワーク上のサーバが音声認識処理を実行してもよい。

出力デバイス３５は、上記ＴＶ２００の表示画面が担い、音声入力モードに入る前及び音声入力モード実行中における各種ＧＵＩ（Graphical User Interface）を表示する。

音声入力モードによって実行される具体的なアプリケーションとしては、例えば、ネットワーク上の検索エンジンを用いた音声検索アプリケーション、音声コマンド、Ｐ２Ｐ（Peer to Peer）によるインターネット電話サービス等が挙げられるが、これらに限られない。

［システムの動作］
次に、以上のように構成された音声入力システムにおけるリモコン１００及びＴＶ２００の動作について説明する。以降では、リモコン１００のＣＰＵ１１を主な動作主体として説明するが、この動作は、リモコン１００のその他のハードウェア及びソフトウェアと協働して実行される。

（音声入力モードへの遷移）
図４は、本実施形態におけるリモコン１００が音声入力モードへ移行するまでの動作の流れを示したフローチャートである。

同図に示すように、まずＣＰＵ１１は、上記傾きセンサ１３によりリモコン１００の角度を検出する（ステップ４１）。

続いてＣＰＵ１１は、上記検出された傾き角が、所定の閾値範囲内か否かを判断する（ステップ４２）。すなわち、ＣＰＵ１１は、リモコン１００が立った状態（リモコン１００の主面が鉛直方向にある状態）にあるかを検出する。当該閾値範囲は例えば水平面を０度とした場合に、リモコン１００の主面が６０度〜９０度程度の範囲であるが、これに限られない。

続いてＣＰＵ１１は、所定時間（例えば１秒程度）経過後、音声入力モードの「準備」状態に遷移する（ステップ４３）。ここでＣＰＵ１１が所定時間の経過を待つのは、傾きセンサ１３のチャタリングを防止するためである。

続いてＣＰＵ１１は、音声入力モードの準備状態を示すアイコン（第１のアイコン）をＴＶ２００の表示画面２６に出力するための出力コマンドを生成し、当該コマンドをＴＶ２００へ送信する（ステップ４４）。ＴＶ２００は、当該コマンドを受信すると、上記第１のアイコンを表示画面２６に表示する。

続いてＣＰＵ１１は、タッチセンサ１２によりユーザのタッチが検出されたか否かを判断する（ステップ４５）。このとき、タッチセンサ１２は、通常のポインティングデバイスとしては機能せずに、ＯＮ／ＯＦＦボタンとしてだけの機能を割り当てられている。したがって、例えばタッチセンサ１２が複数のタッチ領域を有し、それらに異なる機能が割り当てられている場合であっても、音声入力モードの準備状態及び実行可能状態においては、それらの機能は全て無効とされている。

タッチが検出されたと判断した場合（Ｙｅｓ）、ＣＰＵ１１は、音声入力モードへ遷移する（ステップ４６）。それとともにＣＰＵ１１は、音声入力モードが実行可能な状態であることを示すアイコン（第２のアイコン）をＴＶ２００の表示画面２６に出力するための出力コマンドを生成し、それをＴＶ２００へ送信する（ステップ４７）。ＴＶ２００は、このコマンドを受信すると、上記第２のアイコンを表示する。

そしてＣＰＵ１１は、タッチが検出されている間、ユーザからの音声の入力に応じて、音声入力・認識処理（音声入力モード）を実行する（ステップ４８）。このとき、音声入力・認識の状態も、アイコンとしてＴＶ２００の表示画面２６に表示される（第３のアイコン）。

図５、図６、図７、図８は、それぞれ、上記第１のアイコン、第２のアイコン及び第３のアイコンの例を示した図である。各図において、（Ａ）が第１のアイコン、（Ｂ）が第２のアイコン、（Ｃ）が第３のアイコンの例を示し、それぞれ音声入力モードの遷移に応じて、第１のアイコンが第２のアイコンに変化し、第２のアイコンが第３のアイコンへと変化する。

図５の例では、アイコンの色の変化により上記音声入力モードの状態の違いが示されている。すなわち、リモコン１００が立った状態では、第１のアイコンとして、マイクを模した形状のアイコンが表示画面２６に出現する。その際、当該アイコンの色は例えば灰色等の所定色に表示される。その後ユーザのタッチが検出されると、第２のアイコンとして、色が変化した（例えば緑色）マイク型アイコンが表示される。さらに、ユーザの声がマイクロフォン１５から入力されると、第３のアイコンとして、さらに色が変化した（例えば黄色）マイク型アイコンが表示される。

図６の例では、アイコンの大きさの変化により上記音声入力モードの状態の違いが示されている。すなわち、第１のアイコンとして比較的小さいマイク型アイコンが表示され、タッチが検出されると、第２のアイコンとして例えば第１のアイコンの２倍程度のマイク型アイコンが表示される。そして、第３のアイコンとして、ユーザの声の大きさにリアルタイムで応じた大きさのマイク型アイコンが表示される。例えば、入力されるユーザの声が比較的小さい場合には、第３のアイコンは第２のアイコンよりも小さくなり、ユーザの声が比較的大きい場合には、第３のアイコンは第２のアイコンよりも大きくなる。

図７の例では、アイコンの色の濃さの変化により上記音声入力モードの状態の違いが示されている。すなわち、第１のアイコンとしては、半透明の状態のマイク型アイコンが表示され、タッチが検出されると、第２のアイコンとして、不透明な状態のマイク型アイコンが表示される。そして、ユーザの音声が入力されると、第３のアイコンとして、さらに濃い状態のマイク型アイコンが表示される。

図８の例では、アイコンの形状の変化により上記音声入力モードの状態の違いが示されている。すなわち、第１のアイコンとして、リモコン１００の形状を模したアイコンが表示され、タッチが検出されると、第２のアイコンとして、上記リモコン１００を模したアイコンがマイク型アイコンに変化して表示される。そして、ユーザの音声が入力されると、例えば第３のアイコンとして、マイク型アイコンの上部に、波状のアニメーションが付加されたものが表示される。この波状のアニメーションは、その中心から波紋が外側へ広がるように表示される。この波紋の数が、入力されたユーザの声の大きさを反映したインジケータとして機能しても構わない。

（音声入力モードの終了）
図９は、リモコン１００が音声入力モードを終了する際の動作の流れを示したフローチャートである。

同図に示すように、まずＣＰＵ１１は、ユーザのタッチが検出されなくなったか否かを判断し（ステップ９１）、タッチが検出されなくなったと判断した場合（Ｙｅｓ）には音声入力モードを終了する（ステップ９２）。またＣＰＵ１１は、タッチが検出されなくなっただけでなく、リモコン１００の角度が上記所定角度範囲から外れたことをさらに検出することで音声入力モードを終了してもよい。

ここでＣＰＵ１１は、ユーザにより入力されて解析中（認識中）の音声があるか否かを判断する（ステップ９３）。解析中の音声が無いと判断した場合（Ｎｏ）には、ＣＰＵ１１は処理を終了する。

解析中の音声があると判断した場合（Ｙｅｓ）、ＣＰＵ１１は、ユーザから解析処理中断コマンドが入力されたか否かを判断する（ステップ９４）。解析処理中断コマンドとしては、例えば、ユーザがタッチセンサ１２上で入力する所定方向（例えば左側）へのフリック操作や、ユーザがリモコン１００を左右または上下に振る操作や、ユーザからの特定の音声の入力（例えば「中止」「やめ」等）等が考えられる。すなわち、当該コマンドは、リモコン１００に何らかの状態変化をもたらすコマンドである。この場合、リモコン１００は、解析処理中断を受け付けるための特殊なモードに遷移している。

上記解析処理中断コマンドが入力されたと判断した場合（Ｙｅｓ）、ＣＰＵ１１は、解析処理を中断し（ステップ９５）、処理を終了する。

一方、解析処理中断コマンドが入力されていないと判断した場合（Ｎｏ）、ＣＰＵ１１は、上記音声の解析処理を続行し（ステップ９６）、解析結果に応じた処理を実行する（ステップ９７）。

（ＡＮＤ検索処理）
上述のように、音声入力モードで実行されるアプリケーションの１つに、音声検索がある。図１０は、上記音声入力モードにより音声検索処理が実行される際の、ＡＮＤ検索処理の流れを示したフローチャートである。

同図に示すように、ＣＰＵ１１はまず、上記音声認識処理により、ユーザから入力された音声が示す文字列を認識する（ステップ１０１）。

続いてＣＰＵ１１は、認識した文字列を、認識結果表示領域へ表示するためのコマンドをＴＶ２００へ送信する（ステップ１０２）。

図１１は、上記ＡＮＤ検索処理において表示されるユーザインタフェースの例を示した図である。同図に示すように、上記コマンドが受信されることで、ＴＶ２００の表示画面２６のＡＮＤ検索処理のユーザインタフェース上では、当該認識された文字列が、認識結果表示領域１１１内に表示される。

続いてＣＰＵ１１は、所定時間内に、ユーザによる所定のアクションが検出されたか否かを判断する（ステップ１０３）。ここで所定のアクションとは、例えばユーザがリモコン１００を振る操作や、タッチセンサ１２上での右フリック操作等であるが、これに限られない。

上記所定のアクションが所定時間内に検出されなかった場合（Ｎｏ）、ＣＰＵ１１は、認識結果表示領域１１１内の文字列を検索キーワードとした検索要求を、ネットワーク上の検索エンジンへ送信する（ステップ１０５）。当該検索要求の検索エンジンへの送信は、リモコン１００から、ＴＶ２００を介して実行されてもよいし、ＴＶ２００を介さずに直接実行されてもよい。

一方、上記所定のアクションが所定時間内に検出された場合（Ｙｅｓ）、ＣＰＵ１１は、上記認識されて認識結果表示領域１１１内に表示されている文字列を、リザーブ領域に移動するためのコマンドをＴＶ２００へ送信する（ステップ１０４）。

図１１に示すように、上記コマンドが受信されることで、表示画面２６の認識結果表示領域１１１に表示されていた文字列が、例えばその右隣に設けられたリザーブ領域１１２へ移動して表示される。ここで、上記所定のアクションと異なる（対照的な）ユーザのアクション（例えば左クリック）が検出された場合には、ＣＰＵ１１は、認識結果表示領域１１１に表示された文字列の入力をキャンセル（消去）してもよい。

そして、ＣＰＵ１１は、上記所定時間内の所定のアクションを待機し、アクションがない場合には、認識結果表示領域１１１に表示された文字列とリザーブ領域１１２に表示された文字列とをキーワードとするＡＮＤ検索要求を上記検索エンジンへ送信する（ステップ１０５）。検索エンジンから受信された検索結果は表示画面２６に表示される。

このように、リモコン１００は、ユーザのアクションに基づいて認識結果表示領域１１１とリザーブ領域１１２とに文字列を表示することで、音声入力モードにおけるＡＮＤ検索処理をユーザに容易に実行させることができる。

［まとめ］
以上説明したように、本実施形態によれば、リモコン１００は、リモコン１００の所定の状態変化に基づいて、音声入力モードの準備状態を示すアイコン（第１のアイコン）と音声入力モードの実行可能状態を示すアイコン（第２のアイコン）とを表示することができる。したがってリモコン１００は、ユーザに、音声入力モードの状態及びその遷移を容易に把握させることができる。

［変形例］
本技術は上述の実施形態にのみ限定されるものではなく、本開示の要旨を逸脱しない範囲内において種々変更され得る。

（音量の大小のビジュアルフィードバック）
上述の実施形態において、リモコン１００は、入力されるユーザの音声が、音声認識に適した音量に比して大きすぎる、または小さすぎることをユーザに視覚的に報知してもよい。以下、この処理の詳細について説明する。

図１２は、音量の大小を、グラフによりユーザに報知する処理を示した図である。

音量の大小をグラフで示す場合、音声は時間経過により大小が刻々変化するので、リアルタイムに（追従性よく）表現するアニメーションよりも、たとえば、以下のように加工することが好ましい。

ＣＰＵ１１はまず、同図（Ａ）に示すような、ユーザの音声から変換された元の音声信号の波形を、同図（Ｂ）に示すように絶対値処理（ＡＢＳ処理）し、正符号のスカラ量に変換する。ここで音声信号は、絶対値処理ではなく二乗処理により正符号に変換されてもよい。

さらにＣＰＵ１１は、上記絶対値処理された音声信号を平滑化処理する。平滑化処理の方法としては、同図（Ｃ）に示すようなローパスフィルタを適用するものが考えられる。また同図（Ｃ）´に示すように、現在の音声値が前値よりも大きいときはその値を現在値として適用し、ある時点の音声値が前値よりも小さいときは現在の音声値から所定値を減じた値を現在値として適用することで、値がピーク値から徐々に落ちていくような平滑化処理が施されてもよい。

そしてＣＰＵ１１は、同図（Ｃ）または同図（Ｃ）´に示すようなグラフをＴＶ２００の表示画面２６に表示させることで、ユーザに、自身の声が大きすぎるまたは小さすぎることを把握させ、声の大きさを調整させることができる。

またＣＰＵ１１は、音量の大小をアイコンとして表示させてもよい。図１３及び図１４は、当該音量の大小をアイコンによりユーザに報知する場合の表示例をそれぞれ示した図である。

図１３（Ａ）に示すように、ＣＰＵ１１は、ユーザの声が大きすぎる場合（マイクロフォン１５への音声の入力レベルが所定の第１の閾値よりも大きい場合）には、上記図５〜図８で示したようなマイクのアイコンを拡大してその一部を抽出したようなアイコンを表示するコマンドをＴＶ２００へ送信する。これによりユーザは、マイクのアイコンが大きくなって全体が見えなくなることから、自身の声が大きすぎることを把握できる。

一方、図１３（Ｂ）に示すように、ＣＰＵ１１は、ユーザの声が小さすぎる場合（マイクロフォン１５への音声の入力レベルが、上記第１の閾値よりも小さい所定の第２の閾値以下の場合）には、上記マイクのアイコンが縮小されたアイコンを表示するコマンドをＴＶ２００へ送信する。またＣＰＵ１１は、これに代えて、上記マイクのアイコンが半透明になったり色が淡くなったりしたアイコンを表示させてもよい。これによりユーザは、マイクのアイコンが小さくなることから、自身の声が小さすぎることを把握することができる。

また図１４に示すように、ＣＰＵ１１は、マイクのアイコンの上部に表示される波紋における強調表示の位置によって、音量の大小をユーザに報知してもよい。

すなわち、ＣＰＵ１１は、マイクロフォン１５への音声の入力レベルが上記第１の閾値よりも大きい場合には、マイクのアイコンの最も外側の波紋を強調して表示するコマンドをＴＶ２００へ送信する。この表示を確認することで、ユーザは、自身の声が大きすぎることを把握することができる。

またＣＰＵ１１は、マイクロフォン１５への音声の入力レベルが上記第２の閾値以下である場合には、マイクのアイコンの最も内側の波紋を強調して表示するコマンドをＴＶ２００へ送信する。この表示を確認することで、ユーザは、自身の声が小さすぎることを把握することができる。

一方、ＣＰＵ１１は、マイクロフォン１５への音声の入力レベルが、上記第２の閾値よりも大きく上記第１の閾値以下である場合には、マイクのアイコンの真ん中の波紋を強調して表示するコマンドをＴＶ２００へ送信する。この表示を確認することで、ユーザは、自身の声の大きさが適切であることを把握することができる。

（ＴＶの音声の除去）
上述の実施形態において、音声入力モードの実行中は、音声の入力の状態はＴＶ２００の表示画面２６に表示される。ここで、ＴＶ２００が何らかの音声を出力している場合、マイクロフォン１５が、ユーザの音声以外にＴＶ２００から出力される音声も拾ってしまい、認識精度が下がってしまう可能性が考えられる。そこで、ＴＶ２００は、音声入力モードにおいては、出力される音声を除去する機能を有していてもよい。

図１５は、上記音声入力モードにおいてＴＶ２００の音声を除去する様子を示した図であり、図１６は、上記音声入力モードにおいてＴＶ２００の音声を除去する処理を実行する際のＴＶ２００の概略構成を示したブロック図である。

図１６に示すように、ＴＶ２００は、表示画面２６のほか、プロセッサ２１、ノイズキャンセラー２２、受信機２３、マイクロフォン２４及びスピーカー２５を有する。

プロセッサ２１は、ＴＶ２００の各ブロックを統括的に制御する。ノイズキャンセラー２２は、所定の条件が満たされた場合に、マイクロフォン２４に入力された音声を除去する。受信機２３は、リモコン１００から上記各種コマンドや、各種センサからの値を受信する。スピーカー２５は、プロセッサ２１により生成された音声を出力する。

図１５に示すように、リモコン１００のＣＰＵ１１は、ユーザがリモコン１００を立てた（所定角度回転させた）ことを傾きセンサ１３等により検出すると、ＴＶ２００のマイクロフォン２４をオンにするコマンドをＴＶ２００へ送信する。

一方ＴＶ２００のプロセッサ２１は、上記コマンドを受信すると、マイクロフォン２４をオンにするとともに、ノイズキャンセラー２２も起動させる。

そしてプロセッサ２１は、スピーカー２５から出力されマイクロフォン２４によって入力された音声を、ノイズキャンセラー２２によりノイズとして除去する。したがって、上記リモコン１００からＴＶ２００へ送信されるコマンドは、マイクロフォン２４をオンさせるコマンドであると同時に、ＴＶ２００から出力される音声の音量を下げるためのコマンドであるともいえる。

これにより、音声入力モードにおいては、ＴＶ２００のスピーカー２５から出力される音声は全て除去されるため、リモコン１００における音声認識処理に対する悪影響が排除される。

（その他の変形例）
上述の実施形態では、リモコン１００は、音声入力モードの準備状態へ遷移するために、傾きセンサ１３の出力を用いた。しかし、リモコン１００は、傾きセンサ１３に代えて、リモコン１００からユーザの口元までの距離を検出する距離センサ（赤外線センサ）を有し、検出された距離が所定値（例えば３ｃｍ〜１０ｃｍ程度）以下になった場合に、音声入力モードの準備状態に遷移してもよい。

同様に、リモコン１００は、傾きセンサ１３に代えて、ユーザの口元を撮影するカメラを有し、所定大のユーザの口が撮影された場合に、音声入力モードの準備状態に遷移してもよい。

すなわち、リモコン１００は、音声入力モードの準備状態へ遷移するために、リモコン１００の何らかの状態変化を検出するための状態検出部を有していればよい。

また、ＴＶ２００に、ユーザ及びリモコン１００の状態を撮像するカメラが設けられ、リモコン１００が、リモコン１００が立った状態であることを、傾きセンサ１３の検出値と当該カメラの映像との双方によりロバストに検出してもよい。

上述の実施形態では、傾きセンサ１３やタッチセンサ１２による検出値や検出の有無により音声入力モードが遷移した。しかし、それらセンサに代えて、ハードウェアボタンやＧＵＩアイコンにより、ユーザが能動的にモードを遷移させてもよい。

上述の実施形態にでは、リモコン１００は、傾きセンサ１３によりリモコン１００が立てられたことが検出された場合に、音声入力モードの準備状態へ遷移していた。しかし、例えば、ユーザがリモコン１００をゲームのコントローラとして用いている場合には、リモコン１００を両手の指で把持して立てた状態にすることが考えられる。そこで、リモコン１００は、タッチセンサ１２の複数のポイントに対するタッチが検出された場合（マルチタッチが検出された場合）には、上記傾きセンサ１３の検出値が上記閾値範囲内であっても、音声入力モードの準備状態へ遷移しないよう制御してもよい。

上述の実施形態においてリモコン１００のＣＰＵ１１が実行した処理の少なくとも一部は、ＴＶ２００のプロセッサ２１が担ってもよい。例えば、傾きセンサ１３の検出値が所定閾値範囲にあるか否かの判断処理（図４のステップ４２）、所定時間経過後に音声入力モードの準備状態に遷移する処理（同図ステップ４３）、タッチセンサ１２の検出に基づく音声入力モードの実行可能状態へ遷移する処理（同図ステップ４６）等については、リモコン１００は単に各センサの出力のみＴＶ２００へ送信し、実際の処理はプロセッサ２１が実行してもよい。

上述の実施形態においては、音声入力モードを実行する情報処理装置として、上記図２で示した構成を有するリモコン１００が示された。しかし、当該リモコン１００に代えて、携帯電話機、スマートフォン、携帯型オーディオプレイヤー、携帯型ゲーム機器等、ユーザが携帯可能な他のあらゆる情報処理装置が用いられてもよい。また、上述の実施形態では、音声入力モード中にユーザにビジュアルフィードバックを提供する装置としてＴＶ２００が示されたが、当該ＴＶに替えて、ＰＣ（Personal Computer）、ＰＶＲ（Personal Video Recorder）、ゲーム機器等のあらゆる情報処理装置が用いられてもよい。

上述の実施形態では、音声入力モードを実行する情報処理装置と、当該音声入力モードの実行中にその遷移状態のビジュアルフィードバックを提供する情報処理装置とが別個に存在する（リモコン１００とＴＶ２００）例が示された。しかし、音声入力モードを実行する情報処理装置とそのビジュアルフィードバックを提供する情報処理装置とが同一であっても構わない。すなわち、上記リモコン１００がディスプレイを有し、当該ディスプレイ上で、音声入力モード中に上記２段階または３段階のビジュアルフィードバックが提供されてもよい。この場合、リモコン１００のＣＰＵ１１が、第１〜第３のアイコンを表示させるための各コマンドを生成して自身のディスプレイに各アイコンをそれぞれ出力させる。

［その他］
本技術は以下のような構成も採ることができる。
（１）情報処理装置であって、
当該情報処理装置の第１の状態変化を検出可能な状態検出部と、
ユーザのタッチを検出可能なタッチセンサと、
入力された前記ユーザの音声を音声信号に変換可能なマイクロフォンと、
前記音声信号を文字情報として認識する音声入力モードを実行可能であり、前記第１の状態変化が検出された場合に、前記音声入力モードが準備状態であることを示す第１の画像を出力するための第１のコマンドを生成可能であり、前記第１の状態変化に続いて前記タッチが検出された場合に、前記音声入力モードが実行可能な状態であることを示す第２の画像を出力するための第２のコマンドを生成可能な制御部と
を具備する情報処理装置。
（２）上記（１）に記載の情報処理装置であって、
前記第１のコマンド及び前記第２のコマンドを外部の表示装置へ送信可能な通信部をさらに具備する
情報処理装置。
（３）上記（１）または（２）に記載の情報処理装置であって、
筐体をさらに具備し、
前記状態検出部は、前記筐体の角度を検出可能な角度センサを有し、
前記制御部は、前記筐体の角度が所定角度範囲になったことが検出された場合に前記第１のコマンドを生成可能である
情報処理装置。
（４）上記（１）から（３）のいずれか１つに記載の情報処理装置であって、
前記第２の画像は、前記第１の画像の一部が変化した画像である
情報処理装置。
（５）上記（１）から（４）のいずれか１つに記載の情報処理装置であって、
前記制御部は、前記第２の画像が出力された状態で、前記マイクロフォンに前記ユーザの音声が入力された場合に、前記第２の画像に代えて第３の画像を出力するための第３のコマンドを生成可能である
情報処理装置。
（６）上記（１）から（５）のいずれか１つに記載の情報処理装置であって、
前記制御部は、前記タッチが検出されなくなった場合に、前記音声入力モードを終了する
情報処理装置。
（７）上記（１）から（６）のいずれか１つに記載の情報処理装置であって、
前記状態検出部は、当該情報処理装置の第２の状態変化を検出可能であり、
前記制御部は、前記音声信号の認識中に前記第２の状態変化が検出された場合に、当該音声信号の認識を中止する
情報処理装置。
（８）上記（１）から（６）のいずれか１つに記載の情報処理装置であって、
ネットワーク上の検索エンジンと通信可能な通信部をさらに具備し、
前記制御部は、
前記認識された文字情報を含む認識結果画像を出力するためのコマンドを生成し、
前記認識された文字情報をキーとした検索処理を要求する検索要求情報を前記通信部により前記検索エンジンへ送信する
情報処理装置。
（９）上記（８）に記載の情報処理装置であって、
前記状態検出部は、当該情報処理装置の第２の状態変化を検出可能であり、
前記認識結果画像は、前記認識された文字情報が表示される第１の領域と、当該第１の領域とは異なる第２の領域とを有し、
前記制御部は、
第１の文字情報が認識された場合に、当該第１の文字情報を前記第１の領域へ表示させ、
前記第１の文字情報の認識後、所定時間内に前記第３の状態変化が検出された場合に、前記第１の文字情報を前記第１の領域から前記第２の領域へ移動させ、
前記第３の状態変化の検出後に第２の文字情報が認識された場合に、前記第２の文字情報を前記第１の領域へ表示させ、
前記第２の文字情報の認識後、前記所定時間内に前記第３の状態変化が検出されない場合に、前記第１の文字情報と前記第２の文字情報とをキーとした検索処理を要求する検索要求情報を送信する
情報処理装置。
（１０）上記（１）から（９）のいずれか１つに記載の情報処理装置であって、
前記タッチセンサは、前記音声入力モード以外のモードにおいてそれぞれ異なる機能が割り当てられた複数のタッチ領域を有し、
前記制御部は、前記音声入力モードの準備状態及び実行可能状態においては、前記複数の領域に割り当てられた機能を無効にする
情報処理装置。
（１１）上記（１）から（１０）のいずれか１つに記載の情報処理装置であって、
前記タッチセンサは、複数のポイントに対するタッチを同時に検出可能であり、
前記制御部は、前記複数のポイントに対するタッチが検出されている場合は、前記第１の状態変化が検出されても前記第１のコマンドを生成しない
情報処理装置。
（１２）上記（２）から（１１）のいずれか１つに記載の情報処理装置であって、
前記表示装置は音声を出力可能であり、
前記制御部は、前記第１の状態変化が検出された場合に、前記表示装置により出力される音声の音量を下げるための音量コマンドを生成し、当該音量コマンドを前記通信部により送信する
情報処理装置。
（１３）上記（１）〜（１２）のいずれか１つに記載の情報処理装置であって、
前記制御部は、前記マイクロフォンへの前記音声の入力レベルが第１の値以下であることを示す画像を出力するためのコマンドと、前記マイクロフォンへの前記音声の前記入力レベルが第２の値よりも大きいことを示す画像を出力するためのコマンドを生成する
情報処理装置。

１１…ＣＰＵ
１２…タッチセンサ
１３…傾きセンサ
１４…通信部
１５…マイクロフォン
２１…プロセッサ
２２…ノイズキャンセラー
２３…受信機
２４…マイクロフォン
２５…スピーカー
２６…表示画面
３１…入力デバイス
３２…センサ感知部
３３…音声入力判定部
３４…音声認識部
３５…出力デバイス
１００…リモートコマンダー（リモコン）
１１１…認識結果表示領域
１１２…リザーブ領域
２００…テレビジョン装置（ＴＶ）

Claims

情報処理装置であって、
当該情報処理装置の第１の状態変化を検出可能な状態検出部と、
ユーザのタッチを検出可能なタッチセンサと、
入力された前記ユーザの音声を音声信号に変換可能なマイクロフォンと、
前記音声信号を文字情報として認識する音声入力モードを実行可能であり、前記第１の状態変化が検出された場合に、前記音声入力モードが準備状態であることを示す第１の画像を出力するための第１のコマンドを生成可能であり、前記第１の状態変化に続いて前記タッチが検出された場合に、前記音声入力モードが実行可能な状態であることを示す第２の画像を出力するための第２のコマンドを生成可能な制御部と、
前記第１のコマンド及び前記第２のコマンドを外部の表示装置へ送信可能な第１の通信部と
を具備する情報処理装置。
請求項１に記載の情報処理装置であって、
筐体をさらに具備し、
前記状態検出部は、前記筐体の角度を検出可能な角度センサを有し、
前記制御部は、前記筐体の角度が所定角度範囲になったことが検出された場合に前記第１のコマンドを生成可能である
情報処理装置。
請求項１または２に記載の情報処理装置であって、
前記第２の画像は、前記第１の画像の一部が変化した画像である
情報処理装置。
請求項１から３のいずれか１項に記載の情報処理装置であって、
前記制御部は、前記第２の画像が出力された状態で、前記マイクロフォンに前記ユーザの音声が入力された場合に、前記第２の画像に代えて第３の画像を出力するための第３のコマンドを生成可能である
情報処理装置。
請求項１から４のいずれか１項に記載の情報処理装置であって、
前記制御部は、前記タッチが検出されなくなった場合に、前記音声入力モードを終了する
情報処理装置。
請求項１から５のいずれか１項に記載の情報処理装置であって、
前記状態検出部は、当該情報処理装置の第２の状態変化を検出可能であり、
前記制御部は、前記音声信号の認識中に前記第２の状態変化が検出された場合に、当該音声信号の認識を中止する
情報処理装置。
請求項１から６のいずれか１項に記載の情報処理装置であって、
ネットワーク上の検索エンジンと通信可能な第２の通信部をさらに具備し、
前記制御部は、
前記認識された文字情報を含む認識結果画像を出力するためのコマンドを生成し、
前記認識された文字情報をキーとした検索処理を要求する検索要求情報を前記第２の通信部により前記検索エンジンへ送信する
情報処理装置。
請求項７に記載の情報処理装置であって、
前記状態検出部は、当該情報処理装置の第２の状態変化を検出可能であり、
前記認識結果画像は、前記認識された文字情報が表示される第１の領域と、当該第１の領域とは異なる第２の領域とを有し、
前記制御部は、
第１の文字情報が認識された場合に、当該第１の文字情報を前記第１の領域へ表示させ、
前記第１の文字情報の認識後、所定時間内に前記第２の状態変化が検出された場合に、前記第１の文字情報を前記第１の領域から前記第２の領域へ移動させ、
前記第２の状態変化の検出後に第２の文字情報が認識された場合に、前記第２の文字情報を前記第１の領域へ表示させ、
前記第２の文字情報の認識後、前記所定時間内に前記第２の状態変化が検出されない場合に、前記第１の文字情報と前記第２の文字情報とをキーとした検索処理を要求する検索要求情報を送信する
情報処理装置。
請求項１から８のいずれか１項に記載の情報処理装置であって、
前記タッチセンサは、前記音声入力モード以外のモードにおいてそれぞれ異なる機能が割り当てられた複数のタッチ領域を有し、
前記制御部は、前記音声入力モードの準備状態及び実行可能状態においては、前記複数の領域に割り当てられた機能を無効にする
情報処理装置。
請求項１から９のいずれか１項に記載の情報処理装置であって、
前記タッチセンサは、複数のポイントに対するタッチを同時に検出可能であり、
前記制御部は、前記複数のポイントに対するタッチが検出されている場合は、前記第１の状態変化が検出されても前記第１のコマンドを生成しない
情報処理装置。
請求項１から１０のいずれか１項に記載の情報処理装置であって、
前記表示装置は音声を出力可能であり、
前記制御部は、前記第１の状態変化が検出された場合に、前記表示装置により出力される音声の音量を下げるための音量コマンドを生成し、当該音量コマンドを前記第１の通信部により送信する
情報処理装置。
請求項１から１１のいずれか１項に記載の情報処理装置であって、
前記制御部は、前記マイクロフォンへの前記音声の入力レベルが第１の値以下であることを示す画像を出力するためのコマンドと、前記マイクロフォンへの前記音声の前記入力レベルが第２の値よりも大きいことを示す画像を出力するためのコマンドを生成する
情報処理装置。
表示部と、
ユーザが携帯する携帯機器から、当該携帯機器の所定の状態変化が検出されたことを示す状態情報と、前記携帯機器が有するタッチセンサにより前記ユーザのタッチが検出されたことを示すタッチ情報とを受信可能な通信部と、
前記状態情報を受信した場合に、前記携帯機器において実行される音声入力モードが準備状態であることを示す第１の画像を表示し、前記状態情報の受信後に前記タッチ情報を受信した場合に、前記音声入力モードが実行可能な状態であることを示す第２の画像を表示するように前記表示部を制御可能な制御部と
を具備する情報処理装置。
情報処理装置における情報処理方法であって、
前記情報処理装置の所定の状態変化を検出し、
前記所定の状態変化が検出された場合に、ユーザの音声から変換された音声信号を文字情報として認識する音声入力モードが準備状態であることを示す第１の画像を出力するための第１のコマンドを生成し、
前記所定の状態変化に続いて前記ユーザのタッチを検出し、
前記タッチが検出された場合に、前記音声入力モードが実行可能な状態であることを示す第２の画像を出力するための第２のコマンドを生成し、
前記第１のコマンド及び前記第２のコマンドを外部の表示装置へ送信する
情報処理方法。
情報処理装置に、
前記情報処理装置の所定の状態変化を検出するステップと、
前記所定の状態変化が検出された場合に、ユーザの音声から変換された音声信号を文字情報として認識する音声入力モードが準備状態であることを示す第１の画像を出力するための第１のコマンドを生成するステップと、
前記所定の状態変化に続いて前記ユーザのタッチを検出するステップと、
前記タッチが検出された場合に、前記音声入力モードが実行可能な状態であることを示す第２の画像を出力するための第２のコマンドを生成するステップと、
前記第１のコマンド及び前記第２のコマンドを外部の表示装置へ送信するステップと
を実行させるプログラム。