JP2016109726A

JP2016109726A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2016109726A
Application number: JP2014243905A
Authority: JP
Inventors: 祐平滝; Yuhei Taki; 真一河野; Shinichi Kono; 邦仁澤井; Kunihito Sawai
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-12-02
Filing date: 2014-12-02
Publication date: 2016-06-20

Abstract

【課題】所定の処理の処理区間を特定するための操作がユーザに対して与える負荷を低減することが可能な技術が提供されることが望まれる。【解決手段】入力データを取得する入力データ取得部と、所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、情報処理装置が提供される。【選択図】図１

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。

近年、所定の処理（例えば、音声認識など）の処理区間を特定するための操作として様々な操作が利用されている。例えば、処理区間を特定するための操作の例として、所定の操作オブジェクトに対する１度目の操作時刻から２度目の操作時刻までを処理区間として特定する方式がある。また、他の例として、操作オブジェクトに対する操作開始時刻から操作終了時刻までを処理区間として特定する方式（ＰｕｓｈＴｏＴａｌｋ）がある。このように、様々な操作が利用され得るため、ユーザは入力可能な操作とは異なった操作を行ってしまうことがある。

そこで、入力可能な操作と異なった操作をユーザが行ってしまった場合に、入力可能な操作に関するガイダンスをユーザに提供する技術が存在する（例えば、特許文献１参照）。かかる構成により、ユーザは、操作を誤って行ったとしても、ガイダンスを参照することによって正しい操作を把握することが可能となる。

特開２００８−１９７５５１号公報

しかし、所定の処理の処理区間を特定するための操作がユーザに対して与える負荷を低減することが可能な技術が提供されることが望まれる。

本開示によれば、入力データを取得する入力データ取得部と、所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、情報処理装置が提供される。

本開示によれば、入力データを取得することと、所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させることと、を含み、プロセッサにより、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定することを含む、情報処理方法が提供される。

本開示によれば、コンピュータを、入力データを取得する入力データ取得部と、所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、情報処理装置として機能させるためのプログラムが提供される。

以上説明したように本開示によれば、所定の処理の処理区間を特定するための操作がユーザに対して与える負荷を低減することが可能とすることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の実施形態に係る情報処理システムの構成例を示す図である。同実施形態に係る情報処理システムの機能構成例を示すブロック図である。表示部によって操作オブジェクトが表示される場合における状態遷移を説明するための図である操作オブジェクトがハードウェアボタンである場合における状態遷移を説明するための図である。本開示の第１の実施形態に係る情報処理システムの動作全体の流れの例を示すフローチャートである。同実施形態に係る情報処理システムの動作全体の流れの例を示すフローチャートである。音声認識自動終了処理の動作の流れの例を示すフローチャートである。表示部による表示形態の変形例１を示す図である。表示部による表示形態の変形例２を示す図である。表示部による表示形態の変形例３を示す図である。本開示の第２の実施形態に係る情報処理装置によって処理区間を特定する例を説明するための図である。同実施形態に係る情報処理装置の開始トリガ検出時における動作の流れの例を示すフローチャートである。同実施形態に係る情報処理装置の終了トリガ検出時における動作の流れの例を示すフローチャートである。同実施形態に係る情報処理装置の変形例１を説明するための図である。同実施形態に係る情報処理装置の変形例２を説明するための図である。同実施形態に係る情報処理装置の変形例３を説明するための図である。同実施形態に係る情報処理装置の変形例４を説明するための図である。本開示の実施形態に係る情報処理システムのハードウェア構成例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットまたは数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

なお、説明は以下の順序で行うものとする。
１．本開示の実施形態
１．１．システム構成例
１．２．機能構成例
２．第１の実施形態
２．１．構成の説明
２．２．動作の説明
２．３．表示形態の変形例
３．第２の実施形態
３．１．構成の説明
３．２．動作の説明
３．３．変形例
４．ハードウェア構成例
５．むすび

＜１．本開示の実施形態＞
［１．１．システム構成例］
まず、図面を参照しながら本開示の実施形態に係る情報処理システム１０の構成例について説明する。図１は、本開示の実施形態に係る情報処理システム１０の構成例を示す図である。図１に示したように、本開示の実施形態に係る情報処理システム１０は、操作部１１５と、入力部１２０と、表示部１３０とを備える。情報処理システム１０は、ユーザＵ（以下、単に「ユーザ」とも言う。）によって所定の処理（以下、単に「処理」とも言う。）の処理区間を特定するための操作がなされると、処理区間に処理を実行させることが可能である。

操作部１１５は、ユーザＵの操作を入力する機能を有する。図１に示した例では、操作部１１５は、テーブルＴｂｌの上方に存在する天井から吊り下げられた１つのカメラを含んでいる。しかし、操作部１１５に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作部１１５はユーザＵの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。

表示部１３０は、テーブルＴｂｌに画面を表示する機能を有する。図１に示した例では、表示部１３０は、テーブルＴｂｌの上方に天井から吊り下げられている。しかし、表示部１３０が設けられる位置は特に限定されない。また、典型的には、表示部１３０は、テーブルＴｂｌの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。

なお、本明細書では、テーブルＴｂｌの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルＴｂｌの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよいし、他の場所にある面であってもよい。また、表示部１３０が表示面を有する場合には、画面の表示面は、表示部１３０が有する表示面であってもよい。

入力部１２０は、音声を入力する機能を有する。図１に示した例では、入力部１２０は、テーブルＴｂｌの上方に存在する３つのマイクとテーブルＴｂｌの上面に存在する３つのマイクとの合計６つのマイクを含んでいる。しかし、入力部１２０に含まれるマイクの数は１以上であれば特に限定されない。かかる場合、入力部１２０に含まれる１以上のマイクそれぞれが設けられる位置も特に限定されない。ただし、入力部１２０が、複数のマイクを含んでいれば、複数のマイクそれぞれに入力された音声に基づいて音源方向が推定され得る。また、入力部１２０が指向性を有するマイクを含んでいれば、指向性を有するマイクに入力された音声に基づいて音源方向が推定され得る。

以上、本開示の実施形態に係る情報処理システム１０の構成例について説明した。

［１．２．機能構成例］
続いて、本開示の実施形態に係る情報処理システム１０の機能構成例について説明する。図２は、本開示の実施形態に係る情報処理システム１０の機能構成例を示すブロック図である。図２に示したように、本開示の実施形態に係る情報処理システム１０は、操作部１１５と、入力部１２０と、表示部１３０と、情報処理装置１４０（以下、「制御部１４０」とも言う。）と、を備える。

情報処理装置１４０は、情報処理システム１０の各部の制御を実行する。例えば、情報処理装置１４０は、表示部１３０から出力する情報を生成する。また、例えば、情報処理装置１４０は、操作部１１５および入力部１２０それぞれが入力した情報を、表示部１３０から出力する情報に反映させる。図２に示したように、情報処理装置１４０は、入力データ取得部１４２と、操作検出部１４３と、処理制御部１４４と、処理部１４５と、表示制御部１４６とを備える。これらの各機能ブロックについての詳細は、後に説明する。

なお、情報処理装置１４０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；中央演算処理装置）などで構成されていてもよい。情報処理装置１４０がＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。

以上、本開示の実施形態に係る情報処理システム１０の機能構成例について説明した。

＜２．第１の実施形態＞
まず、本開示の第１の実施形態について説明する。

［２．１．構成の説明］
本開示の第１の実施形態に係る情報処理システム１０の構成について説明する。近年、所定の処理（例えば、音声認識など）の処理区間を特定するための操作として様々な操作が利用されている。例えば、処理区間を特定するための操作の例として、ユーザが操作を行うための操作オブジェクトに対する１度目の操作時刻から２度目の操作時刻までを処理区間として特定する方式がある。また、他の例として、操作オブジェクトに対する操作開始時刻から操作終了時刻までを処理区間として特定する方式（ＰｕｓｈＴｏＴａｌｋ）がある。

このように、様々な操作が利用され得るため、ユーザは入力可能な操作とは異なった操作を行ってしまうことがある。そこで、入力可能な操作と異なった操作をユーザが行ってしまった場合に、入力可能な操作に関するガイダンスをユーザに提供する技術が存在する（例えば、特許文献１参照）。かかる構成により、ユーザは、操作を誤って行ったとしても、ガイダンスを参照することによって正しい操作を把握することが可能となる。

しかし、例えば、どの操作に慣れているかはユーザの経験によって異なる場合があり、ユーザは自身が慣れた操作以外の操作を行うのが難しいときには、ガイダンスを参照したとしてもユーザは操作を失敗する可能性がある。また、ユーザは自身が慣れた操作以外の操作を行うために多くの心的負荷を受けてしまう可能性がある。そこで、本開示の第１の実施形態では、所定の処理の処理区間を特定するための操作がユーザに与える負荷を低減することが可能な技術を主に提案する。

まず、ユーザは所定の処理の処理区間を特定するための開始操作を行う。このとき、入力データ取得部１４２は、入力データを取得し、処理制御部１４４は、開始操作が操作検出部１４３によって検出されると入力データに応じた処理を開始させる。処理制御部１４４は、開始操作の種類に基づいて、入力データに応じた処理を終了させるための終了操作を決定する。かかる構成により、終了操作が自動的に決定されるため、所定の処理の処理区間を特定するための操作がユーザに与える負荷を低減することが可能となる。

本開示の第１の実施形態では、入力データ取得部１４２が、入力部１２０が入力した入力音声を入力データとして取得し、処理制御部１４４は、入力音声に対する音声認識を処理として開始させる例を主に説明する。しかし、入力データは、入力音声に限定されない。また、処理も音声認識に限定されない。また、音声認識の処理区間を特定するための操作も限定されない。以下、操作オブジェクトが表示される場合と操作オブジェクトがハードウェアボタンである場合それぞれについて順に説明する。

図３は、表示部１３０によって操作オブジェクトが表示される場合における状態遷移を説明するための図である。図３に示すように、表示制御部１４６は、音声認識を行う処理部１４５の状態が定常状態（音声認識開始前）である場合に、操作オブジェクトＢ２を表示させる。操作オブジェクトＢ２には、処理部１４５の状態が定常状態である旨（図３に示す例では、操作オブジェクトＢ２に対するタップを促すための「Ｐｕｓｈ」という文字列）が付されてよい。

また、表示制御部１４６は、処理部１４５の状態が定常状態である場合に、表示オブジェクトＣ２を表示させてよい。表示オブジェクトＣ２は、定常状態に対応する表示オブジェクト（図３に示す例では、白色が付された表示オブジェクト）であってよい。ここで、操作検出部１４３によって第１の操作が検出されると、処理制御部１４４は、入力データ取得部１４２によって取得された入力音声に対する音声認識を開始させる。

なお、図３には、第１の操作が操作オブジェクトＢ２に対するタップである例が示されている。しかし、第１の操作は操作オブジェクトＢ２に対するタップに限定されない。例えば、第１の操作は、少なくとも所定の音声入力（例えば、「音声認識開始」という音声の入力など）、所定のジェスチャ（例えば、所定の表情、唇の形状など）、操作オブジェクトＢ２に対するタップ、視線当ておよび手かざしのいずれか一つを含んでもよい。

ここで、表示制御部１４６は、処理部１４５によって音声認識がなされている間には、操作オブジェクトＢ３を表示させてよい。操作オブジェクトＢ３には、処理部１４５の状態が音声認識中である旨（図３に示す例では、音声認識終了を促すための「Ｓｔｏｐ」という文字列）が付されてよい。

続いて、処理制御部１４４は、開始操作が第１の操作である場合、終了操作として第１の操作に対応付けられた対応操作を決定する。図３には、操作オブジェクトＢ２に対するタップに対応付けられた対応操作として、操作オブジェクトＢ３に対するタップが例として示されているが、対応操作は、操作オブジェクトＢ３に対するタップに限定されない。例えば、対応操作は、少なくとも所定の音声入力（例えば、「音声認識終了」という音声の入力など）、所定のジェスチャ（例えば、所定の表情、唇の形状など）、操作オブジェクトＢ３に対するタップ、視線当ておよび手かざしのいずれか一つを含んでもよい。

また、表示制御部１４６は、処理部１４５の状態が音声認識中である場合に、表示オブジェクトＣ３を表示させてよい。表示オブジェクトＣ３は、音声認識中に対応する表示オブジェクト（図３に示す例では、濃い灰色が付された表示オブジェクト）であってよい。続いて、処理部１４５の状態が音声認識中である場合に、ユーザが対応操作（例えば、操作オブジェクトＢ３に対するタップ）を行い、操作検出部１４３によって対応操作が検出されると、処理制御部１４４は、入力データ取得部１４２によって取得された入力音声に対する音声認識を終了させる。

あるいは、図３に示すように、処理制御部１４４は、入力音声が検出されない時間（以下、単に「無音区間」とも言う。）が所定の上限時間を超過した場合に、入力音声に対する音声認識を終了させてもよい。このとき、表示制御部１４６は、無音区間の上限時間に対する割合を示すインジケータを表示させてもよい。そうすれば、ユーザは、無音区間があとどの程度続くと音声認識が終了されるかを視覚的に把握することが可能となる。図３に示すように、表示制御部１４６は、無音区間を表示オブジェクトＣ３によって示し、上限時間までの残りの時間を表示オブジェクトＣ２によって示してもよい。

なお、無音区間が上限時間を超過したことによって自動的に音声認識が終了された場合には、ユーザが音声認識の終了に気付かない可能性もある。したがって、処理制御部１４４は、無音区間が上限時間を超過したことによって音声認識を終了させた場合には、操作オブジェクトＢ２に対する第１の操作が検出されなくても、入力音声に対する音声認識を自動的に開始させてもよい。自動的に音声認識が終了された場合ではなく、ユーザ操作によって音声認識が終了された場合には、自動的に音声認識を開始させなくてもよい。

続いて、入力音声に対する音声認識が終了されると、処理部１４５の状態は定常状態に戻る。図３に示すように、音声認識が完了するまで、処理部１４５の状態は認識状態であってもよい。図３を参照すると、表示制御部１４６は、認識状態において操作オブジェクトＢ１が表示させている。処理部１４５の状態が認識状態である場合には、図３に示すように、処理部１４５の状態が認識状態である旨を示す情報（例えば、Ｗａｉｔ）が表示されてよい。

また、表示制御部１４６は、処理部１４５の状態が認識状態である場合に、表示オブジェクトＣ１を表示させてよい。表示オブジェクトＣ１は、認識状態に対応する表示オブジェクト（図３に示す例では、薄い灰色が付された表示オブジェクト）であってよい。なお、音声認識によって得られた文字列はどのように利用されてもよい。例えば、音声認識によって得られた文字列は、検索キーとして利用されてもよい。

一方、処理部１４５の状態が定常状態である場合に、操作検出部１４３によって第１の操作とは異なる第２の操作の開始が検出された場合も、処理制御部１４４は、入力データ取得部１４２によって取得された入力音声に対する音声認識を開始させる。なお、図３には、第２の操作が操作オブジェクトＢ２に対するホールドである例が示されている。しかし、第２の操作は操作オブジェクトＢ２に対するホールドに限定されない。

ここで、表示制御部１４６は、処理部１４５によって音声認識がなされている間には、操作オブジェクトＢ４を表示させてよい。操作オブジェクトＢ４には、処理部１４５の状態が音声認識中である旨（図３に示す例では、音声認識終了を促すための「Ｓｔｏｐ」という文字列）が付されてよい。ただし、操作オブジェクトＢ４に対してホールドされている間は、「Ｓｔｏｐ」という文字列はユーザには見えない可能性がある。

また、表示制御部１４６は、処理部１４５の状態が音声認識中である場合に、表示オブジェクトＣ４を表示させてよい。表示オブジェクトＣ４は、音声認識中に対応する表示オブジェクト（図３に示す例では、濃い灰色が付された表示オブジェクト）であってよい。このとき、第１の操作が検出されたときに表示される表示オブジェクトＣ３と第２の操作が検出されたときに表示される表示オブジェクトＣ４とは異なった表示態様によって表示されるのがよい。

例えば、図３に示したように、表示態様の相違は、形状の相違（例えば、表示オブジェクトＣ３がインジケータとなっているのに対して、表示オブジェクトＣ４がインジケータとなっていないといった形状の相違）であってもよいが、特に限定されない。例えば、表示態様の相違は、表示オブジェクトＣ３と表示オブジェクトＣ４との色の違いであってもよいし、サイズの違いであってもよいし、形状の違いであってもよい。

続いて、処理制御部１４４は、開始操作が第２の操作の開始である場合、終了操作として第２の操作の終了を決定する。図３には、処理制御部１４４が、開始操作が操作オブジェクトＢ２に対するホールド開始である場合に、終了操作として操作オブジェクトＢ４に対するホールド終了を決定する例が示されている。入力音声に対する音声認識が終了されると、処理部１４５の状態は定常状態に戻る。図３に示すように、音声認識が完了するまで、処理部１４５の状態は認識状態であってもよい。

図４は、操作オブジェクトがハードウェアボタンである場合における状態遷移を説明するための図である。図４には、図３に示した操作オブジェクトＢ１〜Ｂ５に対応する操作オブジェクトＤ１〜Ｔ５がハードウェアボタンとして示され、操作オブジェクトＢ２に対するタップおよびホールドに対応する操作がそれぞれ、操作オブジェクトＤ２に対する短押しおよび長押しとして示されている。また、表示オブジェクトＣ１〜Ｃ５はＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）によって表示されてもよい。処理制御部１４４、処理部１４５および表示制御部１４６それぞれの具体的な動作は、図３を参照しながら既に説明した動作と同様であるため、説明を省略する。

以上に説明したように、本開示の第１の実施形態によれば、終了操作が自動的に決定されるため、所定の処理の処理区間を特定するための操作を新規にユーザに学習させる必要性を低減し、ユーザの利便性を向上することが期待される。また、本開示の第１の実施形態によれば、所定の処理の処理区間を特定するための操作がユーザに与える負荷を低減することが可能となる。また、本開示の第１の実施形態によれば、ユーザが操作を失敗してしまう可能性を低減することが可能となる。

以上、本開示の第１の実施形態に係る情報処理システム１０の構成について説明した。

［２．２．動作の説明］
続いて、本開示の第１の実施形態に係る情報処理システム１０の動作の流れについて説明する。図５Ａおよび図５Ｂは、本開示の第１の実施形態に係る情報処理システム１０の動作全体の流れの例を示すフローチャートである。なお、図５Ａおよび図５Ｂのフローチャートは、本開示の第１の実施形態に係る情報処理システム１０の動作の流れの例に過ぎないため、本開示の第１の実施形態に係る情報処理システム１０の動作の流れは、図５Ａおよび図５Ｂのフローチャートに示された例に限定されない。

まず、操作検出部１４３は、操作部１１５によって入力されたユーザによる操作を検出し（Ｓ１１）、入力データ取得部１４２は、入力部１２０によって入力された入力音声を取得する（Ｓ１２）。続いて、処理制御部１４４は、操作検出部１４３によって検出された操作の種類を判定する（Ｓ１３）。ここで、処理制御部１４４は、操作の種類が、操作オブジェクトに対するタップまたは操作オブジェクトに対する短押しであるか否かを判定する（Ｓ２１）。

ここで、処理制御部１４４は、操作の種類が、操作オブジェクトに対するタップまたは操作オブジェクトに対する短押しであると判定した場合には（Ｓ２１：Ｙｅｓ）、処理部１４５の状態が音声認識中であるか否かを判定する（Ｓ２５）。処理制御部１４４は、処理部１４５の状態が音声認識中であると判定した場合には（Ｓ２５：Ｙｅｓ）、音声認識終了処理（Ｓ３１）に動作を移行させる。一方、処理制御部１４４は、処理部１４５の状態が音声認識中ではないと判定した場合には（Ｓ２５：Ｎｏ）、Ｓ３２に動作を移行させる。Ｓ３１〜Ｓ３３については後に説明する。

一方、処理制御部１４４は、操作の種類が、操作オブジェクトに対するタップまたは操作オブジェクトに対する短押しではないと判定した場合には（Ｓ２１：Ｎｏ）、操作の種類が、操作オブジェクトに対するホールド開始または長押し開始であるか否かを判定する（Ｓ２２）。処理制御部１４４は、操作の種類が、操作オブジェクトに対するホールド開始または長押し開始であると判定した場合には（Ｓ２２：Ｙｅｓ）、処理部１４５の状態が音声認識中であるか否かを判定する（Ｓ２６）。

ここで、処理制御部１４４は、処理部１４５の状態が音声認識中であると判定した場合には（Ｓ２６：Ｙｅｓ）、次の操作の検出に動作を移行させる。一方、処理制御部１４４は、処理部１４５の状態が音声認識中ではないと判定した場合には（Ｓ２６：Ｎｏ）、Ｓ３２に動作を移行させる。一方、処理制御部１４４は、操作の種類が、操作オブジェクトに対するホールド開始または長押し開始ではないと判定した場合には（Ｓ２２：Ｎｏ）、操作の種類が、操作オブジェクトに対するホールド終了または長押し終了であるか否かを判定する（Ｓ２３）。

ここで、処理制御部１４４は、操作の種類が、操作オブジェクトに対するホールド終了または長押し終了であると判定した場合には（Ｓ２３：Ｙｅｓ）、処理部１４５の状態が音声認識中であるか否かを判定する（Ｓ２７）。処理制御部１４４は、処理部１４５の状態が音声認識中ではないと判定した場合には（Ｓ２７：Ｎｏ）、次の操作の検出に動作を移行させる。一方、処理制御部１４４は、処理部１４５の状態が音声認識中であると判定した場合には（Ｓ２７：Ｙｅｓ）、Ｓ３１に動作を移行させる。

一方、処理制御部１４４は、操作の種類が、操作オブジェクトに対するホールド終了または長押し終了ではないと判定した場合には（Ｓ２３：Ｎｏ）、入力音声が所定の音声を含むか否かを判定する（Ｓ２４）。ここで、処理制御部１４４は、入力音声が所定の音声を含まないと判定した場合には（Ｓ２４：Ｎｏ）、次の操作の検出に動作を移行させる。一方、処理制御部１４４は、入力音声が所定の音声を含むと判定した場合には（Ｓ２４：Ｙｅｓ）、処理部１４５の状態が音声認識中であるか否かを判定する（Ｓ２８）。

ここで、処理制御部１４４は、処理部１４５の状態が音声認識中であると判定した場合には（Ｓ２８：Ｙｅｓ）、次の操作の検出に動作を移行させる。一方、処理制御部１４４は、処理部１４５の状態が音声認識中ではないと判定した場合には（Ｓ２８：Ｎｏ）、Ｓ３２に動作を移行させる。Ｓ３１に動作が移行された場合には、処理制御部１４４は、音声認識を終了させる（Ｓ３１）。また、Ｓ３２に動作が移行された場合には、処理制御部１４４は、入力音声に対する音声認識を開始させ（Ｓ３２）、音声認識自動終了処理（Ｓ３３）に動作を移行させる。

続いて、音声認識自動終了処理（Ｓ３３）の動作の流れについて説明する。図６は、音声認識自動終了処理の動作の流れの例を示すフローチャートである。なお、図６のフローチャートは、音声認識自動終了処理の動作の流れの例に過ぎないため、音声認識自動終了処理の動作の流れは、図６のフローチャートに示された例に限定されない。まず、処理制御部１４４は、入力音声が無音区間か否かを判定する（Ｓ４１）。処理制御部１４４は、入力音声が無音区間ではないと判定した場合には（Ｓ４１：Ｎｏ）、Ｓ４１に動作を移行させる。

一方、処理制御部１４４は、入力音声が無音区間であると判定した場合には（Ｓ４１：Ｙｅｓ）、無音区間が時間Ｔ１を超過したか否かを判定する（Ｓ４２）。処理制御部１４４は、無音区間が時間Ｔ１を超過していないと判定した場合には（Ｓ４１：Ｎｏ）、Ｓ４１に動作を移行させる。一方、処理制御部１４４は、無音区間が時間Ｔ１を超過したと判定した場合には（Ｓ４１：Ｙｅｓ）、操作オブジェクトがホールド中または長押し中であるか否かを判定する（Ｓ４３）。

ここで、処理制御部１４４は、操作オブジェクトがホールド中または長押し中ではないと判定した場合には（Ｓ４３：Ｎｏ）、Ｓ４５に動作を移行させる。一方、処理制御部１４４は、操作オブジェクトがホールド中または長押し中であると判定した場合には（Ｓ４３：Ｙｅｓ）、音声認識開始からの経過時間が最大入力可能時間Ｔ２を超過したか否かを判定する（Ｓ４４）。処理制御部１４４は、音声認識開始からの経過時間が最大入力可能時間Ｔ２を超過していないと判定した場合には（Ｓ４４：Ｎｏ）、Ｓ４１に動作を移行させる。

一方、処理制御部１４４は、音声認識開始からの経過時間が最大入力可能時間Ｔ２を超過したと判定した場合には（Ｓ４４：Ｙｅｓ）、Ｓ４５に動作を移行させる。Ｓ４５に動作が移行された場合には、処理制御部１４４は、入力音声に対する音声認識を終了させる。なお、時間Ｔ１および最大入力可能時間Ｔ２それぞれは、音声認識を行う製品の使用環境、ユースケースなどに応じて事前に設定されてもよいし、音声認識開始時などに行われるソフトウェアアップデートなどにより動的に更新されてもよい。

［２．３．表示形態の変形例］
上記においては、表示部１３０がテーブルＴｂｌの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、表示部１３０による表示形態は、かかる例に限定されない。以下では、表示部１３０による表示形態の変形例について説明する。図７は、表示部１３０による表示形態の変形例１を示す図である。また、図８は、表示部１３０による表示形態の変形例２を示す図である。図７および図８に示すように、情報処理システム１０が携帯端末である場合に、表示部１３０は、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。図７および図８には、操作部１１５がタッチパネルである場合が例として示されている。

例えば、図７に示すように、処理制御部１４４は、操作検出部１４３によって操作オブジェクトＢ２に対するタップが検出されると、処理部１４５に入力音声に対する音声認識を開始させてよい。そして、処理制御部１４４は、操作検出部１４３によって操作オブジェクトＢ２に対する再度のタップが検出されると、処理部１４５に入力音声に対する音声認識を終了させてよい。このとき、表示制御部１４６は、音声認識によって得られた文字列を検索キー入力欄Ｓｔに設定してもよい。

あるいは、図８に示すように、処理制御部１４４は、操作検出部１４３によって操作オブジェクトＳｂに対するタップが検出されると、処理部１４５に入力音声に対する音声認識を開始させてよい。そして、処理制御部１４４は、操作検出部１４３によって操作オブジェクトＳｂに対する再度のタップが検出されると、処理部１４５に入力音声に対する音声認識を終了させてよい。このとき、表示制御部１４６は、音声認識によって得られた文字列を入力フォーム（入力欄Ｓｔ１〜Ｓｔ３のうちタップされた操作オブジェクトＳｂに対応する入力欄）に設定してもよい。

図９は、表示部１３０による表示形態の変形例３を示す図である。図９に示すように、表示部１３０は、ヘッドマウントディスプレイであってもよい。例えば、図９に示すように、処理制御部１４４は、操作検出部１４３によって操作オブジェクトＳｂに対する選択操作が検出されると、処理部１４５に入力音声に対する音声認識を開始させてよい。そして、処理制御部１４４は、操作検出部１４３によって操作オブジェクトＢ２に対する再度の選択操作が検出されると、処理部１４５に入力音声に対する音声認識を終了させてよい。このとき、表示制御部１４６は、音声認識によって得られた文字列を検索キー入力欄Ｓｔに設定してもよい。

以上、本開示の第１の実施形態について説明した。

＜３．第２の実施形態＞
まず、本開示の第２の実施形態について説明する。

［３．１．構成の説明］
本開示の第２の実施形態に係る情報処理システム１０の構成について説明する。本開示の第１の実施形態においても説明したように、ユーザの操作によって所定の処理の処理区間が特定される。しかし、ユーザの操作が好適になされない可能性がある。より具体的には、操作オブジェクトに対する操作開始時刻から操作終了時刻までを処理区間として特定する方式（ＰｕｓｈＴｏＴａｌｋ）を用いる場合、処理区間の前からユーザによって音声入力が始められてしまう可能性がある。

また、操作オブジェクトを表示する方式を用いる場合、操作オブジェクトに対する開始操作に基づいて表示が変更されてから（あるいは効果音が発せられてから）、音声入力が始められると、処理区間に対して音声入力が遅れる可能性がある。また、システム遅延によって処理区間に対して音声認識の開始が遅れる場合がある。また、操作環境が悪い場合には（例えば、車内などといった環境で音声認識が行われる場合）、音声入力に対して処理区間がずれる可能性がある。また、音声認識に失敗した原因が特定しにくいといった状況もある。

そこで、本開示の第２の実施形態においては、ユーザの操作に基づいて処理区間をより適切に特定する技術を主に提案する。なお、本開示の第２の実施形態に係る情報処理システム１０の機能構成例を示す図としては、本開示の第１の実施形態に係る情報処理システム１０の機能構成例を示す図をそのまま使用する。また、本開示の第１の実施形態と本開示の第２の実施形態とは適宜に組み合わせることが可能である。

また、本開示の第２の実施形態においても、入力データ取得部１４２が、入力部１２０が入力した入力音声を入力データとして取得し、処理制御部１４４が、入力音声に対する音声認識を処理として開始させる例を主に説明する。しかし、入力データは、入力音声に限定されない。また、処理も音声認識に限定されない。また、音声認識の処理区間を特定するための操作も限定されない。

図１０は、本開示の第２の実施形態に係る情報処理装置１４０によって処理区間を特定する例を説明するための図である。ここでは、図１０に示すように、ユーザによる発話音量が時間の経過とともに変化する場合を想定する。図１０に示す例を参照すると、開始トリガから終了トリガまでの区間は、ユーザによる実発話区間よりも狭くなってしまっている。したがって、開始トリガから終了トリガまでの区間を処理区間としてしまうと、ユーザによる発話の取りこぼしが発生してしまう。

そこで、処理制御部１４４は、操作検出部１４３によって開始トリガが検出される前における所定の処理開始時刻において、処理を開始させるのがよい。例えば、処理開始時刻は、開始トリガの検出時から音量が閾値を下回る入力音声が取得されるまで遡った時刻であってよい。図１０に示した例では、処理制御部１４４が、開始トリガの検出時から音量が閾値（ノイズ音量平均値NをV_ratio倍して得られる値）を下回る入力音声が取得されるまで（ΔT_startだけ）遡った時刻が処理区間の開始時刻として特定されている。

ここで、V_ratioなどの値は、音声認識を行う製品の使用環境、ユースケースなどに応じて事前に設定されてもよいし、音声認識開始時などに行われるソフトウェアアップデートなどにより動的に更新されてもよい。ノイズ音量平均値Nは、開始トリガが検出される前における入力音声の音量平均値であってよい。また、ノイズ音量平均値Nの代わりにノイズ音量自体が用いられてもよい。また、閾値は、製品の使用環境に応じて事前設定された固定値であってもよい。また、本開示の第２の実施形態における開始トリガおよび終了トリガそれぞれの例として、開始操作および終了操作が挙げられる。

なお、かかる機能を実現するためには、開始トリガが検出される前から入力音声の音量を検出する必要が生じる。例えば、かかる機能を実現するため、入力部１２０による音声の入力が常時ＯＮにされていてもよい。あるいは、かかる機能を実現するため、操作オブジェクトがハードウェアボタンである場合には、ハードウェアボタンの突起部にタッチセンサを設置し、タッチセンサによってタッチが検出されたときに、入力部１２０による音声の入力をＯＮにしてもよい。さらに、かかる機能を実現するため、表示されている画面が音声入力可能な画面に遷移したときに、入力部１２０による音声の入力をＯＮにしてもよい。

同様に、処理制御部１４４は、終了トリガが検出された後における所定の処理終了時刻において、処理を終了させるのがよい。例えば、処理終了時刻は、終了操作の検出時から音量が閾値を下回る入力音声が取得されるまで進んだ時刻であってよい。図１０に示した例では、処理制御部１４４が、終了トリガの検出時から音量が閾値（ノイズ音量平均値NをV_ratio倍して得られる値）を下回る入力音声が取得されるまで（ΔT_endだけ）進んだ時刻が処理区間の終了時刻として特定されている。

以上に説明したように、本開示の第２の実施形態によれば、ユーザの操作に基づいて処理区間をより適切に特定することが可能となる。より具体的には、本開示の第２の実施形態によれば、開始トリガの前におけるユーザによる発話を取りこぼす可能性を低減することが可能となる。また、本開示の第２の実施形態によれば、終了トリガの後におけるユーザによる発話を取りこぼす可能性を低減することが可能となる。

以上、本開示の第２の実施形態に係る情報処理システム１０の構成について説明した。

［３．２．動作の説明］
続いて、本開示の第２の実施形態に係る情報処理装置１４０の動作の流れについて説明する。図１１は、本開示の第２の実施形態に係る情報処理装置１４０の開始トリガ検出時における動作の流れの例を示すフローチャートである。なお、図１１のフローチャートは、開始トリガ検出時における動作の流れの例に過ぎないため、開始トリガ検出時における動作の流れは、図１１のフローチャートに示された例に限定されない。

まず、操作検出部１４３は、開始トリガを検出し（Ｓ５１）、処理制御部１４４は、開始トリガが検出される前における入力音声の音量平均値をノイズ音量平均値Nとして取得する（Ｓ５２）。続いて、処理制御部１４４は、ΔT_startにΔTを設定し（Ｓ５３）、開始トリガ検出のΔT_start前における音量を取得する（Ｓ５４）。処理制御部１４４は、音量が閾値（ノイズ音量平均値NをV_ratio倍して得られる値）より小さい場合には（Ｓ５６：Ｙｅｓ）、開始トリガ検出のΔT_start前を処理区間の開始時として設定する（Ｓ５７）。

一方、処理制御部１４４は、音量が閾値（ノイズ音量平均値NをV_ratio倍して得られる値）より大きい場合には（Ｓ５６：Ｎｏ）、ΔT_startをΔTだけ増加させて（Ｓ５５）、動作をＳ５４に移行させる。なお、音量が閾値（ノイズ音量平均値NをV_ratio倍して得られる値）と等しい場合には、開始トリガ検出のΔT_start前を処理区間の開始時として設定してもよいし（Ｓ５７）、動作をＳ５４に移行させてもよい。また、ここではΔT_startの範囲を制限していないが、ΔT_startの範囲は制限されてもよい。

また、図１１に示したように、閾値はノイズ量の変化が想定される製品では動的に変化されてもよい。一方、閾値はノイズ量の変化が想定されない製品では固定値であってもよい。閾値が動的に変化される場合、閾値はノイズ音量平均値NをV_ratio倍して得られる値でなくてもよく、他の計算により算出された値であってもよい。

図１２は、本開示の第２の実施形態に係る情報処理装置１４０の終了トリガ検出時における動作の流れの例を示すフローチャートである。なお、図１２のフローチャートは、終了トリガ検出時における動作の流れの例に過ぎないため、終了トリガ検出時における動作の流れは、図１２のフローチャートに示された例に限定されない。

まず、操作検出部１４３は、終了トリガを検出し（Ｓ６１）、処理制御部１４４は、上記したノイズ音量平均値Nを取得する（Ｓ６２）。続いて、処理制御部１４４は、ΔT_endにΔTを設定し（Ｓ６３）、終了トリガ検出のΔT_end後における音量を取得する（Ｓ６４）。処理制御部１４４は、音量が閾値（ノイズ音量平均値NをV_ratio倍して得られる値）より小さい場合には（Ｓ６６：Ｙｅｓ）、終了トリガ検出のΔT_end後を処理区間の開始時として設定する（Ｓ６７）。

一方、処理制御部１４４は、音量が閾値（ノイズ音量平均値NをV_ratio倍して得られる値）より大きい場合には（Ｓ６６：Ｎｏ）、ΔT_endをΔTだけ増加させて（Ｓ６５）、動作をＳ６４に移行させる。なお、音量が閾値（ノイズ音量平均値NをV_ratio倍して得られる値）と等しい場合には、終了トリガ検出のΔT_end前を処理区間の終了時として設定してもよいし（Ｓ６７）、動作をＳ６４に移行させてもよい。また、ここではΔT_endの範囲を特に制限していないが、ΔT_endの範囲は制限されてもよい。

また、図１２に示したように、閾値はノイズ量の変化が想定される製品では動的に変化されてもよい。一方、閾値はノイズ量の変化が想定されない製品では固定値であってもよい。閾値が動的に変化される場合、閾値はノイズ音量平均値NをV_ratio倍して得られる値でなくてもよく、他の計算により算出された値であってもよい。

［３．３．変形例の説明］
続いて、本開示の第２の実施形態に係る情報処理装置１４０の変形例を説明する。本開示の第２の実施形態においても、開始トリガおよび終了トリガは特に限定されない。例えば、開始トリガは、少なくとも所定の音声入力（例えば、「音声認識開始」という音声の入力など）、所定のジェスチャ（例えば、所定の表情、唇の形状など）、所定の操作オブジェクトに対するタップ、短押し、視線当て、手かざし、ホールドの開始および長押しの開始のいずれか一つを含んでよい。

図１３は、本開示の第２の実施形態に係る情報処理装置１４０の変形例１を説明するための図である。図１３に示すように、操作オブジェクトは、シャッタボタン１１５Ａであってもよい。かかる場合、処理制御部１４４は、シャッタボタン１１５Ａの押下開始を開始トリガとし、シャッタボタン１１５Ａの押下終了を終了トリガとし、開始トリガの検出時および終了トリガの検出時に応じた処理区間を特定することが可能である。処理部１４５は、処理区間における入力音声に対する音声認識を行う。

このとき、処理制御部１４４は、音声認識の結果として得られた文字列を、シャッタボタン１１５Ａの押下開始から押下終了までに撮影された写真にタグ（またはメモ）として付してもよい。そうすれば、ユーザは、写真の閲覧時に写真に付された文字列を参照することが可能となる。なお、シャッタボタン１１５Ａの押下開始から押下終了までに撮影される写真は、動画であってもよいし、静止画であってもよい。

図１４は、本開示の第２の実施形態に係る情報処理装置１４０の変形例２を説明するための図である。図１４に示すように、表示制御部１４６は、仮想オブジェクトＶ１および仮想オブジェクトＶ２それぞれを表示部１３０に表示させることが可能である。例えば、仮想オブジェクトＶ１および仮想オブジェクトＶ２は、ゲームアプリケーションの実行時に表示されてよい。ここで、一人目のユーザの操作に従って仮想オブジェクトＶ１が移動され、二人目のユーザの操作に従って仮想オブジェクトＶ２が移動される場合を想定する。

このとき、図１４に示されるように、開始トリガは、仮想オブジェクトＶ１および仮想オブジェクトＶ２の間の距離を所定の距離よりも接近させる操作を含んでもよい。一方、図１４に示されるように、終了トリガは、仮想オブジェクトＶ１および仮想オブジェクトＶ２の間の距離を所定の距離よりも遠ざける操作を含んでもよい。かかる場合、処理制御部１４４は、開始トリガの検出時および終了トリガの検出時に応じた処理区間を特定することが可能である。処理部１４５は、処理区間における入力音声に対する音声認識を行う。

処理制御部１４４は、音声認識の結果として得られた文字列を、一人目のユーザと二人目のユーザとの間において行われるチャットに利用してもよい。あるいは、処理制御部１４４は、音声認識の結果として得られた文字列を、実行されているゲームアプリケーションの中において利用してもよい。例えば、処理制御部１４４は、音声認識の結果として得られた文字列を、仮想オブジェクトＶ１と仮想オブジェクトＶ２との間の会話に利用してもよい。なお、図１４では、仮想オブジェクトの数が二つの場合について説明したが、仮想オブジェクトの数は複数であればよい。

図１５は、本開示の第２の実施形態に係る情報処理装置１４０の変形例３を説明するための図である。図１５に示すように、操作部１１５は、近接センサを含んでいてもよい。かかる場合、図１５に示すように、開始トリガは、近接センサに対してユーザＵが身体の一部または全部を近接させる操作を含んでもよい。身体の一部は、ユーザの顔であってもよいし、他の部位であってもよい。また、図１５に示すように、終了トリガは、近接センサへのユーザＵが身体の一部または全部の近接を解除させる操作を含んでもよい。

かかる場合、処理制御部１４４は、開始トリガの検出時および終了トリガの検出時に応じた処理区間を特定することが可能である。処理部１４５は、処理区間における入力音声に対する音声認識を行う。このように音声認識を行う時間を制限するようにすれば、省電力化が実現され得る。処理制御部１４４は、音声認識の結果として得られた文字列を、実行されているアプリケーションの中において利用してよい。

図１６は、本開示の第２の実施形態に係る情報処理装置１４０の変形例４を説明するための図である。上記では、処理部１４５によって実行される処理が入力音声に対する音声認識である場合を主に説明した。しかし、処理部１４５によって実行される処理は入力音声に対する音声認識に限定されない。例えば、処理部１４５によって実行される処理は、コンテンツのスクロールであってもよい。なお、ここでは、スクロールは、ユーザの手による空間上の操作に基づいて行われる場合を想定するが、スクロールは、ユーザの手以外の物体に基づいて行われもよい。

ここでは、ユーザＵによって発せられる所定の音声（例えば、「写真」という音声）によって写真ビューワが起動されて写真が表示部１３０によって表示された後、ユーザＵがジェスチャにより写真をスクロールさせる場合を想定する。かかる場合においても、ユーザＵによって所定の音声が発せられる前にジェスチャが行われてしまう可能性がある。図１６には、操作部１１５によって検出された画像群を撮影時間の早い順に画像Ｉｍｇ１〜Ｉｍｇ７として示している。

図１６を参照すると、画像Ｉｍｇ２が撮影されてから画像Ｉｍｇ３が撮影されるまでの間にユーザＵによる「写真」という発話が検出されている。しかし、ユーザＵによって「写真」という発話がなされる前に撮影された画像Ｉｍｇ２にユーザＵの手が映ってしまっているため、処理区間の開始を画像Ｉｍｇ３の撮影時としてしまうと、ジェスチャの途中からスクロール量を算出することになってしまい、スクロール量の算出精度が向上されない。

そこで、処理制御部１４４は、開始トリガが検出されると画像群に映るユーザＵの手の移動に応じた処理を所定の処理開始時刻において開始させるとよい。より具体的に、処理開始時刻は、開始トリガの検出時からユーザＵの手が映る入力画像が取得されるまで遡った時刻であってよい。図１６に示した例では、「写真」という発話（開始トリガの検出時）からユーザＵの手が映る画像Ｉｍｇ２が取得されるまで遡った時刻が処理区間の開始時とされている。

このようにして、音声認識以外の処理が実行される場合においても、処理制御部１４４は、開始トリガの検出時および終了トリガの検出時に応じた処理区間を特定することが可能である。処理部１４５は、処理区間における画像Ｉｍｇ２〜Ｉｍｇ６に基づいてユーザＵの手の移動を算出することが可能である。また、処理部１４５は、ユーザＵの手の移動に基づいて、表示部１３０によって表示されている写真をスクロールさせることができる。

＜４．ハードウェア構成例＞
次に、図１７を参照して、本開示の実施形態に係る情報処理システム１０のハードウェア構成について説明する。図１７は、本開示の実施形態に係る情報処理システム１０のハードウェア構成例を示すブロック図である。

図１７に示すように、情報処理システム１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇｕｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０３、およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０５を含む。また、情報処理システム１０は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理システム１０は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理システム１０は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理システム１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、ユーザの音声を検出するマイクを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム１０の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理システム１０に対して各種のデータを入力したり処理動作を指示したりする。

出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、ＰＤＰ（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ）、有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置９１７は、情報処理システム１０の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置９１７は、周囲を明るくするためライトなどを含んでもよい。

ストレージ装置９１９は、情報処理システム１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種のデータ、および外部から取得した各種のデータなどを格納する。

ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理システム１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

接続ポート９２３は、機器を情報処理システム１０に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３は、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理システム１０と外部接続機器９２９との間で各種のデータが交換され得る。

通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

撮像装置９３３は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）またはＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。また、撮像装置９３３は、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

センサ９３５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５は、例えば、情報処理システム１０の筐体の姿勢など、情報処理システム１０自体の状態に関する情報や、情報処理システム１０の周辺の明るさや騒音など、情報処理システム１０の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

以上、情報処理システム１０のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。

＜５．むすび＞
以上説明したように、本開示の第１の実施形態によれば、入力データを取得する入力データ取得部１４２と、所定の処理を開始させるための開始操作が検出されると入力データに応じた処理を開始させる処理制御部１４４と、を備え、処理制御部１４４は、開始操作の種類に基づいて、入力データに応じた処理を終了させるための終了操作を決定する、情報処理装置１４０が提供される。

かかる構成によれば、終了操作が自動的に決定されるため、所定の処理の処理区間を特定するための操作を新規にユーザに学習させる必要性を低減し、ユーザの利便性を向上することが期待される。また、本開示の第１の実施形態によれば、所定の処理の処理区間を特定するための操作がユーザに与える負荷を低減することが可能となる。また、本開示の第１の実施形態によれば、ユーザが操作を失敗してしまう可能性を低減することが可能となる。

また、本開示の第２の実施形態においては、処理制御部１４４が、開始操作が検出される前における所定の処理開始時刻において処理を開始させる。かかる構成によれば、ユーザの操作に基づいて処理区間をより適切に特定することが可能となる。より具体的には、かかる構成によれば、開始トリガの前におけるユーザによる発話を取りこぼす可能性を低減することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記においては、表示部１３０による表示形態の変形例を説明したが、表示部１３０による表示形態は、上記した例に限定されない。例えば、表示部１３０は、ヘッドマウントディスプレイ以外のウェアラブル端末（例えば、時計、眼鏡など）に備わるディスプレイであってもよい。また、例えば、表示部１３０は、車載向けナビゲーションシステムに備わるディスプレイであってもよい。また、例えば、表示部１３０は、ヘルスケア分野において利用されるディスプレイであってもよい。

また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上記した情報処理システム１０が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

また、表示制御部１４６は、表示部１３０に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を表示部１３０に出力することで、当該表示内容が表示部１３０に表示されるように表示部１３０を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。

具体的な一例として、情報処理装置１４０を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）などのマークアップ言語により実現されてもよい。

なお、上述した情報処理システム１０の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、操作部１１５、入力部１２０および表示部１３０と情報処理装置１４０とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置１４０が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、操作部１１５、入力部１２０および表示部１３０が当該サーバにネットワークを介して接続されたクライアントに相当し得る。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
入力データを取得する入力データ取得部と、
所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、
前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、
情報処理装置。
（２）
前記情報処理装置は、
前記処理が行われている間に所定の表示オブジェクトを表示させる表示制御部を備える、
前記（１）に記載の情報処理装置。
（３）
前記表示制御部は、前記開始操作の種類に応じて、前記表示オブジェクトの表示態様を変化させる、
前記（２）に記載の情報処理装置。
（４）
前記処理制御部は、前記開始操作が所定の第１の操作である場合、前記終了操作として前記第１の操作に対応付けられた対応操作を決定する、
前記（１）〜（３）のいずれか一項に記載の情報処理装置。
（５）
前記第１の操作は、少なくとも所定の音声入力、所定のジェスチャ、所定の操作オブジェクトに対するタップ、短押し、視線当ておよび手かざしのいずれか一つを含む、
前記（４）に記載の情報処理装置。
（６）
前記処理制御部は、前記開始操作が前記第１の操作とは異なる所定の第２の操作の開始である場合、前記終了操作として前記第２の操作の終了を決定する、
前記（４）または（５）に記載の情報処理装置。
（７）
前記第２の操作は、少なくとも操作オブジェクトに対するホールドおよび長押しのいずれか一つを含む、
前記（６）に記載の情報処理装置。
（８）
前記入力データ取得部は、前記入力データとして入力音声を取得し、
前記処理制御部は、前記入力音声に対する音声認識を前記処理として開始させる、
前記（２）または（３）に記載の情報処理装置。
（９）
前記処理制御部は、前記開始操作が第１の操作である場合、前記入力音声から所定の上限時間を超える無音区間が検出されると前記処理を終了させる、
前記（８）に記載の情報処理装置。
（１０）
前記表示制御部は、前記無音区間の前記上限時間に対する割合を示すインジケータを表示させる、
前記（９）に記載の情報処理装置。
（１１）
前記処理制御部は、前記開始操作が検出される前における所定の処理開始時刻において、前記処理を開始させる、
前記（１）〜（３）のいずれか一項に記載の情報処理装置。
（１２）
前記処理開始時刻は、前記開始操作の検出時から音量が閾値を下回る入力音声が取得されるまで遡った時刻である、
前記（１１）に記載の情報処理装置。
（１３）
前記処理制御部は、前記終了操作が検出された後における所定の処理終了時刻において、前記処理を終了させる、
前記（１１）または（１２）に記載の情報処理装置。
（１４）
前記処理終了時刻は、前記終了操作の検出時から音量が閾値を下回る入力音声が取得されるまで進んだ時刻である、
前記（１３）に記載の情報処理装置。
（１５）
前記開始操作は、少なくとも所定の音声入力、所定のジェスチャ、所定の操作オブジェクトに対するタップ、短押し、視線当て、手かざし、ホールドの開始および長押しの開始のいずれか一つを含む、
前記（１１）〜（１４）のいずれか一項に記載の情報処理装置。
（１６）
前記開始操作は、複数の仮想オブジェクト同士を所定の距離よりも接近させる操作を含む、
前記（１１）〜（１４）のいずれか一項に記載の情報処理装置。
（１７）
前記開始操作は、近接センサに対してユーザが身体の一部または全部を近接させる操作を含む、
前記（１１）〜（１４）のいずれか一項に記載の情報処理装置。
（１８）
前記処理制御部は、前記開始操作が検出されると入力画像に映る所定の物体の移動に応じた前記処理を前記所定の処理開始時刻において開始させる、
前記（１１）に記載の情報処理装置。
（１９）
入力データを取得することと、
所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させることと、を含み、
プロセッサにより、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定することを含む、
情報処理方法。
（２０）
コンピュータを、
入力データを取得する入力データ取得部と、
所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、
前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、
情報処理装置として機能させるためのプログラム。

１０情報処理システム
１１５操作部
１１５Ａシャッタボタン
１２０入力部
１３０表示部
１４０情報処理装置（制御部）
１４２入力データ取得部
１４３操作検出部
１４４処理制御部
１４５処理部
１４６表示制御部
Ｂ１〜Ｂ５操作オブジェクト
Ｃ１〜Ｃ４表示オブジェクト
Ｄ１〜Ｄ５操作オブジェクト
Ｖ１、Ｖ２仮想オブジェクト

Claims

入力データを取得する入力データ取得部と、
所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、
前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、
情報処理装置。
前記情報処理装置は、
前記処理が行われている間に所定の表示オブジェクトを表示させる表示制御部を備える、
請求項１に記載の情報処理装置。
前記表示制御部は、前記開始操作の種類に応じて、前記表示オブジェクトの表示態様を変化させる、
請求項２に記載の情報処理装置。
前記処理制御部は、前記開始操作が所定の第１の操作である場合、前記終了操作として前記第１の操作に対応付けられた対応操作を決定する、
請求項１に記載の情報処理装置。
前記第１の操作は、少なくとも所定の音声入力、所定のジェスチャ、所定の操作オブジェクトに対するタップ、短押し、視線当ておよび手かざしのいずれか一つを含む、
請求項４に記載の情報処理装置。
前記処理制御部は、前記開始操作が前記第１の操作とは異なる所定の第２の操作の開始である場合、前記終了操作として前記第２の操作の終了を決定する、
請求項４に記載の情報処理装置。
前記第２の操作は、少なくとも操作オブジェクトに対するホールドおよび長押しのいずれか一つを含む、
請求項６に記載の情報処理装置。
前記入力データ取得部は、前記入力データとして入力音声を取得し、
前記処理制御部は、前記入力音声に対する音声認識を前記処理として開始させる、
請求項２に記載の情報処理装置。
前記処理制御部は、前記開始操作が第１の操作である場合、前記入力音声から所定の上限時間を超える無音区間が検出されると前記処理を終了させる、
請求項８に記載の情報処理装置。
前記表示制御部は、前記無音区間の前記上限時間に対する割合を示すインジケータを表示させる、
請求項９に記載の情報処理装置。
前記処理制御部は、前記開始操作が検出される前における所定の処理開始時刻において、前記処理を開始させる、
請求項１に記載の情報処理装置。
前記処理開始時刻は、前記開始操作の検出時から音量が閾値を下回る入力音声が取得されるまで遡った時刻である、
請求項１１に記載の情報処理装置。
前記処理制御部は、前記終了操作が検出された後における所定の処理終了時刻において、前記処理を終了させる、
請求項１１に記載の情報処理装置。
前記処理終了時刻は、前記終了操作の検出時から音量が閾値を下回る入力音声が取得されるまで進んだ時刻である、
請求項１３に記載の情報処理装置。
前記開始操作は、少なくとも所定の音声入力、所定のジェスチャ、所定の操作オブジェクトに対するタップ、短押し、視線当て、手かざし、ホールドの開始および長押しの開始のいずれか一つを含む、
請求項１１に記載の情報処理装置。
前記開始操作は、複数の仮想オブジェクト同士を所定の距離よりも接近させる操作を含む、
請求項１１に記載の情報処理装置。
前記開始操作は、近接センサに対してユーザが身体の一部または全部を近接させる操作を含む、
請求項１１に記載の情報処理装置。
前記処理制御部は、前記開始操作が検出されると入力画像に映る所定の物体の移動に応じた前記処理を前記所定の処理開始時刻において開始させる、
請求項１１に記載の情報処理装置。
入力データを取得することと、
所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させることと、を含み、
プロセッサにより、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定することを含む、
情報処理方法。
コンピュータを、
入力データを取得する入力データ取得部と、
所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、
前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、
情報処理装置として機能させるためのプログラム。