JP2016109726A - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2016109726A
JP2016109726A JP2014243905A JP2014243905A JP2016109726A JP 2016109726 A JP2016109726 A JP 2016109726A JP 2014243905 A JP2014243905 A JP 2014243905A JP 2014243905 A JP2014243905 A JP 2014243905A JP 2016109726 A JP2016109726 A JP 2016109726A
Authority
JP
Japan
Prior art keywords
information processing
control unit
processing apparatus
input
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014243905A
Other languages
English (en)
Inventor
祐平 滝
Yuhei Taki
祐平 滝
真一 河野
Shinichi Kono
真一 河野
邦仁 澤井
Kunihito Sawai
邦仁 澤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2014243905A priority Critical patent/JP2016109726A/ja
Publication of JP2016109726A publication Critical patent/JP2016109726A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】所定の処理の処理区間を特定するための操作がユーザに対して与える負荷を低減することが可能な技術が提供されることが望まれる。【解決手段】入力データを取得する入力データ取得部と、所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、情報処理装置が提供される。【選択図】図1

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。
近年、所定の処理(例えば、音声認識など)の処理区間を特定するための操作として様々な操作が利用されている。例えば、処理区間を特定するための操作の例として、所定の操作オブジェクトに対する1度目の操作時刻から2度目の操作時刻までを処理区間として特定する方式がある。また、他の例として、操作オブジェクトに対する操作開始時刻から操作終了時刻までを処理区間として特定する方式(Push To Talk)がある。このように、様々な操作が利用され得るため、ユーザは入力可能な操作とは異なった操作を行ってしまうことがある。
そこで、入力可能な操作と異なった操作をユーザが行ってしまった場合に、入力可能な操作に関するガイダンスをユーザに提供する技術が存在する(例えば、特許文献1参照)。かかる構成により、ユーザは、操作を誤って行ったとしても、ガイダンスを参照することによって正しい操作を把握することが可能となる。
特開2008−197551号公報
しかし、所定の処理の処理区間を特定するための操作がユーザに対して与える負荷を低減することが可能な技術が提供されることが望まれる。
本開示によれば、入力データを取得する入力データ取得部と、所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、情報処理装置が提供される。
本開示によれば、入力データを取得することと、所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させることと、を含み、プロセッサにより、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定することを含む、情報処理方法が提供される。
本開示によれば、コンピュータを、入力データを取得する入力データ取得部と、所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、情報処理装置として機能させるためのプログラムが提供される。
以上説明したように本開示によれば、所定の処理の処理区間を特定するための操作がユーザに対して与える負荷を低減することが可能とすることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の実施形態に係る情報処理システムの構成例を示す図である。 同実施形態に係る情報処理システムの機能構成例を示すブロック図である。 表示部によって操作オブジェクトが表示される場合における状態遷移を説明するための図である 操作オブジェクトがハードウェアボタンである場合における状態遷移を説明するための図である。 本開示の第1の実施形態に係る情報処理システムの動作全体の流れの例を示すフローチャートである。 同実施形態に係る情報処理システムの動作全体の流れの例を示すフローチャートである。 音声認識自動終了処理の動作の流れの例を示すフローチャートである。 表示部による表示形態の変形例1を示す図である。 表示部による表示形態の変形例2を示す図である。 表示部による表示形態の変形例3を示す図である。 本開示の第2の実施形態に係る情報処理装置によって処理区間を特定する例を説明するための図である。 同実施形態に係る情報処理装置の開始トリガ検出時における動作の流れの例を示すフローチャートである。 同実施形態に係る情報処理装置の終了トリガ検出時における動作の流れの例を示すフローチャートである。 同実施形態に係る情報処理装置の変形例1を説明するための図である。 同実施形態に係る情報処理装置の変形例2を説明するための図である。 同実施形態に係る情報処理装置の変形例3を説明するための図である。 同実施形態に係る情報処理装置の変形例4を説明するための図である。 本開示の実施形態に係る情報処理システムのハードウェア構成例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットまたは数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
なお、説明は以下の順序で行うものとする。
1.本開示の実施形態
1.1.システム構成例
1.2.機能構成例
2.第1の実施形態
2.1.構成の説明
2.2.動作の説明
2.3.表示形態の変形例
3.第2の実施形態
3.1.構成の説明
3.2.動作の説明
3.3.変形例
4.ハードウェア構成例
5.むすび
<1.本開示の実施形態>
[1.1.システム構成例]
まず、図面を参照しながら本開示の実施形態に係る情報処理システム10の構成例について説明する。図1は、本開示の実施形態に係る情報処理システム10の構成例を示す図である。図1に示したように、本開示の実施形態に係る情報処理システム10は、操作部115と、入力部120と、表示部130とを備える。情報処理システム10は、ユーザU(以下、単に「ユーザ」とも言う。)によって所定の処理(以下、単に「処理」とも言う。)の処理区間を特定するための操作がなされると、処理区間に処理を実行させることが可能である。
操作部115は、ユーザUの操作を入力する機能を有する。図1に示した例では、操作部115は、テーブルTblの上方に存在する天井から吊り下げられた1つのカメラを含んでいる。しかし、操作部115に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作部115はユーザUの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。
表示部130は、テーブルTblに画面を表示する機能を有する。図1に示した例では、表示部130は、テーブルTblの上方に天井から吊り下げられている。しかし、表示部130が設けられる位置は特に限定されない。また、典型的には、表示部130は、テーブルTblの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。
なお、本明細書では、テーブルTblの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルTblの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよいし、他の場所にある面であってもよい。また、表示部130が表示面を有する場合には、画面の表示面は、表示部130が有する表示面であってもよい。
入力部120は、音声を入力する機能を有する。図1に示した例では、入力部120は、テーブルTblの上方に存在する3つのマイクとテーブルTblの上面に存在する3つのマイクとの合計6つのマイクを含んでいる。しかし、入力部120に含まれるマイクの数は1以上であれば特に限定されない。かかる場合、入力部120に含まれる1以上のマイクそれぞれが設けられる位置も特に限定されない。ただし、入力部120が、複数のマイクを含んでいれば、複数のマイクそれぞれに入力された音声に基づいて音源方向が推定され得る。また、入力部120が指向性を有するマイクを含んでいれば、指向性を有するマイクに入力された音声に基づいて音源方向が推定され得る。
以上、本開示の実施形態に係る情報処理システム10の構成例について説明した。
[1.2.機能構成例]
続いて、本開示の実施形態に係る情報処理システム10の機能構成例について説明する。図2は、本開示の実施形態に係る情報処理システム10の機能構成例を示すブロック図である。図2に示したように、本開示の実施形態に係る情報処理システム10は、操作部115と、入力部120と、表示部130と、情報処理装置140(以下、「制御部140」とも言う。)と、を備える。
情報処理装置140は、情報処理システム10の各部の制御を実行する。例えば、情報処理装置140は、表示部130から出力する情報を生成する。また、例えば、情報処理装置140は、操作部115および入力部120それぞれが入力した情報を、表示部130から出力する情報に反映させる。図2に示したように、情報処理装置140は、入力データ取得部142と、操作検出部143と、処理制御部144と、処理部145と、表示制御部146とを備える。これらの各機能ブロックについての詳細は、後に説明する。
なお、情報処理装置140は、例えば、CPU(Central Processing Unit;中央演算処理装置)などで構成されていてもよい。情報処理装置140がCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。
以上、本開示の実施形態に係る情報処理システム10の機能構成例について説明した。
<2.第1の実施形態>
まず、本開示の第1の実施形態について説明する。
[2.1.構成の説明]
本開示の第1の実施形態に係る情報処理システム10の構成について説明する。近年、所定の処理(例えば、音声認識など)の処理区間を特定するための操作として様々な操作が利用されている。例えば、処理区間を特定するための操作の例として、ユーザが操作を行うための操作オブジェクトに対する1度目の操作時刻から2度目の操作時刻までを処理区間として特定する方式がある。また、他の例として、操作オブジェクトに対する操作開始時刻から操作終了時刻までを処理区間として特定する方式(Push To Talk)がある。
このように、様々な操作が利用され得るため、ユーザは入力可能な操作とは異なった操作を行ってしまうことがある。そこで、入力可能な操作と異なった操作をユーザが行ってしまった場合に、入力可能な操作に関するガイダンスをユーザに提供する技術が存在する(例えば、特許文献1参照)。かかる構成により、ユーザは、操作を誤って行ったとしても、ガイダンスを参照することによって正しい操作を把握することが可能となる。
しかし、例えば、どの操作に慣れているかはユーザの経験によって異なる場合があり、ユーザは自身が慣れた操作以外の操作を行うのが難しいときには、ガイダンスを参照したとしてもユーザは操作を失敗する可能性がある。また、ユーザは自身が慣れた操作以外の操作を行うために多くの心的負荷を受けてしまう可能性がある。そこで、本開示の第1の実施形態では、所定の処理の処理区間を特定するための操作がユーザに与える負荷を低減することが可能な技術を主に提案する。
まず、ユーザは所定の処理の処理区間を特定するための開始操作を行う。このとき、入力データ取得部142は、入力データを取得し、処理制御部144は、開始操作が操作検出部143によって検出されると入力データに応じた処理を開始させる。処理制御部144は、開始操作の種類に基づいて、入力データに応じた処理を終了させるための終了操作を決定する。かかる構成により、終了操作が自動的に決定されるため、所定の処理の処理区間を特定するための操作がユーザに与える負荷を低減することが可能となる。
本開示の第1の実施形態では、入力データ取得部142が、入力部120が入力した入力音声を入力データとして取得し、処理制御部144は、入力音声に対する音声認識を処理として開始させる例を主に説明する。しかし、入力データは、入力音声に限定されない。また、処理も音声認識に限定されない。また、音声認識の処理区間を特定するための操作も限定されない。以下、操作オブジェクトが表示される場合と操作オブジェクトがハードウェアボタンである場合それぞれについて順に説明する。
図3は、表示部130によって操作オブジェクトが表示される場合における状態遷移を説明するための図である。図3に示すように、表示制御部146は、音声認識を行う処理部145の状態が定常状態(音声認識開始前)である場合に、操作オブジェクトB2を表示させる。操作オブジェクトB2には、処理部145の状態が定常状態である旨(図3に示す例では、操作オブジェクトB2に対するタップを促すための「Push」という文字列)が付されてよい。
また、表示制御部146は、処理部145の状態が定常状態である場合に、表示オブジェクトC2を表示させてよい。表示オブジェクトC2は、定常状態に対応する表示オブジェクト(図3に示す例では、白色が付された表示オブジェクト)であってよい。ここで、操作検出部143によって第1の操作が検出されると、処理制御部144は、入力データ取得部142によって取得された入力音声に対する音声認識を開始させる。
なお、図3には、第1の操作が操作オブジェクトB2に対するタップである例が示されている。しかし、第1の操作は操作オブジェクトB2に対するタップに限定されない。例えば、第1の操作は、少なくとも所定の音声入力(例えば、「音声認識開始」という音声の入力など)、所定のジェスチャ(例えば、所定の表情、唇の形状など)、操作オブジェクトB2に対するタップ、視線当ておよび手かざしのいずれか一つを含んでもよい。
ここで、表示制御部146は、処理部145によって音声認識がなされている間には、操作オブジェクトB3を表示させてよい。操作オブジェクトB3には、処理部145の状態が音声認識中である旨(図3に示す例では、音声認識終了を促すための「Stop」という文字列)が付されてよい。
続いて、処理制御部144は、開始操作が第1の操作である場合、終了操作として第1の操作に対応付けられた対応操作を決定する。図3には、操作オブジェクトB2に対するタップに対応付けられた対応操作として、操作オブジェクトB3に対するタップが例として示されているが、対応操作は、操作オブジェクトB3に対するタップに限定されない。例えば、対応操作は、少なくとも所定の音声入力(例えば、「音声認識終了」という音声の入力など)、所定のジェスチャ(例えば、所定の表情、唇の形状など)、操作オブジェクトB3に対するタップ、視線当ておよび手かざしのいずれか一つを含んでもよい。
また、表示制御部146は、処理部145の状態が音声認識中である場合に、表示オブジェクトC3を表示させてよい。表示オブジェクトC3は、音声認識中に対応する表示オブジェクト(図3に示す例では、濃い灰色が付された表示オブジェクト)であってよい。続いて、処理部145の状態が音声認識中である場合に、ユーザが対応操作(例えば、操作オブジェクトB3に対するタップ)を行い、操作検出部143によって対応操作が検出されると、処理制御部144は、入力データ取得部142によって取得された入力音声に対する音声認識を終了させる。
あるいは、図3に示すように、処理制御部144は、入力音声が検出されない時間(以下、単に「無音区間」とも言う。)が所定の上限時間を超過した場合に、入力音声に対する音声認識を終了させてもよい。このとき、表示制御部146は、無音区間の上限時間に対する割合を示すインジケータを表示させてもよい。そうすれば、ユーザは、無音区間があとどの程度続くと音声認識が終了されるかを視覚的に把握することが可能となる。図3に示すように、表示制御部146は、無音区間を表示オブジェクトC3によって示し、上限時間までの残りの時間を表示オブジェクトC2によって示してもよい。
なお、無音区間が上限時間を超過したことによって自動的に音声認識が終了された場合には、ユーザが音声認識の終了に気付かない可能性もある。したがって、処理制御部144は、無音区間が上限時間を超過したことによって音声認識を終了させた場合には、操作オブジェクトB2に対する第1の操作が検出されなくても、入力音声に対する音声認識を自動的に開始させてもよい。自動的に音声認識が終了された場合ではなく、ユーザ操作によって音声認識が終了された場合には、自動的に音声認識を開始させなくてもよい。
続いて、入力音声に対する音声認識が終了されると、処理部145の状態は定常状態に戻る。図3に示すように、音声認識が完了するまで、処理部145の状態は認識状態であってもよい。図3を参照すると、表示制御部146は、認識状態において操作オブジェクトB1が表示させている。処理部145の状態が認識状態である場合には、図3に示すように、処理部145の状態が認識状態である旨を示す情報(例えば、Wait)が表示されてよい。
また、表示制御部146は、処理部145の状態が認識状態である場合に、表示オブジェクトC1を表示させてよい。表示オブジェクトC1は、認識状態に対応する表示オブジェクト(図3に示す例では、薄い灰色が付された表示オブジェクト)であってよい。なお、音声認識によって得られた文字列はどのように利用されてもよい。例えば、音声認識によって得られた文字列は、検索キーとして利用されてもよい。
一方、処理部145の状態が定常状態である場合に、操作検出部143によって第1の操作とは異なる第2の操作の開始が検出された場合も、処理制御部144は、入力データ取得部142によって取得された入力音声に対する音声認識を開始させる。なお、図3には、第2の操作が操作オブジェクトB2に対するホールドである例が示されている。しかし、第2の操作は操作オブジェクトB2に対するホールドに限定されない。
ここで、表示制御部146は、処理部145によって音声認識がなされている間には、操作オブジェクトB4を表示させてよい。操作オブジェクトB4には、処理部145の状態が音声認識中である旨(図3に示す例では、音声認識終了を促すための「Stop」という文字列)が付されてよい。ただし、操作オブジェクトB4に対してホールドされている間は、「Stop」という文字列はユーザには見えない可能性がある。
また、表示制御部146は、処理部145の状態が音声認識中である場合に、表示オブジェクトC4を表示させてよい。表示オブジェクトC4は、音声認識中に対応する表示オブジェクト(図3に示す例では、濃い灰色が付された表示オブジェクト)であってよい。このとき、第1の操作が検出されたときに表示される表示オブジェクトC3と第2の操作が検出されたときに表示される表示オブジェクトC4とは異なった表示態様によって表示されるのがよい。
例えば、図3に示したように、表示態様の相違は、形状の相違(例えば、表示オブジェクトC3がインジケータとなっているのに対して、表示オブジェクトC4がインジケータとなっていないといった形状の相違)であってもよいが、特に限定されない。例えば、表示態様の相違は、表示オブジェクトC3と表示オブジェクトC4との色の違いであってもよいし、サイズの違いであってもよいし、形状の違いであってもよい。
続いて、処理制御部144は、開始操作が第2の操作の開始である場合、終了操作として第2の操作の終了を決定する。図3には、処理制御部144が、開始操作が操作オブジェクトB2に対するホールド開始である場合に、終了操作として操作オブジェクトB4に対するホールド終了を決定する例が示されている。入力音声に対する音声認識が終了されると、処理部145の状態は定常状態に戻る。図3に示すように、音声認識が完了するまで、処理部145の状態は認識状態であってもよい。
図4は、操作オブジェクトがハードウェアボタンである場合における状態遷移を説明するための図である。図4には、図3に示した操作オブジェクトB1〜B5に対応する操作オブジェクトD1〜T5がハードウェアボタンとして示され、操作オブジェクトB2に対するタップおよびホールドに対応する操作がそれぞれ、操作オブジェクトD2に対する短押しおよび長押しとして示されている。また、表示オブジェクトC1〜C5はLED(Light Emitting Diode)によって表示されてもよい。処理制御部144、処理部145および表示制御部146それぞれの具体的な動作は、図3を参照しながら既に説明した動作と同様であるため、説明を省略する。
以上に説明したように、本開示の第1の実施形態によれば、終了操作が自動的に決定されるため、所定の処理の処理区間を特定するための操作を新規にユーザに学習させる必要性を低減し、ユーザの利便性を向上することが期待される。また、本開示の第1の実施形態によれば、所定の処理の処理区間を特定するための操作がユーザに与える負荷を低減することが可能となる。また、本開示の第1の実施形態によれば、ユーザが操作を失敗してしまう可能性を低減することが可能となる。
以上、本開示の第1の実施形態に係る情報処理システム10の構成について説明した。
[2.2.動作の説明]
続いて、本開示の第1の実施形態に係る情報処理システム10の動作の流れについて説明する。図5Aおよび図5Bは、本開示の第1の実施形態に係る情報処理システム10の動作全体の流れの例を示すフローチャートである。なお、図5Aおよび図5Bのフローチャートは、本開示の第1の実施形態に係る情報処理システム10の動作の流れの例に過ぎないため、本開示の第1の実施形態に係る情報処理システム10の動作の流れは、図5Aおよび図5Bのフローチャートに示された例に限定されない。
まず、操作検出部143は、操作部115によって入力されたユーザによる操作を検出し(S11)、入力データ取得部142は、入力部120によって入力された入力音声を取得する(S12)。続いて、処理制御部144は、操作検出部143によって検出された操作の種類を判定する(S13)。ここで、処理制御部144は、操作の種類が、操作オブジェクトに対するタップまたは操作オブジェクトに対する短押しであるか否かを判定する(S21)。
ここで、処理制御部144は、操作の種類が、操作オブジェクトに対するタップまたは操作オブジェクトに対する短押しであると判定した場合には(S21:Yes)、処理部145の状態が音声認識中であるか否かを判定する(S25)。処理制御部144は、処理部145の状態が音声認識中であると判定した場合には(S25:Yes)、音声認識終了処理(S31)に動作を移行させる。一方、処理制御部144は、処理部145の状態が音声認識中ではないと判定した場合には(S25:No)、S32に動作を移行させる。S31〜S33については後に説明する。
一方、処理制御部144は、操作の種類が、操作オブジェクトに対するタップまたは操作オブジェクトに対する短押しではないと判定した場合には(S21:No)、操作の種類が、操作オブジェクトに対するホールド開始または長押し開始であるか否かを判定する(S22)。処理制御部144は、操作の種類が、操作オブジェクトに対するホールド開始または長押し開始であると判定した場合には(S22:Yes)、処理部145の状態が音声認識中であるか否かを判定する(S26)。
ここで、処理制御部144は、処理部145の状態が音声認識中であると判定した場合には(S26:Yes)、次の操作の検出に動作を移行させる。一方、処理制御部144は、処理部145の状態が音声認識中ではないと判定した場合には(S26:No)、S32に動作を移行させる。一方、処理制御部144は、操作の種類が、操作オブジェクトに対するホールド開始または長押し開始ではないと判定した場合には(S22:No)、操作の種類が、操作オブジェクトに対するホールド終了または長押し終了であるか否かを判定する(S23)。
ここで、処理制御部144は、操作の種類が、操作オブジェクトに対するホールド終了または長押し終了であると判定した場合には(S23:Yes)、処理部145の状態が音声認識中であるか否かを判定する(S27)。処理制御部144は、処理部145の状態が音声認識中ではないと判定した場合には(S27:No)、次の操作の検出に動作を移行させる。一方、処理制御部144は、処理部145の状態が音声認識中であると判定した場合には(S27:Yes)、S31に動作を移行させる。
一方、処理制御部144は、操作の種類が、操作オブジェクトに対するホールド終了または長押し終了ではないと判定した場合には(S23:No)、入力音声が所定の音声を含むか否かを判定する(S24)。ここで、処理制御部144は、入力音声が所定の音声を含まないと判定した場合には(S24:No)、次の操作の検出に動作を移行させる。一方、処理制御部144は、入力音声が所定の音声を含むと判定した場合には(S24:Yes)、処理部145の状態が音声認識中であるか否かを判定する(S28)。
ここで、処理制御部144は、処理部145の状態が音声認識中であると判定した場合には(S28:Yes)、次の操作の検出に動作を移行させる。一方、処理制御部144は、処理部145の状態が音声認識中ではないと判定した場合には(S28:No)、S32に動作を移行させる。S31に動作が移行された場合には、処理制御部144は、音声認識を終了させる(S31)。また、S32に動作が移行された場合には、処理制御部144は、入力音声に対する音声認識を開始させ(S32)、音声認識自動終了処理(S33)に動作を移行させる。
続いて、音声認識自動終了処理(S33)の動作の流れについて説明する。図6は、音声認識自動終了処理の動作の流れの例を示すフローチャートである。なお、図6のフローチャートは、音声認識自動終了処理の動作の流れの例に過ぎないため、音声認識自動終了処理の動作の流れは、図6のフローチャートに示された例に限定されない。まず、処理制御部144は、入力音声が無音区間か否かを判定する(S41)。処理制御部144は、入力音声が無音区間ではないと判定した場合には(S41:No)、S41に動作を移行させる。
一方、処理制御部144は、入力音声が無音区間であると判定した場合には(S41:Yes)、無音区間が時間T1を超過したか否かを判定する(S42)。処理制御部144は、無音区間が時間T1を超過していないと判定した場合には(S41:No)、S41に動作を移行させる。一方、処理制御部144は、無音区間が時間T1を超過したと判定した場合には(S41:Yes)、操作オブジェクトがホールド中または長押し中であるか否かを判定する(S43)。
ここで、処理制御部144は、操作オブジェクトがホールド中または長押し中ではないと判定した場合には(S43:No)、S45に動作を移行させる。一方、処理制御部144は、操作オブジェクトがホールド中または長押し中であると判定した場合には(S43:Yes)、音声認識開始からの経過時間が最大入力可能時間T2を超過したか否かを判定する(S44)。処理制御部144は、音声認識開始からの経過時間が最大入力可能時間T2を超過していないと判定した場合には(S44:No)、S41に動作を移行させる。
一方、処理制御部144は、音声認識開始からの経過時間が最大入力可能時間T2を超過したと判定した場合には(S44:Yes)、S45に動作を移行させる。S45に動作が移行された場合には、処理制御部144は、入力音声に対する音声認識を終了させる。なお、時間T1および最大入力可能時間T2それぞれは、音声認識を行う製品の使用環境、ユースケースなどに応じて事前に設定されてもよいし、音声認識開始時などに行われるソフトウェアアップデートなどにより動的に更新されてもよい。
[2.3.表示形態の変形例]
上記においては、表示部130がテーブルTblの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、表示部130による表示形態は、かかる例に限定されない。以下では、表示部130による表示形態の変形例について説明する。図7は、表示部130による表示形態の変形例1を示す図である。また、図8は、表示部130による表示形態の変形例2を示す図である。図7および図8に示すように、情報処理システム10が携帯端末である場合に、表示部130は、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。図7および図8には、操作部115がタッチパネルである場合が例として示されている。
例えば、図7に示すように、処理制御部144は、操作検出部143によって操作オブジェクトB2に対するタップが検出されると、処理部145に入力音声に対する音声認識を開始させてよい。そして、処理制御部144は、操作検出部143によって操作オブジェクトB2に対する再度のタップが検出されると、処理部145に入力音声に対する音声認識を終了させてよい。このとき、表示制御部146は、音声認識によって得られた文字列を検索キー入力欄Stに設定してもよい。
あるいは、図8に示すように、処理制御部144は、操作検出部143によって操作オブジェクトSbに対するタップが検出されると、処理部145に入力音声に対する音声認識を開始させてよい。そして、処理制御部144は、操作検出部143によって操作オブジェクトSbに対する再度のタップが検出されると、処理部145に入力音声に対する音声認識を終了させてよい。このとき、表示制御部146は、音声認識によって得られた文字列を入力フォーム(入力欄St1〜St3のうちタップされた操作オブジェクトSbに対応する入力欄)に設定してもよい。
図9は、表示部130による表示形態の変形例3を示す図である。図9に示すように、表示部130は、ヘッドマウントディスプレイであってもよい。例えば、図9に示すように、処理制御部144は、操作検出部143によって操作オブジェクトSbに対する選択操作が検出されると、処理部145に入力音声に対する音声認識を開始させてよい。そして、処理制御部144は、操作検出部143によって操作オブジェクトB2に対する再度の選択操作が検出されると、処理部145に入力音声に対する音声認識を終了させてよい。このとき、表示制御部146は、音声認識によって得られた文字列を検索キー入力欄Stに設定してもよい。
以上、本開示の第1の実施形態について説明した。
<3.第2の実施形態>
まず、本開示の第2の実施形態について説明する。
[3.1.構成の説明]
本開示の第2の実施形態に係る情報処理システム10の構成について説明する。本開示の第1の実施形態においても説明したように、ユーザの操作によって所定の処理の処理区間が特定される。しかし、ユーザの操作が好適になされない可能性がある。より具体的には、操作オブジェクトに対する操作開始時刻から操作終了時刻までを処理区間として特定する方式(Push To Talk)を用いる場合、処理区間の前からユーザによって音声入力が始められてしまう可能性がある。
また、操作オブジェクトを表示する方式を用いる場合、操作オブジェクトに対する開始操作に基づいて表示が変更されてから(あるいは効果音が発せられてから)、音声入力が始められると、処理区間に対して音声入力が遅れる可能性がある。また、システム遅延によって処理区間に対して音声認識の開始が遅れる場合がある。また、操作環境が悪い場合には(例えば、車内などといった環境で音声認識が行われる場合)、音声入力に対して処理区間がずれる可能性がある。また、音声認識に失敗した原因が特定しにくいといった状況もある。
そこで、本開示の第2の実施形態においては、ユーザの操作に基づいて処理区間をより適切に特定する技術を主に提案する。なお、本開示の第2の実施形態に係る情報処理システム10の機能構成例を示す図としては、本開示の第1の実施形態に係る情報処理システム10の機能構成例を示す図をそのまま使用する。また、本開示の第1の実施形態と本開示の第2の実施形態とは適宜に組み合わせることが可能である。
また、本開示の第2の実施形態においても、入力データ取得部142が、入力部120が入力した入力音声を入力データとして取得し、処理制御部144が、入力音声に対する音声認識を処理として開始させる例を主に説明する。しかし、入力データは、入力音声に限定されない。また、処理も音声認識に限定されない。また、音声認識の処理区間を特定するための操作も限定されない。
図10は、本開示の第2の実施形態に係る情報処理装置140によって処理区間を特定する例を説明するための図である。ここでは、図10に示すように、ユーザによる発話音量が時間の経過とともに変化する場合を想定する。図10に示す例を参照すると、開始トリガから終了トリガまでの区間は、ユーザによる実発話区間よりも狭くなってしまっている。したがって、開始トリガから終了トリガまでの区間を処理区間としてしまうと、ユーザによる発話の取りこぼしが発生してしまう。
そこで、処理制御部144は、操作検出部143によって開始トリガが検出される前における所定の処理開始時刻において、処理を開始させるのがよい。例えば、処理開始時刻は、開始トリガの検出時から音量が閾値を下回る入力音声が取得されるまで遡った時刻であってよい。図10に示した例では、処理制御部144が、開始トリガの検出時から音量が閾値(ノイズ音量平均値NをV_ratio倍して得られる値)を下回る入力音声が取得されるまで(ΔT_startだけ)遡った時刻が処理区間の開始時刻として特定されている。
ここで、V_ratioなどの値は、音声認識を行う製品の使用環境、ユースケースなどに応じて事前に設定されてもよいし、音声認識開始時などに行われるソフトウェアアップデートなどにより動的に更新されてもよい。ノイズ音量平均値Nは、開始トリガが検出される前における入力音声の音量平均値であってよい。また、ノイズ音量平均値Nの代わりにノイズ音量自体が用いられてもよい。また、閾値は、製品の使用環境に応じて事前設定された固定値であってもよい。また、本開示の第2の実施形態における開始トリガおよび終了トリガそれぞれの例として、開始操作および終了操作が挙げられる。
なお、かかる機能を実現するためには、開始トリガが検出される前から入力音声の音量を検出する必要が生じる。例えば、かかる機能を実現するため、入力部120による音声の入力が常時ONにされていてもよい。あるいは、かかる機能を実現するため、操作オブジェクトがハードウェアボタンである場合には、ハードウェアボタンの突起部にタッチセンサを設置し、タッチセンサによってタッチが検出されたときに、入力部120による音声の入力をONにしてもよい。さらに、かかる機能を実現するため、表示されている画面が音声入力可能な画面に遷移したときに、入力部120による音声の入力をONにしてもよい。
同様に、処理制御部144は、終了トリガが検出された後における所定の処理終了時刻において、処理を終了させるのがよい。例えば、処理終了時刻は、終了操作の検出時から音量が閾値を下回る入力音声が取得されるまで進んだ時刻であってよい。図10に示した例では、処理制御部144が、終了トリガの検出時から音量が閾値(ノイズ音量平均値NをV_ratio倍して得られる値)を下回る入力音声が取得されるまで(ΔT_endだけ)進んだ時刻が処理区間の終了時刻として特定されている。
以上に説明したように、本開示の第2の実施形態によれば、ユーザの操作に基づいて処理区間をより適切に特定することが可能となる。より具体的には、本開示の第2の実施形態によれば、開始トリガの前におけるユーザによる発話を取りこぼす可能性を低減することが可能となる。また、本開示の第2の実施形態によれば、終了トリガの後におけるユーザによる発話を取りこぼす可能性を低減することが可能となる。
以上、本開示の第2の実施形態に係る情報処理システム10の構成について説明した。
[3.2.動作の説明]
続いて、本開示の第2の実施形態に係る情報処理装置140の動作の流れについて説明する。図11は、本開示の第2の実施形態に係る情報処理装置140の開始トリガ検出時における動作の流れの例を示すフローチャートである。なお、図11のフローチャートは、開始トリガ検出時における動作の流れの例に過ぎないため、開始トリガ検出時における動作の流れは、図11のフローチャートに示された例に限定されない。
まず、操作検出部143は、開始トリガを検出し(S51)、処理制御部144は、開始トリガが検出される前における入力音声の音量平均値をノイズ音量平均値Nとして取得する(S52)。続いて、処理制御部144は、ΔT_startにΔTを設定し(S53)、開始トリガ検出のΔT_start前における音量を取得する(S54)。処理制御部144は、音量が閾値(ノイズ音量平均値NをV_ratio倍して得られる値)より小さい場合には(S56:Yes)、開始トリガ検出のΔT_start前を処理区間の開始時として設定する(S57)。
一方、処理制御部144は、音量が閾値(ノイズ音量平均値NをV_ratio倍して得られる値)より大きい場合には(S56:No)、ΔT_startをΔTだけ増加させて(S55)、動作をS54に移行させる。なお、音量が閾値(ノイズ音量平均値NをV_ratio倍して得られる値)と等しい場合には、開始トリガ検出のΔT_start前を処理区間の開始時として設定してもよいし(S57)、動作をS54に移行させてもよい。また、ここではΔT_startの範囲を制限していないが、ΔT_startの範囲は制限されてもよい。
また、図11に示したように、閾値はノイズ量の変化が想定される製品では動的に変化されてもよい。一方、閾値はノイズ量の変化が想定されない製品では固定値であってもよい。閾値が動的に変化される場合、閾値はノイズ音量平均値NをV_ratio倍して得られる値でなくてもよく、他の計算により算出された値であってもよい。
図12は、本開示の第2の実施形態に係る情報処理装置140の終了トリガ検出時における動作の流れの例を示すフローチャートである。なお、図12のフローチャートは、終了トリガ検出時における動作の流れの例に過ぎないため、終了トリガ検出時における動作の流れは、図12のフローチャートに示された例に限定されない。
まず、操作検出部143は、終了トリガを検出し(S61)、処理制御部144は、上記したノイズ音量平均値Nを取得する(S62)。続いて、処理制御部144は、ΔT_endにΔTを設定し(S63)、終了トリガ検出のΔT_end後における音量を取得する(S64)。処理制御部144は、音量が閾値(ノイズ音量平均値NをV_ratio倍して得られる値)より小さい場合には(S66:Yes)、終了トリガ検出のΔT_end後を処理区間の開始時として設定する(S67)。
一方、処理制御部144は、音量が閾値(ノイズ音量平均値NをV_ratio倍して得られる値)より大きい場合には(S66:No)、ΔT_endをΔTだけ増加させて(S65)、動作をS64に移行させる。なお、音量が閾値(ノイズ音量平均値NをV_ratio倍して得られる値)と等しい場合には、終了トリガ検出のΔT_end前を処理区間の終了時として設定してもよいし(S67)、動作をS64に移行させてもよい。また、ここではΔT_endの範囲を特に制限していないが、ΔT_endの範囲は制限されてもよい。
また、図12に示したように、閾値はノイズ量の変化が想定される製品では動的に変化されてもよい。一方、閾値はノイズ量の変化が想定されない製品では固定値であってもよい。閾値が動的に変化される場合、閾値はノイズ音量平均値NをV_ratio倍して得られる値でなくてもよく、他の計算により算出された値であってもよい。
[3.3.変形例の説明]
続いて、本開示の第2の実施形態に係る情報処理装置140の変形例を説明する。本開示の第2の実施形態においても、開始トリガおよび終了トリガは特に限定されない。例えば、開始トリガは、少なくとも所定の音声入力(例えば、「音声認識開始」という音声の入力など)、所定のジェスチャ(例えば、所定の表情、唇の形状など)、所定の操作オブジェクトに対するタップ、短押し、視線当て、手かざし、ホールドの開始および長押しの開始のいずれか一つを含んでよい。
図13は、本開示の第2の実施形態に係る情報処理装置140の変形例1を説明するための図である。図13に示すように、操作オブジェクトは、シャッタボタン115Aであってもよい。かかる場合、処理制御部144は、シャッタボタン115Aの押下開始を開始トリガとし、シャッタボタン115Aの押下終了を終了トリガとし、開始トリガの検出時および終了トリガの検出時に応じた処理区間を特定することが可能である。処理部145は、処理区間における入力音声に対する音声認識を行う。
このとき、処理制御部144は、音声認識の結果として得られた文字列を、シャッタボタン115Aの押下開始から押下終了までに撮影された写真にタグ(またはメモ)として付してもよい。そうすれば、ユーザは、写真の閲覧時に写真に付された文字列を参照することが可能となる。なお、シャッタボタン115Aの押下開始から押下終了までに撮影される写真は、動画であってもよいし、静止画であってもよい。
図14は、本開示の第2の実施形態に係る情報処理装置140の変形例2を説明するための図である。図14に示すように、表示制御部146は、仮想オブジェクトV1および仮想オブジェクトV2それぞれを表示部130に表示させることが可能である。例えば、仮想オブジェクトV1および仮想オブジェクトV2は、ゲームアプリケーションの実行時に表示されてよい。ここで、一人目のユーザの操作に従って仮想オブジェクトV1が移動され、二人目のユーザの操作に従って仮想オブジェクトV2が移動される場合を想定する。
このとき、図14に示されるように、開始トリガは、仮想オブジェクトV1および仮想オブジェクトV2の間の距離を所定の距離よりも接近させる操作を含んでもよい。一方、図14に示されるように、終了トリガは、仮想オブジェクトV1および仮想オブジェクトV2の間の距離を所定の距離よりも遠ざける操作を含んでもよい。かかる場合、処理制御部144は、開始トリガの検出時および終了トリガの検出時に応じた処理区間を特定することが可能である。処理部145は、処理区間における入力音声に対する音声認識を行う。
処理制御部144は、音声認識の結果として得られた文字列を、一人目のユーザと二人目のユーザとの間において行われるチャットに利用してもよい。あるいは、処理制御部144は、音声認識の結果として得られた文字列を、実行されているゲームアプリケーションの中において利用してもよい。例えば、処理制御部144は、音声認識の結果として得られた文字列を、仮想オブジェクトV1と仮想オブジェクトV2との間の会話に利用してもよい。なお、図14では、仮想オブジェクトの数が二つの場合について説明したが、仮想オブジェクトの数は複数であればよい。
図15は、本開示の第2の実施形態に係る情報処理装置140の変形例3を説明するための図である。図15に示すように、操作部115は、近接センサを含んでいてもよい。かかる場合、図15に示すように、開始トリガは、近接センサに対してユーザUが身体の一部または全部を近接させる操作を含んでもよい。身体の一部は、ユーザの顔であってもよいし、他の部位であってもよい。また、図15に示すように、終了トリガは、近接センサへのユーザUが身体の一部または全部の近接を解除させる操作を含んでもよい。
かかる場合、処理制御部144は、開始トリガの検出時および終了トリガの検出時に応じた処理区間を特定することが可能である。処理部145は、処理区間における入力音声に対する音声認識を行う。このように音声認識を行う時間を制限するようにすれば、省電力化が実現され得る。処理制御部144は、音声認識の結果として得られた文字列を、実行されているアプリケーションの中において利用してよい。
図16は、本開示の第2の実施形態に係る情報処理装置140の変形例4を説明するための図である。上記では、処理部145によって実行される処理が入力音声に対する音声認識である場合を主に説明した。しかし、処理部145によって実行される処理は入力音声に対する音声認識に限定されない。例えば、処理部145によって実行される処理は、コンテンツのスクロールであってもよい。なお、ここでは、スクロールは、ユーザの手による空間上の操作に基づいて行われる場合を想定するが、スクロールは、ユーザの手以外の物体に基づいて行われもよい。
ここでは、ユーザUによって発せられる所定の音声(例えば、「写真」という音声)によって写真ビューワが起動されて写真が表示部130によって表示された後、ユーザUがジェスチャにより写真をスクロールさせる場合を想定する。かかる場合においても、ユーザUによって所定の音声が発せられる前にジェスチャが行われてしまう可能性がある。図16には、操作部115によって検出された画像群を撮影時間の早い順に画像Img1〜Img7として示している。
図16を参照すると、画像Img2が撮影されてから画像Img3が撮影されるまでの間にユーザUによる「写真」という発話が検出されている。しかし、ユーザUによって「写真」という発話がなされる前に撮影された画像Img2にユーザUの手が映ってしまっているため、処理区間の開始を画像Img3の撮影時としてしまうと、ジェスチャの途中からスクロール量を算出することになってしまい、スクロール量の算出精度が向上されない。
そこで、処理制御部144は、開始トリガが検出されると画像群に映るユーザUの手の移動に応じた処理を所定の処理開始時刻において開始させるとよい。より具体的に、処理開始時刻は、開始トリガの検出時からユーザUの手が映る入力画像が取得されるまで遡った時刻であってよい。図16に示した例では、「写真」という発話(開始トリガの検出時)からユーザUの手が映る画像Img2が取得されるまで遡った時刻が処理区間の開始時とされている。
このようにして、音声認識以外の処理が実行される場合においても、処理制御部144は、開始トリガの検出時および終了トリガの検出時に応じた処理区間を特定することが可能である。処理部145は、処理区間における画像Img2〜Img6に基づいてユーザUの手の移動を算出することが可能である。また、処理部145は、ユーザUの手の移動に基づいて、表示部130によって表示されている写真をスクロールさせることができる。
<4.ハードウェア構成例>
次に、図17を参照して、本開示の実施形態に係る情報処理システム10のハードウェア構成について説明する。図17は、本開示の実施形態に係る情報処理システム10のハードウェア構成例を示すブロック図である。
図17に示すように、情報処理システム10は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理システム10は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理システム10は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理システム10は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理システム10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、ユーザの音声を検出するマイクを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム10の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理システム10に対して各種のデータを入力したり処理動作を指示したりする。
出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro−Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置917は、情報処理システム10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置917は、周囲を明るくするためライトなどを含んでもよい。
ストレージ装置919は、情報処理システム10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種のデータ、および外部から取得した各種のデータなどを格納する。
ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理システム10に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
接続ポート923は、機器を情報処理システム10に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High−Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理システム10と外部接続機器929との間で各種のデータが交換され得る。
通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。また、撮像装置933は、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
センサ935は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935は、例えば、情報処理システム10の筐体の姿勢など、情報処理システム10自体の状態に関する情報や、情報処理システム10の周辺の明るさや騒音など、情報処理システム10の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
以上、情報処理システム10のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。
<5.むすび>
以上説明したように、本開示の第1の実施形態によれば、入力データを取得する入力データ取得部142と、所定の処理を開始させるための開始操作が検出されると入力データに応じた処理を開始させる処理制御部144と、を備え、処理制御部144は、開始操作の種類に基づいて、入力データに応じた処理を終了させるための終了操作を決定する、情報処理装置140が提供される。
かかる構成によれば、終了操作が自動的に決定されるため、所定の処理の処理区間を特定するための操作を新規にユーザに学習させる必要性を低減し、ユーザの利便性を向上することが期待される。また、本開示の第1の実施形態によれば、所定の処理の処理区間を特定するための操作がユーザに与える負荷を低減することが可能となる。また、本開示の第1の実施形態によれば、ユーザが操作を失敗してしまう可能性を低減することが可能となる。
また、本開示の第2の実施形態においては、処理制御部144が、開始操作が検出される前における所定の処理開始時刻において処理を開始させる。かかる構成によれば、ユーザの操作に基づいて処理区間をより適切に特定することが可能となる。より具体的には、かかる構成によれば、開始トリガの前におけるユーザによる発話を取りこぼす可能性を低減することが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記においては、表示部130による表示形態の変形例を説明したが、表示部130による表示形態は、上記した例に限定されない。例えば、表示部130は、ヘッドマウントディスプレイ以外のウェアラブル端末(例えば、時計、眼鏡など)に備わるディスプレイであってもよい。また、例えば、表示部130は、車載向けナビゲーションシステムに備わるディスプレイであってもよい。また、例えば、表示部130は、ヘルスケア分野において利用されるディスプレイであってもよい。
また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した情報処理システム10が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
また、表示制御部146は、表示部130に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を表示部130に出力することで、当該表示内容が表示部130に表示されるように表示部130を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。
具体的な一例として、情報処理装置140を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、HTML(HyperText Markup Language)、SGML(Standard Generalized Markup Language)、XML(Extensible Markup Language)などのマークアップ言語により実現されてもよい。
なお、上述した情報処理システム10の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、操作部115、入力部120および表示部130と情報処理装置140とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置140が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、操作部115、入力部120および表示部130が当該サーバにネットワークを介して接続されたクライアントに相当し得る。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
入力データを取得する入力データ取得部と、
所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、
前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、
情報処理装置。
(2)
前記情報処理装置は、
前記処理が行われている間に所定の表示オブジェクトを表示させる表示制御部を備える、
前記(1)に記載の情報処理装置。
(3)
前記表示制御部は、前記開始操作の種類に応じて、前記表示オブジェクトの表示態様を変化させる、
前記(2)に記載の情報処理装置。
(4)
前記処理制御部は、前記開始操作が所定の第1の操作である場合、前記終了操作として前記第1の操作に対応付けられた対応操作を決定する、
前記(1)〜(3)のいずれか一項に記載の情報処理装置。
(5)
前記第1の操作は、少なくとも所定の音声入力、所定のジェスチャ、所定の操作オブジェクトに対するタップ、短押し、視線当ておよび手かざしのいずれか一つを含む、
前記(4)に記載の情報処理装置。
(6)
前記処理制御部は、前記開始操作が前記第1の操作とは異なる所定の第2の操作の開始である場合、前記終了操作として前記第2の操作の終了を決定する、
前記(4)または(5)に記載の情報処理装置。
(7)
前記第2の操作は、少なくとも操作オブジェクトに対するホールドおよび長押しのいずれか一つを含む、
前記(6)に記載の情報処理装置。
(8)
前記入力データ取得部は、前記入力データとして入力音声を取得し、
前記処理制御部は、前記入力音声に対する音声認識を前記処理として開始させる、
前記(2)または(3)に記載の情報処理装置。
(9)
前記処理制御部は、前記開始操作が第1の操作である場合、前記入力音声から所定の上限時間を超える無音区間が検出されると前記処理を終了させる、
前記(8)に記載の情報処理装置。
(10)
前記表示制御部は、前記無音区間の前記上限時間に対する割合を示すインジケータを表示させる、
前記(9)に記載の情報処理装置。
(11)
前記処理制御部は、前記開始操作が検出される前における所定の処理開始時刻において、前記処理を開始させる、
前記(1)〜(3)のいずれか一項に記載の情報処理装置。
(12)
前記処理開始時刻は、前記開始操作の検出時から音量が閾値を下回る入力音声が取得されるまで遡った時刻である、
前記(11)に記載の情報処理装置。
(13)
前記処理制御部は、前記終了操作が検出された後における所定の処理終了時刻において、前記処理を終了させる、
前記(11)または(12)に記載の情報処理装置。
(14)
前記処理終了時刻は、前記終了操作の検出時から音量が閾値を下回る入力音声が取得されるまで進んだ時刻である、
前記(13)に記載の情報処理装置。
(15)
前記開始操作は、少なくとも所定の音声入力、所定のジェスチャ、所定の操作オブジェクトに対するタップ、短押し、視線当て、手かざし、ホールドの開始および長押しの開始のいずれか一つを含む、
前記(11)〜(14)のいずれか一項に記載の情報処理装置。
(16)
前記開始操作は、複数の仮想オブジェクト同士を所定の距離よりも接近させる操作を含む、
前記(11)〜(14)のいずれか一項に記載の情報処理装置。
(17)
前記開始操作は、近接センサに対してユーザが身体の一部または全部を近接させる操作を含む、
前記(11)〜(14)のいずれか一項に記載の情報処理装置。
(18)
前記処理制御部は、前記開始操作が検出されると入力画像に映る所定の物体の移動に応じた前記処理を前記所定の処理開始時刻において開始させる、
前記(11)に記載の情報処理装置。
(19)
入力データを取得することと、
所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させることと、を含み、
プロセッサにより、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定することを含む、
情報処理方法。
(20)
コンピュータを、
入力データを取得する入力データ取得部と、
所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、
前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、
情報処理装置として機能させるためのプログラム。
10 情報処理システム
115 操作部
115A シャッタボタン
120 入力部
130 表示部
140 情報処理装置(制御部)
142 入力データ取得部
143 操作検出部
144 処理制御部
145 処理部
146 表示制御部
B1〜B5 操作オブジェクト
C1〜C4 表示オブジェクト
D1〜D5 操作オブジェクト
V1、V2 仮想オブジェクト

Claims (20)

  1. 入力データを取得する入力データ取得部と、
    所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、
    前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、
    情報処理装置。
  2. 前記情報処理装置は、
    前記処理が行われている間に所定の表示オブジェクトを表示させる表示制御部を備える、
    請求項1に記載の情報処理装置。
  3. 前記表示制御部は、前記開始操作の種類に応じて、前記表示オブジェクトの表示態様を変化させる、
    請求項2に記載の情報処理装置。
  4. 前記処理制御部は、前記開始操作が所定の第1の操作である場合、前記終了操作として前記第1の操作に対応付けられた対応操作を決定する、
    請求項1に記載の情報処理装置。
  5. 前記第1の操作は、少なくとも所定の音声入力、所定のジェスチャ、所定の操作オブジェクトに対するタップ、短押し、視線当ておよび手かざしのいずれか一つを含む、
    請求項4に記載の情報処理装置。
  6. 前記処理制御部は、前記開始操作が前記第1の操作とは異なる所定の第2の操作の開始である場合、前記終了操作として前記第2の操作の終了を決定する、
    請求項4に記載の情報処理装置。
  7. 前記第2の操作は、少なくとも操作オブジェクトに対するホールドおよび長押しのいずれか一つを含む、
    請求項6に記載の情報処理装置。
  8. 前記入力データ取得部は、前記入力データとして入力音声を取得し、
    前記処理制御部は、前記入力音声に対する音声認識を前記処理として開始させる、
    請求項2に記載の情報処理装置。
  9. 前記処理制御部は、前記開始操作が第1の操作である場合、前記入力音声から所定の上限時間を超える無音区間が検出されると前記処理を終了させる、
    請求項8に記載の情報処理装置。
  10. 前記表示制御部は、前記無音区間の前記上限時間に対する割合を示すインジケータを表示させる、
    請求項9に記載の情報処理装置。
  11. 前記処理制御部は、前記開始操作が検出される前における所定の処理開始時刻において、前記処理を開始させる、
    請求項1に記載の情報処理装置。
  12. 前記処理開始時刻は、前記開始操作の検出時から音量が閾値を下回る入力音声が取得されるまで遡った時刻である、
    請求項11に記載の情報処理装置。
  13. 前記処理制御部は、前記終了操作が検出された後における所定の処理終了時刻において、前記処理を終了させる、
    請求項11に記載の情報処理装置。
  14. 前記処理終了時刻は、前記終了操作の検出時から音量が閾値を下回る入力音声が取得されるまで進んだ時刻である、
    請求項13に記載の情報処理装置。
  15. 前記開始操作は、少なくとも所定の音声入力、所定のジェスチャ、所定の操作オブジェクトに対するタップ、短押し、視線当て、手かざし、ホールドの開始および長押しの開始のいずれか一つを含む、
    請求項11に記載の情報処理装置。
  16. 前記開始操作は、複数の仮想オブジェクト同士を所定の距離よりも接近させる操作を含む、
    請求項11に記載の情報処理装置。
  17. 前記開始操作は、近接センサに対してユーザが身体の一部または全部を近接させる操作を含む、
    請求項11に記載の情報処理装置。
  18. 前記処理制御部は、前記開始操作が検出されると入力画像に映る所定の物体の移動に応じた前記処理を前記所定の処理開始時刻において開始させる、
    請求項11に記載の情報処理装置。
  19. 入力データを取得することと、
    所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させることと、を含み、
    プロセッサにより、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定することを含む、
    情報処理方法。
  20. コンピュータを、
    入力データを取得する入力データ取得部と、
    所定の処理を開始させるための開始操作が検出されると前記入力データに応じた前記処理を開始させる処理制御部と、を備え、
    前記処理制御部は、前記開始操作の種類に基づいて、前記入力データに応じた前記処理を終了させるための終了操作を決定する、
    情報処理装置として機能させるためのプログラム。

JP2014243905A 2014-12-02 2014-12-02 情報処理装置、情報処理方法およびプログラム Pending JP2016109726A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014243905A JP2016109726A (ja) 2014-12-02 2014-12-02 情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014243905A JP2016109726A (ja) 2014-12-02 2014-12-02 情報処理装置、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2016109726A true JP2016109726A (ja) 2016-06-20

Family

ID=56122170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014243905A Pending JP2016109726A (ja) 2014-12-02 2014-12-02 情報処理装置、情報処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2016109726A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018074366A (ja) * 2016-10-28 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
JP2018072568A (ja) * 2016-10-28 2018-05-10 株式会社リクルートライフスタイル 音声入力装置、音声入力方法及び音声入力プログラム
WO2021085242A1 (ja) * 2019-10-30 2021-05-06 ソニー株式会社 情報処理装置、及びコマンド処理方法
WO2022255339A1 (ja) * 2021-06-01 2022-12-08 株式会社モビリティ 無線受電ユニットおよびその制御方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018074366A (ja) * 2016-10-28 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
JP2018072568A (ja) * 2016-10-28 2018-05-10 株式会社リクルートライフスタイル 音声入力装置、音声入力方法及び音声入力プログラム
WO2021085242A1 (ja) * 2019-10-30 2021-05-06 ソニー株式会社 情報処理装置、及びコマンド処理方法
US20220357915A1 (en) * 2019-10-30 2022-11-10 Sony Group Corporation Information processing apparatus and command processing method
WO2022255339A1 (ja) * 2021-06-01 2022-12-08 株式会社モビリティ 無線受電ユニットおよびその制御方法

Similar Documents

Publication Publication Date Title
US10546582B2 (en) Information processing device, method of information processing, and program
WO2017130486A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP6729555B2 (ja) 情報処理システムおよび情報処理方法
WO2017030193A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6750697B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2016152200A1 (ja) 情報処理システムおよび情報処理方法
WO2016088410A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2016109726A (ja) 情報処理装置、情報処理方法およびプログラム
WO2018139036A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2015104884A1 (ja) 情報処理システム、情報処理方法およびプログラム
JP6575518B2 (ja) 表示制御装置、表示制御方法およびプログラム
WO2016103809A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2016189121A (ja) 情報処理装置、情報処理方法およびプログラム
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
WO2018139050A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2019187593A1 (ja) 情報処理装置、情報処理方法およびプログラム
US20210295049A1 (en) Information processing apparatus, information processing method, and program
JP2016180778A (ja) 情報処理システムおよび情報処理方法
JP2016170584A (ja) 情報処理装置、情報処理方法およびプログラム
WO2016147693A1 (ja) 情報処理装置、情報処理方法およびプログラム