JP2016170584A - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2016170584A
JP2016170584A JP2015049331A JP2015049331A JP2016170584A JP 2016170584 A JP2016170584 A JP 2016170584A JP 2015049331 A JP2015049331 A JP 2015049331A JP 2015049331 A JP2015049331 A JP 2015049331A JP 2016170584 A JP2016170584 A JP 2016170584A
Authority
JP
Japan
Prior art keywords
information processing
user
control unit
output control
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015049331A
Other languages
English (en)
Inventor
祐平 滝
Yuhei Taki
祐平 滝
真一 河野
Shinichi Kono
真一 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2015049331A priority Critical patent/JP2016170584A/ja
Publication of JP2016170584A publication Critical patent/JP2016170584A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ユーザによって発せられる音声をマイクロフォンによってより効率よく集音することが可能な技術が提供される。【解決手段】ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットGUIが出力部によって表示されるように前記出力部を制御する出力制御部、を備える、情報処理装置が提供される。【選択図】図1

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。
近年、マイクロフォンの位置や方向を制御する技術が存在する。例えば、ユーザの位置に応じてマイクロフォンの位置を制御する技術が開示されている(例えば、特許文献1参照)。かかる技術によれば、マイクロフォンによって集音される情報(以下、「集音情報」とも言う。)に含まれるノイズが低減され得る。
特開2014−207589号公報
しかし、ユーザによって発せられる音声をマイクロフォンによってより効率よく集音するための技術が提供されることが望まれる。
本開示によれば、ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットGUIが出力部によって表示されるように前記出力部を制御する出力制御部、を備える、情報処理装置が提供される。
本開示によれば、プロセッサにより、ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットGUIが出力部によって表示されるように前記出力部を制御すること、を含む、情報処理方法が提供される。
本開示によれば、コンピュータを、ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットGUIが出力部によって表示されるように前記出力部を制御する出力制御部、を備える情報処理装置として機能させるためのプログラムが提供される。
以上説明したように本開示によれば、ユーザによって発せられる音声をマイクロフォンによってより効率よく集音することが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の実施形態に係る情報処理システムの構成例を示す図である。 同実施形態に係る情報処理システムの機能構成例を示すブロック図である。 1次反射波を集音する場合におけるターゲットGUIの表示例を上から見た図である。 1次反射波を集音する場合におけるターゲットGUIの表示例を横から見た図である。 最適1次反射位置の算出例を説明するための図である。 大型の投影面に画面を表示する場合について説明するための図である。 所定の機器に搭載された集音部に音声を集音させる場合を説明するための図である。 所定の機器に搭載された集音部に音声を集音させる場合を説明するための図である。 許容領域の例を説明するための図である。 許容領域の例を説明するための図である。 小さく変更された場合における許容領域の例を示す図である。 ユーザと集音部との間に障害物が存在する場合を示す図である。 現在の反射位置を説明するための図である。 反射位置の表示例を示す図である。 ユーザによって発せられた音声の障害物による反射の例を説明するための図である。 ユーザの発話の向きと反射音の大きさの関係の例を示す図である。 環境情報に基づいてターゲットGUIの位置を制御する例を示す図である。 環境情報を利用する場合における情報処理システムの動作の流れを示す図である。 直接波を集音する場合を説明するための図である。 直接波を集音する場合を説明するための図である。 最適直接波点の決定の例を示す図である。 所定の機器に搭載された集音部に音声を集音させる場合を説明するための図である。 直接波を集音する場合における情報処理システムの動作の流れを示す図である。 情報処理システムのハードウェア構成例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットまたは数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
なお、説明は以下の順序で行うものとする。
1.本開示の実施形態
1.1.システム構成例
1.2.機能構成例
1.3.情報処理システムの機能詳細
1.4.ハードウェア構成例
2.むすび
<1.本開示の実施形態>
[1.1.システム構成例]
まず、図面を参照しながら本開示の実施形態に係る情報処理システム10の構成例について説明する。図1は、本開示の実施形態に係る情報処理システム10の構成例を示す図である。図1に示したように、本開示の実施形態に係る情報処理システム10は、画像入力部110と、操作入力部115と、集音部120と、出力部130とを備える。情報処理システム10は、ユーザU(以下、単に「ユーザ」とも言う。)によって発せられた音声に対して音声認識処理を行うことが可能である。なお、以下の説明において、音声(voiceまたはspeech)と音(sound)とは区別して用いられる。
画像入力部110は、画像を入力する機能を有する。図1に示した例では、画像入力部110は、テーブルTblに埋め込まれた2つのカメラを含んでいる。しかし、画像入力部110に含まれるカメラの数は1以上であれば特に限定されない。かかる場合、画像入力部110に含まれる1以上のカメラそれぞれが設けられる位置も特に限定されない。また、1以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。
操作入力部115は、ユーザUの操作を入力する機能を有する。図1に示した例では、操作入力部115は、テーブルTblの上方に存在する天井から吊り下げられた1つのカメラを含んでいる。しかし、操作入力部115に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部115はユーザUの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。
出力部130は、テーブルTblに画面を表示する機能を有する。図1に示した例では、出力部130は、テーブルTblの上方に天井から吊り下げられている。しかし、出力部130が設けられる位置は特に限定されない。また、典型的には、出力部130は、テーブルTblの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。
なお、本明細書では、テーブルTblの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルTblの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよい。あるいは、画面の表示面は、カーテンのヒダなどの非平面であってもよいし、他の場所にある面であってもよい。また、出力部130が表示面を有する場合には、画面の表示面は、出力部130が有する表示面であってもよい。
集音部120は、集音する機能を有する。図1に示した例では、集音部120は、テーブルTblの上方に存在する3つのマイクロフォンとテーブルTblの上面に存在する3つのマイクロフォンとの合計6つのマイクロフォンを含んでいる。しかし、集音部120に含まれるマイクロフォンの数は1以上であれば特に限定されない。かかる場合、集音部120に含まれる1以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。
ただし、集音部120が、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによって集音された集音情報に基づいて音の到来方向が推定され得る。また、集音部120が指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによって集音された集音情報に基づいて音の到来方向が推定され得る。
以上、本開示の実施形態に係る情報処理システム10の構成例について説明した。
[1.2.機能構成例]
続いて、本開示の実施形態に係る情報処理システム10の機能構成例について説明する。図2は、本開示の実施形態に係る情報処理システム10の機能構成例を示すブロック図である。図2に示したように、本開示の実施形態に係る情報処理システム10は、画像入力部110と、操作入力部115と、集音部120と、出力部130と、情報処理装置140(以下、「制御部140」とも言う。)と、を備える。
情報処理装置140は、情報処理システム10の各部の制御を実行する。例えば、情報処理装置140は、出力部130から出力する情報を生成する。また、例えば、情報処理装置140は、画像入力部110、操作入力部115および集音部120それぞれが入力した情報を、出力部130から出力する情報に反映させる。図2に示したように、情報処理装置140は、入力画像取得部141と、集音情報取得部142と、操作検出部143と、認識制御部144と、音声認識処理部145と、出力制御部146とを備える。これらの各機能ブロックについての詳細は、後に説明する。
なお、情報処理装置140は、例えば、CPU(Central Processing Unit;中央演算処理装置)などで構成されていてもよい。情報処理装置140がCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。
以上、本開示の実施形態に係る情報処理システム10の機能構成例について説明した。
[1.3.情報処理システムの機能詳細]
続いて、本開示の実施形態に係る情報処理システム10の機能詳細について説明する。本開示の実施形態においては、ユーザUによって発せられる音声を集音する集音部120の位置とユーザUの位置とに基づいて、音声のターゲットとなるターゲットGUI(Graphical User Interface)が出力部130によって出力されるように出力部130を制御する。かかる構成によれば、ユーザUは、集音部120の位置とユーザUの位置とが考慮されたターゲットGUIに向けて音声を発するようになるため、集音部120によってより効率よく集音することが可能となる。
例えば、出力制御部146は、所定の情報に基づいて、ターゲットGUIの位置を制御してよい。かかる構成によれば、所定の情報に応じた位置に表示されたターゲットGUIに向けてユーザUによって音声が発せられるようになるため、ユーザUによって発せられた音声が、集音部120に効率よく到達するようになる。したがって、かかる構成によれば、集音部120によってより効率よく集音されることが期待される。集音部120によって集音された集音情報はどのように利用されてもよい。
一例として、音声認識処理部145は、認識制御部144による制御に従って、集音情報に対して音声認識処理を行う。したがって、集音情報が効率よく集音されれば、音声認識処理のパフォーマンスを向上させることが可能となる。特に、物体(例えば、テーブル、壁など)において反射された音声(以下、「反射波」とも言う。)は反射前後において大きく変化し得るため、集音情報として反射波を集音する場面においては、音声認識処理のパフォーマンスを著しく向上させることが可能である。
まず、以下では、ユーザUによって発せられた音声のうち反射面において一度反射した反射波(以下、「1次反射波」とも言う。)を集音する場合におけるターゲットGUIの表示例について説明する。図3は、1次反射波を集音する場合におけるターゲットGUIの表示例を上から見た図である。ユーザUによって発せられた音声は、テーブルTblにおいて反射して集音部120によって集音される。図3を参照すると、集音部120の位置Pmが示されている。
図3に示した例において、音声入力の開始操作がなされる前にはターゲットGUIが所定の位置に表示されていたとする。そして、音声入力の開始操作がなされると、出力制御部146は、反射波が集音部120に最も効率よく到達するための反射位置(以下、「最適1次反射位置」とも言う。)にターゲットGUIを移動させればよい。図3を参照すると、移動前のターゲットGUIが「Bs0」として示され、移動後のターゲットGUIが「Bs1」として示されている。
図4は、1次反射波を集音する場合におけるターゲットGUIの表示例を横から見た図である。図4を参照すると、移動前のターゲットGUI(Bs0)の位置に向けてユーザUが音声を発した場合には、集音部120には到達しないように音声が反射してしまっていることが把握される。一方、移動後のターゲットGUI(Bs1)の位置に向けてユーザUが音声を発した場合には、集音部120に到達するように音声が反射していることが把握される。また、図4には、最適1次反射位置Prが示されている。
ここで、最適1次反射位置Prは、どのように算出されてもよい。図5は、最適1次反射位置Prの算出例を説明するための図である。図5を参照すると、操作入力部115の位置がカメラ位置(0,0,0)として示され、ユーザUの位置がユーザ位置(x_user,y_user,z_user)として示され、集音部120の位置がマイクロフォン位置(x_mic,y_mic,z_mic)として示され、テーブルTblの中心が反射面中心(x_plain,y_plain,z_plain)として示されている。
ここでは、カメラ位置が原点とされているが、カメラ位置以外の位置が原点とされてもよい。出力制御部146は、これらの位置を取得し、これらの位置に基づいて最適1次反射位置Prを算出する。ユーザ位置はどのように取得されてもよいが、出力制御部146は、操作入力部115によって撮像された画像からユーザUの指の方向を特定し、指の方向からユーザUの位置(例えば、ユーザUの口の位置)を特定してもよい。
また、出力制御部146は、テーブルTblや床面に圧力センサが設けられている場合には、圧力センサによって検出された圧力に基づいて、ユーザ位置を取得してもよい。あるいは、出力制御部146は、テーブルTblや床面に照度センサが設けられている場合には、照度センサによって検出された照度に基づいて、ユーザ位置を取得してもよい。あるいは、出力制御部146は、ウェアラブルデバイスから送信されたビーコンのシステム側での受信結果またはシステム側から送信されたビーコンのウェアラブルデバイスでの受信結果に基づいて、ユーザ位置を取得してもよい。
マイクロフォン位置はどのように取得されてもよい。一例として、認識制御部144は、情報処理システム10が有するシステム情報からマイクロフォン位置を取得してもよい。また、反射面中心はどのように取得されてもよい。一例として、認識制御部144は、操作入力部115がデプスカメラである場合に、デプスカメラによって検出された深度だけ操作入力部115から水平なテーブルTblに下ろした垂線の足を反射面中心として検出してよい。このとき、垂線は反射面の法線ベクトルに相当するため、反射面中心と法線ベクトルとの組み合わせによって反射面の式が得られる。
続いて、認識制御部144は、ユーザ位置およびマイクロフォン位置それぞれとの距離の和が最小になる反射面上の位置を最適1次反射位置Prとして算出することが可能である。このようにして算出された最適1次反射位置Prにおいて、ユーザUによって発せられた音声が反射する場合、音声の入射角および反射角が等しいという関係が成立する。なお、ユーザ位置およびマイクロフォン位置それぞれとの距離の和が最小になる反射面上の位置を算出するためのアルゴリズムは限定されないが、モンテカルロ法などがそのアルゴリズムとして利用されてもよい。
なお、上記においては、画面の表示面は、カーテンのヒダなどの非平面であってもよい旨を説明した。このように、画面の表示面が非平面である場合には、出力制御部146は、操作入力部115によって撮像された画像の解析などにより表示面の形状を検出し、表示面の形状の検出結果に基づいて、最適1次反射位置Prを算出すればよい。
以上においては、テーブルTblに画面が表示される例を説明した。ここで、表示される画面の大きさは限定されないが、画面が大きくなるほど集音部120の位置と画面からの反射波の通過位置との乖離が大きくなりやすい。さらに、ユーザUが画面に対して近接操作を行う場合のように、ユーザUから反射面までの距離が短くなるほど集音部120の位置と画面からの反射波の通過位置との乖離が大きくなりやすい。そこで、大型の投影面に画面を表示する場合について説明する。
図6は、大型の投影面に画面を表示する場合について説明するための図である。図6に示すように、出力部130によって投影面Teに画面が表示されている。ここでも、出力制御部146は、最適1次反射位置にターゲットGUIを移動させればよい。図6を参照すると、移動前のターゲットGUI(Bs0)の位置に向けてユーザUが音声を発した場合には、集音部120には到達しないように音声が反射してしまっていることが把握される。一方、移動後のターゲットGUI(Bs1)の位置に向けてユーザUが音声を発した場合には、集音部120に到達するように音声が反射していることが把握される。
なお、最適1次反射位置にターゲットGUIを移動させてしまうと、ターゲットGUIがユーザUから離れすぎてしまい、ユーザUがターゲットGUIを視認するのが困難となってしまう場合も想定される。そこで、出力制御部146は、ユーザUの視認位置に基づいて、ターゲットGUIの位置を制御するとよい。より具体的には、出力制御部146は、ユーザUの視認位置を基準とした所定の範囲内に、ターゲットGUIの位置を決定するとよい。ユーザUの視認位置は、操作入力部115によって撮像された画像から検出されたユーザUの視線に基づいて算出されてよいし、アクティブウィンドウの位置に基づいて算出されてもよいし、所定時間以内に操作が行われた位置に基づいて算出されてもよい。
また、図6に示した例では、ユーザUから離れた集音部120に音声を集音させる場合を想定したが、ユーザUによって発せられた音声を集音する集音部120は、所定の機器(例えば、ウェアラブルデバイス、携帯端末、コントローラなど)に搭載されている場合も想定される。かかる場合には、所定の機器に搭載された集音部120に音声を直接的に到達させればよいため、出力制御部146は、ターゲットGUIの位置を制御しなくてよい。図7は、所定の機器に搭載された集音部120に音声を集音させる場合を説明するための図である。
図7に示した例では、集音部120がスマートフォンにも搭載されており、スマートフォンに搭載された集音部120によって音声が集音されている。スマートフォンによって集音された音声Vcは、無線信号または有線信号により所望の位置に送信される。また、集音を行っている機器をユーザUに把握させるため、出力制御部146は、集音を行っている機器に関連する情報を出力部130に表示させるのがよい。図7を参照すると、出力制御部146は、集音を行っている機器に関連する情報として、機器の種類名である「スマートフォン」を出力部130に表示させている。このとき、ターゲットGUIは、所定の機器(例えば、ウェアラブルデバイス、携帯端末、コントローラなど)のディスプレイに表示されるのがよい。
続いて、1次反射波を集音する場合における情報処理システム10の動作の流れについて説明する。図8は、1次反射波を集音する場合における情報処理システム10の動作の流れを示す図である。なお、図8のフローチャートは、1次反射波を集音する場合における情報処理システム10の動作の流れの例に過ぎないため、1次反射波を集音する場合における情報処理システム10の動作の流れは、図8のフローチャートに示された例に限定されない。
まず、出力制御部146は、ユーザUの位置を取得し(S11)、マイクロフォン(集音部120)の位置を取得する(S12)。また、出力制御部146は、反射面情報(反射面の式)を取得する(S13)。続いて、出力制御部146は、ユーザUの位置、マイクロフォンの位置および反射面情報に基づいて、最適1次反射位置を算出する(S14)。出力制御部146は、最適1次反射位置をアプリケーションに通知し(S15)、アプリケーションの機能に従って、最適1次反射位置に基づいてUIレイアウトを更新する(S16)。
以上、1次反射波を集音する場合における情報処理システム10の動作の流れについて説明した。
以上においては、最適1次反射位置にターゲットGUIが配置される例を説明したが、ターゲットGUIが配置先を柔軟に決定するため、ターゲットGUIの配置を許容する領域(以下、「許容領域」とも言う。)があらかじめ反射面に設けられていてもよい。そして、出力制御部146は、許容領域の範囲内に、ターゲットGUIの位置を決定すればよい。図9および図10は、許容領域の例を説明するための図である。出力制御部146は、許容領域Rm0の範囲内に、ターゲットGUIを移動させればよい。
図9および図10を参照すると、移動前のターゲットGUIが「Bs0」として示され、移動後のターゲットGUIが「Bs1」として示されている。また、図9に示すように、許容領域Rm0の形状は、最適1次反射位置Prを基準とした楕円領域であってよいが、許容領域Rm0の形状は特に限定されず、円であってもよいし、他の形状であってもよい。また、許容領域Rm0のサイズも特に限定されない。
許容領域Rm0のサイズおよび形状はどのようにして設定されてもよい。例えば、許容領域Rm0のサイズおよび形状は製品ごとにあらかじめ決められていてもよい。あるいは、出力制御部146は、所定の情報に基づいて、許容領域Rm0の形状またはサイズを制御してもよい。例えば、許容領域Rm0のサイズは、最適1次反射位置PrとユーザUとの距離に応じて動的に変更されてもよい。
このとき、許容領域Rm0の視認性を確保するため、出力制御部146は、最適1次反射位置PrとユーザUとの距離が遠くなるほど許容領域Rm0を大きくしてもよい。図11は、小さく変更された場合における許容領域Rm1の例を示す図である。図11には、最適1次反射位置PrとユーザUとの距離が近づいた場合に、出力制御部146が、許容領域Rm0を小さくした例が示されている。
また、出力制御部146は、所定の情報に基づいて、許容領域Rm0のサイズだけではなく、ターゲットGUI自体のサイズを制御してもよいし、ターゲットGUI自体の形状を制御してもよい。例えば、出力制御部146は、許容領域Rm0に基づいて、ターゲットGUIのサイズを制御してもよい。より具体的には、許容領域Rm0のサイズとのバランスを考慮して、出力制御部146は、許容領域Rm0が大きくなるほどターゲットGUIのサイズを大きくしてもよい。
また、出力制御部146は、音声に対する音声認識処理に成功したか否かに応じて、ターゲットGUIのサイズを制御してもよい。例えば、ターゲットGUIが小さいほど集音の精度が向上することが想定されるため、出力制御部146は、音声認識処理に失敗する頻度が大きくなるほどターゲットGUIを小さくしてもよい。音声認識処理に失敗する頻度は、音声認識処理のやり直し操作の回数であってよい。
あるいは、出力制御部146は、事前に測定されたユーザUが発する音声の音量に基づいて、ターゲットGUIのサイズを制御してもよい。例えば、ユーザUが発する音声の音量が小さいほど集音の精度を向上させる必要があると考えられるため、出力制御部146は、事前に測定されたユーザUが発する音声の音量が小さいほどターゲットGUIを小さくするとよい。その他、出力制御部146は、声の高さや、年齢などに基づいて、ターゲットGUIのサイズを制御してもよい。
また、ユーザUと集音部120との間に障害物が存在する場合も想定される。かかる場合には、上記のようにして算出された最適1次反射位置Prから外れた位置にターゲットGUIが配置されるのがよい。すなわち、前記出力制御部146は、ユーザUと集音部120との間に障害物が存在するか否かに基づいて、ターゲットGUIの位置を制御するのがよい。例えば、出力制御部146は、ユーザUと集音部120との間に障害物が存在する場合、障害物によって遮られる領域をターゲットGUIの位置から除外するとよい。
図12は、ユーザUと集音部120との間に障害物Obが存在する場合を示す図である。図12に示したように、出力制御部146は、ユーザUと集音部120との間に障害物Obが存在する場合、障害物Obによって遮られる領域が除外されるように許容領域Rm2を設定して直してよい。そして、出力制御部146は、設定し直した許容領域Rm2の範囲内にターゲットGUIを表示させるのがよい。
図12に示した例では、ユーザUと集音部120との間に障害物Obが存在する場合に、許容領域Rm2を設定し直す例を説明した。しかし、ユーザUと集音部120との間に障害物Obが存在する場合の動作は、かかる例に限定されない。例えば、出力制御部146は、ユーザUと集音部120との間に障害物Obが存在する場合に、障害物Obを取り除くことをユーザUに促すためのアテンションを表示させてもよい。
上記においては、ターゲットGUIの位置を制御する例を説明したが、ユーザUから発せられた音声が反射面のどの位置において反射しているかをユーザUに把握させたほうがよい。そうすれば、ユーザUは音声を発する方向をどのように修正すればよいかを判断することが可能となる。図13は、現在の反射位置を説明するための図である。図13には、ユーザUによって発せられた音声が反射位置Ptにおいて反射している例が示されている。
図14は、反射位置Ptの表示例を示す図である。図14に示すように、出力制御部146は、反射位置Ptを示す反射位置GUIを出力部130に表示させるとよい。図14に示した例では、反射位置GUIが×印によって表示されているが、反射GUIは×印に限定されない。また、図14に示すように、出力制御部146は、所定のオブジェクト(以下、「表示オブジェクト」とも言う。)Muを表示させてよい。
表示オブジェクトMuは、静止していてもよいし、動きを有していてもよい。例えば、表示オブジェクトMuが動きを有する場合、表示オブジェクトMuの移動方向Deは、ユーザUによる発話音声の音源から集音部120への到来方向に応じて決まってよい。なお、ユーザUによる発話音声の到来方向の推定手法も特に限定されない。
例えば、出力制御部146は、図示しない音声入力の開始操作オブジェクトを選択する操作を行ったユーザUの指方向(例えば、指の根元から指先への方向)に一致または類似する1の到来方向をユーザUによる発話音声の到来方向として推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。
あるいは、出力制御部146は、集音部120によって入力された音の到来方向をユーザUによる発話音声の到来方向として推定してもよい。音の到来方向が複数あった場合には、複数の到来方向のうち最初に入力された音の到来方向をユーザUによる発話音声の到来方向として推定してもよいし、複数の到来方向のうち図示しない音声入力の開始操作オブジェクトを選択する操作を行ったユーザUの指方向に一致または類似する1の到来方向をユーザUによる発話音声の到来方向として推定してもよい。
あるいは、出力制御部146は、複数の到来方向のうち集音部120によって最も大きな音量で入力された音の到来方向をユーザUによる発話音声の到来方向として推定してもよい。このようにしてユーザUによる発話音声の到来方向が推定され得る。一方において、出力制御部146は、ユーザUによる発話音声の到来方向以外の方向から集音部120によって入力された音をノイズとして取得してよい。
また、複数のユーザそれぞれの位置が検出された場合も想定される。かかる場合、出力制御部146は、複数のユーザそれぞれの位置から選択した1のユーザの位置と集音部120の位置とに基づいて、ターゲットGUIを出力部130に表示させればよい。このとき、音声入力の開始操作を行ったユーザが選択されればよい。あるいは、出力制御部146は、複数のユーザそれぞれの位置が検出された場合、集音部120の近くにターゲットGUIを表示してもよい。
また、ターゲットGUIの配置には、集音部120のビームフォーミング範囲が考慮されてもよい。すなわち、出力制御部146は、集音部120のビームフォーミング範囲に応じて、ターゲットGUIの位置を制御してもよい。例えば、出力制御部146は、集音部120のビームフォーミング範囲を取得し、ビームフォーミング範囲に収まるようにターゲットGUIの位置を決定してよい。そうすれば、集音部120によるユーザUの発話音声の集音精度が向上することが期待される。ビームフォーミング範囲は、固定されている場合もあれば、ノイズ発生源の方向に応じて変化する場合もある。
また、ターゲットGUIの配置には、ノイズの発生源の位置が考慮されてもよい。すなわち、出力制御部146は、ノイズの発生源の位置に基づいて、ターゲットGUIの位置を制御してもよい。例えば、出力制御部146は、集音部120を基準としたノイズ発生源の方向を取得し、ノイズ発生源の方向にはターゲットGUIが配置されないようにしてもよい。そうすれば、ノイズが低減されたユーザUの発話音声を集音することが可能となる。
また、ターゲットGUIの移動先に既に他のGUIが存在する場合も想定される。そこで、出力制御部146は、他のGUIの位置に基づいて、ターゲットGUIの位置を制御してもよい。例えば、出力制御部146は、他のGUIの位置とは異なる位置にターゲットGUIの位置を決定してもよい。このとき、出力制御部146は、他のGUIの位置とは異なる位置であり、かつ、許容範囲内にターゲットGUIの位置を決定してもよい。
あるいは、出力制御部146は、他のGUIが音声入力を呼び出したアプリケーションによる表示であれば、他のGUIの上にターゲットGUIを重複させてよい。一方、出力制御部146は、他のGUIが音声入力を呼び出したアプリケーションとは異なるアプリケーションによる表示であれば、他のGUIの上にターゲットGUIを重畳させてよい。
あるいは、アプリケーションごとにターゲットGUIの重畳を許容するか否かを設定することが可能であってもよい。このとき、出力制御部146は、他のGUIのアプリケーションがターゲットGUIの重畳を許容する場合には、他のGUIの上にターゲットGUIを重畳させてよいが、他のGUIのアプリケーションがターゲットGUIの重畳を許容しない場合には、他のGUIの上にターゲットGUIを重畳させないようにしてよい。
あるいは、アプリケーションごとに優先度を設定することが可能であってもよい。このとき、出力制御部146は、他のGUIのアプリケーションの優先度が音声入力を呼び出したアプリケーションの優先度よりも低い場合には、他のGUIの上にターゲットGUIを重畳させてよいが、他のGUIのアプリケーションの優先度が音声入力を呼び出したアプリケーションの優先度よりも高い場合には、他のGUIの上にターゲットGUIを重畳させないようにしてよい。
なお、音声入力を呼び出したアプリケーションと他のGUIのアプリケーションとの間で優先度が同じ場合には、ターゲットGUIは他のGUIの上に重畳されてもされなくてもよい。また、集音部120によって集音された音声の品質が所定の品質を超えない場合も想定される。かかる場合には、出力制御部146は、集音部120を他の場所に移動させてもよい。
また、ターゲットGUIの位置の制御には、ユーザUの周囲にある障害物の位置(以下、「環境情報」とも言う。)が考慮されてもよい。すなわち、出力制御部146は、環境情報に基づいて、ターゲットGUIの位置を制御してもよい。例えば、ユーザUによって発せられた音声が障害物によって反射されると、その反射音がノイズとなってしまうことが想定されるからである。
図15は、ユーザUによって発せられた音声の障害物Obによる反射の例を説明するための図である。ここでは、図15に示すように、ユーザUがHMD(Head Mount Display)を装着している場合を想定する。HMDには、画像入力部110および集音部120が取り付けられている。なお、環境情報は、あらかじめ障害物の位置が登録されている場合には、ユーザUの位置とあらかじめ登録されている障害物の位置とに基づいて、取得され得る。あるいは、環境情報は、画像入力部110によって入力された入力画像Im0の解析によって得られてもよい。
図15を参照すると、ユーザUによって発せられて障害物Obによって反射された反射音がFt1、Ft2として示されている。また、ユーザUによって発せられて障害物Obとは異なる図示しない障害物によって反射された反射音がFt3、Ft4として示されている。ユーザUの近くに存在する障害物Obによって反射された反射音Ft1、Ft2は、反射音Ft3、Ft4よりも大きいと考えられる。すなわち、ユーザUの発話の向きによって反射音の大きさが異なると考えられる。
図16は、ユーザUの発話の向きと反射音の大きさの関係の例を示す図である。図16に示すように、ユーザUの発話の向きDr1には、ユーザUの近くに障害物Obが存在しないため、反射音の大きさが比較的小さいと考えられる。一方、ユーザUの発話の向きDr2には、ユーザUの近くに障害物Obが存在するため、反射音の大きさが比較的大きいと考えられる。図16に示すように、ユーザUの発話の向きは、二次元的に表現されてもよいし、三次元的に表現されてもよい。
図17は、環境情報に基づいてターゲットGUIの位置を制御する例を示す図である。出力制御部146は、反射音が閾値よりも大きい向きをユーザUが向いているときには、ターゲットGUIを表示しなくてよい。一方、図17に示すように、出力制御部146は、反射音が閾値よりも小さい向きをユーザUが向いたときには、ターゲットGUIを表示させてよい。図17に示した例では、ユーザUが右に回転しているため、ターゲットGUIを右端から左に移動させているが(「Bs1」から「Bs2」)、ユーザUが左に回転している場合には、ターゲットGUIを左端から右に移動させてよい。
続いて、環境情報を利用する場合における情報処理システム10の動作の流れについて説明する。図18は、環境情報を利用する場合における情報処理システム10の動作の流れを示す図である。なお、図18のフローチャートは、環境情報を利用する場合における情報処理システム10の動作の流れの例に過ぎないため、環境情報を利用する場合における情報処理システム10の動作の流れは、図18のフローチャートに示された例に限定されない。
まず、出力制御部146は、ユーザUの位置を取得し(S21)、マイクロフォン(集音部120)の位置を取得する(S22)。また、出力制御部146は、環境情報を取得する(S23)。続いて、出力制御部146は、ユーザUの位置、マイクロフォンの位置および環境情報に基づいて、発話最適方位を算出する(S24)。出力制御部146は、発話最適方位をアプリケーションに通知し(S25)、アプリケーションの機能に従って、発話最適方位に基づいてUIレイアウトを更新する(S26)。
以上、環境情報を利用する場合における情報処理システム10の動作の流れについて説明した。
上記した例では、反射波を集音する場合について説明したが、ユーザUから発せられた音声が集音部120によって直接的に集音されてもよい。以下、直接的に集音される音声を「直接波」とも言う。図19および図20は、直接波を集音する場合を説明するための図である。出力制御部146は、直接波を集音するために最適な位置(以下、「最適直接波点」とも言う。)にターゲットGUIを表示させてよい。
出力制御部146は、最適直接波点をどのように決定してもよい。一例として、出力制御部146は、キャリブレーション用にターゲットGUIを移動させながら複数回集音を試み、最も高精度に集音される位置を最適直接波点として決定してもよい。あるいは、図21に示すように、出力制御部146は、マイクロフォン位置(集音部120の位置)から最も近い位置を最適直接波点Pqとして決定してもよい。
また、出力制御部146は、初めから最適直接波点にターゲットGUIを表示させてもよいが、図20に示すように、ユーザUの近くにターゲットGUIが表示させ、音声入力の開始操作がなされた場合に、最適直接波点にターゲットGUIを移動させてもよい(「Bs0」から「Bs1」)。このとき、ターゲットGUIが移動し終わったことをユーザUに把握させるのがよい。例えば、図20に示すように、ターゲットGUIの色を変化させてもよいし、メッセージの表示によってターゲットGUIの移動を把握させてもよい。
「Bs1」)
また、直接波を集音する場合においても、反射波を集音する場合と同様に、集音部120は、所定の機器(例えば、ウェアラブルデバイス、携帯端末、コントローラなど)に搭載されている場合も想定される。かかる場合、出力制御部146は、ターゲットGUIの位置を制御しなくてよい。図22は、所定の機器に搭載された集音部120に音声を集音させる場合を説明するための図である。
図22に示した例においても、スマートフォンに搭載された集音部120によって音声が集音されている。スマートフォンによって集音された音声Vcは、無線信号または有線信号により所望の位置に送信される。また、集音を行っている機器をユーザUに把握させるため、出力制御部146は、集音を行っている機器に関連する情報を出力部130に表示させるのがよい。図22を参照すると、出力制御部146は、集音を行っている機器に関連する情報として、機器の種類名である「スマートフォン」を出力部130に表示させている。
続いて、直接波を集音する場合における情報処理システム10の動作の流れについて説明する。図23は、直接波を集音する場合における情報処理システム10の動作の流れを示す図である。なお、図23のフローチャートは、直接波を集音する場合における情報処理システム10の動作の流れの例に過ぎないため、直接波を集音する場合における情報処理システム10の動作の流れは、図23のフローチャートに示された例に限定されない。
まず、出力制御部146は、マイクロフォン(集音部120)の位置を取得する(S31)。出力制御部146は、マイクロフォンの位置に基づいて、最適直接波点を算出する(S32)。出力制御部146は、最適直接波点をアプリケーションに通知し(S33)、アプリケーションの機能に従って、最適直接波点に基づいてUIレイアウトを更新する(S34)。
以上、直接波を集音する場合における情報処理システム10の動作の流れについて説明した。以上、本開示の実施形態に係る情報処理システム10の機能詳細について説明した。
[1.4.ハードウェア構成例]
次に、図24を参照して、本開示の実施形態に係る情報処理システム10のハードウェア構成について説明する。図24は、本開示の実施形態に係る情報処理システム10のハードウェア構成例を示すブロック図である。
図24に示すように、情報処理システム10は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理システム10は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理システム10は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理システム10は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理システム10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム10の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理システム10に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro−Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置917は、情報処理システム10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置917は、周囲を明るくするためライトなどを含んでもよい。
ストレージ装置919は、情報処理システム10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理システム10に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
接続ポート923は、機器を情報処理システム10に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High−Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理システム10と外部接続機器929との間で各種のデータが交換され得る。
通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
センサ935は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935は、例えば情報処理システム10の筐体の姿勢など、情報処理システム10自体の状態に関する情報や、情報処理システム10の周辺の明るさや騒音など、情報処理システム10の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
以上、情報処理システム10のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。
<2.むすび>
以上説明したように、本開示の実施形態によれば、ユーザUの位置とユーザUによって発せられる音声を集音する集音部120の位置とに基づいて、音声のターゲットとなるターゲットGUIが出力部130によって表示されるように出力部130を制御する出力制御部146、を備える、情報処理装置140が提供される。かかる構成によれば、ユーザUによって発せられる音声を集音部120によってより効率よく集音することが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記においては、出力部130による表示形態の変形例を説明したが、出力部130による表示形態は、上記した例に限定されない。例えば、出力部130は、ヘッドマウントディスプレイ以外のウェアラブル端末(例えば、時計、眼鏡など)に備わるディスプレイであってもよい。また、例えば、出力部130は、車載向けナビゲーションシステムに備わるディスプレイであってもよい。また、例えば、出力部130は、ヘルスケア分野において利用されるディスプレイであってもよい。
また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した情報処理システム10が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
また、出力制御部146は、出力部130に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を出力部130に出力することで、当該表示内容が出力部130に表示されるように出力部130を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。
具体的な一例として、情報処理装置140を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、HTML(HyperText Markup Language)、SGML(Standard Generalized Markup Language)、XML(Extensible Markup Language)などのマークアップ言語により実現されてもよい。
なお、上述した情報処理システム10の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部110、操作入力部115および集音部120と出力部130と情報処理装置140とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置140が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部110、操作入力部115および集音部120と出力部130とが当該サーバにネットワークを介して接続されたクライアントに相当し得る。
また、情報処理装置140が有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、入力画像取得部141と、集音情報取得部142と、操作検出部143と、認識制御部144と、音声認識処理部145と、出力制御部146とのうち、一部は情報処理装置140とは異なる装置に存在していてもよい。例えば、音声認識処理部145は、入力画像取得部141と、集音情報取得部142と、操作検出部143と、認識制御部144と、出力制御部146とを備える情報処理装置140とは異なるサーバに存在していてもよい。
また、上記したように、ターゲットGUIは様々な場面において表示され得る。ここで、ターゲットGUIは、以下のように定義され得る。すなわち、第1の定義として、ターゲットGUIは、ユーザから発せられる音声を使った処理に関するGUIであってよい。また、第2の定義として、ターゲットGUIは、動的にマイクロフォンをONまたはOFFにする場合を想定し、集音情報の取得開始または取得終了を示すインジケータとなるGUIであってもよい。
また、第3の定義として、ターゲットGUIは、マイクロフォンが常時ONであって、取得される集音情報のうち特定の区間に対してのみ音声認識処理を行う場合に、音声に関する処理の対象となる区間(タイミング)を示すインジケータとなるGUIであってもよい。また、第4の定義として、ターゲットGUIは、集音情報の取得開始または取得終了を、ユーザが指示するためのGUIであってもよい。また、第5の定義として、ターゲットGUIは、音声に関する処理の対象となる区間(タイミング)をユーザが指定するためのGUIであってもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットGUIが出力部によって表示されるように前記出力部を制御する出力制御部、
を備える、情報処理装置。
(2)
前記出力制御部は、所定の情報に基づいて、前記ターゲットGUIの位置を制御する、
前記(1)に記載の情報処理装置。
(3)
前記出力制御部は、前記ユーザと前記マイクロフォンとの間に障害物が存在するか否かに基づいて、前記ターゲットGUIの位置を制御する、
前記(2)に記載の情報処理装置。
(4)
前記出力制御部は、前記ユーザと前記マイクロフォンとの間に前記障害物が存在する場合、前記障害物によって遮られる領域を前記ターゲットGUIの位置から除外する、
前記(3)に記載の情報処理装置。
(5)
前記出力制御部は、前記ユーザの視認位置に基づいて、前記ターゲットGUIの位置を制御する、
前記(2)に記載の情報処理装置。
(6)
前記出力制御部は、他のGUIの位置に基づいて、前記ターゲットGUIの位置を制御する、
前記(2)に記載の情報処理装置。
(7)
前記出力制御部は、前記ターゲットGUIの配置を許容する許容領域の範囲内に、前記ターゲットGUIの位置を決定する、
前記(2)に記載の情報処理装置。
(8)
前記出力制御部は、所定の情報に基づいて、前記許容領域の形状またはサイズを制御する、
前記(7)のいずれか一項に記載の情報処理装置。
(9)
前記出力制御部は、前記マイクロフォンのビームフォーミング範囲に応じて、前記ターゲットGUIの位置を制御する、
前記(2)に記載の情報処理装置。
(10)
前記出力制御部は、ノイズの発生源の位置に基づいて、前記ターゲットGUIの位置を制御する、
前記(2)に記載の情報処理装置。
(11)
前記出力制御部は、前記ユーザから発せられて前記マイクロフォンに到達する前記音声の反射位置を示す反射位置GUIを前記出力部に表示させる、
前記(1)〜(10)のいずれか一項に記載の情報処理装置。
(12)
前記出力制御部は、前記ユーザと前記マイクロフォンとの間に障害物が存在する場合、前記障害物を取り除くことを前記ユーザに促すためのアテンションを前記出力部に表示させる、
前記(1)に記載の情報処理装置。
(13)
前記出力制御部は、環境情報に基づいて、前記ターゲットGUIの位置を制御する、
前記(2)に記載の情報処理装置。
(14)
前記出力制御部は、前記マイクロフォンが所定の機器に搭載されている場合には、前記ターゲットGUIの位置を制御しない、
前記(1)〜(13)のいずれか一項に記載の情報処理装置。
(15)
前記出力制御部は、所定の情報に基づいて、前記ターゲットGUIのサイズを制御する、
前記(1)〜(14)のいずれか一項に記載の情報処理装置。
(16)
前記出力制御部は、前記音声に対する音声認識処理に成功したか否かに応じて、前記ターゲットGUIのサイズを制御する、
前記(15)に記載の情報処理装置。
(17)
前記出力制御部は、事前に測定された前記ユーザが発する音声の音量に基づいて、前記ターゲットGUIのサイズを制御する、
前記(15)に記載の情報処理装置。
(18)
前記出力制御部は、所定の情報に基づいて、前記ターゲットGUIの形状を制御する、
前記(1)〜(17)のいずれか一項に記載の情報処理装置。
(19)
プロセッサにより、ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットGUIが出力部によって表示されるように前記出力部を制御すること、
を含む、情報処理方法。
(20)
コンピュータを、
ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットGUIが出力部によって表示されるように前記出力部を制御する出力制御部、
を備える情報処理装置として機能させるためのプログラム。
10 情報処理システム
110 画像入力部
115 操作入力部
120 集音部
130 出力部
140 情報処理装置(制御部)
141 入力画像取得部
142 集音情報取得部
143 操作検出部
144 認識制御部
145 音声認識処理部
146 出力制御部

Claims (20)

  1. ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットGUIが出力部によって表示されるように前記出力部を制御する出力制御部、
    を備える、情報処理装置。
  2. 前記出力制御部は、所定の情報に基づいて、前記ターゲットGUIの位置を制御する、
    請求項1に記載の情報処理装置。
  3. 前記出力制御部は、前記ユーザと前記マイクロフォンとの間に障害物が存在するか否かに基づいて、前記ターゲットGUIの位置を制御する、
    請求項2に記載の情報処理装置。
  4. 前記出力制御部は、前記ユーザと前記マイクロフォンとの間に前記障害物が存在する場合、前記障害物によって遮られる領域を前記ターゲットGUIの位置から除外する、
    請求項3に記載の情報処理装置。
  5. 前記出力制御部は、前記ユーザの視認位置に基づいて、前記ターゲットGUIの位置を制御する、
    請求項2に記載の情報処理装置。
  6. 前記出力制御部は、他のGUIの位置に基づいて、前記ターゲットGUIの位置を制御する、
    請求項2に記載の情報処理装置。
  7. 前記出力制御部は、前記ターゲットGUIの配置を許容する許容領域の範囲内に、前記ターゲットGUIの位置を決定する、
    請求項2に記載の情報処理装置。
  8. 前記出力制御部は、所定の情報に基づいて、前記許容領域の形状またはサイズを制御する、
    請求項7に記載の情報処理装置。
  9. 前記出力制御部は、前記マイクロフォンのビームフォーミング範囲に応じて、前記ターゲットGUIの位置を制御する、
    請求項2に記載の情報処理装置。
  10. 前記出力制御部は、ノイズの発生源の位置に基づいて、前記ターゲットGUIの位置を制御する、
    請求項2に記載の情報処理装置。
  11. 前記出力制御部は、前記ユーザから発せられて前記マイクロフォンに到達する前記音声の反射位置を示す反射位置GUIを前記出力部に表示させる、
    請求項1に記載の情報処理装置。
  12. 前記出力制御部は、前記ユーザと前記マイクロフォンとの間に障害物が存在する場合、前記障害物を取り除くことを前記ユーザに促すためのアテンションを前記出力部に表示させる、
    請求項1に記載の情報処理装置。
  13. 前記出力制御部は、環境情報に基づいて、前記ターゲットGUIの位置を制御する、
    請求項2に記載の情報処理装置。
  14. 前記出力制御部は、前記マイクロフォンが所定の機器に搭載されている場合には、前記ターゲットGUIの位置を制御しない、
    請求項1に記載の情報処理装置。
  15. 前記出力制御部は、所定の情報に基づいて、前記ターゲットGUIのサイズを制御する、
    請求項1に記載の情報処理装置。
  16. 前記出力制御部は、前記音声に対する音声認識処理に成功したか否かに応じて、前記ターゲットGUIのサイズを制御する、
    請求項15に記載の情報処理装置。
  17. 前記出力制御部は、事前に測定された前記ユーザが発する音声の音量に基づいて、前記ターゲットGUIのサイズを制御する、
    請求項15に記載の情報処理装置。
  18. 前記出力制御部は、所定の情報に基づいて、前記ターゲットGUIの形状を制御する、
    請求項1に記載の情報処理装置。
  19. プロセッサにより、ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットGUIが出力部によって表示されるように前記出力部を制御すること、
    を含む、情報処理方法。
  20. コンピュータを、
    ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットGUIが出力部によって表示されるように前記出力部を制御する出力制御部、
    を備える情報処理装置として機能させるためのプログラム。
JP2015049331A 2015-03-12 2015-03-12 情報処理装置、情報処理方法およびプログラム Pending JP2016170584A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015049331A JP2016170584A (ja) 2015-03-12 2015-03-12 情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015049331A JP2016170584A (ja) 2015-03-12 2015-03-12 情報処理装置、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2016170584A true JP2016170584A (ja) 2016-09-23

Family

ID=56983835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015049331A Pending JP2016170584A (ja) 2015-03-12 2015-03-12 情報処理装置、情報処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2016170584A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111289947A (zh) * 2018-12-07 2020-06-16 阿里巴巴集团控股有限公司 信息处理方法、装置以及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111289947A (zh) * 2018-12-07 2020-06-16 阿里巴巴集团控股有限公司 信息处理方法、装置以及设备
CN111289947B (zh) * 2018-12-07 2023-04-07 阿里巴巴集团控股有限公司 信息处理方法、装置以及设备

Similar Documents

Publication Publication Date Title
US10546582B2 (en) Information processing device, method of information processing, and program
JP6729555B2 (ja) 情報処理システムおよび情報処理方法
JP6627775B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP6750697B2 (ja) 情報処理装置、情報処理方法及びプログラム
US10771707B2 (en) Information processing device and information processing method
US11151804B2 (en) Information processing device, information processing method, and program
WO2014185170A1 (ja) 画像処理装置、画像処理方法およびプログラム
US10962738B2 (en) Information processing apparatus and information processing method to calibrate line-of-sight of a user
JP2012070081A (ja) 画像表示装置、画像表示プログラム及び画像表示システム
WO2018139036A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2008065675A (ja) 複合現実感システムとそのイベント入力方法及びヘッドマウントディスプレイ
JP6772839B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP6575518B2 (ja) 表示制御装置、表示制御方法およびプログラム
JP2016109726A (ja) 情報処理装置、情報処理方法およびプログラム
US11460994B2 (en) Information processing apparatus and information processing method
JP2016170584A (ja) 情報処理装置、情報処理方法およびプログラム
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
WO2019054037A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7468506B2 (ja) 情報処理装置、情報処理方法、及び記録媒体
WO2020031795A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2018139050A1 (ja) 情報処理装置、情報処理方法およびプログラム
JPWO2016002322A1 (ja) 画像処理装置、画像処理方法およびプログラム
JP2016180778A (ja) 情報処理システムおよび情報処理方法
JP7078036B2 (ja) 情報処理装置、情報処理方法およびプログラム
WO2019026392A1 (ja) 情報処理装置、情報処理方法、およびプログラム