JP2016170584A

JP2016170584A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2016170584A
Application number: JP2015049331A
Authority: JP
Inventors: 祐平滝; Yuhei Taki; 真一河野; Shinichi Kono
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2016-09-23

Abstract

【課題】ユーザによって発せられる音声をマイクロフォンによってより効率よく集音することが可能な技術が提供される。【解決手段】ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットＧＵＩが出力部によって表示されるように前記出力部を制御する出力制御部、を備える、情報処理装置が提供される。【選択図】図１

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。

近年、マイクロフォンの位置や方向を制御する技術が存在する。例えば、ユーザの位置に応じてマイクロフォンの位置を制御する技術が開示されている（例えば、特許文献１参照）。かかる技術によれば、マイクロフォンによって集音される情報（以下、「集音情報」とも言う。）に含まれるノイズが低減され得る。

特開２０１４−２０７５８９号公報

しかし、ユーザによって発せられる音声をマイクロフォンによってより効率よく集音するための技術が提供されることが望まれる。

本開示によれば、ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットＧＵＩが出力部によって表示されるように前記出力部を制御する出力制御部、を備える、情報処理装置が提供される。

本開示によれば、プロセッサにより、ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットＧＵＩが出力部によって表示されるように前記出力部を制御すること、を含む、情報処理方法が提供される。

本開示によれば、コンピュータを、ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットＧＵＩが出力部によって表示されるように前記出力部を制御する出力制御部、を備える情報処理装置として機能させるためのプログラムが提供される。

以上説明したように本開示によれば、ユーザによって発せられる音声をマイクロフォンによってより効率よく集音することが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の実施形態に係る情報処理システムの構成例を示す図である。同実施形態に係る情報処理システムの機能構成例を示すブロック図である。１次反射波を集音する場合におけるターゲットＧＵＩの表示例を上から見た図である。１次反射波を集音する場合におけるターゲットＧＵＩの表示例を横から見た図である。最適１次反射位置の算出例を説明するための図である。大型の投影面に画面を表示する場合について説明するための図である。所定の機器に搭載された集音部に音声を集音させる場合を説明するための図である。所定の機器に搭載された集音部に音声を集音させる場合を説明するための図である。許容領域の例を説明するための図である。許容領域の例を説明するための図である。小さく変更された場合における許容領域の例を示す図である。ユーザと集音部との間に障害物が存在する場合を示す図である。現在の反射位置を説明するための図である。反射位置の表示例を示す図である。ユーザによって発せられた音声の障害物による反射の例を説明するための図である。ユーザの発話の向きと反射音の大きさの関係の例を示す図である。環境情報に基づいてターゲットＧＵＩの位置を制御する例を示す図である。環境情報を利用する場合における情報処理システムの動作の流れを示す図である。直接波を集音する場合を説明するための図である。直接波を集音する場合を説明するための図である。最適直接波点の決定の例を示す図である。所定の機器に搭載された集音部に音声を集音させる場合を説明するための図である。直接波を集音する場合における情報処理システムの動作の流れを示す図である。情報処理システムのハードウェア構成例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットまたは数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

なお、説明は以下の順序で行うものとする。
１．本開示の実施形態
１．１．システム構成例
１．２．機能構成例
１．３．情報処理システムの機能詳細
１．４．ハードウェア構成例
２．むすび

＜１．本開示の実施形態＞
［１．１．システム構成例］
まず、図面を参照しながら本開示の実施形態に係る情報処理システム１０の構成例について説明する。図１は、本開示の実施形態に係る情報処理システム１０の構成例を示す図である。図１に示したように、本開示の実施形態に係る情報処理システム１０は、画像入力部１１０と、操作入力部１１５と、集音部１２０と、出力部１３０とを備える。情報処理システム１０は、ユーザＵ（以下、単に「ユーザ」とも言う。）によって発せられた音声に対して音声認識処理を行うことが可能である。なお、以下の説明において、音声（ｖｏｉｃｅまたはｓｐｅｅｃｈ）と音（ｓｏｕｎｄ）とは区別して用いられる。

画像入力部１１０は、画像を入力する機能を有する。図１に示した例では、画像入力部１１０は、テーブルＴｂｌに埋め込まれた２つのカメラを含んでいる。しかし、画像入力部１１０に含まれるカメラの数は１以上であれば特に限定されない。かかる場合、画像入力部１１０に含まれる１以上のカメラそれぞれが設けられる位置も特に限定されない。また、１以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。

操作入力部１１５は、ユーザＵの操作を入力する機能を有する。図１に示した例では、操作入力部１１５は、テーブルＴｂｌの上方に存在する天井から吊り下げられた１つのカメラを含んでいる。しかし、操作入力部１１５に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部１１５はユーザＵの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。

出力部１３０は、テーブルＴｂｌに画面を表示する機能を有する。図１に示した例では、出力部１３０は、テーブルＴｂｌの上方に天井から吊り下げられている。しかし、出力部１３０が設けられる位置は特に限定されない。また、典型的には、出力部１３０は、テーブルＴｂｌの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。

なお、本明細書では、テーブルＴｂｌの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルＴｂｌの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよい。あるいは、画面の表示面は、カーテンのヒダなどの非平面であってもよいし、他の場所にある面であってもよい。また、出力部１３０が表示面を有する場合には、画面の表示面は、出力部１３０が有する表示面であってもよい。

集音部１２０は、集音する機能を有する。図１に示した例では、集音部１２０は、テーブルＴｂｌの上方に存在する３つのマイクロフォンとテーブルＴｂｌの上面に存在する３つのマイクロフォンとの合計６つのマイクロフォンを含んでいる。しかし、集音部１２０に含まれるマイクロフォンの数は１以上であれば特に限定されない。かかる場合、集音部１２０に含まれる１以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。

ただし、集音部１２０が、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによって集音された集音情報に基づいて音の到来方向が推定され得る。また、集音部１２０が指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによって集音された集音情報に基づいて音の到来方向が推定され得る。

以上、本開示の実施形態に係る情報処理システム１０の構成例について説明した。

［１．２．機能構成例］
続いて、本開示の実施形態に係る情報処理システム１０の機能構成例について説明する。図２は、本開示の実施形態に係る情報処理システム１０の機能構成例を示すブロック図である。図２に示したように、本開示の実施形態に係る情報処理システム１０は、画像入力部１１０と、操作入力部１１５と、集音部１２０と、出力部１３０と、情報処理装置１４０（以下、「制御部１４０」とも言う。）と、を備える。

情報処理装置１４０は、情報処理システム１０の各部の制御を実行する。例えば、情報処理装置１４０は、出力部１３０から出力する情報を生成する。また、例えば、情報処理装置１４０は、画像入力部１１０、操作入力部１１５および集音部１２０それぞれが入力した情報を、出力部１３０から出力する情報に反映させる。図２に示したように、情報処理装置１４０は、入力画像取得部１４１と、集音情報取得部１４２と、操作検出部１４３と、認識制御部１４４と、音声認識処理部１４５と、出力制御部１４６とを備える。これらの各機能ブロックについての詳細は、後に説明する。

なお、情報処理装置１４０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；中央演算処理装置）などで構成されていてもよい。情報処理装置１４０がＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。

以上、本開示の実施形態に係る情報処理システム１０の機能構成例について説明した。

［１．３．情報処理システムの機能詳細］
続いて、本開示の実施形態に係る情報処理システム１０の機能詳細について説明する。本開示の実施形態においては、ユーザＵによって発せられる音声を集音する集音部１２０の位置とユーザＵの位置とに基づいて、音声のターゲットとなるターゲットＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）が出力部１３０によって出力されるように出力部１３０を制御する。かかる構成によれば、ユーザＵは、集音部１２０の位置とユーザＵの位置とが考慮されたターゲットＧＵＩに向けて音声を発するようになるため、集音部１２０によってより効率よく集音することが可能となる。

例えば、出力制御部１４６は、所定の情報に基づいて、ターゲットＧＵＩの位置を制御してよい。かかる構成によれば、所定の情報に応じた位置に表示されたターゲットＧＵＩに向けてユーザＵによって音声が発せられるようになるため、ユーザＵによって発せられた音声が、集音部１２０に効率よく到達するようになる。したがって、かかる構成によれば、集音部１２０によってより効率よく集音されることが期待される。集音部１２０によって集音された集音情報はどのように利用されてもよい。

一例として、音声認識処理部１４５は、認識制御部１４４による制御に従って、集音情報に対して音声認識処理を行う。したがって、集音情報が効率よく集音されれば、音声認識処理のパフォーマンスを向上させることが可能となる。特に、物体（例えば、テーブル、壁など）において反射された音声（以下、「反射波」とも言う。）は反射前後において大きく変化し得るため、集音情報として反射波を集音する場面においては、音声認識処理のパフォーマンスを著しく向上させることが可能である。

まず、以下では、ユーザＵによって発せられた音声のうち反射面において一度反射した反射波（以下、「１次反射波」とも言う。）を集音する場合におけるターゲットＧＵＩの表示例について説明する。図３は、１次反射波を集音する場合におけるターゲットＧＵＩの表示例を上から見た図である。ユーザＵによって発せられた音声は、テーブルＴｂｌにおいて反射して集音部１２０によって集音される。図３を参照すると、集音部１２０の位置Ｐｍが示されている。

図３に示した例において、音声入力の開始操作がなされる前にはターゲットＧＵＩが所定の位置に表示されていたとする。そして、音声入力の開始操作がなされると、出力制御部１４６は、反射波が集音部１２０に最も効率よく到達するための反射位置（以下、「最適１次反射位置」とも言う。）にターゲットＧＵＩを移動させればよい。図３を参照すると、移動前のターゲットＧＵＩが「Ｂｓ０」として示され、移動後のターゲットＧＵＩが「Ｂｓ１」として示されている。

図４は、１次反射波を集音する場合におけるターゲットＧＵＩの表示例を横から見た図である。図４を参照すると、移動前のターゲットＧＵＩ（Ｂｓ０）の位置に向けてユーザＵが音声を発した場合には、集音部１２０には到達しないように音声が反射してしまっていることが把握される。一方、移動後のターゲットＧＵＩ（Ｂｓ１）の位置に向けてユーザＵが音声を発した場合には、集音部１２０に到達するように音声が反射していることが把握される。また、図４には、最適１次反射位置Ｐｒが示されている。

ここで、最適１次反射位置Ｐｒは、どのように算出されてもよい。図５は、最適１次反射位置Ｐｒの算出例を説明するための図である。図５を参照すると、操作入力部１１５の位置がカメラ位置（０，０，０）として示され、ユーザＵの位置がユーザ位置（ｘ＿ｕｓｅｒ，ｙ＿ｕｓｅｒ，ｚ＿ｕｓｅｒ）として示され、集音部１２０の位置がマイクロフォン位置（ｘ＿ｍｉｃ，ｙ＿ｍｉｃ，ｚ＿ｍｉｃ）として示され、テーブルＴｂｌの中心が反射面中心（ｘ＿ｐｌａｉｎ，ｙ＿ｐｌａｉｎ，ｚ＿ｐｌａｉｎ）として示されている。

ここでは、カメラ位置が原点とされているが、カメラ位置以外の位置が原点とされてもよい。出力制御部１４６は、これらの位置を取得し、これらの位置に基づいて最適１次反射位置Ｐｒを算出する。ユーザ位置はどのように取得されてもよいが、出力制御部１４６は、操作入力部１１５によって撮像された画像からユーザＵの指の方向を特定し、指の方向からユーザＵの位置（例えば、ユーザＵの口の位置）を特定してもよい。

また、出力制御部１４６は、テーブルＴｂｌや床面に圧力センサが設けられている場合には、圧力センサによって検出された圧力に基づいて、ユーザ位置を取得してもよい。あるいは、出力制御部１４６は、テーブルＴｂｌや床面に照度センサが設けられている場合には、照度センサによって検出された照度に基づいて、ユーザ位置を取得してもよい。あるいは、出力制御部１４６は、ウェアラブルデバイスから送信されたビーコンのシステム側での受信結果またはシステム側から送信されたビーコンのウェアラブルデバイスでの受信結果に基づいて、ユーザ位置を取得してもよい。

マイクロフォン位置はどのように取得されてもよい。一例として、認識制御部１４４は、情報処理システム１０が有するシステム情報からマイクロフォン位置を取得してもよい。また、反射面中心はどのように取得されてもよい。一例として、認識制御部１４４は、操作入力部１１５がデプスカメラである場合に、デプスカメラによって検出された深度だけ操作入力部１１５から水平なテーブルＴｂｌに下ろした垂線の足を反射面中心として検出してよい。このとき、垂線は反射面の法線ベクトルに相当するため、反射面中心と法線ベクトルとの組み合わせによって反射面の式が得られる。

続いて、認識制御部１４４は、ユーザ位置およびマイクロフォン位置それぞれとの距離の和が最小になる反射面上の位置を最適１次反射位置Ｐｒとして算出することが可能である。このようにして算出された最適１次反射位置Ｐｒにおいて、ユーザＵによって発せられた音声が反射する場合、音声の入射角および反射角が等しいという関係が成立する。なお、ユーザ位置およびマイクロフォン位置それぞれとの距離の和が最小になる反射面上の位置を算出するためのアルゴリズムは限定されないが、モンテカルロ法などがそのアルゴリズムとして利用されてもよい。

なお、上記においては、画面の表示面は、カーテンのヒダなどの非平面であってもよい旨を説明した。このように、画面の表示面が非平面である場合には、出力制御部１４６は、操作入力部１１５によって撮像された画像の解析などにより表示面の形状を検出し、表示面の形状の検出結果に基づいて、最適１次反射位置Ｐｒを算出すればよい。

以上においては、テーブルＴｂｌに画面が表示される例を説明した。ここで、表示される画面の大きさは限定されないが、画面が大きくなるほど集音部１２０の位置と画面からの反射波の通過位置との乖離が大きくなりやすい。さらに、ユーザＵが画面に対して近接操作を行う場合のように、ユーザＵから反射面までの距離が短くなるほど集音部１２０の位置と画面からの反射波の通過位置との乖離が大きくなりやすい。そこで、大型の投影面に画面を表示する場合について説明する。

図６は、大型の投影面に画面を表示する場合について説明するための図である。図６に示すように、出力部１３０によって投影面Ｔｅに画面が表示されている。ここでも、出力制御部１４６は、最適１次反射位置にターゲットＧＵＩを移動させればよい。図６を参照すると、移動前のターゲットＧＵＩ（Ｂｓ０）の位置に向けてユーザＵが音声を発した場合には、集音部１２０には到達しないように音声が反射してしまっていることが把握される。一方、移動後のターゲットＧＵＩ（Ｂｓ１）の位置に向けてユーザＵが音声を発した場合には、集音部１２０に到達するように音声が反射していることが把握される。

なお、最適１次反射位置にターゲットＧＵＩを移動させてしまうと、ターゲットＧＵＩがユーザＵから離れすぎてしまい、ユーザＵがターゲットＧＵＩを視認するのが困難となってしまう場合も想定される。そこで、出力制御部１４６は、ユーザＵの視認位置に基づいて、ターゲットＧＵＩの位置を制御するとよい。より具体的には、出力制御部１４６は、ユーザＵの視認位置を基準とした所定の範囲内に、ターゲットＧＵＩの位置を決定するとよい。ユーザＵの視認位置は、操作入力部１１５によって撮像された画像から検出されたユーザＵの視線に基づいて算出されてよいし、アクティブウィンドウの位置に基づいて算出されてもよいし、所定時間以内に操作が行われた位置に基づいて算出されてもよい。

また、図６に示した例では、ユーザＵから離れた集音部１２０に音声を集音させる場合を想定したが、ユーザＵによって発せられた音声を集音する集音部１２０は、所定の機器（例えば、ウェアラブルデバイス、携帯端末、コントローラなど）に搭載されている場合も想定される。かかる場合には、所定の機器に搭載された集音部１２０に音声を直接的に到達させればよいため、出力制御部１４６は、ターゲットＧＵＩの位置を制御しなくてよい。図７は、所定の機器に搭載された集音部１２０に音声を集音させる場合を説明するための図である。

図７に示した例では、集音部１２０がスマートフォンにも搭載されており、スマートフォンに搭載された集音部１２０によって音声が集音されている。スマートフォンによって集音された音声Ｖｃは、無線信号または有線信号により所望の位置に送信される。また、集音を行っている機器をユーザＵに把握させるため、出力制御部１４６は、集音を行っている機器に関連する情報を出力部１３０に表示させるのがよい。図７を参照すると、出力制御部１４６は、集音を行っている機器に関連する情報として、機器の種類名である「スマートフォン」を出力部１３０に表示させている。このとき、ターゲットＧＵＩは、所定の機器（例えば、ウェアラブルデバイス、携帯端末、コントローラなど）のディスプレイに表示されるのがよい。

続いて、１次反射波を集音する場合における情報処理システム１０の動作の流れについて説明する。図８は、１次反射波を集音する場合における情報処理システム１０の動作の流れを示す図である。なお、図８のフローチャートは、１次反射波を集音する場合における情報処理システム１０の動作の流れの例に過ぎないため、１次反射波を集音する場合における情報処理システム１０の動作の流れは、図８のフローチャートに示された例に限定されない。

まず、出力制御部１４６は、ユーザＵの位置を取得し（Ｓ１１）、マイクロフォン（集音部１２０）の位置を取得する（Ｓ１２）。また、出力制御部１４６は、反射面情報（反射面の式）を取得する（Ｓ１３）。続いて、出力制御部１４６は、ユーザＵの位置、マイクロフォンの位置および反射面情報に基づいて、最適１次反射位置を算出する（Ｓ１４）。出力制御部１４６は、最適１次反射位置をアプリケーションに通知し（Ｓ１５）、アプリケーションの機能に従って、最適１次反射位置に基づいてＵＩレイアウトを更新する（Ｓ１６）。

以上、１次反射波を集音する場合における情報処理システム１０の動作の流れについて説明した。

以上においては、最適１次反射位置にターゲットＧＵＩが配置される例を説明したが、ターゲットＧＵＩが配置先を柔軟に決定するため、ターゲットＧＵＩの配置を許容する領域（以下、「許容領域」とも言う。）があらかじめ反射面に設けられていてもよい。そして、出力制御部１４６は、許容領域の範囲内に、ターゲットＧＵＩの位置を決定すればよい。図９および図１０は、許容領域の例を説明するための図である。出力制御部１４６は、許容領域Ｒｍ０の範囲内に、ターゲットＧＵＩを移動させればよい。

図９および図１０を参照すると、移動前のターゲットＧＵＩが「Ｂｓ０」として示され、移動後のターゲットＧＵＩが「Ｂｓ１」として示されている。また、図９に示すように、許容領域Ｒｍ０の形状は、最適１次反射位置Ｐｒを基準とした楕円領域であってよいが、許容領域Ｒｍ０の形状は特に限定されず、円であってもよいし、他の形状であってもよい。また、許容領域Ｒｍ０のサイズも特に限定されない。

許容領域Ｒｍ０のサイズおよび形状はどのようにして設定されてもよい。例えば、許容領域Ｒｍ０のサイズおよび形状は製品ごとにあらかじめ決められていてもよい。あるいは、出力制御部１４６は、所定の情報に基づいて、許容領域Ｒｍ０の形状またはサイズを制御してもよい。例えば、許容領域Ｒｍ０のサイズは、最適１次反射位置ＰｒとユーザＵとの距離に応じて動的に変更されてもよい。

このとき、許容領域Ｒｍ０の視認性を確保するため、出力制御部１４６は、最適１次反射位置ＰｒとユーザＵとの距離が遠くなるほど許容領域Ｒｍ０を大きくしてもよい。図１１は、小さく変更された場合における許容領域Ｒｍ１の例を示す図である。図１１には、最適１次反射位置ＰｒとユーザＵとの距離が近づいた場合に、出力制御部１４６が、許容領域Ｒｍ０を小さくした例が示されている。

また、出力制御部１４６は、所定の情報に基づいて、許容領域Ｒｍ０のサイズだけではなく、ターゲットＧＵＩ自体のサイズを制御してもよいし、ターゲットＧＵＩ自体の形状を制御してもよい。例えば、出力制御部１４６は、許容領域Ｒｍ０に基づいて、ターゲットＧＵＩのサイズを制御してもよい。より具体的には、許容領域Ｒｍ０のサイズとのバランスを考慮して、出力制御部１４６は、許容領域Ｒｍ０が大きくなるほどターゲットＧＵＩのサイズを大きくしてもよい。

また、出力制御部１４６は、音声に対する音声認識処理に成功したか否かに応じて、ターゲットＧＵＩのサイズを制御してもよい。例えば、ターゲットＧＵＩが小さいほど集音の精度が向上することが想定されるため、出力制御部１４６は、音声認識処理に失敗する頻度が大きくなるほどターゲットＧＵＩを小さくしてもよい。音声認識処理に失敗する頻度は、音声認識処理のやり直し操作の回数であってよい。

あるいは、出力制御部１４６は、事前に測定されたユーザＵが発する音声の音量に基づいて、ターゲットＧＵＩのサイズを制御してもよい。例えば、ユーザＵが発する音声の音量が小さいほど集音の精度を向上させる必要があると考えられるため、出力制御部１４６は、事前に測定されたユーザＵが発する音声の音量が小さいほどターゲットＧＵＩを小さくするとよい。その他、出力制御部１４６は、声の高さや、年齢などに基づいて、ターゲットＧＵＩのサイズを制御してもよい。

また、ユーザＵと集音部１２０との間に障害物が存在する場合も想定される。かかる場合には、上記のようにして算出された最適１次反射位置Ｐｒから外れた位置にターゲットＧＵＩが配置されるのがよい。すなわち、前記出力制御部１４６は、ユーザＵと集音部１２０との間に障害物が存在するか否かに基づいて、ターゲットＧＵＩの位置を制御するのがよい。例えば、出力制御部１４６は、ユーザＵと集音部１２０との間に障害物が存在する場合、障害物によって遮られる領域をターゲットＧＵＩの位置から除外するとよい。

図１２は、ユーザＵと集音部１２０との間に障害物Ｏｂが存在する場合を示す図である。図１２に示したように、出力制御部１４６は、ユーザＵと集音部１２０との間に障害物Ｏｂが存在する場合、障害物Ｏｂによって遮られる領域が除外されるように許容領域Ｒｍ２を設定して直してよい。そして、出力制御部１４６は、設定し直した許容領域Ｒｍ２の範囲内にターゲットＧＵＩを表示させるのがよい。

図１２に示した例では、ユーザＵと集音部１２０との間に障害物Ｏｂが存在する場合に、許容領域Ｒｍ２を設定し直す例を説明した。しかし、ユーザＵと集音部１２０との間に障害物Ｏｂが存在する場合の動作は、かかる例に限定されない。例えば、出力制御部１４６は、ユーザＵと集音部１２０との間に障害物Ｏｂが存在する場合に、障害物Ｏｂを取り除くことをユーザＵに促すためのアテンションを表示させてもよい。

上記においては、ターゲットＧＵＩの位置を制御する例を説明したが、ユーザＵから発せられた音声が反射面のどの位置において反射しているかをユーザＵに把握させたほうがよい。そうすれば、ユーザＵは音声を発する方向をどのように修正すればよいかを判断することが可能となる。図１３は、現在の反射位置を説明するための図である。図１３には、ユーザＵによって発せられた音声が反射位置Ｐｔにおいて反射している例が示されている。

図１４は、反射位置Ｐｔの表示例を示す図である。図１４に示すように、出力制御部１４６は、反射位置Ｐｔを示す反射位置ＧＵＩを出力部１３０に表示させるとよい。図１４に示した例では、反射位置ＧＵＩが×印によって表示されているが、反射ＧＵＩは×印に限定されない。また、図１４に示すように、出力制御部１４６は、所定のオブジェクト（以下、「表示オブジェクト」とも言う。）Ｍｕを表示させてよい。

表示オブジェクトＭｕは、静止していてもよいし、動きを有していてもよい。例えば、表示オブジェクトＭｕが動きを有する場合、表示オブジェクトＭｕの移動方向Ｄｅは、ユーザＵによる発話音声の音源から集音部１２０への到来方向に応じて決まってよい。なお、ユーザＵによる発話音声の到来方向の推定手法も特に限定されない。

例えば、出力制御部１４６は、図示しない音声入力の開始操作オブジェクトを選択する操作を行ったユーザＵの指方向（例えば、指の根元から指先への方向）に一致または類似する１の到来方向をユーザＵによる発話音声の到来方向として推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。

あるいは、出力制御部１４６は、集音部１２０によって入力された音の到来方向をユーザＵによる発話音声の到来方向として推定してもよい。音の到来方向が複数あった場合には、複数の到来方向のうち最初に入力された音の到来方向をユーザＵによる発話音声の到来方向として推定してもよいし、複数の到来方向のうち図示しない音声入力の開始操作オブジェクトを選択する操作を行ったユーザＵの指方向に一致または類似する１の到来方向をユーザＵによる発話音声の到来方向として推定してもよい。

あるいは、出力制御部１４６は、複数の到来方向のうち集音部１２０によって最も大きな音量で入力された音の到来方向をユーザＵによる発話音声の到来方向として推定してもよい。このようにしてユーザＵによる発話音声の到来方向が推定され得る。一方において、出力制御部１４６は、ユーザＵによる発話音声の到来方向以外の方向から集音部１２０によって入力された音をノイズとして取得してよい。

また、複数のユーザそれぞれの位置が検出された場合も想定される。かかる場合、出力制御部１４６は、複数のユーザそれぞれの位置から選択した１のユーザの位置と集音部１２０の位置とに基づいて、ターゲットＧＵＩを出力部１３０に表示させればよい。このとき、音声入力の開始操作を行ったユーザが選択されればよい。あるいは、出力制御部１４６は、複数のユーザそれぞれの位置が検出された場合、集音部１２０の近くにターゲットＧＵＩを表示してもよい。

また、ターゲットＧＵＩの配置には、集音部１２０のビームフォーミング範囲が考慮されてもよい。すなわち、出力制御部１４６は、集音部１２０のビームフォーミング範囲に応じて、ターゲットＧＵＩの位置を制御してもよい。例えば、出力制御部１４６は、集音部１２０のビームフォーミング範囲を取得し、ビームフォーミング範囲に収まるようにターゲットＧＵＩの位置を決定してよい。そうすれば、集音部１２０によるユーザＵの発話音声の集音精度が向上することが期待される。ビームフォーミング範囲は、固定されている場合もあれば、ノイズ発生源の方向に応じて変化する場合もある。

また、ターゲットＧＵＩの配置には、ノイズの発生源の位置が考慮されてもよい。すなわち、出力制御部１４６は、ノイズの発生源の位置に基づいて、ターゲットＧＵＩの位置を制御してもよい。例えば、出力制御部１４６は、集音部１２０を基準としたノイズ発生源の方向を取得し、ノイズ発生源の方向にはターゲットＧＵＩが配置されないようにしてもよい。そうすれば、ノイズが低減されたユーザＵの発話音声を集音することが可能となる。

また、ターゲットＧＵＩの移動先に既に他のＧＵＩが存在する場合も想定される。そこで、出力制御部１４６は、他のＧＵＩの位置に基づいて、ターゲットＧＵＩの位置を制御してもよい。例えば、出力制御部１４６は、他のＧＵＩの位置とは異なる位置にターゲットＧＵＩの位置を決定してもよい。このとき、出力制御部１４６は、他のＧＵＩの位置とは異なる位置であり、かつ、許容範囲内にターゲットＧＵＩの位置を決定してもよい。

あるいは、出力制御部１４６は、他のＧＵＩが音声入力を呼び出したアプリケーションによる表示であれば、他のＧＵＩの上にターゲットＧＵＩを重複させてよい。一方、出力制御部１４６は、他のＧＵＩが音声入力を呼び出したアプリケーションとは異なるアプリケーションによる表示であれば、他のＧＵＩの上にターゲットＧＵＩを重畳させてよい。

あるいは、アプリケーションごとにターゲットＧＵＩの重畳を許容するか否かを設定することが可能であってもよい。このとき、出力制御部１４６は、他のＧＵＩのアプリケーションがターゲットＧＵＩの重畳を許容する場合には、他のＧＵＩの上にターゲットＧＵＩを重畳させてよいが、他のＧＵＩのアプリケーションがターゲットＧＵＩの重畳を許容しない場合には、他のＧＵＩの上にターゲットＧＵＩを重畳させないようにしてよい。

あるいは、アプリケーションごとに優先度を設定することが可能であってもよい。このとき、出力制御部１４６は、他のＧＵＩのアプリケーションの優先度が音声入力を呼び出したアプリケーションの優先度よりも低い場合には、他のＧＵＩの上にターゲットＧＵＩを重畳させてよいが、他のＧＵＩのアプリケーションの優先度が音声入力を呼び出したアプリケーションの優先度よりも高い場合には、他のＧＵＩの上にターゲットＧＵＩを重畳させないようにしてよい。

なお、音声入力を呼び出したアプリケーションと他のＧＵＩのアプリケーションとの間で優先度が同じ場合には、ターゲットＧＵＩは他のＧＵＩの上に重畳されてもされなくてもよい。また、集音部１２０によって集音された音声の品質が所定の品質を超えない場合も想定される。かかる場合には、出力制御部１４６は、集音部１２０を他の場所に移動させてもよい。

また、ターゲットＧＵＩの位置の制御には、ユーザＵの周囲にある障害物の位置（以下、「環境情報」とも言う。）が考慮されてもよい。すなわち、出力制御部１４６は、環境情報に基づいて、ターゲットＧＵＩの位置を制御してもよい。例えば、ユーザＵによって発せられた音声が障害物によって反射されると、その反射音がノイズとなってしまうことが想定されるからである。

図１５は、ユーザＵによって発せられた音声の障害物Ｏｂによる反射の例を説明するための図である。ここでは、図１５に示すように、ユーザＵがＨＭＤ（ＨｅａｄＭｏｕｎｔＤｉｓｐｌａｙ）を装着している場合を想定する。ＨＭＤには、画像入力部１１０および集音部１２０が取り付けられている。なお、環境情報は、あらかじめ障害物の位置が登録されている場合には、ユーザＵの位置とあらかじめ登録されている障害物の位置とに基づいて、取得され得る。あるいは、環境情報は、画像入力部１１０によって入力された入力画像Ｉｍ０の解析によって得られてもよい。

図１５を参照すると、ユーザＵによって発せられて障害物Ｏｂによって反射された反射音がＦｔ１、Ｆｔ２として示されている。また、ユーザＵによって発せられて障害物Ｏｂとは異なる図示しない障害物によって反射された反射音がＦｔ３、Ｆｔ４として示されている。ユーザＵの近くに存在する障害物Ｏｂによって反射された反射音Ｆｔ１、Ｆｔ２は、反射音Ｆｔ３、Ｆｔ４よりも大きいと考えられる。すなわち、ユーザＵの発話の向きによって反射音の大きさが異なると考えられる。

図１６は、ユーザＵの発話の向きと反射音の大きさの関係の例を示す図である。図１６に示すように、ユーザＵの発話の向きＤｒ１には、ユーザＵの近くに障害物Ｏｂが存在しないため、反射音の大きさが比較的小さいと考えられる。一方、ユーザＵの発話の向きＤｒ２には、ユーザＵの近くに障害物Ｏｂが存在するため、反射音の大きさが比較的大きいと考えられる。図１６に示すように、ユーザＵの発話の向きは、二次元的に表現されてもよいし、三次元的に表現されてもよい。

図１７は、環境情報に基づいてターゲットＧＵＩの位置を制御する例を示す図である。出力制御部１４６は、反射音が閾値よりも大きい向きをユーザＵが向いているときには、ターゲットＧＵＩを表示しなくてよい。一方、図１７に示すように、出力制御部１４６は、反射音が閾値よりも小さい向きをユーザＵが向いたときには、ターゲットＧＵＩを表示させてよい。図１７に示した例では、ユーザＵが右に回転しているため、ターゲットＧＵＩを右端から左に移動させているが（「Ｂｓ１」から「Ｂｓ２」）、ユーザＵが左に回転している場合には、ターゲットＧＵＩを左端から右に移動させてよい。

続いて、環境情報を利用する場合における情報処理システム１０の動作の流れについて説明する。図１８は、環境情報を利用する場合における情報処理システム１０の動作の流れを示す図である。なお、図１８のフローチャートは、環境情報を利用する場合における情報処理システム１０の動作の流れの例に過ぎないため、環境情報を利用する場合における情報処理システム１０の動作の流れは、図１８のフローチャートに示された例に限定されない。

まず、出力制御部１４６は、ユーザＵの位置を取得し（Ｓ２１）、マイクロフォン（集音部１２０）の位置を取得する（Ｓ２２）。また、出力制御部１４６は、環境情報を取得する（Ｓ２３）。続いて、出力制御部１４６は、ユーザＵの位置、マイクロフォンの位置および環境情報に基づいて、発話最適方位を算出する（Ｓ２４）。出力制御部１４６は、発話最適方位をアプリケーションに通知し（Ｓ２５）、アプリケーションの機能に従って、発話最適方位に基づいてＵＩレイアウトを更新する（Ｓ２６）。

以上、環境情報を利用する場合における情報処理システム１０の動作の流れについて説明した。

上記した例では、反射波を集音する場合について説明したが、ユーザＵから発せられた音声が集音部１２０によって直接的に集音されてもよい。以下、直接的に集音される音声を「直接波」とも言う。図１９および図２０は、直接波を集音する場合を説明するための図である。出力制御部１４６は、直接波を集音するために最適な位置（以下、「最適直接波点」とも言う。）にターゲットＧＵＩを表示させてよい。

出力制御部１４６は、最適直接波点をどのように決定してもよい。一例として、出力制御部１４６は、キャリブレーション用にターゲットＧＵＩを移動させながら複数回集音を試み、最も高精度に集音される位置を最適直接波点として決定してもよい。あるいは、図２１に示すように、出力制御部１４６は、マイクロフォン位置（集音部１２０の位置）から最も近い位置を最適直接波点Ｐｑとして決定してもよい。

また、出力制御部１４６は、初めから最適直接波点にターゲットＧＵＩを表示させてもよいが、図２０に示すように、ユーザＵの近くにターゲットＧＵＩが表示させ、音声入力の開始操作がなされた場合に、最適直接波点にターゲットＧＵＩを移動させてもよい（「Ｂｓ０」から「Ｂｓ１」）。このとき、ターゲットＧＵＩが移動し終わったことをユーザＵに把握させるのがよい。例えば、図２０に示すように、ターゲットＧＵＩの色を変化させてもよいし、メッセージの表示によってターゲットＧＵＩの移動を把握させてもよい。
「Ｂｓ１」）

また、直接波を集音する場合においても、反射波を集音する場合と同様に、集音部１２０は、所定の機器（例えば、ウェアラブルデバイス、携帯端末、コントローラなど）に搭載されている場合も想定される。かかる場合、出力制御部１４６は、ターゲットＧＵＩの位置を制御しなくてよい。図２２は、所定の機器に搭載された集音部１２０に音声を集音させる場合を説明するための図である。

図２２に示した例においても、スマートフォンに搭載された集音部１２０によって音声が集音されている。スマートフォンによって集音された音声Ｖｃは、無線信号または有線信号により所望の位置に送信される。また、集音を行っている機器をユーザＵに把握させるため、出力制御部１４６は、集音を行っている機器に関連する情報を出力部１３０に表示させるのがよい。図２２を参照すると、出力制御部１４６は、集音を行っている機器に関連する情報として、機器の種類名である「スマートフォン」を出力部１３０に表示させている。

続いて、直接波を集音する場合における情報処理システム１０の動作の流れについて説明する。図２３は、直接波を集音する場合における情報処理システム１０の動作の流れを示す図である。なお、図２３のフローチャートは、直接波を集音する場合における情報処理システム１０の動作の流れの例に過ぎないため、直接波を集音する場合における情報処理システム１０の動作の流れは、図２３のフローチャートに示された例に限定されない。

まず、出力制御部１４６は、マイクロフォン（集音部１２０）の位置を取得する（Ｓ３１）。出力制御部１４６は、マイクロフォンの位置に基づいて、最適直接波点を算出する（Ｓ３２）。出力制御部１４６は、最適直接波点をアプリケーションに通知し（Ｓ３３）、アプリケーションの機能に従って、最適直接波点に基づいてＵＩレイアウトを更新する（Ｓ３４）。

以上、直接波を集音する場合における情報処理システム１０の動作の流れについて説明した。以上、本開示の実施形態に係る情報処理システム１０の機能詳細について説明した。

［１．４．ハードウェア構成例］
次に、図２４を参照して、本開示の実施形態に係る情報処理システム１０のハードウェア構成について説明する。図２４は、本開示の実施形態に係る情報処理システム１０のハードウェア構成例を示すブロック図である。

図２４に示すように、情報処理システム１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇｕｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０３、およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０５を含む。また、情報処理システム１０は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理システム１０は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理システム１０は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理システム１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム１０の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理システム１０に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、ＰＤＰ（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ）、有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置９１７は、情報処理システム１０の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置９１７は、周囲を明るくするためライトなどを含んでもよい。

ストレージ装置９１９は、情報処理システム１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理システム１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

接続ポート９２３は、機器を情報処理システム１０に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３は、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理システム１０と外部接続機器９２９との間で各種のデータが交換され得る。

通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

撮像装置９３３は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）またはＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

センサ９３５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５は、例えば情報処理システム１０の筐体の姿勢など、情報処理システム１０自体の状態に関する情報や、情報処理システム１０の周辺の明るさや騒音など、情報処理システム１０の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

以上、情報処理システム１０のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。

＜２．むすび＞
以上説明したように、本開示の実施形態によれば、ユーザＵの位置とユーザＵによって発せられる音声を集音する集音部１２０の位置とに基づいて、音声のターゲットとなるターゲットＧＵＩが出力部１３０によって表示されるように出力部１３０を制御する出力制御部１４６、を備える、情報処理装置１４０が提供される。かかる構成によれば、ユーザＵによって発せられる音声を集音部１２０によってより効率よく集音することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記においては、出力部１３０による表示形態の変形例を説明したが、出力部１３０による表示形態は、上記した例に限定されない。例えば、出力部１３０は、ヘッドマウントディスプレイ以外のウェアラブル端末（例えば、時計、眼鏡など）に備わるディスプレイであってもよい。また、例えば、出力部１３０は、車載向けナビゲーションシステムに備わるディスプレイであってもよい。また、例えば、出力部１３０は、ヘルスケア分野において利用されるディスプレイであってもよい。

また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上記した情報処理システム１０が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

また、出力制御部１４６は、出力部１３０に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を出力部１３０に出力することで、当該表示内容が出力部１３０に表示されるように出力部１３０を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。

具体的な一例として、情報処理装置１４０を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）などのマークアップ言語により実現されてもよい。

なお、上述した情報処理システム１０の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部１１０、操作入力部１１５および集音部１２０と出力部１３０と情報処理装置１４０とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置１４０が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部１１０、操作入力部１１５および集音部１２０と出力部１３０とが当該サーバにネットワークを介して接続されたクライアントに相当し得る。

また、情報処理装置１４０が有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、入力画像取得部１４１と、集音情報取得部１４２と、操作検出部１４３と、認識制御部１４４と、音声認識処理部１４５と、出力制御部１４６とのうち、一部は情報処理装置１４０とは異なる装置に存在していてもよい。例えば、音声認識処理部１４５は、入力画像取得部１４１と、集音情報取得部１４２と、操作検出部１４３と、認識制御部１４４と、出力制御部１４６とを備える情報処理装置１４０とは異なるサーバに存在していてもよい。

また、上記したように、ターゲットＧＵＩは様々な場面において表示され得る。ここで、ターゲットＧＵＩは、以下のように定義され得る。すなわち、第１の定義として、ターゲットＧＵＩは、ユーザから発せられる音声を使った処理に関するＧＵＩであってよい。また、第２の定義として、ターゲットＧＵＩは、動的にマイクロフォンをＯＮまたはＯＦＦにする場合を想定し、集音情報の取得開始または取得終了を示すインジケータとなるＧＵＩであってもよい。

また、第３の定義として、ターゲットＧＵＩは、マイクロフォンが常時ＯＮであって、取得される集音情報のうち特定の区間に対してのみ音声認識処理を行う場合に、音声に関する処理の対象となる区間（タイミング）を示すインジケータとなるＧＵＩであってもよい。また、第４の定義として、ターゲットＧＵＩは、集音情報の取得開始または取得終了を、ユーザが指示するためのＧＵＩであってもよい。また、第５の定義として、ターゲットＧＵＩは、音声に関する処理の対象となる区間（タイミング）をユーザが指定するためのＧＵＩであってもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットＧＵＩが出力部によって表示されるように前記出力部を制御する出力制御部、
を備える、情報処理装置。
（２）
前記出力制御部は、所定の情報に基づいて、前記ターゲットＧＵＩの位置を制御する、
前記（１）に記載の情報処理装置。
（３）
前記出力制御部は、前記ユーザと前記マイクロフォンとの間に障害物が存在するか否かに基づいて、前記ターゲットＧＵＩの位置を制御する、
前記（２）に記載の情報処理装置。
（４）
前記出力制御部は、前記ユーザと前記マイクロフォンとの間に前記障害物が存在する場合、前記障害物によって遮られる領域を前記ターゲットＧＵＩの位置から除外する、
前記（３）に記載の情報処理装置。
（５）
前記出力制御部は、前記ユーザの視認位置に基づいて、前記ターゲットＧＵＩの位置を制御する、
前記（２）に記載の情報処理装置。
（６）
前記出力制御部は、他のＧＵＩの位置に基づいて、前記ターゲットＧＵＩの位置を制御する、
前記（２）に記載の情報処理装置。
（７）
前記出力制御部は、前記ターゲットＧＵＩの配置を許容する許容領域の範囲内に、前記ターゲットＧＵＩの位置を決定する、
前記（２）に記載の情報処理装置。
（８）
前記出力制御部は、所定の情報に基づいて、前記許容領域の形状またはサイズを制御する、
前記（７）のいずれか一項に記載の情報処理装置。
（９）
前記出力制御部は、前記マイクロフォンのビームフォーミング範囲に応じて、前記ターゲットＧＵＩの位置を制御する、
前記（２）に記載の情報処理装置。
（１０）
前記出力制御部は、ノイズの発生源の位置に基づいて、前記ターゲットＧＵＩの位置を制御する、
前記（２）に記載の情報処理装置。
（１１）
前記出力制御部は、前記ユーザから発せられて前記マイクロフォンに到達する前記音声の反射位置を示す反射位置ＧＵＩを前記出力部に表示させる、
前記（１）〜（１０）のいずれか一項に記載の情報処理装置。
（１２）
前記出力制御部は、前記ユーザと前記マイクロフォンとの間に障害物が存在する場合、前記障害物を取り除くことを前記ユーザに促すためのアテンションを前記出力部に表示させる、
前記（１）に記載の情報処理装置。
（１３）
前記出力制御部は、環境情報に基づいて、前記ターゲットＧＵＩの位置を制御する、
前記（２）に記載の情報処理装置。
（１４）
前記出力制御部は、前記マイクロフォンが所定の機器に搭載されている場合には、前記ターゲットＧＵＩの位置を制御しない、
前記（１）〜（１３）のいずれか一項に記載の情報処理装置。
（１５）
前記出力制御部は、所定の情報に基づいて、前記ターゲットＧＵＩのサイズを制御する、
前記（１）〜（１４）のいずれか一項に記載の情報処理装置。
（１６）
前記出力制御部は、前記音声に対する音声認識処理に成功したか否かに応じて、前記ターゲットＧＵＩのサイズを制御する、
前記（１５）に記載の情報処理装置。
（１７）
前記出力制御部は、事前に測定された前記ユーザが発する音声の音量に基づいて、前記ターゲットＧＵＩのサイズを制御する、
前記（１５）に記載の情報処理装置。
（１８）
前記出力制御部は、所定の情報に基づいて、前記ターゲットＧＵＩの形状を制御する、
前記（１）〜（１７）のいずれか一項に記載の情報処理装置。
（１９）
プロセッサにより、ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットＧＵＩが出力部によって表示されるように前記出力部を制御すること、
を含む、情報処理方法。
（２０）
コンピュータを、
ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットＧＵＩが出力部によって表示されるように前記出力部を制御する出力制御部、
を備える情報処理装置として機能させるためのプログラム。

１０情報処理システム
１１０画像入力部
１１５操作入力部
１２０集音部
１３０出力部
１４０情報処理装置（制御部）
１４１入力画像取得部
１４２集音情報取得部
１４３操作検出部
１４４認識制御部
１４５音声認識処理部
１４６出力制御部

Claims

ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットＧＵＩが出力部によって表示されるように前記出力部を制御する出力制御部、
を備える、情報処理装置。
前記出力制御部は、所定の情報に基づいて、前記ターゲットＧＵＩの位置を制御する、
請求項１に記載の情報処理装置。
前記出力制御部は、前記ユーザと前記マイクロフォンとの間に障害物が存在するか否かに基づいて、前記ターゲットＧＵＩの位置を制御する、
請求項２に記載の情報処理装置。
前記出力制御部は、前記ユーザと前記マイクロフォンとの間に前記障害物が存在する場合、前記障害物によって遮られる領域を前記ターゲットＧＵＩの位置から除外する、
請求項３に記載の情報処理装置。
前記出力制御部は、前記ユーザの視認位置に基づいて、前記ターゲットＧＵＩの位置を制御する、
請求項２に記載の情報処理装置。
前記出力制御部は、他のＧＵＩの位置に基づいて、前記ターゲットＧＵＩの位置を制御する、
請求項２に記載の情報処理装置。
前記出力制御部は、前記ターゲットＧＵＩの配置を許容する許容領域の範囲内に、前記ターゲットＧＵＩの位置を決定する、
請求項２に記載の情報処理装置。
前記出力制御部は、所定の情報に基づいて、前記許容領域の形状またはサイズを制御する、
請求項７に記載の情報処理装置。
前記出力制御部は、前記マイクロフォンのビームフォーミング範囲に応じて、前記ターゲットＧＵＩの位置を制御する、
請求項２に記載の情報処理装置。
前記出力制御部は、ノイズの発生源の位置に基づいて、前記ターゲットＧＵＩの位置を制御する、
請求項２に記載の情報処理装置。
前記出力制御部は、前記ユーザから発せられて前記マイクロフォンに到達する前記音声の反射位置を示す反射位置ＧＵＩを前記出力部に表示させる、
請求項１に記載の情報処理装置。
前記出力制御部は、前記ユーザと前記マイクロフォンとの間に障害物が存在する場合、前記障害物を取り除くことを前記ユーザに促すためのアテンションを前記出力部に表示させる、
請求項１に記載の情報処理装置。
前記出力制御部は、環境情報に基づいて、前記ターゲットＧＵＩの位置を制御する、
請求項２に記載の情報処理装置。
前記出力制御部は、前記マイクロフォンが所定の機器に搭載されている場合には、前記ターゲットＧＵＩの位置を制御しない、
請求項１に記載の情報処理装置。
前記出力制御部は、所定の情報に基づいて、前記ターゲットＧＵＩのサイズを制御する、
請求項１に記載の情報処理装置。
前記出力制御部は、前記音声に対する音声認識処理に成功したか否かに応じて、前記ターゲットＧＵＩのサイズを制御する、
請求項１５に記載の情報処理装置。
前記出力制御部は、事前に測定された前記ユーザが発する音声の音量に基づいて、前記ターゲットＧＵＩのサイズを制御する、
請求項１５に記載の情報処理装置。
前記出力制御部は、所定の情報に基づいて、前記ターゲットＧＵＩの形状を制御する、
請求項１に記載の情報処理装置。
プロセッサにより、ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットＧＵＩが出力部によって表示されるように前記出力部を制御すること、
を含む、情報処理方法。
コンピュータを、
ユーザの位置と前記ユーザによって発せられる音声を集音するマイクロフォンの位置とに基づいて、前記音声のターゲットとなるターゲットＧＵＩが出力部によって表示されるように前記出力部を制御する出力制御部、
を備える情報処理装置として機能させるためのプログラム。