JP2017138476A

JP2017138476A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2017138476A
Application number: JP2016019193A
Authority: JP
Inventors: 麗子桐原; Reiko Kirihara
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-02-03
Filing date: 2016-02-03
Publication date: 2017-08-10
Also published as: CN108604447A; EP3413303B1; CN108604447B; DE112016006351T5; EP3413303A1; US20190019513A1; WO2017134935A1; EP3413303A4

Abstract

【課題】ユーザの周辺に他の音源が存在する場合であっても、音声認識精度を向上させることが可能な、情報処理装置、情報処理方法及びプログラムを提供する。【解決手段】情報処理装置は、雑音の音源となり得る他の装置の状態を検知する状態検知部と、前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の音量レベルを低下させ、出力する雑音がより小さくなるような動作モードに変更させる状態制御部と、を備える。【選択図】図３

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

近年、音声認識技術を用いた音声入力システムが用いられている。ユーザが音声により入力を行う際、ユーザ周辺の雑音（音声による入力において、当該音声以外の音）によって音声の認識が困難となる場合がある。例えば、ユーザ周辺の雑音が大きい場合、ユーザはより大きな声で発話しないと、ユーザの音声が認識されない恐れがある。ここで、雑音の音源がテレビやスピーカ等、ユーザにより音量を操作可能な装置である場合には、ユーザが当該装置を操作して音量を低下させることでより高精度に音声認識が可能となる。

音量の調整に関して、ユーザの音声が入力される装置と同一の装置が出力する音の音量を自動で調整する技術がある。例えば下記特許文献１には、複数ユーザがそれぞれヘッドフォンを装着している場合でも会話をスムーズに行えるように、ユーザの音声を検出して自動で音量調整を行うテレビ受像機が開示されている。

特開２００８−７２５５８号公報

しかし、音声認識を行う装置とユーザ周辺の音の音源とが同一の装置とは限らないため、上記のような音量調整に関する技術を音声認識技術に適用したとしても、十分な音声認識精度が得られない恐れがあった。

そこで、本開示では、ユーザの周辺に他の音源が存在する場合であっても、音声認識精度を向上させることが可能な、新規かつ改良された情報処理装置、情報処理方法、及びプログラムを提案する。

本開示によれば、雑音の音源となり得る他の装置の状態を検知する状態検知部と、前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御する状態制御部と、を備える情報処理装置が提供される。

また、本開示によれば、雑音の音源となり得る他の装置の状態を検知することと、前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御することと、を含む情報処理方法が提供される。

また、本開示によれば、コンピュータに、雑音の音源となり得る他の装置の状態を検知する機能と、前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御する機能と、を実現させるための、プログラムが提供される。

以上説明したように本開示によれば、ユーザの周辺に他の音源が存在する場合であっても、音声認識精度を向上させることが可能である。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の第一の実施形態に係る音声認識システムの概要を説明するための説明図である。同実施形態に係る音声認識システムの構成例を示す説明図である。同実施形態に係る情報処理装置１の構成例を示す説明図である。同実施形態による情報処理装置１の動作例を示すフローチャートである。変形例による情報処理装置１の動作例を示すフローチャートである。本開示の第二の実施形態に係る情報処理装置の構成例を示す説明図である。同実施形態による情報処理装置２の動作例を示すフローチャートである。本開示の第三の実施形態に係る情報処理装置の構成例を示す説明図である。周辺装置７の位置とユーザの位置とに基づく周辺装置７の抽出例を示す説明図である。周辺装置７の位置とユーザの位置とに基づく周辺装置７の抽出例を示す説明図である。同実施形態による情報処理装置３の動作例を示すフローチャートである。ハードウェア構成例を示す説明図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の要素の各々を特に区別する必要がない場合、同一符号のみを付する。

なお、説明は以下の順序で行うものとする。
＜＜１．第一の実施形態＞＞
＜１−１．第一の実施形態の概要＞
＜１−２．第一の実施形態の構成例＞
＜１−３．第一の実施形態の動作例＞
＜１−４．第一の実施形態の効果＞
＜１−５．第一の実施形態の変形例＞
＜＜２．第二の実施形態＞＞
＜２−１．第二の実施形態の構成例＞
＜２−２．第二の実施形態の動作例＞
＜２−３．第二の実施形態の効果＞
＜２−４．第二の実施形態の補足＞
＜＜３．第三の実施形態＞＞
＜３−１．第三の実施形態の構成例＞
＜３−２．第三の実施形態の動作例＞
＜３−３．第三の実施形態の効果＞
＜３−４．第二の実施形態の補足＞
＜＜４．ハードウェア構成例＞＞
＜＜５．むすび＞＞

＜＜１．第一の実施形態＞＞
＜１−１．第一の実施形態の概要＞
まず、図１を参照しながら本開示の第一の実施形態の概要を説明する。図１は本開示の第一の実施形態に係る音声認識システムの概要を説明するための説明図である。図１に示す情報処理装置１は、ユーザの発話に対して音声認識・意味解析を行い、音声または表示による応答を行うことが可能な音声ＵＩエージェント機能を有する。なお、図１において、シーンＴ１はユーザＵ１と情報処理装置１に対して発話していない非対話中の音声認識システムの例を、シーンＴ２はユーザＵ１が情報処理装置１に対して発話している対話中の音声認識システムの例を示している。

情報処理装置１の外観は特に限定しないが、例えば図１に示すような円柱形状であってもよく、部屋の床やテーブルの上等に設置される。また、情報処理装置１には、ＬＥＤ（Light Emitting Diode）等の発光素子により形成された発光部１８が側面の水平方向中央領域を囲むよう帯状に設けられている。情報処理装置１は、発光部１８の全体を光らせたり、一部を光らせたりすることで、ユーザに対して情報処理装置１の状態を知らせることが可能である。例えば情報処理装置１は、ユーザと対話している際は発光部１８においてユーザの方向すなわち発話者方向を一部光らせることで、図１のシーンＴ２に示すように対話中のユーザＵ１に視線を向けているように見せることができる。また、情報処理装置１は、応答生成中やデータ検索中は発光部１８で光が側面上を回っているように制御することで、処理中であることをユーザに知らせることができる。また、情報処理装置１は、例えば図１のシーンＴ２に示すように壁８０に画像を投影して表示する機能を有し、音声による応答出力の他、表示による応答出力が可能である。

図１のシーンＴ１に示すように、ユーザＵ１が情報処理装置１に対して発話していない時、例えば情報処理装置１の周辺に存在するテレビ受像機７１、及びオーディオ機器７２は大きな音量で音楽を出力している。

ここで、図１のシーンＴ１に示すようにテレビ受像機７１、及びオーディオ機器７２が大きな音量で音楽を出力する状態において、ユーザＵ１が発話すると、当該音楽が音声認識における雑音となり、情報処理装置１による音声認識精度が低下する恐れがある。なお、本開示において、雑音とは、例えば音声入力、または音声認識における、当該音声以外の音を意味する。

そこで、本開示の第一の実施形態に係る音声認識システムでは、ユーザの発話予測に基づいて、音声認識における雑音の出力に係る周辺装置の状態を制御することで、音声認識精度を向上することを可能とする。

具体的には、図１のシーンＴ２に示すように、ユーザＵ１が情報処理装置１に対して発話することが予測されると、テレビ受像機７１、及びオーディオ機器７２が出力する音楽の音量は、図１のシーンＴ１に示す例と比較して小さくなるように制御される。係る構成により、情報処理装置１による音声認識はテレビ受像機７１、及びオーディオ機器７２が出力する雑音（音楽）の影響を受け難くなり、認識精度が向上する。その結果、情報処理装置１は、ユーザＵ１の発話６２を正しく認識して、図１のシーンＴ２に示すように音声による応答６４や表示による応答８１を出力することが可能となる。

このように、本実施形態による音声認識システムでは、例えばユーザの発話が予測されると、雑音の出力に係る装置の音量が小さくなるように制御することで、音声認識精度を向上させることが可能である。

以上、本開示による音声認識システムの概要について説明した。なお、情報処理装置１の形状は図１に示す円柱形状に限定されず、例えば立方体、球体、多面体等であってもよい。続いて、本開示の第一の実施形態による情報処理システムと情報処理装置１の構成例について順次説明する。

＜１−２．第一の実施形態の構成例＞
（音声認識システムの構成例）
図２は本開示の第一の実施形態に係る音声認識システムの構成例を示す説明図である。図２に示すように、本実施形態に係る音声認識システムは、情報処理装置１、周辺装置７、及び通信網９を含む。

情報処理装置１は、図１を参照して説明したように、ユーザの発話に対して音声認識・意味解析を行い、音声または画像による応答を行う機能を有する。また、情報処理装置１は、図２に示すように通信網９を介して周辺装置７と接続され、ユーザの発話予測に基づいて周辺装置７の状態を制御する。なお、図２では情報処理装置１が通信網９を介して周辺装置７と接続される例を説明したが、情報処理装置１と周辺装置７は、直接接続されてもよい。また、情報処理装置１の詳細な構成については図３を参照して後述する。

通信網９を介して情報処理装置１と接続される周辺装置７は、情報処理装置１の周辺に存在し、音を出力する装置である。周辺装置７は、例えば図２に示すようにテレビ受像機７１、またはオーディオ機器７２（例えばスピーカ、ミニ・コンポーネント・システム等）のように、音楽や音声等の音を出力する機能を有する装置を含んでもよい。また、周辺装置７は、空気調和機器７３（例えば換気扇、エア・コンディショナー、空気清浄器等）、掃除機７４、ＰＣ（Personal Computer）７５のように、当該装置の動作に伴う駆動音（動作音）を出力する（発生させる）装置を含んでもよい。なお、本技術に係る周辺装置７は図２に示した例に限定されず、音を出力し得る多様な装置を含んでもよい。また、以下において、周辺装置７に含まれる少なくとも１以上の装置のことを周辺装置７と呼ぶ場合がある。

周辺装置７は、通信網９を介して情報処理装置１に、周辺装置７が何をすることが可能なのかを示すケイパビリティ情報、及び周辺装置７の状態を示す状態情報を送信してもよい。ケイパビリティ情報は、例えば、周辺装置７が如何なる動作（例えば音の出力、送風、換気等）を実行可能であるか、如何なる状態をとり得るか、または如何なる状態情報を送信可能であるか（または送信不可能であるか）等の情報を含んでもよい。また、状態情報は、現在の周辺装置７に関する、音量レベル、動作モード（例えばスタンバイモード、静音モード、通常モード）、電源スイッチの状態（ＯＮ／ＯＦＦ）、またはその他の動作に係る設定値等の情報を含んでもよい。なお、周辺装置７は、情報処理装置１からケイパビリティ情報または状態情報の送信要求を受信した際に、要求されたケイパビリティ情報または状態情報を送信してもよい。

また、周辺装置７は、通信網９を介して情報処理装置１から状態制御信号を受信し、状態を制御される。周辺装置７が情報処理装置１により制御される状態は、例えば上述した音量レベル、動作モード、または電源のＯＮ／ＯＦＦ等を含んでもよい。

なお、情報処理装置１と周辺装置７との間の距離は、例えば音の届く範囲内であり、周辺装置７が出力する音は、情報処理装置１が有するマイクロフォンにより収音されて、情報処理装置１による音声認識における雑音となり得る。以下では、音楽、音声、及び駆動音等の区別をすることなく、周辺装置７が出力する音を雑音と呼ぶ場合がある。また、周辺装置７を雑音の音源となり得る他の装置、または雑音の出力に係る装置と呼ぶ場合がある。

通信網９は、通信網９に接続されている装置、またはシステムから送信される情報の有線、または無線の伝送路である。本実施形態において、通信網９に接続される情報処理装置１と周辺装置７との間の距離は、上述したように音の届く範囲内であるため、例えば、通信網９はＥｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）であってもよい。なお、通信網９はＬＡＮに限定されず、通信網９は、インターネット、電話回線網、衛星通信網等の公衆回線網や、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）等を含んでもよい。また、通信網９は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）等の専用回線網を含んでもよい。

（情報処理装置の構成例）
以上、本実施形態に係る音声認識システムの構成を説明した。続いて、図３を参照して、本実施形態に係る音声認識システムが備える情報処理装置１の構成例を説明する。図３は、本実施形態に係る情報処理装置１の構成例を示す説明図である。

図３に示すように、情報処理装置１は、制御部１０、通信部１１、収音部１２、スピーカ１３、カメラ１４、測距センサ１５、投影部１６、記憶部１７、及び発光部１８を有する。

制御部１０は、情報処理装置１の各構成を制御する。また、本実施形態による制御部１０は、図３に示すように、発話予測部１０１、音声認識部１０２、意味解析部１０３、状態検知部１０４、状態制御部１０５、及び出力制御部１０６としても機能する。

発話予測部１０１は、ユーザの発話予測（例えば、ユーザがこれから発話しようとしていることの予測）を行う。また、発話予測部１０１は、ユーザの発話が予測された場合に、ユーザの発話が予測されたことを音声認識部１０２、状態検知部１０４、及び状態制御部１０５に通知してもよい。発話予測部１０１によるユーザの発話予測は、多様な方法で行われ得る。

例えば、発話予測部１０１は、後述する収音部１２により収音されたユーザの音声から、後述する音声認識部１０２が所定の起動ワード（例えば、「Hello Agent」等）を検出した場合に、ユーザの発話を予測してもよい。また、発話予測部１０１は、情報処理装置１が有する音声入力ボタン（不図示）がユーザによって押下されたことを検出した場合に、ユーザの発話を予測してもよい。また、発話予測部１０１は、後述するカメラ１４や測距センサ１５により得られたデータに基づいて、ユーザが手を振っていることを検出した場合に、ユーザの発話を予測してもよい。また、発話予測部１０１は、後述するカメラ１４や測距センサ１５により得られたデータ、または収音部１２により収音された音に基づいて、ユーザが手を叩いたことを検出した場合にユーザの発話を予測してもよい。なお、発話予測部１０１によるユーザの発話予測は上記に限定されず、多様な方法でユーザの発話が予測されてよい。

音声認識部１０２は、後述する収音部１２により収音されたユーザの音声を認識し、文字列への変換を行い、発話テキストを取得する。また、音声認識部１０２の音声の特徴に基づいて声を出している人を識別したり、音声の発生源、すなわち発話者の方向を推定したりすることも可能である。

また、音声認識部１０２は、取得した発話テキストに所定の起動ワードが含まれている場合に、当該起動ワードが検出されたことを発話予測部１０１に通知する。なお、音声認識部１０２は、起動ワードを、他の発話テキストと比較して雑音に対してより頑強に検出してもよい。

意味解析部１０３は、音声認識部１０２により取得された発話テキストに対して自然言語処理等を用いて意味解析を行う。意味解析部１０３による意味解析の結果は、出力制御部１０６に提供される。

状態検知部１０４は、雑音の音源となり得る周辺装置７（他の装置）の状態を検知し、検知結果を状態制御部１０５に提供する。例えば状態検知部１０４は、収音に基づいて周辺装置７の状態を検知する。収音に基づく周辺装置７の状態の検知は、例えば、後述する収音部１２により収音された周辺音（情報処理装置１周辺の雑音）の大きさ（音圧レベル）を特定することであってもよい。また、状態検知部１０４は、検知結果として、特定した周辺音の大きさを状態制御部１０５に提供してもよい。

また、状態検知部１０４は、通信に基づいて周辺装置７の状態を検知してもよい。通信に基づく周辺装置７の状態の検知は、例えば、後述する通信部１１を制御して周辺装置７にケイパビリティ情報と状態情報の送信要求を送信し、周辺装置７から通信部１１を介してケイパビリティ情報と状態情報を取得することであってもよい。また、状態検知部１０４は、ケイパビリティ情報と状態情報を検知結果として、状態制御部１０５に提供してもよい。

状態制御部１０５は、状態検知部１０４による検知結果と、発話予測部１０１によるユーザの発話予測に基づいて、周辺装置７（他の装置）の状態を制御する。例えば、状態制御部１０５は、発話予測部１０１がユーザの発話を予測し、かつ状態検知部１０４による検知結果としての周辺音の大きさが所定の閾値より大きい場合に、周辺装置７が出力する雑音がより小さくなるように、周辺装置７の状態を制御してもよい。

また、状態制御部１０５による周辺装置７の状態制御は多様な方法で行われてもよい。また、状態制御部１０５による周辺装置７の状態制御の方法は、通信部１１を介して、または記憶部１７から取得される周辺装置７のケイパビリティ情報に基づいて決定されてもよい。

例えば、状態制御部１０５は、周辺装置７のケイパビリティ情報に基づき、周辺装置７が音量レベルを通信により制御可能な装置であると判定した場合、周辺装置７の音量レベルを低下させ、または上昇させるように、周辺装置７の状態を制御してもよい。係る場合、例えば状態制御部１０５は、周辺装置７の音量レベルを低下させる、または上昇させる制御信号を生成し、通信部１１を制御して当該制御信号を周辺装置７へ送信させてもよい。

また、状態制御部１０５は、周辺装置７のケイパビリティ情報に基づき、周辺装置７が動作モードを通信により制御可能な装置であると判定した場合、周辺装置７の動作モードを変更させることで、周辺装置７の状態を制御してもよい。係る場合、例えば、状態制御部１０５は、周辺装置７の出力する雑音がより小さくなるような動作モードに動作モードを変更させる制御信号を生成し、通信部１１を制御して当該制御信号を周辺装置７へ送信させてもよい。なお、例えば周辺装置７がスタンバイモード、静音モード、通常モードの３つの動作モードのいずれかで動作する場合、スタンバイモード、静音モード、通常モードの順で周辺装置７が出力する雑音が大きくなり得る。

また、状態制御部１０５は、周辺装置７のケイパビリティ情報に基づき、周辺装置７が動作に係る設定値を通信により制御可能であると判定した場合、周辺装置７の動作に係る設定値を変更させることで、周辺装置７の状態を制御してもよい。周辺装置７の動作に係る設定値は、例えば風量の強弱、回転数、消費電力等を含んでもよい。係る場合、例えば、状態制御部１０５は、周辺装置７の動作に係る設定値を、周辺装置７の出力する雑音がより小さくなるような設定値に変更させる制御信号を生成し、通信部１１を制御して当該制御信号を周辺装置７へ送信させてもよい。

また、状態制御部１０５は、周辺装置７のケイパビリティ情報に基づき、周辺装置７が電源のＯＮ／ＯＦＦを通信により制御可能な装置であると判定した場合、周辺装置７の電源をＯＮまたはＯＦＦに変更させる制御信号を生成し、通信部１１を制御して当該制御信号を周辺装置７へ送信させてもよい。なお、状態制御部１０５は、周辺装置７のケイパビリティ情報等に基づいて、周辺装置７の電源をＯＦＦにすべきか否かを判定してもよい。例えば、状態制御部１０５は、周辺装置７の電源をＯＦＦにすべきではない、と判定した場合、上述した他の状態制御方法で、周辺装置７の状態制御を行ってもよい。また、状態制御部１０５は、電源の制御よりも、上述した他の状態制御方法を優先して、周辺装置７の状態制御を行ってもよい。係る構成によれば、周辺装置７は動作を完全に停止することなく制御されやすくなるため、ユーザは周辺装置７の停止による違和感や不都合を受け難くなる。

また、状態制御部１０５は、状態検知部１０４から取得した周辺装置の状態情報を記憶部１７に記憶させた後に、周辺装置７が出力する雑音がより小さくなるように、周辺装置７の状態を制御してもよい。また、状態制御部１０５は、ユーザの発話が終了した場合に、記憶部１７に記憶される周辺装置７の状態情報に基づいて、周辺装置７の状態が記憶部１７に記憶された時点の状態に戻るように周辺装置７の状態を制御してもよい。周辺装置の状態制御例については、後に図４を参照して詳細に説明する。

出力制御部１０６は、意味解析部１０３から提供される意味解析結果に応じて、ユーザの発話に対する応答や、ユーザが求める動作に係る出力を制御する。例えば、ユーザの発話が「明日の天気」を求めるものである場合、ネットワーク上の天気予報サーバから、「明日の天気」に関する情報を取得し、スピーカ１３、投影部１６、または発光部１８を制御して、取得した情報を出力させる。

通信部１１は、外部装置とデータの送受信を行う。例えば通信部１１は、通信網９と接続し、周辺装置７への送信、または周辺装置７からの受信を行う。例えば、通信部１１は、ケイパビリティ情報、及び状態情報の送信要求を周辺装置７へ送信する。また、通信部１１は、周辺装置７から、ケイパビリティ情報、及び状態情報を受信する。また通信部１１は、状態制御部１０５により生成される制御信号を周辺装置７へ送信する。また、通信部１１は、通信網９、または他の通信網を介して、不図示の所定サーバと接続し、出力制御部１０６による出力制御に必要な情報を受信する。

収音部１２は、周辺の音声を収音し、音声信号として制御部１０に出力する機能を有する。また、収音部１２は、例えば１または複数のマイクロフォンにより実現されてもよい。

スピーカ１３は、出力制御部１０６の制御に従って音声信号を音声に変換して出力する機能を有する。

カメラ１４は、情報処理装置１に設けられた撮像レンズにより周辺を撮像し、撮像画像を制御部１０に出力する機能を有する。また、カメラ１４は、例えば３６０度カメラまたは広角カメラ等により実現されてもよい。

測距センサ１５は、情報処理装置１とユーザやユーザの周辺に居る人物との距離を測定する機能を有する。測距センサ１５は、例えば光センサ（発光・受光タイミングの位相差情報に基づいて対象物までの距離を測定するセンサ）により実現される。

投影部１６は、表示装置の一例であって、壁やスクリーンに画像を（拡大して）投影することで表示する機能を有する。

記憶部１７は、情報処理装置１の各構成が機能するためのプログラムやパラメータを記憶する。また、記憶部１７は、周辺装置７に関する情報を記憶する。例えば、周辺装置７に関する情報には、通信網９に接続された周辺装置７に接続するための情報やケイパビリティ情報、状態情報等が含まれてもよい。

発光部１８は、ＬＥＤ等の発光素子により実現され、全灯、一部点灯、点滅、または点灯位置の制御等が可能である。例えば発光部１８は、制御部１０の制御にしたがって音声認識部１０２により認識された発話者の方向を一部点灯することで、発話者の方向に視線を向けているように見せることができる。

以上、本実施形態による情報処理装置１の構成について具体的に説明した。なお、図３に示す情報処理装置１の構成は一例であって、本実施形態はこれに限定されない。例えば、情報処理装置１は、周辺環境に関する情報を取得するために、ＩＲ（infrared：赤外線）カメラ、深度カメラ、ステレオカメラ、または人感センサ等をさらに備えていてもよい。また、情報処理装置１は、ユーザインタフェースとして、タッチパネルディスプレイや物理ボタン等をさらに備えていてもよい。また、情報処理装置１に設けられる収音部１２、スピーカ１３、カメラ１４、及び発光部１８等の設置位置は特に限定されない。また、本実施形態による制御部１０の各機能は、通信部１１を介して接続される他の情報処理装置が有してもよい。

＜１−３．第一の実施形態の動作例＞
続いて、本実施形態による情報処理装置１の動作例について、図４を参照して説明する。

図４は、本実施形態による情報処理装置１の動作例を示すフローチャートである。図４に示すように、まず制御部１０は、ユーザが発話しようとしているか否かを判定する発話予測処理を行う（Ｓ１１０）。ステップＳ１１０の発話予測処理は、ユーザの発話が予測されるまで繰り返される。

ユーザの発話が予測された場合（ステップＳ１１０においてＹＥＳ）、情報処理装置１は、周辺音を測定する（Ｓ１２０）。例えば収音部１２により収音された音声信号に基づいて、状態検知部１０４が周辺音の大きさを特定することで、周辺音が測定されてもよい。

続いて、状態制御部１０５は、ステップＳ１２０で測定された周辺音が大きいか否かを判定する（Ｓ１３０）。例えば、状態制御部１０５は、ステップＳ１２０で測定された周辺音と所定の閾値を比較することでステップＳ１３０の判定を行ってもよい。

周辺音が大きいと判定された場合（ステップＳ１３０においてＹＥＳ）、状態制御部１０５は、状態検知部１０４を介して周辺装置７から通信に基づいて取得した周辺装置７の状態情報を記憶部１７に記憶させる（Ｓ１４０）。

続いて、状態制御部１０５は、周辺装置７の状態を制御する（Ｓ１５０）。例えば、状態制御部１０５は、状態制御可能なすべての周辺装置７に対して、音量レベルを所定値低下させる制御信号を生成して、通信部１１に送信させてもよい。また、状態制御部１０５は、ステップＳ１４０で取得した周辺装置７のケイパビリティ情報と状態情報に基づいて、周辺装置７の各々に対して、周辺音（雑音）が小さくなるような制御信号を生成して、通信部１１に送信させてもよい。

続いて、情報処理装置１は、ユーザの音声入力を受け付け、音声認識処理を行う（Ｓ１６０）。ステップＳ１７０において、制御部１０は、例えば発話無音期間が所定時間（例えば１０秒）以上継続した場合に、ユーザの発話が終了したと判定し、発話が終了するまでステップＳ１６０の音声認識処理を継続する。

ユーザの発話が終了したと判定された場合（Ｓ１７０においてＹＥＳ）、音声認識部１０２の認識結果（発話テキスト）に基づいて意味解析部１０３が意味解析処理を行い、意味解析結果に応じて出力制御部１０６が投影部１６や発光部１８を制御する（Ｓ１８０）。

最後に、状態制御部１０５は、ステップＳ１４０において記憶部１７に記憶された周辺装置７の状態情報に基づいて、周辺装置７の状態をステップＳ１４０時点の状態に戻すように状態制御を行う（Ｓ１９０）。例えば、状態制御部１０５は、周辺装置７の各々に対して、ステップＳ１４０時点の周辺装置７の状態に状態を変更させるような制御信号を生成し、通信部１１に送信させてもよい。

以上説明した一連の処理（Ｓ１１０〜Ｓ１９０）は、例えば一連の処理が終わるごとに繰り返されてもよい。

＜１−４．第一の実施形態の効果＞
以上説明したように、本開示の第一の実施形態によれば、ユーザの発話が予測されると、情報処理装置１の周辺音（雑音）の大きさが測定され、周辺音が大きい場合に、周辺音を小さくさせるように、雑音の音源となり得る周辺装置７の状態が制御される。係る構成により、ユーザの周辺に他の音源が存在する場合であっても、ユーザが発話した際の、音声認識精度を向上させることが可能となる。また、情報処理装置１がユーザの発話に対応して音声による応答を出力する場合、周辺音が小さくなることで、ユーザは情報処理装置１が出力する音声による応答を、より聞き取りやすくなる。

＜１−５．第一の実施形態の変形例＞
以上、本開示の第一の実施形態を説明した。以下では、本開示の第一の実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で本開示の第一の実施形態に適用されてもよいし、組み合わせで本開示の第一の実施形態に適用されてもよい。また、各変形例は、本開示の第一の実施形態で説明した構成に代えて適用されてもよいし、本開示の第一の実施形態で説明した構成に対して追加的に適用されてもよい。

（変形例１）
上記動作例では、図４に示すステップＳ１５０における雑音を低減させるための周辺装置７の状態制御処理が、一回だけ行われる例を説明したが、本実施形態は係る例に限定されない。変形例１として、情報処理装置１は、雑音を低減させるために周辺装置７の状態を複数回制御してもよい。

図５は本変形例による情報処理装置１の動作例を示すフローチャートである。図５に示す各ステップの処理は、図４に示す同一のステップ番号を有する各ステップの処理と同様であるため、説明を省略する。図５に示す動作例では、図４に示す動作例と異なり、周辺装置７の状態制御処理（Ｓ１５０）の後にステップＳ１２０に戻り、再度周辺音の測定（Ｓ１２０）と周辺音の大きさに関する判定（Ｓ１３０）が行われる。そして、周辺音が大きいと再度判定された場合（Ｓ１３０においてＹＥＳ）、周辺装置の状態の記憶（Ｓ１４０）と、周辺装置７の状態制御処理（Ｓ１５０）が再度行われる。

係る動作により、周辺音が十分に小さくなるまで、周辺装置の状態制御処理を繰り返すことが可能となり、ステップＳ１６０以降の音声認識処理と意味解析処理の精度がより向上する。

なお、雑音を低減させるために周辺装置７の状態を複数回制御する方法は上記に限定されない。例えば、状態制御部１０５は、ユーザの発話に基づく音声認識または意味解析結果に基づいて、雑音を低減させるために周辺装置７の状態を複数回制御してもよい。

例えば、ステップＳ１６０において、ユーザが発話しているにも関わらず、音声認識処理に失敗した（発話テキストが取得できない）場合に、周辺装置７の状態制御が再度行われてもよい。なお、ユーザが発話していることは、例えば、カメラ１４により取得される映像に含まれるユーザの口の動きに基づいて検出されてもよい。

また、ステップＳ１８０において、発話テキストからの意味解析に失敗した（意味解析結果が取得できない）場合に、周辺装置７の状態制御が再度行われてもよい。

（変形例２）
上記では、状態制御部１０５が周辺装置７の状態情報を取得して、記憶部１７に記憶させる例を説明したが、本実施形態は係る例に限定されない。変形例２として、状態制御部１０５は、周辺装置７の状態情報の代わりに、状態制御に係る制御信号におけるパラメータを記憶させてもよい。

例えば、図４のステップＳ１５０において、状態制御部１０５が、周辺装置７に対して、音量レベルを所定値低下させる制御信号を生成する場合、当該パラメータは、当該所定値であってもよい。また、係る場合、図４のステップＳ１９０において、状態制御部１０５は、記憶部１７に記憶された当該所定値（パラメータ）だけ、音量レベルを上昇させる制御信号を生成して、通信部１１に送信させてもよい。係る構成によれば、例えば周辺装置７の機能制限等により、通信による周辺装置７の状態情報の取得が不可能な場合であっても、周辺装置７の状態を図４のステップＳ１４０時点の状態に戻すことが可能となる。

＜＜２．第二の実施形態＞＞
以上、本開示の第一の実施形態、及び変形例を説明した。続いて、本開示の第二の実施形態を説明する。上記で説明した第一の実施形態では、周辺音の大きさに基づいて、情報処理装置１が制御可能なすべての周辺装置７が制御対象であった。これに対し、第二の実施形態による情報処理装置は、通信により取得される周辺装置７の各々の状態情報に基づいて、制御対象となる周辺装置７を抽出し、抽出された周辺装置７の状態を制御する。

＜２−１．第二の実施形態の構成例＞
図６は、本開示の第二の実施形態に係る情報処理装置の構成例を示す説明図である。図６に示すように、本実施形態に係る情報処理装置２は、制御部２０の機能構成が図３の制御部１０の機能構成と一部異なる点で、図３の情報処理装置１と異なる。なお、図６に示す各構成のうち、図３に示した各構成と実質的に同様の構成については同一の符号を付してあるため、説明を省略する。以下では、本実施形態に係る制御部２０が有する状態検知部２０４、及び状態制御部２０５としての機能について説明する。

（状態検知部２０４）
本実施形態に係る状態検知部２０４は、第一の実施形態で説明した状態検知部１０４と同様に、雑音の音源となり得る周辺装置７（他の装置）の状態を検知する。例えば、状態検知部２０４は、状態検知部１０４と同様に、通信に基づいて周辺装置７の状態を検知し、また、通信部１１を介して周辺装置７のケイパビリティ情報と状態情報を取得する。また、状態検知部２０４は、ケイパビリティ情報と状態情報を検知結果として、状態制御部２０５に提供してもよい。

なお、本実施形態に係る状態検知部２０４は、第一の実施形態で説明したような、収音に基づいて周辺装置７の状態を検知する機能を有しなくてもよいし、有してもよい。

（状態制御部２０５）
本実施形態に係る状態制御部２０５は、第一の実施形態で説明した状態制御部１０５と同様に、状態検知部２０４による検知結果と、発話予測部１０１によるユーザの発話予測に基づいて、周辺装置７（他の装置）の状態を制御する。本実施形態に係る状態制御部２０５は、第一の実施形態に係る状態制御部１０５と異なり、複数の周辺装置７から、周辺装置７の状態に基づいて、状態の制御を行う周辺装置７を抽出する機能を有する。例えば、本実施形態に係る状態制御部２０５は、発話予測部１０１がユーザの発話を予測した場合に、周辺装置７の状態情報に基づく所定の条件を満たす周辺装置７を抽出し、抽出された周辺装置７の状態を制御する。

例えば、周辺装置７の状態情報に基づく所定の条件は、現在の音量レベルが所定の閾値以上である、という条件であってもよい。また、周辺装置７の状態情報に基づく所定の条件は、周辺装置７の動作モードが、所定の動作モードである、という条件であってもよい。また、周辺装置７の状態情報に基づく所定の条件は、周辺装置７の動作に係る所定設定値の大きさが、所定の閾値以上である、という条件であってもよい。

係る構成により、例えば、より大きな雑音を出力しているであろう周辺装置７の状態を優先的、または効率的に制御することが可能となる。また、より大きな雑音を出力しているであろう周辺装置７の状態のみを変更し、より小さな雑音を出力しているであろう周辺装置７の状態を変更しないことで、ユーザは違和感を受け難いという効果が得られる。

また、本実施形態に係る状態制御部２０５は、上記により抽出された周辺装置７の状態情報を記憶部１７に記憶させてもよい。

なお、本実施形態に係る状態制御部２０５のその他の機能（周辺装置７の状態制御方法、及び状態制御方法の決定）は、第一の実施形態で説明した状態制御部１０５の機能と同様であるため、詳細な説明を省略する。

＜２−２．第二の実施形態の動作例＞
以上、本開示の第二の実施形態による情報処理装置２の構成例について説明した。続いて、続いて、本実施形態による情報処理装置２の動作例について、図７を参照して説明する。

図７は、本実施形態による情報処理装置２の動作例を示すフローチャートである。まず制御部２０は、図４を参照して説明したステップＳ１１０と同様に、ユーザの発話が予測されるまで発話予測処理を繰り返し行う（Ｓ２１０）。

ユーザの発話が予測された場合（ステップＳ２１０においてＹＥＳ）、状態検知部２０４は、周辺装置７にケイパビリティ情報と状態情報の送信要求を送信し、周辺装置７からケイパビリティ情報と状態情報を受信する（Ｓ２２０）。

続いて、状態制御部２０５は、周辺装置７のうち、状態情報に基づく条件を満たす周辺装置７を抽出する（Ｓ２３０）。状態情報に基づく条件は、例えば上述したいずれか一つの条件であってもよい。さらに、状態制御部２０５は、抽出された周辺装置７の状態情報を記憶部１７に記憶させる（Ｓ２４０）。

続いて、状態制御部２０５は、抽出された周辺装置７の状態を制御する（Ｓ２５０）。例えば、状態制御部２０５は、ステップＳ２２０で受信された周辺装置７のケイパビリティ情報と状態情報に基づいて、抽出された周辺装置７の各々に対して、周辺音（雑音）が小さくなるような制御信号を生成して、通信部１１に送信させてもよい。

以降の、図７に示すステップＳ２６０〜２９０の処理は、図４を参照して説明したステップＳ１６０〜１９０の処理と同様であるため、説明を省略する。

＜２−３．第二の実施形態の効果＞
以上説明したように、本開示の第二の実施形態によれば、ユーザの発話が予測されると、情報処理装置２周辺の周辺装置７の状態情報が取得され、状態情報に基づいて抽出された周辺装置７が出力する雑音が小さくなるように、状態制御が行われる。係る構成により、ユーザの周辺に他の音源が存在する場合であっても、ユーザが発話した際の、音声認識精度を向上させることが可能となる。さらに、本開示の第二の実施形態によれば、状態を変更させる周辺装置７を抽出して状態制御を行うことで、ユーザは違和感を受け難いという効果が得られる。

＜２−４．第二の実施形態の補足＞
なお、上記では状態検知部２０４は、第一の実施形態で説明したような、収音に基づいた周辺装置７の状態検知機能を有しなくてもよい例を説明したが、本実施形態は係る例に限定されない。例えば、状態検知部２０４が収音に基づく状態検知機能を有して周辺音を測定し、状態制御部２０５は周辺音が大きいと判定された場合に、状態を変更させる周辺装置７を抽出して状態制御を行ってもよい。

また、第一の実施形態において説明した各変形例を第二の実施形態に適用することも可能である。

＜＜３．第三の実施形態＞＞
以上、本開示の第一の実施形態、及び第二の実施形態を説明した。続いて、本開示の第三の実施形態を説明する。第三の実施形態による情報処理装置は、さらに周辺装置７の位置に基づいて、周辺装置７の状態を制御する。

＜３−１．第三の実施形態の構成例＞
図８は、本開示の第三の実施形態に係る情報処理装置の構成例を示す説明図である。図８に示す各構成のうち、図４、図６に示した各構成と実質的に同様の構成については同一の符号を付してあるため、説明を省略する。以下では、本実施形態に係る情報処理装置２が備える制御部３０、及び記憶部３７について説明する。

（制御部３０）
本実施形態に係る制御部３０は、情報処理装置３の各構成を制御する。また、本実施形態に係る制御部３０は、図８に示すように発話予測部３０１、音声認識部３０２、意味解析部１０３、状態検知部２０４、状態制御部３０５、及び出力制御部１０６としても機能する。これら機能のうち、意味解析部１０３、及び出力制御部１０６の機能は、第一の実施形態に係る意味解析部１０３、及び出力制御部１０６の機能と、状態検知部２０４の機能は第二の実施形態に係る状態検知部２０４の機能とそれぞれ同様であるため、説明を省略する。

本実施形態に係る発話予測部３０１は、第一の実施形態で説明した発話予測部１０１と同様に、ユーザの発話予測を行う。本実施形態に係る発話予測部３０１は、発話予測部１０１の機能に加え、ユーザの発話が予測された場合に、ユーザの発話が予測されたことを後述するユーザ位置取得部３０８に通知する機能を有する。

本実施形態に係る音声認識部３０２は、第一の実施形態で説明した音声認識部１０２と同様に、ユーザの音声を認識し、文字列への変換を行い、発話テキストを取得する。本実施形態に係る音声認識部３０２は、後述する音源分離部３０９が収音部１２により取得された音声から分離して取得したユーザの音声を入力として、音声を認識する点が第一の実施形態で説明した音声認識部１０２と異なる。係る構成により、より音声認識精度を向上させることが可能である。

状態制御部３０５は、第一の実施形態で説明した状態制御部１０５と同様に、状態検知部２０４による検知結果と、発話予測部３０１によるユーザの発話予測に基づいて、周辺装置７（他の装置）の状態を制御する。本実施形態に係る状態制御部３０５は、第一の実施形態に係る状態制御部１０５の機能に加え、さらに周辺装置７の位置に基づいて、周辺装置７の状態を制御する機能を有する。周辺装置７の位置に関する情報は、例えば後述する記憶部３７に記憶されていてもよい。

例えば、本実施形態に係る状態制御部３０５は、発話予測部１０１がユーザの発話を予測した場合に、周辺装置７の位置に基づく所定の条件を満たす周辺装置７を抽出し、抽出された周辺装置７の状態を制御する。状態制御部３０５が周辺装置７の位置に基づいて周辺装置７を抽出し、抽出された周辺装置７の状態を制御する例について、以下にいくつか説明する。

例えば、状態制御部３０５は、収音に基づいて特定される雑音発生領域内に存在する周辺装置７を抽出し、抽出された状態を制御してもよい。雑音発生領域の情報は、後述する音場解析部３０７から提供されてもよく、状態制御部３０５は、雑音発生領域の情報と周辺装置７の位置の情報を対応付けて、雑音発生領域内に存在する周辺装置７を抽出してもよい。

また、状態制御部３０５は、周辺装置７の位置とユーザの位置とに基づいて、周辺装置７の状態を制御してもよい。ユーザの位置は、後述するユーザ位置取得部３０８から状態制御部３０５に提供されてもよい。図９Ａ，Ｂは周辺装置７の位置とユーザの位置とに基づく周辺装置７の抽出例を示す説明図である。図９Ａ、Ｂに示すように、情報処理装置３の周辺には、周辺装置７Ａ〜Ｆと、ユーザＵ３が存在している。

例えば、状態制御部３０５は、図９Ａに示すように収音部１２の位置を基準として、ユーザの位置と略同一方向に存在する周辺装置７を抽出し、抽出された周辺装置７の状態を制御してもよい。状態制御部３０５は、情報処理装置３が有する収音部１２（不図示）の位置を中心として、ユーザＵ３の位置を含むような角度範囲Ｄ１を、収音部１２の位置を基準として、ユーザの位置と略同一方向であるとみなしてもよい。また、状態制御部３０５は、角度範囲Ｄ１内に存在する周辺装置７Ｂを、収音部１２の位置と、ユーザの位置を基準として、ユーザの位置と略同一方向に存在する周辺装置７として抽出してもよい。なお、角度範囲Ｄ１の大きさは、例えば予め設定された所定の大きさであってもよいし、ユーザＵ３の顔、または全身等が含まれるように動的に設定されてもよい。

係る構成によれば、収音部１２の位置を基準として、ユーザの位置と略同一方向に存在する周辺装置７が出力する雑音を低減させるように周辺装置７の状態を効率的に制御することが可能となる。他の方向から収音部１２に向かう音声と比較して、ユーザの位置と略同一方向から収音部１２に向かう音声は、後述する音源分離部３０９にとってユーザの音声と分離することが、困難である。したがって、係る構成により、音源分離精度が向上し、結果として音声認識精度も向上する。

また、状態制御部３０５は、図９Ｂに示すように、ユーザの位置の近傍に存在する周辺装置７を抽出し、抽出された周辺装置７の状態を制御してもよい。状態制御部３０５は、例えば図９Ｂに示すユーザＵ３から所定距離の範囲内に存在する周辺装置７Ｃを、ユーザＵ３の位置の近傍に存在する周辺装置７として抽出してもよい。また、状態制御部３０５は、図９Ｂに示すユーザＵ３から最も近い位置に存在する周辺装置７Ｃを、ユーザＵ３の位置の近傍に存在する周辺装置７として抽出してもよい。

係る構成によれば、ユーザに近い周辺装置７から出力される雑音を効率的に低減させることが出来るため、ユーザはより発話し易くなる。

なお、状態制御部３０５による周辺装置７の位置に基づく周辺装置７を抽出方法は、上記に限定されない。例えば、状態制御部３０５は、収音部１２の近傍に存在する周辺装置７を抽出し、抽出された周辺装置７の状態を制御してもよい。また、状態制御部３０５は、上述した抽出方法を組み合わせて、周辺装置７を抽出してもよい。

音場解析部３０７は、収音部１２により収音された音声に基づいて、情報処理装置３の周辺の音場（音波の存在する空間、領域）を解析する。例えば、音場解析部３０７は、収音部１２が有する複数のマイクロフォンの各々から取得される音声に基づき、音場を解析する。音場の解析結果は、音源分離部３０９に提供されてもよい。また、音場解析部３０７は、収音部１２を基準として、音圧レベルの大きい方向を特定し、当該方向を中心とした所定角度範囲に含まれる領域を、雑音発生領域として、状態制御部３０５に提供してもよい。

ユーザ位置取得部３０８は、カメラ１４、及び測距センサ１５から取得されるデータに基づいて、ユーザの位置を取得する。例えばユーザ位置取得部３０８は、顔検出、顔認識技術等を用いて、カメラ１４により取得される画像からユーザを検出し、測距センサ１５から取得されるデータと対応付けることで、ユーザの位置を取得してもよい。ユーザ位置取得部は、取得したユーザ位置を状態制御部３０５、及び音源分離部３０９に提供する。

音源分離部３０９は、音場解析部３０７による音場解析結果と、ユーザの位置に基づいて、ユーザの音声を分離して取得する。音源分離部３０９は例えば、ビームフォーミング法に基づいて雑音とユーザの音声とを分離してもよい。音源分離部３０９により分離されたユーザの音声は、音声認識部３０２に提供される。

（記憶部３７）
記憶部３７は、第一の実施形態で説明した記憶部１７と同様に情報処理装置３の各構成が機能するためのプログラムやパラメータを記憶する。記憶部３７は、記憶部１７が記憶する情報に加え、情報処理装置３の周辺の地図情報を記憶する。また、記憶部３７は、記憶部１７が記憶する情報に加え、周辺装置７の位置の情報を、周辺装置７に関する情報としてさらに記憶する。なお、記憶部１７が記憶する周辺装置７の位置の情報は、例えば情報処理装置を基準とした相対位置の情報であってもよいし、情報処理装置３の周辺の地図情報における周辺装置７の位置の情報であってもよい。

なお、情報処理装置３の周辺の地図情報は、ユーザにより情報処理装置３に入力されてもよいし、カメラ１４や測距センサ１５等の情報に基づいて、情報処理装置３が取得してもよい。また、周辺装置７の位置の情報は、ユーザにより情報処理装置３に入力されてもよいし、周辺装置７から取得されてもよい。

＜３−２．第三の実施形態の動作例＞
以上、本開示の第三の実施形態による情報処理装置３の構成例について説明した。続いて、続いて、本実施形態による情報処理装置３の動作例について、図１０を参照して説明する。

図１０は、本実施形態による情報処理装置３の動作例を示すフローチャートである。まず制御部３０は、図４を参照して説明したステップＳ１１０と同様に、ユーザの発話が予測されるまで発話予測処理を繰り返し行う（Ｓ３１０）。

ユーザの発話が予測された場合（ステップＳ３１０においてＹＥＳ）、ユーザ位置取得部３０８は、ユーザの位置を取得する（Ｓ３１５）。続いて、状態検知部２０４は、周辺装置７にケイパビリティ情報と状態情報の送信要求を送信し、周辺装置７からケイパビリティ情報と状態情報を受信する（Ｓ３２０）。また、状態制御部３０５は、記憶部３７から周辺装置７の位置を取得する（Ｓ３２５）。

続いて、状態制御部３０５は、取得された周辺装置７の位置に基づく条件を満たす周辺装置７を抽出する（Ｓ３３０）。状態制御部３０５は、上述したいずれかの方法により、周辺装置７の位置、または周辺装置７の位置とユーザの位置に基づいて、周辺装置７を抽出してもよい。

続いて、状態制御部３０５は、抽出された周辺装置７の状態情報を記憶部３７に記憶させる（Ｓ３４０）。さらに、状態制御部３０５は、抽出された周辺装置７の状態を制御する（Ｓ３５０）。例えば、状態制御部３０５は、ステップＳ３２０で受信された周辺装置７のケイパビリティ情報と状態情報に基づいて、抽出された周辺装置７の各々に対して、周辺音（雑音）が小さくなるような制御信号を生成して、通信部１１に送信させてもよい。

以降の、図１０に示すステップＳ３６０〜３９０の処理は、図４を参照して説明したステップＳ１６０〜１９０の処理と同様であるため、説明を省略する。

＜３−３．第三の実施形態の効果＞
以上説明したように、本開示の第三の実施形態によれば、ユーザの発話が予測されると、情報処理装置３周辺の周辺装置７の位置との状態情報が取得され、状態情報に基づいて抽出された周辺装置７が出力する雑音が小さくなるように、状態制御が行われる。係る構成により、ユーザの周辺に他の音源が存在する場合であっても、ユーザが発話した際の、音声認識精度を向上させることが可能となる。さらに、本開示の第三の実施形態によれば、周辺装置の位置に基づいて、状態を変更させる周辺装置７を抽出して状態制御を行うことで、より効率的に周辺装置７の状態制御を行うことが可能である。

＜３−４．第三の実施形態の補足＞
なお、上記では周辺装置７の位置に基づいて制御対象の抽出を行う例を説明したが、さらに、第二の実施形態で説明したような周辺装置７の状態に基づく制御対象の抽出が組み合わされて、行われてもよい。

また、周辺装置７の位置に基づいて、制御量（例えば音量レベルを低下させる大きさ）が動的に設定されてもよい。例えば、ユーザにより近い周辺装置７の音量レベルをより小さくさせるように制御量が設定されてもよい。上記のような周辺装置７の位置に基づく制御量の設定は、周辺装置７の位置に基づく制御対象の抽出と組み合わされて行われてもよい。

また、第一の実施形態において説明した各変形例を第三の実施形態に適用することも可能である。
＜＜４．ハードウェア構成例＞＞
以上、本開示の各実施形態を説明した。上述した発話予測処理、状態検知処理、状態制御処理、音声認識処理、意味解析処理等の情報処理は、ソフトウェアと、情報処理装置１〜３との協働により実現される。以下では、本実施形態に係る情報処理装置である情報処理装置１〜３のハードウェア構成例として、情報処理装置１０００のハードウェア構成例について説明する。

図１１は、情報処理装置１０００のハードウェア構成の一例を示す説明図である。図１１に示したように、情報処理装置１０００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１００１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１００２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１００３と、入力装置１００４と、出力装置１００５と、ストレージ装置１００６と、撮像装置１００７と、通信装置１００８とを備える。

ＣＰＵ１００１は、演算処理装置及び制御装置として機能し、各種プログラムに従って情報処理装置１０００内の動作全般を制御する。また、ＣＰＵ１００１は、マイクロプロセッサであってもよい。ＲＯＭ１００２は、ＣＰＵ１００１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ１００３は、ＣＰＵ１００１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバス等から構成されるホストバスにより相互に接続されている。主に、ＣＰＵ１００１、ＲＯＭ１００２及びＲＡＭ１００３とソフトウェアとの協働により、制御部１０、制御部２０、制御部３０の機能が実現される。

入力装置１００４は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ１００１に出力する入力制御回路等から構成されている。情報処理装置１０００のユーザは、該入力装置１００４を操作することにより、情報処理装置１０００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置１００５は、例えば、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ装置、シースルーディスプレイ、及びランプ等の表示装置を含む。さらに、出力装置１００５は、スピーカ及びヘッドホン等の音声出力装置を含む。例えば、表示装置は、撮像された画像や生成された画像等を表示する。一方、音声出力装置は、音声データ等を音声に変換して出力する。出力装置１００５は、例えば図３を参照して説明したスピーカ１３、投影部１６、発光部１８に対応する。

ストレージ装置１００６は、データ格納用の装置である。ストレージ装置１００６は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置及び記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置１００６は、ＣＰＵ１００１が実行するプログラムや各種データを格納する。ストレージ装置１００６は、図３を参照して説明した記憶部１７に対応する。

撮像装置１００７は、光を集光する撮影レンズ及びズームレンズ等の撮像光学系、及びＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）またはＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）等の信号変換素子を備える。撮像光学系は、被写体から発せられる光を集光して信号変換部に被写体像を形成し、信号変換素子は、形成された被写体像を電気的な画像信号に変換する。撮像装置１００７は、図３を参照して説明したカメラ１４に対応する。

通信装置１００８は、例えば、通信網に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置１００８は、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）対応通信装置、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）対応通信装置、有線による通信を行うワイヤー通信装置、またはブルートゥース通信装置を含んでもよい。通信装置１００８は、例えば図３を参照して説明した通信部１１に対応する。

＜＜５．むすび＞＞
以上、説明したように、本開示の実施形態によれば、ユーザの周辺に他の音源が存在する場合であっても、音声認識精度を向上させることが可能である。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記実施形態における各ステップは、必ずしもフローチャート図として記載された順序に沿って時系列に処理する必要はない。例えば、上記実施形態の処理における各ステップは、フローチャート図として記載した順序と異なる順序で処理されても、並列的に処理されてもよい。例えば、第三の実施形態では、周辺装置の状態を検知（取得）した後に所定の条件を満たす周辺装置を抽出する例を説明したが、所定の条件を満たす周辺装置を抽出した後に、抽出された周辺装置の状態を検知してもよい。

また、上記実施形態によれば、ＣＰＵ１００１、ＲＯＭ１００２、及びＲＡＭ１００３などのハードウェアを、上述した情報処理装置１〜３の各構成と同様の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記録媒体も提供される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
雑音の音源となり得る他の装置の状態を検知する状態検知部と、
前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御する状態制御部と、
を備える情報処理装置。
（２）
前記状態検知部は、収音に基づいて前記他の装置の状態を検知する、前記（１）に記載の情報処理装置。
（３）
前記状態検知部は、通信に基づいて前記他の装置の状態を検知する、前記（１）または（２）に記載の情報処理装置。
（４）
前記状態制御部は、前記他の装置の音量レベルを低下させる、前記（１）〜（３）のいずれか一項に記載の情報処理装置。
（５）
前記状態制御部は、前記他の装置の動作モードを変更させる、前記（１）〜（４）のいずれか一項に記載の情報処理装置。
（６）
前記状態制御部は、複数の前記他の装置から、前記他の装置の状態に基づいて抽出された前記他の装置の状態を制御する、前記（１）〜（５）のいずれか一項に記載の情報処理装置。
（７）
前記状態制御部は、さらに前記他の装置の位置に基づいて、前記他の装置の状態を制御する、前記（１）〜（６）のいずれか一項に記載の情報処理装置。
（８）
前記状態制御部は、収音に基づいて特定される雑音発生領域内に存在する他の装置の状態を制御する、前記（７）に記載の情報処理装置。
（９）
前記状態制御部は、さらに前記ユーザの位置に基づいて、前記他の装置の状態を制御する、前記（７）または（８）に記載の情報処理装置。
（１０）
前記状態制御部は、収音部の位置を基準として、前記ユーザの位置と略同一方向に存在する他の装置の状態を制御する、前記（９）に記載の情報処理装置。
（１１）
前記収音部により取得される音声から、前記ユーザの音声を分離して取得する、音源分離部をさらに備える、前記（１０）に記載の情報処理装置。
（１２）
前記状態制御部は、前記ユーザの位置の近傍に存在する他の装置の状態を制御する、前記（９）〜（１１）のいずれか一項に記載の情報処理装置。
（１３）
前記状態制御部は、さらに前記ユーザの発話に基づく音声認識結果に基づいて、前記他の装置の状態を制御する、前記（１）〜（１２）のいずれか一項に記載の情報処理装置。
（１４）
前記状態制御部は、さらに前記ユーザの発話に基づく意味解析結果に基づいて、前記他の装置の状態を制御する、前記（１）〜（１３）のいずれか一項に記載の情報処理装置。
（１５）
雑音の音源となり得る他の装置の状態を検知することと、
前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御することと、
を含む情報処理方法。
（１６）
コンピュータに、
雑音の音源となり得る他の装置の状態を検知する機能と、
前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御する機能と、
を実現させるための、プログラム。

１情報処理装置
７周辺装置
９通信網
１０制御部
１１通信部
１２収音部
１３スピーカ
１４カメラ
１５測距センサ
１６投影部
１７記憶部
１８発光部
１０１発話予測部
１０２音声認識部
１０３意味解析部
１０４状態検知部
１０５状態制御部
１０６出力制御部
３０７音場解析部
３０８ユーザ位置取得部
３０９音源分離部

Claims

雑音の音源となり得る他の装置の状態を検知する状態検知部と、
前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御する状態制御部と、
を備える情報処理装置。
前記状態検知部は、収音に基づいて前記他の装置の状態を検知する、請求項１に記載の情報処理装置。
前記状態検知部は、通信に基づいて前記他の装置の状態を検知する、請求項１に記載の情報処理装置。
前記状態制御部は、前記他の装置の音量レベルを低下させる、請求項１に記載の情報処理装置。
前記状態制御部は、前記他の装置の動作モードを変更させる、請求項１に記載の情報処理装置。
前記状態制御部は、複数の前記他の装置から、前記他の装置の状態に基づいて抽出された前記他の装置の状態を制御する、請求項１に記載の情報処理装置。
前記状態制御部は、さらに前記他の装置の位置に基づいて、前記他の装置の状態を制御する、請求項１に記載の情報処理装置。
前記状態制御部は、収音に基づいて特定される雑音発生領域内に存在する他の装置の状態を制御する、請求項７に記載の情報処理装置。
前記状態制御部は、さらに前記ユーザの位置に基づいて、前記他の装置の状態を制御する、請求項７に記載の情報処理装置。
前記状態制御部は、収音部の位置を基準として、前記ユーザの位置と略同一方向に存在する他の装置の状態を制御する、請求項９に記載の情報処理装置。
前記収音部により取得される音声から、前記ユーザの音声を分離して取得する、音源分離部をさらに備える、請求項１０に記載の情報処理装置。
前記状態制御部は、前記ユーザの位置の近傍に存在する他の装置の状態を制御する、請求項９に記載の情報処理装置。
前記状態制御部は、さらに前記ユーザの発話に基づく音声認識結果に基づいて、前記他の装置の状態を制御する、請求項１に記載の情報処理装置。
前記状態制御部は、さらに前記ユーザの発話に基づく意味解析結果に基づいて、前記他の装置の状態を制御する、請求項１に記載の情報処理装置。
雑音の音源となり得る他の装置の状態を検知することと、
前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御することと、
を含む情報処理方法。
コンピュータに、
雑音の音源となり得る他の装置の状態を検知する機能と、
前記他の装置の状態の検知結果とユーザの発話予測に基づいて、前記他の装置の状態を制御する機能と、
を実現させるための、プログラム。