JP2021096270A

JP2021096270A - 情報処理装置および情報処理方法

Info

Publication number: JP2021096270A
Application number: JP2018059203A
Authority: JP
Inventors: 裕美倉沢; Hiromi Kurasawa; 一美青山; Kazumi Aoyama; 康治浅野; Koji Asano
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2021-06-24
Also published as: WO2019187549A1; US11620997B2; US20210027779A1

Abstract

【課題】動作対象をより精度高く検出する。【解決手段】入力される画像の認識結果に基づいて、音声を出力する物体が音声対話に係る対話対象であるか否かを判定する判定部と、前記判定部による判定に基づいて、前記音声対話に係る制御を行う対話機能部と、を備え、前記対話機能部は、前記判定部により前記物体が前記対話対象であると判定されたことに基づいて、前記物体に対し音声対話機能を提供する、情報処理装置が提供される。また、プロセッサが、入力される画像の認識結果に基づいて、音声を出力する物体が音声対話に係る対話対象であるか否かを判定することと、前記判定の結果に基づいて前記音声対話に係る制御を行うことと、を含み、前記制御を行うことは、前記物体が前記対話対象であると判定されたことに基づいて、前記物体に対し音声対話機能を提供すること、をさらに含む、情報処理方法が提供される。【選択図】図８

Description

本開示は、情報処理装置および情報処理方法に関する。

近年、人の存在を検出し、当該検出の結果に基づいて種々の動作を行う装置が普及している。また、上記のような装置において、動作のトリガーとなる人の検出精度を向上させるための技術が開発されている。例えば、特許文献１には、顔の特徴点の経時的変化を利用することで生身の人物であるか否かを判定する技術が開示されている。係る技術によれば、例えば、ポスターなどの被写体を生身の人物として誤検出することを防止することが可能である。

特開２００８−１８７６７７号公報

しかし、特許文献１に記載の技術では、例えば、テレビジョン装置などに映し出される動画中の人物については、生身の人間であるか否かを判定することが困難である。

そこで、本開示では、動作対象をより精度高く検出することが可能な、情報処理装置および情報処理方法を提案する。

本開示によれば、入力される画像の認識結果に基づいて、音声を出力する物体が音声対話に係る対話対象であるか否かを判定する判定部と、前記判定部による判定に基づいて、前記音声対話に係る制御を行う対話機能部と、を備え、前記対話機能部は、前記判定部により前記物体が前記対話対象であると判定されたことに基づいて、前記物体に対し音声対話機能を提供する、情報処理装置が提供される。

また、本開示によれば、プロセッサが、入力される画像の認識結果に基づいて、音声を出力する物体が音声対話に係る対話対象であるか否かを判定することと、前記判定の結果に基づいて前記音声対話に係る制御を行うことと、を含み、前記制御を行うことは、前記物体が前記対話対象であると判定されたことに基づいて、前記物体に対し音声対話機能を提供すること、をさらに含む、情報処理方法が提供される。

以上説明したように本開示によれば、動作対象をより精度高く検出することが可能となる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の第１の実施形態に係る情報処理装置の機能構成例を示すブロック図である。同実施形態に係る物体の音声出力有無と対話対象該非の一例を示す図である。同実施形態に係る判定部による対話対象判定の流れを示すフローチャートである。同実施形態に係る対話機能部の機能構成例を示すブロック図である。本開示の第２の実施形態に係る情報処理装置１０の機能構成例を示すブロック図である。同実施形態に係る画像格納部に格納される画像の格納形式の一例が示されている。同実施形態に係る動作領域判定部の動作の流れを示すフローチャートである。同実施形態に係る対話対象領域判定部の動作の流れを示すフローチャートである。同実施形態に係る動体領域と物体領域の重複について説明するための図である。同実施形態に係る映像を介した情報処理装置１０の利用について説明するための図である。家庭内において音を出力する装置の一例を示す図である。一般的なエージェント装置が、テレビジョン装置が出力する音声に誤って応答動作を行う場合の一例を示す図である。本開示の一実施形態に係る情報処理装置のハードウェア構成例を示す図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．背景
２．第１の実施形態
２．１．機能構成例
２．２．判定部１９０の機能詳細
２．３．対話機能部１５０の機能詳細
３．第２の実施形態
３．１．概要
３．２．機能構成例
３．３．動体領域判定部１８０の機能詳細
３．４．対話対象領域判定部１４０の機能詳細
４．ハードウェア構成例
５．まとめ

＜１．背景＞
上述したように、近年、人の存在を検出し、当該検出の結果に基づいて種々の動作を行う装置が普及している。上記のような装置には、例えば、検出した人物と音声による対話を行うエージェント装置が挙げられる。エージェント装置は、例えば、検出した人物による音声入力を受け付け、当該音声入力に基づく応答処理を実行したり、検出した人物に対し能動的な情報通知を行うことが可能である。

一方、近年では、上記のようなエージェント装置が一般家庭においても普及すると同時に、音声を用いた情報通知を行う家電機器も増加している。上記の家電機器には、例えば、冷蔵庫、電子レンジ、給湯器などが挙げられる。また、多くの家庭には、従来よりテレビジョン装置やラジオなどの音声出力装置が多々配置されている。

図１１は、家庭内において音を出力する装置の一例を示す図である。図１１では、家庭内に配置される機器や、家庭内に存在する人やペットなどが、音出力および移動の観点から分類されている。なお、図１１に示す一例では、音出力に係る分類として、「音を出す物体」、「自然言語を話す物体」、「人の顔を持つ物体」の３つを用いている。上記３つの分類は、互いに重複してよい。また、図１１に示す一例では、移動に係る分類として、「生き物」、「動く物体」、「動かない物体」の３つを用いている。

ここで、エージェント装置が、対話対象とする人物（図中の「人」）と、「自然言語を話す物体」との判別機能を有しない場合、例えば、テレビジョン装置などが出力する音声をトリガーに、ユーザの意図しない応答動作を行ってしまう可能性がある。

図１２は、一般的なエージェント装置９０が、テレビジョン装置８０が出力する音声に誤って応答動作を行う場合の一例を示す図である。図１２に示す一例の場合、本来の対話対象である人物Ｐ１が、エージェント装置９０に対して、目的地への行き方を問い合わせる発話Ｏ１を行っている。

しかし、エージェント装置９０は、テレビジョン装置８０が再生する動画中の人物Ｐ２を誤って対話対象として検出し、人物Ｐ２の「今日は寒いですね」という発話Ｏ２に対し、「今日の最低気温は５℃です」という音声出力ＳＯ１を行っている。

このように、エージェント装置が、対話対象を正しく検出できない場合、ユーザが想定しない動作を誤って実行する場合があり、ユーザの満足度を低下させるとともに、ユーザに損害を与える可能性も無視できない。

また、上述したように、エージェント装置は、検出した人物に対し能動的な情報通知を行う場合があるが、エージェント装置が誤ってテレビジョン装置などが映し出す動画中の人物やポスターなどの被写体を対話対象とした場合、人がいない無人状態の部屋でも勝手に話し出してしまう可能性がある。

上記のような事態を回避するためには、例えば、赤外線センサなどによる温度検出を利用して生身の人間か否かを判定する手法も想定される。しかし、家庭内でペットなどを飼育している場合、温度情報のみから対話対象を精度高く検出することは困難である。

また、別の手法としては、例えば、バイタル情報に基づいて対象が生身の人物であるか否かを判定することも考えられる。しかし、非接触方式で脈拍などのバイタル情報を取得するためには、装置がバイタル情報を取得できるよう、ユーザが意図的にセンサの方向に顔や体を向けるなどの動作を行う必要があり、日常生活に自然に溶け込んで利用されるエージェント装置には適用が困難である。

また、例えば、可視画像と赤外画像とを同時に撮影し、可視画像から検出された顔領域において赤外画像を用いて脈拍や体温などのバイタル情報を測定し、対象が生身の人物であるか否かを判定することも可能である。しかし、この場合、可視画像と赤外画像とで同一対象を検出しているかの判断が必要となり、当該判断の精度が上記の人物判定の精度に直接的に影響することとなる。また、上記のような手法では、可視画像および赤外画像を撮像する機器を両方搭載することで製造コストが増大することとなる。

本開示に係る技術思想は、上記のような点に着目して発想されてものであり、動作対象をより精度高く検出することを可能とする。このために、本開示の一実施形態に係る情報処理方法を実現する情報処理装置は、入力される画像の認識結果に基づいて、音声を出力する物体が音声対話に係る対話対象であるか否かを判定する判定部と、判定部による判定に基づいて、音声対話に係る制御を行う対話機能部とを備える。また、上記対話機能部は、判定部により上記物体が対話対象であると判定されたことに基づいて、当該物体に対し音声対話機能を提供すること、を特徴の一つとする。

すなわち、本開示の一実施形態に係る情報処理装置は、周囲に存在する種々の機器を物体認識し、特に音声を出力する物体について、当該物体が対話対象であるか否かを判定する機能を有する。本開示の一実施形態に係る情報処理装置によれば、ユーザを煩わせることなく、かつ安価な構成で精度高く対話対象を判定することで、より価値の高い音声対話機能を実現することが可能となる。

＜２．第１の実施形態＞
＜＜２．１．機能構成例＞＞
続いて、本開示の第１の実施形態について説明する。本実施形態に係る情報処理装置１０は、例えば、家庭などに配置される据え置き型のエージェント装置であってよい。本実施形態に係る情報処理装置１０は、上述したように、人などの対話対象を、他の音声出力物体と正しく分離して検出する機能を有し、当該対話対象からの音声入力を受け付け応答動作を行ったり、当該対話対象に対し能動的な通知を行うことが可能である。

まず、本実施形態に係る情報処理装置１０の機能構成例について説明する。図１は、本実施形態に係る情報処理装置１０の機能構成例を示すブロック図である。図１を参照すると、本実施形態に係る情報処理装置１０は、画像入力部１１０、音声入力部１２０、判定部１９０、対話機能部１５０、音声出力部１６０を備える。

（画像入力部１１０）
本実施形態に係る画像入力部１１０は、カメラなどの撮像装置により撮像された画像を受け付け判定部１９０に引き渡す。このために、本実施形態に係る画像入力部１１０は、各種の撮像装置を備えてもよい。一方、本実施形態に係る画像入力部１１０は、情報処理装置１０の外部に存在する撮像装置が撮像した画像をネットワークを介して取得してもよい。

（音声入力部１２０）
本実施形態に係る音声入力部１２０は、周囲において発生する種々の音に係る情報を受け付け、判定部１９０や対話機能部１５０に引き渡す。このために、本実施形態に係る音声入力部１２０は、マイクロフォンを備えてもよい。一方、本実施形態に係る音声入力部１２０は、情報処理装置１０の外部に存在する装置が収集した音の情報をネットワークを介して取得してもよい。

（判定部１９０）
本実施形態に係る判定部１９０は、入力される画像の認識結果に基づいて、音声を出力する物体が音声対話に係る対話対象であるか否かを判定する機能を有する。本実施形態に係る対話対象は、例えば、情報処理装置１０と同一の物理空間に存在する人物であってもよい。一方、本実施形態に係る対話対象は、予め指定された所定の装置であってもよい。

本実施形態に係る判定部１９０は、上記の判定を実現するために、例えば、音声出力物体検出部１３０と対話対象領域判定部１４０とを備える。

（音声出力物体検出部１３０）
本実施形態に係る音声出力物体検出部１３０は、画像入力部１１０から入力される画像に基づいて物体認識を行い、音声を出力する物体に係る物体領域を検出機能を有する。

（対話対象領域判定部１４０）
本実施形態に係る対話対象領域判定部１４０は、音声出力物体検出部１３０が検出した物体領域の中から対話対象に係る対話対象領域を特定する機能を有する。本実施形態に係る対話対象領域判定部１４０は、例えば、検出された物体領域が人物領域であるか否かを判定することができる。本実施形態に係る対話対象領域判定部１４０が有する機能の詳細については別途後述する。

（対話機能部１５０）
本実施形態に係る対話機能部１５０は、判定部１９０による判定に基づいて、音声対話に係る制御を行う。この際、本実施形態に係る対話機能部１５０は、判定部１９０により、認識された物体が対話対象であると判定されたことに基づいて、当該物体に対し音声対話機能を提供すること、を特徴の一つとする。

具体的には、対話機能部１５０は、判定部１９０により、物体が対話対象であると判定された場合、当該物体に対し能動的な話しかけ（通知）を行ってよい。一方、判定部１９０により、物体が対話対象ではないと判定された場合、対話機能部１５０は、当該物体に対し能動的な音声出力を行わないよう制御する。

また、対話機能部１５０は、判定部１９０により、物体が対話対象であると判定された場合、当該物体が出力する音声を受け付け応答動作を行ってよい。一方、判定部１９０により、物体が対話対象ではないと判定された場合、対話機能部１５０は、当該物体が出力する音声に対し応答動作を行わないよう制御する。なお、上記の応答動作には、例えば、ユーザの問い合わせに対する音声や視覚情報を用いた回答の出力や、ユーザの指示に基づく機器操作などが広く含まれる。

本実施形態に係る対話機能部１５０が有する上記の機能によれば、対話対象と判定された物体にのみ対話機能を提供することで、ユーザの想定しない動作を防止し、また不要な応答動作による消費電力の増大などを防ぐことができる。なお、本実施形態に係る対話機能部１５０が有する機能の詳細については別途後述する。

（音声出力部１６０）
本実施形態に係る音声出力部１６０は、対話機能部１５０による制御に基づいて、対話対象に対し音声出力を行う。このために、本実施形態に係る音声出力部１６０は、スピーカーやアンプなどを備える。

以上、本実施形態に係る情報処理装置１０の機能構成例について説明した。なお、図１を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理装置１０の機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理装置１０は、上記の構成に加え、ユーザによる入力操作を受け付けるための入力部や、視覚情報を出力する出力部などをさらに備えてよい。一方で、上記で述べたような撮像機能、音収集機能、音声出力機能などは、情報処理装置１０とは異なる外部装置により実現されてもよい。本実施形態に係る情報処理装置１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜２．２．判定部１９０の機能詳細＞＞
次に、本実施形態に係る判定部１９０が有する機能の詳細について説明する。本実施形態に係る判定部１９０は、入力される画像に対し物体認識を行い、認識した物体が音声を出力するか否か、また対話対象であるか否かを判定することで、画像中における対話対象領域を特定することができる。

この際、本実施形態に係る判定部１９０は、例えば、図２に示すようなテーブルに基づいて、上記の判定を行ってもよい。図２は、本実施形態に係る物体の音声出力有無と対話対象該非の一例を示す図である。図２には、本実施形態に係る判定部１９０により認識された物体のラベルと、当該物体の音声出力有無および対話対象該非が対応付けられて示されている。

このように、本実施形態に係る判定部１９０は、認識した物体が音声を出力するか否か、また対話対象であるか否かを、図２に示すようなテーブルを参照することで判定することができる。なお、図２に示す一例では、一般に自然言語を出力し得る物体について、音声出力有無を「１」に設定している。一方、本実施形態にテーブルは、自然言語を問わず音声を出力するか否かに基づいて作成されてもよい。

また、図２に示す一例では、認識される物体を一般名称レベルで示しているが、本実施形態に係るテーブルは、例えば、製品レベルで細分化されて作成することも可能である。

なお、判定部１９０は、物体認識ラベルを得るために、認識対象ごとに個別の物体認識アルゴリズムを用いてもよいし、単一の物体認識アルゴリズムにより複数の物体認識ラベルを付与してもよい。例えば、人物の認識を個別に行う場合、判定部１９０は、顔検出アルゴリズムを用いて判定した顔領域と物理的に繋がっている物体全体を人物としてラベル付けを行うことができる。あるいは、複数の物体認識ラベルを付与するアルゴリズムにより顔領域、個別の機器の判別などを同時に行ってもよい。なお、上記のような物体認識は、音声出力物体検出部１３０の機能として実現されてもよい。

また、図２に示す一例では、対話対象を人に限定し、人に係る対話対象該非のみが「１」に設定されている。一方、本実施形態に係る対話対象は係る例に限定されない。本実施形態に係る対話対象は、設定された所定の音声出力装置などであってもよい。

例えば、火災報知器が火災の発生に係る音声を出力した場合、情報処理装置１０が当該音声を受け付け、ユーザに対し避難経路を示すことなどの需要も想定される。この場合、火災報知器に係る対話対象該非を「１」に設定することで、上記のような動作を実現することが可能である。

一方、火災報知器の対話対象該非を「１」に設定した場合、情報処理装置１０が、火災報知器に対しても能動的な通知を行ってしまう可能性が生じる。このような事態を防ぐために、本実施形態に係る対話対象該非は、受理対象該非および通知対象該非に分離して設定されてもよい。

この場合、火災報知器に係る受理対象該非および通知対象該非は、それぞれ「１」および「０」に設定されてよい。上記の設定によれば、判定部１９０が、火災報知器を受理対象ではあるが通知対象ではないと判定することで、対話機能部１５０が火災報知器に対し不要な能動的通知を行うことを防止することが可能となる。

次に、本実施形態に係る判定部１９０による対話対象判定の流れについて説明する。図３は、本実施形態に係る判定部１９０による対話対象判定の流れを示すフローチャートである。なお、以下では、上述した対話対象領域判定部１４０が動作の主体となる場合を例に説明する。

図３を参照すると、まず、対話対象領域判定部１４０が、音声出力物体検出部１３０が検出した物体ｉについて、物体認識ラベル、音声出力有無、対話対象該非に係る情報を受け付ける（Ｓ３０１）。なお、対話対象領域判定部１４０は、音声出力物体検出部１３０から上記すべての情報を受け取ってもよく、音声出力物体検出部１３０が検出した物体の物体認識ラベルを受け付け、物体認識ラベルに基づいて図２に示したようなテーブルから音声出力有無および対話対象該非を取得してもよい。

次に、対話対象領域判定部１４０は、ステップＳ３０１で受け付けた情報に基づいて、物体ｉが対話対象であるか否かを判定する（Ｓ３０２）。

ここで、物体ｉが対話対象である場合（Ｓ３０２：ＹＥＳ）、対話対象領域判定部１４０は、物体ｉに係る物体領域を対話対象領域として物体ごとに出力する（Ｓ３０３）。

一方、物体ｉが対話対象ではない場合（Ｓ３０２：ＮＯ）、対話対象領域判定部１４０は、判定処理を終了する。

＜＜２．３．対話機能部１５０の機能詳細＞＞
次に、本実施形態に係る対話機能部１５０が有する機能について詳細に説明する。図４は、本実施形態に係る対話機能部１５０の機能構成例を示すブロック図である。図４を参照すると、本実施形態に係る対話機能部１５０は、入力部４１０、解析部４２０、対話制御部４３０、および応答生成部４４０を備える。

（入力部４１０）
本実施形態に係る入力部４１０は、判定部１９０による判定結果や、音声入力部１２０により取得された音声、また画像入力部１１０により取得された画像やセンサ情報などを受け付ける。

（解析部４２０）
本実施形態に係る解析部４２０は、入力部４１０が受け付けた各種の入力情報に基づく解析処理を実行する。解析部４２０は、例えば、音声認識処理を実行し、音声をテキスト情報に変換する。また、解析部４２０は、上記テキストから発話意図などを解析してよい。

(対話制御部４３０)
本実施形態に係る対話制御部４３０は、解析部４２０による解析の結果に基づいて、実行する応答動作を決定する。

（応答生成部４４０）
本実施形態に係る応答生成部４４０は、対話制御部４３０による制御に基づいて、応答情報を生成する。上記の応答情報は、例えば、音声やテキスト、画像、また機器操作に係る制御信号を含む。応答生成部４４０は、生成した応答情報を音声出力部１６０などの制御対象に送信し当該応答情報に基づいて動作させる。

以上、本実施形態に係る対話機能部１５０が備える各構成の基本機能について説明した。続いて、上記各構成が判定部１９０による判定結果を動作に利用する場合について例をあげて説明する。

判定部１９０により物体が対話対象領域を１つ以上特定できなかった場合、例えば、応答生成部４４０は、応答情報の生成を行わないか、生成した応答情報を制御対象に送信しないでよい。

また、判定部１９０により物体が対話対象領域を１つ以上特定できなかった場合、例えば、対話制御部４３０は、応答動作の決定に係る処理を実行しなくてもよい。

判定部１９０により物体が対話対象領域を１つ以上特定できなかった場合、解析部４２０は、入力情報に基づく解析処理を実行しなくてもよい。

判定部１９０により物体が対話対象領域を１つ以上特定できなかった場合、入力部４１０は、入力された情報を破棄してもよい。

このように、本実施形態に係る対話機能部１５０は、判定部１９０による判定結果に基づいて、いずれかの処理の段階で、対話対象ではない物体に対し応答動作が行われないよう制御することが可能である。

以上説明したように、本実施形態に係る情報処理装置１０によれば、音声を出力する物体が対話対象であるか否かを精度高く判定し、誤作動などを効果的に防止することが可能となる。

＜３．第２の実施形態＞
＜＜３．１．概要＞＞
次に、本開示の第２の実施形態について説明する。上記の第１の実施形態では、情報処理装置１０が物体認識結果に基づいて対話対象領域を特定する場合について述べた。

一方、近年では、人物の姿や音声を含む動画を出力する装置が多く普及している。上記の装置には、テレビジョン装置の他、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット、スマートフォン、プロジェクタ、テレビ電話などが挙げられる。このため、物体認識結果のみからでは、上記の動画中の人物と実際に物理空間に存在する人物とを区別することが困難な場合も想定される。

そこで、本開示の第２の実施形態に係る情報処理装置１０は、第１の実施形態で述べた物体認識に加え、動体認識に基づく対話対象の判定を行ってよい。本実施形態に係る情報処理装置１０は、特に、人物の顔を有する物体が、生身の人間であるか否かを判定することができる。具体的には、本実施形態に係る情報処理装置１０は、動体認識結果を判定に利用することで、動画中やポスターなどに映し出される人物と、物理空間に実際に存在する人物とを弁別することが可能である。

以下、本実施形態に係る情報処理装置１０が有する上記の特徴について詳細に説明する。なお、以下の説明においては、第１の実施形態との差異について中心に述べ、第１の実施形態と共通する構成、機能、効果などについては、重複する説明を省略する。

＜＜３．２．機能構成例＞＞
まず、本実施形態に係る情報処理装置１０の機能構成例について説明する。図５は、本実施形態に係る情報処理装置１０の機能構成例を示すブロック図である。図５を参照すると、本実施形態に係る情報処理装置１０の判定部１９０は、第１の実施形態で説明した構成に加え、画像格納部１７０および動体領域判定部１８０をさらに備える。

（画像格納部１７０）
本実施形態に係る画像格納部は、画像入力部１１０から入力された画像を格納するためのデータベースを有する。図６は本実施形態に係る画像格納部１７０に格納される画像の格納形式の一例が示されている。図６を参照すると、本実施形態に係る画像格納部１７０が有するデータベース６０１には、画像入力部１１０から入力された画像が、時間６０２および画像ファイル名６０３と共に格納される。なお、図６に示す一例では、時間６０２が、「ｙｙｙｙＭＭｄｄＨＨｍｍｓｓ」形式で保存される場合を示している。

図６に示すように、本実施形態に係る画像格納部１７０には、入力された画像が当該入力順に格納されてもよい。

（動体領域判定部１８０）
本実施形態に係る動体領域判定部１８０は、時系列に入力される画像、すなわち、画像格納部１７０に格納される画像に基づいて動体領域を判定する機能を有する。また、本実施形態に係る動体領域判定部１８０は、判定した動体に対し、画像格納部１７０に格納される過去の画像から現在の入力画像まで追尾し、当該動体の動作範囲を出力してよい。

本実施形態に係る対話対象領域判定部１４０は、動体領域判定部１８０が判定した動体領域と音声出力物体検出部１３０が判定した物体領域とに基づいて、対話対象領域を統合的に特定することができる。

また、本実施形態に係る対話対象領域判定部１４０は、動体領域判定部１８０が出力する動体の動作範囲に基づいて、対話対象領域を精度高く判定することが可能である。

＜＜３．３．動体領域判定部１８０の機能詳細＞＞
続いて、本実施形態に係る動体領域判定部１８０が有する機能について詳細に説明する。図７は、本実施形態に係る動体領域判定部１８０の動作の流れを示すフローチャートである。

図７を参照すると、まず、動体領域判定部１８０には、画像入力部１１０が受け付けた最新の画像ｐが入力される（Ｓ７０１）。

次に、動体領域判定部１８０は、画像格納部１７０に格納されている画像を読み込む（Ｓ７０２）。

次に、動体領域判定部１８０は、ステップＳ７０２において読み込んだ画像を時系列に並べ、末尾にステップＳ７０１において入力された最新の画像ｐを追加し、画像群Ｐを得る（Ｓ７０３）。

次に、動体領域判定部１８０は、ステップＳ７０３において得られた画像群Ｐにおいて、動く領域と動かない領域とを解析する（Ｓ７０４）。この際、動体領域判定部１８０は、画像群Ｐを時系列に連続する静止画像として、差分を取るなどして上記の領域を解析してもよい。一方で、動体領域判定部１８０は、画像群Ｐをひとつの動画像のセットとして入力し当該セット全体の特徴量を分析するなどして上記の領域解析を行ってもよい。

次に、動体領域判定部１８０は、画像群Ｐにおいて同一の動体と推定される領域を判定し、さらに画像群Ｐに基づいて上記動体の動作範囲Ｒｉを算出する（Ｓ７０５）。

次に、動体領域判定部１８０は、ステップＳ７０１で入力された画像ｐにおいて、ステップＳ７０４で動体と判定された動体領域Ａｉと、当該動体に係る動作範囲Ｒｉの情報を動体ごとに出力する（Ｓ７０６）。

次に、動体領域判定部１８０は、画像ｐを画像格納部１７０に登録する（Ｓ７０７）。

＜＜３．４．対話対象領域判定部１４０の機能詳細＞＞
続いて、本実施形態に係る対話対象領域判定部１４０が有する機能について詳細に説明する。図８は、本実施形態に係る対話対象領域判定部１４０の動作の流れを示すフローチャートである。

図８を参照すると、まず、対話対象領域判定部１４０には、動体領域判定部１８０により判定された動体領域Ａｉと動作範囲Ｒｉが入力される（Ｓ８０１）。

次に、対話対象領域判定部１４０に、音声出力物体検出部１３０により検出された物体領域Ｆｉが入力される（Ｓ８０２）。

次に、対話対象領域判定部１４０は、ステップＳ８０１で入力された動体領域ＡｉとステップＳ８０２で入力された物体領域Ｆｉが同一の物体に由来するものか否かを判定する（Ｓ８０３）。すなわち、対話対象領域判定部１４０は、動体領域Ａｉに係る動体が物体領域Ｆｉに係る物体と同一であるか否かを判定する。

この際、対話対象領域判定部１４０は、例えば、動体領域Ａｉと物体領域Ｆｉとの少なくとも一部が重複している場合、動体領域Ａｉに係る動体と物体領域Ｆｉに係る物体が同一であると判定してもよい。

ここで、動体領域Ａｉに係る動体と物体領域Ｆｉに係る物体が同一であると判定できない場合（Ｓ８０３：ＮＯ）、続いて、対話対象領域判定部１４０は、動体領域Ａｉに係る動体が過去に対話対象として判定されたことがあるか否かを判定する（Ｓ８０４）。

ここで、動体領域Ａｉに係る動体が過去に対話対象として判定されたことがない場合（Ｓ８０４：ＮＯ）、対話対象領域判定部１４０は、動体領域Ａｉに係る動体が対話対象ではないと判定し処理を終了する。

一方、動体領域Ａｉに係る動体が過去に対話対象として判定されたことがある場合（Ｓ８０４：ＹＥＳ）、対話対象領域判定部１４０は、動体領域Ａｉを対話対象領域として特定し（Ｓ８０８）、処理を終了する。

ここで、図９を参照して、ステップＳ８０３およびＳ８０４における判定について詳細に説明する。

図９は、本実施形態に係る動体領域と物体領域の重複について説明するための図である。図９の上段には、時系列における人物の動作例が示されている。人物Ｕ_ｔ１は、時刻ｔ１におけるユーザＵの画像を、人物Ｕ_ｔ２は、時刻ｔ２におけるユーザＵの画像を、人物Ｕ_ｔ３は、時刻ｔ３におけるユーザＵの画像を、それぞれ示している。

また、図９の中段には、上段に示すユーザＵの画像に基づいて検出された物体領域Ｆｉの一例が示されている。図９に示す一例では、ユーザＵの顔が撮像できている時刻ｔ１およびｔ２において物体領域Ｆ_ｔ１およびＦ_ｔ２がそれぞれ検出されている。

また、図９の下段には、上段に示すユーザＵの画像に基づいて検出された動体領域Ｆｉの一例が示されている。図９に示す一例では、ユーザＵの画像に基づいて、時刻ｔ１〜Ｔ３において物体領域Ｆ_ｔ１〜Ｆ_ｔ３がそれぞれ検出されている。

ここで、物体領域Ｆｉと動体領域Ａｉを比較すると、時刻ｔ３においては、ユーザＵの顔が撮像されていないため、物体領域Ｆｉが検出されていない。

このような場合、対話対象領域判定部１４０は、過去におけるいずれかの時点で動体領域Ａｉと物体領域Ｆｉとの少なくとも一部が重複しており、当該動体領域Ａｉが対話対象領域として特定されているか否かを判定してよい。この際、例えば、図示するように、過去のいずれかの時点において、動体領域Ａｉと物体領域Ｆｉとの少なくとも一部が重複しており、かつ当該動体領域Ａｉが対話対象領域として特定されている場合、対話対象領域判定部１４０は、最新の画像における動体領域Ａ_ｔ３を対話対象領域として特定することが可能である。

本実施形態に係る対話対象領域判定部１４０が有する上記の機能によれば、例えば、ユーザが後ろを向くなどして物体領域Ｆｉが一時的に検出できなくなった場合でも、判定の精度が下がることを防止することができる。

再び図８を参照して、対話対象領域判定部１４０による動作の流れについて引き続き説明する。

ステップＳ８０３において、動体領域Ａｉに係る動体と物体領域Ｆｉに係る物体が同一であると判定した場合（Ｓ８０３：ＹＥＳ）、対話対象領域判定部１４０は、続いて、物体領域Ｆｉに係る物体が人物であるか否かを判定する（Ｓ８０５）。

ここで、物体領域Ｆｉに係る物体が人物ではない場合（Ｓ８０５：ＮＯ）、対話対象領域判定部１４０は、続いて、物体領域Ｆｉに係る物体が対話対象であるか否かを判定する（Ｓ８０６）。

ここで、物体領域Ｆｉに係る物体が対話対象ではない場合（Ｓ８０６：ＮＯ）、対話対象領域判定部１４０は、処理を終了する。

一方、物体領域Ｆｉに係る物体が対話対象であると判定した場合（Ｓ８０６：ＹＥＳ）、対話対象領域判定部１４０は、動体領域Ａｉを対話対象領域として特定し（Ｓ８０８）、処理を終了する。

また、ステップＳ８０４において物体領域Ｆｉに係る物体が人物であると判定した場合（Ｓ８０５：ＹＥＳ）、対話対象領域判定部１４０は、続いて、動体領域Ａｉの動作範囲Ｒｉが所定の範囲Ｔｉを超えるか否かを判定する（Ｓ８０７）。

ここで、動体領域Ａｉの動作範囲Ｒｉが所定の範囲Ｔｉを超える場合（Ｓ８０７：ＹＥＳ）、対話対象領域判定部１４０は、動体が人物であると判定し、動体領域Ａｉを対話対象領域として特定し（Ｓ８０８）、処理を終了する。

上記の判定は、通常、物理空間に実際に存在する人物は、動画中の人物と比べ動作範囲が著しく大きいことが予想されるためである。

なお、上記の所定の範囲Ｒｉは、予め定められた一定の値であってもよいし、物体認識に基づいて決定されてもよい。例えば、物体がテレビジョン装置と認識された場合、所定の範囲Ｒｉは、当該テレビジョン装置の表示領域の大きさに基づいて決定されてもよい。

すなわち、対話対象領域判定部１４０は、動体領域Ａｉの動作範囲Ｒｉが、テレビジョン装置などに対応する領域を超えない場合には、当該動体領域Ａｉが動画中の被写体であると判定することが可能である。

一方、動体領域Ａｉの動作範囲Ｒｉが、物体に対応する領域を超える場合、対話対象領域判定部１４０は、動体領域Ａｉが物理空間に実在する人物に対応するものであると判定することができる。本実施形態に係る対話対象領域判定部１４０が有する上記の機能によれば、物理空間に実在する人物がテレビジョン装置などと同一方向に居る場合でも、当該人物を精度高く検出することが可能となる。

以上、本実施形態に係る対話対象領域判定部１４０の動作の流れについて説明した。なお、本実施形態に係る対話対象領域判定部１４０の機能は、フローチャートに示した処理に限定されない。

本実施形態に係る対話対象領域判定部１４０は、上述したような判定結果や認識結果を画像格納部１７０に登録し、後の解析に再利用してもよい。対話対象領域判定部１４０は、例えば、対話対象であると判定した動体に追従する追従物体に対応する動体領域を、当該動体に対応する対話対象領域から除外することなどが可能である。

本実施形態に係る対話対象領域判定部１４０が有する上記の機能によれば、例えば、人物が所持するスマートフォンなどから出力する音声を受け付けないよう制御することなどが可能となる。

また、本実施形態に係る対話対象領域判定部１４０は、情報処理装置１０の位置が変化した場合、判定結果や認識結果をリセットする機能を有してもよい。これは、情報処理装置１０の位置が変化することにより、認識済の物体との相対位置が変化するためである。

また、上記では、動画中の人物に関しては対話対象として扱わない場合を主な例として述べたが、例えば、ユーザがテレビ電話などの映像を介して、情報処理装置１０に指示を与えたい場合や、情報処理装置１０から情報を得たい場合なども想定される。このため、本実施形態に係る判定部１９０は、所定の装置が出力する音声が登録されたユーザの音声であると推定された場合、当該所定の装置を対話対象であると判定してもよい。

図１０は、本実施形態に係る映像を介した情報処理装置１０の利用について説明するための図である。図１０では、ユーザＵが、テレビジョン装置８０に映し出される動画を介して情報処理装置１０に対し発話Ｏ３を行い、情報処理装置１０から音声出力ＳＯ２による回答を得る場合の一例が示されている。

この際、本実施形態に係る判定部１９０は、テレビジョン装置８０に映し出されるユーザＵの顔を認識することで、テレビジョン装置８０から出力される音声が対話対象であるユーザの音声であることを推定してもよい。また、判定部１９０は、テレビジョン装置８０から出力される音声に基づく話者認識を行い、当該音声がユーザの音声であることを推定してもよい。

このように、本実施形態に係る判定部１９０の機能によれば、映像を介して遠隔的に情報処理装置１０を利用したいユーザを正しく認識し、高価値な対話機能を実現することが可能である。

＜４．ハードウェア構成例＞
次に、本開示の一実施形態に係る情報処理装置１０のハードウェア構成例について説明する。図１３は、本開示の一実施形態に係る情報処理装置１０のハードウェア構成例を示すブロック図である。図１３を参照すると、情報処理装置１０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（プロセッサ８７１）
プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

（ＲＯＭ８７２、ＲＡＭ８７３）
ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

（入力装置８７８）
入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

（出力装置８７９）
出力装置８７９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカー、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

（ストレージ８８０）
ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

（ドライブ８８１）
ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ−ｒａｙ（登録商標）メディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

（接続ポート８８２）
接続ポート８８２は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）、ＲＳ−２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

（外部接続機器９０２）
外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

（通信装置８８３）
通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、又は各種通信用のモデム等である。

＜５．まとめ＞
以上説明したように、本開示の一実施形態に係る情報処理装置１０は、入力される画像の認識結果に基づいて、音声を出力する物体が音声対話に係る対話対象であるか否かを判定する判定部１９０と、判定部１９０による判定に基づいて、音声対話に係る制御を行う対話機能部１５０とを備える。また、本開示の一実施形態に係る対話機能部１５０は、判定部１９０により上記物体が対話対象であると判定されたことに基づいて、当該物体に対し音声対話機能を提供することを特徴の一つとする。係る構成によれば、動作対象をより精度高く検出することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、情報処理装置１０が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

また、本明細書の情報処理装置１０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理装置１０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
入力される画像の認識結果に基づいて、音声を出力する物体が音声対話に係る対話対象であるか否かを判定する判定部と、
前記判定部による判定に基づいて、前記音声対話に係る制御を行う対話機能部と、
を備え、
前記対話機能部は、前記判定部により前記物体が前記対話対象であると判定されたことに基づいて、前記物体に対し音声対話機能を提供する、
情報処理装置。
（２）
前記対話機能部は、前記判定部により前記物体が前記対話対象ではないと判定されたことに基づいて、前記物体に対する能動的な音声出力を行わない、
前記（１）に記載の情報処理装置。
（３）
前記対話機能部は、前記判定部により前記物体が前記対話対象ではないと判定されたことに基づいて、前記物体が出力する音声に対し応答を行わない、
前記（１）または（２）に記載の情報処理装置。
（４）
前記判定部は、前記物体が前記音声対話に係る受理対象または通知対象であるか否かを判定し、
前記対話機能部は、前記判定部により前記物体が前記受理対象であると判定された場合、前記物体が出力する音声を受け付け、前記判定部により前記物体が前記通知対象であると判定された場合、前記物体に対し能動的な音声出力を行う、
前記（１）〜（３）のいずれかに記載の情報処理装置。
（５）
前記判定部は、物理空間に存在する人物を前記対話対象であると判定する、
前記（１）〜（４）のいずれかに記載の情報処理装置。
（６）
前記判定部は、予め指定された所定の装置を前記対話対象であると判定する、
前記（１）〜（５）のいずれかに記載の情報処理装置。
（７）
前記判定部は、前記所定の装置が出力する音声が登録されたユーザの音声であると推定された場合、前記所定の装置を前記対話対象であると判定する、
前記（６）に記載の情報処理装置。
（８）
前記判定部は、
前記画像に基づいて前記物体に係る物体領域を検出する音声出力物体検出部と、
前記音声出力物体検出部が検出した前記物体領域の中から前記対話対象に係る対話対象領域を特定する対話対象領域判定部、
を備える、
前記（１）〜（７）のいずれかに記載の情報処理装置。
（９）
前記判定部は、時系列に連続して入力される前記画像に基づいて動体領域を判定する動体領域判定部、をさらに備え、
前記対話対象領域判定部は、前記動体領域と前記物体領域とに基づいて、前記対話対象領域を特定する、
前記（８）に記載の情報処理装置。
（１０）
前記対話対象領域判定部は、前記動体領域に係る動体が前記物体領域に係る前記物体と同一であるか否かを判定し、当該判定の結果に基づいて前記対話対象領域を特定する、
前記（９）に記載の情報処理装置。
（１１）
前記対話対象領域判定部は、前記動体領域と前記物体領域との少なくとも一部が重複していることに基づいて、前記動体と前記物体とが同一であると判定し、前記動体領域を前記対話対象領域として特定する、
前記（１０）に記載の情報処理装置。
（１２）
前記対話対象領域判定部は、前記動体領域に係る動体が過去に前記対話対象として判定されたことがある場合、前記動体領域を前記対話対象領域として特定する、
前記（１１）に記載の情報処理装置。
（１３）
前記対話対象領域判定部は、前記動体領域の動作範囲に基づいて前記対話対象領域を特定する、
前記（９）〜（１２）のいずれかに記載の情報処理装置。
（１４）
前記対話対象領域判定部は、前記動作範囲が閾値を超えることに基づいて、前記動体領域を前記対話対象領域として特定する、
前記（１３）に記載の情報処理装置。
（１５）
前記対話対象領域判定部は、前記動作範囲が前記物体に対応する領域を超えない場合、前記動体領域が前記対話対象領域ではないと判定する、
前記（１３）または（１４）に記載の情報処理装置。
（１６）
前記対話対象領域判定部は、前記動体と前記物体とが同一であると判定した場合、前記物体が前記対話対象であることに基づいて、前記動体領域を前記対話対象として特定する、
前記（１０）または（１１）に記載の情報処理装置。
（１７）
前記対話対象領域判定部は、前記動体と前記物体とが同一であると判定した場合、前記物体が人物であることに基づいて、前記動体領域を前記対話対象として特定する、
前記（１０）または（１１）に記載の情報処理装置。
（１８）
前記対話対象領域判定部は、前記対話対象であると判定した前記物体に追従する追従物体に対応する前記動体領域を、前記対話対象領域から除外する、
前記（９）〜（１７）のいずれかに記載の情報処理装置。
（１９）
前記判定部は、前記情報処理装置の配置が変化した場合、前記対話対象に係る判定結果をリセットする、
前記（１）〜（１８）のいずれかに記載の情報処理装置。
（２０）
プロセッサが、入力される画像の認識結果に基づいて、音声を出力する物体が音声対話に係る対話対象であるか否かを判定することと、
前記判定の結果に基づいて前記音声対話に係る制御を行うことと、
を含み、
前記制御を行うことは、前記物体が前記対話対象であると判定されたことに基づいて、前記物体に対し音声対話機能を提供すること、
をさらに含む、
情報処理方法。

１０情報処理装置
１１０画像入力部
１２０音声入力部
１３０音声出力物体検出部
１４０対話対象領域判定部
１５０対話機能部
１６０音声出力部
１７０画像格納部
１８０動体領域判定部
１９０判定部

Claims

入力される画像の認識結果に基づいて、音声を出力する物体が音声対話に係る対話対象であるか否かを判定する判定部と、
前記判定部による判定に基づいて、前記音声対話に係る制御を行う対話機能部と、
を備え、
前記対話機能部は、前記判定部により前記物体が前記対話対象であると判定されたことに基づいて、前記物体に対し音声対話機能を提供する、
情報処理装置。
前記対話機能部は、前記判定部により前記物体が前記対話対象ではないと判定されたことに基づいて、前記物体に対する能動的な音声出力を行わない、
請求項１に記載の情報処理装置。
前記対話機能部は、前記判定部により前記物体が前記対話対象ではないと判定されたことに基づいて、前記物体が出力する音声に対し応答を行わない、
請求項１に記載の情報処理装置。
前記判定部は、前記物体が前記音声対話に係る受理対象または通知対象であるか否かを判定し、
前記対話機能部は、前記判定部により前記物体が前記受理対象であると判定された場合、前記物体が出力する音声を受け付け、前記判定部により前記物体が前記通知対象であると判定された場合、前記物体に対し能動的な音声出力を行う、
請求項１に記載の情報処理装置。
前記判定部は、物理空間に存在する人物を前記対話対象であると判定する、
請求項１に記載の情報処理装置。
前記判定部は、予め指定された所定の装置を前記対話対象であると判定する、
請求項１に記載の情報処理装置。
前記判定部は、前記所定の装置が出力する音声が登録されたユーザの音声であると推定された場合、前記所定の装置を前記対話対象であると判定する、
請求項６に記載の情報処理装置。
前記判定部は、
前記画像に基づいて前記物体に係る物体領域を検出する音声出力物体検出部と、
前記音声出力物体検出部が検出した前記物体領域の中から前記対話対象に係る対話対象領域を特定する対話対象領域判定部、
を備える、
請求項１に記載の情報処理装置。
前記判定部は、時系列に連続して入力される前記画像に基づいて動体領域を判定する動体領域判定部、をさらに備え、
前記対話対象領域判定部は、前記動体領域と前記物体領域とに基づいて、前記対話対象領域を特定する、
請求項８に記載の情報処理装置。
前記対話対象領域判定部は、前記動体領域に係る動体が前記物体領域に係る前記物体と同一であるか否かを判定し、当該判定の結果に基づいて前記対話対象領域を特定する、
請求項９に記載の情報処理装置。
前記対話対象領域判定部は、前記動体領域と前記物体領域との少なくとも一部が重複していることに基づいて、前記動体と前記物体とが同一であると判定し、前記動体領域を前記対話対象領域として特定する、
請求項１０に記載の情報処理装置。
前記対話対象領域判定部は、前記動体領域に係る動体が過去に前記対話対象として判定されたことがある場合、前記動体領域を前記対話対象領域として特定する、
請求項１１に記載の情報処理装置。
前記対話対象領域判定部は、前記動体領域の動作範囲に基づいて前記対話対象領域を特定する、
請求項９に記載の情報処理装置。
前記対話対象領域判定部は、前記動作範囲が閾値を超えることに基づいて、前記動体領域を前記対話対象領域として特定する、
請求項１３に記載の情報処理装置。
前記対話対象領域判定部は、前記動作範囲が前記物体に対応する領域を超えない場合、前記動体領域が前記対話対象領域ではないと判定する、
請求項１３に記載の情報処理装置。
前記対話対象領域判定部は、前記動体と前記物体とが同一であると判定した場合、前記物体が前記対話対象であることに基づいて、前記動体領域を前記対話対象として特定する、
請求項１０に記載の情報処理装置。
前記対話対象領域判定部は、前記動体と前記物体とが同一であると判定した場合、前記物体が人物であることに基づいて、前記動体領域を前記対話対象として特定する、
請求項１０に記載の情報処理装置。
前記対話対象領域判定部は、前記対話対象であると判定した前記物体に追従する追従物体に対応する前記動体領域を、前記対話対象領域から除外する、
請求項９に記載の情報処理装置。
前記判定部は、前記情報処理装置の配置が変化した場合、前記対話対象に係る判定結果をリセットする、
請求項１に記載の情報処理装置。
プロセッサが、入力される画像の認識結果に基づいて、音声を出力する物体が音声対話に係る対話対象であるか否かを判定することと、
前記判定の結果に基づいて前記音声対話に係る制御を行うことと、
を含み、
前記制御を行うことは、前記物体が前記対話対象であると判定されたことに基づいて、前記物体に対し音声対話機能を提供すること、
をさらに含む、
情報処理方法。