JP6950644B2

JP6950644B2 - 注意対象推定装置及び注意対象推定方法

Info

Publication number: JP6950644B2
Application number: JP2018151148A
Authority: JP
Inventors: 裕之石原; 孝之仲地; 山口　高弘; 高弘山口; 小河原　成哲; 成哲小河原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2021-10-13
Anticipated expiration: 2038-08-10
Also published as: JP2020027390A; US20210304434A1; WO2020032254A1; US11436751B2

Description

本開示は、コンピュータシステムを用いてコミュニケーションの円滑化を図る技術に関し、より詳細には、ある空間中でコミュニケーションを行っている人物の「注意」対象を特定する注意対象推定技術に関する。

人間の表現力や理解力を拡張し、コミュニケーションを円滑化するためには、コミュニケーションの様子を外的に観測しその状態を理解する技術が必要不可欠になる。コミュニケーション状態を理解し、適切に支援するためには、ユーザの行動のみを理解すればよいわけではなく、その行動の背景にあるユーザの内的状態や、コミュニケーション空間の状態との関係性を考慮することが必要になる。

人間が外界から情報を受容しようとするとき、適切な対象からの情報のみを受容し、それ以外の対象からの情報は抑制しようとする働きが生じる。このような働きは「注意」と呼ばれる認知的な機構によって実現されている。これは、人間がある時刻において重要と思われる情報を抽出する処理、と言い換えることができる。また、複数の人物がある共通の対象に注意を向けている状態は「共同注意」と呼ばれる。

コンピュータシステムによるコミュニケーションの支援を考えた場合、コミュニケーション当事者の注意が向けられている対象や、共同注意の有無を検出することができれば、コミュニケーションの理解度の推定や、他者への注意誘導手法の開発といった、より知的なコミュニケーション支援システムの開発が実現できるものと考えられる。

共同注意の有無を推定するための先行技術として、コミュニケーション当事者が注意を向けている「場所」から共同注意を推定する方法（例えば、非特許文献１参照。）、あるいは注意を向けている対象が同じアピアランス（外観）を持った「物体」か否かから共同注意を推定する方法（例えば、非特許文献２参照。）が開示されている。しかしながら、これらの先行技術では、例えば、空間中に同じアピアランスを持つ物体が複数存在していた場合、どの物体が注意対象であるかを判断することができず、従って共同注意が発生したか否かについても判断することができなかった。

Ｈ．Ｐａｒｋ，Ｅ．Ｊａｉｎ，ａｎｄＹ．Ｓｈｅｉｋｈ， "３ＤＳｏｃｉａｌＳａｌｉｅｎｃｙｆｒｏｍＨｅａｄ−ｍｏｕｎｔｅｄＣａｍｅｒａｓ" ＮＩＰＳ，２０１２．Ｙ．Ｈｕａｎｇ，Ｍ．Ｃａｉ，Ｈ．Ｋｅｒａ，Ｒ．Ｙｏｎｅｔａｎｉ，Ｋ．ＨｉｇｕｃｈｉａｎｄＹ．Ｓａｔｏ， "ＴｅｍｐｏｒａｌＬｏｃａｌｉｚａｔｉｏｎａｎｄＳｐａｔｉａｌＳｅｇｍｅｎｔａｔｉｏｎｏｆＪｏｉｎｔＡｔｔｅｎｔｉｏｎｉｎＭｕｌｔｉｐｌｅＦｉｒｓｔ − ＰｅｒｓｏｎＶｉｄｅｏｓ"，ＩＣＣＶＷｏｒｋｓｈｏｐ，２０１７．Ｐ．Ｍｏｕｌｏｎ，Ｐ．Ｍｏｎａｓｓｅ，Ｒ．Ｍａｒｌｅｔ， "ＧｌｏｂａｌＦｕｓｉｏｎｏｆＲｅｌａｔｉｖｅＭｏｔｉｏｎｓｆｏｒＲｏｂｕｓｔ，ＡｃｃｕｒａｔｅａｎｄＳｃａｌａｂｌｅＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ"，ＩＣＣＶ，２０１３．Ｖ．Ｌｅｐｅｔｉｔ，Ｆ．Ｍｏｒｅｎｏ−Ｎｏｇｕｅｒ，ａｎｄＰ．Ｆｕａ， "ＥＰｎＰ：ＡｎａｃｃｕｒａｔｅＯ（ｎ）ｓｏｌｕｔｉｏｎｔｏｔｈｅＰｎＰｐｒｏｂｌｅｍ"，ＩＪＣＶ，２００９．Ｊ．ＲｅｄｍｏｎａｎｄＡ．Ｆａｒｈａｄｉ． "ＹＯＬＯ９０００：Ｂｅｔｔｅｒ，Ｆａｓｔｅｒ，Ｓｔｒｏｎｇｅｒ"，ＣＶＰＲ，２０１７．

本開示は、空間中に同じアピアランスを持つ物体が複数存在していた場合であっても、コミュニケーション当事者の注意対象を推定可能にすることを目的とする。

上記目的を達成するために、本開示は、空間中の人物ｉの一人称視点映像（人物ｉの目線で撮影された２次元画像）と、当該人物の視線情報（人物ｉが視線を向けている位置に関する情報）とを用い、（１）一人称視点映像に含まれる物体（オブジェクト）を検出し、抽出された複数の物体をそれぞれ３次元空間中にマッピングし、（２）抽出された複数の物体それぞれについて、人物ｉの視線位置と物体の位置との距離を求め、この距離が最小となる物体を人物ｉの注意対象として抽出することを特徴とする。

具体的には、本開示に係る注意対象推定装置は、
人物の目線で撮像された一人称視点映像及び当該一人称視点映像を撮像時の前記人物の視線の情報を取得し、
前記一人称視点映像から抽出されたオブジェクトの３次元空間での位置を特定し、
前記一人称視点映像に含まれるオブジェクトのうちの前記人物の視線に近いオブジェクトを、前記人物の注意対象と判定する。

具体的には、本開示に係る注意対象推定方法は、
注意対象推定装置が、
人物の目線で撮像された一人称視点映像及び当該一人称視点映像を撮像時の前記人物の視線の情報を取得し、
前記一人称視点映像から抽出されたオブジェクトの３次元空間での位置を特定し、
前記一人称視点映像に含まれるオブジェクトのうちの前記人物の視線に近いオブジェクトを、前記人物の注意対象と判定する。

本開示は、コンピュータを本開示の注意対象推定装置に備わる各機能部として機能させるための注意対象推定プログラム、及び、コンピュータに本開示の注意対象推定方法に備わる各ステップを実行させるための注意対象推定プログラムを含む。本開示の注意対象推定プログラムは、コンピュータ読み取り可能な記録媒体に記録されていてもよい。

本開示によれば、空間中に同じアピアランスを持つ物体が複数存在していた場合であっても、コミュニケーション当事者の注意対象を推定することが可能になる。

本実施形態に係る注意対象推定システムの構成例を説明する図である。本実施形態に係る注意対象推定装置の構成例を説明する図である。本実施形態に係る注意対象推定方法の処理フローを説明する図である。実際に取得した３次元情報の一例を示す図である。注意対象推定処理の処理フローを説明する図である。人物ｉの視線位置ｇ_ｉとオブジェクトとの距離の一例を説明する図である。人物ｋの視線位置ｇ_ｋとオブジェクトとの距離の一例を説明する図である。

以下、本開示の実施形態について、図面を参照しながら詳細に説明する。なお、本開示は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本開示は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。

本開示に係る実施形態は、ある同一空間中でコミュニケーションを行っている人物の一人称視点映像と視線情報に基づき、各人物の注意対象が「どこ（位置）」の「何（物体）」であるかを特定することができる注意対象推定システム、注意対象推定装置および注意対象推定方法を開示する。これら注意対象推定システム、注意対象推定装置および注意対象推定方法は、空間中に同じアピアランスを持つ物体が複数存在していた場合であっても、コミュニケーション当事者の注意対象を推定可能にする。さらにこれら注意対象推定システム、注意対象推定装置および注意対象推定方法は、各人物の注意対象の関連性の度合いを考慮して、共同注意が発生したか否かをも判断することができる。

「注意」には、注意方向と視線方向が一致する「顕在的注意」と、注意方向と視線方向が一致しない「潜在的注意」の２種類に分けられるが、本開示は顕在的注意を対象とする。以下、単に「注意」と言った場合は、特に説明のないかぎり「顕在的注意」を意図するものとする。

ここで、「一人称視点映像」とは、空間中でコミュニケーションを行っている人物の目線で撮影された２次元映像を意味する。人物が自身の頭部に装着型カメラ２０を装着することで、当該装着型カメラ２０により一人称視点映像を撮影することができる。また、「視線情報」とは、空間中でコミュニケーションを行っている人物がどこを見ているかを表す情報を意味する。例えば、「視線情報」は、一人称視点映像中でその人物が注視している位置を示す座標である。「視線情報」の取得方法は任意であり、例えば、装着型カメラ２０と連携しながら人物の眼球を撮影することができるアイカメラ（ｅｙｅｃａｍｅｒａ）あるいはアイマーカカメラ（ｅｙｅｍａｒｋｅｒｃａｍｅｒａ）を用いることができる。

図１は、本実施形態に係る注意対象推定システムの構成例を説明する図である。コミュニケーション空間には、それぞれ装着型カメラ２０とアイカメラ（不図示）を装着した複数の人物（描画の都合上、図１には人物ｉと人物ｋのふたりの人物のみが記載されているが、この人数に限定されるものではない。）が存在している。一方、コミュニケーション空間とは別の実空間上に、注意対象を推定する注意対象推定方法を実装した注意対象推定装置１０が用意されている。

注意対象推定装置１０には、後述する３次元情報取得処理により、コミュニケーション空間に関する３次元情報が格納されている。コミュニケーション空間の３次元情報は、コミュニケーション空間内に存在する特徴点の識別情報と、コミュニケーション空間内での３次元座標を含む。コミュニケーション空間の３次元情報は、さらに特徴点の色情報を含んでいてもよい。

コミュニケーション空間中の人物ｉが装着した装着型カメラ２０は、人物ｉの一人称視点映像を撮影する。同時に、コミュニケーション空間中の人物ｉが装着したアイカメラ（不図示）は、人物ｉの眼球を撮影し、人物ｉの視線情報を取得する。装着型カメラ２０およびアイカメラは時間的に同期され、かつ互いの位置関係が校正済みである。装着型カメラ２０は、任意の通信手段により、人物ｉの一人称視点映像と視線情報を注意対象推定装置１０に送信する。

注意対象推定装置１０は、装着型カメラ２０から人物ｉの一人称視点映像と視線情報を受信する。注意対象推定装置１０は、あらかじめ取得していたコミュニケーション空間の３次元情報と、受信した人物ｉの一人称視点映像および視線情報とを用いて、後述する注意対象推定処理を実行し、人物ｉの一人称視点映像における、人物ｉが注意を向けている注意対象のオブジェクトおよびその位置を推定する。

注意対象推定装置１０は、人物ｋの一人称視点映像と視線情報も同様に受信し、人物ｋの一人称視点映像における、人物ｋの注意対象のオブジェクトおよびその位置を推定する。そして注意対象推定装置１０は、推定した人物ｉの注意対象のオブジェクトと人物ｋの注意対象のオブジェクトに関する情報を用いて、後述する共同注意判定処理を実行し、共同注意が発生したか否かを判断する。

図１に記載の注意対象推定装置１０はコミュニケーション空間とは異なる実空間に配置されると述べたが、本開示はこのような態様に限定されるものではない。注意対象推定装置１０は、当然にコミュニケーション空間と同じ実空間に配置されるようにしてもよい。また、注意対象推定装置１０は１台のハードウェアのみで構成される必要はなく、例えば、各人物ｉ，ｋがそれぞれ可搬型の注意対象推定装置１０を保持し、複数の注意対象推定装置１０が連携して注意対象推定処理あるいは共同注意判定処理を実行するようにしてもよい。この場合、各人物が保持する可搬型の注意対象推定装置１０は、装着型カメラ２０に組み込まれた形態としてもよい。

注意対象推定装置１０は、例えば図２に記載したように、人物が装着した装着型カメラ２０から一人称視点映像および視線情報を受信する受信部１３、後述する３次元情報取得処理により取得した３次元情報を格納する３次元情報格納部１４、後述する注意対象推定処理を実行する注意対象推定部１１、および共同注意判定処理を実行する共同注意判定部１２を備える構成とすればよい。受信部１３、３次元情報格納部１４、注意対象推定部１１、共同注意判定部１２は、例えば１つの特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）に集積された態様であってもよい。もちろん、これら４つの機能部のうちのいずれか（例えば、注意対象推定部と共同注意判定部）のみがＡＳＩＣに集積された態様であってもよい。

注意対象推定装置１０は、注意対象推定処理および／または共同注意判定処理を実行するための命令コードを記載したプログラムをプロセッサに実行させる汎用コンピュータにより構成される態様であってもよい。その場合、注意対象推定装置１０は、注意対象推定処理および共同注意判定処理を記述したプログラムを格納する補助記憶装置、補助記憶装置からロードされたプログラムを一時的に記憶する主記憶装置、３次元情報を格納する揮発性メモリないし不揮発性メモリ、プログラムを実行するプロセッサ、これらを接続するバスを備える構成としてもよい。注意対象推定装置は、注意対象推定処理の結果、あるいは共同注意判定処理の結果を表示する表示装置（不図示）をも備える構成としてもよい。

図３は、本実施形態に係る注意対象推定方法の処理フローを説明する図である。本実施形態に係る注意対象推定方法は、図１及び図２に記載した注意対象推定装置１０に実装されるものであって、
ステップＳ１０１：コミュニケーション空間の３次元情報を取得する処理、
ステップＳ１０２：同一空間中でコミュニケーションを行っている複数の人物ｉ（ｉ＝１，２，…，ｎ、ｎは２以上の整数）のそれぞれについて注意対象のオブジェクトを推定する処理、
ステップＳ１０３：複数の人物ｉの注意対象のオブジェクトから共同注意が発生しているか否かを判断する処理、
を順次行うものである。
ステップＳ１０１〜ステップＳ１０３の具体的な処理を以下で説明する。

（１）３次元情報取得処理（Ｓ１０１）
人物の注意対象推定処理に先立ち、注意対象推定装置１０は、コミュニケーション空間の３次元情報を前処理として取得しておく。３次元情報の取得には、例えば、ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ（ＳｆＭ）と呼ばれる、多視点の２次元画像から３次元形状を復元する技術を用いることができる。

まず、複数の異なる位置や角度からコミュニケーション空間を撮影して、複数の２次元画像を生成する。生成した２次元画像のそれぞれについて、画像中に存在する特徴点を抽出する。特徴点とは、例えば２次元画像中のオブジェクトの頂点や端部、エッジなどに対応する画素である。特徴点は背景画像に比べて明るさや色が大きく異なるため、例えば、２次元画像を構成する各画素に対し、隣接する画素より輝度ないし色差が大きく変化している画素を検出することで、特徴点を抽出することができる。

次に、複数の２次元画像の位置関係から、抽出した特徴点のそれぞれについて３次元位置（座標）を計算する。３次元位置を計算するための具体的なアルゴリズムは、例えば非特許文献３などに開示されているものを用いればよい。このような処理により、コミュニケーション空間に存在する複数の特徴点の位置を３次元座標の集合として表した情報（３次元情報）を取得することができる。

図４は、実際に取得した３次元情報の一例を示す図である。図４において、点のそれぞれが、複数の２次元画像の位置関係から抽出した特徴点を表している。図４では、理解が容易になるよう、装着型カメラ２０も記載している。

（２）注意対象推定処理（Ｓ１０２）
人物の注意対象推定処理は、前述の３次元情報取得処理で取得したコミュニケーション空間の３次元情報、注意対象を推定しようとする人物の一人称視点映像および視線情報とを用いて、人物それぞれの注意対象（「どこ」の「何」）を推定するものである。図５は、人物ｉ（ｉ＝１，２，…，ｎ、ｎは２以上の整数）のそれぞれが行う注意対象推定処理の処理フローを説明する図である。

（Ａ）まず、注意対象推定装置１０は、人物ｉのコミュニケーション空間中における頭部の存在位置および視線方向（すなわち顔向き）を推定する。そして、注意対象推定装置１０は、人物ｉの視線情報をコミュニケーション空間の３次元情報に投影し、コミュニケーション空間における人物ｉの視線位置ｇ_ｉを求める。

人物ｉのコミュニケーション空間中における存在位置および視線方向の推定方法は任意である。例えば推定された存在位置と視線方向は、人物ｉの一人称視点映像が撮影された位置と撮影方向に等しい。そのため、コミュニケーション空間の３次元情報に含まれる特徴点の座標と、それが投影される一人称視点映像中の画素との対応関係を計算することで、人物ｉの空間中における存在位置および視線方向を推定することができる。このような処理は、人物ｉの一人称視点映像を、コミュニケーション空間の３次元情報から得られる３次元空間に逆投影していることにほかならない。具体的な計算手法は、例えば非特許文献４などに開示されているものを用いればよい。

人物ｉのコミュニケーション空間中における存在位置を始点とする視線方向の直線上に、一人称視点映像における視線情報に一致する位置が存在する。一人称視点映像における視線情報に一致する位置は、視線方向の直線上で奥行きを有する。そこで、コミュニケーション空間中における人物ｉの頭部の存在位置を始点としかつ一人称視点映像中の視線の情報で示される位置を終点とする直線上の任意の点を、人物ｉの視線位置ｇ_ｉとして扱うことが好ましい。

（Ｂ）次に、注意対象推定装置１０は、人物ｉの一人称視点映像に映るオブジェクト（物体）を検出し、そのオブジェクト領域をコミュニケーション空間の３次元情報から得られる３次元空間にマッピングする。

映像中からのオブジェクト検出には、例えば非特許文献５に開示されているＹＯＬＯなどの手法を用いればよい。オブジェクト検出を行うことで、一人称視点映像上に検出されたオブジェクトの領域とその名称を取得することができる。このようにして得られたオブジェクトの集合をもとに、特徴点の集合に抽出したオブジェクトＯ_ｊのラベル（ｊは、一人称視点映像から抽出された複数のオブジェクトを判別するための符号）を付与する。

当然ながら、抽出したオブジェクトは複数存在するため、すべてのオブジェクトＯ_ｊに対してラベルを付与する。これにより、コミュニケーション空間を構成する特徴点の集合と、検出したオブジェクトとが結び付けられる。３次元情報に存在する特徴点は単に座標の情報でしかなかったものが、特徴点の集合が実空間上の物体に関連付けられた状態となる。この際、オブジェクト検出によって得られたそのオブジェクトの具体的な名称（図１の例では、符号３１及び３４に示す「ディスプレイ」、符号３２に示す「机」、あるいは符号３３に示す「ゴミ箱」など）も同時に付与するようにしてもよい。

なお、本開示におけるオブジェクトは、ディスプレイなどの物体に限らず、形状、模様、色彩の組み合わせによって一人称視点映像で特定しうる任意の対象を含む。例えば、壁の一部やディスプレイ３１に表示されている画像の一部もオブジェクトとして含みうる。

（Ｃ）最後に、注意対象推定装置１０は、人物ｉが注意を向けているであろう注意対象のオブジェクトを計算により求める。計算の基本的概念は、人物ｉが注視している視線位置ｇ_ｉに近いオブジェクトＯ_ｊを注意対象とみなす、という考えである。

例えば、図６に示すように、人物ｉの一人称視点映像ＩＭ_ｉにオブジェクトとしてディスプレイ３１、机３２及びゴミ箱３３が含まれており、視線位置ｇ_ｉとの距離がそれぞれＤ_３１、Ｄ_３２、Ｄ_３３であり、Ｄ_３１＞Ｄ_３２＞Ｄ_３３の関係を有する場合、注意対象推定装置１０は、最も短い距離Ｄ_３３のゴミ箱３３を注意対象と判定する。

本開示は、注意対象を求めるに際し、基本概念に加えて、過去に人物ｉの注意対象として推定したオブジェクトとの相関性を加味するようにしてもよい。例えば、図６における視線位置ｇ_ｉとの距離Ｄ_３２及びＤ_３３がほぼ同じであり、過去の一定時間内にゴミ箱３３が注意対象と判定されている場合、注意対象推定装置１０は、人物ｉの一人称視点映像ＩＭ_ｉに含まれているオブジェクトのうちのゴミ箱３３を注意対象と判定する。

本開示は、注意対象を求めるに際し、基本概念に加えて、同じコミュニケーション空間に存在する他の人物ｋの視線位置ｇ_ｋからの距離を加味するようにしてもよい。例えば、図６における視線位置ｇ_ｉとの距離Ｄ_３２及びＤ_３３がほぼ同じであり、図７に示すように、人物ｋの一人称視点映像ＩＭ_ｋにオブジェクトとしてディスプレイ机３２及びゴミ箱３３が含まれており、視線位置ｇ_ｋとの距離Ｄ_３２、Ｄ_３３が、Ｄ_３２＞Ｄ_３３の関係を有する場合、注意対象推定装置１０は、人物ｉの一人称視点映像ＩＭ_ｉに含まれているオブジェクトのうちのゴミ箱３３を注意対象と判定する。

具体的には、抽出した複数のオブジェクトＯ_ｊのそれぞれに対して以下の目的関数Ｅ_ｊを計算し、その値が最小となるオブジェクトおよびその３次元位置を人物ｉの注意対象と決定する。

ここで、ｇ_ｉは人物ｉの視線位置の３次元座標、ｇ_ｋは人物ｉとは異なる人物ｋの視線位置の３次元座標、ｐ_ｊはオブジェクトＯ_ｊの重心の３次元座標、｜Ｏ_ｊ｜は一人称視点映像におけるオブジェクトＯ_ｊの面積、Ｏ_{ｉ，ｔ−１}は１フレーム前の時刻ｔ−１に人物ｉの注意対象として推定されたオブジェクト、ｆ（Ｏ_{ｉ，ｔ−１}，Ｏ_ｊ）は１フレーム前の時刻ｔ−１に推定した注意対象との相関性の度合いを算出する関数、λ_１，λ_２はそれぞれ係数である。また、記号｜｜Ａ｜｜はベクトルＡの大きさ（スカラー積）を意味する。

式（１）の第１項は、人物ｉの視線位置と評価対象オブジェクトとの距離を、評価対象オブジェクトのサイズで規格化したものである。ここで、「ｇ_ｉ−ｐ_ｊ」における「ｇ_ｉ」は、例えば、コミュニケーション空間中における人物ｉの頭部の存在位置を始点としかつ一人称視点映像中の視線の情報で示される位置を終点とする直線上における、評価対象オブジェクトＯ_ｊと最も近い地点の座標である。また、式（１）の第１項における「ｐ_ｊ」は、オブジェクトＯ_ｊの重心座標に限らず、「ｇ_ｉ」に最も近い位置であってもよい。

式（１）の第２項は、時間的な連続性の制約を加味する項であり、１フレーム前の注意対象オブジェクトとの類似度を表す。この項は、１フレーム前の注意対象には次のフレームでも注意が向きやすい、という時間的な連続性の仮定に基づいて設けた項である。第２項の関数ｆとして、例えば（ｉ）１フレーム前に推定した注意対象オブジェクトＯ_{ｉ，ｔ−１}と評価対象であるオブジェクトＯ_ｊの、重心位置の距離を導出する関数、あるいは（ｉｉ）Ｏ_{ｉ，ｔ−１}とＯ_ｊの形状の類似度を導出する関数などを用いることができる。なお、本開示は、一人称視点映像内に同一のオブジェクトが含まれている時間内であれば、１フレーム前に限らず、予め定められたフレーム数又は時間をさかのぼった時点であってもよい。

式（１）の第３項は、人物ｉ以外の人物ｋの視線位置と評価対象オブジェクトとの距離の規格化値を、コミュニケーション空間中に存在するすべての人物について加算したものである。空間中の複数人間の交互作用を表し、コミュニケーションに参加している人物があるオブジェクトにどのくらいの注視を向けているかを記述したものである。この項は、コミュニケーションに参加している人物は同じオブジェクトに注意を払う傾向が高い、という仮定に基づいて設計した項である。

なお、式（１）による目的関数Ｅ_ｊの計算は、抽出したすべてのオブジェクトに対して行うようにしてもよいが、計算量を削減するため、人物ｉの視線位置ｇ_ｉの周辺に存在するオブジェクトに限定して計算するようにしてもよい。例えば、一人称視点映像において、視線の情報で示される位置から一定距離に配置されているオブジェクトに限定する。

（３）共同注意判定処理（Ｓ１０３）
注意対象推定装置１０は、複数の人物に対して推定した注意対象オブジェクトから、共同注意が発生しているか否かを判断する。共同注意が発生しているか否かは、「物体（オブジェクト）」に関する類似度の評価をもって判断してもよいし、あるいは注意対象オブジェクトの「場所」に関する類似度の評価をもって判断してもよい。注意対象推定装置１０は、「物体」あるいは「場所」のいずれか単独の類似度の評価から共同注意の有無を判断してもよく、あるいは両者の類似度の評価結果を統合して共同注意の有無を判断するようにしてもよい。

「物体」に関する類似度の評価は、人物ｉについて推定した注意対象オブジェクトの画像と、他の人物ｋについて推定した注意対象オブジェクトの画像との類似度をもって判断する。類似度の指標として、形状と色の両者を考慮するようにしてもよい。たとえば、形状の類似度指標については、ＦｉｓｈｅｒＶｅｃｔｏｒの内積を、色の指標についてはカラーヒストグラム類似度を用いることができる。双方の類似度指標を計算し、その和があらかじめ定めた閾値以上となった場合、共同注意が発生したとみなす。

一方、「場所」に関する類似度の評価は、注意対象オブジェクトの３次元空間中のユークリッド距離に基づいて判断する。人物ｉの視線位置（注意対象位置）と他の人物ｋの視線位置とのユークリッド距離があらかじめ定めた閾値以下となった場合、共同注意が発生したとみなす。

「物体」に関する共同注意と「場所」に関する共同注意をそれぞれ評価することで、例えば、講義中に教員が教室前方のプロジェクタ画面に映し出されたスライドに注意を向けながら話し、一方で学生は手元のノートＰＣ画面で同じ内容のスライドを見ながら話を聞いているような状況を想定したとき、両者は同じ場所を見てはいないが同じ対象に注意を向けており、講義中という背景を考えると共同注意が成立していると判断することができる。「物体」と「場所」の両方の側面から共同注意を計算することができるため、本開示は幅広い分野に適用することができる。

以上述べてきたように、本開示に係る注意対象推定装置ないし注意対象推定方法は、ある同一空間中でコミュニケーションを行っている人物の一人称視点映像と視線情報に基づき、当該人物の注意対象が「どこ（位置）」の「何（物体）」であるかを特定することができ、もって、共同注意が発生したか否かを正しく推定できるようになるものである。

なお、本実施形態においては、注意対象推定処理（Ｓ１０２）において、コミュニケーション空間に存在する物体の特定を、一人称視点映像に映るオブジェクトを検出することで行ったが、本開示はこれに限定されない。例えば、３次元情報格納部１４は、コミュニケーション空間内に存在する物体の名称といった物体の識別情報を、各特徴点と紐付けて予め格納していてもよい。

また、本実施形態では、「視線情報」が一人称視点映像中でその人物が注視している位置を示す座標である例について説明したが、本開示はこれに限定されない。例えば、加速度センサなど、人物ｉの頭部を始点とする視線方向が特定可能な任意の情報を用いることができる。

本開示は情報通信産業に適用することができる。

１０：注意対象推定装置
１１：注意対象推定部
１２：共同注意判定部
１３：受信部
１４：３次元情報格納部

Claims

人物の目線で撮像された一人称視点映像及び当該一人称視点映像を撮像時の前記人物の視線の情報を取得し、
前記一人称視点映像から抽出されたオブジェクトの３次元空間での位置を特定し、
前記一人称視点映像に含まれるオブジェクトと前記人物の視線との３次元空間での距離を求め、
前記一人称視点映像に含まれるオブジェクトのうちの前記人物の視線との３次元空間での距離が近く、かつ、前記一人称視点映像に含まれるオブジェクトのうちの過去に注意対象と判定されたオブジェクトを、前記人物の注意対象と判定する注意対象推定装置であって、
前記人物とは異なる第２の人物の注意対象の判定結果を取得し、
前記第２の人物の注意対象のオブジェクトが前記人物の注意対象のオブジェクトと類似している場合、注意対象のオブジェクトの３次元空間での位置が類似していなくても、当該類似しているオブジェクトに共同注意が発生していると判定する、
注意対象推定装置。
人物の目線で撮像された一人称視点映像及び当該一人称視点映像を撮像時の前記人物の視線の情報を取得し、
前記一人称視点映像から抽出されたオブジェクトの３次元空間での位置を特定し、
前記一人称視点映像に含まれるオブジェクトと前記人物の視線との３次元空間での距離を求め、
前記一人称視点映像に含まれるオブジェクトのうちの前記人物の視線との３次元空間での距離が近く、かつ、前記一人称視点映像に含まれるオブジェクトのうちの過去に注意対象と判定されたオブジェクトを、前記人物の注意対象と判定する注意対象推定装置であって、
前記一人称視点映像に含まれるオブジェクトのうちの次式で表される目的関数Ｅ _ｊが最小となるオブジェクトを、前記人物の注意対象と判定する、
注意対象推定装置。

ここで、ｇ _ｉは前記人物である人物ｉの視線位置の３次元座標、ｇ _ｋは前記人物ｉとは異なる人物ｋの視線位置の３次元座標、ｐ _ｊはオブジェクトＯ _ｊの重心の３次元座標、｜Ｏ _ｊ｜は前記一人称視点映像におけるオブジェクトＯ _ｊの面積、Ｏ _{ｉ，ｔ−１} は１フレーム前の時刻ｔ−１に前記人物ｉの注意対象として推定されたオブジェクト、ｆ（Ｏ _{ｉ，ｔ−１} ，Ｏ _ｊ）は１フレーム前の時刻ｔ−１に推定した注意対象との相関性の度合いを算出する関数、λ _１，λ _２はそれぞれ係数である。また、記号｜｜Ａ｜｜はベクトルＡの大きさ（スカラー積）を意味する。
前記一人称視点映像に含まれるオブジェクトのうちの前記人物の視線との３次元空間での距離が近くかつ前記人物とは異なる第２の人物の視線との３次元空間での距離が近いオブジェクトを、前記人物の注意対象と判定する、
請求項１又は２に記載の注意対象推定装置。
前記視線の情報は、前記一人称視点映像における位置であり、
前記人物の視線は、実空間中における人物の存在位置を始点としかつ前記一人称視点映像中の前記視線の情報で示される位置を終点とする直線である、
請求項１から３のいずれかに記載の注意対象推定装置。
注意対象推定装置が、
人物の目線で撮像された一人称視点映像及び当該一人称視点映像を撮像時の前記人物の視線の情報を取得し、
前記一人称視点映像から抽出されたオブジェクトの３次元空間での位置を特定し、
前記一人称視点映像に含まれるオブジェクトと前記人物の視線との３次元空間での距離を求め、
前記一人称視点映像に含まれるオブジェクトのうちの前記人物の視線との３次元空間での距離が近く、かつ、前記一人称視点映像に含まれるオブジェクトのうちの過去に注意対象と判定されたオブジェクトを、前記人物の注意対象と判定する注意対象推定方法であって、
前記人物とは異なる第２の人物の注意対象の判定結果を取得し、
前記第２の人物の注意対象のオブジェクトが前記人物の注意対象のオブジェクトと類似している場合、注意対象のオブジェクトの３次元空間での位置が類似していなくても、当該類似しているオブジェクトに共同注意が発生していると判定する、
注意対象推定方法。
注意対象推定装置が、
人物の目線で撮像された一人称視点映像及び当該一人称視点映像を撮像時の前記人物の視線の情報を取得し、
前記一人称視点映像から抽出されたオブジェクトの３次元空間での位置を特定し、
前記一人称視点映像に含まれるオブジェクトと前記人物の視線との３次元空間での距離を求め、
前記一人称視点映像に含まれるオブジェクトのうちの前記人物の視線との３次元空間での距離が近く、かつ、前記一人称視点映像に含まれるオブジェクトのうちの過去に注意対象と判定されたオブジェクトを、前記人物の注意対象と判定する注意対象推定方法であって、
前記一人称視点映像に含まれるオブジェクトのうちの次式で表される目的関数Ｅ _ｊが最小となるオブジェクトを、前記人物の注意対象と判定する、
注意対象推定方法。

ここで、ｇ _ｉは前記人物である人物ｉの視線位置の３次元座標、ｇ _ｋは前記人物ｉとは異なる人物ｋの視線位置の３次元座標、ｐ _ｊはオブジェクトＯ _ｊの重心の３次元座標、｜Ｏ _ｊ｜は前記一人称視点映像におけるオブジェクトＯ _ｊの面積、Ｏ _{ｉ，ｔ−１} は１フレーム前の時刻ｔ−１に前記人物ｉの注意対象として推定されたオブジェクト、ｆ（Ｏ _{ｉ，ｔ−１} ，Ｏ _ｊ）は１フレーム前の時刻ｔ−１に推定した注意対象との相関性の度合いを算出する関数、λ _１，λ _２はそれぞれ係数である。また、記号｜｜Ａ｜｜はベクトルＡの大きさ（スカラー積）を意味する。