JP2022093164A

JP2022093164A - 情報重畳装置、情報重畳方法、及びプログラム

Info

Publication number: JP2022093164A
Application number: JP2020206298A
Authority: JP
Inventors: 周平田良島; Shuhei Tarashima
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2022-06-23
Also published as: US20230306635A1; WO2022124378A1

Abstract

【課題】視聴者が、関連情報の内容を把握し易いように、物体に対応付く関連情報を映像に重畳できるようにする。
【解決手段】映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、前記映像から認識された１以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、前記候補重畳位置の集合と、前記映像から認識された１以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなるように、重畳情報の位置を決定する位置決定部とを備える情報重畳装置が提供される。
【選択図】図１３

Description

本発明は、映像上の物体を認識し、認識した物体に対して関連情報を重畳する技術に関連するものである。

映像上の物体を認識し、認識した物体に対して関連情報を重畳する技術が従来から存在する。映像に映る特定の物体の関連情報を重畳表示することにより、視聴者は主体的に調べることなく情報を入手することができる。

入力映像中に映る特定物体を認識し、その関連情報を映像へ重畳表示するための処理には、大きく、特定物体を認識する処理（物体認識処理）と、その処理結果を入力として情報を重畳する処理（情報重畳処理）の２つの処理が含まれる。

特開2009-251774号公報

前述した情報重畳処理について、映像から検出された物体の領域に接する位置に関連情報を表示する従来技術がある。しかし、この従来技術では、物体そのものや、あるいは近接する物体を関連情報が隠してしまうことが頻発し、視聴体験の質を損ねてしまう。すなわち、従来の情報重畳処理では、視聴者が、関連情報の内容を把握し易いように関連情報を表示できなかったという課題がある。

本発明は上記の点に鑑みてなされたものであり、視聴者が、関連情報の内容を把握し易いように、物体に対応付く関連情報を映像に重畳することを可能とする技術を提供することを目的とする。

開示の技術によれば、映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された１以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された１以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置が提供される。

開示の技術によれば、視聴者が、関連情報の内容を把握し易いように、物体に対応付く関連情報を映像に重畳することを可能とする技術が提供される。

特定物体の関連情報を映像へ重畳表示する例を示す図である。クラスや属性の判別に失敗する場合の例を示す図である。クラスや属性の判別に失敗する場合の例を示す図である。情報提示装置の構成図である。情報提示装置の動作を説明するための図である。重畳情報の例を示す図である。物体認識装置の構成図である。ラベル判定部の構成図である。物体認識装置の動作を説明するための図である。物体の例を示す図である。ある物体より手前に存在する物体を抽出する方法を説明するための図である。物体の属性が認識可能な程度見えているか否かを判定する方法を説明するための図である。情報重畳装置の構成図である。情報重畳装置の動作を説明するための図である。候補物体重畳位置を説明するための図である。装置のハードウェア構成例を示す図である。

以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

（本実施の形態の概要）
本実施の形態は、入力映像中に映る特定物体を認識し、その関連情報を映像へ重畳表示する技術に関するものである。

当該技術の具体例として、図１には、ラグビーの試合映像を入力として、その中に映る選手が認識され、氏名やポジション、身長、体重といった関連情報が当該選手の付近に、パネル画像で提示される例が示されている。

このように、映像に映る特定の物体（例：選手）の関連情報を重畳表示することができれば、視聴者は主体的に調べることなく情報を入手することができる。特に、視聴者が対象映像について詳しくない場合、映像に映る物体のうち関心をもったものの詳細を調べる手段は極めて少ないことから、情報を重畳提示することは、視聴者の内容理解を大きく促進できるものと期待される。すなわち、本実施の形態に係る技術は、視聴体験の向上につながる。

入力映像中に映る特定物体を認識し、その関連情報を映像へ重畳表示するためには、大きく、特定物体を認識する処理（物体認識処理）と、その処理結果を入力として情報を重畳する処理（情報重畳処理）の２つが必要となる。

本実施の形態では、物体認識処理に関わる例を実施例１として説明し、情報重畳処理に関わる例を実施例２として説明している。なお、本実施の形態では、物体認識処理と情報重畳処理とを組み合わせる実施形態を説明しているが、物体認識処理と情報重畳処理とがそれぞれ単独に実施されてもよい。

各実施例の装置構成及び動作を説明する前に、まず、課題の詳細を説明する。なお、下記の説明で使用する参考文献名については、明細書の最後にまとめて記載した。

（実施例１に関する課題について）
物体認識処理について、最も単純に実現する方法の一つは、例えば参考文献［１］などに開示されている物体検出器を用いて、対象となる物体を映像中の各画像フレームから検出するというものである。この場合、各対象物体毎に、物体検出器を学習するための教師データを用意する必要がある。一般にこのような教師データの収集には無視できないコストがかかる。特に、対象となる異なる物体の見えが似ている場合、例えば図１のような例で同じユニフォームを着た異なる複数選手が対象の場合、それらを見分けるために用意すべき学習データは膨大な量となり、仮にデータが不十分である場合、十分な認識精度を得ることができない。

別の方法として、候補となる物体を検出した後に、その各々から所定のクラスや属性を認識検出することで、特定物体を認識することが考えられる。図１の例の場合、具体的には、まず画像フレームから人物を検出し、その全貌の見えからチーム（クラスの具体例）を推定するとともに、参考文献［２］で開示されている方法などで背番号（属性の具体例）を認識することで、チームと背番号との組み合わせから選手を一意に判別するといった方法が考えられる。この方法を用いることで、対象物体それぞれについて学習データを用意する必要がなくなる。

しかしこの方法には大きく２つの問題がある。１つ目の問題点は、物体とカメラの位置関係によっては、当該画像フレームにクラスや属性を認識判別するための見えの情報が十分に映り込まず、認識に失敗してしまうことが多い点である。図２、図３に例を示す。図２の例において、実線枠で囲われた選手は、その姿のほとんどが点線枠で囲われた選手によって隠れているため、実線枠を見えの領域を手がかりとした場合、チームの推定に失敗してしまう可能性が高い。

また、図３の例において、選手の背番号は背中に７６とプリントされており、中央の画像では背番号を正確に認識できるが、両端の画像では、選手の姿勢が原因でその一部分（左では６のみ、右では７のみ）しか写り込んでおらず、これらの画像から正確な背番号を認識することは極めて困難である。

２つ目の問題点は、全ての検出結果に対しクラス及び属性を認識検出することは計算コストが高い点である。対象となる物体が多数写り込むケースや、リアルタイム処理が要求されるケースでは、その問題はより顕著となる。

上記のとおり、候補となる物体のクラスや属性を検出して、特定物体を判別する手法を単純に適用する場合、特定物体を判別するための手がかりとなるクラスや属性の認識精度が低く、また、その処理速度も遅いという課題がある。

（実施例２に関する課題について）
次に情報重畳処理について、参考文献［３］では、検出された物体領域に接する位置にそのラベルを表示出力する方法が開示されている。図１の例に示したパネルのような、対象物体と同等かそれ以上のサイズの重畳情報を表示する方法として参考文献［３］を用いた場合、物体そのものや、あるいは近接する物体をパネルが隠してしまうことが頻発し、視聴体験の質を損ねてしまう。

上記の課題を解決するために、対象物体を隠すことがないよう、対象物体との重複が発生せずかつ対象物体に近い位置を画像フレーム毎に判定し得られた位置に重畳情報を配置する方法が考えられる。この方法により、視聴者が、重畳情報の内容を把握し易いように重畳情報を表示できる。

ただし、この方法では、重畳情報の位置の時間的な一貫性が考慮されていないため、重畳情報の位置が画像フレーム毎に大きく変化してしまい、視聴者が表示されている情報の内容を把握することができない場合が生じ得る。

本実施例では、（ｉ）重畳情報が対象物体を遮蔽しない、（ｉｉ）対象物体との近接性が保たれていること、（ｉｉｉ）重畳情報位置の時間的な一貫性が保たれていることを同時に満足させるようにしている。これにより、重畳情報の位置が画像フレーム毎に大きく変化することなく、視聴者が、重畳情報の内容を把握し易いように重畳情報を表示できる。

（装置の全体構成例）
本実施の形態では、図１に示したラグビー映像からの選手認識及びその情報提示を例として、その実施例について説明する。ただし、ラグビー映像を対象とすることは一例であり、本発明に係る技術はラグビー以外のスポーツを対象とした選手認識にも適用可能であり、また選手以外の特定物体、例えば商品や動物、建造物や標識等を対象としてもよい。

図４に、本実施の形態における情報提示装置３００の全体構成図を示す。図４に示すように、情報提示装置３００は、物体認識部１００、映像データ格納部１１０、情報重畳部２００、物体重畳情報格納部２１０を有する。なお、映像データ格納部１１０が物体認識部１００に含まれていてもよいし、物体重畳情報格納部２１０が情報重畳部２００に含まれていてもよい。また、映像データ格納部１１０と物体重畳情報格納部２１０が情報提示装置の外部にあってもよい。

情報提示装置３００は、１つのコンピュータにより構成されてもよいし、複数のコンピュータがネットワーク接続されることにより構成されてもよい。また、物体認識部１００、情報重畳部２００をそれぞれ、物体認識装置１００、情報重畳装置２００と呼んでもよい。後述する実施例１、２では、物体認識装置１００、情報重畳装置２００と呼んでいる。また、情報提示装置３００を、物体認識装置あるいは情報重畳装置と呼んでもよい。

映像データ格納部１１０には、時系列の画像フレームが格納されており、物体認識部１００及び情報重畳部２００は、映像データ格納部１１０から読み出された画像フレーム毎に処理を行う。各時刻の画像フレームに対して処理を行うイメージを図５に示す。図５に示すように、時刻ｔ＝０の画像フレームから順次、各時刻の画像フレームに対して処理がなされる。物体認識部１００及び情報重畳部２００の動作の概要は下記のとおりである。これらの詳細については、後述する実施例１、２において説明する。

物体認識部１００は、映像データ格納部１１０に格納されている映像データを構成する各時刻の画像フレーム及び直前時刻の物体認識結果を入力として、現在時刻の物体認識結果を出力する。なお、「現在時刻」とは、物体認識あるいは情報重畳の処理対象となっている最新の画像フレームの時刻である。

物体重畳情報格納部２１０には、対象となる各特定物体に重畳する重畳情報が格納されている。本実施の形態における重畳情報の例を図６に示す。図６に示す例の重畳情報は、選手のクラス及び属性の各対についての、重畳対象となるデータ（重畳画像）である。本実施の形態では、クラスは選手の所属するチーム名、属性は背番号である。また以下では、クラス、属性の対を、特定物体のラベルと呼称する。本実施の形態では、図６に示すとおり、特定物体のラベルは、物体のクラスと属性の組み合わせにより一意に定まるものとする。

なお、本実施の形態では、「クラス」と「属性」とを使用しているが、いずれも属性の例である。また、「ラベル」も属性の例である。例えば、チーム名を属性１と呼び、背番号を属性２と呼んでもよい。また、クラスを属性の例とした場合において、属性の数は２つに限られず、１つでもよいし、３つ以上でもよい。

情報重畳部２００は、物体重畳情報格納部２１０に格納されている物体重畳情報のうちの、現在時刻の画像フレームに映る物体の重畳情報について、直前画像フレームにおける重畳位置をふまえその重畳位置を決定し、現在時刻の画像フレームへ重畳しその結果を出力する。重畳情報が重畳された各時刻の画像フレームは、例えば、ユーザ端末に送信され、ユーザ端末上で重畳情報が重畳された映像として表示される。

以下、物体認識部１００に相当する物体認識装置１００の詳細例を実施例１として説明し、情報重畳部２００に相当する情報重畳装置２００の詳細例を実施例２として説明する。

（実施例１）
＜物体認識装置１００の構成＞
図７に、物体認識装置１００の構成例を示す。図７に示すように、物体認識装置１００は、映像データ格納部１１０、検出部１２０、追跡部１３０、ラベル判定部１４０を備える。各部の動作概要は下記のとおりである。

映像データ格納部１１０には、時系列の画像フレームが格納されている。検出部１２０は、映像データ格納部１１０に格納されている映像データを構成する各時刻の画像フレームを入力とし、その中に映る物体を検出する。

追跡部１３０は、検出部１２０が出力する検出結果と過去の追跡結果とを入力として、現在時刻の追跡結果を出力する。ラベル判定部１４０は、追跡部１３０が出力する追跡結果及び現在時刻の画像フレームを入力として、各追跡物体の特定物体ラベルを判定する。

ここで、追跡部１３０が出力する追跡結果は、現在時刻の画像フレームに映る各物体の位置の集合と、映像を通じて同一の個体が共有するＩＤの集合（追跡ＩＤ集合）とで構成される。

ラベル判定部１４０では、現在時刻の画像フレームの追跡結果に含まれる追跡ＩＤのうち、過去に特定物体ラベルが割り当てられていないものにのみラベル判定処理を行う。これにより、画像フレームで検出された全ての物体についてラベル判定を行う場合に比べ、ラベル判定を行う回数を削減することが可能となり、結果として、処理全体のスループットを向上させることができる。

図８に、ラベル判定部１４０の構成例を示す。図８に示すように、ラベル判定部１４０は、クラスビジビリティ判定部１４１、クラス推定部１４２、属性ビジビリティ判定部１４３、属性判定部１４４を有する。各部の動作概要は下記のとおりである。

クラスビジビリティ判定部１４１は、物体位置集合及び追跡ＩＤ集合を入力として、現在時刻の画像フレームに映りかつ特定物体ラベルが割り当てられていない追跡ＩＤの各物体について、クラスに関する見えの情報が写り込んでいるか否かを判定する。

クラス推定部１４２は、クラスビジビリティ判定部１４１でクラスに関する見えの情報が写り込んでいると判定された追跡ＩＤの各物体について、その見えの情報に基づきクラスを推定する。

クラスビジビリティ判定部１４１では、ある物体において、同一画像フレームに映る他の物体との空間的な重複を評価することで、クラスに関する見えの情報が写り込んでいるか否かを判定する。クラスに関する見えの情報が写り込んでいると判定された物体についてそのクラスを推定することで、クラスの誤推定を抑制することができる。

属性ビジビリティ判定部１４３は、物体位置集合及び追跡ＩＤ集合を入力として、現在時刻の画像フレームに映りかつ特定物体ラベルが割り当てられていない追跡ＩＤの各物体について、属性に関する見えの情報が写り込んでいるか否かを判定する。

属性推定部１４４は、属性ビジビリティ判定部１４３で属性に関する見えの情報が写り込んでいると判定された追跡ＩＤの各物体について、その見えの情報に基づき属性を推定する。

属性ビジビリティ判定部１４３では、ある物体について、同一画像フレームに映る他の物体との空間的な重複と物体の姿勢とを評価することで、属性に関する見えの情報が写り込んでいるか否かを判定する。属性に関する見えの情報が写り込んでいると判定された物体についてその属性を推定することで、属性の誤推定を抑制することができる。

なお、ラベル判定部１４０、「クラスビジビリティ判定部１４１＋クラス推定部１４２」、「属性ビジビリティ判定部１４３＋属性推定部１４４」は、いずれも属性判定部の例である。

＜物体認識装置１００の動作詳細＞
上述したとおり、物体認識装置１００の映像データ格納部１１０には、時系列の画像フレームが格納されており、検出部１２０（及び、追跡部１３０とラベル判定部１４０）は、映像データ格納部１１０から読み出された画像フレーム毎に処理を行う。各時刻の画像フレームに対して処理を行うイメージを図９に示す。図９に示すように、時刻ｔ＝０の画像フレームから順次、各時刻の画像フレームに対して処理がなされる。以下、図８～１２を参照して物体認識装置１００の各部の動作の詳細を説明する。

＜検出部１２０＞
検出部１２０は、映像における各時刻の画像フレームを入力として、その中に映る物体の位置を検出し、またその姿勢を推定する。物体の位置を定義する方法は任意であり、例えば図１０の黒枠で定義されるような、物体を過不足なく囲う矩形で定義すればよい。

また、物体の姿勢を定義する方法も任意であり、例えば図１０に示すような、物体の関節点（目、肩、腰など、この例では合計１７関節）の位置集合として定義すればよい。

本実施例１のように、検出対象の物体が人物である場合において、人物の検出及びその姿勢を推定する方法は任意であり、例えば参考文献［１］に開示された技術を用いることができる。このとき、画像中で対象となる領域が定義されたマスクを用意しておき、検出された人物がその中に含まれるか否かを判定することで、結果をフィルタリングした上で出力してもよい。

本実施例１では、入力画像中でラグビーコートに含まれる領域が定義されたマスクを用いることで、観客やスタッフに対応する人物の検出結果を除外することができる。また、内部で画像データを所定のサイズへリサイズしたうえで姿勢推定を行ってもよい。

＜追跡部１３０＞
追跡部１３０は、検出部１２０から出力された現在時刻の物体検出結果と過去の追跡結果を入力として、現在時刻の追跡結果を出力する。ここで、追跡結果は、追跡対象の個体毎に割り当てられる追跡ＩＤの集合と、現在時刻における各追跡ＩＤの個体の位置（姿勢を含む）の集合とから構成される。追跡部１３０は、例えば参考文献［４］で開示されている技術を用いて、上記追跡を行うことができる。

＜ラベル判定部１４０＞
ラベル判定部１４０は、追跡部１３０から出力された現在時刻の追跡結果のうち、ラベルがこれまでに付与されていないＩＤの個体に対してラベルを割り当てる。前述したとおり、本実施例１におけるラベルはクラスと属性の組み合わせで定義される。

図８に示したとおり、ラベル判定部１４０は、クラスビジビリティ判定部１４１、クラス推定部１４２、属性ビジビリティ判定部１４３、属性推定部１４４から構成される。以下、各部の動作を説明する。

＜クラスビジビリティ判定部１４１＞
クラスビジビリティ判定部１４１は、現在時刻の物体位置集合を入力として、各物体について、それがクラス認識可能な程度見えているか否かを判定し出力する。

本実施例１におけるクラスビジビリティ判定部１４１は、物体がクラス認識可能な程度見えているか否かを判定するために、当該物体より手前に存在する物体によって、当該物体がどの程度隠れていないかを計算し、その値を所定の閾値と比較することとしている。

当該物体より手前に存在する物体を抽出する方法は特定の方法に限られず、任意の方法を用いることが可能である。当該物体より手前に存在する物体を抽出する方法の一例を、図１１を参照して説明する。

図１１は、平面の競技コート上に対象となる物体（人物）が存在する場合の例を示している。この場合、各物体の足元に相等する位置の画像上のｙ座標を比較すればよい。図１１の例では、ｙ＿１よりもｙ＿２のほうが大きいので、ｙ＿１に対応する人物は、ｙ＿２に対応する人物の手前に存在すると判断できる。

また、当該物体がどの程度隠れていないかの計算についても特定の方法に限定されず、任意の方法を用いることが可能である。例えば、当該物体と手前に存在する各物体とでＩｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－Ｕｎｉｏｎ（ＩｏＵ）を計算し、その最大値を１から引いた値として、どの程度隠れていないか（つまり、どの程度見えているか）の指標を計算できる。当該指標がビジビリティである。

例えば、図１１の例において、手前の人物のビジビリティをＶ１とし、後ろの人物のビジビリティをＶ２とする。手前の人物は、隠れていないので、Ｖ１＝１である。また、（「手前の人物の領域」と「後ろの人物の領域」の交わり）÷（「手前の人物の領域」と「後ろの人物の領域」の結び）、つまり、ＩｏＵを０．４であるとすると、Ｖ２＝１－０．４＝０．６となる。

クラスビジビリティ判定部１４１は、例えば、後ろの人物について、Ｖ２が閾値よりも大きければ、後ろの人物はクラス認識可能な程度見えていると判定する。

＜クラス推定部１４２＞
クラス推定部１４２は、現在時刻の追跡結果のうち、クラスが割り当てられておらず、また、クラスビジビリティ判定部１４１でクラス認識可能な程度見えていると判定された物体について、そのクラスを推定し出力する。クラス推定の方法は、特定の方法に限定されず、任意の方法を用いることが可能である。

例えば、物体位置に対応する画像フレーム中の部分領域から参考文献［５］に開示された技術を用いて特徴量を抽出し、その特徴量をＳＶＭなどの識別器に入力することで、その部分領域の物体を所定のクラスへ分類することができる。あるいは、各クラスについて代表的な特徴を事前に定義しておき、部分領域から抽出された特徴をそれらの代表特徴と比較、最も類似したものに対応するクラスを割り当ててもよい。代表特徴を算出する方法は任意であり、例えば各クラスの物体から抽出された特徴を平均するなどすればよい。

＜属性ビジビリティ判定部１４３＞
属性ビジビリティ判定部１４３では、現在時刻の物体位置集合を入力として、各物体について、それが属性認識可能な程度見えているか否かを判定し出力する。本実施例１では、各物体が属性認識可能な程度見えているか否かを判定するにあたっては、物体の姿勢情報を用いる。

本実施例１では、対象となる物体である選手の背中に背番号がプリントされている。この条件の下、物体の属性が認識可能な程度見えているか否かを判定する方法の例について、図１２を参照して説明する。

図１２の例において、人物の関節点（肩、腰）の画像上の位置により姿勢が表現される。具体的には、図１２の場合、属性ビジビリティ判定部１４３は、左側の肩の位置ｐ_ｌｓ＝（ｘ_ｌｓ，ｙ_ｌｓ）、右側の肩の位置ｐ_ｒｓ＝（ｘ_ｒｓ，ｙ_ｒｓ）、左側の腰の位置ｐ_ｌｗ＝（ｘ_ｌｗ，ｙ_ｌｗ）、右側の腰の位置ｐ_ｒｗ＝（ｘ_ｒｗ，ｙ_ｒｗ）を取得する。

属性ビジビリティ判定部１４３は、下記の式を満たすかどうかを判定する。

上記の式において、ｐ_ｌｓｐ_ｒｓの上部にバーが付されたものは、ｐ_ｌｓとｐ_ｒｓとの間の長さを示す。また、σ_{ａｓｐｅｃｔ}は、パラメータである。なお、１＞σ_{ａｓｐｅｃｔ}＞０である。属性ビジビリティ判定部１４３は、上記の式を満たすことを検知した場合に、当該人物について、Ｔｒｕｅ（属性を含む領域が見えている）と判断し、上記の式を満たさないことを検知した場合に、Ｆａｌｓｅ（属性を含む領域が見えていない）と判断する。

属性ビジビリティ判定部１４３は、物体の姿勢を用いる方法に加え、又は、物体の姿勢を用いる方法に代えて、クラスビジビリティ判定部１４１と同様に、物体間の重なりに基づいて対象物体の属性が認識可能な程度見えているか否かを判定してもよい。

なお、クラスビジビリティ判定部１４１は、物体間の重なりを用いる方法に加え、又は、物体間の重なりを用いる方法に代えて、属性ビジビリティ判定部１４３と同様に、物体の姿勢を用いる方法で、クラス判定が可能か否かを判定してもよい。

＜属性判定部１４４＞
属性判定１４４は、現在時刻の追跡結果のうち、属性が割り当てられておらず、また、属性ビジビリティ判定部１４３で属性認識可能な程度見えていると判定された物体について、その属性を推定し出力する。属性推定には任意の方法を用いることができ、例えば参考文献［２］に開示された技術を用いることができる。

＜実施例１の効果＞
本実施例１によれば、高速に、精度良く、特定物体を認識することが可能になる。

（実施例２）
次に、実施例２を説明する。実施例２では、図４の情報提示装置３００における情報重畳部２００に相当する情報重畳装置２００について詳細に説明する。

＜情報重畳装置２００の構成＞
図１３に、情報重畳装置２００の構成例を示す。図１３に示すように、情報重畳装置２００は、物体重畳情報格納部２１０と、候補重畳位置選択部２２０と、対応付け部２３０と、重畳部２４０を備える。なお、本実施の形態では、情報重畳装置２００は、実施例１の物体認識装置１００の処理対象の画像フレーム毎に、物体認識装置１００による物体認識結果を入力として処理を行うこととしている。また、当該画像フレームも情報重畳装置２００に入力される。

ただし、これは例であり、実施例１の物体認識装置１００を前提としないで、情報重畳装置２００が任意の手法で得られた物体認識結果を入力として動作することとしてもよい。情報重畳装置２００の各部の動作概要は下記のとおりである。

物体重畳情報格納部２１０には、例えば図６に示したような重畳情報が格納されている。候補重畳位置選択部２２０は、物体認識装置１００が出力する物体認識結果を入力として、物体情報を重畳表示する位置の候補（候補重畳位置）を選択し、出力する。

対応付け部２３０は、物体認識結果、候補重畳位置、直前の画像フレームにおける物体・重畳位置対応付け結果を入力として、現在時刻の画像フレームにおける物体と重畳位置の対応付けを行う。重畳部２４０は、対応付け部２３０による物体・重畳位置の対応付け結果から、現在時刻の画像フレームへ物体重畳情報を重畳し出力する。物体重畳情報が重畳された画像フレームが順次出力されることで、例えば、ユーザ端末に、物体に情報が重畳された映像が表示される。

ここで、候補重畳位置選択部２２０は、現在時刻の画像フレームで認識された物体位置とは重複が生じないような候補重畳位置を出力する。これにより、前述した条件（ｉ）「畳情報が対象物体を遮蔽しない」を満たすことができる。また、対応付け部２３０は、現在時刻の画像フレームで認識された各物体の近くに重畳情報が表示されることと、直前画像フレームで表示されていた重畳情報は、現在フレームでその位置を極力変えないこととを同時に満たすような目的関数の最適化を通じて各物体の重畳情報表示位置を、候補重畳位置の中から決定する。これにより、前述した条件（ｉｉ）「対象物体との近接性が保たれている」、（ｉｉｉ）「重畳情報位置の時間的な一貫性が保たれている」を満たすことができる。

＜情報重畳装置２００の動作詳細＞
上述したとおり、情報重畳装置２００は、物体認識装置１００が処理する画像フレーム毎に、その処理結果である各時刻の物体認識結果を入力として処理を行う。各時刻の物体認識結果に対して処理を行うイメージを図１４に示す。図１４に示すように、時刻ｔ＝０の画像フレームから得られた物体認識結果から順次、各時刻の物体認識結果に対して処理がなされる。以下、図１４、１５を参照して情報重畳装置２００の各部の動作の詳細を説明する。

＜候補重畳位置選択部２２０＞
候補重畳位置選択部２２０では、各時刻での物体認識結果を入力として、認識された物体とは重複せず物体重畳情報を重畳可能な位置の候補である候補物体重畳位置を出力する。

候補物体重畳位置を出力する方法としては、例えば、例えば図１５に示すように、格子状に生成した重畳位置（図１５（ａ）の点線枠）と物体位置（実線枠）との重複を総当りで計算し、いずれの物体とも重複がないもの（図１５（ｂ）の点線枠）を抽出し、出力する方法を用いればよい。

また、上記の処理の中の重複を計算する方法としては、例えばＩｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－Ｕｎｉｏｎ（ＩｏＵ）を用いればよい。ＩｏＵを用いる場合、例えば、ＩｏＵ＝０となる重畳位置の領域（図１５（ｂ）の点線枠）を抽出する。

なお、上記の例（図１５（ｂ）に示す例）では、候補重畳位置と物体位置との重複を全く許容していないが、所定のパラメータを設定の上、その値を上回らない程度の重複を許容して候補重畳位置を選択してもよい。

＜対応付け部２３０＞
対応付け部２３０は、候補重畳位置選択部２２０により出力された候補重畳位置と、現在時刻で認識されている物体とを対応付け、各物体の情報重畳位置を決定する。

より詳細には、対応付け部２３０は、現在時刻の画像フレームで認識された各物体の近くに重畳情報が表示されることと、直前画像フレームで表示されていた重畳情報が、現在時刻の画像フレームでその位置を極力変えないこととを同時に満たすようその対応付けを決定する。上記の対応付けを行う方法の例を以下で説明する。

物体認識装置１００で時刻ｔの画像フレームＩ_ｔから検出された特定物体の集合を｛（ｌ_１，ｂ_１），...，（ｌ_ｉ，ｂ_ｉ），...，（ｌ_Ｎｔ，ｂ_Ｎｔ）｝とする。ｌ_ｉ∈Ｌ_ｔは特定物体のラベル、ｂ_ｉは検出結果である。ｂ_ｉは例えば矩形四隅の情報で定義されるベクトルである。また、現在時刻ｔの候補重畳位置集合を｛ｃ_１，...，ｃ_ｊ，...，ｃ_Ｍ）｝とする。ｃ_ｊは、例えば重畳情報が画像の場合、矩形四隅の情報（ベクトル）である。更に、一つ前の時刻ｔ－１における各物体ラベルｌ_ｉ∈Ｌ_ｔ－１の情報が重畳された位置を｛ｐ_１，...，ｐ_ｉ，...｝とおく。

物体ｉが候補重畳位置ｊに対応付くことの妥当さを示す値を｛ａ_ｉｊ｝∈Ｒ^Ｎ×Ｍとして、その値を以下の式（１）のように定義し、対応付け部２３０が各ａ_ｉｊを計算する。

上記の式（１）におけるｄｉｓｔ（ｍ，ｎ）は、位置ｍとｎの距離を出力する関数であり、例えばｍとｎそれぞれの中心座標のＬ２ノルムを計算する関数として定義すればよい。式（１）は、時刻ｔ－１に特定物体のラベルｌ_ｉの情報が重畳されている場合には、その位置ｐ^ｔ－１ _ｉと時刻ｔの候補重畳位置ｃ_ｊとの距離がａ_ｉｊになり、時刻ｔ－１に特定物体のラベルｌ_ｉの情報が重畳されていない場合には、特定物体の位置ｂ_ｉと候補重畳位置ｃ_ｊとの距離がａ_ｉｊになることを意味する。

時刻ｔ－１に特定物体のラベルｌ_ｉが重畳されている場合に、その位置ｐ^ｔ－１ _ｉと候補重畳位置ｃ_ｊとの距離ａ_ｉｊを小さくすることは、直前画像フレームで表示されていた重畳情報が、現在フレームでその位置を極力変えないことを意味する。また、特定物体の位置ｂ_ｉと候補重畳位置ｃ_ｊとの距離ａ_ｉｊを小さくすることは、現在時刻の画像フレームで認識された各物体の近くに重畳情報を表示させることを意味する。

なお、本実施例では、時刻ｔ－１に特定物体のラベルｌ_ｉの情報が重畳されている場合に、その位置ｐ^ｔ－１ _ｉと候補重畳位置ｃ_ｊとの距離ａ_ｉｊを小さくすること（Ａとする）と、時刻ｔ－１に特定物体のラベルｌ_ｉの情報が重畳されていない場合に、特定物体の位置ｂ_ｉと候補重畳位置ｃ_ｊとの距離ａ_ｉｊを小さくすること（Ｂとする）の両方を用いて目的関数を定義して、後述する式（２）の最適化問題を解いているが、ＡとＢのうちのいずれか１つを用いて、後述する式（２）の最適化問題を解いていてもよい。

｛ｘ_ｉｊ｝∈Ｒ^Ｎ×Ｍを物体ｉが候補重畳位置ｊに対応付くときに１、それ以外で０をとるバイナリ行列と定義すると、対応付け部２３０は、以下の式（２）を満たすような｛ｘ_ｉｊ｝を求めることで、現在時刻の画像フレームで認識された各物体の近くに重畳情報が表示されることと、直前画像フレームで表示されていた重畳情報が、現在フレームでその位置を極力変えないこととを同時に満たす対応付け｛ｘ_ｉｊ｝^＊を得ることができる。

上記の式（２）は、１つの物体は１つの候補重畳位置に対応付き、１つの候補重畳位置は、１つ以下の物体に対応付くという制約の下で、ａ_ｉｊｘ_ｉｊの総和を最小にする｛ｘ_ｉｊ｝を求めることを意味している。式（２）は、任意のアルゴリズムで解くことが可能であり、例えばハンガリアンアルゴリズムを用いて解くことができる。

なお、上記の例では、現在時刻の画像フレームで認識された各物体の近くに重畳情報が表示されることと、直前画像フレームで表示されていた重畳情報が、現在フレームでその位置を極力変えないこととを同時に満たす対応付けを決定しているが、これは例である。例えば、現在時刻の画像フレームで認識された各物体の近くに重畳情報が表示されることのみを満たす対応付けを決定してもよいし、直前画像フレームで表示されていた重畳情報が、現在フレームでその位置を極力変えないことのみを満たす対応付けを決定してもよい。

＜重畳部２４０＞
重畳部２４０は、対応付け部２３０で得られた物体・重畳位置の対応付け結果に基づき、現在時刻の画像フレームへ物体重畳情報を重畳し出力する。

＜実施例２の効果＞
以上、説明したとおり、本実施例２によれば、視聴者が、重畳情報の内容を把握し易いように重畳情報を表示できる。より詳細には、例えば、（ｉ）重畳情報が対象物体を遮蔽しない、（ｉｉ）対象物体との近接性が保たれていること、（ｉｉｉ）重畳情報位置の時間的な一貫性が保たれていることを同時に満足させるように重畳情報を映像に重畳できる。なお、これら３つを同時に満足させることは必須ではない。少なくとも１つを満足すれば、視聴者が、重畳情報の内容を把握し易いように重畳情報を表示できる。ただし、上記３つを同時に満足させることで、重畳情報の内容を把握し易いように重畳情報を表示できるという効果が最も大きくなる。

（ハードウェア構成例）
物体認識装置１００、情報重畳装置２００、情報提示装置３００はいずれも、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。なお、以下、物体認識装置１００、情報重畳装置２００、情報提示装置３００を総称して「装置」と呼ぶ。

すなわち、当該装置は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

図１６は、上記コンピュータのハードウェア構成例を示す図である。図１６のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。なお、これらのうち、一部を備えないこととしてもよい。例えば、表示を行わない場合、表示装置１００６を備えなくてもよい。

当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置１００５は、ネットワークに接続するためのインタフェースとして用いられ、送信部及び受信部として機能する。表示装置１００６はプログラムによるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

（実施例１のまとめ））
本明細書には、少なくとも下記各項の物体認識装置、物体認識方法、及びプログラムが開示されている。
（第１項）
映像から検出された各物体を追跡する追跡部と、
前記追跡部により追跡されている１以上の物体のうち、その属性が未だ判定されていない未判定物体について、当該未判定物体の前記映像上の見え方の情報に基づいて、当該未判定物体の属性を判定可能であるか否かを判断し、判定可能である場合に、当該未判定物体の属性を判定する属性判定部と
を備える物体認識装置。
（第２項）
前記属性判定部は、前記未判定物体が、他の物体に隠されていない度合を示す指標値を算出し、当該指標値と閾値とを比較することにより、前記未判定物体の属性を判定可能であるか否かを判断する
第１項に記載の物体認識装置。
（第３項）
前記属性判定部は、前記未判定物体の姿勢に関する情報に基づいて、前記未判定物体における所定領域が見えているか否かを判断することにより、前記未判定物体の属性を判定可能であるか否かを判断する
第１項又は第２項に記載の物体認識装置。
（第４項）
物体認識装置が実行する物体認識方法であって、
映像から検出された各物体を追跡する追跡ステップと、
前記追跡ステップにより追跡されている１以上の物体のうち、その属性が未だ判定されていない未判定物体について、当該未判定物体の前記映像上の見え方の情報に基づいて、当該未判定物体の属性を判定可能であるか否かを判断し、判定可能である場合に、当該未判定物体の属性を判定する属性判定ステップと、
を備える物体認識方法。
（第５項）
コンピュータを、第１項ないし第３項のうちいずれか１項に記載の物体認識装置における各部として機能させるためのプログラム。

（実施例２のまとめ））
本明細書には、少なくとも下記各項の情報重畳装置、学習装置、情報重畳方法、及びプログラムが開示されている。
（第１項）
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された１以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された１以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置。
（第２項）
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された１以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された１以上の物体のそれぞれの位置に基づいて、画像フレーム間での重畳情報の位置の変化が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置。
（第３項）
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された１以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された１以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなり、かつ、画像フレーム間での重畳情報の位置の変化が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置。
（第４項）
前記位置決定部は、前時刻に物体に重畳情報が重畳されている場合に、その位置と候補重畳位置との距離を小さくすること、及び、前時刻に物体に重畳情報が重畳されていない場合に、物体の位置と候補重畳位置との距離を小さくすることを目的関数とする最適化問題を解くことにより、各物体に対する重畳情報の位置を決定する
第３項に記載の情報重畳装置。
（第５項）
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置が実行する情報重畳方法であって、
前記映像から認識された１以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択ステップと、
前記候補重畳位置の集合と、前記映像から認識された１以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなり、かつ、画像フレーム間での重畳情報の位置の変化が小さくなるように、重畳情報の位置を決定する位置決定ステップと
を備える情報重畳方法。
（第６項）
コンピュータを、第１項ないし第４項のうちいずれか１項に記載の情報重畳装置における各部として機能させるためのプログラム。

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

［参考文献］
[1] X. Zhou, D. Wang, and P. Krahenbuhl. Objects as points. In arXiv preprint arXiv:1904.07850, 2019.
[2] G. Li, S. Xu, X. Liu, L. Li, and C. Wang. Jersey number recognition with semi-supervised spatial transformer network. In CVPR Workshop, 2018.
[3] Y. Wu, A. Kirillov, F. Massa, W.-Y. Lo, and R. Girshick. Detectron2. https://github.com/facebookresearch/detectron2, 2019.
[4] A. Bewley, Z. Ge, L. Ott, F. Ramos, and B. Upcroft. Simple online and realtime tracking. In ICIP, 2016.
[5] K. Zhou, Y. Yang, A. Cavallaro, and T. Xiang. Omni-scale feature learning for person re-identification. In ICCV,2019.

１００物体認識装置、物体認識部
１１０映像データ格納部
１２０検出部
１３０追跡部
１４０ラベル判定部
１４１クラスビジビリティ判定部
１４２クラス推定部
１４３属性ビジビリティ判定部
１４４属性判定部
２００情報重畳装置、情報重畳部
２１０物体重畳情報格納部
２２０候補重畳位置選択部
２３０対応付け部
２４０重畳部
３００情報提示装置
１０００ドライブ装置
１００１記録媒体
１００２補助記憶装置
１００３メモリ装置
１００４ＣＰＵ
１００５インタフェース装置
１００６表示装置
１００７入力装置
１００８出力装置

Claims

映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された１以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された１以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置。
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された１以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された１以上の物体のそれぞれの位置に基づいて、画像フレーム間での重畳情報の位置の変化が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置。
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された１以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された１以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなり、かつ、画像フレーム間での重畳情報の位置の変化が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置。
前記位置決定部は、前時刻に物体に重畳情報が重畳されている場合に、その位置と候補重畳位置との距離を小さくすること、及び、前時刻に物体に重畳情報が重畳されていない場合に、物体の位置と候補重畳位置との距離を小さくすることを目的関数とする最適化問題を解くことにより、各物体に対する重畳情報の位置を決定する
請求項３に記載の情報重畳装置。
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置が実行する情報重畳方法であって、
前記映像から認識された１以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択ステップと、
前記候補重畳位置の集合と、前記映像から認識された１以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなり、かつ、画像フレーム間での重畳情報の位置の変化が小さくなるように、重畳情報の位置を決定する位置決定ステップと
を備える情報重畳方法。
コンピュータを、請求項１ないし４のうちいずれか１項に記載の情報重畳装置における各部として機能させるためのプログラム。