JP2021051536A - オブジェクト検出装置、方法及びプログラム - Google Patents

オブジェクト検出装置、方法及びプログラム Download PDF

Info

Publication number
JP2021051536A
JP2021051536A JP2019173971A JP2019173971A JP2021051536A JP 2021051536 A JP2021051536 A JP 2021051536A JP 2019173971 A JP2019173971 A JP 2019173971A JP 2019173971 A JP2019173971 A JP 2019173971A JP 2021051536 A JP2021051536 A JP 2021051536A
Authority
JP
Japan
Prior art keywords
detection
image
detection result
frame image
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019173971A
Other languages
English (en)
Other versions
JP7144384B2 (ja
Inventor
建鋒 徐
Kenho Jo
建鋒 徐
和之 田坂
Kazuyuki Tasaka
和之 田坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2019173971A priority Critical patent/JP7144384B2/ja
Publication of JP2021051536A publication Critical patent/JP2021051536A/ja
Application granted granted Critical
Publication of JP7144384B2 publication Critical patent/JP7144384B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】映像の時間軸での情報を利用することによって検出精度が向上されたオブジェクト検出装置を提供する。【解決手段】映像におけるフレーム画像に対してオブジェクト種別及び領域の検出処理を適用して第一検出結果を得る第一検出部3と、前記フレーム画像より、前記映像における動き画像を生成する動き抽出部2と、前記動き画像で動きがあると判定される領域を前記フレーム画像から切り出してオブジェクト種別及び領域の検出処理を適用することにより、前記フレーム画像に対するオブジェクト種別及び領域の第二検出結果を得る第二検出部4と、前記第一検出結果及び前記第二検出結果を統合することにより、前記フレーム画像に対するオブジェクト種別及び領域の検出結果を得る統合部5と、を備える。【選択図】図1

Description

本発明は、映像の時間軸での情報を利用することによって検出精度が向上されたオブジェクト検出装置、方法及びプログラムに関する。
深層学習を用いて映像内からオブジェクト(対象)を検出する従来手法として、SSD(Single Shot Multibox Detector、非特許文献1)、YOLOv3(You Only Look Once version 3、非特許文献2)、Mask R-CNN(Mask Regions with Convolutional Neural Network Features、非特許文献3)などがある。
Liu, Wei, et al. "SSD: Single Shot MultiBox Detector." arXiv preprint arXiv:1512.02325 (2015) Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." arXiv preprint arXiv: 1506.02640 (2015) He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEE international conference on computer vision. 2017.
しかしながら、上記の従来技術のオブジェクト検出は、例えばサッカーフィールドを広域で撮影した映像内に小さなサイズで映っている、サッカーを行っている選手やボールといったようなオブジェクトに関して未検出あるいは誤検出となることがあり、検出精度が悪いという課題があった。検出精度が悪くなる原因としては、映像のフレーム画像において当該オブジェクトのサイズが小さいことの他にも、動いていることによるボケの発生があるが、従来技術ではこれらに対する対処がなされていなかった。
従来技術では映像の各時刻のフレーム画像を独立に、個別の静止画として扱うことでオブジェクト検出を行っており、映像の時間軸での情報は考慮されていなかった。
上記従来技術の課題に鑑み、本発明は、映像の時間軸での情報を利用することによって検出精度が向上されたオブジェクト検出装置、方法及びプログラムを提供することを目的とする。
上記目的を達成するため、本発明はオブジェクト検出装置であって、映像におけるフレーム画像に対してオブジェクト種別及び領域の検出処理を適用して第一検出結果を得る第一検出部と、前記フレーム画像より、前記映像における動き画像を生成する動き抽出部と、前記動き画像で動きがあると判定される領域を前記フレーム画像から切り出してオブジェクト種別及び領域の検出処理を適用することにより、前記フレーム画像に対するオブジェクト種別及び領域の第二検出結果を得る第二検出部と、前記第一検出結果及び前記第二検出結果を統合することにより、前記フレーム画像に対するオブジェクト種別及び領域の検出結果を得る統合部と、を備えることを特徴とする。また、前記オブジェクト検出装置に対応する方法及びプログラムであることを特徴とする。
本発明によれば、動き画像を介して時間軸での情報を利用することによって検出精度を向上させることができる。
一実施形態に係るオブジェクト検出装置の機能ブロック図である。 フレーム画像とこれよりマスク抽出部によって抽出されるマスク画像との例を示す図である。 映像におけるある時刻のフレーム画像として図2のフレーム画像を対象として動き抽出部によって生成される動き画像の例を示す図である。 一実施形態に係る第一検出部の機能ブロック図である。 第一検出器において割り当てて利用するスライディングウィンドウの例を示す図である。 修正部による検出結果の修正の例を説明するための図である。 マージ部におけるマージ処理の例を示す図である。 一実施形態に係る第二検出部の機能ブロック図である。 図8に示される第二検出部による検出処理の際の作成部41の処理までの模式例を、3つの説明用のパネルに分けて示す図である。 図9の5個のパーツ領域がフレーム画像より切り出したものであることを、フレーム画像と画素位置が対応している動き画像上において示す図である。 ウィンドウ内に検出用画像を埋め込んだ模式例を示す図である。 説明のための第一及び第二検出結果に関する変数表記を列挙した表である。 図12に示す変数表記の内容を模式的に示す図である。 一般的なコンピュータにおけるハードウェア構成の例を示す図である。
図1は、一実施形態に係るオブジェクト検出装置の機能ブロック図である。オブジェクト検出装置10は、マスク抽出部1、動き抽出部2、第一検出部3、第二検出部4及び統合部5を備える。オブジェクト検出装置10は、その全体的な動作として、映像の各時刻t(t=1,2,…)のフレーム画像をマスク抽出部1、動き抽出部2、第一検出部3及び第二検出部4において入力として読み込み、統合部5より当該時刻tのフレーム画像におけるオブジェクトの検出結果を出力するものである。以下、この全体的な動作を実現する詳細として、オブジェクト検出装置10の各部1〜5の処理内容を説明する。
<マスク抽出部1>
マスク抽出部1は、入力されるフレーム画像を解析して、このフレーム画像の全体の領域のうち、オブジェクト検出装置10において検出されるべきオブジェクトが存在しうる所定の領域の情報を与えるマスク画像を抽出し、当該抽出したマスク画像を第一検出部3及び第二検出部4へと出力する。
図2は、フレーム画像P1とこれよりマスク抽出部1によって抽出されるマスク画像M1との例を示す図である。図2にてフレーム画像P1はサッカースタジアム内のサッカーフィールドにおいてサッカーの試合が行われている様子を撮影した画像であり、マスク画像M1はサッカーフィールドの領域を指定するための画像(すなわち、サッカーフィールドをマスクするための画像)として構成される場合が、例として示されている。(なお、以降の説明において適宜参照するその他の例も、図2の例を前提とする。)
オブジェクト検出装置10においては事前知識として、フレーム画像が例えばこのサッカーのようなスポーツ映像であり、検出されるべき対象が例えばサッカー選手及びボールである旨の情報が与えられているものとする。また、オブジェクト検出装置10においては事前知識として、このようなスポーツ映像においてサッカーのルールに即した所定サイズのサッカーフィールド内において、オブジェクトとしての選手及びボールが検出されるべきである旨の情報が与えられているものとする。(従って例えば、当該サッカーフィールドの外部にある観客席内の客などは検出されるオブジェクトではない旨の情報が与えられているものとする。)
マスク抽出部1では上記のようなフレーム画像において検出すべきオブジジェクトの存在しうる範囲に関する事前情報(管理者等が予め与えておく)を利用することで、フレーム画像よりマスク画像M1として、例えばサッカーフィールドの矩形状の領域のみを抽出することができる。マスク画像M1は2値画像として構成され、オブジェクトが存在しうる範囲は前景として例えば値「1」を、これ以外の領域はオブジェクトが存在しない背景として値「0」を与えたものとすることができる。(図2のマスク画像M1では前景を白色、背景を黒色としている。)
サッカーフィールドの場合であれば、境界となる白線(エッジ)及び白線同士の交点であるコーナーを検出して、図2に示されるような矩形領域としてマスク画像を抽出することができる。その他、マスク抽出部1では任意の既存手法を利用して、事前情報を用いてフレーム画像を解析することによりマスク画像を得ることができる。例えば、フレーム画像が撮影されるフィールド内に、拡張現実表示で用いられる正方マーカを配置しておき、当該マーカを検出したうえで当該マーカを基準とした所定の平面範囲を、マスク画像として求めるようにしてもよい。正方マーカに代えて、フィールド内におけるSIFT特徴量等の自然特徴量をその位置情報と共に記憶しておき、フレーム画像に対する特徴情報の検出からマスク画像を求めるようにしてもよい。
<動き抽出部2>
動き抽出部2は、映像の時刻t(対象としている現時刻t)のフレーム画像より、その前時刻(過去時刻)t-1のフレーム画像及び/又は後時刻(未来時刻)t+1のフレーム画像も参照することによって、動きを抽出して時刻tの動き画像(フレーム画像における動きの分布を反映した画像)を生成し、第一検出部3及び第二検出部4へと出力する。元のフレーム画像は所定の色チャネル、例えばRGBの3つのチャネルで構成されるものであるのに対し、動き抽出部2では動き画像を、1つのみのチャネル数を有する、2値画像として生成することができる。(なお、前述のマスク抽出部1で得るマスク画像もこの動き画像と同様に、1チャネルの2値画像として構成されるものである。)
動き抽出部2では具体的には、以下の第1手順及び第2手順により動き画像を生成してよい。フレーム画像は所定の色チャネルの例としてRGBの3つのチャネルで構成されるものである場合を例として説明し、時刻tのRチャネルの画像、Gチャネルの画像及びBチャネルの画像をそれぞれR(t)、G(t)及びB(t)とし、生成される1チャネルの動き画像をFB1(t)とする。フレーム画像がその他の色チャネルで構成される場合も同様に動き画像を生成することができる。
(第1手順)
時刻tのフレーム画像からグレースケール画像Y(t)を以下の式(1)により求めたうえで、このグレースケール画像Y(t)の時間軸上でのフレーム差分の画像としてF(t)を求める。フレーム差分に関しては、前進差分、後退差分又は中心差分のいずれかとして求めればよく、それぞれ以下の式(1A),(1B),(1C)のいずれかとして求めるようにすればよい。
Y(t)=0.299*R(t)+0.587*G(t)+0.114*B(t) …(1)
F(t)=Y(t+1)-Y(t) …(1A)
F(t)=Y(t)-Y(t-1) …(1B)
F(t)=(F1(t)+F2(t))/2=(Y(t+1)-Y(t-1))/2 …(1C)
(第2手順)
上記式(1A),(1B),(1C)のいずれかで求めたフレーム差分画像F(t)に対して2値化(バイナリ化)を施すことで動き画像FB(t)を求め、後段側の第一検出部3及び第二検出部4への出力とする。2値化に関しては、2値化する前のフレーム差分画像F(t)における各画素位置(u,v)において差分値として求めた画素値の絶対値が所定の閾値を超えるか否かにより判定し、超える場合は動きがあるものとして値を例えば1とし、超えない場合は動きがないものとして値を例えば0とすることで、2値化された動き画像FB(t)を得ることができる。
動き抽出部2では以上のようにして、フレーム間の差分を求めることで簡素に動き画像を生成することができる。
動き抽出部2による動き画像の生成の別の実施形態として、第1手順ではフレーム差分画像F(t)ではなくオプティカルフローの画像(各画素位置(u,v)にオプティカルフローのu方向成分及びv方向成分(2次元ベクトル)を紐づけた画像)を求め、第2手順ではこのオプティカルフローの画像における2次元ベクトルの絶対値が閾値を超えるか否かにより動きの有無を判定して2値化を行い、2値化された動き画像FB(t)を得るようにしてもよい。
図3は、映像におけるある時刻のフレーム画像として図2のフレーム画像P1を対象として動き抽出部2によって生成される動き画像B1の例を示す図である。図3の動き画像B1では、元のフレーム画像P1(図2)において動きのある選手及びボールの領域が値1(白色)として検出されていることを見て取ることができる。
<第一検出部3>
第一検出部3は、オブジェクト検出装置10への入力としてのフレーム画像に対してオブジェクト検出処理を適用し、このオブジェクト検出結果を第一検出結果として統合部5へと出力する。(なお、後述する第二検出部4におけるオブジェクト検出結果を第二検出部と呼び、第一検出部3における第一検出結果と区別する。)第一検出部3においてフレーム画像からオブジェクト検出を行うに際しては、マスク抽出部1から出力される当該フレーム画像から得られたマスク画像と動き抽出部2から出力される当該フレーム画像から得られた動き画像とを参照して利用する。
図4は、一実施形態に係る第一検出部3の機能ブロック図である。第一検出部3は第一検出器31、修正部32及びマージ部33を備え、この順番で処理を行うことによりフレーム画像から第一検出結果を得ることができる。以下、各部31,32,33の処理内容を順に説明する。
(第一検出器31)
第一検出器31は、フレーム画像に対して当該フレーム内を移動しながら検出処理を行う所定のスライディングウィンドウを割り当て、スライディングウィンドウごとに検出器による検出処理を適用することで得られる検出結果(各スライディングウィンドウの検出結果をフレーム画像の全体に渡って集めたもの)を修正部32へと出力する。
図5は、第一検出器31において割り当てて利用するスライディングウィンドウの例を示す図であり、フレーム画像P1が例えば横4096×縦2160の4K映像におけるものである場合、所定のスライディングウィンドウとして、横512×縦512の正方形のウィンドウを設定し、当該正方形をスライドさせる際の横及び縦のオーバーラップを64として(すなわち、スライド幅を横及び縦のいずれも512-64=448として)設定する例が示されている。
図5では、フレーム画像P1の全体に渡って割り当てられる全てのスライディングウィンドウのうち、フレーム画像P1の左上の頂点に位置するウィンドウWaと、Waの左隣りのウィンドウWbと、Waの下隣りのウィンドウWcと、が示されている。例えばウィンドウWaとその左隣りのウィンドウWbとの間には横64×縦512のオーバーラップ領域があり、ウィンドウWaとその下隣りのウィンドウWcとの間には横512×縦64のオーバーラップ領域がある。
第一検出器31では、図5にその一部の例が示されるようなスライディングウィンドウをフレーム画像の全体に渡って移動させ、各スライディングウィンドウにおいて検出結果を得る。当該移動させる際に、第一検出器31ではマスク抽出部1で得たマスク画像を参照し、当該マスク画像においてオブジェクトが存在しない領域として定義されている箇所に関しては、スライディングウィンドウによる検出処理を省略することができる。
なお、1つのスライディングウィンドウ内においてマスク画像によりオブジェクトが存在しない領域と、オブジェクトが存在しうる領域との両方が定義されている場合、当該スライディングウィンドウの全体のうち後者のオブジェクトが存在しうる領域のみを検出処理の対象とすればよい。
第一検出器31によりスライディングウィンドウを用いて検出処理を行う際の具体的な検出器は既存のものを利用してよく、例えば以下の非特許文献に開示されるM2Detを用いてもよいし、前掲の非特許文献1〜3に開示されるSSD、YOLOv3又はMask R-CNNを用いてもよい。
[非特許文献]Zhao, Qijie, et al. "M2det: A single-shot object detector based on multi-level feature pyramid network." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.
(修正部32)
修正部32は、第一検出器31から得られた検出結果を動き抽出部2から得られた動き画像と照合することによって修正し、当該修正された検出結果をマージ部33へと出力する。
ここで、第一検出器31から得られる検出結果の情報は、(フレーム画像の全体に渡って未検出であった場合を除いて)1つ以上の矩形としての検出領域(囲み領域、Bounding Box)と、当該検出領域におけるオブジェクト種別の尤度ベクトルとで構成される。尤度ベクトルに関しては、第一検出器31で用いる検出器(畳込みニューラルネットワークを利用する検出器)を予め学習した際に学習データにおいて与えておいた所定の1つ以上(N種類とする)のオブジェクト種別O1,O2,…,ONに関してそれぞれ尤度をベクトル要素として列挙したものL=(L1,L2,…,LN)として得られる。例えば、2種類のオブジェクトとして選手とボールの検出を第一検出器31の検出器において学習した場合、ある検出領域に関して、選手の尤度が0.7であり、ボールの尤度が0.2であった場合、これらを順にベクトル要素として列挙した(0.7,0.2)が尤度ベクトルとして得られる。
修正部32では具体的に、次のように検出結果を修正する。すなわち、修正部32では、上記のような形式で与えられる第一検出器31での検出結果(オブジェクト種別の尤度とオブジェクトが占める領域の情報)の各々に対して、動き抽出部2から得られた動き画像と照合し、検出領域内において、2値画像である動き画像の前景領域(動きがあると判定されている領域)が占める面積(画素数)の割合が一定閾値以上(例えば半分以上)であるか否かを判定し、判定結果が肯定である(検出領域内において占める動き領域が一定割合以上である)場合、当該検出結果における尤度ベクトルの値を所定量だけ大きくするように修正し、逆に当該判定結果が否定である(検出領域内において占める動き領域が一定割合未満である)場合、当該検出結果における尤度ベクトルの値を所定量だけ小さくするように修正する。
図6は、修正部32による検出結果の修正の例を説明するための図である。図6では、第一検出器31での検出結果のうちの2つの検出結果における検出領域r11,r12が、図3の動き画像B1上におけるものとして示されている。(なお、第一検出器31での検出結果は、動き画像P1を求めたフレーム画像P1(図2)に対するものであるが、動き画像B1とフレーム画像P1とは画素位置(u,v)が対応しているので、図6では検出結果における検出領域を動き画像B1上において示している。)
図6の例において1つ目の検出領域r11に関しては、その内部に一定割合以上での動き領域が存在していると判定され、尤度ベクトルの値を所定量だけ大きくするように修正が行われる。例えば、この検出領域r11における尤度ベクトルが前述の例のように(選手の尤度、ボールの尤度)=(0.7,0.2)であったとすると、修正部32ではこれに一定量0.1を加算する修正を行い、修正された尤度ベクトルとして(0.7+0.1,0.2+0.1)=(0.8,0.3)を得る。また、2つ目の検出領域r12に関しては、その内部に動き領域が存在しないことにより、動き領域の存在が一定割合未満であると判定され、尤度ベクトルの値を所定量だけ小さくするように修正が行われる。例えば、この検出領域r12における尤度ベクトルが(選手の尤度、ボールの尤度)=(0.2,0.3)であったとすると、修正部32ではこれより一定量0.1を減算する修正を行い、修正された尤度ベクトルとして(0.2-0.1,0.3-0.1)=(0.1,0.2)を得る。
なお、修正部32における尤度ベクトルの要素値の修正は、上記の図6の例のように所定値の加算及び減算として行う他にも、任意の所定の計算式等を用いるようにしてよい。例えば尤度ベクトルの値が大きくなるよう修正する際は1より大きい所定値を乗ずるようにし、小さくなるよう修正する際は0以上1未満の所定値を乗ずるようにしてもよい。修正した結果が尤度値の所定範囲(例えば0以上1以下)を逸脱した場合、当該範囲の上限又は下限の値となるように補正する処理を行ってもよい。
(マージ部33)
マージ部33は、修正部32で得られた修正された検出結果(未検出の場合を除き、1つ以上の検出領域とそのオブジェクト種別の尤度とで構成される)のうち、所定条件に該当するものをマージ(併合)し、当該マージされた検出結果を第一検出部3で得られた最終的な検出結果(すなわち、第一検出結果)として、統合部5へと出力する。
なお、マージ部33によってマージされうる検出領域の類型の1つとして、第一検出器31で用いたスライディングウィンドウにおける重複箇所において検出された領域がある。(例えば、図5の例であれば、Wa及びWbの間とWa及びWcの間とWb及びWcの間とにそれぞれ重複箇所が、横×縦のサイズが64×512,512×64,64×64となる範囲として存在している。)
マージ部33では具体的に、検出結果(スライディングウィンドウ毎の検出結果を全て合わせたフレーム画像全体での検出結果)における1つ以上の検出領域のうち、領域が相互に重複する割合が一定値(例えば半分)以上であるような2つの検出領域がある場合、このような2つの検出領域をマージして新たな1つの検出領域を得る。当該新たな検出領域が占める領域の範囲は、マージされた2つの検出領域を包含する最小の矩形(囲み領域、Bounding Box)とすればよい。また、当該新たにマージされた検出領域に対応する尤度ベクトルは、例えば、マージされた2つの検出結果における2つの尤度ベクトルの平均値とすればよい。
ここで、2つの領域r10及びr20の重複割合overlap(r12,r20)は例えば以下の式(2)で0以上1以下の値として算出するようにすればよい。|X|は領域Xの面積(画素数)を表し、「r10∩r20」は領域r10,r20の共通部分(論理積)の領域であり、「r10∪r20」は領域r10,r20の論理和の領域である。2つの領域r10及びr20が完全重複(領域として同一)の場合、当該算出される重複割合の値は最大値1となり、2つの領域r10及びr20の間に重複箇所が全く存在しない場合、当該算出される重複割合の値は最小値の0となる。
overlap(r10,r20)=|r10∩r20|/|r10∪r20| …(2)
図7は、マージ部33におけるマージ処理の例を示す図であり、左側に示されるような2つの矩形状の検出領域r21,r22は、重複割合が一定値(例えば半分)以上であることから、マージされて右側にグレー地でその範囲が示されるような領域r23となる。
マージ部33では、以下の手順1、2,3で示されるフローを、手順1において重複割合が一定以上となる2つの検出領域が存在しなくなるまで繰り返すことで、それぞれの検出領域に関して1回以上のマージ処理を行うようにしてもよい。なお、当該フローを開始した直後の1回目の手順1において、「現在の検出結果(の全体)」には修正部32から得た検出結果を用いる。
(手順1)…現在の検出結果(の全体)を構成する1つ以上の検出領域のうち、重複が一定割合以上の2つの検出領域を探索し、手順2へ進む。当該探索ができない場合(重複が一定割合以上の2つの検出領域が存在しない場合)、当該フローを終了する。
(手順2)…手順1で探索された2つの検出領域をマージして、手順3へ進む。(この際、尤度ベクトルも当該2つの平均値としてマージした1つの尤度ベクトルを得る。)
(手順3)…手順2でのマージ処理を反映して現在の検出結果(の全体)を更新し、手順1に戻る。
上記の手順1〜3の繰り返しにより、例えば、領域raと領域rbとが一定割合以上重複することによってマージして領域rabを得たうえで、このマージされた領域rabと別の領域rcとが一定割合以上重複することによってマージし、領域rabcを得る、といったマージ処理がなされうる。(すなわち、領域rabcは3つの領域ra,rb,rcをマージしたものとなる。当該マージする元となる3つの領域ra,rb,rcのそれぞれも、修正部32で得た検出結果における2つ以上の領域がマージされたものであってもよい。)
<第二検出部4>
第二検出部4は、オブジェクト検出装置10への入力としてのフレーム画像に対してオブジェクト検出処理を適用し、このオブジェクト検出結果を第二検出結果として統合部5へと出力する。第二検出部4においてフレーム画像からオブジェクト検出を行うに際しては、マスク抽出部1から出力される当該フレーム画像から得られたマスク画像と動き抽出部2から出力される当該フレーム画像から得られた動き画像とを参照して利用する。
図8は、一実施形態に係る第二検出部4の機能ブロック図である。第二検出部4は作成部41及び第二検出器42を備え、この順番で処理を行うことによりフレーム画像から第二検出結果を得ることができる。図9は、図8に示される第二検出部4による検出処理の際の作成部41の処理までの模式例を、3つの説明用のパネルPL1,PL2,PL3に分けて示す図である。以下、図8の各機能部41,42の処理内容を順に説明するが、この説明の際には適宜、図9等の模式例を参照する。
(作成部41)
作成部41は、後段側の第二検出器42における検出処理の適用対象となる画像として、フレーム画像より1枚以上の検出用画像を作成し、当該作成された1枚以上の検出用画像を第二検出器42へと出力する。作成部41では検出用画像を作成する際に、マスク抽出部1で得られるマスク画像と動き抽出部2で得られる動き画像とを参照して利用する。作成部41では具体的に、以下の第1〜第3処理を順番に行うことにより、検出用画像を作成することができる。
(第1処理) フレーム画像より、動き画像において前景(動きがあると判定されている領域)に該当する領域を囲む矩形領域(Bounding Box)をそれぞれ、パーツ領域(部分領域)として切り出す。当該パーツ領域を切り出す範囲は、フレーム画像の全体のうち、マスク画像においてオブジェクトが存在しうると判定されている範囲のみに限定してよい。ここで、動き画像での前景領域を囲む矩形領域は、前景領域を包含する矩形領域のうち縦幅及び横幅が最小サイズのものとして求めるようにしてよい。
なお、動き画像は2値画像に過ぎないため、(すなわち、動き画像は各画素についての前景か背景かを2値で区別する情報以外を含まないため、)前景に該当するそれぞれの領域を識別するために、第1処理においては動き画像の前景画素に対して連結領域ラベリングを適用し、同一ラベルが付与されている前景画素群(連結成分となっている前景画素群)を、それぞれの個別の領域であるものと識別したうえで、当該個別の領域をそれぞれ囲む矩形領域を、フレーム画像よりパーツ領域として切り出して求めるようにすればよい。
図9のパネルPL1には第1処理で切り出されるパーツ領域の例として、図2のフレーム画像P1より、これに対応する図3の2値動き画像B1に連結領域ラベリングを行って個別領域を識別したうえで、個別領域を包含する最小矩形として切り出されたパーツ領域のうち一部の例として、5個のパーツ領域r1,r2,r3,r4,r5が示されている。パネルPL1に示される5個のパーツ領域r1,r2,r3,r4,r5は、フレーム画像P1の選手(及び審判)の領域を、動き画像に反映された動きの情報に基づいて切り出したものとなっていることを見て取ることができる。図10は、図9の5個のパーツ領域r1,r2,r3,r4,r5がフレーム画像P1より切り出したものであることを、フレーム画像P1と画素位置(u,v)が対応している動き画像B1上において示す図である。
(第2処理) 第1処理で得られたパーツ領域をそれぞれ、所定倍率で拡大することにより、拡大パーツ領域を得る。図9のパネルPL2には、パネルPL1に示される5個のパーツ領域r1,r2,r3,r4,r5に対して第2処理を適用した例として、これらをそれぞれ所定倍率(例として横・縦共に2倍)で拡大した拡大パーツ領域re1,re2,re3,re4,re5が示されている。
なお、第2処理において所定倍率で拡大する際には、画素の補間処理として、最も簡素な0次多項式による補間であるニアレストネイバー法を用いてもよいし、1次多項式による補間であるバイリニア法を用いてもよいし、2次多項式による補間であるキュービック法を用いてもよい。
(第3処理) 第2処理で得られた拡大パーツ領域を、所定サイズの画像(画素値が全て一定値である無地の画像として、例えば白地の画像として用意しておく)内に、相互に重なることがないように順に配置することにより、1枚以上の検出用画像を作成する。この所定サイズは、得られている拡大パーツ領域の個数や個別のサイズに応じてルールベースで設定されるものであってもよい。
図9のパネルPL3には第3処理の例として、パネルPL2に示される5個の拡大パーツ領域re1,re2,re3,re4,re5を所定サイズの白地画像上に配置することで、すなわち、白地画像の画素値を当該配置する拡大パーツ領域re1,re2,re3,re4,re5の画素値に書き換えることで、1枚の検出用画像PE1が得られることが示されている。
第3処理に関しては、以下(1)〜(4)を実施するようにしてよい。
(1) 第3処理において所定サイズの1枚の白地画像に、第2処理で得られた複数の拡大パーツ領域の全てを配置することができない場合には、2枚目の同サイズの白地画像もさらに用意して、1枚目の白地画像に配置できなかった1つ以上の拡大パーツ領域をこの2枚目の白地画像に対して同様に配置するようにすればよい。2枚でも足りない場合は3枚目も用意し、以下同様にして、第2処理で得られた複数の拡大パーツ領域が、相互に重複することなくM枚(M≧1)の所定サイズの白地画像のいずれかに配置されているようにして、当該M枚の画像を検出用画像として得ることができる。
(2) 第3処理において、M枚(M≧1)の所定サイズの白地画像に第2処理で得られた複数の拡大パーツ領域を重複なく配置する際には、任意の既存の矩形敷き詰めアルゴリズムを用いて、密になるように(すなわち、枚数Mを抑制するように)配置してもよいし、白地画像を予め所定サイズのサブ矩形に区切っておき、1つのサブ矩形内には1つのみの拡大パーツ領域を配置するようにしてもよい。例えば白地画像がサイズ横256×縦256である場合に、横縦共に2等分したサイズ128×128のサブ矩形を定義しておき、1つのサブ矩形内には1つのみの拡大パーツ領域を配置するようにしてよい。1つのサブ矩形に収まらない拡大パーツ領域がある場合は、2つ以上のサブ矩形の範囲内に配置するようにしてよい。
(3) 第3処理により、M枚(M≧1)の所定サイズの白地画像に第2処理で得られた複数の拡大パーツ領域を重複なく配置し終えた際には、このM枚の検出用画像の各々において、配置された拡大パーツ領域の情報と、各々の拡大パーツ領域が元のフレーム画像におけるいずれの領域に対応するものであるかの情報(「フレーム画像の領域と検出用画像の領域との対応情報」と呼ぶ)を、作成部41において取得しておく。
作成部41ではM枚の検出用画像に、この「フレーム画像の領域と検出用画像の領域との対応情報」も紐づけたうえで後段側の第二検出器42へと出力するものとする。
(4) 第3処理において検出用画像を作成するための、拡大パーツ領域を配置する対象としての所定サイズの画像は白地ではなく、その他の一定色で構成されるものを用いてもよい。例えば、フレーム画像が図2に示す画像P1のようにサッカーフィールドを撮影したものであることが事前情報として既知である場合に、当該サッカーフィールドを模したものとして所定色(例えば緑色)で構成される一定色、一定サイズの画像を用いてもよい。また、当該サッカーフィールドを模したものとして所定テクスチャ(例えばサッカーフィールドの芝生を表現したテクスチャ等)で構成される一定サイズの画像を用いてもよい。
(第二検出器42)
第二検出器42では、作成部41で得たM枚(M≧1)の検出用画像に対して検出処理を適用し、得られた第二検出結果を第二検出部4からの最終的な出力として、統合部5へと出力する。
第二検出器42で検出処理を行う際の具体的な検出器は、第一検出器31で用いたのと同様の既存の予め学習されたもの(M2Det、SSD、YOLOv3又はMask R-CNN等)を用いればよい。従って、第二検出器42でも第一検出器31と同様に、所定サイズのウィンドウ毎に検出結果を得るようにするが、第一検出器31とは異なり、M枚の検出用画像を予め1枚以上のウィンドウ内に配置した各ウィンドウを対象として検出を行うことにより、ウィンドウをスライドさせる処理は行わない。
具体的に、第二検出器42では、所定サイズのウィンドウ内に、M枚の検出用画像を順に埋め込み、1番目のウィンドウでM枚全てを埋め込むことができない場合には2番目以降のウィンドウを追加で用意して、同様にして埋め込むようにする。図11は、ウィンドウ内に検出用画像を埋め込んだ模式例を示す図であり、1つのウィンドウW内に2つの検出用画像PE1(図9に例示したもの)と別の検出用画像PE2とが埋め込まれている。(例えばウィンドウWのサイズは横512×縦512等であり、検出用画像PE1,PE2等のサイズは横120×縦120等(相互に異なっていてもよい)である。)ここで、M枚の検出用画像を1つ以上のウィンドウ内に埋め込む処理に関しては、作成部41での第3処理と同様にすればよい。すなわち、第3処理における「拡大パーツ領域」及び「検出用画像」をそれぞれ、「検出用画像」及び「ウィンドウ」に読み替えた同様の処理により、第二検出器42では検出対象となる、検出用画像が配置された1枚以上のウィンドウを用意することができる。
なお、第二検出器42で上記のように作成部41での第3処理と同様にして検出用画像が配置された1枚以上のウィンドウを用意する際は、第3処理で説明した(1)〜(4)の追加処理も同様に適用してよく、このうち特に(3)に関しては、「画像としてのウィンドウ領域における1つ以上の検出用画像の配置位置」の情報として取得しておく。
こうして、第二検出器42では1つ以上のウィンドウの各々から検出結果(オブジェクトの領域とオブジェクト種別の尤度)を得るが、このウィンドウの内部において検出されたオブジェクトの領域に関して、前述した「画像としてのウィンドウ領域における1つ以上の検出用画像の配置位置」の情報と、作成部41において取得されている「フレーム画像の領域と検出用画像の領域との対応情報」を用いて、元のフレーム画像における領域に変換したものを、第二検出結果として統合部5へと出力する。
ここで、あるウィンドウにおける検出結果に関して、「フレーム画像の領域と検出用画像の領域との対応情報」における「検出用画像の領域」と、当該ウィンドウ内に配置されている検出用画像から第二検出器42において実際に検出された領域とは一般に一致しない。(例えば、図11のウィンドウW内に配置されている検出用画像PE1において1つの拡大パーツ領域re1(図9のパネルPL3を参照)の箇所にオブジェクト検出がなされたとしても、当該検出されたオブジェクトの領域が拡大パーツ領域re1に完全一致することは、偶然に一致する場合を除いてない。また、検出用画像の領域からオブジェクトが未検出となることもある。)
従って、あるウィンドウ内に配置された検出用画像から第二検出器42において実際に検出された領域が、上記「対応情報」における上記1つ以上の「検出用画像の領域」のいずれに対応するものであるかを、領域同士の重複が最大となるものとして判定したうえで、当該対応する「検出用画像の領域」に関して上記「対応情報」により対応している元のフレーム画像の領域を、第二検出結果におけるオブジェクト領域として採用すればよい。例えば、図11のウィンドウW内に配置されている検出用画像PE1において1つの拡大パーツ領域re1(図9のパネルPL3を参照)の箇所に第二検出器42によってオブジェクト検出がなされたと、検出領域と領域re1との重複判定により判断されたのであれば、対応する拡大する前のパーツ領域r1が元のフレーム画像P1において占める領域(パーツ領域r1として第1処理において切り出した領域であり、フレーム画像P1に対応する動き画像B1上に図10で示される領域r1)を、第二検出結果におけるオブジェクト領域として採用すればよい。ここで、領域同士の重複割合に関しては、マージ部33の説明において前述した式(2)のoverlap(r12,r20)と同様に評価すればよい。なお、上記の例において、第二検出器42による実際の検出領域が拡大パーツ領域re1の内部の一部分のみを占めるものとして構成される場合、(この検出領域の外周を占める拡大パーツ領域re1の部分は余分な部分である可能性があるため、)この検出領域に対応する拡大する前のパーツ領域r1の内部の一部分が元のフレーム画像P1において占める領域を、第二検出結果におけるオブジェクト領域として採用してもよい。
<統合部5>
統合部5では、第一検出部3で得た第一検出結果と、第二検出部4で得た第二検出結果と、を統合することによりオブジェクト検出装置10からの最終的な出力としてのフレーム画像に対するオブジェクトの検出結果を得る。
既に説明したように、第一検出部3で得た第一検出結果と、第二検出部4で得た第二検出結果と、は共にオブジェクト検出装置10への入力であるフレーム画像に対するオブジェクトの検出結果として、当該フレーム画像内でのオブジェクト検出領域と、当該領域におけるオブジェクトの種別の尤度ベクトルと、の情報で構成されるものであり、統合部5で得る統合された検出結果も同様の形式の情報(その内容は異なりうる)で構成されるものである。統合部5での第一及び第二検出結果の統合処理の説明のため、これら第一及び第二検出結果を図12に列挙するような変数を用いて表記する。(すなわち、図12は、説明のための第一及び第二検出結果に関する変数表記を列挙した表である。)
図12にて、Class(k,1),Class(k,2)等の表記における添え字(識別用の文字変数)ペアでの前者の添え字k(k=1,2,…)は、検出された矩形領域(Bounding Box)のIDであり、後者の添え字1,2はそれぞれ第一検出結果及び第二検出結果を表すものである。図13は、図12に示す変数表記の内容を模式的に示す図である。図13では、図12に変数表記で示される検出矩形領域の左上座標PosUL(k,1),PosUL(k,2)及び右下座標PosDR(k,1),PosDR(k,2)並びにクラス尤度ベクトルClass(k,1),Class(k,2)を、フレーム画像P1に対する第一検出結果D1におけるk番目の検出領域R1(k)と、フレーム画像P1に対する第二検出結果D2におけるk番目の検出領域R2(k)と、に紐づける形で示している。クラス尤度ベクトルClass(k,1),Class(k,2)に関しては領域R1(k),R2(k)に付与された吹き出しの形で、当該検出領域に紐づく情報であることを示している。
以上の表記を前提に統合部5の処理を説明する。まず、統合部5では、第一検出結果における領域IDであるkと、第二検出結果における領域IDであるkと、の対応付けを行う。すなわち、第一検出結果における各検出領域と、第二検出結果における各検出領域と、の間で、同一であるものを判定する。説明のため、第二検出結果における領域IDをkに代えてk'として、第一検出結果の領域IDであるkとの対応付けが行われる前の状態を表すものとする。当該判定は、検出結果(領域の位置及びサイズ並びに領域のクラス尤度ベクトル)が類似していると判定されるか否かによって行えばよい。例えば、以下の式(3A),(3B),(3C)の閾値判定を全て満たす場合に、第一検出結果及び第二検出結果における領域(位置及びサイズ)とそのクラス尤度ベクトルが全て類似しているものとして、第一検出結果のIDのkと第二検出結果のIDのk'とが同一であることを判定してもよい。式(3A),(3B),(3C)においてTH1,TH2,TH3は判定用の所定閾値であり、|・|はその引数「・」に対するユークリッド距離を表す。
|PosUL(k,1)-PosUL(k',2)|<TH1 …(3A)
|PosDR(k,1)-PosDR(k',2)|<TH2 …(3B)
|Class(k,1)-Class(k',2)|<TH3 …(3C)
あるいは、領域の類似の判定は、上記の式(3A),(3B)に代えて又は加えて、前述の式(2)で算出される重複割合overlap(r10,r20)を第一検出結果の領域R1(k)及び第二結果の検出領域R2(k')の間で「overlap(R1(k),R2(k'))」として求めて、この重複割合が判定用の閾値以上であるか否かによって判定するようにしてもよい。
次いで、統合部5では、第一検出結果及び第二検出結果において同一であると判定された各領域(その共通IDをkとする)に対して、第一検出結果及び第二検出結果を重みづけ和として統合することにより、当該領域に関する最終的な検出結果を得る。具体的には例えば以下の式(4A),(4B),(4C)により、IDがkである領域に関する統合された位置及びサイズ(左上座標PosUL(k)及び右下座標PosDR(k)で表現される)とクラス尤度ベクトルClass(k)を得ることができる。
PosUL(k)=w1*PosUL(k,1)+w2*PosUL(k,2) …(4A)
PosDR(k)=w1*PosDR(k,1)+w2*PosDR(k,2) …(4B)
Class(k)=w1*Class(k,1)+w2*Class(k,2) …(4C)
式(4A),(4B),(4C)にてw1,w2は第一検出結果及び第二検出結果を統合するための所定の重みである。すなわち、統合部5では、第一検出結果及び第二検出結果を所定の重みづけ和として統合して、統合された検出結果を得ることができる。この重みは、以下を満たすように正規化されたものとして、所定のものを設定しておけばよい。
0<w1<1, 0<w2<1, w1+w2=1
重みw1,w2としては予め設定しておく固定値を用いる(例えば等しく、w1=w2=0.5とする)他にも、検出結果に応じた可変重みを用いるようにしてもよい。例えば、クラス尤度ベクトルClass(k,1),Class(k,2)における最大尤度に応じた比率の可変重みを用いるようにすることで、Class(k,1)の最大尤度を与えるのが「クラス=選手、尤度=0.8」であり、Class(k,2)の最大尤度を与えるのが「クラス=選手、尤度=0.6」であったとすると、この尤度の比の通りの重みとして、w1=0.6, w2=0.4等を設定するようにしてもよい。
また、式(4A),(4B),(4C)では領域に関する重みとクラス尤度ベクトルに関する重みとで共通の重みw1,w2を用いるようにしているが、領域に関しては領域用の重みwb1,wb2を用い、これとは別途に、クラス尤度ベクトルに関してはクラス尤度ベクトル用の重みwc1,wc2を用いるようにしてもよい。すなわち、式(4A),(4B),(4C)に代えて以下の式(4A'),(4B'),(4C')を用いてもよい。これら領域用の重みwb1,wb2及びクラス尤度ベクトル用の重みwc1,wc2についても重みw1,w2で説明したのと同様に、正規化された固定値又は可変値を用いるようにしてよい。
PosUL(k)=wb1*PosUL(k,1)+wb2*PosUL(k,2) …(4A')
PosDR(k)=wb1*PosDR(k,1)+wb2*PosDR(k,2) …(4B')
Class(k)=wc1*Class(k,1)+wc2*Class(k,2) …(4C')
統合部5で統合結果として出力する際、IDがkの領域に関するクラス尤度ベクトルClass(k)は、当該ベクトルとしてそのまま出力するようにしてもよいし、ベクトルの要素として列挙されている尤度が最大となる1つのクラスを、当該領域に関するオブジェクト種別の推定結果として出力するようにしてもよい。
以上、本発明の一実施形態によれば、映像の時間軸での情報を利用することによってオブジェクトの検出精度を向上させることができる。ここで、映像の時間軸での情報は動き抽出部2で得る動き画像を介して利用される。第一検出部3においては、動きのある領域に関して尤度を上げ、動きのない領域に関して尤度を下げる。第二検出部4においては、動きのある領域から元の映像における画素配置(テクスチャ)を切り出して、これを拡大することで元のフレーム画像に対する検出結果を得る。
以下、本発明の実施形態に関する変形例や追加例等に関する補足説明を行う。説明のため、以上説明してきた実施形態を第一実施形態と呼ぶ。
(1)第一実施形態では、第一検出部3及び第二検出部4の両方で動き画像を利用することにより、第一検索結果及び第二検出結果の両方を、映像の時間軸での情報が反映されたものとしていたが、この変形例として、第一検出部3において動き画像を利用することを省略してもよい。この場合、修正部32を省略し、第一検出器31で得た検出結果を修正することなくそのまま、マージ部33へ出力すればよい。
(2)第一実施形態での第二検出部4において、第2処理により拡大パーツ領域を得ているが、この拡大処理は省略するようにしてもよい。この場合、第2処理での拡大率が等倍であるものとして、第一実施形態と同様に実施することができる。
(3)第一実施形態ではマスク抽出部1が抽出するマスク画像を利用しているが、これを省略するようにしてもよい。この場合、マスク画像で定義されているフィールド領域がフレーム画像の全体を占めるものとみなして、第一実施形態と同様に実施することができる。
(4)図14は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。オブジェクト検出装置10は、このような構成を有する1台以上のコンピュータ装置70として実現可能である。なお、2台以上のコンピュータ装置70でオブジェクト検出装置10を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサ72(GPU(グラフィック処理装置)や深層学習用プロセッサなど)、CPU71及び専用プロセッサ72にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77と、これらの間でデータを授受するためのバスBSと、を備える。
オブジェクト検出装置10の各部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又は専用プロセッサ72によって実現することができる。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。統合部5からの出力としての検出結果は、当初の入力であるフレーム画像に検出領域の情報を重畳させる等の形式により、ディスプレイ76で表示してもよい。
10…オブジェクト検出装置、1…マスク抽出部、2…動き抽出部、3…第一検出部、4…第二検出部、5…統合部、31…第一検出器、32…修正部、33…マージ部、41…作成部、42…第二検出器

Claims (13)

  1. 映像におけるフレーム画像に対してオブジェクト種別及び領域の検出処理を適用して第一検出結果を得る第一検出部と、
    前記フレーム画像より、前記映像における動き画像を生成する動き抽出部と、
    前記動き画像で動きがあると判定される領域を前記フレーム画像から切り出してオブジェクト種別及び領域の検出処理を適用することにより、前記フレーム画像に対するオブジェクト種別及び領域の第二検出結果を得る第二検出部と、
    前記第一検出結果及び前記第二検出結果を統合することにより、前記フレーム画像に対するオブジェクト種別及び領域の検出結果を得る統合部と、を備えることを特徴とするオブジェクト検出装置。
  2. 前記動き抽出部では、前記フレーム画像に対して前記映像における過去時刻及び/又は未来時刻のフレーム画像との間で差分を求めることにより、前記動き画像を生成することを特徴とする請求項1に記載のオブジェクト検出装置。
  3. 前記統合部では、前記第一検出結果における1つ以上の検出領域と、前記第二検出結果における1つ以上の検出領域と、の間で同一の検出結果に該当するものを判定したうえで、当該同一の検出結果に該当すると判定された領域に関して、前記第一検出結果及び前記第二検出結果を統合することを特徴とする請求項1または2に記載のオブジェクト検出装置。
  4. 前記統合部では、前記第一検出結果における1つ以上の検出領域のそれぞれにおけるオブジェクト種別及び領域と、前記第二検出結果における1つ以上の検出領域のそれぞれにおけるオブジェクト種別及び領域と、が互いに類似すると判定されるものを、前記同一の検出結果に該当するものとして判定することを特徴とする請求項3に記載のオブジェクト検出装置。
  5. 前記統合部では、前記第一検出結果及び前記第二検出結果を重みづけ和として統合することを特徴とする請求項1ないし4のいずれかに記載のオブジェクト検出装置。
  6. 前記第二検出部は、前記動き画像で動きがあると判定される領域を前記フレーム画像から切り出して所定サイズの画像内に配置し、当該配置した画像に対してオブジェクト種別及び領域の検出処理を適用することを特徴とする請求項1ないし5のいずれかに記載のオブジェクト検出装置。
  7. 前記第二検出部は、前記動き画像で動きがあると判定される領域を前記フレーム画像から切り出して拡大したうえで所定サイズの画像内に配置し、当該配置した画像に対してオブジェクト種別及び領域の検出処理を適用することを特徴とする請求項1ないし5のいずれかに記載のオブジェクト検出装置。
  8. 前記第二検出部にて前記配置するための所定サイズの画像は、前記フレーム画像に撮影されているフィールドを模したものとしての、一定色の無地画像又は所定テクスチャの画像であることを特徴とする請求項6または7に記載のオブジェクト検出装置。
  9. 前記第一検出部では、映像におけるフレーム画像に対してオブジェクト種別及び領域の検出処理を適用したうえで、当該検出処理の結果のうち、前記動き画像で動きがあると判定される領域に該当すると判定されるものにおけるオブジェクト種別の尤度を増加させ、当該判定されないものにおけるオブジェクト種別の尤度を減少させることによって、前記第一検出結果を得ることを特徴とする請求項1ないし8のいずれかに記載のオブジェクト検出装置。
  10. 前記第一検出部では、前記フレーム画像に対して、隣接ウィンドウ間で重複が存在するスライディングウィンドウを設定して当該スライディングウィンドウ毎にオブジェクト種別及び領域の検出処理を適用し、当該スライディングウィンドウの全てにおける当該検出結果のうち、領域の重複割合が大きいと閾値判定される検出結果を併合したうえで、前記第一検出結果を得ることを特徴とする請求項1ないし9のいずれかに記載のオブジェクト検出装置。
  11. 前記フレーム画像に撮影されているフィールド領域に関する事前知識を用いて、前記フレーム画像より当該フィールド領域を抽出したマスク画像を求めるマスク抽出部をさらに備え、
    前記第第一検出部及び前記第二検出部では、前記マスク画像を参照することにより、前記フレーム画像の全体のうち、前記フィールド領域に該当する領域より前記第一検出結果及び前記第二検出結果を得ることを特徴とする請求項1ないし10のいずれかに記載のオブジェクト検出装置。
  12. 映像におけるフレーム画像に対してオブジェクト種別及び領域の検出処理を適用して第一検出結果を得る第一検出段階と、
    前記フレーム画像より、前記映像における動き画像を生成する動き抽出段階と、
    前記動き画像で動きがあると判定される領域を前記フレーム画像から切り出してオブジェクト種別及び領域の検出処理を適用することにより、前記フレーム画像に対するオブジェクト種別及び領域の第二検出結果を得る第二検出段階と、
    前記第一検出結果及び前記第二検出結果を統合することにより、前記フレーム画像に対するオブジェクト種別及び領域の検出結果を得る統合段階と、を備えることを特徴とするオブジェクト検出方法。
  13. コンピュータを請求項1ないし11のいずれかに記載のオブジェクト検出装置として機能させることを特徴とするプログラム。
JP2019173971A 2019-09-25 2019-09-25 オブジェクト検出装置、方法及びプログラム Active JP7144384B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019173971A JP7144384B2 (ja) 2019-09-25 2019-09-25 オブジェクト検出装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019173971A JP7144384B2 (ja) 2019-09-25 2019-09-25 オブジェクト検出装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2021051536A true JP2021051536A (ja) 2021-04-01
JP7144384B2 JP7144384B2 (ja) 2022-09-29

Family

ID=75157314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019173971A Active JP7144384B2 (ja) 2019-09-25 2019-09-25 オブジェクト検出装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7144384B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363697A (zh) * 2022-01-06 2022-04-15 上海哔哩哔哩科技有限公司 视频文件生成、播放方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030776A (ja) * 2001-07-17 2003-01-31 Japan Radio Co Ltd 物体検知システムおよびその方法
JP2012084012A (ja) * 2010-10-13 2012-04-26 Canon Inc 画像処理装置、その処理方法及びプログラム
JP2013069045A (ja) * 2011-09-21 2013-04-18 Honda Elesys Co Ltd 画像認識装置、画像認識方法および画像認識プログラム
JP2015191334A (ja) * 2014-03-27 2015-11-02 キヤノン株式会社 情報処理装置、情報処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030776A (ja) * 2001-07-17 2003-01-31 Japan Radio Co Ltd 物体検知システムおよびその方法
JP2012084012A (ja) * 2010-10-13 2012-04-26 Canon Inc 画像処理装置、その処理方法及びプログラム
JP2013069045A (ja) * 2011-09-21 2013-04-18 Honda Elesys Co Ltd 画像認識装置、画像認識方法および画像認識プログラム
JP2015191334A (ja) * 2014-03-27 2015-11-02 キヤノン株式会社 情報処理装置、情報処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MENGYUAN LIU ET AL.: ""Robust 3D Action Recognition Through Sampling Local Appearances and Global Distributions"", IEEE TRANSACTIONS ON MULTIMEDIA, vol. 20, no. 8, JPN6022030038, 25 December 2017 (2017-12-25), US, pages 1932 - 1947, ISSN: 0004874747 *
山内 悠嗣、外2名: ""統計的学習手法による人検出"", 電子情報通信学会技術研究報告, vol. 112, no. 197, JPN6022030037, 26 August 2012 (2012-08-26), JP, pages 113 - 126, ISSN: 0004874746 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363697A (zh) * 2022-01-06 2022-04-15 上海哔哩哔哩科技有限公司 视频文件生成、播放方法及装置
CN114363697B (zh) * 2022-01-06 2024-04-26 上海哔哩哔哩科技有限公司 视频文件生成、播放方法及装置

Also Published As

Publication number Publication date
JP7144384B2 (ja) 2022-09-29

Similar Documents

Publication Publication Date Title
CN112818862B (zh) 基于多源线索与混合注意力的人脸篡改检测方法与系统
CN103186894B (zh) 一种自适应分块的多聚焦图像融合方法
EP1969561A1 (en) Segmentation of video sequences
CN102567727A (zh) 一种背景目标替换方法和装置
CN111160291B (zh) 基于深度信息与cnn的人眼检测方法
CN112184585B (zh) 一种基于语义边缘融合的图像补全方法及系统
US11836958B2 (en) Automatically detecting and isolating objects in images
CN110268442B (zh) 在图像中检测背景物上的外来物的计算机实现的方法、在图像中检测背景物上的外来物的设备以及计算机程序产品
KR102225753B1 (ko) 딥러닝 기반 파노라마 영상의 품질 평가 방법 및 그 장치
CN114627269A (zh) 一种基于深度学习目标检测的虚拟现实安防监控平台
CN111523494A (zh) 一种人体图像检测方法
CN111931572B (zh) 一种遥感影像的目标检测方法
JP7144384B2 (ja) オブジェクト検出装置、方法及びプログラム
CN115526811B (zh) 一种适应于多变光照环境的自适应视觉slam方法
CN114565508B (zh) 虚拟换装方法及装置
CN111179281A (zh) 人体图像提取方法及人体动作视频提取方法
JP4756436B2 (ja) パターン認識装置とそのパターン認識方法、及びパターン認識プログラム
JP7185608B2 (ja) オブジェクト検出装置、方法及びプログラム
CN113570564A (zh) 一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法
Qiu et al. Multi-scale Fusion for Visible Watermark Removal
CN108805786B (zh) 基于最低有效位匹配隐写分析方法及装置
JP5702960B2 (ja) 画像処理装置、画像処理方法、及びプログラム
CN112652059B (zh) 基于Mesh R-CNN模型改进的目标检测与三维重构方法
US20230169708A1 (en) Image and video matting
JPH06231257A (ja) 学習データ生成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220915

R150 Certificate of patent or registration of utility model

Ref document number: 7144384

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150