JP7240940B2 - Object image extraction device, method, and software program - Google Patents
Object image extraction device, method, and software program Download PDFInfo
- Publication number
- JP7240940B2 JP7240940B2 JP2019078132A JP2019078132A JP7240940B2 JP 7240940 B2 JP7240940 B2 JP 7240940B2 JP 2019078132 A JP2019078132 A JP 2019078132A JP 2019078132 A JP2019078132 A JP 2019078132A JP 7240940 B2 JP7240940 B2 JP 7240940B2
- Authority
- JP
- Japan
- Prior art keywords
- person
- image
- frame
- region
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/223—Analysis of motion using block-matching
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Description
本発明は、深層学習に用いることを目的とする人物画像を映像から抽出する技術に関する。 The present invention relates to a technique for extracting a human image from a video intended for use in deep learning.
コンピュータビジョンの分野で深層学習を用いて画像から物体を認識する手法が注目されている。 In the field of computer vision, a method of recognizing an object from an image using deep learning has attracted attention.
深層学習とは、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする手法のことである。深層学習には、従来のパタンマッチングなどの手法に比べて、特徴解析および特徴表現の柔軟性が高いことに加えて、検出の目標とする物体の特徴を人が定義しなくても良いこと等の優位性がある。 Deep learning is a technique that attempts to realize functions similar to the learning ability that humans naturally perform in computers. Compared to conventional methods such as pattern matching, deep learning has greater flexibility in feature analysis and feature expression, and it does not require humans to define the features of objects targeted for detection. have the advantage of
一方、深層学習によって得られる識別モデルの識別精度は、学習時に使用する教師画像の量および品質から大きく影響を受ける。教師画像の数が少なければ、識別モデルは、学習で参照した教師画像に含まれる検出対象に酷似した物体のみにしか反応しないような検知率の低い識別モデルとなる傾向がある。教師画像の背景などに検出対象以外のノイズが多数映りこんでいた場合も、識別モデルの識別精度が低くなる傾向がある。 On the other hand, the recognition accuracy of a recognition model obtained by deep learning is greatly affected by the quantity and quality of teacher images used during learning. If the number of teacher images is small, the discrimination model tends to have a low detection rate that responds only to objects that are very similar to the detection targets included in the teacher images referred to in learning. When a large amount of noise other than the detection target is reflected in the background of the teacher image, the discrimination accuracy of the discrimination model tends to be low.
このため、検出対象以外のノイズが少ない教師画像を効率良く自動抽出して効果的に識別モデルの深層学習に活用することを可能にする技術の開発が求められている。 For this reason, there is a demand for the development of a technique that enables efficient automatic extraction of teacher images with little noise other than detection targets and effective use in deep learning of discrimination models.
特許文献1には、ユーザが任意に指定したオブジェクト分類(人物など)に基づき、保有画像データベースから、指定したオブジェクト分類に該当するオブジェクトが含まれる画像群を抽出し、保存する技術が開示されている。 Japanese Patent Application Laid-Open No. 2002-200002 discloses a technique of extracting and saving an image group including an object corresponding to the designated object classification from a retained image database based on an object classification (person, etc.) arbitrarily designated by the user. there is
特許文献1に開示された技術は、一般の映像群の中からユーザが任意に指定したオブジェクトを抽出し、その抽出結果をフレーム単位で返す画像抽出技術である。返されたフレームは、指定された種類のオブジェクト以外のノイズが背景として映りこんでいる可能性が高く、深層学習の教師データとして活用するには適さない可能性がある。 The technique disclosed in Patent Document 1 is an image extraction technique that extracts an object arbitrarily designated by a user from a general video group and returns the extraction result in units of frames. The returned frames are likely to contain background noise other than the specified type of object, and may not be suitable for use as training data for deep learning.
本開示のひとつの目的は、深層学習に好適な対象物の画像を抽出することを可能にする技術を提供することである。 One object of the present disclosure is to provide a technique that enables extraction of an image of an object suitable for deep learning.
ひとつの態様に係る対象物画像抽出装置は、映像に含まれる画像のフレームから対象物の画像を抽出する対象物画像抽出装置であって、前記映像の一部のフレームをキーフレームとし、前記キーフレームにおける対象物が表示された部分を含む矩形で指定された対象物領域の画像を取得するキーフレーム対象物指定部と、前記映像において前記キーフレームで指定された対象物を追跡し、前記映像における前記キーフレームでないフレームである中間フレームの前記対象物が表示された部分を含む矩形の対象物領域の画像を抽出する中間フレーム画像抽出部と、を有する。 A target object image extracting device according to one aspect is a target object image extracting device for extracting an image of a target object from frames of an image included in a video, wherein some frames of the video are used as key frames, and the key a key frame object specifying unit for acquiring an image of an object area specified by a rectangle including a portion where the object is displayed in the frame; and an intermediate frame image extracting unit for extracting an image of a rectangular target object area including a portion where the target object is displayed in the intermediate frame, which is a frame that is not the key frame in the above.
本開示によれば、深層学習に好適な対象物の画像を抽出できる。 According to the present disclosure, an image of an object suitable for deep learning can be extracted.
以下、図面を参照して実施形態を説明する。 Embodiments will be described below with reference to the drawings.
図1は、本実施形態に係る教師画像抽出装置10の構成例を示す図である。なお、教師画像抽出装置10は、対象物の画像を抽出する対象物画像抽出装置の一例である。
FIG. 1 is a diagram showing a configuration example of a teacher
教師画像抽出装置10は、キーフレーム人物指定部101、中間フレーム画像抽出部102、人物領域特定部103、採用画像判定部104、及び、教師画像保存部105を備える。
The teacher
キーフレーム人物指定部101は、入力された映像(動画)100を構成する複数のフレームのうちのキーフレームにおける、抽出対象の人物の指定を受け付ける。キーフレームは、複数のフレームのうち、所定間隔毎に位置するフレームである。例えば、ユーザは、キーフレームに対して、抽出対象の人物が含まれるように、手動で矩形の領域を指定する。
The keyframe
キーフレームの間隔は、任意に設定されてよい。キーフレームの間隔は、5秒または10秒など、一定の間隔に設定されてよい。例えば、30fpsの映像に対してキーフレームの間隔を5秒に設定した場合、5秒間のフレーム数は150枚(=30フレーム×5秒)である。そのうち、先頭の1枚をキーフレームと呼び、当該キーフレームに後続する149枚を中間フレームと呼ぶ。以下、キーフレームとそれに後続する中間フレームのセットを、キーフレームセットと呼んでもよい。 The keyframe interval may be set arbitrarily. The interval between keyframes may be set to a fixed interval, such as 5 seconds or 10 seconds. For example, if the keyframe interval is set to 5 seconds for a 30 fps video, the number of frames in 5 seconds is 150 (=30 frames×5 seconds). Among them, the first frame is called a key frame, and the 149 frames following the key frame are called intermediate frames. Hereinafter, a set of keyframes and subsequent intermediate frames may be referred to as a keyframe set.
キーフレームの間隔は、一定の間隔でなくてもよく、例えば、異なるキーフレームの間隔を組み合わせてもよい。また、映像全体における先頭のフレームのみをキーフレームとし、後続する残りのフレームを中間フレームとしてもよい。 The keyframe intervals may not be constant intervals, and for example, different keyframe intervals may be combined. Alternatively, only the first frame in the entire video may be set as a key frame, and the following remaining frames may be set as intermediate frames.
中間フレーム画像抽出部102は、キーフレームに後続する各中間フレームにおいて、当該キーフレームに対して指定された人物と同一人物を追跡する。そして、中間フレーム画像抽出部102は、各中間フレームから、当該同一人物を含む領域を特定し、その特定した領域の画像を抽出する。以下、人物を含む領域を「人物領域」と呼び、人物領域を抽出した(切り出した)画像を「人物画像」という。
The intermediate frame
人物領域特定部103は、中間フレーム人部画像抽出部102と連携し、中間フレームにおける人物領域を特定する。例えば、人物領域特定部103は、抽出対象の人物の身体全体が含まれるように、人物領域を特定する。別言すると、人物領域特定部103は、抽出対象の人物の身体の一部がはみ出ないように、人物領域を特定する。
The person
採用画像判定部104は、中間フレーム画像抽出部102によって抽出された人物画像を、人物識別モデルの深層学習用の教師画像として採用するか否かを判定する。例えば、採用画像判定部104は、抽出された人物画像を、仮に人物識別モデルの深層学習の教師画像として用いた場合に当該人物識別モデルの精度向上が見込めるか否かについて、学習エラー率(テストエラー率)に基づいて判定する。そして、採用画像判定部104は、精度向上が見込めると判定した人物画像を、人物識別モデルの学習用の教師画像として採用する。
The adoption
教師画像保存部105は、採用画像判定部104において採用された人物画像を、人物識別モデルの学習ための教師画像106として保存する。教師画像保存部105は、中間フレームから抽出された人物画像に限らず、キーフレームに対して指定された領域から抽出された人物画像も教師画像として保存してよい。
A teacher
図2は、教師画像抽出装置10の動作例を示す図である。
FIG. 2 is a diagram showing an operation example of the teacher
ユーザは、教師画像抽出装置10に対して、人物画像の抽出に用いる映像(動画)100を入力する。入力される映像100は、HDD(Hard Disk Drive)などの記録媒体に格納されたファイルであってよい。又は、入力される映像100は、カメラで撮影中の映像、或いは、ネットワークを経由してストリーミング受信した映像であってもよい。又は、入力される映像100は、1つの動画を構成する全てのフレームを展開した、複数の連続した画像ファイルの集合であってもよい。
A user inputs a video (moving image) 100 used for extracting a person image to the teacher
ユーザは、キーフレーム人物指定部101を通じて、入力された映像100におけるキーフレームに対して抽出対象の人物を指定する。
A user designates a person to be extracted for a keyframe in the
中間フレーム画像抽出部102は、人物領域特定部103と連携して、キーフレーム人物指定部101によって指定された人物と同一人物の画像(人物画像)を抽出し、抽出画像セット202として出力する。
The intermediate frame
採用画像判定部104は、学習エラー率に基づいて、抽出画像セット202を、人物識別モデルの学習用の教師画像として採用するか否かを判定する。採用画像判定部104は、教師画像として採用すると判定した抽出画像セットを、教師画像セット203として出力する。
Based on the learning error rate, the adopted
教師画像セット203は、人物識別モデルの学習用の教師画像として用いられる。なお、人物識別モデルの学習は、人物識別モデルを新たに生成するための学習と、生成済みの人物識別モデルの精度を向上させるための再学習と、の何れであってもよい。
The
図3は、キーフレームと中間フレームとの関係を説明するための図である。なお、図3は、キーフレーム間隔312が6フレームの場合の例である。
FIG. 3 is a diagram for explaining the relationship between key frames and intermediate frames. Note that FIG. 3 is an example in which the
ユーザは、マウス等を操作して、キーフレーム300内の人物308を囲む人物領域310を指定する。
The user operates a mouse or the like to designate a
このように、ユーザが、キーフレーム300に対して人物308を囲む人物領域310を指定することにより、キーフレームに後続する中間フレームにおける、同一人物の追跡精度及び画像抽出精度が向上する。すなわち、教師画像抽出装置10は、ユーザからのキーフレームに対する人物領域の指定を受け付けるキーフレーム人物指定部101と、各中間フレームから自動的に人物画像を抽出する中間フレーム画像抽出部102との連携により、入力された映像100から、高品質な人物の教師画像を大量に取得できる。
In this way, the user designates the
なお、キーフレーム間隔が広い場合には、キーフレームに存在しない人物が途中の中間フレームから新たに出現する場合がある。このように、途中の中間フレームから新たに出現する人物は、中間フレーム画像抽出部102に含まれる動き推定人物検出部601(図8参照)によって検出されてよい。
Note that when the keyframe interval is wide, a person who does not exist in the keyframe may newly appear from an intermediate frame in the middle. In this way, a person newly appearing in an intermediate frame may be detected by the motion estimation person detection unit 601 (see FIG. 8) included in the intermediate frame
また、キーフレームに対する人物領域の指定は、上述した手動の場合に限られない。例えば、キーフレーム内の人物を、動き推定人物検出部601と同様の処理によって自動的に検出してもよい。なお、動き推定人物抽出部601の詳細については後述する。
In addition, designation of a person region for a key frame is not limited to the above-described manual operation. For example, a person in a key frame may be automatically detected by processing similar to that of the motion estimation
図4は、キーフレーム及び中間フレームから人物画像を抽出する例を示す図である。 FIG. 4 is a diagram showing an example of extracting a person image from key frames and intermediate frames.
ユーザは、キーフレーム313に対して、人物315を囲む人物領域316を指定する。この場合、中間フレーム画像抽出部102は、キーフレームに対して指定された人物領域316を基点に、後続する中間フレーム314から、人物315と同一人物317を自動的に追跡し、同一人物317を囲む人物領域318を特定する。そして、中間フレーム画像抽出部102は、特定した人物領域318から人物画像を抽出する。
The user designates a
図5は、キーフレーム及び中間フレームから複数の人物画像を抽出する第1の例を示す図である。 FIG. 5 is a diagram showing a first example of extracting a plurality of person images from key frames and intermediate frames.
ユーザは、キーフレーム319に対して、各人物321~323を指定する。中間フレーム画像抽出部102は、キーフレームに対して指定された各人物321~323を基点に、後続の中間フレーム320の各同一人物を自動的に追跡し、各同一人物を囲む人物領域324~326を特定する。そして、中間フレーム画像抽出部102は、特定した各人物領域324~326から人物画像を抽出する。
The user designates each
図6は、入力映像から抽出した人物画像と抽出画像セットとの関係を説明するための図である。 FIG. 6 is a diagram for explaining the relationship between a person image extracted from an input video and an extracted image set.
図6に示すように、中間フレーム画像抽出部102は、中間フレーム401~405、407から複数の人物画像409~413、415を自動的に抽出し、記録媒体に、教師画像セット202として保存する。
As shown in FIG. 6, the intermediate frame
また、中間フレーム画像抽出部102は、キーフレーム400、406に対して指定された人物画像408、414も、中間フレーム401~405、407から抽出した人物画像409~413、415と共に保存する。
The intermediate frame
図7は、キーフレーム及び中間フレームから複数の人物画像を抽出する第2の例を示す図である。 FIG. 7 is a diagram showing a second example of extracting a plurality of person images from key frames and intermediate frames.
図5を参照して説明した第1の例は、キーフレーム及び中間フレームから、フレーム毎に、複数の人物を抽出する例であった。これに対して、図7を参照して説明する第2の例は、キーフレームに対して指定された人物毎に、後続する中間フレームから同一人物を追跡及び抽出する例である。これにより、同一人物をより高い精度で抽出でき得る。 The first example described with reference to FIG. 5 was an example of extracting a plurality of persons from key frames and intermediate frames for each frame. In contrast, a second example, described with reference to FIG. 7, is an example of tracking and extracting the same person from subsequent intermediate frames for each person specified for a keyframe. As a result, the same person can be extracted with higher accuracy.
図7に示すように、キーフレーム500内の3人の人物503、506、509の各々を基点に、後続の中間フレーム501、502から、同一人物の人物画像を追跡及び抽出する。
As shown in FIG. 7, starting from each of the three
例えば、キーフレーム500の人物503を基準に同一人物の追跡を行い、1番目の中間フレーム501から同一人物504の人物画像を抽出し、2番目の中間フレーム502から同一人物505の人物画像を抽出する。
For example, the same person is tracked based on the
次に、キーフレーム500の人物画像506を基準に同一人物の追跡を行い、1番目の中間フレーム501から同一人物507の人物画像を抽出し、2番目の中間フレーム502から同一人物508の人物画像を抽出する。
Next, the same person is tracked based on the
次に、キーフレーム500の人物画像509を基準に同一人物の追跡を行い、1番目の中間フレーム501から同一人物510の人物画像を抽出し、2番目の中間フレーム502から同一人物511の人物画像を抽出する。
Next, the same person is tracked based on the
図8は、中間フレーム画像抽出部102及び人物領域特定部103の詳細を示すブロック図である。
FIG. 8 is a block diagram showing the details of the intermediate frame
中間フレーム画像抽出部102は、動き推定人物検出部601、ベクトル安定化フィルタ602、領域補正部609、フレーム間領域差判定部610、及び、人物画像切り出し部611を含む。
The intermediate frame
人物領域特定部103は、領域ベクトルグルーピング部603、全身マップ生成部604、前後フレーム検証部605、微動ベクトルグルーピング部606、微動エッジ抽出部607、及び、時系列エッジ強度検証部608を含む。
Human
動き推定人物検出部601は、入力映像100に対して、オプティカルフロー(Optical Flow)に基づく動きベクトル演算を行い、人物の動きベクトルを検出する。動きベクトルは、フレームを所定単位で区切った各ブロックのフレーム間でのシフトの移動方向と移動量を示すベクトルである。ブロックの大きさ(ブロック間の距離)は、システムの運用に合わせて適切に設定される。また、オプティカルフローは、2つの画像間でエッジなどの複数の特徴点がどう動いたのかを計算して、対象物体の動きを推定したり、対象物体を認識したりする画像処理技術の1つである。
The motion estimation
ベクトル安定化フィルタ602は、動き推定人物検出部601によって検出された人物の動きベクトルについてフレーム間のバラツキを抑制するためにカルマンフィルタ(Kalman filter)を用い、動きベクトルを安定化させる。カルマンフィルタは、誤差を含む複数個の観測データを用いて、未来の状態を予測する状態推定手法の1つである。カルマンフィルタは、予測誤差を一定範囲に収束させる性質を有するため、ベクトル安定化フィルタ602は、この性質を利用して、動きベクトルの出力を安定化させることができる。
A
ベクトル安定化フィルタ602は、安定化後のベクトルを、予測誤差が比較的大きい(例えば所定の閾値以上)場合、歩行者処理部613へ出力し、予測誤差が比較的小さい(例えば所定の閾値未満)場合、静止者処理部614へ出力する。
The
歩行者処理部613は、領域ベクトルグルーピング部603、及び、全身マップ生成部604を有する。
The
領域ベクトルグルーピング部603は、ベクトル安定化フィルタ602によって安定化された複数の動きベクトルのうち、近接する同等の傾向の動きベクトルを束ね(グルーピングし)、ベクトルグループを生成する。
A region
全身マップ生成部604は、領域ベクトルグルーピング部603によって生成されたベクトルグループから、人物の全身を示すマップ(以下「全身マップ」という)を生成する。
A whole body
静止者処理部614は、微動ベクトルグルーピング部606、微動エッジ抽出部607、及び、時系列エッジ強度検証部608を有する。
The stationary
微動ベクトルグルーピング部606は、ベクトル安定化フィルタ602によって安定化された複数の動きベクトルのうち、近接する同じ傾向の動き量の小さい微動ベクトルを束ねた領域をマーカとする。そして、微動ベクトルグルーピング部606は、隣接する複数フレーム間で領域が重なるマーカ郡を束ね、ベクトルグループを生成する。
A fine motion
微動エッジ抽出部607は、時間方向の連続するフレームの各々からエッジ画像を抽出し、その抽出した複数のエッジ画像を平均化し、1つの平均エッジ画像を得る。
A fine movement
時系列エッジ強度検証部608は、微動エッジ抽出部607によって得られた平均エッジ画像について、ベクトルグループ枠内に、所定基準以上のエッジ成分(強度)が存在するか否かを判定する。これにより、静止人物の有無が判定される。
A time-series edge
前後フレーム検証部605は、上記の歩行者処理部613から出力される全身マップ、又は、上記の静止者処理部614から出力されるエッジ画像について、所定範囲の前後フレームによる平準化を行い、注目フレームにおける人物領域を決定する。
The front/rear
領域補正部609は、歩行者処理613が行われた場合、人物の足先端位置を検出し、全身マップの領域を補正する。全身のうちの足先端の動きベクトル量は、相対的に大きく観測されるため、この補正により、一部が欠けた人物画像が抽出されることを抑制できる。
When the
フレーム間領域差判定部610は、フレーム毎に検出した人物の重心から、フレーム間の平均重心移動量を決定する。そして、フレーム間領域差判定部610は、この平均重心移動量と、注目フレームの人物重心移動量との差分を算出し、その差分が所定の閾値未満の場合、注目フレームの人物領域を選択する。一方、フレーム間領域差判定部610は、その差分が所定の閾値以上の場合、注目フレームの人物領域を選択しなくてよい。
The inter-frame region
人物画像切り出し部611は、フレーム間領域差判定部610において選択された人物領域から人物画像を切り出し、教師画像として出力612する。
A human
図9は、歩行者処理部613に含まれる領域ベクトルグルーピング部603の動作例を説明するための図である。
FIG. 9 is a diagram for explaining an operation example of the area
領域ベクトルグルーピング部603は、移動人物(例えば歩行者)を特定するために、近接する同等の移動方向及び移動量の動きベクトルを束ねて、移動人物の人物領域を予測する。なお、近接する動きベクトルは、2つの動きベクトルのブロックの位置が隣り合っていてよい。また、移動方向が同等の動きベクトルは、2つの動きベクトルのなす角が所定角度以下であってよい。ここで、所定角度は、システムの運用に合わせて適切に設定される。例えば、所定角度は、動きベクトルのなす角が当該所定角度以下であれば、人物の各部位の動きとして実質的に同一と見なせる角度に設定されてよい。また、移動量が同等の動きベクトルは、2つの動きベクトルの大きさの差が所定値以下であってよい。ここで、所定値は、システムの運用に合わせて適切に設定される。例えば、所定値は、動きベクトルの大きさの差がその所定値以下であれば人物の各部位の動きとして実質的に同一と見なせる値に設定されてよい。
In order to identify a moving person (for example, a pedestrian), the area
例えば図9において(a)に示すように、人物701が方向700に移動している場合、領域ベクトルグルーピング部603は、次の処理を行う。すなわち、領域ベクトルグルーピング部603は、オプティカルフローによって、各特徴点の方向700とほぼ同じ向き及び移動量の動きベクトル群702を観測する。
For example, as shown in FIG. 9A, when a
このとき、領域ベクトルグルーピング部603は、特徴点毎に、所定範囲内で近接する類似の動きベクトルを束ねる(704)。そして、領域ベクトルグルーピング部603は、図9において(b)に示すように、束ねた動きベクトルを包含する仮想円705を設定する。
At this time, the region
領域ベクトルグルーピング部603は、人物701に含まれる全ての特徴点について、図9において(b)の処理を実行する。そして、領域ベクトルグルーピング部603は、図9において(c)に示すように設定した仮想円を重ねて、全身を表現した全身マップ706を得る。
The area
領域ベクトルグルーピング部603は、図9において(d)に示すように、全身マップ706を囲む矩形の人物領域707を設定する。そして、領域ベクトルグルーピング部603は、人物領域707から人物画像701を抽出し、教師画像として出力する。
The region
図10~図13は、中間フレーム画像抽出部102に含まれる領域補正部609の動作例を説明するための図である。
10 to 13 are diagrams for explaining an operation example of the
歩行者の場合、全身のうち、足の先端の動きベクトル量が相対的に大きく観測される。そこで、領域補正部609は、足の先端位置を検出し、全身マップの人物領域を補正する。
In the case of a pedestrian, a relatively large amount of motion vector is observed at the tip of the foot in the whole body. Therefore, the
図10に例示するように、領域ベクトルグルーピング部603は、有効な特徴点を観測できない場合がある。この場合、全身マップ生成用の仮想円を設定できない箇所802が生じ、全身マップ生成部804は、一部が欠落した全身マップを生成する。すなわち、人物800の一部の箇所802が見切れた、矩形の人物領域801が設定される。
As illustrated in FIG. 10, the region
ここで、歩行中の上半身は、足の先端よりも内側に存在する確率が高い。そこで、領域補正部609は、足の先端位置804を検出し、その検出した足の先端位置804を人物800の端と想定して、矩形の人物領域801を補正する。これにより、矩形の人物領域801の内側に、人物800の全身が含まれる確率が高くなる。
Here, there is a high probability that the upper half of the body during walking is located inside the tips of the feet. Therefore, the
図11は、領域補正部609が、検出した左足の先端位置804を基準にして、人物803の人物領域805の左側部分を拡張する補正を行った例を示す。
FIG. 11 shows an example in which the
図12は、領域補正部609が、検出した右足の先端位置807を基準にして、人物806の人物領域808の右側部分を拡張する補正を行った例を示す。
FIG. 12 shows an example in which the
図13は、領域補正部609が、検出した左足の先端位置810および右足の先端位置811を基準にして、人物809の人物領域812の左側部分および右側部分の両方を拡張する補正を行った例を示す。
FIG. 13 shows an example in which the
例えば、領域補正部609は、補正前の人身マップの垂直方向の中心軸を基準として、足の先端位置が中心軸よりも左寄りであれば、人物領域の中心軸の左側部分を拡張する補正を行う。領域補正部609は、補正前の人身マップの垂直方向の中心軸を基準として、足の先端位置が中心軸よりも右寄りであれば、人物領域の中心軸の右側部分を拡張する補正を行う。
For example, the
前かがみになりながら歩く歩行者などでは、上半身の一定領域が足の先端位置よりも外側にはみ出す場合がある。この場合、領域補正部609は、歩行者が直立して歩行していないと判断し、上述した足の先端位置に基づく人物領域の補正を実行しなくてもよい。
A certain area of the upper body of a pedestrian walking while slouching may protrude outside the tip of the foot. In this case, the
図14は、静止者処理部614に含まれる微動ベクトルグルーピング部606の動作例を示す図である。
FIG. 14 is a diagram showing an operation example of the slight motion
人物は、一般的に、睡眠中を除き、完全な静止状態になることはほとんどなく、僅かに動いている。経っている人物では、特にこの傾向が強い。微動ベクトルグルーピング部606は、この僅かな動きを時系列に観測して統合することにより、静止状態の人物を検出する。
Humans are generally seldom completely still, except during sleep, and move slightly. This tendency is particularly strong in people who have passed through. A slight motion
図14において(a)は、静止中の人物900を示す。微動ベクトルグルーピング部606は、図9に示した、歩行者向けの処理と同様の処理を、静止中の人物に対しても実行する。所定の条件が満たされる場合、静止中の人物であっても、人物の全体を包含する人物領域を得られる場合がある。しかし、注目フレーム単独の場合、たいてい、全身の一部が動いた状態のみが観測される。そこで、微動ベクトルグルーピング部606は、図14において(b)に示すように、所定のフレーム区間(Tn~Tn+4)において、連続してベクトルグループを観測する。例えば、微動ベクトルグルーピング部606は、同一人物に対して、5個のベクトルグループ906~910を観測する。
In FIG. 14, (a) shows a
この場合、微動ベクトルグルーピング部606は、図14において(c)に示すように、観測された5個のベクトルグループを包含する矩形の仮領域を設定する。そして、微動ベクトルグルーピング部606は、図14において(d)に示すように、この設定した仮領域を、人物900の候補領域912とする。
In this case, the fine motion
次に、微動エッジ抽出部607は、図14において(e)に示すように、所定フレーム区間Tm~Tm+2において連続してエッジ抽出処理を行い、所定フレーム毎にエッジ画像916~918を得る。
Next, as shown in (e) in FIG. 14, the fine movement
次に、微動エッジ抽出部607は、所定フレーム区間Tm~Tm+2のエッジ画像916~918から、図14において(f)に示すように、1個の平均エッジ画像919を得る。
Next, the fine movement
次に、時系列エッジ強度検証部608は、図14において(g)に示すように、平均エッジ画像919の候補領域912内に、所定基準以上のエッジ成分強度が存在するか否かを判定する。例えば、時系列エッジ強度検証部608は、所定の輝度値の画素が所定の面積以上存在するか否かを判断する。そして、時系列エッジ強度検証部608は、所定基準以上のエッジ成分が存在する場合、図14(g)に示す候補領域912を、図14において(h)に示すように、人物領域920と確定する。時系列エッジ強度検証部608は、エッジ成分が所定の基準未満の場合、図14において(g)に示す候補領域912を破棄する。
Next, as shown in (g) in FIG. 14, the time-series edge
図15は、採用画像判定部104の動作例を説明するための図である。
15A and 15B are diagrams for explaining an operation example of the adopted
採用画像判定部104は、学習エラー率に基づいて、人物識別モデルの精度向上が見込めるか否かを判定する。そして、採用画像判定部104は、人物識別モデルの精度向上が見込めると判定した人物領域の人物画像を、教師画像として選択する。
Based on the learning error rate, the adopted
採用画像判定部104は、画像読出部1001、人物識別試験モデル学習部1002、採用判定部1003、及び、画像保存部1007を含む。
Adoption
画像読出部1001は、抽出画像セット202から、所定枚数の人物画像を読み出す。画像読出部1001は、抽出画像セット202から、任意の数の人物画像を読み出してよい。例えば、画像読出部1001は、抽出画像セット202に含まれる10000枚の人物画像のうち、2000枚の人物画像を読み出してもよい。
The
人物識別試験モデル学習部1002は、人物識別試験モデルの深層学習を実行する。人物識別試験モデル学習部1002は、画像読出部1001によって読み出された2000枚の人物画像のうち、或る1000枚を人物識別モデルのepoch毎のフィルタ係数更新学習に用い、残りの1000枚をepoch毎のテストエラー率評価のために用いてもよい。なお、epochは、識別モデルのフィルタ係数の最小演算単位の集合であり、学習用の入力画像を全て参照し終える単位である。epochは、学習訓練回数とも呼ばれる。
The person identification test
採用判定部1003は、所定のepoch数の学習が進行した時点で、テストエラー率が最も低いepoch時点における、学習フィルタ係数と基準モデルエラー率1004とを比較する。基準モデルエラー率1004は、既存の人物識別モデルが有する学習エラー率である。
When learning has progressed for a predetermined number of epochs,
採用判定部1003が、試験モデルエラー率が基準モデルエラー率1004よりも低いと判定した場合(採用判定1005:YES)、画像保存部1007は、画像読出部1001が読み出した人物画像を、教師画像として教師画像セット203へ格納する。教師画像セット203は、正式な人物識別モデルの学習に用いられる。
When the
一方、採用判定部1003は、試験モデルエラー率が基準モデルエラー率1004よりも高いと判定した場合(採用判定1005:NO)、画像読出部1001が読み出した人物画像を破棄する。
On the other hand, when the
図16は、採用画像判定部104が参照する学習エラー率曲線の例を示す図である。
FIG. 16 is a diagram showing an example of a learning error rate curve referred to by the adopted
図16において、縦軸はテストエラー率(単位は%)、横軸は学習訓練回数(単位はepoch)を示す。 In FIG. 16, the vertical axis indicates the test error rate (unit: %), and the horizontal axis indicates the number of times of learning and training (unit: epoch).
テストエラー率は、1epoch毎に出力された学習モデルに対して、テストエラー率を評価するための未知の画像を入力した場合に、その未知の画像の識別に失敗した割合(エラーの割合)のことである。未知の画像は、学習に用いた画像とは異なる画像である。テストエラー率は、0%から100%の範囲で表現され、一般的に、0%に近いほど、識別モデルの認識性能が高いと解釈される。 The test error rate is the ratio (error rate) of failures in identifying an unknown image when an unknown image for evaluating the test error rate is input to the learning model output for each epoch. That is. An unknown image is an image different from the image used for learning. The test error rate is expressed in a range from 0% to 100%, and generally, the closer to 0%, the higher the recognition performance of the discriminative model.
図16において、ER1は、基準モデルテストエラー率1004のベスト値を示す。ER2は、人物識別試験モデル学習部1002によって学習された人物識別試験モデルにおけるテストエラー率のベスト値を示す。
In FIG. 16, ER1 indicates the best value of the reference model test error rate 1004. FIG. ER2 indicates the best test error rate in the person identification test model learned by the person identification test
図16の例では、ER2はER1よりも小さい。これは、人物識別試験モデルの識別性能が向上していることを示す。よって、人物識別試験モデルの学習に用いた人物画像は、教師画像セットに格納される。 In the example of FIG. 16, ER2 is smaller than ER1. This indicates that the identification performance of the person identification test model is improved. Therefore, the person images used for learning the person identification test model are stored in the teacher image set.
一方、ER2がER1よりも大きい場合は、人物識別試験モデルの識別性能が低下していることを示す。よって、人物識別試験モデルの学習に用いた人物画像は、教師画像セットに格納されずに破棄される。 On the other hand, if ER2 is greater than ER1, it indicates that the identification performance of the person identification test model is degraded. Therefore, the person images used for learning the person identification test model are discarded without being stored in the teacher image set.
図17は、教師画像抽出装置10を含む教師画像抽出システムの第1例を示す。第1例は、教師画像抽出システムが、ローカルにおいて構成される例を示す。
FIG. 17 shows a first example of a teacher image extraction system including the teacher
例えば、図17に示すように、教師画像抽出システムは、カメラ1200、映像格納装置1201、教師画像抽出装置10、モニタ1203、及び、教師画像格納装置1204を有する。
For example, as shown in FIG. 17, the teacher image extraction system has a
カメラ1200は、人物を含む映像を撮影する。
映像格納装置1201は、カメラ1200が撮影した映像(動画)を格納する。なお、カメラ1200が撮影した映像は、映像格納装置1201に格納されずに、直接、教師画像抽出装置10へ入力されてもよい。
The
教師画像抽出装置10は、映像格納装置1201から入力された映像から、上述したように、教師画像を抽出する。なお、教師画像抽出装置10に入力される映像は、任意に選択されてよい。上述した教師画像抽出装置10は、メモリとCPU(Central Processing Unit)を有し、メモリに格納されたソフトウェアプログラムをCPUが実行することにより、各部の処理を実現するものであってよい。この場合、教師画像抽出装置10は、当該ソフトウェアプログラムを実行するパーソナルコンピュータ(PC)であってもよい。
The teacher
教師画像抽出装置10は、抽出した教師画像を、モニタ1203に表示してよい。また、教師画像抽出装置10は、抽出した教師画像を、教師画像格納装置1204に格納してよい。
The teacher
図18は、教師画像抽出装置10を含む教師画像抽出システムの第2例を示す。
FIG. 18 shows a second example of a teacher image extraction system including the teacher
第2例は、教師画像抽出システムが、ネットワークのクラウドとして提供される例を示す。教師画像抽出システムは、制御PC1208、教師画像抽出装置10、映像格納装置1209、及び、教師画像格納装置1212を含む。
A second example shows an example in which the teacher image extraction system is provided as a network cloud. The teacher image extraction system includes
クラウドは、インターネット1207を介して、コンピューティング、データベース、ストレージ、及び/又は、アプリケーションなどの様々なITリソースを、オンデマンドで提供する。
The cloud provides various IT resources such as computing, databases, storage, and/or applications on demand over the
例えば、図18に示すように、カメラ1206、ホストPC1213及びモニタ1214をローカルに設け、教師画像抽出システムを、ネットワーク1207を介して、クラウドとして提供する。
For example, as shown in FIG. 18, a
カメラ1206は、人物を含む映像を撮影する。
A
ホストPC1213は、カメラ1206が撮影した映像を、ネットワーク1207及び制御PC1208を介して、映像格納装置1209に格納する。
The
教師画像抽出装置10は、映像格納装置1201から入力された映像から、上述したように、教師画像を抽出する
The teacher
図18に示すように、教師画像抽出装置10は、複数設けられてよい。この場合、複数の教師画像抽出装置10は、並列処理によって教師画像を抽出してよい。また、上述した教師画像抽出装置10の機能及び処理は、各装置10のメモリに格納されたコンピュータプログラム1211がCPUによって実行されることにより、実現されてもよい。この場合、教師画像装置10は、当該コンピュータプログラムを実行するサブPCであってよい。
As shown in FIG. 18, a plurality of teacher
教師画像抽出装置10によって抽出された教師画像は、ネットワーク1207及びホストPC1213を介して、ローカルのモニタ1214に表示されてよい。また、教師画像抽出装置10は、抽出した教師画像を、教師画像格納装置1204に格納してよい。
A teacher image extracted by the teacher
なお、上述では、抽出対象が人物の場合の例を説明したが、抽出対象は人物に限られない。例えば、抽出対象は、建物、車両、家電製品、海、山、空、草花、樹木といった人物以外であってもよい。 In the above description, an example in which the extraction target is a person has been described, but the extraction target is not limited to a person. For example, an extraction target may be a building, a vehicle, a home appliance, the sea, a mountain, the sky, a flower, or a tree other than a person.
抽出対象が人物以外の場合、上述した、キーフレーム人物指定部、並びに、領域補正部を含む中間フレーム画像抽出部における、人物の存在を判断するための制約条件は、抽出対象に合わせて、適切に変更されてよい。 If the object to be extracted is not a person, the constraint conditions for judging the presence of a person in the intermediate frame image extraction unit including the key frame person designation unit and the area correction unit described above are set appropriately according to the extraction object. may be changed to
上述した内容は、次のように表現できる。 The above contents can be expressed as follows.
映像に含まれる画像のフレームから、対象物の一例である人物の画像を抽出する教師画像抽出装置10は、キーフレーム人物指定部101及び中間フレーム画像抽出部102を有する。キーフレーム人物指定部101は、映像の一部のフレームをキーフレームとし、キーフレームにおける対象物が表示された部分を含む矩形で指定された人物領域の画像を取得する。中間フレーム画像抽出部102は、映像においてキーフレームで指定された人物を追跡し、映像におけるキーフレームでないフレームである中間フレームの人物が表示された部分を含む矩形の人物領域の画像を抽出する。
A teacher
この構成によれば、映像に含まれるフレームから人物が表示された矩形の部分画像を抽出するので、背景のノイズを低減した教師画像を抽出できる。 According to this configuration, since a rectangular partial image in which a person is displayed is extracted from the frame included in the video, it is possible to extract a teacher image with reduced background noise.
教師画像抽出装置10は、人物が移動している場合と人物が静止している場合とで異なる動きベクトルに対する処理により、中間フレームにおける人物が表示された部分である人物領域を特定する人物領域特定部103を更に有してよい。
The teacher
人物が移動している場合と静止している場合とでは、人物の領域の動きベクトルは異なる性質を示す。そのため、この構成によれば、それぞれの場合に好適な動きベクトルに対する処理を用いて人物領域を特定できるので、人物が移動している場合にも静止している場合にも人物領域を良好に特定できる。 The motion vector of the person's area exhibits different characteristics depending on whether the person is moving or stationary. Therefore, according to this configuration, the human region can be identified by using suitable motion vector processing in each case. can.
人物領域特定部103は、人物が移動している場合、位置が近接し移動方向および移動量が同等である動きベクトルをグルーピングして得られる領域を合成することにより、人物領域を特定してよい。
When the person is moving, the person
人物が移動している場合には人物の部位は同等の動きとなる。そのため、この構成によれば、近接する同等の動きベクトルをグルーピングし、それを合成することで、人物領域を良好に特定できる。 When the person is moving, the parts of the person move in the same manner. Therefore, according to this configuration, by grouping close equivalent motion vectors and synthesizing them, it is possible to identify the human region well.
人物領域特定部103は、人物が静止している場合、対象としている中間フレームを含んで連続する複数のフレームのそれぞれにおける近接する同等の移動方向および移動量を示す動きベクトルをグルーピングして得られる部分領域を複数のフレームにわたり合成した領域に基づいて、人物領域を特定してよい。
When the person is stationary, the person
人物が静止していても部位毎に動きは見られるのが一般的である。そのため、この構成によれば、動きベクトルをグルーピングした部分領域を複数のフレームにわたり合成することで人物領域を良好に特定できる。 Even if a person is stationary, it is common to see movement in each part. Therefore, according to this configuration, it is possible to satisfactorily identify a person area by synthesizing partial areas obtained by grouping motion vectors over a plurality of frames.
人物領域特定部103は、人物が静止している場合、複数のフレームにわたり部分領域を合成した領域と、中間フレームを含む1つ以上のフレームの画像から抽出されるエッジ画像とに基づいて、人物領域を特定してよい。
When the person is stationary, the person
この構成によれば、動きの見られた部分領域を合成した領域に加え、エッジ抽出の結果も用いることにより、更に良好に静止している人物の領域を特定できる。 According to this configuration, by using the result of edge extraction in addition to the region obtained by synthesizing the partial regions in which movement is observed, it is possible to specify the region of the still person more satisfactorily.
中間フレーム画像抽出部102は、中間フレームの前または後の1つ以上のフレームの動きベクトルに基づいて、中間フレームの人物領域を補正してよい。
The intermediate frame
この構成によれば、対象とする中間フレームの前後のフレームを利用した処理で人物領域を補正するので、人物の見切れを低減できる。 According to this configuration, since the person area is corrected by the processing using the frames before and after the target intermediate frame, it is possible to reduce the cut-out of the person.
中間フレーム画像抽出部102は、中間フレームの前または後の1つ以上のフレームにおける動きベクトルの移動量が相対的に大きい領域を人物が歩行している足先端位置と推定し、足先端位置が含まれるように人物領域を補正してよい。
The intermediate frame
この構成によれば、対象とする中間フレームの前後のフレームの動きベクトルを利用した処理で足先端と推定される領域を含むように人物領域を補正するので、人物の足先端の見切れを低減できる。 According to this configuration, the person area is corrected so as to include the area estimated to be the tip of the foot by processing using the motion vectors of the frames before and after the target intermediate frame, so that the tip of the person's foot can be reduced. .
教師画像抽出装置10は、キーフレームの人物画像と中間フレームの人物画像とを含む人物画像群を深層学習に用いて試験モデルを構築し、試験モデルによる人物識別の精度を評価し、評価結果に基づいて前記人物画像群を採用するか否か判定する採用画像判定部104を更に有してよい。
The teacher
この構成によれば、抽出した人物画像群により試験モデルを構築して人物の識別の精度を評価し、人物画像群の採否を判定するので、深層学習で良好な精度を得られる人物画像を採用できる。 According to this configuration, a test model is constructed from the extracted human image group, the accuracy of human identification is evaluated, and the acceptance or rejection of the human image group is determined. can.
中間フレーム画像抽出部102は、キーフレームに複数の人物が指定された場合、複数の人物をそれぞれ追跡し、それぞれの人物についての人物領域の人物画像を抽出してよい。
When a plurality of persons are specified in a key frame, the intermediate frame
この構成によれば、複数の人物をそれぞれ追跡し、それぞれに人物領域の人物画像を抽出するので、多数の人物画像の抽出が可能となる。 According to this configuration, each of a plurality of persons is tracked and a person image in the person area is extracted for each person, so it is possible to extract a large number of person images.
10…教師画像抽出装置、100…入力映像入力、101…キーフレーム人物指定部、102…中間フレーム画像抽出部、103…人物領域特定部、104…採用画像判定部、105…教師画像保存部
Claims (7)
前記映像の一部のフレームをキーフレームとし、前記キーフレームにおける人物が表示された部分を含む矩形で指定された人物領域の画像を取得するキーフレーム人物指定部と、
前記映像において前記キーフレームで指定された人物を追跡し、前記映像における前記キーフレームでないフレームである中間フレームの前記人物が表示された部分を含む矩形の人物領域の画像を抽出する中間フレーム画像抽出部と、
前記人物が移動している場合と前記人物が静止している場合とで異なる動きベクトルに対する処理により前記中間フレームにおける前記人物領域を特定する人物領域特定部と、
を有し、
前記中間フレーム画像抽出部は、フレームを所定単位で区切った各ブロックのフレーム間でのシフトの移動方向と移動量を示す動きベクトルを検出し、前記動きベクトルを安定化させ、
前記人物領域特定部は、安定化後の前記動きベクトルの予測誤差が所定の閾値以上の場合、前記人物が移動していると判断し、位置が近接し移動方向および移動量が同等である動きベクトルをグルーピングして得られる領域を合成することにより、人物領域を特定し、前記予測誤差が前記閾値未満の場合、前記人物が静止していると判断し、対象としている前記中間フレームを含んで連続する複数のフレームのそれぞれにおける近接する同等の移動方向および移動量を示す動きベクトルをグルーピングして得られる部分領域を前記複数のフレームにわたり合成した領域に基づいて、前記人物領域を特定する、
対象物画像抽出装置。 An object image extracting device for extracting an image of a person, which is an object, from an image frame included in a video,
a key frame person designating unit that obtains an image of a person area designated by a rectangle including a portion in which a person is displayed in the key frame, using a frame of a part of the video as a key frame;
Intermediate frame image extraction for tracking the person specified by the keyframe in the video, and extracting an image of a rectangular human area including a portion where the person is displayed in an intermediate frame, which is a frame that is not the keyframe in the video. Department and
a human region identifying unit that identifies the human region in the intermediate frame by processing different motion vectors depending on whether the person is moving or stationary;
has
The intermediate frame image extracting unit detects a motion vector indicating a shift direction and a shift amount between frames of each block obtained by dividing a frame into predetermined units, stabilizes the motion vector,
The person region identification unit determines that the person is moving when the prediction error of the motion vector after stabilization is equal to or greater than a predetermined threshold, and determines that the person is moving, and the person is moving in the same direction and the same amount of movement. A human region is identified by synthesizing regions obtained by grouping vectors, and if the prediction error is less than the threshold, the human is determined to be stationary, and the target intermediate frame is included. Identifying the person region based on a region obtained by synthesizing partial regions obtained by grouping motion vectors indicating similar moving directions and amounts of movement in each of a plurality of consecutive frames over the plurality of frames;
Object image extraction device.
請求項1に記載の対象物画像抽出装置。 When the person is stationary, the person area specifying unit divides the area obtained by synthesizing the partial areas over the plurality of frames into an edge image extracted from one or more frame images including the intermediate frame. identifying the person region based on
2. The object image extraction device according to claim 1 .
請求項1に記載の対象物画像抽出装置。 The intermediate frame image extracting unit, when the person region identifying unit determines that the person is moving, determines that the movement amount of the motion vector of one or more frames before or after the intermediate frame is relative. estimating an area with a large area as the tip position of the foot where the person is walking, and correcting the person area so that the tip position of the foot is included;
2. The object image extraction device according to claim 1.
請求項1に記載の対象物画像抽出装置。 A test model is constructed using a human image group including the image of the human region of the key frame and the image of the human region of the intermediate frame for deep learning, the accuracy of human identification by the test model is evaluated, and the evaluation result is used. further comprising a adopted image determination unit that determines whether or not to adopt the person image group based on
2. The object image extraction device according to claim 1.
請求項1に記載の対象物画像抽出装置。 When a plurality of persons are specified in the key frame, the intermediate frame image extracting unit tracks each of the plurality of persons and extracts an image of the person region for each person .
2. The object image extraction device according to claim 1.
コンピュータが、
前記映像の一部のフレームをキーフレームとし、前記キーフレームにおける人物が表示された部分を含む矩形で指定された人物領域の画像を取得し、
前記映像において前記キーフレームで指定された人物を追跡し、前記映像における前記キーフレームでないフレームである中間フレームの前記人物が表示された部分を含む矩形の人物領域の画像を抽出する、方法において、
フレームを所定単位で区切った各ブロックのフレーム間でのシフトの移動方向と移動量を示す動きベクトルを検出し、前記動きベクトルを安定化させ、
安定化後の前記動きベクトルの予測誤差が所定の閾値以上の場合、前記人物が移動していると判断し、位置が近接し移動方向および移動量が同等である動きベクトルをグルーピングして得られる領域を合成することにより、人物領域を特定し、
前記予測誤差が前記閾値未満の場合、前記人物が静止していると判断し、対象としている前記中間フレームを含んで連続する複数のフレームのそれぞれにおける近接する同等の移動方向および移動量を示す動きベクトルをグルーピングして得られる部分領域を前記複数のフレームにわたり合成した領域に基づいて、前記人物領域を特定する、
対象物画像抽出方法。 A target object image extraction method for extracting an image of a person, which is a target object, from an image frame included in a video,
the computer
obtaining an image of a human region specified by a rectangle including a portion in which a person is displayed in the key frame, using a frame of a portion of the video as a key frame;
A method of tracking a person specified by the keyframe in the video, and extracting an image of a rectangular person region including a portion in which the person is displayed in an intermediate frame, which is a frame that is not the keyframe in the video,
Detecting a motion vector indicating the direction and amount of shift between frames of each block obtained by dividing a frame into predetermined units, and stabilizing the motion vector;
If the prediction error of the motion vector after stabilization is equal to or greater than a predetermined threshold, it is determined that the person is moving, and the motion vectors are obtained by grouping motion vectors that are close to each other and have the same movement direction and movement amount. Identify the person area by synthesizing the areas,
When the prediction error is less than the threshold value, the person is determined to be stationary, and movement indicating similar and close moving directions and moving amounts in each of a plurality of consecutive frames including the target intermediate frame. identifying the person region based on a region obtained by synthesizing the partial regions obtained by grouping the vectors over the plurality of frames;
Object image extraction method.
前記映像の一部のフレームをキーフレームとし、前記キーフレームにおける人物が表示された部分を含む矩形で指定された人物領域の画像を取得し、
前記映像において前記キーフレームで指定された人物を追跡し、前記映像における前記キーフレームでないフレームである中間フレームの前記人物が表示された部分を含む矩形の人物領域の画像を抽出する、ことにおいて、
フレームを所定単位で区切った各ブロックのフレーム間でのシフトの移動方向と移動量を示す動きベクトルを検出し、前記動きベクトルを安定化させ、
安定化後の前記動きベクトルの予測誤差が所定の閾値以上の場合、前記人物が移動していると判断し、位置が近接し移動方向および移動量が同等である動きベクトルをグルーピングして得られる領域を合成することにより、人物領域を特定し、
前記予測誤差が前記閾値未満の場合、前記人物が静止していると判断し、対象としている前記中間フレームを含んで連続する複数のフレームのそれぞれにおける近接する同等の移動方向および移動量を示す動きベクトルをグルーピングして得られる部分領域を前記複数のフレームにわたり合成した領域に基づいて、前記人物領域を特定する、
ことをコンピュータに実行させるためのソフトウェアプログラム。 A software program for causing a computer to extract an image of a person who is an object from an image frame included in a video,
obtaining an image of a human region specified by a rectangle including a portion in which a person is displayed in the key frame, using a frame of a portion of the video as a key frame;
Tracking the person specified by the keyframe in the video, and extracting an image of a rectangular person region including a portion where the person is displayed in an intermediate frame, which is a frame that is not the keyframe in the video,
Detecting a motion vector indicating the direction and amount of shift between frames of each block obtained by dividing a frame into predetermined units, and stabilizing the motion vector;
If the prediction error of the motion vector after stabilization is equal to or greater than a predetermined threshold, it is determined that the person is moving, and the motion vectors are obtained by grouping motion vectors that are close to each other and have the same movement direction and movement amount. Identify the person area by synthesizing the areas,
When the prediction error is less than the threshold value, the person is determined to be stationary, and movement indicating similar and close moving directions and moving amounts in each of a plurality of consecutive frames including the target intermediate frame. identifying the person region based on a region obtained by synthesizing the partial regions obtained by grouping the vectors over the plurality of frames;
A software program that makes a computer do things.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019078132A JP7240940B2 (en) | 2019-04-16 | 2019-04-16 | Object image extraction device, method, and software program |
PCT/JP2020/016321 WO2020213570A1 (en) | 2019-04-16 | 2020-04-13 | Object image extraction device, method, and software program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019078132A JP7240940B2 (en) | 2019-04-16 | 2019-04-16 | Object image extraction device, method, and software program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020177364A JP2020177364A (en) | 2020-10-29 |
JP7240940B2 true JP7240940B2 (en) | 2023-03-16 |
Family
ID=72837897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019078132A Active JP7240940B2 (en) | 2019-04-16 | 2019-04-16 | Object image extraction device, method, and software program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7240940B2 (en) |
WO (1) | WO2020213570A1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005277916A (en) | 2004-03-25 | 2005-10-06 | Seiko Epson Corp | Moving picture processing apparatus, image processing system, moving picture processing method, program therefor, and recording medium |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012190159A (en) * | 2011-03-09 | 2012-10-04 | Canon Inc | Information processing device, information processing method, and program |
-
2019
- 2019-04-16 JP JP2019078132A patent/JP7240940B2/en active Active
-
2020
- 2020-04-13 WO PCT/JP2020/016321 patent/WO2020213570A1/en active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005277916A (en) | 2004-03-25 | 2005-10-06 | Seiko Epson Corp | Moving picture processing apparatus, image processing system, moving picture processing method, program therefor, and recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP2020177364A (en) | 2020-10-29 |
WO2020213570A1 (en) | 2020-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977262B (en) | Method and device for acquiring candidate segments from video and processing equipment | |
JP6972757B2 (en) | Control programs, control methods, and information processing equipment | |
KR102275452B1 (en) | Method for tracking image in real time considering both color and shape at the same time and apparatus therefor | |
Shen et al. | Multiobject tracking by submodular optimization | |
JP4767595B2 (en) | Object detection device and learning device thereof | |
EP2192549B1 (en) | Target tracking device and target tracking method | |
JP5106271B2 (en) | Image processing apparatus, image processing method, and computer program | |
US9092662B2 (en) | Pattern recognition method and pattern recognition apparatus | |
KR101994316B1 (en) | Device and method for object pose estimation | |
US20110135153A1 (en) | Image processing device, image processing method and program | |
JP2004192637A (en) | Face detection | |
US9721153B2 (en) | Image processing apparatus, image processing method, and storage medium that recognize an image based on a designated object type | |
JP2004199669A (en) | Face detection | |
Aytekin et al. | Spatiotemporal saliency estimation by spectral foreground detection | |
JPWO2006025272A1 (en) | Video classification device, video classification program, video search device, and video search program | |
US12087037B2 (en) | Information processing device, information processing method, and program recording medium | |
JP4496992B2 (en) | Animal up-frame detection method, program, and storage medium storing program, and animal up-shot detection method, animal up-frame or shot detection method, program, and storage medium | |
JP2018028784A (en) | Movable body group detection program, movable body group detection device, and movable body group detection method | |
Bouachir et al. | Structure-aware keypoint tracking for partial occlusion handling | |
CN112287906A (en) | Template matching tracking method and system based on depth feature fusion | |
CN110458861A (en) | Object detection and tracking and equipment | |
JP4836065B2 (en) | Edge tracking method and computer program therefor | |
JP2014110020A (en) | Image processor, image processing method and image processing program | |
US11875518B2 (en) | Object feature extraction device, object feature extraction method, and non-transitory computer-readable medium | |
JP7240940B2 (en) | Object image extraction device, method, and software program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7240940 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |