JP2021128540A - Information processing device, information processing method and program - Google Patents
Information processing device, information processing method and program Download PDFInfo
- Publication number
- JP2021128540A JP2021128540A JP2020022687A JP2020022687A JP2021128540A JP 2021128540 A JP2021128540 A JP 2021128540A JP 2020022687 A JP2020022687 A JP 2020022687A JP 2020022687 A JP2020022687 A JP 2020022687A JP 2021128540 A JP2021128540 A JP 2021128540A
- Authority
- JP
- Japan
- Prior art keywords
- subject
- image
- collation
- information processing
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Closed-Circuit Television Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法、及びプログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program.
コンビニエンスストア、ショッピングモール、空港などに複数のカメラを設置し、ネットワークでつなぐことによって複数の地点の監視を可能とするシステムがある。例えば、あるカメラで少し前に撮像された映像中の万引き犯など特定の人物を、現在の複数のカメラ映像の中から探すといった使い方がある。これは、カメラ映像中の人物から抽出した服の色などの特徴を照合することによって実現できる。例えば、照合した結果をスコアによって降順にソートして候補画像として人物領域を含むサムネイル画像を並べてユーザに提示することで、ユーザは候補の人物が照合元と同一人物であるか、候補画像を見て確認することができる。 There is a system that enables monitoring of multiple points by installing multiple cameras at convenience stores, shopping malls, airports, etc. and connecting them via a network. For example, there is a usage such as searching for a specific person such as a shoplifter in an image captured by a certain camera a while ago from a plurality of current camera images. This can be achieved by collating features such as the color of clothes extracted from the person in the camera image. For example, by sorting the collation results in descending order according to the score and arranging thumbnail images including the person area as candidate images and presenting them to the user, the user can see whether the candidate person is the same person as the collation source or the candidate image. Can be confirmed.
サムネイル画像は、大量の結果を一覧できるものの解像度が低く、ユーザによる候補画像の目視確認が容易ではない。混雑したシーンでの人同士の重なりやコンビニエンスストア内の棚等の背景物、傘などの所持物による隠れが画像内で生じると、サムネイル画像内で候補の人物について確認に利用できる領域が小さくなり、視認性が低下する。特許文献1には、人物のパーツ(目、鼻、口等)単位のスコアを円グラフ等で表示することによりユーザ確認を補助する技術が開示されている。また、特許文献2には、人物の複数の種別の特徴(顔、服装、歩容等)ごとにスコアを算出し、ソートした種別ごとの照合結果を並列して表示する技術が開示されている。
Although thumbnail images can list a large number of results, the resolution is low, and it is not easy for the user to visually confirm the candidate images. When people overlap in a crowded scene, background objects such as shelves in a convenience store, and hiding by belongings such as umbrellas occur in the image, the area that can be used to confirm the candidate person in the thumbnail image becomes smaller. , Visibility is reduced.
特許文献1の技術では、候補画像の視認性が低い場合に、表示される各パーツのスコアからユーザによる候補画像の確認が容易になるが、大量の候補画像が存在する場合には大量のパーツのスコアを表示することになり、一覧性が低下してしまう。また、特許文献2に記載の技術では、複数の種別の照合結果を一覧できるようになるが、同じ候補画像の対応は、ユーザが照合結果を見比べて判断する必要があるため、特に視認性の低い候補画像において確認の作業効率が低下する。
In the technique of
本発明は、このような事情に鑑みてなされたものであり、照合結果の候補画像に係るユーザによる確認作業の効率を向上させることを目的とする。 The present invention has been made in view of such circumstances, and an object of the present invention is to improve the efficiency of confirmation work by a user regarding a candidate image of a collation result.
本発明に係る情報処理装置は、撮像された映像から被写体を検出する検出手段と、前記被写体を構成するパーツ単位に抽出した特徴に基づいて、前記被写体の特徴量を生成する生成手段と、指定された照合元である被写体の特徴量と前記映像中の被写体の特徴量とを照合する照合手段と、前記照合手段での照合結果及び前記パーツに関する情報に基づいて、前記映像における前記被写体の視認性を判定する判定手段とを有する。 The information processing apparatus according to the present invention is designated as a detection means for detecting a subject from an captured image and a generation means for generating a feature amount of the subject based on features extracted for each part constituting the subject. Based on the collation means for collating the feature amount of the subject which is the collation source and the feature amount of the subject in the video, the collation result by the collation means, and the information about the parts, the visual recognition of the subject in the video is performed. It has a determination means for determining sex.
本発明によれば、照合結果の候補画像に係るユーザによる確認作業の効率を向上させることができる。 According to the present invention, it is possible to improve the efficiency of the confirmation work by the user regarding the candidate image of the collation result.
以下、本発明の実施形態を図面に基づいて説明する。なお、以下では、処理対象とする被写体を人物の全体(全身)として説明するが、これに限定されるものではなく、人物の顔や車両など他の被写体であっても同様に適用可能である。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following, the subject to be processed will be described as the whole person (whole body), but the present invention is not limited to this, and the same applies to other subjects such as the face of a person and a vehicle. ..
図1は、本実施形態における情報処理装置を適用したシステムの構成例を示す図である。本実施形態におけるシステムは、撮像装置(カメラ)101〜103及び情報処理装置105を有する。撮像装置(カメラ)101〜103及び情報処理装置105は、ネットワーク104に接続されており、互いにデータ等の通信が可能である。なお、図1には、撮像装置(カメラ)101〜103の3つの撮像装置を有する例を示しているが、これに限定されるものではなく、システムが有する撮像装置の数は任意である。
FIG. 1 is a diagram showing a configuration example of a system to which the information processing apparatus according to the present embodiment is applied. The system in this embodiment includes an imaging device (camera) 101-103 and an
撮像装置(カメラ)101〜103のそれぞれは、撮像レンズ、CCDやCMOSなどの撮像センサ、及び映像信号処理部等を有し、映像を撮像する。また、撮像装置(カメラ)101〜103は、ネットワーク104を介して、撮像した映像を送信する。情報処理装置105は、ネットワーク104を介して受信した映像からカメラ映像中の被写体を照合する。これにより、情報処理装置105は、例えば被写体のカメラ間の移動を検出することができる。
Each of the image pickup devices (cameras) 101 to 103 has an image pickup lens, an image pickup sensor such as a CCD or CMOS, a video signal processing unit, and the like, and captures an image. Further, the image pickup apparatus (camera) 101 to 103 transmits the captured image via the
図2は、本実施形態における情報処理装置105のハードウェア構成例を示すブロック図である。本実施形態における情報処理装置105は、CPU201、ROM202、RAM203、2次記憶装置204、入力装置205、表示装置206、及びネットワークI/F207を有する。CPU201、ROM202、RAM203、2次記憶装置204、入力装置205、表示装置206、及びネットワークI/F207は、バス208を介して互いに通信可能に接続されている。
FIG. 2 is a block diagram showing a hardware configuration example of the
CPU(Central Processing Unit)201は、ROM202やRAM203に格納されたプログラムに従って処理を実行する。CPU201は、プログラムを実行することにより、例えば情報処理装置105が有する各機能部を制御したり、特徴量抽出処理や被写体照合処置等の各処理を行ったりする。
The CPU (Central Processing Unit) 201 executes processing according to a program stored in the
ROM(Read Only Memory)202は、不揮発性メモリであり、本実施形態に係る処理を実行するためのプログラムやその他の制御に必要なプログラムやデータを格納する。RAM(Random Access Memory)203は、揮発性メモリであり、フレーム画像データやパターン判別結果などの一時的なデータを記憶する。 The ROM (Read Only Memory) 202 is a non-volatile memory, and stores a program for executing the process according to the present embodiment and other programs and data necessary for control. The RAM (Random Access Memory) 203 is a volatile memory, and stores temporary data such as frame image data and pattern discrimination results.
2次記憶装置204は、ハードディスクドライブ、ソリッドステートドライブ、フラッシュメモリなどの書き換え可能な2次記憶装置であり、画像情報や画像処理プログラムや、各種設定情報などを記憶する。これらの情報は、RAM203に転送され、CPU201がプログラムを実行する際に利用される。
The
入力装置205は、キーボードやマウスなどであり、ユーザからの入力を受け付ける。表示装置206は、ブラウン管CRTや液晶ディスプレイなどであり、ユーザに対して処理結果などを表示する。ネットワークI/F207は、インターネットやイントラネットなどのネットワークと接続を行うインタフェースである。
The
本実施形態における情報処理装置105は、後述するフローチャートの各ステップに対応する処理を実装したソフトウェア(プログラム)を2次記憶装置204やRAM203などから読み出し、CPU201を用いて実行する。
The
図3は、本実施形態における情報処理装置105の機能構成例を示すブロック図である。本実施形態における情報処理装置105は、映像取得部301、映像記憶部302、被写体検出部303、基本特徴抽出部304、マスク抽出部305、特徴量生成部306、及び特徴量記憶部307を有する。また、情報処理装置105は、照合元指定部308、特徴量照合部309、視認性判定部310、及び表示部311を有する。
FIG. 3 is a block diagram showing a functional configuration example of the
映像取得部301は、撮像装置(カメラ)101〜103により撮像された映像を、ネットワーク104を介して撮像装置(カメラ)101〜103から受信することにより、映像を取得する。
The
映像記憶部302は、映像取得部301で取得した映像をカメラID及びフレームIDとともに記憶する。映像記憶302は、例えばRAM203や2次記憶装置204から構成される。カメラIDは、撮像装置を識別するための識別情報(ID)であり、フレームIDは、撮像装置により撮影された複数のフレーム画像からなる映像においてフレーム画像を識別するための識別情報(ID)である。カメラID及びフレームIDにより、どの撮像装置により撮影された、どのフレーム画像であるかが特定できる。
The
被写体検出部303は、映像取得部301で取得した映像から被写体の領域を検出する。基本特徴抽出部304は、被写体検出部303で検出された被写体の領域の画像における基本特徴を抽出する。本実施形態では、基本特徴抽出部304は、被写体検出部303で検出された被写体の領域の画像から、色、エッジ、テクスチャなどといった基本的な特徴を抽出する。マスク抽出部305は、被写体を構成する所定のパーツ以外の領域をマスクするためのマスク画像を抽出する。被写体を構成するパーツには、例えば頭部、腕、胴体、脚などがある。
The
特徴量生成部306は、基本特徴抽出部304で抽出された基本的な特徴に基づく特徴マップを、マスク抽出部305で抽出されたマスク画像を用いてマスク処理し、パーツ単位の特徴を抽出する。また、特徴量生成部306は、被写体毎に、抽出したパーツ単位の特徴を連結して被写体の特徴量を生成する。このとき、特徴量生成部306は、抽出したパーツ単位の特徴を次元削減して連結し、所定の次元のベクトルとして被写体の特徴量を得る。特徴量記憶部307は、特徴量生成部306で生成された被写体の特徴量を、パーツに関する情報、カメラID、及びフレームIDと関連付けて記憶する。特徴量記憶部307は、例えばRAM203や2次記憶装置204から構成される。
The feature
照合元指定部308は、被写体照合の処理において照合元になる被写体を指定する。特徴量照合部309は、特徴量記憶部307から被写体の特徴量を読み出して、照合元指定部308で指定された被写体の特徴量と照合する。また、特徴量照合部309は、照合結果に基づいて映像記憶部302からフレーム画像を読み出し、被写体領域の画像を切り出して所定のサイズのサムネイル画像を生成する。
The collation
視認性判定部310は、特徴量照合部309により得られた照合結果として表示する候補画像の視認性を判定する。表示部311は、特徴量照合部309による照合結果を、視認性判定部310での判定結果に基づいた表示方法でユーザに対して表示する。表示部311は、視認性判定部310での判定結果に基づいて、特徴量照合部309による照合結果に応じたサムネイル画像を表示する。表示部311は、例えば表示装置206から構成される。
The
次に、本実施形態における情報処理装置105での処理について説明する。
まず、カメラ映像から被写体の特徴量を生成する特徴量抽出処理について説明する。図4は、本実施形態における特徴量抽出処理の例を示すフローチャートである。
Next, the processing in the
First, a feature amount extraction process for generating a feature amount of a subject from a camera image will be described. FIG. 4 is a flowchart showing an example of the feature amount extraction process in the present embodiment.
ステップS401では、映像取得部301は、ネットワーク104を介して、撮像装置(カメラ)101〜103により撮像された映像を各カメラの識別情報として予め付与されたカメラIDとともにフレーム画像の単位で取得する。
次に、ステップS402では、ステップS401において取得したフレーム画像をカメラID及びフレームIDとともに映像記憶部302に記憶する。
In step S401, the
Next, in step S402, the frame image acquired in step S401 is stored in the
次に、ステップS403では、被写体検出部303は、ステップS401において取得したフレーム画像内から被写体の検出を行う。フレーム画像から被写体の領域を検出する具体的な方法としては、例えば以下の参考文献1に記載の方法がある。
(参考文献1)米国特許出願公開第2007/0237387号明細書
Next, in step S403, the
(Reference 1) U.S. Patent Application Publication No. 2007/0237387
参考文献1に記載の方法は、所定の大きさの検出ウィンドウを入力画像上で走査させ、検出ウィンドウ内の画像を切り出したパターン画像に対し人物であるか否かの2クラス判別を行う。この判別には、アダブーストを使って多くの弱判別器を有効に組み合わせて判別器を構成し、判別精度を向上させる。また、この判別器を直列に繋ぎ、カスケード型の検出器を構成するようにしている。弱判別器はHOG(Histograms of Oriented Gradients)特徴量で構成されている。そして、カスケード型の検出器は、まず前段の単純な判別器を使って明らかに被写体でないパターンの候補をその場で除去する。そして、それ以外の候補に対してのみ、より高い識別性能を持つ後段の複雑な判別器を使って人物かどうかの判別を行う。なお、検出ウィンドウの走査はフレーム画像全体に対して行われるため、フレーム画像に複数の被写体が含まれている場合には、すべての被写体を検出することができる。
The method described in
なお、本実施形態において被写体は人物の全体(全身)としているが、他の被写体についても前述した方法が適用可能である。例えば、被写体として顔を扱いたい場合には、参考文献1にある判別器を顔について作ればよい。また、前述した被写体の検出方法は一例であり、これに限定されるものではない。被写体の領域を検出する方法として、畳込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いた手法を適用してもよいし、背景差分法などを用いてもよい。
In the present embodiment, the subject is the whole person (whole body), but the above-mentioned method can be applied to other subjects. For example, when it is desired to treat a face as a subject, the discriminator described in
前述した方法によって、被写体検出部303は、映像(フレーム画像)から被写体の領域を検出することができる。被写体領域は、例えばフレーム画像の左上を原点とし、被写体である人物を囲む矩形の左上と右下の2点のx座標、y座標で表す。なお、被写体の領域を示す方法は、これに限定されるものではなく、領域を一意に指定可能な任意の方法を適用可能である。
By the method described above, the
次に、ステップS404では、基本特徴抽出部304は、ステップS403において検出された被写体の領域の画像における基本特徴を抽出する。本実施形態での基本特徴とは、例えば、色、エッジ、テクスチャなどの基本的な特徴である。基本特徴抽出部304は、例えば、以下の参考文献2に記載のResnetのようにCNNを用い、出力として得られる特徴マップを基本特徴とする。なお、これに限定されるものではなく、AlexNet、VGGなど他のアーキテクチャのCNNであってもよい。または、カラーヒストグラム、LBP(Local Binary Pattern)特徴、HOG特徴、GaborフィルタやSchmidフィルタなど用いて抽出した特徴であっても構わない。
Next, in step S404, the basic
(参考文献2)K.He et al.“Deep Residual Learning for Image Recognition”, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,pp.770−778,2016 (Reference 2) K.K. He et al. "Deep Learning Learning for Image Recognition", Proceedings of IEEE Computer Vision and Pattern Recognition, pp.770-778, 2016
次に、ステップS405では、マスク抽出部305は、被写体を構成する所定のパーツに係るパーツマスク(マスク画像)を抽出する。マスク抽出部305は、例えば、以下の参考文献3に記載のように被写体画像と正解データとなるパーツマスク画像とを学習データに用い、パーツの種類別(本実施形態ではK種類あるものとする)にスコアマップを出力するCNNを作成する。そして、得られるパーツのスコアマップを閾値処理することによりパーツマスク画像を得る。
Next, in step S405, the
(参考文献3)G.Oliveira,A.Valada,C.Bollen,W.Burgard,and T.Brox. Deep learning for human part discovery in images. ICRA,2016 (Reference 3) G. Oliveira, A.M. Valada, C.I. Bollen, W. et al. Burgard, and T. et al. Brox. Deep learning for human part discovery in images. ICRA, 2016
ステップS405における処理では、パーツの領域を示すパーツマスク画像が得られればよく、この方法に限定されるものではない。例えば、以下の参考文献4に記載のように照合元の人物画像と同一人物の画像、別人の人物画像の3つ組のデータセットを用意して、所定の数(K)のパーツ検出器を学習させる方法もある。
The process in step S405 is not limited to this method as long as a part mask image showing a region of the part can be obtained. For example, as described in
(参考文献4)L.Zhao et al.“Deeply−Learned Part−Aligned Representations for Person Re−Identification," IEEE International Conference on Computer Vision(ICCV),2017 (Reference 4) L. Zhao et al. "Deeply-Learned Part-Aligned Representations for Person Re-Identification," IEEE International Conference on Computer Vision (ICCV), 2017
また、前述した参考文献1のような方法でパーツ検出器を作成する方法も考えらえる。この場合は、パーツマスク画像でなくパーツの外接矩形しか得られないため、特徴量にパーツ以外の画素が反映されてしまう。しかしながら、本発明の趣旨に応じた処理は実現可能であり、同様な効果を得ることができる。
Further, a method of creating a parts detector by a method as described in
次に、ステップS406では、特徴量生成部306は、ステップS404において基本特徴抽出部304により得られた特徴マップを、ステップS405においてマスク抽出手段305で得られたマスクでマスキングし、パーツ単位の特徴を抽出する。本実施形態の例では、K個のパーツが存在するため、K個の特徴が抽出される。
続いて、ステップS407では、特徴量生成部306は、ステップS406において抽出したK個の特徴をすべて次元数Dに次元削減して連結することにより、(K×D)次元のベクトルの被写体特徴量を得る。
Next, in step S406, the feature
Subsequently, in step S407, the feature
なお、前述した説明では、先に特徴マップを生成してからパーツマスクを作成するようにしているが、先にパーツマスクを作成し、マスク処理された画像から特徴を抽出するようにしてもよい。 In the above description, the feature map is generated first and then the parts mask is created. However, the parts mask may be created first and the features may be extracted from the masked image. ..
次に、ステップS408では、ステップS407において得られた被写体の特徴量を、被写体の特徴量の各次元と特徴量を得たパーツの情報とを関連付けて特徴量記憶部307に記憶する。本実施形態では、一例としてパーツ情報は、パーツの種別IDとパーツの面積であるとする。なお、パーツの中心位置座標や或いはパーツマスク画像そのものをパーツ情報として用いてもよい。特徴量とパーツの情報の関連付けは、例えば、特徴量ベクトルにおいて、1次元〜D次元はパーツK1の特徴量情報、(D+1)次元〜(2D)次元はパーツK2の特徴量情報、と言ったように次元をインデックスとすればよい。なお、後のサムネイル画像作成のため、被写体領域の座標、被写体を識別する被写体ID、及び、現在の処理対象のフレームIDとカメラIDも被写体の特徴量に対応付けておくものとする。
Next, in step S408, the feature amount of the subject obtained in step S407 is stored in the feature
情報処理装置105は、ステップS409で、ステップS403において検出されたすべての被写体について処理が完了したと判定するまで、ステップS404〜S408の処理を繰り返す。すなわち、情報処理装置105は、フレーム画像内のすべての被写体から被写体の特徴量を抽出するまで、ステップS404〜S408の処理を繰り返す。
The
また、情報処理装置105は、ステップS410で、ネットワーク104を介して映像を取得可能なすべてのカメラについて処理が完了したと判定するまで、ステップS401〜S409の処理を繰り返す。
以上が被写体に係る特徴量抽出処理であり、ユーザからの終了の指示があるまですべて処理が繰り返されるものとする。
Further, the
The above is the feature amount extraction process for the subject, and it is assumed that all the processes are repeated until the user gives an instruction to end the feature amount.
次に、被写体の照合を行う被写体照合処理について説明する。図5は、本実施形態における被写体照合処理の例を示すフローチャートである。 Next, a subject collation process for collating a subject will be described. FIG. 5 is a flowchart showing an example of subject matching processing in the present embodiment.
ステップS501では、照合元指定部308は、照合対象となる人物(クエリ被写体)のユーザからの指定を受け付ける。ユーザからの指定は、例えば、カメラ映像を表示装置206に表示し、入力装置205のマウスなどを使って指示をする。そして、指示されたカメラのカメラIDと被写体の被写体IDに基づいて、対象人物の被写体の特徴量が特徴量記憶部307から読み込まれRAM203に一時記憶される。
In step S501, the collation
次に、ステップS502では、特徴量照合部309は、特徴量記憶部307から被写体の特徴量を関連付けられたパーツの情報とともに読み出す。
次に、ステップS503では、特徴量照合部309は、ステップS501においてユーザにより指定された照合元の被写体の特徴量と、ステップS502において読み出した被写体の特徴量との照合を行う。
Next, in step S502, the feature
Next, in step S503, the feature
本実施形態では、一例として、特徴量の照合にユークリッド距離を用いるものとするが、L1距離やコサイン距離などの他の距離指標であってもよい。そして、2つの特徴量間の距離を照合の度合いを表すスコアに変換する。本実施形態では、スコアは0から1000の範囲で表すものとする。パーツ単体の距離の最小値(d_minとする)を実験的に求め、スコア最大の1000に対応する距離を(K×d_min)とする。スコアSは被写体特徴量間の距離がdistであったとすると、以下の(式1)で求めることができる。 In the present embodiment, as an example, the Euclidean distance is used for collation of the feature amount, but other distance indexes such as the L1 distance and the cosine distance may be used. Then, the distance between the two features is converted into a score indicating the degree of collation. In this embodiment, the score is represented in the range of 0 to 1000. The minimum value (referred to as d_min) of the distance of a single part is experimentally obtained, and the distance corresponding to the maximum score of 1000 is defined as (K × d_min). The score S can be obtained by the following (Equation 1), assuming that the distance between the subject features is a dust.
なお、このステップS503では、後に行う視認性判定に用いるため、特徴量照合部309は、人物全体(全身)である全パーツでのスコアの他にパーツ単位のスコアSKも算出しておく。各パーツ単位のスコアSKは、(式1)においてK=1とし、distにパーツ単体の距離を代入すれば求めることができる。
Incidentally, the in step S503, for use in the visibility determination to be performed after, the
ステップS504では、特徴量照合部309は、照合対象のカメラから取得したフレーム画像内のすべての被写体の特徴量について、ステップS502〜S503の特徴量の照合処理を行ったか否かを判定する。フレーム画像内の被写体の内に特徴量の照合処理を行っていない被写体があると判定した場合には(NO)、ステップS502に戻り、特徴量照合部309は、未処理の被写体の特徴量について、ステップS502〜S503の特徴量の照合処理を行う。一方、フレーム画像内のすべての被写体について特徴量の照合処理を完了したと判定した場合には(YES)、ステップS505へ進む。
In step S504, the feature
ステップS505では、特徴量照合部309は、特徴量の照合処理により得られた照合結果の全候補をスコアの降順にソートする。なお、所定の閾値未満のスコアを持った候補については照合元と同一人物でない(類似していない)ものと判定して、これ以降の処理ステップでの処理対象から外してしまってもよい。
In step S505, the feature
次に、ステップS506では、特徴量照合部309は、照合結果の全候補についてカメラID及びフレームIDに基づいて映像記憶部302から当該フレーム画像を読み出す。そして、特徴量照合部309は、映像記憶部302より読み出したフレーム画像から、被写体領域の座標に基づいて被写体領域の画像を切り出し、縮小処理等を行って所定のサイズにリサイズすることにより、表示する候補画像としてのサムネイル画像を生成する。
Next, in step S506, the feature
次に、ステップS507では、視認性判定部310は、特徴量照合部309に得られた照合結果に基づく候補画像中の被写体について視認性を判定する。ここで、候補画像の視認性の高さと被写体がどの程度見えているかとは相関がある。候補画像の視認性は、被写体の全部が見えている時が最も高くなり、隠れが多くなるほど、あるいは照明の影響(建物の影など)を受けているほど、はっきりと見えている領域が小さくなる。隠れ等の影響が大きければ被写体の照合処理ではスコアが上がらず、本人と判定されなくなるが、影響が一部であれば全体のスコアへの影響は小さいため、候補として上がってくる。そこで、本実施形態では、被写体を構成するパーツのそれぞれがどの程度見えているかを、パーツ単位のスコアから推定する。スコアの高いパーツの面積の和の被写体全体の面積に対する割合を、被写体がどの程度見えているかを表す量として用い、視認性を評価する。
Next, in step S507, the
また、視認性はパーツの種別にも依存する。一般に人間は顔の識別能力は高い。また、上半身は下半身に対して服装のバリエーションが多いため、比較的識別しやすい。そこで、パーツの種別ごとに識別の容易性を示す値(識別容易度)を予め規定しておくものとする。なお、値としては図6に一例を示したように総和が1になるように規定しておく。 Visibility also depends on the type of part. In general, humans have a high ability to discriminate faces. In addition, the upper body has many variations in clothing compared to the lower body, so it is relatively easy to identify. Therefore, a value (identification ease) indicating the ease of identification is defined in advance for each type of part. The value is specified so that the total sum is 1 as shown in FIG. 6 as an example.
以上から本実施形態では視認性の度合いを表す視認度Vを、パーツの面積AK、パーツ単位のスコアSK、パーツ単位の識別容易度EKとして、(式2)のように定義する。 The visibility V representing the degree of visibility in the present embodiment from the above, the area A K parts, the score S K parts units, as identification Simplicity E K parts units, defined as (Equation 2).
視認性判定部310は、算出した視認度Vを現在の候補画像と対応付けて、RAM203に一時記憶する。
The
次に、ステップS508では、視認性判定部310は、すべての候補画像について視認性の判定処理を行ったか否かを判定する。視認性の判定処理を行っていない候補画像があると判定した場合には(NO)、ステップS507に戻り、視認性判定部310は、未処理の候補画像について視認性の判定処理を行う。一方、すべての候補画像について視認性の判定処理を完了したと判定した場合には(YES)、ステップS509へ進む。
Next, in step S508, the
ステップS509では、表示部311は、ステップS507において算出された視認度Vに基づいて、ステップS506において生成されたサムネイル画像(候補画像)を表示する。ここで、視認度Vに基づいた候補画像の表示には複数の方法があり、以下に一例を示す。
In step S509, the
第1の方法としては、視認度Vが所定値以下の候補画像を除いて表示する方法である。例えば、照合結果をユーザが確認した後に、直ちに現場に駆けつけるような場合、すべての候補を精査する必要はなく、時間も十分にない。このような場合には、表示する候補画像の数を減らす方が、ユーザの負担が減る。そこで、視認度Vに基づいて視認性の低い候補画像を間引いて表示する。 The first method is a method of displaying the candidate images whose visibility V is equal to or less than a predetermined value. For example, if the user rushes to the site immediately after confirming the collation result, it is not necessary to scrutinize all the candidates and there is not enough time. In such a case, reducing the number of candidate images to be displayed reduces the burden on the user. Therefore, candidate images with low visibility are thinned out and displayed based on the visibility V.
第2の方法としては、視認度Vが所定値以下の候補画像を強調表示する方法である。照合元の人物の行動をくまなく調べるような場合には、すべての候補を精査する必要がある。このような場合には、視認性の低い候補画像がどれであるかを強調表示し、注意を払って確認すべき候補であることをユーザに明示する。 The second method is a method of highlighting a candidate image having a visibility V of a predetermined value or less. If you want to investigate the behavior of the person you are collating with, you need to scrutinize all the candidates. In such a case, highlight which candidate image has low visibility and clearly indicate to the user that the candidate image should be carefully confirmed.
図7(a)を参照して、第2の方法について説明する。図7(a)において、701は照合結果を表示するウィンドウである。702は照合元(クエリ)のサムネイル画像である。703は候補(ギャラリ)のサムネイル画像を表示するエリアであり、図7(a)に示す例では5枚の候補画像が表示されている。画像704は傘で頭部が隠されており、画像705は他の人物と重なることで脚の一部が隠されているため、視認性が落ちている(視認度Vが所定値以下である)。画像704、705については視認性が落ちていることを示すマーク706、707が付与されて表示される。
The second method will be described with reference to FIG. 7A. In FIG. 7A, 701 is a window for displaying the collation result.
図7(a)に示した例では、視認性が低い候補画像に対して特定のマークを付与したが、ユーザが視認性の低い候補画像を把握できれば他の方法であっても構わない。例えば、サムネイル画像に外枠を付けるようにしても構わない。或いは、視認度Vの値を各サムネイル画像の下などに表示し、所定値以下の場合には赤字などに変更するようにしても構わない。 In the example shown in FIG. 7A, a specific mark is given to the candidate image having low visibility, but another method may be used as long as the user can grasp the candidate image having low visibility. For example, an outer frame may be attached to the thumbnail image. Alternatively, the value of the visibility V may be displayed below each thumbnail image, and if it is less than a predetermined value, it may be changed to a deficit or the like.
第3の方法としては、視認度Vが所定値以下の候補画像と照合元のクエリ画像とを並列して表示する方法である。視認性の低い候補と照合元の比較が容易になるため、ユーザによる確認作業が容易になる。 The third method is a method of displaying a candidate image having a visibility V of a predetermined value or less and a query image of a collation source in parallel. Since it becomes easy to compare the candidate with low visibility with the collation source, the confirmation work by the user becomes easy.
図7(b)を参照して、第3の方法について説明する。図7(b)において、711は視認性の低い候補画像の確認用ウィンドウであり、図7(a)に示したウィンドウ701とは別のウィンドウとして表示される。712は照合元(クエリ)のサムネイル画像であり、713は視認性の低い候補(ギャラリ)のサムネイル画像を表示するエリアである。画像712と画像713は隣り合って表示されるため、比較が容易である。また、画像712と画像713を拡大表示するようにしてもよい。このとき、参考文献5に記載のような超解像処理を行い、更に確認が容易となる工夫を行ってもよい。また、第3の方法では、視認性の低い複数の候補をまとめて表示することにより、ユーザは連続して確認作業を行うことができる。
The third method will be described with reference to FIG. 7 (b). In FIG. 7B, 711 is a window for confirming a candidate image having low visibility, and is displayed as a window different from the
(参考文献5)J.Kim,J.K.Lee,and K.M.Lee.“Accurate Image SuperResolution Using Very Deep Convolutional Networks",IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016 (Reference 5) J. Kim, J.M. K. Lee, and K. M. Lee. "Accurate Image Super Resolution Using Very Deep Convolutional Networks", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016
また、現在のフレームで検出された被写体が、前のフレームで検出されたどの被写体と対応するかを求める被写体追尾部を設けることにより、視認性の低い候補の前後フレームの被写体領域の画像を表示するようにしてもよい。追尾処理には様々な手法があるが、例えば前フレームに含まれる被写体領域の中心位置と現在のフレームに含まれる被写体領域の中心位置とが最短のものを対応付ける方法がある。この他にも前フレームの被写体領域を照合パターンとしたパターンマッチングによる手法など、フレーム間の被写体を対応付けることができれば、どのような手法であってもよい。フレーム間で対応付けられた被写体には同じ被写体IDが付与されるため、被写体IDに基づいて前後フレームの被写体領域の画像を読み出すことができる。 In addition, by providing a subject tracking unit that determines which subject detected in the previous frame corresponds to the subject detected in the current frame, an image of the subject area of the candidate front and rear frames with low visibility is displayed. You may try to do it. There are various methods for tracking processing. For example, there is a method of associating the center position of the subject area included in the previous frame with the center position of the subject area included in the current frame. In addition to this, any method may be used as long as the subjects between the frames can be associated with each other, such as a method by pattern matching using the subject area of the previous frame as a matching pattern. Since the same subject ID is assigned to the subject associated between the frames, the image of the subject area of the front and rear frames can be read out based on the subject ID.
この場合の表示方法について図8を参照して説明する。図8において、801は、例えば図7(b)に示した画像表示においてカーソル等による指示で選択された候補画像について詳細を示すウィンドウである。選択された候補のサムネイル画像804と、その前後フレームから抜き出した同一の被写体のサムネイル画像803、805を時系列順に並べて表示している。一連の動きの中で、特徴を抽出していないフレーム画像の中には、画像804より隠れが少ない画像805のような表示が存在する場合がある。また、一連の画像を提示することで1枚のサムネイル画像よりも確認しやすくなる効果も期待できる。また、時間的に異なる映像中の画像を同時に並べて表示するのではなく動画として再生させるようにしても構わない。
The display method in this case will be described with reference to FIG. In FIG. 8, 801 is a window showing details of the candidate image selected by an instruction with a cursor or the like in the image display shown in FIG. 7B, for example. The selected
本実施形態では被写体として人物の全身を例にしているが、他の物体への適用も可能である。例えば、顔がサングラスやマスクなどのアクセサリで一部分が覆われているケースや、手などで一時的に顔の一部が隠れるケースにおいて有効である。 In the present embodiment, the whole body of a person is taken as an example as a subject, but it can also be applied to other objects. For example, it is effective in a case where the face is partially covered with accessories such as sunglasses and a mask, and a case where a part of the face is temporarily hidden by a hand or the like.
以上説明したように、本実施形態によれば、被写体を構成するパーツ単位の照合スコアや識別容易性などを基に候補画像の視認性の判定が可能になる。また、視認性の低い候補画像をユーザが確認しやすいように表示することが可能になる。これにより、ユーザによる候補画像の確認作業の効率を向上させることが可能となる。 As described above, according to the present embodiment, it is possible to determine the visibility of the candidate image based on the collation score and the ease of identification of each part constituting the subject. In addition, it becomes possible to display a candidate image having low visibility so that the user can easily check it. This makes it possible to improve the efficiency of the user's confirmation work of the candidate image.
前述した実施形態では、撮像装置からネットワーク経由で受信した映像を情報処理装置で処理するようにしているが、情報処理装置の一部の機能を撮像装置に組み込み、処理を分散するように構成してもよい。例えば、被写体の検出までを撮像装置で行い、被写体領域のみの映像を撮像装置からネットワーク経由で情報処理装置に送信するように構成してもよい。 In the above-described embodiment, the image received from the image pickup device via the network is processed by the information processing device, but some functions of the information processing device are incorporated into the image pickup device to distribute the processing. You may. For example, the image pickup device may perform up to the detection of the subject, and the image pickup device may transmit the image of only the subject area from the image pickup device to the information processing device via the network.
(本発明の他の実施形態)
本発明は、前述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other Embodiments of the present invention)
The present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
なお、前記実施形態は、何れも本発明を実施するにあたっての具体化のほんの一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。 It should be noted that the above-described embodiments are merely examples of embodiment of the present invention, and the technical scope of the present invention should not be construed in a limited manner by these. That is, the present invention can be implemented in various forms without departing from the technical idea or its main features.
101〜103:撮像装置 104:ネットワーク 105:情報処理装置 301:映像取得部 302:映像記憶部 303:被写体検出部 304:基本特徴抽出部 305:マスク抽出部 306:特徴量生成部 307:特徴量記憶部 308:照合元指定部 309:特徴量照合部 310:視認性判定部 311:表示部 101-103: Imaging device 104: Network 105: Information processing device 301: Image acquisition unit 302: Image storage unit 303: Subject detection unit 304: Basic feature extraction unit 305: Mask extraction unit 306: Feature amount generation unit 307: Feature amount Storage unit 308: Collation source designation unit 309: Feature amount collation unit 310: Visibility determination unit 311: Display unit
Claims (15)
前記被写体を構成するパーツ単位に抽出した特徴に基づいて、前記被写体の特徴量を生成する生成手段と、
指定された照合元である被写体の特徴量と前記映像中の被写体の特徴量とを照合する照合手段と、
前記照合手段での照合結果及び前記パーツに関する情報に基づいて、前記映像における前記被写体の視認性を判定する判定手段とを有することを特徴とする情報処理装置。 A detection means that detects the subject from the captured image,
A generation means for generating the feature amount of the subject based on the features extracted for each part constituting the subject, and
A collation means for collating the feature amount of the subject, which is the designated collation source, with the feature amount of the subject in the image.
An information processing device including a determination unit for determining the visibility of the subject in the video based on a collation result by the collation means and information on the part.
前記被写体を構成するパーツ単位に抽出した特徴に基づいて、前記被写体の特徴量を生成する生成工程と、
指定された照合元である被写体の特徴量と前記映像中の被写体の特徴量とを照合する照合工程と、
前記照合工程での照合結果及び前記パーツに関する情報に基づいて、前記映像における前記被写体の視認性を判定する判定工程とを有することを特徴とする情報処理方法。 A detection process that detects the subject from the captured image,
A generation step of generating a feature amount of the subject based on the features extracted for each part constituting the subject, and
A collation process for collating the feature amount of the subject, which is the designated collation source, with the feature amount of the subject in the image.
An information processing method comprising a determination step of determining the visibility of the subject in the video based on the collation result in the collation step and information on the part.
前記被写体を構成するパーツ単位に抽出した特徴に基づいて、前記被写体の特徴量を生成する生成ステップと、
指定された照合元である被写体の特徴量と前記映像中の被写体の特徴量とを照合する照合ステップと、
前記照合ステップでの照合結果及び前記パーツに関する情報に基づいて、前記映像における前記被写体の視認性を判定する判定ステップとをコンピュータに実行させるためのプログラム。 A detection step that detects the subject from the captured image,
A generation step of generating a feature amount of the subject based on the features extracted for each part constituting the subject, and
A collation step for collating the feature amount of the subject, which is the designated collation source, with the feature amount of the subject in the image,
A program for causing a computer to perform a determination step of determining the visibility of the subject in the video based on the collation result in the collation step and information on the part.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020022687A JP2021128540A (en) | 2020-02-13 | 2020-02-13 | Information processing device, information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020022687A JP2021128540A (en) | 2020-02-13 | 2020-02-13 | Information processing device, information processing method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021128540A true JP2021128540A (en) | 2021-09-02 |
Family
ID=77488624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020022687A Pending JP2021128540A (en) | 2020-02-13 | 2020-02-13 | Information processing device, information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021128540A (en) |
-
2020
- 2020-02-13 JP JP2020022687A patent/JP2021128540A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9818023B2 (en) | Enhanced face detection using depth information | |
JP6013241B2 (en) | Person recognition apparatus and method | |
Bustard et al. | Toward unconstrained ear recognition from two-dimensional images | |
JP4957922B2 (en) | Image direction determination apparatus, image direction determination method, and image direction determination program | |
JP6470503B2 (en) | Image collation device, image retrieval system, image collation method, image retrieval method and program | |
JP6700791B2 (en) | Information processing apparatus, information processing method, and program | |
JP6172551B1 (en) | Image search device, image search system, and image search method | |
JP5366756B2 (en) | Information processing apparatus and information processing method | |
CN108021892B (en) | Human face living body detection method based on extremely short video | |
JP6590609B2 (en) | Image analysis apparatus and image analysis method | |
US10079974B2 (en) | Image processing apparatus, method, and medium for extracting feature amount of image | |
JP2000306095A (en) | Image collation/retrieval system | |
EP1631933A1 (en) | Human figure contour outlining in images | |
JP2016134803A (en) | Image processor and image processing method | |
US10762372B2 (en) | Image processing apparatus and control method therefor | |
US20200258236A1 (en) | Person segmentations for background replacements | |
JP2021503139A (en) | Image processing equipment, image processing method and image processing program | |
JP4729188B2 (en) | Gaze detection device | |
JPH08287216A (en) | In-face position recognizing method | |
JP2003006642A (en) | Image processor utilizing thermal image | |
CN107231519B (en) | Video processing apparatus and control method | |
JP2019185205A (en) | Information processor and information processing method and program | |
JP2003044853A (en) | Face detection device, face pose detection device, partial image extraction device and methods for the devices | |
JP2021128540A (en) | Information processing device, information processing method and program | |
JP7386630B2 (en) | Image processing device, control method and program for the image processing device |