JP2023161432A - Image processing device and image processing method - Google Patents
Image processing device and image processing method Download PDFInfo
- Publication number
- JP2023161432A JP2023161432A JP2022071824A JP2022071824A JP2023161432A JP 2023161432 A JP2023161432 A JP 2023161432A JP 2022071824 A JP2022071824 A JP 2022071824A JP 2022071824 A JP2022071824 A JP 2022071824A JP 2023161432 A JP2023161432 A JP 2023161432A
- Authority
- JP
- Japan
- Prior art keywords
- image
- teacher
- area
- person
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims description 57
- 238000003672 processing method Methods 0.000 title claims description 10
- 238000001514 detection method Methods 0.000 claims abstract description 74
- 230000008685 targeting Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 39
- 238000012544 monitoring process Methods 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 36
- 238000012790 confirmation Methods 0.000 description 34
- 238000010801 machine learning Methods 0.000 description 31
- 239000002131 composite material Substances 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 10
- 239000003086 colorant Substances 0.000 description 10
- 238000005259 measurement Methods 0.000 description 10
- 238000012800 visualization Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 230000007812 deficiency Effects 0.000 description 6
- 238000007792 addition Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000037237 body shape Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
Images
Abstract
Description
本発明は、監視エリアに対応した画像認識モデルを構築するための教師画像の収集状況を可視化する画像処理装置および画像処理方法に関するものである。 The present invention relates to an image processing device and an image processing method that visualize the collection status of teacher images for constructing an image recognition model corresponding to a monitoring area.
ディープラーニングなどの機械学習により構築された画像認識モデル(機械学習モデル)を用いて、カメラの撮影画像から人物の来店などの所定の事象を検知するシステムが利用されている。画像認識モデルは、収集された多数の教師画像(学習用画像)を用いた機械学習により構築されるが、教師画像に偏りがあると、安定した精度の画像認識モデルが構築できない。 Systems are in use that use image recognition models (machine learning models) built through machine learning such as deep learning to detect predetermined events, such as a person visiting a store, from images captured by a camera. An image recognition model is constructed by machine learning using a large number of collected teacher images (learning images), but if the teacher images are biased, an image recognition model with stable accuracy cannot be constructed.
このような教師画像の偏りに起因する画像認識モデルの精度低下を避けるため、従来、画像認識モデルの処理対象となる監視エリア(応用環境)に存在する人物や店舗(構成要素)の実体の確率分布を変更することで、学習用データ(教師画像)の偏りを低減する技術が知られている(特許文献1参照)。 In order to avoid a decrease in the accuracy of the image recognition model due to such bias in the teacher image, conventionally, the probability of the entity of a person or store (component) existing in the monitoring area (application environment) that is the processing target of the image recognition model has been calculated. A technique is known that reduces bias in learning data (teacher images) by changing the distribution (see Patent Document 1).
従来の技術によれば、教師画像の偏りが低減するように教師画像の集合(学習用データセット)が更新されるため、精度が高い機械学習モデルが構築される可能性が高くなるが、機械学習モデルの精度が不十分な場合もある。このため、構築された機械学習モデルの評価において、機械学習モデルの精度が不十分と判定されると、不足する教師画像を追加するなどして、教師画像の集合を更新した上で、機械学習を再度行い、構築された機械学習モデルの評価を行う。このように、従来の技術では、教師画像の集合の更新と、機械学習と、機械学習モデルの評価とを繰り返す必要があり、十分な精度の機械学習モデルが完成するまでに非常に手間がかかる場合がある。 According to conventional technology, the set of teacher images (learning dataset) is updated to reduce bias in the teacher images, which increases the possibility of constructing a highly accurate machine learning model. In some cases, the accuracy of the learning model is insufficient. Therefore, when evaluating the constructed machine learning model, if it is determined that the accuracy of the machine learning model is insufficient, the set of teacher images is updated by adding missing teacher images, and then the machine learning The steps are repeated and the constructed machine learning model is evaluated. In this way, with conventional technology, it is necessary to repeatedly update the set of teacher images, perform machine learning, and evaluate the machine learning model, which takes a lot of effort to complete a machine learning model with sufficient accuracy. There are cases.
一方、教師画像の収集状況(アノテーション状況)、すなわち、必要な属性の教師画像が十分な数でかつ適切な配分で揃っているか否かが可視化されてユーザに提示されると、ユーザが、教師画像の収集状況を即座に把握して、不足する教師画像を追加するアノテーション作業を効率よく行うことができる。 On the other hand, when the teacher image collection status (annotation status), that is, whether or not there are a sufficient number of teacher images with necessary attributes and an appropriate distribution, is visualized and presented to the user, the user You can instantly grasp the image collection status and efficiently perform annotation work to add missing teacher images.
そこで、本発明は、学習に先だって、教師画像の収集状況をユーザが目視で容易に確認でき、効率よく高精度な学習モデルを作成することができる画像処理装置および画像処理方法を提供することを主な目的とする。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide an image processing device and an image processing method that allow a user to easily visually check the collection status of teacher images prior to learning, and that can efficiently create a highly accurate learning model. Main purpose.
本発明の画像処理装置は、監視エリアに対応した画像認識モデルを構築するための教師画像の収集状況を可視化する処理をプロセッサにより実行する画像処理装置であって、前記プロセッサは、前記監視エリアに関するエリア画像から、検知対象物と背景とを含む教師画像を生成し、前記教師画像に含まれる前記検知対象物の特徴に関する属性を前記教師画像ごとに設定し、ユーザが指定した前記属性を有する前記教師画像を対象にして、前記エリア画像の各位置における前記教師画像の収集状況を可視化した可視化画像を生成し、前記可視化画像を前記エリア画像に重畳した表示情報を出力する構成とする。 An image processing device of the present invention is an image processing device in which a processor executes a process of visualizing a collection status of teacher images for constructing an image recognition model corresponding to a monitoring area, the processor A teacher image including a detection target object and a background is generated from an area image, attributes related to the characteristics of the detection target included in the teacher image are set for each teacher image, and a teacher image having the attributes specified by the user is set. The present invention is configured to generate a visualized image that visualizes the collection status of the teacher image at each position of the area image with the teacher image as a target, and output display information in which the visualized image is superimposed on the area image.
また、本発明の画像処理方法は、監視エリアに対応した画像認識モデルを構築するための教師画像の収集状況を可視化する処理をプロセッサにより実行する画像処理方法であって、前記監視エリアに関するエリア画像から、検知対象物と背景とを含む教師画像を生成し、前記教師画像に含まれる前記検知対象物の特徴に関する属性を前記教師画像ごとに設定し、ユーザが指定した前記属性を有する前記教師画像を対象にして、前記エリア画像の各位置における前記教師画像の収集状況を可視化した可視化画像を生成し、前記可視化画像を前記エリア画像に重畳した表示情報を出力する構成とする。 Further, the image processing method of the present invention is an image processing method in which a processor executes a process of visualizing the collection status of teacher images for constructing an image recognition model corresponding to a monitoring area, the method comprising: , a teacher image including a detection target and a background is generated, attributes related to the characteristics of the detection target included in the teacher image are set for each teacher image, and the teacher image has the attributes specified by the user. The present invention is configured to generate a visualized image that visualizes the acquisition status of the teacher images at each position of the area image, and to output display information in which the visualized image is superimposed on the area image.
本発明によれば、ユーザが指定した属性を有する教師画像の収集状況、すなわち、必要な属性の教師画像が偏りなく揃っているか否かを、ユーザが容易に確認することができる。特に、教師画像の収集状況に問題のあるエリア画像上の位置を、ユーザが容易に把握することができる。これにより、学習に先だって、教師画像のアノテーション状況をユーザが目視で容易に確認でき、効率よく高精度な学習モデルを作成することができる。 According to the present invention, the user can easily check the collection status of teacher images having the attributes specified by the user, that is, whether the teacher images having the necessary attributes are evenly collected. In particular, the user can easily grasp the position on the area image where there is a problem in the collection status of teacher images. Thereby, the user can easily visually check the annotation status of the teacher image prior to learning, and can efficiently create a highly accurate learning model.
前記課題を解決するためになされた第1の発明は、監視エリアに対応した画像認識モデルを構築するための教師画像の収集状況を可視化する処理をプロセッサにより実行する画像処理装置であって、前記プロセッサは、前記監視エリアに関するエリア画像から、検知対象物と背景とを含む教師画像を生成し、前記教師画像に含まれる前記検知対象物の特徴に関する属性を前記教師画像ごとに設定し、ユーザが指定した前記属性を有する前記教師画像を対象にして、前記エリア画像の各位置における前記教師画像の収集状況を可視化した可視化画像を生成し、前記可視化画像を前記エリア画像に重畳した表示情報を出力する構成とする。 A first invention made to solve the above problem is an image processing device in which a processor executes a process of visualizing the collection status of teacher images for constructing an image recognition model corresponding to a monitoring area, The processor generates a teacher image including a detection target object and a background from the area image related to the monitoring area, sets attributes related to the characteristics of the detection target included in the teacher image for each teacher image, and Targeting the teacher image having the specified attribute, generate a visualized image that visualizes the collection status of the teacher image at each position of the area image, and output display information in which the visualized image is superimposed on the area image. The configuration is as follows.
これによると、ユーザが指定した属性を有する教師画像の収集状況、すなわち、必要な属性の教師画像が偏りなく揃っているか否かを、ユーザが容易に確認することができる。特に、教師画像の収集状況に問題のあるエリア画像上の位置を、ユーザが容易に把握することができる。これにより、学習に先だって、教師画像のアノテーション状況をユーザが目視で容易に確認でき、効率よく高精度な学習モデルを作成することができる。 According to this, the user can easily check the collection status of the teacher images having the attributes specified by the user, that is, whether the teacher images having the necessary attributes are evenly collected. In particular, the user can easily grasp the position on the area image where there is a problem in the collection status of teacher images. Thereby, the user can easily visually check the annotation status of the teacher image prior to learning, and can efficiently create a highly accurate learning model.
また、第2の発明は、前記プロセッサは、前記可視化画像として、前記エリア画像の各位置における前記教師画像の収集状況を表すヒートマップ画像を生成する構成とする。 In a second aspect of the invention, the processor generates, as the visualized image, a heat map image representing a collection status of the teacher images at each position of the area image.
これによると、エリア画像の各位置における教師画像の収集状況をユーザが容易に把握することができる。 According to this, the user can easily grasp the collection status of teacher images at each position of the area image.
また、第3の発明は、前記プロセッサは、前記可視化画像として、前記教師画像の収集状況に問題のある前記エリア画像上の範囲を表すマーク画像を生成する構成とする。 Further, in a third invention, the processor is configured to generate, as the visualized image, a mark image representing a range on the area image where there is a problem in the collection status of the teacher image.
これによると、教師画像の収集状況に問題のあるエリア画像上の領域をユーザが容易に把握することができる。 According to this, the user can easily grasp the area on the area image where there is a problem in the collection status of the teacher images.
また、第4の発明は、前記プロセッサは、前記エリア画像として、カメラで撮影された現実エリア画像、またはCGで作成された仮想エリア画像から前記教師画像を生成する構成とする。 Further, in a fourth invention, the processor generates the teacher image from a real area image photographed by a camera or a virtual area image created by CG as the area image.
これによると、教師画像を効率よく生成することができる。 According to this, a teacher image can be efficiently generated.
また、第5の発明は、前記プロセッサは、前記属性としての人物に関する色種別ごとの前記教師画像の収集状況を可視化した前記可視化画像を生成する構成とする。 Further, in a fifth invention, the processor is configured to generate the visualized image that visualizes the collection status of the teacher images for each color type regarding the person as the attribute.
これによると、人物に関する色種別に応じて画像認識モデルの精度が大きく異なる場合があるため、人物に関する色種別ごとの教師画像の収集状況をユーザに提示することで、容易に高精度な画像認識モデル(機械学習モデル)を作成することができる。 According to this, the accuracy of image recognition models may vary greatly depending on the color type of people, so by presenting the collection status of teacher images for each color type of people to the user, it is possible to easily achieve high-precision image recognition. Models (machine learning models) can be created.
また、第6の発明は、前記プロセッサは、前記属性ごとの前記教師画像の収集状況を可視化した統計グラフを生成し、この統計グラフを含む前記表示情報を出力する構成とする。 Further, in a sixth invention, the processor generates a statistical graph that visualizes the collection status of the teacher images for each attribute, and outputs the display information including this statistical graph.
これによると、属性ごとの教師画像の収集状況をユーザが容易に把握することができる。この場合、複数の属性の組み合わせごとの教師画像の収集状況を可視化した3次元統計グラフを生成してもよい。 According to this, the user can easily understand the collection status of teacher images for each attribute. In this case, a three-dimensional statistical graph may be generated that visualizes the collection status of teacher images for each combination of multiple attributes.
また、第7の発明は、前記プロセッサは、ユーザの操作に応じて、前記教師画像を生成すると共に前記教師画像に属性を設定する第1の画面を含む前記表示情報を出力し、前記エリア画像上に前記可視化画像を重畳して表示すると共に、前記第1の画面に戻るための操作部が設けられた第2の画面を含む前記表示情報を出力する構成とする。 Further, in a seventh aspect of the invention, the processor outputs the display information including a first screen for generating the teacher image and setting attributes for the teacher image in response to a user's operation, and The display information is configured to display the visualized image superimposed thereon and output the display information including a second screen provided with an operation section for returning to the first screen.
これによると、教師画像の収集状況に問題のある場合に、教師画像を生成すると共に教師画像に属性を設定する第1の画面において不足する教師画像を追加するための作業に、速やかに進むことができる。 According to this, if there is a problem with the collection status of teacher images, you can immediately proceed to the task of adding missing teacher images on the first screen that generates a teacher image and sets attributes for the teacher image. I can do it.
また、第8の発明は、監視エリアに対応した画像認識モデルを構築するための教師画像の収集状況を可視化する処理をプロセッサにより実行する画像処理方法であって、前記監視エリアに関するエリア画像から、検知対象物と背景とを含む教師画像を生成し、前記教師画像に含まれる前記検知対象物の特徴に関する属性を前記教師画像ごとに設定し、ユーザが指定した前記属性を有する前記教師画像を対象にして、前記エリア画像の各位置における前記教師画像の収集状況を可視化した可視化画像を生成し、前記可視化画像を前記エリア画像に重畳した表示情報を出力する構成とする。 Further, an eighth invention is an image processing method in which a processor executes a process of visualizing the collection status of teacher images for constructing an image recognition model corresponding to a monitoring area, the method comprising: A teacher image including a detection target object and a background is generated, attributes related to the characteristics of the detection target included in the teacher image are set for each teacher image, and the teacher image having the attributes specified by the user is targeted. Then, a visualized image that visualizes the acquisition status of the teacher images at each position of the area image is generated, and display information in which the visualized image is superimposed on the area image is output.
これによると、第1の発明と同様に、学習に先だって、教師画像のアノテーション状況をユーザが目視で容易に確認でき、効率よく高精度な学習モデルを作成することができる。 According to this, as in the first invention, the user can easily visually check the annotation status of the teacher image prior to learning, and can efficiently create a highly accurate learning model.
以下、本発明の実施の形態を、図面を参照しながら説明する。 Embodiments of the present invention will be described below with reference to the drawings.
図1は、本実施形態に係る画像認識モデル構築システムの全体構成図である。 FIG. 1 is an overall configuration diagram of an image recognition model construction system according to this embodiment.
本システムは、画像処理装置1(情報処理装置)と、カメラ2と、レコーダー3とを備えている。
This system includes an image processing device 1 (information processing device), a
カメラ2は、監視エリアを撮影する。レコーダー3は、カメラ2による撮影画像を蓄積する。画像処理装置1には、レコーダー3に蓄積された撮影画像が入力される。
画像処理装置1は、PCなどで構成される。画像処理装置1には、ディスプレイ4と、キーボードやマウスなどの入力デバイス5とが接続されている。なお、ディスプレイ4と入力デバイス5とが一体化されたタッチパネルディスプレイでもよい。
The
画像処理装置1は、カメラ2の撮影画像から所定の事象を検知する画像認識モデル(機械学習モデル)を、ディープラーニングなどの機械学習により構築する。また、画像処理装置1は、画像認識モデルを構築するための学習に用いられる教師画像(学習用画像)を生成する。また、画像処理装置1は、教師画像と異なる評価用画像を用いて機械学習モデルの出来具合を評価する。
The
さらに、画像処理装置1は、学習に先だって、教師画像の収集状況(アノテーション状況)、すなわち、必要な属性の教師画像が十分な数でかつ適切な配分で揃っているか否かを可視化してユーザに提示する。
Furthermore, prior to learning, the
なお、本実施形態では、画像処理装置1が、教師画像を生成して、その教師画像を用いて画像認識モデル(機械学習モデル)を構築する学習処理を行うが、画像処理装置1とは異なる装置で学習処理が行われてもよい。
Note that in this embodiment, the
次に、画像処理装置1の概略構成について説明する。図2は、画像処理装置1の概略構成を示すブロック図である。
Next, a schematic configuration of the
画像処理装置1は、通信部11と、記憶部12と、プロセッサ13と、を備えている。
The
通信部11は、レコーダー3との間で通信を行う。
The
記憶部12は、プロセッサ13で実行されるプログラムなどを記憶する。また、プロセッサ13で生成した教師画像およびその属性を管理するデータベースの登録情報を記憶する。
The
プロセッサ13は、記憶部12に記憶されたプログラムを実行することで各種の処理を行う。本実施形態では、プロセッサ13が、教師画像生成処理、抽出枚数計測処理、可視化処理、出力処理、および学習処理などを行う。
The
教師画像生成処理(アノテーション処理)では、プロセッサ13が、画像認識モデルを構築するための学習に用いられる教師画像(学習用画像)を生成する。また、教師画像生成処理では、プロセッサ13が、ユーザの入力操作に応じて、教師画像に含まれる検知対象物およびその背景の特徴に関する属性を教師画像ごとに設定する。
In the teacher image generation process (annotation process), the
抽出枚数計測処理では、プロセッサ13が、教師画像の属性、例えば教師画像に含まれる人物の属性(例えば人物の服装の色)ごとに、エリア画像上の各位置における教師画像の抽出枚数を計測する。
In the extraction number measurement process, the
可視化処理では、プロセッサ13が、教師画像の収集状況(アノテーション状況)を可視化する。可視化処理では、ユーザが指定した属性を有する教師画像を対象にして、エリア画像の各位置における教師画像の収集状況を可視化した可視化画像を生成する。具体的には、エリア画像の各位置における教師画像の収集状況を表すヒートマップ画像や、教師画像の収集状況に問題のあるエリア画像上の範囲を表す枠画像(マーク画像)を生成する。
In the visualization process, the
出力処理では、プロセッサ13が、アノテーション作業モードの画面(図12参照)、アノテーション状況確認モードの画面(図13~図15参照)、アノテーション状況確認モードの画面(図16~図19参照)などをディスプレイ4に出力する。
In the output process, the
学習処理では、プロセッサ13が、カメラ2の撮影画像から所定の事象を検知する画像認識モデル(機械学習モデル)を機械学習により構築する。学習処理では、教師画像生成処理で生成した教師画像が用いられる。
In the learning process, the
次に、画像認識モデルが利用される事象検知システムについて説明する。図3は、人数計測システムの場合にエリア画像上に設定される検知領域および検知前領域を示す説明図である。 Next, an event detection system using an image recognition model will be described. FIG. 3 is an explanatory diagram showing a detection area and a pre-detection area set on an area image in the case of the people counting system.
本実施形態では、監視エリアを通行する人物の数を計測する人数計測システムに用いられる画像認識モデル(機械学習モデル)を構築する。具体的には、店舗に来店する人物の数(来店客数)を計測するために、画像認識モデルを用いて、監視エリアとしての店舗の入口をカメラ2により撮影したエリア画像から対象事象として人物の来店を検知する。
In this embodiment, an image recognition model (machine learning model) used in a people counting system that counts the number of people passing through a monitoring area is constructed. Specifically, in order to measure the number of people visiting the store (number of customers visiting the store), an image recognition model is used to identify people as a target event from an area image taken by
この場合、検知対象物が、店舗に来店する人物(来店客)である。また、エリア画像に検知領域と検知前領域とが予め設定される。検知領域は、エリア画像における店舗の入口の位置に設定される。検知前領域は、人物が検知領域に進入する前に通過する領域であり、検知領域に隣接した通路の位置に設定される。 In this case, the object to be detected is a person (customer) visiting the store. Further, a detection area and a pre-detection area are set in advance in the area image. The detection area is set at the location of the store entrance in the area image. The pre-detection area is an area through which a person passes before entering the detection area, and is set at a position in a passage adjacent to the detection area.
画像認識モデルは、人物(検知対象物)が検知前領域から検知領域に移動したことで、人物が店舗に来店したものと判定して、計測結果(来店客数)が1人加算される。このとき、人物の代表点の位置に基づいて、人物が検知前領域を通過したこと、および人物が検知領域に進入したことが判定される。なお、代表点は、人物矩形の中心点または足元の中心点である。 When the person (detection target) moves from the pre-detection area to the detection area, the image recognition model determines that the person has visited the store, and adds one person to the measurement result (number of customers visiting the store). At this time, based on the position of the representative point of the person, it is determined that the person has passed through the pre-detection area and that the person has entered the detection area. Note that the representative point is the center point of the person's rectangle or the center point of the feet.
検知領域および検知前領域は、エリア画像上に多角形で設定される。エリア画像上に設定された検知領域および検知前領域の位置に関する情報として、多角形の頂点の座標が登録される。 The detection area and the pre-detection area are set as polygons on the area image. The coordinates of the vertices of the polygon are registered as information regarding the positions of the detection area and the pre-detection area set on the area image.
本実施形態では、監視エリアを通行する人物の数を計測する人数計測システムに用いられる画像認識モデルについて説明するが、種々の事象を検知する事象検知システムに用いられる画像認識モデルであってもよい。 In this embodiment, an image recognition model used in a people counting system that measures the number of people passing through a surveillance area will be described, but the image recognition model may also be used in an event detection system that detects various events. .
例えば、人物(検知対象物)が侵入禁止エリアに侵入したことを検知する侵入検知システムに用いられる画像認識モデルであってもよい。この場合、侵入禁止エリアを含む監視エリアをカメラ2により撮影したエリア画像において、侵入禁止エリアの位置に検知領域が設定され、人物が検知前領域から検知領域に移動したことで、人物が侵入禁止エリアに侵入したものと判定される。
For example, it may be an image recognition model used in an intrusion detection system that detects that a person (detection target) has entered a prohibited area. In this case, in the area image taken by
また、人物が荷物を置き去りにしたことを検知する置き去り検知システムに用いられる画像認識モデルであってもよい。この場合、例えば非常用進入口(消防隊進入口)のような置き去り禁止エリアを含む監視エリアをカメラ2により撮影したエリア画像において、置き去り禁止エリアの位置に検知領域が設定され、荷物を所持した人物が検知前領域から検知領域に移動し、かつ、荷物を検知領域に放置したまま人物が検知領域から退出したことで、人物が荷物を置き去りにしたものと判定される。
Alternatively, it may be an image recognition model used in an abandonment detection system that detects whether a person has left luggage behind. In this case, for example, in an area image taken by
また、人物が特定の場所に長時間滞在したことを検知する滞在検知システムに用いられる画像認識モデルであってもよい。この場合、例えば、小売店における顧客のレジ待ちに関するものであれば、レジ待ちエリアを含む監視エリアをカメラ2により撮影したエリア画像において、レジ待ちエリアの位置に検知領域が設定され、人物が検知前領域から検知領域に移動した後に、人物が検知領域に所定時間以上滞留したことで、人物がレジ待ちエリアに長時間滞在したものと判定される。
Alternatively, the image recognition model may be used in a stay detection system that detects that a person has stayed in a specific place for a long time. In this case, for example, if the subject is related to a customer waiting at the checkout at a retail store, a detection area is set at the position of the checkout waiting area in the area image taken by
次に、画像処理装置1で行われる教師画像生成処理の概要について説明する。図4は、教師画像生成処理の概要を示す説明図である。
Next, an overview of the teacher image generation process performed by the
画像処理装置1では、画像認識モデル(機械学習モデル)を構築するための機械学習に用いられる教師画像(学習用画像)を生成する処理が行われる(教師画像生成処理)。
The
ここで、図4(A)に示すように、対象となる監視エリアをカメラ2により撮影した実写エリア画像(現実エリア画像)に人物(検知対象物)が含まれる場合、実写エリア画像内の人物を含む領域を切り出すことで教師画像が生成される。
Here, as shown in FIG. 4(A), if a person (detection target object) is included in the live-action area image (real-area image) captured by the
また、図4(B)に示すように、エリア画像(実写エリア画像またはCGエリア画像)に人物画像(実写人物画像またはCG人物画像)を重畳して人物を含む合成エリア画像が作成され、その合成エリア画像から人物を含む領域を切り出すことで教師画像が生成される。ここで、実写エリア画像(現実エリア画像)は、監視エリアをカメラ2により撮影した画像である。CGエリア画像(仮想エリア画像)は、実写エリア画像をCG(Computer Graphics)により模擬した画像である。実写人物画像(現実人物画像)は、カメラ2などで撮影された画像から人物の領域を切り出すことで生成された画像である。CG人物画像(仮想人物画像)は、CGで作成された画像である。
Furthermore, as shown in FIG. 4(B), a composite area image including a person is created by superimposing a person image (a live-action person image or a CG person image) on an area image (a live-action area image or a CG area image). A teacher image is generated by cutting out a region including a person from the composite area image. Here, the real area image (actual area image) is an image captured by the
また、教師画像は、エリア画像から1フレームごとに作成される。したがって、図4(A)に示すように、人物を含む実写エリア画像から教師画像が生成される場合には、監視エリア内を人物が歩行するのに応じて、実写エリア画像上で1フレームごとに人物が移動することから、人物の移動に対応して教師画像の切り出し位置を徐々に変化させればよい。また、図4(B)に示すように、エリア画像に人物画像を重畳した合成エリア画像から教師画像が生成される場合には、監視エリア内を人物が歩行する状態を再現するように、エリア画像上で人物画像を移動させながら、エリア画像から1フレームごとに教師画像を切り出してもよい。 Further, the teacher image is created for each frame from the area image. Therefore, as shown in FIG. 4(A), when a teacher image is generated from a live-action area image including a person, each frame on the live-action area image is Since the person moves, the cutting position of the teacher image may be gradually changed in accordance with the movement of the person. Furthermore, as shown in FIG. 4(B), when a teacher image is generated from a composite area image in which a person image is superimposed on an area image, the area is The teacher image may be cut out frame by frame from the area image while moving the person image on the image.
また、エリア画像(実写エリア画像、CGエリア画像)に人物画像(実写人物画像、CG人物画像)が重畳された合成エリア画像から教師画像が生成される場合には、エリア画像における人物が出現する可能性がある位置に人物画像が重畳される。 Furthermore, when a teacher image is generated from a composite area image in which a person image (a live-action person image, a CG person image) is superimposed on an area image (a live-action area image, a CG area image), the person in the area image appears. A person image is superimposed on a possible position.
なお、対象となる監視エリアが同じでも、別々のカメラ2で異なる方向から撮影された場合、人物(検知対象物)の向きが異なるため、教師画像が別に用意され、別の画像認識モデル(機械学習モデル)が構築される。
Note that even if the target monitoring area is the same, if images are taken from different directions with
次に、エリア画像に関する情報について説明する。図5は、データベースに登録されるエリア画像に関する情報を示す説明図である。 Next, information regarding area images will be explained. FIG. 5 is an explanatory diagram showing information regarding area images registered in the database.
エリア画像(実写背景画像、CG背景画像)は、監視エリアを表す画像である。エリア画像には、監視エリアに存在する柱、壁、シャッターなどの構造物が含まれる。また、エリア画像には、監視エリアに滞在する人物が含まれる。 The area image (actual background image, CG background image) is an image representing a monitoring area. The area image includes structures such as pillars, walls, and shutters that exist in the monitoring area. Furthermore, the area image includes people staying in the monitoring area.
画像処理装置1は、エリア画像に関する情報をデータベースに登録して管理する。データベースに登録されるエリア画像に関する情報には、構造物情報と、人物情報とが含まれる。構造物情報は、エリア画像に含まれる構造物に関する情報である。人物情報は、エリア画像に背景として含まれる人物に関する情報である。
The
構造物情報には、構造物の種別に関する情報と、構造物の属性に関する情報とが含まれる。構造物の種別に関する情報は、固定構造物および移動構造物のいずれかであるかを示す情報である。例えば、柱や壁は固定構造物であり、店舗の入口などに設置されたシャッターは移動構造物である。構造物の属性に関する情報は、例えば、移動構造物としてのシャッターの開閉時刻などである。 The structure information includes information regarding the type of structure and information regarding the attributes of the structure. Information regarding the type of structure is information indicating whether the structure is a fixed structure or a mobile structure. For example, pillars and walls are fixed structures, and shutters installed at store entrances are movable structures. The information regarding the attributes of the structure is, for example, the opening/closing time of a shutter as a moving structure.
人物情報には、人物の服装の色種別に関する情報(上半身の服装の色、下半身の服装の色)と、人物の持ち物の有無に関する情報とが含まれる。なお、持ち物とは、荷物の他に、ベビーカーや台車などのように人物が動かす物体も含まれる。 The person information includes information regarding the color type of the person's clothing (the color of the upper body clothing, the color of the lower body clothing), and information regarding the presence or absence of the person's belongings. Note that belongings include not only luggage but also objects that the person moves, such as strollers and trolleys.
次に、画像処理装置1で設定される人物矩形について説明する。図6は、人物矩形を示す説明図である。なお、人物画像(実写人物画像、CG人物画像)が重畳された合成エリア画像から教師画像が切り出される場合には、人物領域は人物画像に相当する。
Next, a person rectangle set by the
図6(A)に示すように、本実施形態では、検知対象物としての人物を取り囲む人物矩形が設定され、人物矩形に関する情報として、人物矩形の高さHおよび幅Wがデータベースに登録される。図6(B)に示す例は、検知対象物としての人物がベビーカーを動かしている場合である。この場合も、人物のみを取り囲むように人物矩形が設定される。 As shown in FIG. 6A, in this embodiment, a person rectangle surrounding a person as a detection target is set, and the height H and width W of the person rectangle are registered in the database as information regarding the person rectangle. . The example shown in FIG. 6(B) is a case where a person as a detection target is moving a stroller. In this case as well, the person rectangle is set so as to surround only the person.
また、図6(C)に示すように、CG人物画像の場合には、人物の輪郭に関する情報として、輪郭を構成する点(輪郭点)の座標がデータベースに登録される。 Further, as shown in FIG. 6C, in the case of a CG person image, the coordinates of points (contour points) forming the contour are registered in the database as information regarding the contour of the person.
また、図6(D),(E)に示すように、人物の位置に関する情報として、基準点(人物矩形の左上の点)の座標と、中心点(人物矩形の中心点)の座標と、足元の中心点(人物矩形の中心点を通る垂線と人物矩形の底辺との交点)の座標とがデータベースに登録される。 In addition, as shown in FIGS. 6(D) and (E), information regarding the position of the person includes the coordinates of the reference point (the upper left point of the person's rectangle), the coordinates of the center point (the center point of the person's rectangle), The coordinates of the center point of the feet (the intersection of the perpendicular line passing through the center point of the person's rectangle and the base of the person's rectangle) are registered in the database.
次に、画像処理装置1で生成される教師画像について説明する。図7は、教師画像を示す説明図である。
Next, the teacher image generated by the
教師画像は、人物を含むエリア画像から人物を含む領域を切り出すことで生成される。教師画像には、検知対象物としての人物を表す人物領域と、その人物の背景となる背景領域とが含まれる。背景領域には柱や床などの建築構造物が含まれる。 The teacher image is generated by cutting out a region including a person from an area image including the person. The teacher image includes a person area representing a person as a detection target and a background area serving as the background of the person. The background area includes architectural structures such as columns and floors.
図7(A-1),(A-2)に示すように、教師画像は、検知対象物としての人物を取り囲む人物矩形を基準にしてエリア画像から切り出される。すなわち、教師画像は、人物矩形の周囲に所定の幅で拡大された矩形の範囲をエリア画像から切り出すことで作成される。具体的には、教師画像は、所定の横方向の拡大幅αで人物矩形の領域が左右に拡大されると共に、所定の縦方向の拡大幅βで人物矩形の領域が上下に拡大された大きさを有する。教師画像には、人物矩形に含まれる人物領域と、人物矩形に含まれる背景領域と、人物矩形の周囲の背景領域とで構成される。なお、拡大幅α,βは、例えば0~10ピクセルの範囲で適宜に設定されてもよい。 As shown in FIGS. 7(A-1) and (A-2), the teacher image is cut out from the area image based on the person rectangle surrounding the person as the detection target. That is, the teacher image is created by cutting out from the area image a rectangular range that is expanded by a predetermined width around the person rectangle. Specifically, in the teacher image, the area of the person rectangle is enlarged horizontally by a predetermined horizontal enlargement width α, and the area of the person rectangle is enlarged vertically by a predetermined vertical enlargement width β. It has a certain quality. The teacher image includes a person area included in the person rectangle, a background area included in the person rectangle, and a background area around the person rectangle. Note that the enlargement widths α and β may be appropriately set, for example, in the range of 0 to 10 pixels.
図7(B-1),(B-2)に示す例は、検知対象物としての人物がベビーカーを動かしている場合である。この場合も、人物のみを取り囲む人物矩形の周囲に所定の幅で拡大された矩形の範囲をエリア画像から切り出すことで教師画像が作成される。 The example shown in FIGS. 7(B-1) and (B-2) is a case where a person as a detection target is moving a stroller. In this case as well, a teacher image is created by cutting out from the area image a rectangular range that is expanded by a predetermined width around a person rectangle that surrounds only the person.
また、実運用時の監視エリアでは、カメラ2から見て複数の人物が前後に重なり合う状況(人物の重なり)が発生する場合がある。このような状況でも画像認識モデル(機械学習モデル)の性能を確保するため、人物の重なりが発生している状態の教師画像を用いて、画像認識モデル(機械学習モデル)を構築するための機械学習が行われる。 Furthermore, in the monitoring area during actual operation, a situation may occur in which a plurality of people overlap one another when viewed from the camera 2 (overlapping people). In order to ensure the performance of image recognition models (machine learning models) even in such situations, we have developed a machine that builds image recognition models (machine learning models) using teacher images with overlapping people. Learning takes place.
また、人物の重なりが発生する場合、図7(C-1),(C-2)に示すように、検知対象となる人物の後側に他の人物が現れる状態と、図7(D-1),(D-2)に示すように、検知対象となる人物の前側に他の人物が現れる状態とがある。この場合、検知対象となる人物の後側に他の人物が現れた状態で教師画像が抽出されると、教師画像には背景としての人物領域が含まれる。また、検知対象となる人物の前側に他の人物が現れた状態で教師画像が抽出されると、教師画像には前景としての人物領域が含まれる。 In addition, when overlapping people occur, as shown in Figures 7 (C-1) and (C-2), another person appears behind the person to be detected, and in Figure 7 (D- As shown in 1) and (D-2), there is a state in which another person appears in front of the person to be detected. In this case, if a teacher image is extracted with another person appearing behind the person to be detected, the teacher image includes a person area as a background. Further, when a teacher image is extracted with another person appearing in front of the person to be detected, the teacher image includes a person area as the foreground.
なお、人物の重なりが発生している状態の教師画像は、人物の重なりが発生している実写エリア画像から教師画像が抽出されることで生成される。また、人物を含むエリア画像に、そのエリア画像に含まれる人物に重なるように人物画像(実写人物画像、CG人物画像)が重畳された合成エリア画像を生成することでも、人物の重なりが発生している状態の教師画像が生成される。また、複数の人物画像(実写人物画像、CG人物画像)が重なるようにエリア画像に重畳された合成エリア画像を生成することでも、人物の重なりが発生している状態の教師画像が生成される。 Note that the teacher image in which persons overlap is generated by extracting the teacher image from a live-action area image in which persons overlap. Additionally, by generating a composite area image in which a person image (real-life person image, CG person image) is superimposed on an area image that includes a person so as to overlap the person included in the area image, overlapping of people can also be prevented. A teacher image is generated in a state where the Furthermore, by generating a composite area image in which multiple person images (real-life person images, CG person images) are superimposed on an area image, a teacher image with overlapping people can be generated. .
また、教師画像がエリア画像から生成されると、エリア画像上における教師画像の位置に関する情報(座標)と、教師画像のサイズに関する情報(高さ、幅)とがデータベースに登録される。 Further, when a teacher image is generated from an area image, information regarding the position of the teacher image on the area image (coordinates) and information regarding the size of the teacher image (height, width) are registered in the database.
次に、画像処理装置1で管理される教師画像に関する情報について説明する。図8は、データベースに登録される教師画像に関する情報を示す説明図である。
Next, information regarding teacher images managed by the
画像処理装置1は、教師画像に関する情報をデータベースに登録して管理する。データベースに登録される教師画像に関する情報には、画像番号(画像識別情報)と、属性情報と、画像情報とが含まれる。
The
属性情報には、教師画像に含まれる人物の服装に関する情報(上半身の服装の色、下半身の服装の色)と、人物の持ち物の有無に関する情報と、隠蔽に関する情報とが含まれる。この他に、人物の性別、身長、体形などが属性情報に含まれてもよい。なお、持ち物とは、荷物の他に、ベビーカーや台車などのように人物が動かす物体も含まれる。 The attribute information includes information regarding the clothing of the person included in the teacher image (color of upper body clothing, color of lower body clothing), information regarding presence/absence of belongings of the person, and information regarding concealment. In addition to this, the attribute information may include the person's gender, height, body shape, and the like. Note that belongings include not only luggage but also objects that the person moves, such as strollers and trolleys.
隠蔽に関する情報には、人物の重なりに関する情報と、人物以外の物体による隠蔽に関する情報とが含まれる。人物の重なりに関する情報は、検知対象物としての人物の背景に他の人物が存在する状態や、検知対象物としての人物の前景に他の人物が存在する状態が発生しているか否かを表す。人物以外の物体による隠蔽に関する情報は、検知対象物としての人物が、人物以外の物体により部分的に隠蔽された状態が発生しているか否かを表す。 Information regarding concealment includes information regarding overlapping of persons and information regarding concealment by objects other than persons. Information regarding the overlap of people indicates whether or not another person exists in the background of the person serving as the detection target, or another person exists in the foreground of the person serving as the detection target. . The information regarding concealment by an object other than a person indicates whether or not a state in which a person as a detection target is partially hidden by an object other than a person has occurred.
画像情報には、教師画像に含まれる人物を取り囲む人物矩形に関する情報(高さH、幅W)と、CG人物画像の場合における人物の輪郭に関する情報(輪郭を構成する点の座標)と、人物領域の位置に関する情報とが含まれる。 The image information includes information about the person rectangle surrounding the person included in the teacher image (height H, width W), information about the contour of the person in the case of a CG person image (coordinates of points making up the contour), and the person Information regarding the location of the area is included.
人物領域の位置に関する情報には、基準点(人物矩形の左上の点)の座標と、中心点(人物矩形の中心点)の座標と、足元の中心点(人物矩形の中心点を通る垂線と人物矩形の底辺との交点)の座標とが含まれる。なお、足元の中心点は、検知領域および検知前領域に人物が進入したか否かの判定に用いられる。また、各点の座標はエリア画像上での座標である。 Information regarding the position of the person area includes the coordinates of the reference point (the upper left point of the person rectangle), the coordinates of the center point (center point of the person rectangle), and the center point of the feet (perpendicular line passing through the center point of the person rectangle). The coordinates of the intersection point with the base of the person rectangle are included. Note that the center point of the feet is used to determine whether a person has entered the detection area and the pre-detection area. Further, the coordinates of each point are coordinates on the area image.
次に、アノテーション状況の不備を改善する手順について説明する。図9は、エリア画像上における教師画像の抽出位置に関するアノテーション状況の不備を示す説明図である。 Next, we will explain the procedure for improving deficiencies in the annotation status. FIG. 9 is an explanatory diagram showing deficiencies in the annotation status regarding the extraction position of the teacher image on the area image.
本実施形態では、人物を含むエリア画像から人物を含む領域を切り出すことで教師画像が生成される。一方、教師画像には人物領域と背景領域とが含まれ、教師画像内の人物領域と背景領域との特徴の差異に応じて、画像認識モデル(機械学習モデル)における人物の認識精度が変化する。すなわち、同様の特徴の人物でも、教師画像が抽出されたエリア画像上の位置が異なると、人物の認識精度が変化する。また、教師画像が抽出されたエリア画像上の位置が同じでも、人物の特徴、例えば人物の服装の色が異なると、人物の認識精度が変化する。このため、人物の特徴(例えば人物の服装の色)ごとに、エリア画像から教師画像が切り出された位置に偏りがあると、安定した精度の画像認識モデル(機械学習モデル)が構築できない。 In this embodiment, a teacher image is generated by cutting out a region including a person from an area image including the person. On the other hand, the teacher image includes a person area and a background area, and the person recognition accuracy in the image recognition model (machine learning model) changes depending on the difference in characteristics between the person area and the background area in the teacher image. . That is, even if people have similar characteristics, if the position on the area image from which the teacher image is extracted differs, the recognition accuracy of the person will change. Further, even if the position on the area image from which the teacher image is extracted is the same, if the characteristics of the person, for example, the color of the person's clothing, are different, the recognition accuracy of the person will change. Therefore, if there is a bias in the position where the teacher image is extracted from the area image for each person's characteristics (for example, the color of the person's clothing), it is not possible to construct an image recognition model (machine learning model) with stable accuracy.
そこで、本実施形態では、画像処理装置1において、教師画像に含まれる人物の属性ごとに、エリア画像上の各位置における教師画像の抽出枚数が計測される(抽出枚数計測処理)。次に、教師画像に含まれる人物の属性ごとに、エリア画像上の各位置における教師画像の抽出枚数が比較され、エリア画像内の人物が出現する可能性がある領域において、満遍なく教師画像が抽出されているかに関するアノテーション状況を表す情報がユーザに提示される。具体的には、エリア画像における他の位置に比較して教師画像の抽出枚数が顕著に少ない位置が検知されると、その教師画像の抽出枚数が顕著に少ない位置がユーザに提示される。
Therefore, in the present embodiment, the
これに応じて、ユーザは、教師画像の抽出枚数が顕著に少ない位置を対象にして、教師画像を追加するアノテーション作業を行う。これにより、不足する教師画像が補充されて、教師画像に位置的な偏りがあるアノテーション状況の不備が改善され、監視エリア内で検知対象となる人物が出現した位置に応じて、画像認識モデル(機械学習モデル)の認識精度が大きく変化する不具合を避けることができる。 In response to this, the user performs an annotation work to add teacher images to positions where the number of extracted teacher images is significantly small. As a result, missing teacher images are replenished, and deficiencies in the annotation situation where the teacher images are positionally biased are corrected, and the image recognition model ( It is possible to avoid problems in which the recognition accuracy of machine learning models (machine learning models) changes significantly.
図9に示す例では、教師画像に含まれる人物の属性として、人物の服装の色に注目して、エリア画像上の各位置における教師画像の抽出枚数が計測されている。本例では、一例として黄色系、水色系、緑色系、および赤色系の4系統の色に注目している。また、図9では、分析結果として、指定された属性(人物の服装の色が黄色)の教師画像が少ない領域、属性を限定せずに教師画像が少ない領域、全ての属性で教師画像が十分な領域がエリア画像上に示されている。 In the example shown in FIG. 9, the number of extracted teacher images at each position on the area image is measured, focusing on the color of the person's clothing as an attribute of the person included in the teacher image. In this example, attention is focused on four colors: yellow, light blue, green, and red. In addition, in Figure 9, the analysis results show areas where there are few teacher images for the specified attribute (the color of the person's clothing is yellow), areas where there are few teacher images without limiting the attribute, and areas where there are sufficient teacher images for all attributes. area is shown on the area image.
なお、黒色系、白色系などの他の系統の色に注目して教師画像の抽出枚数が計測されてもよく、また、必要に応じて色の系統が変更されてもよい。また、人物の服装の色を暖色系と寒色系と白黒系とに分けて教師画像の抽出枚数が計測されてもよい。 Note that the number of teacher images to be extracted may be measured by focusing on other colors such as black and white, or the color system may be changed as necessary. Furthermore, the number of extracted teacher images may be measured by dividing the color of a person's clothing into warm colors, cool colors, and black and white.
また、本例では、人物の全身の服装の色に注目しており、人物の服装の色が上半身と下半身とで同じ色となっているが、人物の服装の色が上半身と下半身とが異なる場合もあり、この場合、上半身の色と下半身の色との組み合わせに注目して教師画像の抽出枚数が計測されてもよい。 In addition, in this example, we are focusing on the color of the person's entire body, and the color of the person's clothes is the same color for the upper and lower body, but the color of the person's clothes is different for the upper and lower body. In this case, the number of extracted teacher images may be measured by paying attention to the combination of the color of the upper body and the color of the lower body.
次に、画像処理装置1で行われる抽出枚数計測処理について説明する。図10は、抽出枚数計測処理を示す説明図である。
Next, a process for measuring the number of extracted images performed by the
抽出枚数計測処理では、まず、教師画像上の各位置(画素)に領域属性値を割り振り、さらに、教師画像上の各位置(画素)に割り振られた領域属性値を、エリア画像上の対応する位置(画素)に割り振る処理(マッピング処理)が行われる。具体的には、例えば、人物領域に「1」の領域属性値が割り振られ、背景領域に「0」の領域属性値が割り振られる。マッピング処理は、対象とする教師画像の全てに対して行われる。 In the extraction number measurement process, first, an area attribute value is assigned to each position (pixel) on the teacher image, and then the area attribute value allocated to each position (pixel) on the teacher image is applied to the corresponding area image. Processing (mapping processing) of allocating to positions (pixels) is performed. Specifically, for example, a region attribute value of "1" is assigned to the person region, and a region attribute value of "0" is assigned to the background region. The mapping process is performed on all target teacher images.
次に、エリア画像上の各位置(画素)において、領域属性値の各々(例えば1、0)が割り振られた回数をカウントする処理(カウント処理)が行われる。これにより得られたカウント値は、エリア画像上の各位置(画素)における属性ごと教師画像の抽出枚数を表す。 Next, at each position (pixel) on the area image, a process (counting process) is performed to count the number of times each area attribute value (for example, 1, 0) is assigned. The count value thus obtained represents the number of extracted teacher images for each attribute at each position (pixel) on the area image.
ここで、特定の属性の教師画像に注目して、エリア画像上の各位置(画素)における教師画像の抽出枚数を計測することができる。具体的には、注目する属性として人物の服装が注目色(例えば黄色)である教師画像を対象にして、エリア画像上の各位置(画素)において「1」の領域属性値が割り振られた回数をカウントする。このカウント値は、人物の服装の色が注目色(例えば黄色)である教師画像の抽出枚数を表す。また、この処理を人物の服装の各色で同様に行うことで、人物の服装の色ごとに教師画像の抽出枚数を取得することができる。これにより、人物の服装の色ごとに教師画像の抽出枚数が少ないエリア画像上の位置を可視化することができる。 Here, the number of extracted teacher images at each position (pixel) on the area image can be measured by focusing on teacher images with a specific attribute. Specifically, the number of times an area attribute value of "1" is assigned to each position (pixel) on the area image for a teacher image in which the person's clothes are in a color of interest (for example, yellow) as the attribute of interest. count. This count value represents the number of extracted teacher images in which the color of a person's clothing is the color of interest (for example, yellow). Further, by performing this process similarly for each color of the person's clothing, it is possible to obtain the number of extracted teacher images for each color of the person's clothing. This makes it possible to visualize the position on the area image for which the number of teacher images extracted is small for each color of a person's clothing.
また、エリア画像上の各位置(画素)において「0」の領域属性値が割り振られた回数をカウントする。このカウント値は、エリア画像上の各位置(画素)におれる教師画像の抽出枚数を表す。これにより、教師画像の抽出枚数が少ないエリア画像上の位置を可視化することができる。 Furthermore, the number of times an area attribute value of "0" is assigned to each position (pixel) on the area image is counted. This count value represents the number of teacher images extracted at each position (pixel) on the area image. Thereby, it is possible to visualize the position on the area image where the number of extracted teacher images is small.
次に、人物の重なりが発生している場合の抽出枚数計測処理について説明する。図11は、人物の重なりが発生している場合の抽出枚数計測処理を示す説明図である。 Next, a process for measuring the number of extracted images when overlapping people occur will be described. FIG. 11 is an explanatory diagram showing a process for measuring the number of extracted images when overlapping people occur.
人物の重なりが発生している場合、教師画像上の各位置(画素)に領域属性値を割り振るマッピング処理において、背景となる人物領域と前景となる人物領域とに異なる領域属性値を割り振る。具体的には、例えば、図11(A)に示すように、背景となる人物が存在する場合には、背景となる人物領域に「2」の領域属性値を割り振る。図11(B)に示すように、前景となる人物が存在する場合には、前景となる人物領域に「3」の領域属性値を割り振る。なお、人物領域に「1」の領域属性値を割り振り、人物を含まない背景領域に「0」の領域属性値を割り振る点は、図10に示した例と同様である。 When overlapping people occur, different area attribute values are assigned to the background person area and the foreground person area in a mapping process that assigns area attribute values to each position (pixel) on the teacher image. Specifically, for example, as shown in FIG. 11A, if there is a person serving as the background, an area attribute value of "2" is assigned to the person area serving as the background. As shown in FIG. 11B, if there is a person in the foreground, an area attribute value of "3" is assigned to the foreground person area. Note that this is similar to the example shown in FIG. 10 in that a region attribute value of "1" is assigned to a person region, and a region attribute value of "0" is assigned to a background region that does not include a person.
また、領域属性値が割り振られた回数をカウントするカウント処理では、エリア画像上の各位置(画素)において、領域属性値の各々(例えば1、0、2、3)が割り振られた回数をカウントする。 In addition, in the counting process that counts the number of times an area attribute value is allocated, the number of times each area attribute value (for example, 1, 0, 2, 3) is allocated at each position (pixel) on the area image is counted. do.
ここで、注目する属性の教師画像として、人物の重なりを含む教師画像に関して、エリア画像の各位置における教師画像の抽出枚数を計測する。すなわち、エリア画像上の各位置(画素)において「2」または「3」の領域属性値が割り振られた回数をカウントする。このカウント値は、人物の重なりを含む教師画像の抽出枚数を表す。これにより、人物の重なりを含む教師画像の抽出枚数が少ないエリア画像上の位置を可視化することができる。 Here, as a teacher image of the attribute of interest, the number of extracted teacher images at each position of the area image is measured regarding a teacher image including overlapping people. That is, the number of times that an area attribute value of "2" or "3" is assigned to each position (pixel) on the area image is counted. This count value represents the number of extracted teacher images that include overlapping people. This makes it possible to visualize positions on area images where a small number of extracted teacher images including overlapping people are extracted.
このように人物の重なりが発生した場合、特に、検知対象となる人物の前側に他の人物が現れた状態では、検知対象物としての人物が他の人物で部分的に隠蔽された状態になる。一方、検知対象物としての人物の前側に、人物以外の物体が存在する場合がある。この場合、検知対象物としての人物が人物以外の物体で隠蔽された状態になる。このような状況でも画像認識モデル(機械学習モデル)の性能を確保するため、隠蔽が発生している状態の教師画像、すなわち、検知対象としての人物が前景の物体で隠蔽された状態の教師画像を用いて、画像認識モデル(機械学習モデル)を構築するための機械学習が行われるとよい。 When people overlap in this way, especially when another person appears in front of the person to be detected, the person to be detected will be partially hidden by the other person. . On the other hand, an object other than a person may exist in front of the person serving as the detection target. In this case, the person as the detection target is hidden by an object other than the person. In order to ensure the performance of the image recognition model (machine learning model) even in such situations, we use a teacher image in which occlusion occurs, that is, a teacher image in which the person to be detected is hidden by an object in the foreground. It is preferable to perform machine learning to construct an image recognition model (machine learning model) using .
この場合、隠蔽が発生している実写エリア画像や、人物を含むエリア画像に物体画像(実写物体画像、CG物体画像)が重畳された合成エリア画像や、人物画像(実写人物画像、CG人物画像)に物体画像が重畳された合成エリア画像を用いることで、隠蔽が発生している状態の教師画像を取得することができる。 In this case, a live-action area image in which concealment has occurred, a composite area image in which an object image (live-action object image, CG object image) is superimposed on an area image including a person, or a composite area image in which an object image (live-action object image, CG object image) is superimposed on an area image containing a person, or a composite area image in which an object image (live-action object image, CG object image) is superimposed on an area image containing a person, or a person image (live-action person image, CG person image) ), it is possible to obtain a teacher image in which concealment has occurred by using a composite area image in which an object image is superimposed on the object image.
次に、ディスプレイ4に表示される画面について説明する。図12は、アノテーション作業モードの画面を示す説明図である。図13は、アノテーション状況確認モードにおけるリスト選択時の画面を示す説明図である。図14,図15は、アノテーション状況確認モードにおけるグラフ選択時の画面を示す説明図である。図16,図17,図18,図19は、アノテーション状況詳細確認モードの画面を示す説明図である。
Next, the screen displayed on the
図12~図19に示すように、ディスプレイ4に表示される画面21,61,71,81には、アノテーション作業、アノテーション状況確認、およびアノテーション状況詳細確認の各タブ22(操作部)が設けられている。ユーザが、アノテーション作業のタブ22を操作すると、図12に示すアノテーション作業モードの画面が表示される。ユーザが、アノテーション状況確認のタブ22を操作すると、図13~図15に示すアノテーション状況確認モードの画面に遷移する。ユーザが、アノテーション状況詳細確認のタブ22を操作すると、図16~図19に示すアノテーション状況詳細確認モードの画面に遷移する。
As shown in FIGS. 12 to 19, the
図12に示すアノテーション作業モード(教師画像作成モード)の画面21(第1の画面)には、画像入力部31が設けられている。画像入力部31には、CGおよび実写の各タブ32が設けられている。ユーザがCGのタブ32を操作すると、CG画像入力モードになる。ユーザが実写のタブ32を操作すると、実写画像入力モードになる。また、画像入力部31には、人物画像入力部33と、エリア画像入力部34とが設けられている。
An
人物画像入力部33では、ユーザが、入力ボタン35を操作することで、人物画像のリストが表示され、ここで人物画像を選択することで、人物画像を入力することができる。このとき、CG画像入力モードではCG人物画像が入力され、実写画像入力モードでは実写人物画像が入力される。
In the person
エリア画像入力部34では、ユーザが、入力ボタン36を操作することで、エリア画像のリストが表示され、ここでエリア画像を選択することで、エリア画像を入力することができる。このとき、CG画像入力モードではCGエリア画像が入力され、実写画像入力モードでは実写エリア画像が入力される。
In the area
また、アノテーション作業モードの画面に21は、エリア画像表示部41が設けられている。エリア画像表示部41では、入力されたエリア画像(CGエリア画像、実写エリア画像)が表示される。また、エリア画像表示部41では、入力された人物画像(CG人物画像、実写人物画像)がエリア画像上に重畳表示される。また、エリア画像表示部41では、ユーザが、マウスのドラッグ操作などにより、エリア画像上に重畳表示された人物画像の位置および大きさを調整することができる。
Furthermore, an area
また、エリア画像表示部41では、ユーザが、エリア画像上で対象とする人物を指定する、すなわち、エリア画像上で教師画像を切り出す位置を指定することができる。具体的には、ユーザが、マウスのドラッグ操作などにより、エリア画像(CGエリア画像または実写エリア画像)上の人物画像(CG人物画像または実写人物画像)を取り囲む人物枠42を入力することができる。この人物枠42は、教師画像の範囲の候補となる。すなわち、人物枠42の位置に基づいて人物矩形が設定され、その人物矩形に基づいて教師画像が生成される。このとき、エリア画像と人物画像とが合成された合成エリア画像から教師画像が切り出される。
Further, in the area
なお、エリア画像表示部41に表示された実写エリア画像に含まれる人物を対象にして教師画像を作成する場合には、実写エリア画像に含まれる人物を取り囲む人物枠42を入力すればよい。この場合、人物画像入力部33でのユーザの入力操作は不要である。
Note that when creating a teacher image for a person included in the live-action area image displayed on the area-
また、人物検出処理が実施されることで、ユーザによる人物枠42の入力操作が省略されてもよい。すなわち、人物を含む実写エリア画像や、エリア画像と人物画像とが合成された合成エリア画像に対して人物検出処理が行われ、その人物検出処理により取得した人物検出枠に基づいて教師画像が切り出されてもよい。
Further, by performing the person detection process, the input operation of the
また、アノテーション作業モードの画面21には、フレーム操作部45が設けられている。フレーム操作部45には、エリア画像を1フレームだけ前に戻すボタン46と、エリア画像を1フレームだけ後に進めるボタン47とが設けられている。このフレーム操作部45の操作により、エリア画像の1フレームごとに教師画像を作成することができる。
Further, a
また、アノテーション作業モードの画面21には、検知領域入力部51が設けられている。検知領域入力部51では、ユーザが入力ボタン52を操作すると、検知領域入力モードに遷移し、ユーザは、マウスのドラッグ操作などにより、エリア画像表示部41に表示されたエリア画像上に検知領域および検知前領域の範囲を入力することができる。
Further, a detection
また、アノテーション作業モードの画面21には、属性入力部53が設けられている。属性入力部53では、ユーザが、教師画像に含まれる人物に関する属性として、上半身の服装の色と下半身の服装の色とを入力することができる。CG人物画像を選択した場合には、服装の色は既知であるため、ユーザの入力操作は不要である。
Further, an
また、アノテーション作業モードの画面21には、タイトル入力部55が設けられている。タイトル入力部55では、ユーザが、教師画像のタイトル、具体的には、教師画像のグループに付与された名称などを入力することができる。教師画像のタイトル(グループの名称)は、教師画像のアノテーション状況を確認する際の教師画像の集合を識別するものである。
Further, a
また、アノテーション作業モードの画面21には、保存のボタン56が設けられている。ユーザが保存のボタン56を操作すると、各部の入力内容に基づいて、教師画像が生成されて、その教師画像が記憶部12に保存され、また、教師画像に関する属性情報などがデータベースに登録される。
Further, a
図13,図14,図15に示すアノテーション状況確認モードの画面61には、教師画像選択部62が設けられている。教師画像選択部62では、ユーザが、教師画像のグループを分析対象に選択することができる。例えば、ユーザが教師画像選択部62を操作すると、教師画像のグループのリストが表示され、ここで教師画像のグループを選択することができる。本例では、出入口Aを監視エリアとした教師画像のグループが選択されている。
A teacher
また、アノテーション状況確認モードの画面61には、リストのボタン63と、グラフのボタン64とが設けられている。ユーザが、リストのボタン63を操作すると、教師画像選択部62で選択された教師画像のグループを対象にして分析処理が実行され、分析結果として、図13に示すリスト選択時の画面61が表示される。また、ユーザが、グラフのボタン64を操作すると、教師画像選択部62で選択された教師画像のグループを対象にして分析処理が実行され、分析結果として、図14に示すグラフ選択時の画面71が表示される。
Further, the annotation status
図13に示すアノテーション状況確認モードにおけるリスト選択時の画面61では、可視化結果表示部65に一覧表66が表示される。一覧表66には、データベースに登録された各教師画像の属性が一覧表示されている。本例では、出入口Aに関する教師画像の属性が一覧表示される。また、教師画像の属性として、教師画像に含まれる人物の特徴、特に人物の服装の色と、教師画像の背景となるエリア画像の時間帯とが表示されている。
On the
一覧表66は、教師画像のアノテーション状況を文字情報により可視化するものであり、ユーザは、一覧表66を目視することで、特定の属性の教師画像の不足などのアノテーション状況の不備を確認することができる。具体的には、ユーザは、特定の時間帯(例えば8時台)のエリア画像で、特定の色(例えば黄色)の服装をした人物を含む教師画像が、他の属性の教師画像より少ないことを確認することができる。
The
図13に示す例では、一覧表66に、教師画像に関する属性として、人物の服装の色と、エリア画像の時間帯とが表示されているが、この他の属性が表示されてもよい。例えば、人物の重なりの有無、すなわち、教師画像に背景となる人物領域や前景となる人物領域が含まれるか否かが表示されてもよい。また、教師画像の人物領域や背景領域の画質(解像度、ボケの有無など)が表示されてもよい。また、エリア画像の季節(春夏秋冬)が表示されてもよい。
In the example shown in FIG. 13, the
図14,図15に示すアノテーション状況確認モードにおけるグラフ選択時の画面71では、可視化結果表示部65に統計グラフ72が表示される。統計グラフ72は3次元棒グラフである。統計グラフ72では、横方向の第1軸が、教師画像の第1の属性として、教師画像の背景となるエリア画像の時間帯を表し、奥行き方向の第2軸が、教師画像の第2の属性として、教師画像に含まれる人物の特徴、特に人物の服装の色を表し、縦方向の第3軸が、教師画像の枚数を表す。すなわち、教師画像の第1の属性(エリア画像の時間帯)と第2の属性(人物の服装の色)との組み合わせごとに棒グラフが描画され、棒グラフの高さが、第1の属性と第2の属性とを備えた教師画像の枚数を表す。
On the
統計グラフ72は、教師画像のアノテーション状況が棒グラフにより可視化するものであり、ユーザは、統計グラフ72を目視することで、特定の属性の教師画像の不足などのアノテーション状況の不備を確認することができる。具体的には、ユーザは、特定の時間帯(例えば8時台)のエリア画像で、特定の色(例えば黄色)の服装をした人物を含む教師画像が、他の属性の教師画像より少ないことを確認することができる。
The
ここで、図14に示す画面71では、人物の服装が水色、緑色、および赤色である教師画像と比較して、人物の服装が黄色である教師画像が少なく、この属性の教師画像を追加する必要がある。一方、図15に示す画面71では、教師画像に含まれる人物の服装の色に関して黄色、水色、緑色、および赤色の全てで教師画像の枚数が均一になっており、教師画像のアノテーション状況が改善されている。
Here, in the
なお、統計グラフ72において横方向の第1軸により表される教師画像の第1の属性と、奥行き方向の第2軸により表される教師画像の第2の属性とを選択する操作部を画面に設けて、統計グラフ72において各軸により表される教師画像の属性を、画面上でユーザが指定できるようにしてもよい。
Note that an operation section for selecting the first attribute of the teacher image represented by the first axis in the horizontal direction and the second attribute of the teacher image represented by the second axis in the depth direction in the
図16~図19に示すアノテーション状況詳細確認モードの画面81(第2の画面)には、教師画像選択部82が設けられている。教師画像選択部82では、ユーザが、教師画像のグループを分析対象に選択することができる。例えば、ユーザが教師画像選択部82を操作すると、教師画像のグループのリストが表示され、ここで教師画像のグループを選択することができる。本例では、監視エリアが出入口Aで時間帯が8時となる教師画像のグループが選択されている。
A teacher
また、アノテーション状況詳細確認モードの画面81には、分析のボタン83と、可視化結果表示部84とが設けられている。ユーザが、分析のボタン83を操作すると、教師画像選択部82で選択された教師画像のグループを対象にして分析処理が実行され、分析結果として、可視化結果表示部84に、ヒートマップ画像85が表示される。ヒートマップ画像85は、透過状態でエリア画像上に重畳された状態で表示される。
Further, the
ヒートマップ画像85では、エリア画像上の各位置における教師画像のアノテーション状況が可視化されている。具体的には、ヒートマップ画像85は、メッシュ状に複数のセルに区切られており、各セルでは、セル内に代表点が位置する教師画像の枚数が階調の変化で表現されている。
In the
なお、セル内に代表点が位置する教師画像の枚数が色相の変化で表現されてもよい。この場合、教師画像の枚数が多くなるのに応じて、セルの色が、例えば青色、黄色、橙色、赤色の順で変化してもよい。また、セル内に代表点が位置する教師画像の枚数が模様(パターン画像)などの変化で表現されてもよい。 Note that the number of teacher images whose representative points are located within a cell may be expressed by a change in hue. In this case, as the number of teacher images increases, the color of the cell may change, for example, in the order of blue, yellow, orange, and red. Further, the number of teacher images whose representative points are located within a cell may be expressed by a change in a pattern (pattern image) or the like.
また、アノテーション状況詳細確認モードの画面81には、属性選択部87が設けられている。属性選択部87では、ユーザが、教師画像の属性、特に教師画像に含まれる人物の属性として、人物の服装の色を選択することができる。具体的には、属性選択部87には、「全て」、「黄色」、「水色」、「緑色」、「赤色」のボタン88が設けられている。ユーザが、ボタン88を操作することで、人物の服装の色を選択することができる。また、属性選択部87では、ユーザが、人物の服装の色を複数選択することができる。
Further, the
属性選択部87により、教師画像の属性、特に教師画像に含まれる人物の属性として、人物の服装の色が選択されると、ヒートマップ画像85では、各セルにおいて、セル内に代表点が位置し、かつ、指定された属性に該当する教師画像の枚数が階調の変化で表現される。
When the
なお、本例では、教師画像の属性として、教師画像に含まれる人物の特徴に関する属性、特に服装の色に注目してアノテーション状況を可視化したヒートマップ画像85が表示されるが、教師画像の他の属性に注目したヒートマップ画像85であってもよい。例えば、人物の重なりの有無、すなわち、背景となる人物領域や前景となる人物領域が教師画像に含まれるか否かがヒートマップ画像85で表現されてもよい。また、教師画像の人物領域や背景領域の画質(例えば、解像度、ボケの有無など)がヒートマップ画像85で表現されてもよい。
In this example, as attributes of the teacher image, a
ここで、まず、図16に示すように、ユーザは、教師画像の属性を限定せずに教師画像のアノテーション状況を確認する。具体的には、ユーザは、属性選択部87において、全ての色(黄色、水色、緑色、赤色)を選択するボタン88を操作して、教師画像に含まれる人物の服装の色を限定せずに教師画像のアノテーション状況を確認する。
Here, first, as shown in FIG. 16, the user checks the annotation status of the teacher image without limiting the attributes of the teacher image. Specifically, the user operates a
本例では、ヒートマップ画像85において、エリア画像内の左側のセルでは、指定された属性の教師画像の枚数が少なく、エリア画像内の中央のセルでは、指定された属性の教師画像の枚数が多く、エリア画像内の右側のセルでは、指定された属性の教師画像が全くない状態になっている。
In this example, in the
次に、図17に示すように、ユーザは、特定の属性の教師画像に限定してアノテーション状況を確認する。本例では、ユーザは、属性選択部87において黄色を選択するボタン88を操作して、人物の服装が黄色となる属性の教師画像に関するアノテーション状況を確認する。
Next, as shown in FIG. 17, the user checks the annotation status only for teacher images with specific attributes. In this example, the user operates the
本例では、図16に示した状態と同様に、ヒートマップ画像85において、エリア画像内の左側のセルでは、指定された属性の教師画像の枚数が少なく、エリア画像内の中央のセルでは、指定された属性の教師画像の枚数が多く、エリア画像内の右側のセルでは、指定された属性の教師画像が全くない状態になっている。
In this example, similar to the state shown in FIG. 16, in the
そこで、ユーザは、アノテーション作業のタブ22(操作部)を操作して、図12に示すアノテーション作業モードの画面21に戻り、不足する教師画像を追加するアノテーション作業を行う。本例では、エリア画像内の左側および右側の領域に代表点が位置し、かつ、人物の服装が黄色となる教師画像を追加する。すなわち、エリア画像内の左側および右側の領域を背景として、服装の色が黄色となる人物を含む教師画像を追加する。これにより、エリア画像内の左側および右側の領域に代表点が位置し、かつ、人物の服装の色が黄色となる属性の教師画像の不足が改善される。
Therefore, the user operates the annotation work tab 22 (operation unit) to return to the annotation
次に、図18に示すように、ユーザは、教師画像選択部82において、教師画像の追加が行われた教師画像のグループ(出入口A_8:00_教師画像_追加1)を分析対象に選択して、アノテーション状況を確認する。また、ユーザは、属性選択部87において、黄色を除く色(水色、緑色、赤色)を選択するボタン88を操作して、黄色を除く色(水色、緑色、赤色)に該当する属性の教師画像に関するアノテーション状況を確認する。
Next, as shown in FIG. 18, the user selects the group of teacher images to which the teacher image has been added (entrance/exit A_8:00_teacher image_addition 1) in the teacher
本例では、ヒートマップ画像85において、エリア画像内の左側および中央のセルでは、指定された属性の教師画像、すなわち、服装が水色、緑色、赤色のいずれかである人物を含む教師画像の枚数が多いものの、エリア画像内の右側のセルでは、指定された属性の教師画像が全くない状態になっている。
In this example, in the
そこで、ユーザは、アノテーション作業のタブ22を操作して、図12に示すアノテーション作業モードの画面21に戻り、不足する教師画像を追加するアノテーション作業を行う。本例では、エリア画像内の右側の領域に代表点が位置し、かつ、人物の服装の色が水色、緑色、赤色のいずれかとなる教師画像を追加する。すなわち、エリア画像内の右側の領域を背景として、服装の色が水色、緑色、赤色のいずれかとなる人物を含む教師画像を追加する。これにより、エリア画像内の右側の領域に代表点が位置し、かつ、人物の服装の色が水色、緑色、赤色のいずれかとなる教師画像の不足が改善される。
Therefore, the user operates the
次に、図19に示すように、ユーザは、教師画像選択部82において、教師画像の再度の追加が行われた教師画像のグループ(出入口A_8:00_教師画像_追加2)を分析対象に選択して、アノテーション状況を確認する。また、ユーザは、属性選択部87において、全ての色(黄色、水色、緑色、赤色)を選択するボタン88を操作して、全ての色(黄色、水色、緑色、赤色)に該当する属性の教師画像に関するアノテーション状況を確認する。
Next, as shown in FIG. 19, in the teacher
本例では、ヒートマップ画像85において、人物が存在することが可能な範囲で、全てのセルにおいて教師画像の枚数が均一な状態となっており、ユーザは、アノテーション状況が改善されたことを確認することができる。
In this example, in the
また、アノテーション状況詳細確認モードの画面81では、ユーザが、マウスのドラッグ操作などにより、ヒートマップ画像85上で計測対象エリア91を指定すると、一覧表92(度数分布表)が表示される。一覧表92は、指定された計測対象エリア91に代表点が位置する教師画像を対象にして、教師画像の属性としての人物の服装の色に関する分布状況を表す。具体的には、人物の服装の色(黄色、水色、緑色、赤色)ごとに教師画像の枚数が表示される。ユーザは、人物の服装の色(黄色、水色、緑色、赤色)ごとの教師画像の枚数により、アノテーション状況の詳細を確認することができる。本例では、全色の教師画像の枚数が均等であり、ユーザは、必要な属性の教師画像が偏りなく揃っていることを確認することができる。
Further, on the
また、アノテーション状況詳細確認モードの画面81には、学習のボタン88が設けられている。ユーザは、必要な属性の教師画像が偏りなく揃っていることを確認すると、学習のボタン88を操作する。これにより、生成された教師画像に基づいて学習処理が実行され、画像認識モデル(機械学習モデル)が作成される。
Further, a
次に、アノテーション状況詳細確認モードの画面の別例について説明する。図20は、アノテーション状況詳細確認モードの画面の別例を示す説明図である。 Next, another example of the screen in the annotation status detailed confirmation mode will be described. FIG. 20 is an explanatory diagram showing another example of the screen in the annotation status detailed confirmation mode.
図16~図19に示した画面81では、可視化結果表示部84に、教師画像の抽出枚数が階調の変化で表現されたヒートマップ画像85(可視化画像)がエリア画像上に重畳表示される。一方、図20に示す画面101では、可視化結果表示部84に、教師画像の収集状況に問題のあるエリア画像上の範囲を表す枠画像102(マーク画像)がエリア画像上に重畳表示される。
In the
本例では、指定された属性(例えば、人物の服装が黄色)に該当する教師画像の抽出枚数が少ないエリア画像上の範囲を取り囲むように枠画像102がエリア画像上に重畳表示される。また、属性を限定せずに教師画像の抽出枚数が少ないエリア画像上の範囲を取り囲むように枠画像102がエリア画像上に重畳表示される。
In this example, a
なお、教師画像の収集状況に問題のないエリア画像上の範囲が枠画像102で表示されてもよい。例えば、特定の属性を有する教師画像の抽出枚数が多いエリア画像上の範囲を取り囲むように枠画像102が描画されてもよい。また、教師画像の抽出枚数に応じて枠画像102が異なる色で描画されてもよい。
Note that a range on the area image where there is no problem in the collection status of teacher images may be displayed as the
また、本例では、教師画像の属性として人物の服装の色が指定されて、人物の服装が特定の色となる教師画像の抽出枚数が少ない領域が枠画像102で表示されたが、人物の服装の色以外の属性が指定されてもよい。例えば、教師画像の属性として人物の重なりが指定されて、人物の重なりが発生している教師画像の抽出枚数が少ない領域が枠画像102で表示されてもよい。
Further, in this example, the color of the person's clothing is specified as an attribute of the teacher image, and an area where the number of extracted teacher images in which the person's clothes are a specific color is displayed as the
また、本例では、教師画像の収集状況に問題のあるエリア画像上の範囲を表す枠画像102(マーク画像)がエリア画像上に重畳表示されるが、マーク画像は枠画像102に限定されない。例えばマーク画像として、模様が描画された半透過の画像が、教師画像の収集状況に問題のあるエリア画像上の範囲に重畳表示されてもよい。また、枠画像102(マーク画像)に加え、教師画像の追加に関するコメント(図示せず)を提示するようにしてもよい。
Further, in this example, a frame image 102 (mark image) representing a range on the area image where there is a problem in the collection status of teacher images is displayed superimposed on the area image, but the mark image is not limited to the
以上のように、本出願において開示する技術の例示として、実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略などを行った実施形態にも適用できる。また、上記の実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。 As described above, the embodiments have been described as examples of the technology disclosed in this application. However, the technology in the present disclosure is not limited to this, and can also be applied to embodiments in which changes, replacements, additions, omissions, etc. are made. Furthermore, it is also possible to create a new embodiment by combining the components described in the above embodiments.
本発明に係る画像処理装置および画像処理方法は、学習に先だって、教師画像の収集状況をユーザが目視で容易に確認でき、効率よく高精度な学習モデルを作成することができる効果を有し、監視エリアに対応した画像認識モデルを構築するための教師画像の収集状況を可視化する画像処理装置および画像処理方法などとして有用である。 The image processing device and image processing method according to the present invention have the effect that a user can easily visually check the collection status of teacher images prior to learning, and can efficiently create a highly accurate learning model. The present invention is useful as an image processing device and an image processing method for visualizing the collection status of teacher images for constructing an image recognition model corresponding to a monitoring area.
1 画像処理装置
13 プロセッサ
21 アノテーション作業モードの画面
22 タブ
61 アノテーション状況確認モードの画面
66 一覧表
71 アノテーション状況確認モードの画面
72 統計グラフ
81 アノテーション状況詳細確認モードの画面
85 ヒートマップ画像
101 アノテーション状況詳細確認モードの画面
102 枠画像(マーク画像)
1
Claims (8)
前記プロセッサは、
前記監視エリアに関するエリア画像から、検知対象物と背景とを含む教師画像を生成し、
前記教師画像に含まれる前記検知対象物の特徴に関する属性を前記教師画像ごとに設定し、
ユーザが指定した前記属性を有する前記教師画像を対象にして、前記エリア画像の各位置における前記教師画像の収集状況を可視化した可視化画像を生成し、
前記可視化画像を前記エリア画像に重畳した表示情報を出力することを特徴とする画像処理装置。 An image processing device that uses a processor to perform a process of visualizing the collection status of teacher images for constructing an image recognition model corresponding to a monitoring area, the image processing device comprising:
The processor includes:
Generating a teacher image including a detection target object and a background from an area image related to the monitoring area,
setting attributes related to the characteristics of the detection target included in the teacher image for each teacher image;
generating a visualized image that visualizes the collection status of the teacher image at each position of the area image, targeting the teacher image having the attribute specified by the user;
An image processing device that outputs display information in which the visualized image is superimposed on the area image.
前記可視化画像として、前記エリア画像の各位置における前記教師画像の収集状況を表すヒートマップ画像を生成することを特徴とする請求項1に記載の画像処理装置。 The processor includes:
2. The image processing apparatus according to claim 1, wherein a heat map image representing a collection status of the teacher image at each position of the area image is generated as the visualized image.
前記可視化画像として、前記教師画像の収集状況に問題のある前記エリア画像上の範囲を表すマーク画像を生成することを特徴とする請求項1に記載の画像処理装置。 The processor includes:
2. The image processing apparatus according to claim 1, wherein a mark image representing a range on the area image where there is a problem in the collection status of the teacher image is generated as the visualized image.
前記エリア画像として、カメラで撮影された現実エリア画像、またはCGで作成された仮想エリア画像から前記教師画像を生成することを特徴とする請求項1に記載の画像処理装置。 The processor includes:
The image processing apparatus according to claim 1, wherein the teacher image is generated from a real area image photographed by a camera or a virtual area image created by CG as the area image.
前記属性としての人物に関する色種別ごとの前記教師画像の収集状況を可視化した前記可視化画像を生成することを特徴とする請求項1に記載の画像処理装置。 The processor includes:
The image processing apparatus according to claim 1, wherein the image processing apparatus generates the visualized image that visualizes the collection status of the teacher images for each color type related to the person as the attribute.
前記属性ごとの前記教師画像の収集状況を可視化した統計グラフを生成し、この統計グラフを含む前記表示情報を出力することを特徴とする請求項1に記載の画像処理装置。 The processor includes:
The image processing apparatus according to claim 1, wherein the image processing apparatus generates a statistical graph that visualizes the collection status of the teacher images for each attribute, and outputs the display information including this statistical graph.
ユーザの操作に応じて、前記教師画像を生成すると共に前記教師画像に属性を設定する第1の画面を含む前記表示情報を出力し、
前記エリア画像上に前記可視化画像を重畳して表示すると共に、前記第1の画面に戻るための操作部が設けられた第2の画面を含む前記表示情報を出力することを特徴とする請求項1に記載の画像処理装置。 The processor includes:
outputting the display information including a first screen for generating the teacher image and setting attributes for the teacher image in response to a user's operation;
Claim characterized in that the visualized image is superimposed and displayed on the area image, and the display information including a second screen provided with an operation unit for returning to the first screen is output. 1. The image processing device according to 1.
前記監視エリアに関するエリア画像から、検知対象物と背景とを含む教師画像を生成し、
前記教師画像に含まれる前記検知対象物の特徴に関する属性を前記教師画像ごとに設定し、
ユーザが指定した前記属性を有する前記教師画像を対象にして、前記エリア画像の各位置における前記教師画像の収集状況を可視化した可視化画像を生成し、
前記可視化画像を前記エリア画像に重畳した表示情報を出力することを特徴とする画像処理方法。 An image processing method in which a processor executes processing for visualizing the collection status of teacher images for constructing an image recognition model corresponding to a monitoring area, the method comprising:
Generating a teacher image including a detection target object and a background from an area image related to the monitoring area,
setting attributes related to the characteristics of the detection target included in the teacher image for each teacher image;
generating a visualized image that visualizes the collection status of the teacher image at each position of the area image, targeting the teacher image having the attribute specified by the user;
An image processing method characterized by outputting display information in which the visualized image is superimposed on the area image.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022071824A JP2023161432A (en) | 2022-04-25 | 2022-04-25 | Image processing device and image processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022071824A JP2023161432A (en) | 2022-04-25 | 2022-04-25 | Image processing device and image processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023161432A true JP2023161432A (en) | 2023-11-07 |
Family
ID=88650282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022071824A Pending JP2023161432A (en) | 2022-04-25 | 2022-04-25 | Image processing device and image processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023161432A (en) |
-
2022
- 2022-04-25 JP JP2022071824A patent/JP2023161432A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10796138B2 (en) | Intra-facility activity analysis device, intra-facility activity analysis system, and intra-facility activity analysis method | |
JP6156665B1 (en) | Facility activity analysis apparatus, facility activity analysis system, and facility activity analysis method | |
Ferreira et al. | Urbane: A 3D framework to support data driven decision making in urban development | |
CN104954736B (en) | Retention analytical equipment, Retention analysis system and analysis method | |
US8884961B2 (en) | Systems and methods for displaying a unified representation of performance related data | |
US20150095107A1 (en) | Stay duration measurement device, stay duration measurement system and stay duration measurement method | |
CN105516648B (en) | Activity situation analysis device, activity situation analysis system, and activity situation analysis method | |
CN106415649A (en) | Person movement analysis device, person movement analysis system, and person movement analysis method | |
Ortner et al. | Vis-a-ware: Integrating spatial and non-spatial visualization for visibility-aware urban planning | |
US20120044248A1 (en) | System and method of proximity detection | |
US7978192B2 (en) | Method and apparatus for evaluating sight distance | |
US20160005052A1 (en) | Information processing system and information processing method | |
CN109816745A (en) | Human body thermodynamic chart methods of exhibiting and Related product | |
CN102227748A (en) | Systems and methods for multi-perspective scene analysis | |
Bonduel et al. | Scan-to-bim output validation: Towards a standardized geometric quality assessment of building information models based on point clouds | |
Tatzgern | Situated visualization in augmented reality | |
JP2020021121A (en) | Road surface marking image processor, road surface marking image processing method, and road surface marking image processing program | |
Kanangkaew et al. | A real-time fire evacuation system based on the integration of building information modeling and augmented reality | |
JP2020197842A (en) | Three dimensional data management method for architectural structure and mobile terminal realizing the same | |
Pal et al. | Activity-level construction progress monitoring through semantic segmentation of 3D-informed orthographic images | |
TW201123087A (en) | System and method for detecting multi-layer intrusion events and the computer program product thereof | |
Pyka et al. | LiDAR-based method for analysing landmark visibility to pedestrians in cities: case study in Kraków, Poland | |
JP2023161432A (en) | Image processing device and image processing method | |
CN109671139A (en) | For creating the method for summarizing the animation of design process of three dimensional object | |
JP7229698B2 (en) | Information processing device, information processing method and program |