JP2024014516A - Information processing device, information processing method and program - Google Patents
Information processing device, information processing method and program Download PDFInfo
- Publication number
- JP2024014516A JP2024014516A JP2022117403A JP2022117403A JP2024014516A JP 2024014516 A JP2024014516 A JP 2024014516A JP 2022117403 A JP2022117403 A JP 2022117403A JP 2022117403 A JP2022117403 A JP 2022117403A JP 2024014516 A JP2024014516 A JP 2024014516A
- Authority
- JP
- Japan
- Prior art keywords
- image
- interest
- region
- information processing
- partial images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 44
- 238000003672 processing method Methods 0.000 title claims description 3
- 238000001514 detection method Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims description 44
- 238000000605 extraction Methods 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 230000005484 gravity Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
Images
Landscapes
- Closed-Circuit Television Systems (AREA)
- Image Analysis (AREA)
Abstract
【課題】 本発明によれば、物体の検出精度を向上できる。【解決手段】 上記課題を解決する本発明にかかる情報処理装置は、画像における重要位置を特定する特定手段と、前記重要位置を含む注目領域を前記画像から抽出する抽出手段と、前記画像の全領域を包含するように複数の部分画像を設定する設定手段と、前記注目領域に対応する前記画像の部分画像と、前記複数の部分画像と、から物体を検出する検出手段と、を有することを特徴とする。【選択図】 図2According to the present invention, object detection accuracy can be improved. [Solution] An information processing apparatus according to the present invention that solves the above problems includes a specifying means for specifying an important position in an image, an extracting means for extracting a region of interest including the important position from the image, and an information processing apparatus for all parts of the image. The method further comprises: a setting means for setting a plurality of partial images to encompass a region; a detection means for detecting an object from a partial image of the image corresponding to the region of interest; and the plurality of partial images. Features. [Selection diagram] Figure 2
Description
本発明は、画像から物体を検出する技術に関する。 The present invention relates to a technique for detecting an object from an image.
特許文献1では、学習器への入力画像として扱えるように対象画像を複数の領域で分割して切り出し既定の画素数の画像となるよう変換する処理が行われる。
In
特許文献1に開示された技術では、検出対象物が頻繁に映る位置と、分割された領域の関係によっては、画像から物体を検出しにくくなってしまう。
In the technique disclosed in
本発明では、物体の検出精度を向上することを目的とする。 The present invention aims to improve object detection accuracy.
上記課題を解決する本発明にかかる情報処理装置は、画像における重要位置を特定する特定手段と、前記重要位置を含む注目領域を前記画像から抽出する抽出手段と、前記画像の全領域を包含するように複数の部分画像を設定する設定手段と、前記注目領域に対応する前記画像の部分画像と、前記複数の部分画像と、から物体を検出する検出手段と、を有することを特徴とする。 An information processing apparatus according to the present invention that solves the above problems includes a specifying means for specifying an important position in an image, an extraction means for extracting a region of interest including the important position from the image, and an entire area of the image. The present invention is characterized by comprising: a setting means for setting a plurality of partial images, a partial image of the image corresponding to the region of interest, and a detection means for detecting an object from the plurality of partial images.
本発明によれば、物体の検出精度を向上できる。 According to the present invention, object detection accuracy can be improved.
以下、本発明を実施するための形態について図面を用いて説明する。 EMBODIMENT OF THE INVENTION Hereinafter, the form for implementing this invention is demonstrated using drawings.
[第1の実施形態]
近年、監視カメラ等の撮像装置により撮像された画像を用いて物体の検出や追尾、属性の推定等を行う画像解析や、そのような画像解析の結果を用いた物体数の推定が様々なシーンで行われている。ここで、物体の検出とは、例えば、画像における検出対象の物体の位置及び大きさ、物体の属性、物体の信頼度等を出力する情報処理である。物体の検出に用いる機械学習モデルでは、モデルに入力するデータのサイズが予め決められており、その入力サイズに合うように画像を縮小や分割するなどの前処理を行う。しかしながら、画像を機械学習モデルに入力する為の画像に分割した際に、シーンによって物体が検出しにくくなってしまう可能性があった。そこで、本実施形態では、画像を複数の部分画像に分割して物体検出処理を行う場合であっても物体の検出精度を向上させることが可能な情報処理装置(情報処理方法)について説明する。
[First embodiment]
In recent years, image analysis that uses images captured by imaging devices such as surveillance cameras to detect and track objects, estimate attributes, etc., and estimation of the number of objects using the results of such image analysis has become popular in various scenes. It is being carried out in Here, object detection is information processing that outputs, for example, the position and size of an object to be detected in an image, the attributes of the object, the reliability of the object, and the like. In machine learning models used for object detection, the size of data input to the model is determined in advance, and preprocessing such as reducing or dividing images is performed to match the input size. However, when dividing an image into images to be input into a machine learning model, there is a possibility that objects may become difficult to detect depending on the scene. Therefore, in this embodiment, an information processing apparatus (information processing method) that can improve object detection accuracy even when performing object detection processing by dividing an image into a plurality of partial images will be described.
図1は、本実施形態による情報処理装置100の構成例を示すブロック図である。本実施形態における情報処理装置100は、監視カメラ等の撮像装置によって撮像された画像から、検出対象の物体の検出を行う物体検出機能を有する。以下では、物体の一例として人物の顔を検出する場合について説明する。物体は、これに限定されるものではなく、車両や動物、各種物体を対象にすることができ、画像を解析して所定の物体を検出する任意のシステムに適用することができる。
FIG. 1 is a block diagram showing a configuration example of an
本実施形態による情報処理装置100は、CPU101、メモリ102、通信インターフェース(I/F)部103、表示部104、操作部105、及び記憶部106を有し、これらはシステムバス107を介して通信可能に接続されている。なお、本実施形態による情報処理装置100は、これ以外の構成をさらに有していても良い。
The
CPU(Central Processing Unit)101は、情報処理装置100の全体の制御を司る。CPU101は、例えばシステムバス107を介して接続される各機能部の動作を制御する。メモリ102は、CPU101が処理に利用するデータ、プログラム等を記憶する。また、メモリ102は、CPU101の主メモリ、ワークエリア等としての機能を有する。CPU101がメモリ102に記憶されたプログラムに基づき処理を実行することにより、後述する図2に示す情報処理装置100の機能構成及び後述する図4に示すフローチャートの処理が実現される。
A CPU (Central Processing Unit) 101 controls the entire
通信I/F部103は、情報処理装置100をネットワークに接続するインターフェースである。表示部104は、液晶ディスプレイ等の表示部材を有し、CPU101による処理の結果等を表示する。操作部105は、マウス、タッチパネル、ボタン等の操作部材を有し、ユーザーの操作を情報処理装置100に入力する。記憶部106は、例えば、CPU101がプログラムに係る処理を行う際に必要な各種データ等を記憶する。また、記憶部106は、例えば、CPU101がプログラムに係る処理を行うことにより得られた各種データ等を記憶する。なお、CPU101が処理に利用するデータ、プログラム等を記憶部106に記憶するようにしても良い。
The communication I/
図2は、情報処理装置100の機能構成例を示すブロック図である。情報処理装置100は、画像取得部201、物体検出部202、画像抽出部203、修正部204、出力部205、及び記憶部206を有する。
FIG. 2 is a block diagram showing an example of the functional configuration of the
画像取得部201は、物体検出を行う対象となる画像を取得する。本実施形態では、物体検出を行う対象となる画像は、通信I/F部103を通じて外部(例えば、撮像装置)から取得する。これ以降は、この画像取得部201が取得した、物体検出を行う対象となる画像のデータを単に「入力画像」とも呼ぶ。以下の説明では、入力画像は、一例として水平方向(横方向)の幅が720ピクセルであり、垂直方向(縦方向)の高さが480ピクセルである、720×480ピクセルのRGB画像とする。なお、入力画像は、720×480ピクセルのRGB画像に限定されるものではなく、任意の画像を入力画像とすることができ、例えば水平方向の幅や垂直方向の高さが異なっていても良い。
The
物体検出部202は、所定の解析処理を用いて、入力画像を分割した部分画像それぞれに対して物体検出処理を行う。本実施形態では、物体検出部202は、画像取得部201によって取得された入力画像を分割した複数の部分画像から、特定物体として人物の顔の位置を示す情報を検出する。また、物体検出部202は、画像に含まれる人物の顔を検出できるように学習が行われた機械学習モデルを用いて、検出結果を出力する。すなわち、所定の解析処理は、所定サイズの画像から特定の物体を検出し、その物体が存在する画像上の位置と大きさを示す情報を出力する処理である。例えば下記非特許文献1に記載の技術を適用することで実現できる。
The
(非特許文献1)J.Redmon,A.Farhadi,“YOLO9000:Better Faster Stronger”,Computer Vision and Pattern Recognition (CVPR) 2016.
なお、物体検出部202における所定の解析処理は、検出したい物体を検出することができる技術であれば、非特許文献1に開示されている技術に限らず、様々な技術を適用可能である。
(Non-patent Document 1) J. Redmon, A. Farhadi, “YOLO9000: Better Faster Stronger”, Computer Vision and Pattern Recognition (CVPR) 2016.
Note that the predetermined analysis process in the
本実施形態では、物体検出部202は、一例として水平方向(横方向)の幅及び垂直方向(縦方向)の高さがともに240ピクセルである240×240ピクセルのRGB画像(部分画像)から検出を行うものとする。その他のサイズの画像が入力された場合には、一般的に知られているバイキュービック法等の任意の手法を用いてリサイズや変形処理を行ってもよい。
In this embodiment, the
画像抽出部203は、画像取得部201によって取得した入力画像から、物体検出部202へ入力するための部分画像を抽出する。画像抽出部203は、大きく分けて2種類の方法で、部分画像を抽出する。1つめの方法は、画像における重要位置を含む注目領域を画像から抽出する方法である。注目領域は、入力画像において特に物体を検出したい領域がある場合に、その領域の物体の検出精度を向上させるために設定する、入力画像の座標系で示される閉領域である。2つめの方法は、入力画像の全領域に対して、均等に、あるいは所定のルールに基づいて複数の部分画像を設定する方法である。複数の部分画像は、上述した所定の解析処理を行う為に、或いは入力画像を所定の大きさの画像にリサイズするために適した画像である。ここで抽出する注目領域ないし部分画像の形状は矩形であれば良いが、以降の説明を簡略化するために正方形であることとする。
The
所定のルールは、部分画像を抽出するための位置およびサイズ情報に基づいて設定される。部分画像を抽出するための位置およびサイズ情報が特に与えられていない場合は、例えば図3(a)に示すように720×480ピクセルの入力画像を均等に6分割した240×240ピクセルの正方形領域を6つ設定する。点線301はこのとき抽出される6つの部分画像の境界を示している。一方、部分画像のサイズ情報として1辺300ピクセルと指定された場合には、図3(b)に示すように300×300ピクセルの正方形領域を一様に配置して画像の全領域を包含するために6つの部分画像を抽出する。このとき各抽出領域が重なりあっていても良い。点線302はこのとき抽出される各部分画像の境界を示している。
The predetermined rule is set based on position and size information for extracting a partial image. If position and size information for extracting a partial image is not particularly given, for example, as shown in Fig. 3(a), a 240 x 240 pixel square area obtained by equally dividing a 720 x 480 pixel input image into six Set six.
また、例えば注目領域の中心座標が(500,200)、サイズは1辺240ピクセルという情報が与えられた場合には、図3(c)に示すような1つの部分画像を抽出する。点線303で示す正方形は、画像の左上を原点(0,0)としたとき中心座標が(500,200)の位置にある240×240ピクセルの注目領域に対応する部分画像である。
For example, if information is given that the center coordinates of the region of interest are (500, 200) and the size is 240 pixels on one side, one partial image as shown in FIG. 3(c) is extracted. A square indicated by a dotted
また、画像抽出部203は後述する画像上の重要位置の情報および注目領域のサイズに関する情報を取得して、注目領域の中心座標およびその中心座標に対応する注目領域サイズを算出する処理も行う。画像抽出部203は、画像全体を包含するように自動で部分画像を配置するための各注目領域の位置およびサイズを決定しそれぞれの部分画像を抽出する処理も行う。
The
修正部204は、部分画像ごとに物体検出部202によって得られた検出結果を修正する。例えば一つの物体に対して複数の検出結果が出力された場合や、一つの物体が複数の注目領域にまたがって検出された結果を統合する結果修正処理を行う。
The
出力部205は、表示手段に注目領域を出力する。表示手段に注目領域や重要位置を示す情報を表示されることによって、ユーザーが意図する設定を行いやすくなり、検出精度を向上させることができる。更に出力部205は、修正部204からの出力すなわち解析処理の結果を出力する。出力情報として検出した物体の画像上の位置を示す座標情報、検出した物体の外接矩形で表される検出枠を入力画像に重畳した画像、検出した物体の分類情報などがある。
The
記憶部206は、情報処理装置100の各機能部201~205での処理に用いるデータや処理結果として得られるデータ等を記憶する。
The
次に、図4及び図5を参照して、情報処理装置100が行う処理について説明する。図4は、情報処理装置が実行する処理を説明するためのフローチャートである。図4のフローチャートに示した処理は、コンピュータである図1のCPU101により記憶部106に格納されているコンピュータプログラムに従って実行される。以下の説明では、各工程(ステップ)について先頭にSを付けて表記することで、工程(ステップ)の表記を省略する。図5は、本実施形態に好適な操作画面の一例である。
Next, processing performed by the
S401において、画像取得部201は、入力画像(物体検出を行う対象となる画像)を取得する。本実施形態では入力画像は前述したように720×480ピクセルの画像であるとする。
In S401, the
S402において、画像抽出部203は、入力画像における重要位置を特定する。具体的には、画像抽出部203は、720×480ピクセルの画像上で検出対象の物体が頻繁に映る領域を示す重要位置に関する情報を取得する。また、重要位置を定義する方法の一例として、入力画像の中央などに既定の位置を設定しておくことができる。また別の方法として、既定時間に取得した画像に対して所定の解析処理を実行することにより検出した物体の位置に基づいて重要位置を特定する。例えば、既定のタイミングで取得した入力画像に対してCPU101が一般に知られている動体検知処理や人物検知処理を実行し、そのときに検知された人物の外接矩形の重心位置を重要位置と定義する。更に別の方法として、画像抽出部203は、ユーザーによって指定された入力画像上の位置を重要位置として特定する。例えば、表示部104に表示される図5に示すような操作画面および操作部105によってユーザーが指定した重要位置に関する情報を画像抽出部203が取得する。
In S402, the
図5(a)の注目領域設定画面500には、画像表示部510、OKボタン501、キャンセルボタン502、リセットボタン503、自動配置ボタン504、注目領域追加ボタン505が含まれる。画像表示部510には前述の入力画像が表示され、図5(a)ではエレベーターの出入口付近が映し出されている。図5(b)乃至(g)では図5(a)と共通の画面要素については符号の付記は省略する。ユーザーが注目領域追加ボタン505を押下すると240×240ピクセルの正方形の注目領域枠520が表示される(図5(b))。図5(b)では注目領域枠520は画像表示部510の左上に初期表示されているが、追加直後の注目領域枠の表示位置は特に限定しない。また図5(b)で追加された注目領域のサイズはこの画像に対して物体検出処理を実行するために適した240×240ピクセルであるが、条件に応じて追加される注目領域サイズを変更することとしても良い。またユーザーがサイズを自由に変更できることとしても良い。この注目領域枠520はユーザーによる操作で画面上での移動が可能である。ユーザーは注目領域枠520を物体検出が行われるべき位置や検出対象の物体が頻繁に映る位置すなわち重要な位置に移動する。図5(c)は注目領域枠520がエレベーター出入口に重なるように移動された様子を示している。画像抽出部203は注目領域枠520の位置情報、ここでは正方形である注目領域520の左上頂点および右下頂点の座標または、正方形の中心座標および一辺の長さの情報を取得する。
The attention area setting screen 500 in FIG. 5A includes an image display section 510, an OK button 501, a cancel button 502, a reset button 503, an automatic placement button 504, and an add attention area button 505. The above-mentioned input image is displayed on the image display section 510, and in FIG. 5(a), the vicinity of the entrance and exit of the elevator is displayed. In FIGS. 5(b) to 5(g), reference numerals are omitted for screen elements common to those in FIG. 5(a). When the user presses the add attention area button 505, a square attention area frame 520 of 240×240 pixels is displayed (FIG. 5(b)). In FIG. 5B, the attention area frame 520 is initially displayed at the upper left of the image display section 510, but the display position of the attention area frame immediately after addition is not particularly limited. Additionally, the size of the added attention area in Figure 5(b) is 240 x 240 pixels, which is suitable for performing object detection processing on this image, but the size of the added attention area may be changed depending on the conditions. It's also good to do. Alternatively, the user may be able to freely change the size. This attention area frame 520 can be moved on the screen by a user's operation. The user moves the attention area frame 520 to a position where object detection is to be performed or a position where the object to be detected is frequently seen, that is, an important position. FIG. 5C shows the attention area frame 520 moved so as to overlap the elevator entrance. The
図5(d)乃至(f)は画面上で重要な位置を指定するための操作画面の別の例である。図5(c)では注目領域枠を直接画面上で配置するのに対し、図5(d)ではポインタ530で重要位置を点で指定する操作画面である。マウスポインタで指定またはタッチパネル上でタップした座標を画像抽出部203が取得する。また、図5(e)は、検出対象の物体に似せた所定の図形、ここでは人型の図形540を重要位置に配置する。この人型図形の位置情報を画像抽出部203が取得する。さらに、図5(f)は、所定の図形を配置またはフリーハンドで描いて重要な位置付近を指定する操作画面である。この場合も描かれた閉領域550の位置情報(閉領域の重心位置等)を画像抽出部203が取得する。
FIGS. 5(d) to 5(f) are other examples of operation screens for specifying important positions on the screen. In FIG. 5(c), the attention area frame is placed directly on the screen, whereas in FIG. 5(d), the operation screen is used to specify important positions with points using the pointer 530. The
S403において、画像抽出部203は、S402で取得した重要位置に基づいて、注目領域の中心座標を決定する。図5(c)のように正方形の注目領域が既定されている場合には、その正方形の中心点の座標を取得する。図5(c)の例では注目領域枠520が240×240ピクセルのサイズで中心座標が(510,210)の位置に表示されている。すなわちS403で決定する注目領域の中心座標は(510,210)である。図5(d)の場合は、ポインタ530によって指定された点の座標がそのままS403で決定する注目領域の中心座標である。図5(e)及び(f)の場合は、人型図形540あるいは不定形状の図形550の代表点を、重心または図形の外接矩形の中心点と定義して、その座標を対応する注目領域の中心座標に決定する。
In S403, the
S404において、画像抽出部203は、S402で取得した重要位置に基づいて、注目領域を示す正方形サイズを決定する。図5(c)の例では、注目領域枠520が240×240ピクセルサイズに既定されているため、S403で画像抽出部203は注目領域のサイズを240×240ピクセルと決定する。
In S404, the
また、画像抽出部203は、入力画像における重要位置に応じて異なるサイズの注目領域を抽出してもよい。図5(d)乃至(f)の操作方式ではサイズは未定のため、S403で取得した注目領域の中心座標(または重要位置)に応じてサイズを決定する。このとき、入力画像が奥行きのある場面を撮影したものである場合は、その奥行方向に対応する画像上の位置で検出対象物体のサイズが変わるために、注目領域サイズもそれに応じて変化させることができる。具体的には、重要位置が手前であるほど矩形のサイズを大きくし、重要位置が画面奥にいくほど矩形のサイズを小さくする。矩形のサイズと検出したい物体のサイズの比が一定の方が解析手段での検出精度が向上するためである。また、画像上の位置によるサイズ差が大きくない場合には、場所によらず一定の注目領域サイズを適用させても良い。本実施形態では、S404で決定される注目領域サイズは240×240ピクセルとする。
Furthermore, the
S405において、画像抽出部203が、S403で決定した座標を中心とするS404で決定したサイズの注目領域に対応する部分画像を入力画像から抽出する。注目領域に対応する部分画像には物体が包括的に撮像される可能性が高いため、物体検出処理の精度を向上させることができる。
In S405, the
S406において、出力部205が、出力部(表示装置)に注目領域に対応する部分画像を出力する。つまり、出力部205は、S405で決定した注目領域が視認できる形式で画像表示部510上に重畳表示する。具体的には、注目領域を識別可能な特定の様態(色、形、透過率、線等)で表示手段に表示させる。ここで重畳表示された状態は図5(c)に示す注目領域520と同一または類似の形態である。入力画像のどこに注目領域が設定されたのかを示すことによってユーザーにとって利便性が向上する。
In S406, the
S407において、操作部105は、ユーザーによって所定の処理を指示されたか否かを判断する。つまり、操作部105が、自動配置ボタン504がユーザーによって押下されたか否かを判断する。自動配置ボタン504は、入力画像に対して複数の部分画像を設定するための処理を行うトリガーとなる。自動配置ボタン504が押下された場合はS408の処理に進む。自動配置ボタン504が押下されなければS408及びS409の処理は実行されない。
In S407, the
S408において、画像抽出部203が、前記画像の全領域を包含するように複数の部分画像を設定する。具体的には、図3(a)(b)のように入力画像を分割する。これらの部分画像を所定の解析処理に入力することによって入力画像における特定物体の位置を検出する。
In S408, the
S409において、出力部205は、入力画像に対して設定された複数の部分領域を出力する。具体的には、出力部205は、S408で設定した1つ以上の部分画像が視認できる形式で画像表示部510上に重畳表示する。このとき、入力画像に対して設定された複数の部分画像と、S406で描画された注目領域とを異なる様態で表示させるようにしても良い。図5(g)はS409で240×240ピクセルの部分画像が6つ、画像表示部510の画像上に点線560で領域の境界を示す形式で表示された様子を示している。OKボタン501がユーザーによって押下されると、ここまでの処理で決定された部分画像をそれぞれ画像抽出部203が抽出して物体検出部202に入力する。
In S409, the
S410において、物体検出部202は、画像取得部201によって取得された入力画像を分割した複数の部分画像から、特定物体として人物の顔の位置を示す情報を検出する。
In S410, the
以上説明したように第1の実施形態によれば、入力画像に対する物体検出処理において、対象とする部分画像を抽出する際、重要位置が少なくとも1つの部分画像に包含されるため、重要位置における物体の検出精度が向上する。 As explained above, according to the first embodiment, when extracting a target partial image in object detection processing for an input image, since an important position is included in at least one partial image, an object at an important position Detection accuracy is improved.
[第2の実施形態]
第1の実施形態では画像上の重要な位置に対応する注目領域を決定する処理および画像の全領域を包含するように1つ以上の部分画像を設定する処理を説明した。第2の実施形態では画像上の重要位置から決定された部分画像の1つを基準にして、その他の部分画像を設定する処理を説明する。以下の説明において、第1の実施形態と共通の構成については同一の符号を用い、説明を省略する。ハードウェア構成は第1の実施形態と同様に図1のような構成を用いる。
[Second embodiment]
In the first embodiment, the process of determining a region of interest corresponding to an important position on an image and the process of setting one or more partial images to encompass the entire area of the image have been described. In the second embodiment, a process of setting other partial images based on one of the partial images determined from an important position on an image will be described. In the following description, the same reference numerals will be used for the same components as in the first embodiment, and the description will be omitted. As for the hardware configuration, the configuration shown in FIG. 1 is used as in the first embodiment.
図6は、本実施形態で情報処理装置100が行う処理を説明するフローチャートである。図6のフローチャートに示した処理は、コンピュータである図1のCPU101により記憶装置106に格納されているコンピュータプログラムに従って実行される。図4に示したフローチャートとの共通部分については図4と同一の符号を用いて説明を省略する。図7は、本実施形態による部分画像の設定方法を説明するための操作画面例である。
FIG. 6 is a flowchart illustrating processing performed by the
S601において、CPU101はユーザーによる重要位置の追加操作が行われたか否かすなわち図7(a)における重要位置追加ボタン701が押下されたか否かを判断する。ここで否と判断された場合には、重要位置の指定が無いためS408に進み、画像抽出部203が画像の全領域を包含するように1つ以上の部分画像を設定する。
In S601, the
画像抽出部203は、以下のいずれかの関数に基づいて、部分画像の配置を設定する。(1)前記入力画像における位置と物体の大きさに関して予め指定された関数。(2)ユーザーによって前記入力画像上に指定された1以上の前記物体の座標および大きさに基づいて算出された関数。(3)所定時間内に取得した画像に対して既定の解析処理を実行することにより検出した前記物体の座標および大きさに基づいて算出された関数。以下にそれぞれの関数について説明する。
The
操作画面例を図7(b)に示す。図7(b)は、入力画像が手前(画像下部)と奥(画像上部)で被写体の映るサイズが異なる奥行きのある画像に適した部分画像の配置方法の一例を示す。部分画像の境界は点線710で表示される。奥行方向に変化する部分画像のサイズについては、(1)予め被写体のサイズが画像内の座標に応じてどのように変化するかを示す情報を基にした関数で指定される。例えば、(2)不図示の操作画面においてユーザーが手前と奥の解析対象物体のサイズを2か所以上指定することで得られるサイズ情報から関数が生成される。または、(3)既定のタイミングにおける入力画像に対して簡易的な解析処理を行い、そこで検出された物体の情報から関数を生成することも可能である。この関数は、画像上の正方形の解析処理領域の中心座標を(x、y)、一辺の長さをwピクセルとすると、
w=a×x+b×y+c・・・(式1)
と定義される。図7の例では横方向(x軸方向)での被写体の映るサイズの変化はほぼ無いため、式1におけるaは0である。縦方向(y軸方向)では被写体の映るサイズの変化があるため、解析処理領域の中心のy座標に応じて、一辺の長さwピクセルを、
w=0.48×y+68.6・・・(式2)
とする関数が定義されたものとしている。
An example of the operation screen is shown in FIG. 7(b). FIG. 7B shows an example of a method for arranging partial images suitable for an input image having a depth in which the size of the subject differs in the foreground (at the bottom of the image) and in the back (at the top of the image). The boundaries of the partial images are indicated by dotted lines 710. The size of the partial image that changes in the depth direction is (1) specified in advance using a function based on information indicating how the size of the subject changes depending on the coordinates within the image. For example, (2) a function is generated from size information obtained by the user specifying two or more sizes of the object to be analyzed, one in the foreground and the other in the background, on an operation screen (not shown). Alternatively, (3) it is also possible to perform simple analysis processing on the input image at a predetermined timing and generate a function from information about the detected object. This function is expressed as follows, assuming that the center coordinates of the square analysis processing area on the image are (x, y) and the length of one side is w pixels.
w=a×x+b×y+c...(Formula 1)
is defined as In the example of FIG. 7, there is almost no change in the size of the subject in the horizontal direction (x-axis direction), so a in
w=0.48×y+68.6...(Formula 2)
It is assumed that a function is defined.
S601で重要位置追加操作が行われたと判断された場合には、出力部205が、第1の実施形態で説明した通りに、S402乃至S406の処理を実行し、指定された重要位置に対応する注目領域を表示装置に出力する。
If it is determined in S601 that an operation to add an important position has been performed, the
S602において、CPU101はユーザーによる重要位置の追加や変更の操作があるか否かを判断する。ここで重要位置の追加や変更の操作があった場合にはS402乃至S406の処理が繰り返される。図7(c)は、重要位置が2か所指定されそれぞれに対応する注目領域711、712が描画された場合の操作画面例を示している。S602で否と判断されるとS407の自動配置の指定有無判断を経てS603へ進む。
In S602, the
S603において、CPU101はユーザーによる基準注目領域の指定があるか否かを判断する。ユーザーによる基準注目領域の指定は、例えば図7(c)の注目領域2つのうちの1つが選択状態であれば指定ありと判断する。基準注目領域の指定が無い場合にはS408に進み、画像抽出部203が画像の全領域を包含するように1つ以上の注目領域を配置し、それぞれの注目領域に対応する画像の抽出を行う。図7(d)はこのS408の処理によって配置された注目領域の境界を示す点線710が図7(c)に追加された様子を示している。一方、図7(e)は注目領域714が選択状態となっている操作画面例である。選択状態の注目領域714の境界が二重線で表示され、他の注目領域枠711の実線とは異なる表示形式であるため容易に識別できる。このように注目領域のうちの1つが選択状態であるときに自動配置ボタン504がユーザーによって押下された場合にはS603でCPU101が基準注目領域の指定がされていると判断し、S604へ進む。
In S603, the
S604において、画像抽出部203が、注目領域を基準として、画像の全領域を包含するように1つ以上の部分画像を設定する。ここでは、選択状態になっている注目領域714を基準にしてその他の部分画像の位置とサイズを、画像抽出部203が前述の関数を利用して決定する。図7(f)はS604で設定された注目領域がS409で描画され、操作画面に点線720で表示された例を示している。ここで、注目領域714は中心座標が(480,230)、正方形一辺の長さが179ピクセルである。注目領域714と同じy座標の領域には、同サイズの注目領域が重なりなく配置される(721)。
In S604, the
次に注目領域714と同じy座標に配置された他の注目領域721の一段上の注目領域722の位置およびサイズを算出する。まず、注目領域714の上辺のy座標が、注目領域714の位置とサイズから141と算出される。このy座標が一段上の注目領域722の下辺となる。一段上の注目領域の中心点のy座標をy1、サイズを表す正方形の一辺の長さをw1としたとき、前述の式2からw1=0.48×y1+68.6である。また、下辺のy座標が141と算出されているため、y1+w1/2=141である。この2式から、y1=86,w1=110と算出される。このy座標とサイズ、基準となる注目領域714と同じx座標に注目領域715が配置される。次に左右に同サイズの注目領域が重なりなく設定される(722)。 Next, the position and size of a region of interest 722 one step above another region of interest 721 arranged at the same y coordinate as the region of interest 714 are calculated. First, the y-coordinate of the upper side of the attention area 714 is calculated as 141 from the position and size of the attention area 714. This y-coordinate becomes the lower side of the region of interest 722 one level higher. When the y-coordinate of the center point of the region of interest one step above is y1, and the length of one side of the square representing the size is w1, from the above equation 2, w1=0.48×y1+68.6. Furthermore, since the y coordinate of the lower side is calculated as 141, y1+w1/2=141. From these two equations, y1=86 and w1=110 are calculated. A region of interest 715 is arranged at the same x coordinate as the y coordinate and size of the region of interest 714 serving as a reference. Next, attention areas of the same size are set on the left and right without overlapping (722).
その他の段も同様に決定され、画像の最上段に配置されている注目領域723共通のy座標は-3,サイズは67、最下段に配置されている注目領域724共通のy座標は292、サイズは465である。 The other rows are determined in the same way, the common y coordinate of the attention area 723 placed at the top of the image is -3, the size is 67, the common y coordinate of the attention area 724 placed at the bottom step is 292, The size is 465.
なお、この操作画面例では、基準となった注目領域714の境界は二重線で表示され、他の注目領域と見分けられるよう異なる形式とされている。また、ユーザーが重要位置追加操作によって配置した注目領域(実線711、二重線714)と自動配置によって配置された注目領域(点線720)とで異なる表示形式としているため、容易に見分けることができる。注目領域の表示形式はこれに限るものではなく、全領域同一の形式でも良い。また、注目領域を変更または削除、追加するなどの編集時に識別が必要な領域のみ境界の表示形式を変更する、注目領域内を含めて着色するなどの方式とすることも可能である。 In this example of the operation screen, the boundary of the reference area 714 is displayed as a double line, which is in a different format so that it can be distinguished from other areas of interest. In addition, the attention area placed by the user by the important position addition operation (solid line 711, double line 714) and the attention area placed by automatic placement (dotted line 720) are displayed in different display formats, so they can be easily distinguished. . The display format of the attention area is not limited to this, and the entire area may be displayed in the same format. Furthermore, it is also possible to change the display format of boundaries only for areas that need to be identified during editing, such as changing, deleting, or adding an attention area, or to color the area including the attention area.
以上説明したように第2の実施形態によれば、入力画像に対する物体検出処理において、ユーザーが指定した画像上の重要な位置を基準とした複数の部分領域の抽出ができるため、重要位置での検出精度向上とともにその他の部分領域の抽出効率も向上する。 As explained above, according to the second embodiment, in object detection processing for an input image, it is possible to extract a plurality of partial regions based on important positions on the image specified by the user. As the detection accuracy improves, the extraction efficiency of other partial regions also improves.
[第3の実施形態]
本実施形態では、第1、第2の実施形態における処理ステップのうち、入力画像の全領域を包含するように1以上の部分画像を設定する処理(S408)に関する説明をする。
[Third embodiment]
In this embodiment, among the processing steps in the first and second embodiments, a process (S408) of setting one or more partial images to encompass the entire area of the input image will be described.
部分画像単位で入力画像から抽出した画像を物体検出部202に入力するため、正方形の部分画像を1つ以上入力画像に設定する。第2の実施形態で示したように画像上の重要位置に対応した注目領域のうち基準とする注目領域が指定されていれば、そこを起点にしてそれ以外の部分画像を配置していけば良い。ところが基準の注目領域が指定されない場合の部分画像の配置方法は幾通りも想定される。そこで本実施形態では、画像上の重要位置に関する情報が無い場合、どのように基準の注目領域を決定するかについて図8を用いて説明する。
In order to input images extracted from the input image in partial image units to the
図8(a)乃至(d)の二重線で表示された注目領域811,821,831,841はそれぞれ基準として最初に配置された部分画像を示している。この部分画像の位置を基準にしてその他の部分画像の位置とサイズが算出される。その他の部分画像の境界は点線810,820,830,840で表示されている。図8(a)は画像上の位置によらず同サイズの部分画像、基準の注目領域位置を画像中央とした例である。図8(b)は画像上の位置によらず同サイズの部分画像、基準の注目領域位置を画像の下中央とした例である。図8(c)は、画像上の位置に応じて異なるサイズの部分画像が設定される例である。具体的には、入力画像のy座標に応じて部分画像サイズが変化し、基準の注目領域位置を画像中央とした例である。図8(d)も、画像上の位置に応じて異なるサイズの部分画像が設定される例である。具体的には、入力画像のy座標に応じて部分画像サイズが変化し、基準の注目領域位置を画像の下中央とした例である。これらの4種類の配置方法を、被写体の映り方の特徴に合わせて使い分けることができると良い。そこで被写体の映り方の特徴を簡易的に推測するために、カメラの設定情報および奥行きに関する情報として第2の実施形態で使用した式1の係数を利用する。
Regions of
図8(e)は人物850を高い位置からほぼ真下を見下ろして撮影した場合の入力画像例である。このような画像に対しては、検出対象となる物体が画像の中央に映ることが多いと推測されるため、基準の注目領域を画像の中央に配置する。また、奥行きが小さいため画像上の位置によるサイズの変化は無いものとして、図8(a)の配置パターンを選択する。
FIG. 8E is an example of an input image when a
図8(f)は奥行きが小さい場所で人物をほぼ真横から撮影した場合の入力画像例である。やや手前にいる人物860とそれより後方にいる人物861の画像上のサイズに大きな差が見られない。このような画像に対しては、基準の注目領域を入力画像の中央に置くよりも画像領域外にはみ出す注目領域数を減らすことのできる下中央に配置する。つまり図8(b)の配置パターンを選択する。
FIG. 8(f) is an example of an input image when a person is photographed from almost directly sideways in a place with a small depth. There is no significant difference in the size of the
図8(g)は高い位置から斜め下を見下ろして撮影した場合の入力画像例である。奥行きがあり、中央付近に映る人物870に対して奥(画像上部)に映る人物871はサイズが小さい。また手前(画像下部)にも人物が映るものの一定以上近づくと人物872のように人物の一部分のみ大きく画像下部に映り、注目する対象から外れると考えられる。そのため、このような画像に対しては、基準の注目領域は入力画像の中央に配置する。奥行きがあるため画像上の位置による注目領域のサイズの変化は必要であるため、図8(c)の配置パターンを選択する。
FIG. 8(g) is an example of an input image taken from a high position looking down diagonally. There is depth, and a
図8(h)は図8(g)よりも低い位置から撮影した場合の入力画像例である。奥行きがあり、手前の人物860が正面から捉えられて画像下部に映っている。このような画像に対しては基準の注目領域を入力画像の下中央に配置する図8(d)の配置パターンを選択する。
FIG. 8(h) is an example of an input image taken from a lower position than FIG. 8(g). There is depth, and the
図8(e)乃至(h)に示した被写体の映り方を簡易的に推定するための1つ目の要素としてカメラの設定情報を使用する。例えばここではカメラの設定状態を示すものとして水平面と光軸の間の角度である俯角を用いる。カメラの俯角情報は、設置時にユーザーが操作部105を通じて情報処理装置100に入力することで得られるほか、カメラのセンサ機能等により生成された情報が通信I/F103を通じて情報処理装置100に入力される場合もある。更にカメラを取り付けた位置の床または地面からの高さ情報を加味した情報としても良い。高さ情報は設置時にユーザーが操作部105を通じて情報処理装置100に入力することで得られる。
Camera setting information is used as the first element for simply estimating how the subject shown in FIGS. 8(e) to 8(h) appears. For example, here, the angle of depression, which is the angle between the horizontal plane and the optical axis, is used to indicate the setting state of the camera. The depression angle information of the camera can be obtained by the user inputting it into the
被写体の映り方を簡易的に推定するための2つ目の要素として、奥行きに関する情報を使用する。ここでは第2の実施形態で記載した式1(w=a×x+b×y+c、中心座標(x、y)における解析処理領域の一辺の長さwピクセル)の係数bを用いる。bが大きいほどy軸方向(奥行方向)の画像上の被写体サイズの変化が大きいことを示している。bの値とカメラ俯角の2つの条件に応じて、基準の解析処理領域の位置と解析処理領域サイズの変化の有無の組み合わせである配列パターンを決定する例を表1に示す。表1において、bの値は例えば「小」は0≦b<0.5、「大」は0.5≦b≦1である。また、この値が得られない場合は「不明」とする。また、カメラ俯角は例えば「小」を20度未満、「大」を20度以上とし、俯角情報が得られない場合は「不明」扱いとする。 Information regarding depth is used as the second element for easily estimating how the subject appears. Here, the coefficient b of Equation 1 (w=axx+b×y+c, length of one side of the analysis processing area at the center coordinates (x, y), w pixels) described in the second embodiment is used. The larger b is, the larger the change in the subject size on the image in the y-axis direction (depth direction) is. Table 1 shows an example of determining an array pattern that is a combination of the position of the reference analysis processing area and the presence or absence of a change in the size of the analysis processing area, depending on two conditions: the value of b and the camera depression angle. In Table 1, the value of b is, for example, 0≦b<0.5 for “small” and 0.5≦b≦1 for “large”. If this value cannot be obtained, it is marked as "unknown". Further, for the camera depression angle, for example, "small" is less than 20 degrees, "large" is 20 degrees or more, and if depression angle information cannot be obtained, it is treated as "unknown".
このように条件によって解析処理領域の配置パターンを既定することで、より入力画像に適した解析処理領域の設定が可能となる。 By predetermining the arrangement pattern of the analysis processing area based on the conditions in this way, it becomes possible to set the analysis processing area more suitable for the input image.
[その他の実施形態]
本発明は、前述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
[Other embodiments]
The present invention provides a system or device with a program that implements one or more functions of the embodiments described above via a network or a storage medium, and one or more processors in a computer of the system or device reads and executes the program. This can also be achieved by processing. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
上述の各実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。 The embodiments described above are merely examples of implementation of the present invention, and the technical scope of the present invention should not be construed as limited by these embodiments. That is, the present invention can be implemented in various forms without departing from its technical idea or main features.
100 情報処理装置
201 画像取得部
202 物体検出部
203 画像抽出部
204 修正部
205 出力部
206 記憶部
100
Claims (15)
前記重要位置を含む注目領域を前記画像から抽出する抽出手段と、
前記画像の全領域を包含するように複数の部分画像を設定する設定手段と、
前記注目領域に対応する前記画像の部分画像と、前記複数の部分画像と、から物体を検出する検出手段と、を有することを特徴とする情報処理装置。 identification means for identifying important positions in the image;
Extracting means for extracting a region of interest including the important position from the image;
Setting means for setting a plurality of partial images to encompass the entire area of the image;
An information processing device comprising: a partial image of the image corresponding to the region of interest; and a detection means for detecting an object from the plurality of partial images.
前記特定手段は、前記ユーザーによって指定された前記画像上の位置を前記重要位置として特定することを特徴とする請求項1に記載の情報処理装置。 further comprising operation means for accepting a position in the image specified by a user;
The information processing apparatus according to claim 1, wherein the specifying unit specifies a position on the image designated by the user as the important position.
前記設定手段は、前記複数の部分画像のうちの1つが、前記重要位置を含む部分画像となるように前記部分画像を設定することを特徴とする請求項2に記載の情報処理装置。 The identifying means identifies a predetermined position on the image as the important position,
3. The information processing apparatus according to claim 2, wherein the setting means sets the partial images so that one of the plurality of partial images is a partial image including the important position.
前記重要位置を含む注目領域を前記画像から抽出する抽出工程と、
前記画像の全領域を包含するように複数の部分画像を設定する設定工程と、
前記注目領域に対応する前記画像の部分画像と、前記複数の部分画像と、から物体を検出する検出工程と、を有することを特徴とする情報処理方法。 an identification step of identifying important positions in the image;
an extraction step of extracting a region of interest including the important position from the image;
a setting step of setting a plurality of partial images to encompass the entire area of the image;
An information processing method comprising: a partial image of the image corresponding to the region of interest; and a detection step of detecting an object from the plurality of partial images.
画像における重要位置を特定する特定手段と、
前記重要位置を含む注目領域を前記画像から抽出する抽出手段と、
前記画像の全領域を包含するように複数の部分画像を設定する設定手段と、
前記注目領域に対応する前記画像の部分画像と、前記複数の部分画像と、から物体を検出する検出手段と、を有することを特徴とする情報処理装置として機能させるためのプログラム。 computer,
identification means for identifying important positions in the image;
Extracting means for extracting a region of interest including the important position from the image;
Setting means for setting a plurality of partial images to encompass the entire area of the image;
A program for functioning as an information processing apparatus, comprising a partial image of the image corresponding to the region of interest, and a detection means for detecting an object from the plurality of partial images.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022117403A JP2024014516A (en) | 2022-07-22 | 2022-07-22 | Information processing device, information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022117403A JP2024014516A (en) | 2022-07-22 | 2022-07-22 | Information processing device, information processing method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024014516A true JP2024014516A (en) | 2024-02-01 |
Family
ID=89718279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022117403A Pending JP2024014516A (en) | 2022-07-22 | 2022-07-22 | Information processing device, information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024014516A (en) |
-
2022
- 2022-07-22 JP JP2022117403A patent/JP2024014516A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10445887B2 (en) | Tracking processing device and tracking processing system provided with same, and tracking processing method | |
JP6417702B2 (en) | Image processing apparatus, image processing method, and image processing program | |
EP3608755B1 (en) | Electronic apparatus operated by head movement and operation method thereof | |
TWI499966B (en) | Interactive operation method of electronic apparatus | |
US11176355B2 (en) | Facial image processing method and apparatus, electronic device and computer readable storage medium | |
TWI526982B (en) | Area segmentation method, computer program product and inspection device | |
CN107710280B (en) | Object visualization method | |
US20230410321A1 (en) | Information processing apparatus, control method, and program | |
EP3213504B1 (en) | Image data segmentation | |
US7460705B2 (en) | Head-top detecting method, head-top detecting system and a head-top detecting program for a human face | |
JP3993029B2 (en) | Makeup simulation apparatus, makeup simulation method, makeup simulation program, and recording medium recording the program | |
JP4207883B2 (en) | Gaze guidance degree calculation system | |
JP2014029656A (en) | Image processor and image processing method | |
WO2018076172A1 (en) | Image display method and terminal | |
DE102015110955A1 (en) | An information processing device for acquiring an object from an image, a method of controlling the device, and storage media | |
KR20100121817A (en) | Method for tracking region of eye | |
JP2024014516A (en) | Information processing device, information processing method and program | |
KR20210003515A (en) | Augmented Reality Implementation Device Supporting Interactive Mode | |
JP6175583B1 (en) | Image processing apparatus, actual dimension display method, and actual dimension display processing program | |
JP6939065B2 (en) | Image recognition computer program, image recognition device and image recognition method | |
US20060010582A1 (en) | Chin detecting method, chin detecting system and chin detecting program for a chin of a human face | |
JP2019087136A (en) | Screen display control method and screen display control system | |
JP6350331B2 (en) | TRACKING DEVICE, TRACKING METHOD, AND TRACKING PROGRAM | |
KR20100081099A (en) | Apparatus and method for out-focasing | |
JP5985327B2 (en) | Display device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20231213 |