JP2012203613A - Image processing device, image processing method, recording medium, and program - Google Patents

Image processing device, image processing method, recording medium, and program Download PDF

Info

Publication number
JP2012203613A
JP2012203613A JP2011067138A JP2011067138A JP2012203613A JP 2012203613 A JP2012203613 A JP 2012203613A JP 2011067138 A JP2011067138 A JP 2011067138A JP 2011067138 A JP2011067138 A JP 2011067138A JP 2012203613 A JP2012203613 A JP 2012203613A
Authority
JP
Japan
Prior art keywords
image
frame
reliability
target image
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011067138A
Other languages
Japanese (ja)
Inventor
Kaname Ogawa
要 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2011067138A priority Critical patent/JP2012203613A/en
Priority to US13/354,852 priority patent/US8774458B2/en
Priority to EP12159800A priority patent/EP2503511A1/en
Priority to CN2012100706966A priority patent/CN102693544A/en
Publication of JP2012203613A publication Critical patent/JP2012203613A/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To track an image with a light load.SOLUTION: An image processing device calculates an evaluation value, which is expressed as the sum of confidence degrees obtained by compounding, at variable compound ratios, a matching degree of a first feature quantity and a matching degree of a second feature quantity between a target image including an object to be tracked and a comparison image which is an image of a comparison area to be compared with the target image of a predetermined frame, to obtain compound ratios which make the maximum evaluation value. Based on the confidence degrees in which the compound ratios making the maximum evaluation value are set, an image corresponding to the target image is detected.

Description

本技術は画像処理装置および方法、記録媒体並びにプログラムに関し、特に軽い負荷で画像をトラッキングすることができるようにした画像処理装置および方法、記録媒体並びにプログラムに関する。   The present technology relates to an image processing apparatus and method, a recording medium, and a program, and particularly to an image processing apparatus and method, a recording medium, and a program that can track an image with a light load.

デジタルカメラは、被写体を自動的にフォーカスするオートフォーカス機能を有していることが多い。これによりユーザは、カメラを被写体に向け、レリーズスイッチを操作するだけの簡単な操作で、被写体をピントが合った状態で確実に撮影することができる。   Digital cameras often have an autofocus function that automatically focuses a subject. As a result, the user can surely shoot the subject in focus with a simple operation of simply pointing the camera at the subject and operating the release switch.

さらにトラッキング機能が具備されている場合、被写体が移動したとしても、その被写体が自動的にトラッキングされるので、その被写体に対するピントが合った状態で撮影を行うことができる。   Further, in the case where a tracking function is provided, even if the subject moves, the subject is automatically tracked, so that it is possible to perform shooting while the subject is in focus.

被写体を自動的にトラッキングする技術としては、例えば非特許文献1に記載された技術がある。   As a technique for automatically tracking a subject, there is a technique described in Non-Patent Document 1, for example.

「Ensemble Tracking」 Shai Avidan, Mitsubishi Electric Research Labs, 201 Broadway Cambridge, MA02139, avidan@merl.com`` Ensemble Tracking '' Shai Avidan, Mitsubishi Electric Research Labs, 201 Broadway Cambridge, MA02139, avidan@merl.com

しかしながら、非特許文献1に記載の技術は、ブースティングの技術を用いるものであるため、計算量が厖大となり、民生用の画像処理装置であるデジタルカメラに応用することは困難である。   However, since the technique described in Non-Patent Document 1 uses a boosting technique, the calculation amount is enormous, and it is difficult to apply it to a digital camera which is a consumer image processing apparatus.

本技術はこのような状況に鑑みてなされたものであり、軽い負荷で画像をトラッキングすることができるようにするものである。   The present technology has been made in view of such a situation, and makes it possible to track an image with a light load.

本技術の一側面は、トラッキングの対象であるオブジェクトを含む対象画像と、第1のフレームの前記対象画像と比較される比較領域の画像である比較画像との、第1の特徴量のマッチング度と第2の特徴量のマッチング度を所定の混合率で混合して得られる信頼度の、前記混合率を変化させた場合の和で表される評価値を計算し、前記評価値が最大になるときの前記混合率を求める計算部と、前記評価値が最大になるときの前記混合率が設定された前記信頼度に基づいて、第2のフレームの前記対象画像に対応する画像を検出する検出部とを備える画像処理装置である。   One aspect of the present technology is a first feature amount matching degree between a target image including an object that is a tracking target and a comparison image that is an image of a comparison region compared with the target image in a first frame. And calculating the evaluation value represented by the sum of the reliability obtained by mixing the matching degree of the second feature quantity with a predetermined mixing ratio when the mixing ratio is changed, and maximizing the evaluation value An image corresponding to the target image in the second frame is detected based on the calculation unit for obtaining the mixing rate when the evaluation value becomes and the reliability with which the mixing rate when the evaluation value is maximized is set. An image processing apparatus including a detection unit.

前記第1のフレームと前記第2のフレームは、奇数フレームと偶数フレームの一方と他方とすることができる。   The first frame and the second frame may be one of the odd frame and the even frame and the other.

前記第2のフレームのスキャン領域のスキャン画像を前記比較画像とし、前記対象画像と前記スキャン画像の前記信頼度を演算する演算部をさらに備えることができる。   The image processing apparatus may further include a calculation unit that calculates the reliability of the target image and the scan image using the scan image of the scan area of the second frame as the comparison image.

前記検出部は、前記対象画像と前記スキャン画像の前記信頼度が最大となる前記スキャン画像を前記対象画像に対応する画像として検出することができる。   The detection unit can detect the scan image having the maximum reliability of the target image and the scan image as an image corresponding to the target image.

前記計算部は、前記第1のフレームの基準領域の画像を前記対象画像とし、前記基準領域の前記対象画像を少なくとも一部に含む複数の領域をポジティブ領域とし、前記基準領域の前記対象画像を含まない複数の領域をネガティブ領域とし、前記基準領域の前記対象画像と複数の前記ポジティブ領域の画像との前記信頼度である第1の信頼度を計算し、前記基準領域の前記対象画像と複数の前記ネガティブ領域の画像との前記信頼度である第2の信頼度を計算し、前記第1の信頼度と前記ポジティブ領域の第1の重み係数との積和である第1の積和を計算し、前記第2の信頼度と前記ネガティブ領域の第2の重み係数との積和である第2の積和を計算し、前記第1の積和と前記第2の積和の和を前記評価値として計算することができる。   The calculation unit sets the image of the reference area of the first frame as the target image, sets a plurality of areas including at least a part of the target image of the reference area as a positive area, and sets the target image of the reference area as the target image. A plurality of regions not included are defined as negative regions, a first reliability that is the reliability of the target image in the reference region and a plurality of images in the positive region is calculated, and a plurality of the target images in the reference region A second reliability that is the reliability with the image of the negative region is calculated, and a first product sum that is a product sum of the first reliability and the first weighting factor of the positive region is calculated. Calculating a second product sum that is a product sum of the second reliability and the second weighting factor of the negative region, and calculating the sum of the first product sum and the second product sum. It can be calculated as the evaluation value.

前記第1の重み係数は、定数を前記ポジティブ領域の数で除算した値とし、前記第2の重み係数は、前記定数を前記ネガティブ領域の数で除算した値とすることができる。   The first weighting factor may be a value obtained by dividing a constant by the number of positive regions, and the second weighting factor may be a value obtained by dividing the constant by the number of negative regions.

前記計算部は、前記第2のフレームの前記対象画像に対応する画像の座標に対応する領域であって、前記第2のフレームよりさらに後の第3のフレームの領域の画像を新たな前記対象画像として、前記第3のフレームで前記評価値を計算して、前記評価値が最大になるときの前記混合率を求め、前記検出部は、前記第3のフレームの画像に基づいて前記評価値が最大になるときの前記混合率が設定された前記信頼度に基づいて、前記第3のフレームよりさらに後の第4のフレームにおいて、前記第3のフレームの新たな前記対象画像に対応する画像を検出することができる。   The calculation unit is a region corresponding to the coordinates of an image corresponding to the target image of the second frame, and an image in a region of a third frame further after the second frame is newly added to the target As the image, the evaluation value is calculated in the third frame to obtain the mixing ratio when the evaluation value is maximized, and the detection unit determines the evaluation value based on the image of the third frame. An image corresponding to the new target image of the third frame in a fourth frame further after the third frame, based on the reliability with which the mixing ratio when the maximum value is set is Can be detected.

前記対象画像に対応する画像の座標に対応する領域にマーカを表示する表示部をさらに備えることができる。   The image processing apparatus may further include a display unit that displays a marker in an area corresponding to the coordinates of the image corresponding to the target image.

前記対象画像に対応する画像が画面の所定の位置に配置されるようにカメラの位置を駆動する駆動部をさらに備えることができる。   The image forming apparatus may further include a drive unit that drives the position of the camera so that an image corresponding to the target image is arranged at a predetermined position on the screen.

前記第1の特徴量は輝度情報とし、前記第2の特徴量は色情報とすることができる。   The first feature amount may be luminance information, and the second feature amount may be color information.

本技術の側面の画像処理方法、記録媒体およびプログラムは、上述した本技術の側面の画像処理装置に対応する画像処理方法、記録媒体およびプログラムである。   An image processing method, a recording medium, and a program according to an aspect of the present technology are an image processing method, a recording medium, and a program corresponding to the above-described image processing apparatus according to the present technology.

本技術の側面においては、トラッキングの対象であるオブジェクトを含む対象画像と、所定のフレームの対象画像と比較される比較領域の画像である比較画像との、第1の特徴量のマッチング度と第2の特徴量のマッチング度を所定の混合率で混合して得られる信頼度の、混合率を変化させた場合の和で表される評価値が計算され、評価値が最大になるときの混合率が求められる。評価値が最大になるときの混合率が設定された信頼度に基づいて対象画像に対応する画像が検出される。   In the aspect of the present technology, the first feature amount matching degree between the target image including the object to be tracked and the comparison image that is the image of the comparison region compared with the target image of the predetermined frame An evaluation value expressed by the sum of the reliability obtained by mixing the degree of matching of the two feature quantities at a predetermined mixing ratio when the mixing ratio is changed is calculated, and the mixing is performed when the evaluation value is maximized. A rate is required. An image corresponding to the target image is detected based on the reliability with which the mixing ratio when the evaluation value is maximized is set.

以上のように、本技術の一側面によれば、軽い負荷で画像をトラッキングすることができる。   As described above, according to one aspect of the present technology, an image can be tracked with a light load.

本技術のデジタルカメラの構成を示すブロック図である。It is a block diagram which shows the structure of the digital camera of this technique. トラッキング処理を説明するフローチャートである。It is a flowchart explaining a tracking process. 領域の切り出しを説明する図である。It is a figure explaining extraction of a field. 評価値を説明する図であるIt is a figure explaining an evaluation value スキャンを説明する図である。It is a figure explaining a scan. マーカの表示を説明する図である。It is a figure explaining the display of a marker. 領域の切り出しを説明する図である。It is a figure explaining extraction of a field.

図1は、本技術のデジタルカメラ1の構成を示すブロック図である。デジタルカメラ1は、CPU(Central Processing Unit)11、レンズ12、出力部13、入力部14、および記憶部15により構成されている。   FIG. 1 is a block diagram illustrating a configuration of a digital camera 1 of the present technology. The digital camera 1 includes a CPU (Central Processing Unit) 11, a lens 12, an output unit 13, an input unit 14, and a storage unit 15.

CPU11は、各種の処理を実行する。レンズ12は被写体を撮像し、その画像データをCPU11に供給する。出力部13は、例えばLCD(Liquid Crystal Display)などにより構成され、レンズ12により撮像された画像を表示する。また出力部13は、スピーカを有し、必要な警告音等を出力する。入力部14は、ユーザにより操作されるレリーズスイッチの他、シャッタスピード、露光時間を調整する部材等により構成される。記憶部15は、撮像された画像データを記憶したり、CPU11が動作するプログラムなどを記憶する。   The CPU 11 executes various processes. The lens 12 images a subject and supplies the image data to the CPU 11. The output unit 13 is configured by, for example, an LCD (Liquid Crystal Display) and displays an image captured by the lens 12. The output unit 13 includes a speaker and outputs necessary warning sounds and the like. The input unit 14 includes a release switch operated by the user, a member that adjusts the shutter speed and the exposure time, and the like. The storage unit 15 stores captured image data, a program for operating the CPU 11, and the like.

駆動部41は、例えばカメラ1が所定の台(図示せず)に搭載されている状態において、カメラ1を所定の方向にパン、チルトする。   For example, the drive unit 41 pans and tilts the camera 1 in a predetermined direction in a state where the camera 1 is mounted on a predetermined table (not shown).

CPU11は、取り込み部21、切り出し部22、初期化部23、計算部24、設定部25、演算部26、検出部27、表示部28、フォーカス部29、および判定部30の機能ブロックを有している。各部は必要に応じて信号を授受することが可能である。   The CPU 11 has functional blocks of a capture unit 21, a cutout unit 22, an initialization unit 23, a calculation unit 24, a setting unit 25, a calculation unit 26, a detection unit 27, a display unit 28, a focus unit 29, and a determination unit 30. ing. Each unit can send and receive signals as necessary.

取り込み部21は、画像の取り込みを行う。切り出し部22は、取り込まれた画像から所定の部分の切り出しを行う。初期化部23は、係数を初期化する。計算部24は、各所の計算を実行する。設定部25は、係数の設定を行う。演算部26は、各所の演算を実行する。検出部27は、位置を検出する。表示部28は、マーカを表示する。フォーカス部29は、フォーカス調整を行う。判定部30は、各種の判定処理を行う。   The capturing unit 21 captures an image. The cutout unit 22 cuts out a predetermined portion from the captured image. The initialization unit 23 initializes the coefficients. The calculation unit 24 performs calculation at each place. The setting unit 25 sets a coefficient. The computing unit 26 performs computations at various places. The detection unit 27 detects a position. The display unit 28 displays a marker. The focus unit 29 performs focus adjustment. The determination unit 30 performs various determination processes.

この実施の形態においては、各部はプログラムを実行する場合に機能的に構成されるが、ハードウェアとして構成してもよいことは勿論である。   In this embodiment, each unit is functionally configured when a program is executed, but may of course be configured as hardware.

図2は、トラッキング処理を説明するフローチャートである。以下、この図2を参照して、デジタルカメラ1のトラッキング処理について説明する。   FIG. 2 is a flowchart for explaining the tracking process. Hereinafter, the tracking process of the digital camera 1 will be described with reference to FIG.

ステップS1において取り込み部21は、画像を取り込む。すなわちレンズ12が撮像した画像の所定のフレームF1の画像が取り込まれる。この取り込みは、レンズ12により撮像され、記憶部15に記憶された画像から行われる。   In step S1, the capturing unit 21 captures an image. That is, an image of a predetermined frame F1 of an image captured by the lens 12 is captured. This capturing is performed from an image captured by the lens 12 and stored in the storage unit 15.

ステップS2において切り出し部22は、ステップS1の処理で取り込まれたフレームの画像から、オブジェクトを含む領域と含まない領域とを切り出す。オブジェクトとはユーザがトラッキングを希望する対象の画像であり、例えば被写体の顔である。この顔の切り出しについて図3を参照して説明する。   In step S2, the cutout unit 22 cuts out a region including the object and a region not including the object from the frame image captured in the process of step S1. An object is an image of a target that the user desires to track, for example, the face of a subject. This face clipping will be described with reference to FIG.

図3は、領域の切り出しを説明する図である。図3に示されるように、ステップS1の処理で取り込まれた画像であるフレーム101(フレームF1に対応する)に、オブジェクト102が表示されている。オブジェクト102を含む例えば矩形の領域が基準領域111−0とされる。そして基準領域111−0内の画像が対象画像114とされる。後述するステップS10の処理でマーカ231が、その後のフレーム201(フレームF2に対応する)上に表示されている場合には(後述する図6を参照)、フレーム201上のマーカ231の座標に対応するフレーム101上の領域が基準領域111−0とされる。まだステップS10の処理が実行される前の最初のフレームでは、ユーザが入力部14を操作することで指定した点を中心とする矩形の領域が基準領域111−0とされる。   FIG. 3 is a diagram for explaining segmentation. As shown in FIG. 3, an object 102 is displayed in a frame 101 (corresponding to the frame F1) that is an image captured in the process of step S1. For example, a rectangular area including the object 102 is set as a reference area 111-0. The image in the reference area 111-0 is the target image 114. When the marker 231 is displayed on the subsequent frame 201 (corresponding to the frame F2) in the process of step S10 described later (see FIG. 6 described later), it corresponds to the coordinates of the marker 231 on the frame 201. A region on the frame 101 to be used is a reference region 111-0. In the first frame before the process of step S10 is executed, a rectangular area centered on a point designated by the user operating the input unit 14 is set as the reference area 111-0.

ステップS2では、この基準領域111−0の対象画像114の少なくとも一部を含む領域111−1,111−2,・・・,111−Npが切り出される。すなわちNp個の領域が基準領域111−0の対象画像114を含むポジティブ領域として切り出される。同様に、基準領域111−0の対象画像114を全く含まない領域112−1,112−2,・・・,112−Nnが切り出される。すなわちNn個の領域が基準領域111−0の対象画像114を含まないネガティブ領域として切り出される。   In step S2, regions 111-1, 111-2,..., 111-Np including at least a part of the target image 114 of the reference region 111-0 are cut out. That is, Np areas are cut out as positive areas including the target image 114 of the reference area 111-0. Similarly, regions 112-1, 112-2,..., 112-Nn that do not include the target image 114 of the reference region 111-0 are cut out. That is, Nn areas are cut out as negative areas not including the target image 114 of the reference area 111-0.

次にステップS3において初期化部23は、各領域の重み係数w,wを初期化する。重み係数w,wは、次の式(1)により表される。重み係数wは、ポジティブ領域111−J(J=1,2,・・・,Np)の重み係数であり、重み係数wは、ネガティブ領域112−J(J=1,2,・・・,Nn)の重み係数である。 Next, in step S3, the initialization unit 23 initializes the weighting factors w P and w N of each region. The weighting factors w P and w N are expressed by the following equation (1). Weight coefficient w P is positive area 111-J (J = 1,2, ···, Np) is a weighting factor, the weighting factor w N is negative region 112-J (J = 1,2, ·· ., Nn).

Figure 2012203613
Figure 2012203613

式(1)で表されるように、ポジティブ領域の重み係数wは、定数Gをポジティブ領域の数Npで除算した値であり、ネガティブ領域の重み係数wは、定数Gをネガティブ領域の数Nnで除算した値である。ポジティブ領域の重み係数wの値は各領域111−Jにおいて同一である。同様に、ネガティブ領域の重み係数wの値は各領域112−Jにおいて同一である。定数GP,の値は、デジタルカメラ1の工場出荷時に予め決定され、設定される。 As represented by the formula (1), the weight coefficient w P of the positive region, the constant G P is a value obtained by dividing the number Np of positive areas, weighting coefficient w N negative region, the negative constant G N This is a value divided by the number of areas Nn. The value of the weighting factor w P positive region is the same in each region 111-J. Similarly, the value of the weight coefficient w N negative region is the same in each region 112-J. The value of the constant G P, G N is predetermined at the time of factory digital camera 1 is set.

定数GP,の値は、例えばいずれも0.5に設定したり、定数Gの値を0.8とし、定数Gの値を0.2とすることもできる。重み係数w,wのうち、対応する定数がより大きい値に設定された方の重みがより強くなる。定数GP,の値を所定の値に設定することで、重み係数wと重み係数wのバランスを、適宜調整することができる。 The value of the constant G P, G N, for example to set either to 0.5, the value of the constant G P is 0.8, the value of the constant G N can also be 0.2. Of the weight coefficients w P and w N , the weight with the corresponding constant set to a larger value becomes stronger. Constant G P, by setting the value of G N to a predetermined value, the balance of the weight coefficient w P and the weighting coefficient w N, can be appropriately adjusted.

ステップS4において計算部24は、評価値Eval(K)を計算する。評価値Eval(K)は、式(2)で表される。式(2)における信頼度Confidence(K)は、式(3)で表される。Kは、例えば0乃至256のように、変化される整数値である。   In step S4, the calculation unit 24 calculates an evaluation value Eval (K). The evaluation value Eval (K) is expressed by Expression (2). The reliability Confidence (K) in Expression (2) is expressed by Expression (3). K is an integer value that is changed, for example, from 0 to 256.

Figure 2012203613
Figure 2012203613
Figure 2012203613
Figure 2012203613

すなわち、式(2)では、基準領域111−0の対象画像114と、複数のポジティブ領域111−1,111−2,・・・の画像との信頼度Confidence(K)が第1の信頼度とされる。これが式(2)の右辺の第1項の信頼度Confidence(K)である。基準領域111−0の対象画像114と複数のネガティブ領域112−1,112−2,・・・の画像との信頼度Confidence(K)が第2の信頼度とされる。これが式(2)の右辺の第2項の信頼度Confidence(K)である。第1の信頼度とポジティブ領域111−1,111−2,・・・の第1の重み係数wとの積和が第1の積和とされ、第2の信頼度とネガティブ領域112−1,112−2,・・・の第2の重み係数wとの積和が第2の積和とされる。そして第1の積和と第2の積和の和が評価値Eval(K)とされる。 That is, in Expression (2), the reliability Confidence (K) between the target image 114 of the reference region 111-0 and the images of the plurality of positive regions 111-1, 111-2,. It is said. This is the reliability Confidence (K) of the first term on the right side of Equation (2). The reliability Confidence (K) between the target image 114 in the reference area 111-0 and the images in the plurality of negative areas 112-1, 112-2,... Is the second reliability. This is the reliability Confidence (K) of the second term on the right side of Equation (2). First reliability and positive regions 111-1 and 111-2, the product-sum of the first weighting factor w P of ... is the first product-sum, the second reliability and negative regions 112- 1,112-2, sum of products between the second weighting factor w N of ... are the second sum-of-products. The sum of the first product sum and the second product sum is used as the evaluation value Eval (K).

式(3)におけるfeat_Aは、トラッキングする対象であるオブジェクトを含む対象画像114と比較画像の第1の特徴量(例えば輝度情報)のマッチング度であり、feat_Bは、第2の特徴量(例えば色情報)のマッチング度である。Kは、第1の特徴量のマッチング度feat_Aと第2の特徴量のマッチング度feat_Bの混合率を意味する。式(3)から判るように、信頼度Confidence(K)は、比較画像が、対象画像114と一致する確からしさを表しており、その値が大きい程、比較画像が対象画像114と一致する可能性が高い。勿論、輝度情報と色情報以外の特徴量を用いることができる。   In Expression (3), feat_A is the degree of matching between the target image 114 including the object to be tracked and the first feature amount (eg, luminance information) of the comparison image, and feat_B is the second feature amount (eg, color) Information) matching degree. K means a mixing ratio of the matching degree feat_A of the first feature quantity and the matching degree feat_B of the second feature quantity. As can be seen from Equation (3), the reliability Confidence (K) represents the probability that the comparison image matches the target image 114, and the larger the value, the more likely the comparison image matches the target image 114. High nature. Of course, feature quantities other than luminance information and color information can be used.

式(2)における右辺の第1項のΣのtrueは、ポジティブ領域のConfidence(K)だけを積和することを意味する。式(2)における右辺の第1項のポジティブ領域のConfidence(K)を計算する場合において対象画像114と比較される比較画像は、ポジティブ領域111−Jの画像である。同様に、第2項のΣのtrueは、ネガティブ領域のConfidence(K)だけを積和することを意味する。式(2)における右辺の第2項のネガティブ領域のConfidence(K)を計算する場合において対象画像114と比較される比較画像は、ネガティブ領域112−Jの画像である。   The true value of Σ in the first term on the right side in Equation (2) means that only the confidence (K) in the positive region is summed. The comparison image to be compared with the target image 114 when calculating Confidence (K) of the positive region of the first term on the right side in Expression (2) is an image of the positive region 111-J. Similarly, the true value of Σ in the second term means that only the Confidence (K) in the negative region is summed. When calculating Confidence (K) of the negative region in the second term on the right side in Expression (2), the comparison image compared with the target image 114 is an image of the negative region 112-J.

ステップS5において計算部24は、評価値Eval(K)の値を最大とする混合率Kmを求める。すなわち、混合率Kの値を0乃至256に順次変化させて、評価値Eval(K)の値が計算される。そして257個の評価値Eval(K)の値の中から最大のものが選択され、評価値Eval(K)の値を最大とする混合率Kmが決定される。   In step S5, the calculation unit 24 obtains a mixing rate Km that maximizes the evaluation value Eval (K). That is, the value of the evaluation value Eval (K) is calculated by sequentially changing the value of the mixing ratio K from 0 to 256. Then, the maximum value is selected from the 257 evaluation value Eval (K) values, and the mixture ratio Km that maximizes the evaluation value Eval (K) value is determined.

図4は、評価値を説明する図である。混合率Kの値を0乃至256に順次変化させると、評価値Eval(K)の値は図4に示されるように変化する。図4の例では、評価値Eval(K)の値を最大にする混合率Kは、Kmである。評価値Eval(K)の値を最大にする混合率Kmが、そのフレームのオブジェクト102を含む対象画像114を検出するのに最適な混合率である。ステップS8,S9で後述するように、次のフレームでは、この混合率Kmを用いて信頼度Confidence(K)が演算される。つまり評価値Eval(K)は、最適な混合率Kmを決定するための関数である。   FIG. 4 is a diagram for explaining the evaluation value. When the value of the mixing rate K is sequentially changed from 0 to 256, the evaluation value Eval (K) changes as shown in FIG. In the example of FIG. 4, the mixing rate K that maximizes the value of the evaluation value Eval (K) is Km. The mixing rate Km that maximizes the evaluation value Eval (K) is the optimal mixing rate for detecting the target image 114 including the object 102 of the frame. As will be described later in steps S8 and S9, in the next frame, the reliability Confidence (K) is calculated using this mixing ratio Km. That is, the evaluation value Eval (K) is a function for determining the optimum mixing ratio Km.

そこでステップS6において設定部25は、式(3)の信頼度Confidence(K)に、ステップS5で求められた混合率Kmを設定する。   Therefore, in step S6, the setting unit 25 sets the mixing ratio Km obtained in step S5 to the reliability Confidence (K) of the equation (3).

以上のようにしてステップS1乃至S6の処理により、第1のフレームで混合率Kの学習処理が行われた後、続くステップS7乃至S11により第2のフレームでトラッキング処理が行われる。   As described above, the learning process of the mixing ratio K is performed in the first frame by the processes in steps S1 to S6, and then the tracking process is performed in the second frame in subsequent steps S7 to S11.

ステップS7において取り込み部21は画像を取り込む。つまりステップS1で取り込まれたフレームF1の次のフレームF2の画像が記憶部15から読み出され、取り込まれる。   In step S7, the capturing unit 21 captures an image. That is, the image of the frame F2 next to the frame F1 captured in step S1 is read from the storage unit 15 and captured.

ステップS8において演算部26は、取り込んだ画像上でスキャン画像をスキャンし、各スキャン画像の信頼度Confidence(K)を演算する。すなわちステップS2の処理で、フレームF1の基準領域111−0の画像が対象画像114として決定されている。現在のフレーム(つまりステップS7で取り込まれたフレームF2)上の所定の位置の、対象画像114に対応する大きさのスキャン領域のスキャン画像が比較画像として抽出され、対象画像114と比較される。そして対象画像114とスキャン画像の間の第1の特徴量のマッチング度feat_Aと第2の特徴量のマッチング度feat_Bが演算される。演算された第1の特徴量のマッチング度feat_Aと第2の特徴量のマッチング度feat_Bを式(3)に適用して、信頼度Confidence(K)が演算される。このときの混合率Kとしては、ステップS6で設定された値Kmが用いられる。   In step S8, the calculation unit 26 scans the scanned image on the captured image, and calculates the reliability Confidence (K) of each scanned image. That is, the image of the reference area 111-0 of the frame F1 is determined as the target image 114 in the process of step S2. A scan image of a scan area having a size corresponding to the target image 114 at a predetermined position on the current frame (that is, the frame F <b> 2 captured in step S <b> 7) is extracted as a comparison image and compared with the target image 114. Then, a first feature amount matching degree feat_A and a second feature amount matching degree feat_B between the target image 114 and the scanned image are calculated. The reliability degree Confidence (K) is calculated by applying the calculated matching degree feat_A of the first feature quantity and the matching degree feat_B of the second feature quantity to Equation (3). As the mixing ratio K at this time, the value Km set in step S6 is used.

図5は、スキャンを説明する図である。図5に示されるように、ステップS7で取り込まれたフレーム201(すなわちフレームF2)上の所定の位置のスキャン領域221−1のスキャン画像222−1が比較画像として抽出され、ステップS2で指定された前のフレームF1の対象画像114と比較される。スキャン領域221−1の大きさは、基準領域111−0と同じ大きさとされている。つまり、スキャン画像222−1は対象画像114と同じ大きさとされている。式(3)の混合率Kの値が最大値Kmに設定された状態で、対象画像211とスキャン画像222−1との信頼度Confidence(K)が演算される。   FIG. 5 is a diagram for explaining scanning. As shown in FIG. 5, a scan image 222-1 of the scan region 221-1 at a predetermined position on the frame 201 (that is, the frame F2) captured in step S7 is extracted as a comparison image and designated in step S2. It is compared with the target image 114 of the previous frame F1. The size of the scan area 221-1 is the same as that of the reference area 111-0. That is, the scanned image 222-1 has the same size as the target image 114. The reliability Confidence (K) between the target image 211 and the scan image 222-1 is calculated in a state where the value of the mixing ratio K in Expression (3) is set to the maximum value Km.

フレーム201上の比較領域は、比較領域211−1,211−2,211−3,・・・と順次移動され、同様の処理が繰り返される。フレーム201上のスキャンする範囲は、フレーム201の全体とすることもできるが、ステップS2で指定された基準領域111−0の座標(すなわち前回のステップS10の処理でマーカ231が表示された座標)を基準として、そこから所定の距離の範囲内とすることもできる。スキャンする範囲を制限した方が計算量を少なくすることができる。   The comparison area on the frame 201 is sequentially moved to comparison areas 211-1, 211-2, 211-3,..., And the same processing is repeated. The range to be scanned on the frame 201 may be the entire frame 201, but the coordinates of the reference area 111-0 specified in step S2 (that is, the coordinates at which the marker 231 is displayed in the previous processing in step S10). Can be within a predetermined distance. The amount of calculation can be reduced by limiting the scanning range.

ステップS9において検出部27は、信頼度Confidence(K)が最大となる領域を検出する。すなわち、ステップS8の処理で演算された各スキャン領域221−J(J=1,2,・・・)の信頼度Confidence(K)の中から、最も大きな値の信頼度Confidence(K)が選択され、その信頼度Confidence(K)に対応するスキャン領域221−Mが選択される。そして、そのフレーム201(フレームF2)上のスキャン領域221−Mの画像が、フレーム101(フレームF1)上の対象画像114に対応する画像232とされる。つまり、フレーム101上の基準領域111−0の対象画像114が、フレームF2のスキャン領域221−Mに移動し、画像232として表示されているものと判断される(後述する図6を参照)。   In step S9, the detection unit 27 detects a region where the reliability Confidence (K) is maximized. That is, the reliability Confidence (K) having the largest value is selected from the reliability Confidence (K) of each scan region 221-J (J = 1, 2,...) Calculated in the process of Step S8. Then, the scan area 221 -M corresponding to the reliability Confidence (K) is selected. The image of the scan area 221 -M on the frame 201 (frame F2) is set as an image 232 corresponding to the target image 114 on the frame 101 (frame F1). That is, it is determined that the target image 114 in the reference area 111-0 on the frame 101 is moved to the scan area 221-M in the frame F2 and displayed as the image 232 (see FIG. 6 described later).

ステップS10で表示部28は、検出された位置にマーカ231を表示する。図6は、マーカ231の表示を説明する図である。図6においては、スキャン領域221−Mにオブジェクト102を含む画像232が表示されている。そしてスキャン領域221−Mの位置にマーカ231が表示されている。つまり画像232に対してマーカ232が表示されている。フォーカス部29は、マーカ231内に表示されている画像232を基準にフォーカスが合うように、レンズ12を駆動、調整する。ユーザはこのマーカ231を見て、いまどこにフォーカスが合っているのかを確認することができる。   In step S10, the display unit 28 displays the marker 231 at the detected position. FIG. 6 is a diagram for explaining the display of the marker 231. In FIG. 6, an image 232 including the object 102 is displayed in the scan area 221 -M. A marker 231 is displayed at the position of the scan area 221-M. That is, the marker 232 is displayed with respect to the image 232. The focus unit 29 drives and adjusts the lens 12 so that the image is focused on the image 232 displayed in the marker 231. The user can check the marker 231 to confirm where the focus is now.

ステップS11において判定部30は、トラッキングを終了するかを判定する。ユーザが入力部14を操作して、トラッキングの中止を指令した場合、トラッキング処理は終了される。   In step S11, the determination unit 30 determines whether to end tracking. When the user operates the input unit 14 and instructs to stop tracking, the tracking process is terminated.

トラッキングの中止が指令されていない場合、処理はステップS1に戻り、さらに次のフレームF3の画像が取り込まれる。そしてステップS2においてオブジェクトを含む領域を切り出す処理が行われる。最初のフレームF1の場合、まだステップS10の処理が行われていないので、ユーザにより指定された位置に基づいて基準領域111−0が設定された。しかしいまの場合、ステップS10の処理で前回の対象画像114に対応する画像232の座標が判っているので、フレーム201のマーカ231が表示されている領域221−Mに対応する座標の次のフレーム301の領域が新たな基準領域111−0とされ、そこを基準に切り出し処理が行われる。   If tracking is not instructed, the process returns to step S1, and an image of the next frame F3 is further captured. In step S2, a process for cutting out an area including the object is performed. In the case of the first frame F1, since the process of step S10 has not yet been performed, the reference area 111-0 is set based on the position designated by the user. However, in this case, since the coordinates of the image 232 corresponding to the previous target image 114 are known in the process of step S10, the next frame of the coordinates corresponding to the area 221-M where the marker 231 of the frame 201 is displayed. An area 301 is set as a new reference area 111-0, and the cutout process is performed based on the new reference area 111-0.

図7は、2回目の領域の切り出しを説明する図である。図7に示されるように、2回目のステップS1の処理で新たに取り込まれたフレーム301(すなわちフレームF3)の領域311−0は、1フレーム前の図6のフレーム201(すなわちフレームF2)上のスキャン領域221−Mに対応する領域である。この領域311−0が新たなフレーム301の基準領域とされ、そこに表示されている画像が新たな対象画像314とされる。切り出し部22は、この新たな基準領域311−0を基準として、新たなポジティブ領域311−1,311−2,・・・と、新たなネガティブ領域312−1,312−2,・・・を切り出す。   FIG. 7 is a diagram for explaining the second region extraction. As shown in FIG. 7, the region 311-0 of the frame 301 (that is, the frame F3) newly acquired in the process of the second step S1 is on the frame 201 (that is, the frame F2) of FIG. This is an area corresponding to the scan area 221-M. This region 311-0 is set as a reference region of a new frame 301, and an image displayed there is set as a new target image 314. The cut-out unit 22 uses the new reference area 311-0 as a reference to create new positive areas 311-1, 311-2,... And new negative areas 312-1, 312-2,. cut.

以下、同様の処理が行われる。すなわち、フレームF2の対象画像114に対応する画像232の座標に対応する領域であって、フレームF2よりさらに後のフレームF3の領域の画像が新たな対象画像314とされ、フレームF3で評価値Eval(K)が計算される。つまり、新たな対象画像314と、新たなポジティブ領域311−1,311−2,・・・、並びに新たなネガティブ領域312−1,312−2,・・・との間における評価値Eval(K)が計算される。   Thereafter, the same processing is performed. That is, an image corresponding to the coordinates of the image 232 corresponding to the target image 114 of the frame F2 and in the region of the frame F3 after the frame F2 is set as a new target image 314. (K) is calculated. That is, the evaluation value Eval (K between the new target image 314 and the new positive areas 311-1, 311-2,... And the new negative areas 312-1, 312-2,. ) Is calculated.

さらに計算された評価値Eval(K)が最大になるときの混合率Kmが求められる。そして、フレームF3の画像に基づいて評価値Eval(K)が最大になるときの混合率Kmが設定された信頼度Confidence(K)に基づいて、フレームF3よりさらに後のフレームF4(図示せず)において、フレームF3の新たな対象画像314に対応する画像が検出される。   Further, the mixing ratio Km when the calculated evaluation value Eval (K) becomes maximum is obtained. Then, based on the reliability Confidence (K) in which the mixing ratio Km when the evaluation value Eval (K) is maximized based on the image of the frame F3 is set, the frame F4 (not shown) further after the frame F3 ), An image corresponding to the new target image 314 of the frame F3 is detected.

このような処理が、各フレーム毎に繰り返されて、オブジェクト102が移動すると、その移動先をマーカ231がトラッキングし、表示される。ステップS1乃至S6の処理は、連続する奇数フレームと偶数フレームの一方で実行され、ステップS7乃至S11の処理は、他方で実行される。   Such processing is repeated for each frame, and when the object 102 moves, the marker 231 tracks and displays the movement destination. The processes of steps S1 to S6 are executed on one of the consecutive odd frames and even frames, and the processes of steps S7 to S11 are executed on the other.

なお、式(2)の右辺の第2項は、省略することも可能である。ただしこの場合、省略しない場合に比べてトラッキングの機能の質は低下する。   Note that the second term on the right side of Equation (2) can be omitted. However, in this case, the quality of the tracking function is deteriorated as compared with the case where it is not omitted.

また、式(3)における正規化処理に代えて、すなわち値256による除算をせずに、(256−K)の代わりに、(1−K)を用いるようにしてもよい。   Further, instead of the normalization process in Expression (3), that is, without dividing by the value 256, (1-K) may be used instead of (256-K).

さらにステップS10においてマーカ231を表示させるようにしたが、駆動部41を駆動して、常に、オブジェクト102がフレーム内の所定の位置(例えば中央)に位置するようにカメラ1の位置をパン、チルトして制御することもできる。   In step S10, the marker 231 is displayed. However, the driving unit 41 is driven, and the position of the camera 1 is panned and tilted so that the object 102 is always located at a predetermined position (for example, the center) in the frame. It can also be controlled.

本技術は、フレーム毎に得られる情報だけを利用しており、例えば動きベクトルのような複数のフレーム間の画像から得られる情報を利用したり、測距装置などを利用していないので、処理が迅速かつ簡単になる。また、本技術は、演算量が少ないので、デジタルカメラの他、ビデオカメラ、監視カメラ、その他の小型で安価な画像処理装置に適用し、リアルタイムでオブジェクトをトラッキングすることができる。   This technology uses only the information obtained for each frame. For example, it does not use information obtained from images between multiple frames, such as motion vectors, or uses a distance measuring device. Will be quick and easy. Further, since the present technology has a small amount of calculation, it can be applied to a video camera, a surveillance camera, and other small and inexpensive image processing apparatuses in addition to a digital camera to track an object in real time.

上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることができる。   The series of processes described above can be executed by hardware or can be executed by software.

一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、記憶部15に記憶される。   When a series of processing is executed by software, a program constituting the software is stored in the storage unit 15.

なお、本明細書において、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。   In this specification, the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or when a call is made. It may be a program that performs processing at a necessary timing.

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。   The embodiments of the present technology are not limited to the above-described embodiments, and various modifications can be made without departing from the gist of the present technology.

本技術は、以下のような構成もとることができる。
(1)
トラッキングの対象であるオブジェクトを含む対象画像と、第1のフレームの前記対象画像と比較される比較領域の画像である比較画像との、第1の特徴量のマッチング度と第2の特徴量のマッチング度を所定の混合率で混合して得られる信頼度の、前記混合率を変化させた場合の和で表される評価値を計算し、前記評価値が最大になるときの前記混合率を求める計算部と、
前記評価値が最大になるときの前記混合率が設定された前記信頼度に基づいて、第2のフレームの前記対象画像に対応する画像を検出する検出部と
を備える画像処理装置。
(2)
前記第1のフレームと前記第2のフレームは、奇数フレームと偶数フレームの一方と他方である
前記(1)に記載の画像処理装置。
(3)
前記第2のフレームのスキャン領域のスキャン画像を前記比較画像とし、前記対象画像と前記スキャン画像の前記信頼度を演算する演算部をさらに備える
前記(1)または(2)に記載の画像処理装置。
(4)
前記検出部は、前記対象画像と前記スキャン画像の前記信頼度が最大となる前記スキャン画像を前記対象画像に対応する画像として検出する
前記(1)、(2)または(3)に記載の画像処理装置。
(5)
前記計算部は、前記第1のフレームの基準領域の画像を前記対象画像とし、前記基準領域の前記対象画像を少なくとも一部に含む複数の領域をポジティブ領域とし、前記基準領域の前記対象画像を含まない複数の領域をネガティブ領域とし、前記基準領域の前記対象画像と複数の前記ポジティブ領域の画像との前記信頼度である第1の信頼度を計算し、前記基準領域の前記対象画像と複数の前記ネガティブ領域の画像との前記信頼度である第2の信頼度を計算し、前記第1の信頼度と前記ポジティブ領域の第1の重み係数のと積和である第1の積和を計算し、前記第2の信頼度と前記ネガティブ領域の第2の重み係数との積和である第2の積和を計算し、前記第1の積和と前記第2の積和の和を前記評価値として計算する
前記(1)乃至(4)のいずれかに記載の画像処理装置。
(6)
前記第1の重み係数は、定数を前記ポジティブ領域の数で除算した値であり、前記第2の重み係数は、前記定数を前記ネガティブ領域の数で除算した値である
前記(1)乃至(5)のいずれかに記載の画像処理装置。
(7)
前記計算部は、前記第2のフレームの前記対象画像に対応する画像の座標に対応する領域であって、前記第2のフレームよりさらに後の第3のフレームの領域の画像を新たな前記対象画像として、前記第3のフレームで前記評価値を計算して、前記評価値が最大になるときの前記混合率を求め、
前記検出部は、前記第3のフレームの画像に基づいて前記評価値が最大になるときの前記混合率が設定された前記信頼度に基づいて、前記第3のフレームよりさらに後の第4のフレームにおいて、前記第3のフレームの新たな前記対象画像に対応する画像を検出する
前記(1)乃至(6)のいずれかに記載の画像処理装置。
(8)
前記対象画像に対応する画像の座標に対応する領域にマーカを表示する表示部をさらに備える
前記(1)乃至(7)のいずれかに記載の画像処理装置。
(9)
前記対象画像に対応する画像が画面の所定の位置に配置されるようにカメラの位置を駆動する駆動部をさらに備える
前記(1)乃至(8)のいずれかに記載の画像処理装置。
(10)
前記第1の特徴量は輝度情報であり、
前記第2の特徴量は色情報である
前記(1)乃至(9)のいずれかに記載の画像処理装置。
(11)
トラッキングの対象であるオブジェクトを含む対象画像と、所定のフレームの前記対象画像と比較される比較領域の画像である比較画像との、第1の特徴量のマッチング度と第2の特徴量のマッチング度を所定の混合率で混合して得られる信頼度の、前記混合率を変化させた場合の和で表される評価値を計算し、前記評価値が最大になるときの前記混合率を求める計算ステップと、
前記評価値が最大になるときの前記混合率が設定された前記信頼度に基づいて前記対象画像に対応する画像を検出する検出ステップと
を含む画像処理方法。
(12)
トラッキングの対象であるオブジェクトを含む対象画像と、所定のフレームの前記対象画像と比較される比較領域の画像である比較画像との、第1の特徴量のマッチング度と第2の特徴量のマッチング度を所定の混合率で混合して得られる信頼度の、前記混合率を変化させた場合の和で表される評価値を計算し、前記評価値が最大になるときの前記混合率を求める計算ステップと、
前記評価値が最大になるときの前記混合率が設定された前記信頼度に基づいて前記対象画像に対応する画像を検出する検出ステップと
を含む処理をコンピュータに実行させるプログラムが記録されている記録媒体。
(13)
トラッキングの対象であるオブジェクトを含む対象画像と、所定のフレームの前記対象画像と比較される比較領域の画像である比較画像との、第1の特徴量のマッチング度と第2の特徴量のマッチング度を所定の混合率で混合して得られる信頼度の、前記混合率を変化させた場合の和で表される評価値を計算し、前記評価値が最大になるときの前記混合率を求める計算ステップと、
前記評価値が最大になるときの前記混合率が設定された前記信頼度に基づいて前記対象画像に対応する画像を検出する検出ステップと
を含む処理をコンピュータに実行させるプログラム。
The present technology can be configured as follows.
(1)
The degree of matching of the first feature amount and the second feature amount between the target image including the object to be tracked and the comparison image that is an image of the comparison region compared with the target image of the first frame. An evaluation value represented by the sum of the reliability obtained by mixing the matching degree at a predetermined mixing ratio when the mixing ratio is changed is calculated, and the mixing ratio when the evaluation value is maximized is calculated. A calculation unit to be obtained;
An image processing apparatus comprising: a detection unit configured to detect an image corresponding to the target image in a second frame based on the reliability set with the mixing ratio when the evaluation value is maximized.
(2)
The image processing apparatus according to (1), wherein the first frame and the second frame are one of the odd frame and the even frame and the other.
(3)
A scan unit that scans the scan area of the second frame as the comparison image, and further includes a calculation unit that calculates the reliability of the target image and the scan image.
The image processing apparatus according to (1) or (2).
(4)
The detection unit detects the scan image having the maximum reliability of the target image and the scan image as an image corresponding to the target image. The image according to (1), (2), or (3) Processing equipment.
(5)
The calculation unit sets the image of the reference area of the first frame as the target image, sets a plurality of areas including at least a part of the target image of the reference area as a positive area, and sets the target image of the reference area as the target image. A plurality of regions not included are defined as negative regions, a first reliability that is the reliability of the target image in the reference region and a plurality of images in the positive region is calculated, and a plurality of the target images in the reference region Calculating a second reliability that is the reliability with the image of the negative region, and calculating a first product sum that is a product sum of the first reliability and the first weighting factor of the positive region. Calculating a second product sum that is a product sum of the second reliability and the second weighting factor of the negative region, and calculating the sum of the first product sum and the second product sum. Calculated as the evaluation value (1) to (4 ).
(6)
The first weighting factor is a value obtained by dividing a constant by the number of positive regions, and the second weighting factor is a value obtained by dividing the constant by the number of negative regions. The image processing apparatus according to any one of 5).
(7)
The calculation unit is a region corresponding to the coordinates of an image corresponding to the target image of the second frame, and an image in a region of a third frame further after the second frame is newly added to the target As the image, the evaluation value is calculated in the third frame, and the mixing ratio when the evaluation value is maximized is obtained,
The detection unit, based on the reliability at which the mixing ratio when the evaluation value is maximized based on the image of the third frame is set, is set to a fourth level further after the third frame. The image processing device according to any one of (1) to (6), wherein an image corresponding to the new target image of the third frame is detected in a frame.
(8)
The image processing apparatus according to any one of (1) to (7), further including a display unit that displays a marker in a region corresponding to the coordinates of the image corresponding to the target image.
(9)
The image processing apparatus according to any one of (1) to (8), further including a drive unit that drives a position of the camera so that an image corresponding to the target image is arranged at a predetermined position on the screen.
(10)
The first feature amount is luminance information;
The image processing apparatus according to any one of (1) to (9), wherein the second feature amount is color information.
(11)
Matching between the first feature amount and the second feature amount between a target image including an object that is a tracking target and a comparison image that is an image of a comparison region compared with the target image of a predetermined frame An evaluation value represented by the sum of the reliability obtained by mixing the degrees at a predetermined mixing ratio when the mixing ratio is changed is calculated, and the mixing ratio when the evaluation value is maximized is obtained. A calculation step;
And a detecting step of detecting an image corresponding to the target image based on the reliability with which the mixing ratio when the evaluation value is maximized is set.
(12)
Matching between the first feature amount and the second feature amount between a target image including an object that is a tracking target and a comparison image that is an image of a comparison region compared with the target image of a predetermined frame An evaluation value represented by the sum of the reliability obtained by mixing the degrees at a predetermined mixing ratio when the mixing ratio is changed is calculated, and the mixing ratio when the evaluation value is maximized is obtained. A calculation step;
A recording in which a program for causing a computer to execute processing including: a detection step of detecting an image corresponding to the target image based on the reliability with which the mixing ratio when the evaluation value is maximized is set is recorded Medium.
(13)
Matching between the first feature amount and the second feature amount between a target image including an object that is a tracking target and a comparison image that is an image of a comparison region compared with the target image of a predetermined frame An evaluation value represented by the sum of the reliability obtained by mixing the degrees at a predetermined mixing ratio when the mixing ratio is changed is calculated, and the mixing ratio when the evaluation value is maximized is obtained. A calculation step;
And a detection step of detecting an image corresponding to the target image based on the reliability set with the mixing ratio when the evaluation value is maximized.

1 デジタルカメラ, 12 レンズ, 13 出力部, 14 入力部, 15 記憶部, 21 取り込み部, 22 切り出し部, 23 初期化部, 24 計算部, 25 設定部, 26 演算部, 27 検出部, 28 表示部, 29 フォーカス部, 30 判定部 DESCRIPTION OF SYMBOLS 1 Digital camera, 12 Lens, 13 Output part, 14 Input part, 15 Storage part, 21 Capture part, 22 Extraction part, 23 Initialization part, 24 Calculation part, 25 Setting part, 26 Calculation part, 27 Detection part, 28 Display Part, 29 focus part, 30 judgment part

Claims (13)

トラッキングの対象であるオブジェクトを含む対象画像と、第1のフレームの前記対象画像と比較される比較領域の画像である比較画像との、第1の特徴量のマッチング度と第2の特徴量のマッチング度を所定の混合率で混合して得られる信頼度の、前記混合率を変化させた場合の和で表される評価値を計算し、前記評価値が最大になるときの前記混合率を求める計算部と、
前記評価値が最大になるときの前記混合率が設定された前記信頼度に基づいて、第2のフレームの前記対象画像に対応する画像を検出する検出部と
を備える画像処理装置。
The degree of matching of the first feature amount and the second feature amount between the target image including the object to be tracked and the comparison image that is an image of the comparison region compared with the target image of the first frame. An evaluation value represented by the sum of the reliability obtained by mixing the matching degree at a predetermined mixing ratio when the mixing ratio is changed is calculated, and the mixing ratio when the evaluation value is maximized is calculated. A calculation unit to be obtained;
An image processing apparatus comprising: a detection unit configured to detect an image corresponding to the target image in a second frame based on the reliability set with the mixing ratio when the evaluation value is maximized.
前記第1のフレームと前記第2のフレームは、奇数フレームと偶数フレームの一方と他方である
請求項1に記載の画像処理装置。
The image processing apparatus according to claim 1, wherein the first frame and the second frame are one of an odd frame and an even frame.
前記第2のフレームのスキャン領域のスキャン画像を前記比較画像とし、前記対象画像と前記スキャン画像の前記信頼度を演算する演算部をさらに備える
請求項2に記載の画像処理装置。
A scan unit that scans the scan area of the second frame as the comparison image, and further includes a calculation unit that calculates the reliability of the target image and the scan image.
The image processing apparatus according to claim 2.
前記検出部は、前記対象画像と前記スキャン画像の前記信頼度が最大となる前記スキャン画像を前記対象画像に対応する画像として検出する
請求項3に記載の画像処理装置。
The image processing apparatus according to claim 3, wherein the detection unit detects the scan image having the maximum reliability of the target image and the scan image as an image corresponding to the target image.
前記計算部は、前記第1のフレームの基準領域の画像を前記対象画像とし、前記基準領域の前記対象画像を少なくとも一部に含む複数の領域をポジティブ領域とし、前記基準領域の前記対象画像を含まない複数の領域をネガティブ領域とし、前記基準領域の前記対象画像と複数の前記ポジティブ領域の画像との前記信頼度である第1の信頼度を計算し、前記基準領域の前記対象画像と複数の前記ネガティブ領域の画像との前記信頼度である第2の信頼度を計算し、前記第1の信頼度と前記ポジティブ領域の第1の重み係数のと積和である第1の積和を計算し、前記第2の信頼度と前記ネガティブ領域の第2の重み係数との積和である第2の積和を計算し、前記第1の積和と前記第2の積和の和を前記評価値として計算する
請求項4に記載の画像処理装置。
The calculation unit sets the image of the reference area of the first frame as the target image, sets a plurality of areas including at least a part of the target image of the reference area as a positive area, and sets the target image of the reference area as the target image. A plurality of regions not included are defined as negative regions, a first reliability that is the reliability of the target image in the reference region and a plurality of images in the positive region is calculated, and a plurality of the target images in the reference region Calculating a second reliability that is the reliability with the image of the negative region, and calculating a first product sum that is a product sum of the first reliability and the first weighting factor of the positive region. Calculating a second product sum that is a product sum of the second reliability and the second weighting factor of the negative region, and calculating the sum of the first product sum and the second product sum. The image according to claim 4, wherein the image is calculated as the evaluation value. Image processing device.
前記第1の重み係数は、定数を前記ポジティブ領域の数で除算した値であり、前記第2の重み係数は、前記定数を前記ネガティブ領域の数で除算した値である
請求項5に記載の画像処理装置。
The first weighting factor is a value obtained by dividing a constant by the number of positive regions, and the second weighting factor is a value obtained by dividing the constant by the number of negative regions. Image processing device.
前記計算部は、前記第2のフレームの前記対象画像に対応する画像の座標に対応する領域であって、前記第2のフレームよりさらに後の第3のフレームの領域の画像を新たな前記対象画像として、前記第3のフレームで前記評価値を計算して、前記評価値が最大になるときの前記混合率を求め、
前記検出部は、前記第3のフレームの画像に基づいて前記評価値が最大になるときの前記混合率が設定された前記信頼度に基づいて、前記第3のフレームよりさらに後の第4のフレームにおいて、前記第3のフレームの新たな前記対象画像に対応する画像を検出する
請求項5に記載の画像処理装置。
The calculation unit is a region corresponding to the coordinates of an image corresponding to the target image of the second frame, and an image in a region of a third frame further after the second frame is newly added to the target As the image, the evaluation value is calculated in the third frame, and the mixing ratio when the evaluation value is maximized is obtained,
The detection unit, based on the reliability at which the mixing ratio when the evaluation value is maximized based on the image of the third frame is set, is set to a fourth level further after the third frame. The image processing apparatus according to claim 5, wherein an image corresponding to the new target image of the third frame is detected in a frame.
前記対象画像に対応する画像の座標に対応する領域にマーカを表示する表示部をさらに備える
請求項5に記載の画像処理装置。
The image processing apparatus according to claim 5, further comprising: a display unit that displays a marker in an area corresponding to the coordinates of the image corresponding to the target image.
前記対象画像に対応する画像が画面の所定の位置に配置されるようにカメラの位置を駆動する駆動部をさらに備える
請求項5に記載の画像処理装置。
The image processing apparatus according to claim 5, further comprising a drive unit that drives the position of the camera so that an image corresponding to the target image is arranged at a predetermined position on the screen.
前記第1の特徴量は輝度情報であり、
前記第2の特徴量は色情報である
請求項5に記載の画像処理装置。
The first feature amount is luminance information;
The image processing apparatus according to claim 5, wherein the second feature amount is color information.
トラッキングの対象であるオブジェクトを含む対象画像と、所定のフレームの前記対象画像と比較される比較領域の画像である比較画像との、第1の特徴量のマッチング度と第2の特徴量のマッチング度を所定の混合率で混合して得られる信頼度の、前記混合率を変化させた場合の和で表される評価値を計算し、前記評価値が最大になるときの前記混合率を求める計算ステップと、
前記評価値が最大になるときの前記混合率が設定された前記信頼度に基づいて前記対象画像に対応する画像を検出する検出ステップと
を含む画像処理方法。
Matching between the first feature amount and the second feature amount between a target image including an object that is a tracking target and a comparison image that is an image of a comparison region compared with the target image of a predetermined frame An evaluation value represented by the sum of the reliability obtained by mixing the degrees at a predetermined mixing ratio when the mixing ratio is changed is calculated, and the mixing ratio when the evaluation value is maximized is obtained. A calculation step;
And a detecting step of detecting an image corresponding to the target image based on the reliability with which the mixing ratio when the evaluation value is maximized is set.
トラッキングの対象であるオブジェクトを含む対象画像と、所定のフレームの前記対象画像と比較される比較領域の画像である比較画像との、第1の特徴量のマッチング度と第2の特徴量のマッチング度を所定の混合率で混合して得られる信頼度の、前記混合率を変化させた場合の和で表される評価値を計算し、前記評価値が最大になるときの前記混合率を求める計算ステップと、
前記評価値が最大になるときの前記混合率が設定された前記信頼度に基づいて前記対象画像に対応する画像を検出する検出ステップと
を含む処理をコンピュータに実行させるプログラムが記録されている記録媒体。
Matching between the first feature amount and the second feature amount between a target image including an object that is a tracking target and a comparison image that is an image of a comparison region compared with the target image of a predetermined frame An evaluation value represented by the sum of the reliability obtained by mixing the degrees at a predetermined mixing ratio when the mixing ratio is changed is calculated, and the mixing ratio when the evaluation value is maximized is obtained. A calculation step;
A recording in which a program for causing a computer to execute processing including: a detection step of detecting an image corresponding to the target image based on the reliability with which the mixing ratio when the evaluation value is maximized is set is recorded Medium.
トラッキングの対象であるオブジェクトを含む対象画像と、所定のフレームの前記対象画像と比較される比較領域の画像である比較画像との、第1の特徴量のマッチング度と第2の特徴量のマッチング度を所定の混合率で混合して得られる信頼度の、前記混合率を変化させた場合の和で表される評価値を計算し、前記評価値が最大になるときの前記混合率を求める計算ステップと、
前記評価値が最大になるときの前記混合率が設定された前記信頼度に基づいて前記対象画像に対応する画像を検出する検出ステップと
を含む処理をコンピュータに実行させるプログラム。
Matching between the first feature amount and the second feature amount between a target image including an object that is a tracking target and a comparison image that is an image of a comparison region compared with the target image of a predetermined frame An evaluation value represented by the sum of the reliability obtained by mixing the degrees at a predetermined mixing ratio when the mixing ratio is changed is calculated, and the mixing ratio when the evaluation value is maximized is obtained. A calculation step;
And a detection step of detecting an image corresponding to the target image based on the reliability set with the mixing ratio when the evaluation value is maximized.
JP2011067138A 2011-03-25 2011-03-25 Image processing device, image processing method, recording medium, and program Withdrawn JP2012203613A (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2011067138A JP2012203613A (en) 2011-03-25 2011-03-25 Image processing device, image processing method, recording medium, and program
US13/354,852 US8774458B2 (en) 2011-03-25 2012-01-20 Image processing apparatus, image processing method, recording medium, and program
EP12159800A EP2503511A1 (en) 2011-03-25 2012-03-16 Image processing apparatus, image processing method, recording medium, and program
CN2012100706966A CN102693544A (en) 2011-03-25 2012-03-16 Image processing apparatus, image processing method, recording medium, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011067138A JP2012203613A (en) 2011-03-25 2011-03-25 Image processing device, image processing method, recording medium, and program

Publications (1)

Publication Number Publication Date
JP2012203613A true JP2012203613A (en) 2012-10-22

Family

ID=45936779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011067138A Withdrawn JP2012203613A (en) 2011-03-25 2011-03-25 Image processing device, image processing method, recording medium, and program

Country Status (4)

Country Link
US (1) US8774458B2 (en)
EP (1) EP2503511A1 (en)
JP (1) JP2012203613A (en)
CN (1) CN102693544A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112021007302T5 (en) 2021-03-12 2024-01-25 Omron Corporation IMAGE PROCESSING DEVICE AND IMAGE PROCESSING METHOD

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5825851B2 (en) * 2011-05-27 2015-12-02 キヤノン株式会社 Imaging apparatus and control method thereof
US9852511B2 (en) 2013-01-22 2017-12-26 Qualcomm Incoporated Systems and methods for tracking and detecting a target object
CN104219488B (en) * 2013-05-31 2019-01-11 索尼公司 The generation method and device and video monitoring system of target image
US9875548B2 (en) 2015-12-18 2018-01-23 Ricoh Co., Ltd. Candidate list generation
US9904990B2 (en) 2015-12-18 2018-02-27 Ricoh Co., Ltd. Single image rectification
US10514825B2 (en) 2015-12-18 2019-12-24 Ricoh Co., Ltd. Image recognition result visualization over time
US10339690B2 (en) 2015-12-18 2019-07-02 Ricoh Co., Ltd. Image recognition scoring visualization
US9911213B2 (en) 2015-12-18 2018-03-06 Ricoh Co., Ltd. Panoramic image stitching using objects
US9754237B2 (en) 2015-12-18 2017-09-05 Ricoh Co., Ltd. Index image quality metric
US9805289B2 (en) 2015-12-18 2017-10-31 Ricoh Co., Ltd. Color-based post-processing of images
US9984451B2 (en) 2015-12-18 2018-05-29 Michael Gormish Linear grouping of recognized items in an image
DE112016006940T5 (en) * 2016-07-11 2019-03-14 Mitsubishi Electric Corporation Moving picture processing means, moving picture processing method and moving picture processing program
CN108932273B (en) * 2017-05-27 2022-03-04 腾讯科技(深圳)有限公司 Picture screening method and device
CN108563692B (en) * 2018-03-16 2021-08-06 新智认知数据服务有限公司 Target duplicate checking method and device
CN110233962B (en) * 2019-04-26 2021-04-16 努比亚技术有限公司 Confidence optimization method and device and computer readable storage medium
CN112710227B (en) * 2019-10-24 2023-04-25 浙江舜宇智能光学技术有限公司 Box volume measuring method and system
CN113014955B (en) * 2019-12-19 2022-11-15 北京百度网讯科技有限公司 Video frame processing method and device, electronic equipment and computer readable storage medium
CN112597895B (en) * 2020-12-22 2024-04-26 阿波罗智联(北京)科技有限公司 Confidence determining method based on offset detection, road side equipment and cloud control platform

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5528698A (en) * 1995-03-27 1996-06-18 Rockwell International Corporation Automotive occupant sensing device
US7340079B2 (en) * 2002-09-13 2008-03-04 Sony Corporation Image recognition apparatus, image recognition processing method, and image recognition program
CN101051385B (en) * 2006-04-07 2011-11-23 欧姆龙株式会社 Tracking method and device for special shooted objects and tracking method and device for aspect parts
CN1932846A (en) * 2006-10-12 2007-03-21 上海交通大学 Visual frequency humary face tracking identification method based on appearance model
JP4434236B2 (en) 2007-06-11 2010-03-17 ソニー株式会社 Image processing apparatus, image display apparatus, imaging apparatus, processing method and program thereof
CN101325691B (en) * 2007-06-14 2010-08-18 清华大学 Method and apparatus for tracing a plurality of observation model with fusion of differ durations
JP4479756B2 (en) 2007-07-05 2010-06-09 ソニー株式会社 Image processing apparatus, image processing method, and computer program
JP4853425B2 (en) 2007-08-14 2012-01-11 ソニー株式会社 Imaging apparatus, imaging method, and program
JP5109564B2 (en) 2007-10-02 2012-12-26 ソニー株式会社 Image processing apparatus, imaging apparatus, processing method and program therefor
US8320613B2 (en) * 2008-06-04 2012-11-27 Lockheed Martin Corporation Detecting and tracking targets in images based on estimated target geometry
JP5544528B2 (en) 2009-09-25 2014-07-09 三和システムエンジニアリング株式会社 Method and apparatus for automatically forming and inserting fiber body

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112021007302T5 (en) 2021-03-12 2024-01-25 Omron Corporation IMAGE PROCESSING DEVICE AND IMAGE PROCESSING METHOD

Also Published As

Publication number Publication date
CN102693544A (en) 2012-09-26
US8774458B2 (en) 2014-07-08
US20120243737A1 (en) 2012-09-27
EP2503511A1 (en) 2012-09-26

Similar Documents

Publication Publication Date Title
JP2012203613A (en) Image processing device, image processing method, recording medium, and program
US11809998B2 (en) Maintaining fixed sizes for target objects in frames
US11835702B2 (en) Medical image processing apparatus, medical image processing method, and medical observation system
JP6043856B2 (en) Head pose estimation using RGBD camera
CN109565551B (en) Synthesizing images aligned to a reference frame
US10506172B2 (en) Camera setting adjustment based on predicted environmental factors and tracking systems employing the same
US8494256B2 (en) Image processing apparatus and method, learning apparatus and method, and program
US9648229B2 (en) Image processing device and associated methodology for determining a main subject in an image
JP4699040B2 (en) Automatic tracking control device, automatic tracking control method, program, and automatic tracking system
JP2018533805A (en) Face position tracking method, device and electronic device
CN111935393A (en) Shooting method, shooting device, electronic equipment and storage medium
CN103688292A (en) Image display apparatus and image display method
EP3115935B1 (en) A method, apparatus, computer program and system for image analysis
KR20120005040A (en) Method of selecting an optimal viewing angle position for a camera
KR101664733B1 (en) Omnidirectional high resolution tracking and recording apparatus and method
US11394873B2 (en) Control apparatus, control method, and recording medium
US10198617B2 (en) Image-acquisition apparatus
TW201222422A (en) Method and arrangement for identifying virtual visual information in images
JP6921606B2 (en) Image processing equipment, image processing methods and programs
CN114374903B (en) Sound pickup method and sound pickup apparatus
WO2021024860A1 (en) Information processing device, information processing method, and program
US11617024B2 (en) Dual camera regions of interest display
KR102028726B1 (en) Analysis apparatus of object motion in space and control method thereof
JP2016119572A (en) Image processing apparatus, imaging apparatus, image processing method, and program
TW202019150A (en) Information display system and information display method

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140603