JP2020008899A - Image processing device, image processing method, program and storage medium - Google Patents

Image processing device, image processing method, program and storage medium Download PDF

Info

Publication number
JP2020008899A
JP2020008899A JP2018126359A JP2018126359A JP2020008899A JP 2020008899 A JP2020008899 A JP 2020008899A JP 2018126359 A JP2018126359 A JP 2018126359A JP 2018126359 A JP2018126359 A JP 2018126359A JP 2020008899 A JP2020008899 A JP 2020008899A
Authority
JP
Japan
Prior art keywords
dictionary data
subject
detection
image processing
dedicated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018126359A
Other languages
Japanese (ja)
Other versions
JP6812387B2 (en
Inventor
良介 辻
Ryosuke Tsuji
良介 辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018126359A priority Critical patent/JP6812387B2/en
Priority to US16/456,890 priority patent/US11144797B2/en
Publication of JP2020008899A publication Critical patent/JP2020008899A/en
Application granted granted Critical
Publication of JP6812387B2 publication Critical patent/JP6812387B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Devices (AREA)

Abstract

To improve accuracy of detecting a subject in machine learning.SOLUTION: An image processing device comprises: a detection unit of detecting a target subject by referring to dictionary data acquired in machine learning corresponding to the target subject to be detected; a selection unit of selecting any piece of dictionary data from among a plurality of pieces of dictionary data with respect to the target subject; and a control unit of controlling the detection unit so as to detect the target subject using the selected dictionary data and different dictionary data from the selected dictionary data in the case where a detection evaluation value at detection of the subject using the dictionary data selected by the selection unit is lower than a predetermined value.SELECTED DRAWING: Figure 5

Description

本発明は、被写体検出機能を有する画像処理装置に関する。   The present invention relates to an image processing device having a subject detection function.

画像から特定の被写体パターンを自動的に検出する画像処理方法は、例えば、人間の顔領域を画像から特定することができるなど、非常に有用な技術である。特許文献1に開示されているように、デジタルカメラやデジタルビデオカメラといった撮像装置では、人物の顔領域のような特定の被写体パターンの領域を撮影画像から検出し、検出された領域に焦点や露出を最適化させることが行われている。   An image processing method of automatically detecting a specific subject pattern from an image is a very useful technique, for example, such that a human face region can be specified from an image. As disclosed in Patent Literature 1, an imaging apparatus such as a digital camera or a digital video camera detects an area of a specific subject pattern such as a face area of a person from a captured image, and focuses and exposes the detected area. Optimization has been done.

また、画像中の被写体を学習、認識するために、非特許文献1に開示されているような深層学習と呼ばれる手法が存在する。深層学習の代表的な手法として、コンボリューショナル・ニューラル・ネットワーク(以下、CNNと記す)と呼ばれる手法がある。一般的なCNNは、多段階の演算からなる。CNNの各段階では畳み込み演算を行って画像の局所の特徴を空間的に統合し、次の段階の中間層のニューロンへ入力する。さらにプーリングやサブサンプリングと呼ばれる、特徴量を空間方向へ圧縮する操作を行う。CNNは、このような多段階の特徴変換を通じて複雑な特徴表現を獲得することができる。そのため特徴量に基づいて画像中の被写体のカテゴリ認識や被写体検出を高精度に行うことができる。CNNに代表される機械学習では、画像信号と教師信号がセットとして学習される。学習の結果、被写体検出の処理パラメータである辞書データが生成される。   Further, there is a technique called deep learning as disclosed in Non-Patent Document 1 in order to learn and recognize a subject in an image. As a typical technique of deep learning, there is a technique called a convolutional neural network (hereinafter, referred to as CNN). A general CNN consists of multi-stage calculations. At each stage of the CNN, a convolution operation is performed to spatially integrate the local features of the image and input to the next-stage neuron in the intermediate layer. In addition, an operation called "pooling" or "subsampling" is performed to compress the feature in the spatial direction. The CNN can acquire a complex feature expression through such multi-stage feature conversion. Therefore, category recognition and subject detection of the subject in the image can be performed with high accuracy based on the feature amount. In machine learning represented by CNN, an image signal and a teacher signal are learned as a set. As a result of the learning, dictionary data, which is a processing parameter for subject detection, is generated.

特開2005−318554号公報JP 2005-318554 A 特開2015−5237号公報JP-A-2005-5237

Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems 25 (NIPS’12), 2012Alex Krizhevsky, Ilya Sutskever, Geoffrey E .; Hinton, ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems 25 (NIPS'12), 2012.

写真撮影を行う場合、撮影シーンによって、被写体特性が異なることがある。ここで言う被写体特性とは、被写体を人物とした場合に、人物の見え方の違いであり、人物の姿勢、人物の重なりなどの検出難易度に影響を与える特性である。被写体特性毎に辞書データを学習し、所定の被写体に特化した辞書データを検出処理に利用することで、検出精度を高めることができる。   When photographing, subject characteristics may differ depending on the shooting scene. Here, the subject characteristic is a difference in how the person looks when the subject is a person, and is a characteristic that affects the detection difficulty of the posture of the person, the overlap of the person, and the like. By learning dictionary data for each subject characteristic and using dictionary data specialized for a predetermined subject in the detection processing, detection accuracy can be improved.

そこで、被写体の検出精度を向上させるために、状況に応じて適切な被写体特性の辞書データを切り替えて用いる手法が考えられる。特許文献2では、撮像装置から被写体までの距離に応じて設定された複数の距離範囲について、距離範囲ごとの学習特徴量を記憶し、学習特徴量と被写体の特徴量とを照合して、被写体を検出する。被写体検出用の辞書の切り替えに関しては、公知の技術が存在するが、被写体特性の異なる辞書データの切り替えに関しては開示されていない。また、被写体特性に応じた専用辞書データを利用する方法において、撮影時に特異な被写体特性が発生した場合、汎用的な辞書データよりも検出精度が低下する場合がある。   Therefore, in order to improve the detection accuracy of the subject, a method of switching and using dictionary data having appropriate subject characteristics depending on the situation is conceivable. In Patent Literature 2, for a plurality of distance ranges set in accordance with the distance from an imaging device to a subject, learning feature amounts for each of the distance ranges are stored, and the learning feature amount is compared with the feature amount of the subject. Is detected. Although there is a known technique for switching the dictionary for subject detection, it does not disclose switching of dictionary data having different subject characteristics. Further, in the method using the dedicated dictionary data corresponding to the subject characteristics, when a unique subject characteristic occurs at the time of shooting, the detection accuracy may be lower than that of general-purpose dictionary data.

本発明は上述した課題に鑑みてなされたものであり、その目的は、機械学習による被写体検出の精度を向上させることである。   The present invention has been made in view of the above-described problem, and an object of the present invention is to improve the accuracy of subject detection by machine learning.

本発明に係わる画像処理装置は、取得した画像から、検出しようとする目的の被写体に対応する、機械学習によって獲得された辞書データを参照することにより、前記目的とする被写体を検出する検出手段と、前記目的とする被写体に対する複数の辞書データからいずれかの辞書データを選択する選択手段と、前記選択手段により選択された辞書データを用いて前記被写体を検出した場合の検出評価値が所定値よりも低かった場合に、前記選択された辞書データと、該選択された辞書データとは異なる辞書データとを用いて前記目的とする被写体を検出するように、前記検出手段を制御する制御手段と、を備え、前記複数の辞書データは、汎用辞書データと、複数の専用辞書データを含み、前記複数の専用辞書データのそれぞれは、前記目的とする被写体が前記複数の専用辞書データのそれぞれに対応する条件下にある場合には、前記汎用辞書データよりも前記目的とする被写体を検出することができる確率が高い辞書データであり、前記汎用辞書データは、前記複数の専用辞書データのそれぞれよりも多くの条件下において前記目的とする被写体を検出することができる辞書データであることを特徴とする。   The image processing apparatus according to the present invention includes a detection unit that detects the target object by referring to dictionary data acquired by machine learning corresponding to the target object to be detected from the acquired image. Selecting means for selecting any dictionary data from a plurality of dictionary data for the target subject; and a detection evaluation value when the subject is detected using the dictionary data selected by the selecting means, is greater than a predetermined value. Also, when low, the selected dictionary data, and control means for controlling the detection means, so as to detect the target object using dictionary data different from the selected dictionary data, Wherein the plurality of dictionary data includes general-purpose dictionary data and a plurality of dedicated dictionary data, and each of the plurality of dedicated dictionary data is When the subject to be read is under the condition corresponding to each of the plurality of special dictionary data, the general dictionary data has a higher probability of being able to detect the target subject than the general dictionary data. The data is dictionary data capable of detecting the target subject under more conditions than each of the plurality of dedicated dictionary data.

本発明によれば、機械学習による被写体検出の精度を向上させることが可能となる。   According to the present invention, it is possible to improve the accuracy of subject detection by machine learning.

本発明の画像処理装置の一実施形態であるデジタル一眼レフカメラの側断面図。FIG. 1 is a side sectional view of a digital single-lens reflex camera which is an embodiment of an image processing apparatus according to the present invention. デジタル一眼レフカメラのブロック構成を示す図。FIG. 2 is a diagram illustrating a block configuration of a digital single-lens reflex camera. 被写体特性に応じた辞書データの例を示す図。FIG. 4 is a diagram illustrating an example of dictionary data according to subject characteristics. デジタル一眼レフカメラの撮像動作の手順を示したフローチャート。5 is a flowchart illustrating a procedure of an imaging operation of the digital single-lens reflex camera. デジタル一眼レフカメラの被写体検出の手順を示すフローチャート。5 is a flowchart illustrating a procedure of detecting a subject of the digital single-lens reflex camera. 被写体検出で利用する辞書データの状態遷移図。FIG. 6 is a state transition diagram of dictionary data used for subject detection. CNNの全体構成の例を示す模式図。FIG. 2 is a schematic diagram illustrating an example of the entire configuration of a CNN. CNNの部分構成の例を示す模式図。FIG. 2 is a schematic diagram illustrating an example of a partial configuration of a CNN.

以下、本発明の一実施形態について、添付図面を参照して詳細に説明する。なお、本発明の以下の実施形態は発明の好ましい形態を示すものであり、本発明の範囲を限定するものではない。以下の実施形態ではデジタル一眼レフカメラの例を用いて説明を行うが、目的とする被写体を検出する機能を備えたミラーレスカメラ、ビデオカメラ、監視カメラ、カメラ機能付きスマートフォンなどであってもよい。また、これらのカメラにて撮影された動画を受け取ったパーソナルコンピュータ、クラウドコンピュータ、あるいは、エッジコンピュータにおいて、目的とする被写体を検出する処理を実施する場合にも、本発明を適用することが可能である。   Hereinafter, an embodiment of the present invention will be described in detail with reference to the accompanying drawings. The following embodiments of the present invention show preferred embodiments of the present invention, and do not limit the scope of the present invention. The following embodiments will be described using an example of a digital single-lens reflex camera, but may be a mirrorless camera, a video camera, a surveillance camera, a smartphone with a camera function, or the like having a function of detecting a target subject. . Also, the present invention can be applied to a case where a personal computer, a cloud computer, or an edge computer that receives a moving image captured by these cameras performs a process of detecting a target subject. is there.

(撮像装置の構成)
図1は、本発明の画像処理装置の一実施形態であるデジタル一眼レフカメラ100の側断面図であり、図2は、デジタル一眼レフカメラ100のブロック構成を示す図である。
(Configuration of imaging device)
FIG. 1 is a side sectional view of a digital single-lens reflex camera 100 which is an embodiment of the image processing apparatus of the present invention, and FIG. 2 is a diagram showing a block configuration of the digital single-lens reflex camera 100.

図1において、デジタル一眼レフカメラ100は、カメラ本体101と、カメラ本体101に着脱自在に装着される撮影レンズ102を備えて構成される。また、図2において、カメラ本体101は、デジタル一眼レフカメラ100全体を制御するシステム制御部201を備える。システム制御部201には、後述するクイックリターンミラー103、焦点検出センサー105、測光センサー108、フォーカルプレーンシャッター110、撮像素子111、表示部112、マウント接点群115が接続されている。システム制御部201には、さらに後述する画像記憶部202、操作部203、被写体検出部204、辞書データを記憶した記憶部210が接続されている。なお、システム制御部201は、複数のタスクを並列処理できるマルチコアCPU、RAMおよびROMを備え、カメラ本体101および撮影レンズ102の各部を制御する。   In FIG. 1, a digital single-lens reflex camera 100 includes a camera body 101 and a photographing lens 102 detachably mounted on the camera body 101. 2, the camera main body 101 includes a system control unit 201 that controls the entire digital single-lens reflex camera 100. The system control unit 201 is connected to a quick return mirror 103, a focus detection sensor 105, a photometric sensor 108, a focal plane shutter 110, an image sensor 111, a display unit 112, and a mount contact group 115, which will be described later. The system control unit 201 is further connected to an image storage unit 202, an operation unit 203, a subject detection unit 204, and a storage unit 210 that stores dictionary data, which will be described later. The system control unit 201 includes a multi-core CPU, a RAM, and a ROM that can perform a plurality of tasks in parallel, and controls each unit of the camera body 101 and the photographing lens 102.

以下、図1及び図2を用いてデジタル一眼レフカメラ100の各部の構成について説明する。撮影レンズ102は交換可能であり、カメラ本体101と撮影レンズ102は、マウント接点群115を介して電気的にも接続される。撮影レンズ102の中には、フォーカシングレンズ113と絞りシャッター114が配置され、マウント接点群115を介した制御により、カメラ内に取り込む光量とピントを調整できるように構成されている。   Hereinafter, the configuration of each unit of the digital single-lens reflex camera 100 will be described with reference to FIGS. 1 and 2. The taking lens 102 is replaceable, and the camera body 101 and the taking lens 102 are also electrically connected via a mount contact group 115. A focusing lens 113 and an aperture shutter 114 are arranged in the taking lens 102, and are configured so that the amount of light taken into the camera and the focus can be adjusted by control via a mount contact group 115.

クイックリターンミラー103は、メインミラー103aとサブミラー103bを備える。メインミラー103aは、ハーフミラーにより構成されている。メインミラー103aはファインダー観測状態では撮影光路上に斜設され、撮影レンズ102から入射される光束をファインダー光学系へと反射する。一方、透過光はサブミラー103bを介して焦点検出センサー105へと入射する。   The quick return mirror 103 includes a main mirror 103a and a sub mirror 103b. The main mirror 103a is configured by a half mirror. The main mirror 103a is disposed obliquely on the photographing optical path in the viewfinder observation state, and reflects a light beam incident from the photographing lens 102 to the viewfinder optical system. On the other hand, the transmitted light enters the focus detection sensor 105 via the sub mirror 103b.

焦点検出センサー105は、撮影レンズ102の二次結像面に配置された焦点検出ラインセンサーを有し、位相差検出方式によって撮影レンズ102の焦点状態を表すAF信号(自動焦点制御信号)を生成する。生成されたAF信号はシステム制御部201へ送信され、システム制御部201は、AF信号に基づいてフォーカシングレンズ113の焦点状態を検出する。さらにシステム制御部201は、焦点検出の結果に基づいてフォーカシングレンズ113の駆動を制御することにより焦点調節を行う。   The focus detection sensor 105 has a focus detection line sensor disposed on the secondary imaging plane of the photographing lens 102, and generates an AF signal (automatic focus control signal) indicating the focus state of the photographing lens 102 by a phase difference detection method. I do. The generated AF signal is transmitted to the system control unit 201, and the system control unit 201 detects the focus state of the focusing lens 113 based on the AF signal. Further, the system control unit 201 performs focus adjustment by controlling the driving of the focusing lens 113 based on the result of focus detection.

ファインダー光学系における撮影レンズ102の予定結像面には、ピント板106が配置されている。ピント板106を通過した光は、ペンタプリズム107により光路が変更され、アイピース109に導かれる。撮影者は、アイピース109を介してピント板106を観察することによって、撮影画面と撮影情報を確認することができる。   A focusing plate 106 is arranged on a predetermined image forming plane of the photographing lens 102 in the finder optical system. The light path of the light passing through the focus plate 106 is changed by the pentaprism 107 and guided to the eyepiece 109. The photographer can check the photographing screen and photographing information by observing the focus plate 106 via the eyepiece 109.

アイピース109の脇には、測光センサー108が配置されている。測光センサー108は、照射される光を光電変換し、輝度信号と色差信号を有する画像データを生成する。測光センサー108は、また生成された画像データに基づいてAE信号(自動露出制御信号)を生成し、システム制御部201へ送信する。システム制御部201は、受信したAE信号を用いて露出制御を行う。また、被写体検出部204では、AE信号に基づいて、被写体検出を行う。システム制御部201は、被写体検出部204において検出された被写体に基づき、焦点調節、露出制御を最適化させる。   A photometric sensor 108 is arranged beside the eyepiece 109. The photometric sensor 108 photoelectrically converts the irradiated light, and generates image data having a luminance signal and a color difference signal. The photometric sensor 108 also generates an AE signal (automatic exposure control signal) based on the generated image data, and transmits the signal to the system control unit 201. The system control unit 201 performs exposure control using the received AE signal. The subject detection unit 204 performs subject detection based on the AE signal. The system control unit 201 optimizes focus adjustment and exposure control based on the subject detected by the subject detection unit 204.

クイックリターンミラー103の後方には、フォーカルプレーンシャッター110、撮像素子111が配置されている。露光を行う際は、メインミラー103a及びサブミラー103bが撮影光路上から退避し、フォーカルプレーンシャッター110が開くことにより、撮像素子111が露光される。フォーカルプレーンシャッター110は、撮影を行わない時には撮像素子111を遮光し、撮影時には開いて撮像素子111へ被写体光束を導く。   Behind the quick return mirror 103, a focal plane shutter 110 and an image sensor 111 are arranged. When performing exposure, the main mirror 103a and the sub-mirror 103b are retracted from the imaging optical path, and the focal plane shutter 110 is opened, so that the image sensor 111 is exposed. The focal plane shutter 110 shields the image sensor 111 when no image capturing is performed, and opens to guide a subject light beam to the image sensor 111 during image capturing.

撮像素子111は、CCDやCMOSセンサー等で構成され、赤外カットフィルターやローパスフィルター等を含む。撮像素子111は、撮影レンズ102の撮影光学系を通過して結像した被写体像を光電変換し、画像信号を生成してシステム制御部201に送信する。システム制御部201は、受信した画像信号から画像データを生成して画像記憶部202へ保存するとともに、LCD等の表示部112に表示する。   The imaging element 111 is configured by a CCD, a CMOS sensor, or the like, and includes an infrared cut filter, a low-pass filter, and the like. The image sensor 111 photoelectrically converts a subject image formed by passing through the imaging optical system of the imaging lens 102, generates an image signal, and transmits the image signal to the system control unit 201. The system control unit 201 generates image data from the received image signal, stores it in the image storage unit 202, and displays the image data on the display unit 112 such as an LCD.

操作部203は、不図示のレリーズボタン、スイッチ、接続機器等を介して行なわれるユーザー操作を検知し、操作内容に応じた信号をシステム制御部201へ送信する。レリーズボタンが半押し操作されると、レリーズスイッチSW1がオンしてAF(オートフォーカス)やAE(自動露出制御)等の撮影準備動作が行われる。また、レリーズボタンが全押し操作されると、レリーズスイッチSW2がオンして静止画の撮影動作が行われる。撮影結果をユーザーが確認できるように、直前に撮影した静止画を一定時間表示部112に表示する。   The operation unit 203 detects a user operation performed via a release button (not shown), a switch, a connected device, or the like, and transmits a signal corresponding to the operation content to the system control unit 201. When the release button is half-pressed, the release switch SW1 is turned on, and a shooting preparation operation such as AF (auto focus) or AE (auto exposure control) is performed. When the release button is fully pressed, the release switch SW2 is turned on, and a still image capturing operation is performed. A still image taken immediately before is displayed on the display unit 112 for a certain period of time so that the user can confirm the photographing result.

次に、上記のように構成されるデジタル一眼レフカメラの被写体検出動作について説明する。   Next, the subject detection operation of the digital single-lens reflex camera configured as described above will be described.

(被写体検出における辞書切り替え)
被写体検出部204では、前述したAE信号から被写体を検出する。被写体検出部204では、記憶部210に記憶された機械学習に基づく辞書データを用いて被写体を検出するための処理パラメ−タが決定される。撮影シーンに応じて、被写体の特性が異なる場合がある。そこで、被写体特性毎に辞書データを用意し、シーンに合わせた辞書データを利用することで被写体の検出精度を高めることができる。すなわち、複数の辞書データを有し、状況に応じて辞書データを選定して利用する。
(Dictionary switching for subject detection)
The subject detection unit 204 detects a subject from the AE signal described above. In the subject detection unit 204, processing parameters for detecting a subject are determined using dictionary data based on machine learning stored in the storage unit 210. The characteristics of the subject may vary depending on the shooting scene. Therefore, dictionary data is prepared for each subject characteristic, and the detection accuracy of the subject can be improved by using the dictionary data according to the scene. That is, it has a plurality of dictionary data, and selects and uses the dictionary data according to the situation.

図2に示すように、記憶部210は、汎用的な辞書データ205、被写体特性に応じた2つ以上の専用辞書データ206−1〜206−N(Nは2以上の整数)を記憶している。辞書データの選択方法としては、操作部203を介して、ユーザーが目的に応じて選択する方法がある。また、システム制御部201が状況に応じて、適正な辞書データを選択する方法でもよい。   As illustrated in FIG. 2, the storage unit 210 stores general-purpose dictionary data 205 and two or more dedicated dictionary data 206-1 to 206-N (N is an integer of 2 or more) corresponding to subject characteristics. I have. As a method for selecting dictionary data, there is a method in which the user selects the dictionary data via the operation unit 203 according to the purpose. Alternatively, a method in which the system control unit 201 selects appropriate dictionary data according to the situation may be used.

図3を用いて、辞書データと被写体の特性の例について説明する。図3は、被写体を人物として、1列目にID、2列名に辞書データの定義、3列目に被写体の例を記載した表を示している。ID1は汎用辞書データであり、一般的な人物被写体の画像データと教師データから機械学習によって獲得される辞書データである。ID2〜ID5は、専用辞書データであり、特定の人物の状態に特化して学習させた辞書データである。専用辞書データは、例えば、被写体の姿勢、被写体の数、被写体の重なり、被写体に対する装飾物の有無および種別の少なくとも1つの要素で区分された辞書データあると言うこともできる。ID2は、人物被写体が特異な姿勢の状態、ID3は人物被写体に重なりがある状態、ID4は人物被写体が多数存在する状態、ID5は人物被写体の頭部などに装飾物がある状態を示す。すなわち、ID1乃至ID5は、いずれも共通の特定の被写体(ここでは人物)を検出するための辞書データである。ID2乃至ID4を用いれば、被写体がそれぞれに対応する特定の条件を満たしていれば、ID1の汎用辞書データよりも高い確率で被写体を検出でき、反対に、特定の条件を満たしていなければ、ID1の汎用辞書データよりも被写体を検出できる確率は低くなる。ID1の汎用辞書データを用いれば、複数の条件下、あるいは、それぞれの専用辞書データよりも多くの条件下においても被写体を検出できるが、ID2乃至IDのいずれかに対応する条件下においては、ID2乃至ID4のいずれかの辞書データよりも被写体を検出できる確率は低くなる。なお、ここでは被写体を人物として説明を行うが、これに限られるものではなく、検出対象は、人物の一部(例えば頭部)、特定の個人、特定の動物、特定の物体、あるいは、特定のシーンなどとすることも可能である。   An example of dictionary data and characteristics of a subject will be described with reference to FIG. FIG. 3 shows a table in which the subject is a person, the ID is defined in the first column, the definition of dictionary data is defined in the second column, and the example of the subject is described in the third column. ID1 is general-purpose dictionary data, which is dictionary data obtained by machine learning from image data of general human subjects and teacher data. ID2 to ID5 are dedicated dictionary data, and are dictionary data specialized and learned for a specific person. The dedicated dictionary data can be said to be, for example, dictionary data divided by at least one element of the posture of the subject, the number of the subjects, the overlap of the subjects, the presence / absence of a decoration for the subject, and the type. ID2 indicates a state in which the human subject has a peculiar posture, ID3 indicates a state in which the human subject overlaps, ID4 indicates a state in which many human subjects exist, and ID5 indicates a state in which there is a decoration on the head or the like of the human subject. That is, ID1 to ID5 are dictionary data for detecting a common specific subject (here, a person). If ID2 to ID4 are used, the subject can be detected with a higher probability than the general-purpose dictionary data of ID1 if the subject satisfies the specific condition corresponding to each. The probability that the subject can be detected is lower than that of the general-purpose dictionary data. If the general dictionary data of ID1 is used, the subject can be detected under a plurality of conditions or more conditions than each of the dedicated dictionary data. However, under the conditions corresponding to any of ID2 to ID, ID2 can be detected. The probability that the subject can be detected is lower than that of any of the dictionary data of ID4 to ID4. Here, the subject is described as a person, but is not limited to this, and the detection target is a part of a person (for example, a head), a specific individual, a specific animal, a specific object, or a specific object. Scenes and the like.

撮影シーンにおける被写体特性に応じて適切な辞書データを設定することにより、高精度な被写体検出が可能となる。しかしながら、専用辞書データは特定の被写体には検出精度が高いものの、汎化能力は失われている。そのため、撮影時に特異な被写体特性が発生した場合、汎用辞書データよりも専用辞書データの方が検出精度が低下する場合がある。そこで、設定された辞書データが専用辞書データであり、検出評価値が低かった場合は、汎用辞書データと設定された専用辞書データの両方を用いるなど複数の辞書データを用いる。例えば、汎用辞書データと専用辞書データとを交互に利用することで、検出精度が連続的に低下してしまう状況を回避することができる。   By setting appropriate dictionary data according to the characteristics of the subject in the shooting scene, highly accurate subject detection can be performed. However, although the dedicated dictionary data has high detection accuracy for a specific subject, generalization ability is lost. Therefore, when peculiar subject characteristics occur at the time of shooting, the detection accuracy of the dedicated dictionary data may be lower than that of the general dictionary data. Therefore, if the set dictionary data is dedicated dictionary data and the detection evaluation value is low, a plurality of dictionary data is used, such as using both general-purpose dictionary data and the set dedicated dictionary data. For example, by alternately using general-purpose dictionary data and special-purpose dictionary data, it is possible to avoid a situation where the detection accuracy continuously decreases.

(撮像装置の処理の流れ)
次に、図4、図5を参照して、上記構成のデジタル一眼レフカメラの撮像動作について説明する。図4は、デジタル一眼レフカメラ100の撮像動作の手順を示したフローチャートである。このフローチャートの動作は、システム制御部201がROMに格納されたプログラムをRAMに展開して実行することにより実現される。
(Processing flow of imaging device)
Next, an imaging operation of the digital single-lens reflex camera having the above configuration will be described with reference to FIGS. FIG. 4 is a flowchart illustrating a procedure of an imaging operation of the digital single-lens reflex camera 100. The operation of this flowchart is realized by the system control unit 201 expanding the program stored in the ROM into the RAM and executing the program.

ステップS401では、操作部203を介して、ユーザーにより被写体検出部204に辞書データが設定される。汎用辞書データ205、専用辞書データ206−1〜206−Nのいずれかが設定される。ユーザーによる設定がない場合は、初期設定を汎用辞書データ205とする。なお、ここで、以下のステップS402〜ステップS409までの一連の処理はカメラの1フレーム分に相当する処理である。   In step S401, the user sets dictionary data in the subject detection unit 204 via the operation unit 203. One of the general dictionary data 205 and the special dictionary data 206-1 to 206-N is set. If there is no setting by the user, the initial setting is the general dictionary data 205. Here, a series of processing from step S402 to step S409 described below corresponds to one frame of the camera.

ステップS402では、システム制御部201は、レリーズスイッチSW1とレリーズスイッチSW2の状態を検出し、いずれかがオンであれば、フレームを1つ進めるとともに、ステップS403へ進む。レリーズスイッチSW1とSW2のいずれもオフであれば、処理を終了する。   In step S402, the system control unit 201 detects the states of the release switch SW1 and the release switch SW2, and if either of them is on, advances the frame by one and advances to step S403. If both the release switches SW1 and SW2 are off, the process ends.

ステップS403では、システム制御部201は、測光センサー108に電荷蓄積を行わせ、生成された像信号をAE信号として読み出す。また、システム制御部201は、焦点検出センサー105に電荷蓄積を行わせ、生成された像信号をAF信号として読み出す。   In step S403, the system control unit 201 causes the photometric sensor 108 to perform charge accumulation, and reads out the generated image signal as an AE signal. Further, the system control unit 201 causes the focus detection sensor 105 to perform charge accumulation, and reads out the generated image signal as an AF signal.

ステップS404では、被写体検出部204は、ステップS403で読み出したAE信号を入力画像として、被写体検出を行う。被写体検出の処理の詳細は後述する。ステップS405では、システム制御部201は、ステップS404で検出された被写体の位置に最も近い焦点検出領域を選択し、ステップS403で取得したAF信号を用いて、選択した焦点検出領域の焦点状態を検出する。なお、ステップS404で被写体が検出されなかった場合には、全ての焦点検出領域の焦点検出を行った上で、最もカメラに近い位置に焦点がある焦点検出領域を選択する。   In step S404, the subject detection unit 204 performs subject detection using the AE signal read in step S403 as an input image. Details of the subject detection processing will be described later. In step S405, the system control unit 201 selects the focus detection area closest to the position of the subject detected in step S404, and detects the focus state of the selected focus detection area using the AF signal acquired in step S403. I do. If no subject is detected in step S404, focus detection is performed for all focus detection areas, and then a focus detection area having a focus closest to the camera is selected.

ステップS406では、システム制御部201は、ステップS405で選択された焦点検出領域の焦点状態に基づいて、フォーカシングレンズ113の焦点位置を調節する。ステップS407では、システム制御部201は、ステップS403で読み出したAE信号を用いて公知の方法により自動露出演算を行い、絞り値(AV値)、シャッタスピード(TV値)、ISO感度(ISO値)を決定する。ここでのAV値、TV値、ISO値は、予め記憶されたプログラム線図を用いて決定される。   In step S406, the system control unit 201 adjusts the focus position of the focusing lens 113 based on the focus state of the focus detection area selected in step S405. In step S407, the system control unit 201 performs an automatic exposure calculation by a known method using the AE signal read in step S403, and sets an aperture value (AV value), a shutter speed (TV value), and an ISO sensitivity (ISO value). To determine. Here, the AV value, the TV value, and the ISO value are determined using a program diagram stored in advance.

ステップS408では、システム制御部201は、レリーズスイッチSW2の状態を検出し、レリーズスイッチSW2がオンであればステップS409へ進む。一方、レリーズスイッチSW2がオフであれば、ステップS402へ戻る。   In step S408, the system control unit 201 detects the state of the release switch SW2, and proceeds to step S409 if the release switch SW2 is on. On the other hand, if the release switch SW2 is off, the process returns to step S402.

ステップS409では、システム制御部201は、メインミラー103aおよびサブミラー103bをアップすることで光路上から退避させ、撮像素子111を露光させる。露光された撮像素子111は画像信号を生成し、システム制御部201へ画像信号を送信する。そして、システム制御部201は、撮像素子111から受信した画像信号を元に画像データを生成し、画像記憶部202に保存するとともに、表示部112に表示する。以上が、本実施形態におけるデジタル一眼レフカメラの動作手順である。   In step S409, the system control unit 201 raises the main mirror 103a and the sub-mirror 103b to retreat from the optical path, and exposes the image sensor 111. The exposed image sensor 111 generates an image signal and transmits the image signal to the system control unit 201. Then, the system control unit 201 generates image data based on the image signal received from the imaging element 111, stores the image data in the image storage unit 202, and displays the image data on the display unit 112. The above is the operation procedure of the digital single-lens reflex camera in the present embodiment.

(被写体検出の処理の流れ)
次に、図5を参照して、図4のステップS404における被写体検出の処理の流れについて説明する。
(Processing flow of subject detection)
Next, the flow of the subject detection process in step S404 in FIG. 4 will be described with reference to FIG.

ステップS501では、システム制御部201が、被写体検出部204で利用する辞書データの種別を判定する。辞書データが汎用辞書データ205であれば(ステップS501でNOと判定)、ステップS504へ進む。ステップS504では、被写体検出部204が、汎用辞書データに基づいて、後述するCNNの手法により画像信号から被写体検出を行う。辞書データが専用辞書データ206−1〜206−Nのいずれかであれば(ステップS501でYESと判定)、ステップS502へ進む。   In step S501, the system control unit 201 determines the type of dictionary data used by the subject detection unit 204. If the dictionary data is the general dictionary data 205 (NO in step S501), the process proceeds to step S504. In step S504, the subject detection unit 204 performs subject detection from an image signal based on the general-purpose dictionary data using a CNN method described below. If the dictionary data is any of the dedicated dictionary data 206-1 to 206-N (determined as YES in step S501), the process proceeds to step S502.

ステップS502では、被写体検出部204が、設定された専用辞書データに基づいて画像信号から被写体検出を行う。次いで、ステップS503では、システム制御部201が、ステップS502で検出された被写体の検出評価値が所定値よりも低いか否かを判定する。検出評価値が所定値以上であれば(ステップS503でNOと判定)、目的とする被写体を検出できたと判断し、検出処理を終了する。検出評価値が所定値より低ければ(ステップS503でYESと判定)、目的とする被写体を検出できていないと判断する。この場合、特異状況が発生して、汎化能力の低い専用辞書では検出が苦手な状態に陥っている可能性がある。そこで、ステップS504では、被写体検出部204に、汎用辞書データを用いて、被写体の検出処理を再度実施させる。その結果を被写体検出の結果として処理を終了する。   In step S502, the subject detection unit 204 performs subject detection from the image signal based on the set dedicated dictionary data. Next, in step S503, the system control unit 201 determines whether the detection evaluation value of the subject detected in step S502 is lower than a predetermined value. If the detection evaluation value is equal to or greater than the predetermined value (NO in step S503), it is determined that the target subject has been detected, and the detection process ends. If the detection evaluation value is lower than the predetermined value (YES in step S503), it is determined that the target subject has not been detected. In this case, there is a possibility that a special situation occurs, and a special dictionary having a low generalization ability is in a state where detection is poor. Therefore, in step S504, the subject detection unit 204 causes the subject detection processing to be performed again using the general-purpose dictionary data. The processing ends as the result of subject detection.

上述の説明では、専用辞書データによる被写体検出の評価値が低ければ、汎用辞書データを用いた被写体検出を行うように説明した。この場合、1フレームあたり2回、被写体検出を行うことになり、処理負荷が高く撮像処理の遅延が大きくなる。そこで、専用辞書データによる被写体検出の評価値が低ければ、この専用辞書データと汎用辞書データとを時間方向で切り替えながら処理する方法が考えられる。この場合、1フレームあたりの検出回数は1回であるため、撮像処理の遅延は大きくならない。この専用辞書データと汎用辞書データを切り替えながら処理する方法において、専用辞書データの検出評価値が高くなると、専用辞書データのみを用いた検出処理に移行する。これによって、一時的に専用辞書データが苦手な特異状況が発生したとしても、専用辞書の特性を活かした検出処理に復帰することができる。   In the above description, it has been described that if the evaluation value of the subject detection by the dedicated dictionary data is low, the subject detection using the general dictionary data is performed. In this case, subject detection is performed twice per frame, so that the processing load is high and the delay of the imaging process is large. Therefore, if the evaluation value of subject detection by the dedicated dictionary data is low, a method of processing while switching between the dedicated dictionary data and the general-purpose dictionary data in the time direction can be considered. In this case, since the number of detections per frame is one, the delay of the imaging process does not increase. In this method of processing while switching between the dedicated dictionary data and the general-purpose dictionary data, when the detection evaluation value of the dedicated dictionary data increases, the process shifts to a detection process using only the dedicated dictionary data. As a result, even if a special situation where the dedicated dictionary data is not good temporarily occurs, it is possible to return to the detection process utilizing the characteristics of the dedicated dictionary.

上述した被写体検出部204の辞書データの利用状態を図6の状態遷移図を用いて説明する。状態601,602,603は辞書データの利用状態を示し、状態601は汎用辞書データを利用する状態、状態602は専用辞書データを利用する状態、状態603は専用辞書データと汎用辞書データを交互に利用する状態を示す。状態601は初期状態であり、状態間の矢印は状態遷移の条件を示す。状態601では、操作部203を介してユーザーが専用辞書データを指定すれば状態602に遷移する。状態602では、操作部203を介してユーザーが汎用辞書データを指定すれば状態601に遷移する。また、状態602では、専用辞書データによる被写体検出の評価値が低ければ、状態603へ遷移する。状態603では、操作部203を介してユーザーが汎用辞書データを指定すれば状態601に遷移する。また、状態603では、専用辞書データによる被写体検出の評価値が高ければ、状態602へ遷移する。以上の状態遷移により被写体検出の処理を行う。   The use state of the dictionary data of the subject detection unit 204 will be described with reference to the state transition diagram of FIG. States 601, 602, and 603 indicate the use states of dictionary data. State 601 is a state in which general-purpose dictionary data is used. State 602 is a state in which special-purpose dictionary data is used. Indicates the state of use. The state 601 is an initial state, and arrows between the states indicate conditions for state transition. In the state 601, the state transits to the state 602 if the user specifies the dedicated dictionary data via the operation unit 203. In the state 602, the state transits to the state 601 if the user specifies general-purpose dictionary data via the operation unit 203. Also, in the state 602, if the evaluation value of subject detection by the dedicated dictionary data is low, the state transits to the state 603. In the state 603, the state transits to the state 601 if the user specifies general-purpose dictionary data via the operation unit 203. Also, in the state 603, if the evaluation value of subject detection by the dedicated dictionary data is high, the state transits to the state 602. Subject detection processing is performed by the above state transition.

ここで、専用辞書データが選択されたときは、被写体検出の評価値が低い場合に汎用辞書データを併用するが、汎用辞書データが選択されたときは、被写体検出の評価値が低くとも専用辞書データを併用しない理由について説明する。ユーザーが専用辞書データを選択したにも関わらず、被写体検出の評価値が低い場合には、検出対象である被写体が選択した専用辞書データの対応する条件下にない可能性が高いと考えられる。そのため、この専用辞書データに対応しない条件下にある被写体も検出するために、汎用辞書データを併用することで、被写体を検出する確率を高くすることができる。反対に、ユーザーが専用辞書データを選択していないということは、検出対象である被写体が専用辞書データに対応する条件下ではない可能性が高いと思われる。そのため、汎用辞書データを用いた場合の被写体検出の評価値が低いからといって、専用辞書データを併用したとしても、被写体を検出する確率が高くなることは期待できない。そのため、汎用辞書データが選択されたときは、被写体検出の評価値が低くとも専用辞書データを併用する状態には遷移しない。 (CNNの詳細説明)
本実施形態では、被写体検出部204をCNN(コンボリューショナル・ニューラル・ネットワーク)で構成する。CNNの基本的な構成について、図7および図8を用いて説明する。図7は、入力された2次元画像データから被写体を検出するCNNの基本的な構成を示す図である。処理の流れは、左端を入力とし、右方向に処理が進んでいく。CNNは、特徴検出層(S層)と特徴統合層(C層)と呼ばれる2つの層を一つのセットとし、それが階層的に構成されている。
Here, when the dedicated dictionary data is selected, the general dictionary data is used together when the subject detection evaluation value is low. However, when the general dictionary data is selected, the dedicated dictionary data is used even if the subject detection evaluation value is low. The reason why data is not used together will be described. If the evaluation value of subject detection is low even though the user has selected the dedicated dictionary data, it is highly likely that the subject to be detected is not under the conditions corresponding to the selected dedicated dictionary data. Therefore, the probability of detecting a subject can be increased by using general-purpose dictionary data in combination with the general-purpose dictionary data in order to detect a subject that does not correspond to the dedicated dictionary data. Conversely, the fact that the user has not selected the dedicated dictionary data suggests that it is highly likely that the subject to be detected is not under conditions corresponding to the dedicated dictionary data. For this reason, even if the evaluation value of subject detection in the case of using general-purpose dictionary data is low, the probability of detecting a subject cannot be expected to increase even if dedicated dictionary data is used in combination. Therefore, when the general dictionary data is selected, the state does not transition to the state in which the dedicated dictionary data is used even if the evaluation value of the subject detection is low. (Detailed description of CNN)
In the present embodiment, the subject detection unit 204 is configured by a CNN (Convolutional Neural Network). The basic configuration of the CNN will be described with reference to FIGS. FIG. 7 is a diagram showing a basic configuration of a CNN for detecting a subject from input two-dimensional image data. In the processing flow, the left end is input and the processing proceeds rightward. The CNN is a set of two layers called a feature detection layer (S layer) and a feature integration layer (C layer), which are hierarchically configured.

CNNでは、まずS層において前段階層で検出された特徴に基づいて次の特徴を検出する。またS層において検出した特徴をC層で統合し、その階層における検出結果として次の階層に送る構成となっている。   The CNN first detects the next feature in the S layer based on the feature detected in the previous stage layer. In addition, features detected in the S layer are integrated in the C layer, and the detection result in that layer is sent to the next layer.

S層は特徴検出細胞面からなり、特徴検出細胞面ごとに異なる特徴を検出する。また、C層は、特徴統合細胞面からなり、前段の特徴検出細胞面での検出結果をプーリングする。以下では、特に区別する必要がない場合、特徴検出細胞面および特徴統合細胞面を総称して特徴面と呼ぶ。本実施形態では、最終段階層である出力層ではC層は用いずS層のみで構成している。   The S layer includes a feature detection cell surface, and detects a different feature for each feature detection cell surface. The C layer is composed of a feature-integrated cell surface, and pools detection results on the preceding feature detection cell surface. Hereinafter, the feature detection cell surface and the feature integrated cell surface are collectively referred to as a feature surface, unless it is particularly necessary to distinguish them. In the present embodiment, the output layer, which is the final stage layer, includes only the S layer without using the C layer.

特徴検出細胞面での特徴検出処理、および特徴統合細胞面での特徴統合処理の詳細について、図8を用いて説明する。特徴検出細胞面は、複数の特徴検出ニューロンにより構成され、特徴検出ニューロンは前段階層のC層に所定の構造で結合されている。また特徴統合細胞面は、複数の特徴統合ニューロンにより構成され、特徴統合ニューロンは同階層のS層に所定の構造で結合されている。図8中に示した、L階層目S層のM番目細胞面内において、位置(ξ,ζ)の特徴検出ニューロンの出力値をyLS M (ξ,ζ)、L階層目C層のM番目細胞面内において、位置(ξ,ζ)の特徴統合ニューロンの出力値をyLC M (ξ,ζ)と表記する。その時、それぞれのニューロンの結合係数をwLS M (n,u,v)、wLC M (u,v)とすると、各出力値は以下のように表すことができる。 The details of the feature detection process on the feature detection cell surface and the feature integration process on the feature integration cell surface will be described with reference to FIG. The feature detection cell surface is composed of a plurality of feature detection neurons, and the feature detection neurons are connected to the C layer of the previous stage in a predetermined structure. The feature-integrated cell surface is composed of a plurality of feature-integrated neurons, and the feature-integrated neurons are connected to the same layer of the S layer by a predetermined structure. In the Mth cell plane of the L-th layer S layer shown in FIG. 8, the output value of the feature detection neuron at the position (ξ, ζ) is represented by y LS M (ξ, ζ), th in the cell surface, the position (xi], zeta) the output value of the feature integration neuron y LC M (ξ, ζ) and denoted. At that time, the coupling coefficient w LS M of each neuron (n, u, v), w LC M (u, v) and when each output value can be expressed as follows.

Figure 2020008899
…(1)
Figure 2020008899
…(2)
式(1)のfは、活性化関数であり、ロジスティック関数や双曲正接関数などのシグモイド関数であれば何でもよい。uLS M(ξ,ζ)は、L階層目S層のM番目細胞面における、位置(ξ,ζ)の特徴検出ニューロンの内部状態である。式(2)は活性化関数を用いず単純な線形和をとっている。式(2)のように活性化関数を用いない場合は、ニューロンの内部状態uLC M(ξ,ζ)と出力値yLC M(ξ,ζ)は等しい。また、式(1)のyL-1C n(ξ+u,ζ+v)、式(2)のyLS M(ξ+u,ζ+v)をそれぞれ特徴検出ニューロン、特徴統合ニューロンの結合先出力値と呼ぶ。
Figure 2020008899
… (1)
Figure 2020008899
… (2)
F in Expression (1) is an activation function, and any sigmoid function such as a logistic function or a hyperbolic tangent function may be used. u LS M (ξ, で) is the internal state of the feature detection neuron at the position (ζ, ζ) on the M-th cell surface of the L-th hierarchical S layer. Equation (2) takes a simple linear sum without using an activation function. If without activation function as in Equation (2), the internal state of the neuron u LC M (ξ, ζ) and the output value y LC M (ξ, ζ) are equal. In addition, y L-1C n (ξ + u, ζ + v) in equation (1) and y LS M (ξ + u, ζ + v) in equation (2) are respectively connected to the feature detection neuron and the feature integration neuron. It is called the first output value.

式(1)及び式(2)におけるξ,ζ,u,v,nについて説明する。位置(ξ,ζ)は入力画像における位置座標に対応しており、例えばyLS M(ξ,ζ)が高い出力値である場合は、入力画像の画素位置(ξ,ζ)に、L階層目S層M番目細胞面において検出する特徴が存在する可能性が高いことを意味する。またnは式(1)において、L−1階層目C層n番目細胞面を意味しており、統合先特徴番号と呼ぶ。基本的にL−1階層目C層に存在する全ての細胞面についての積和演算を行う。(u,v)は、結合係数の相対位置座標であり、検出する特徴のサイズに応じて有限の範囲(u,v)において積和演算を行う。このような有限な(u,v)の範囲を受容野と呼ぶ。また受容野の大きさを、以下では受容野サイズと呼び、結合している範囲の横画素数×縦画素数で表す。 Ξ, ζ, u, v, and n in Equations (1) and (2) will be described. The position (ξ, ζ) corresponds to the position coordinates in the input image. For example, if y LS M (ξ, ζ) has a high output value, the pixel position (ξ, ζ) of the input image is placed on the L level. It means that there is a high possibility that the feature to be detected in the Mth cell surface of the eye S layer exists. Further, n in Expression (1) means the n-th cell surface of the C layer of the (L-1) th layer, and is referred to as an integration destination feature number. Basically, a product-sum operation is performed for all cell planes existing in the C layer of the (L-1) th layer. (U, v) is a relative position coordinate of the coupling coefficient, and performs a product-sum operation in a finite range (u, v) according to the size of the feature to be detected. Such a finite (u, v) range is called a receptive field. The size of the receptive field is hereinafter referred to as the receptive field size, and is represented by the number of horizontal pixels × the number of vertical pixels in the combined range.

また式(1)において、L=1つまり一番初めのS層では、式(1)中のyL-1C n(ξ+u,ζ+v)は、入力画像yin-image(ξ+u,ζ+v)となる。ちなみにニューロンや画素の分布は離散的であり、結合先特徴番号も離散的なので、ξ,ζ,u,v,nは連続な変数ではなく、離散的な値をとる。ここでは、ξ,ζは非負整数、nは自然数、u,vは整数とし、何れも有限な範囲となる。 In equation (1), in L = 1, that is, in the first S layer, y L-1C n (ξ + u, ζ + v) in equation (1) is equivalent to the input image y in-image (ξ + u, ζ + v). Incidentally, since the distribution of neurons and pixels is discrete and the connection destination feature number is also discrete, ξ, ζ, u, v, and n are not continuous variables but take discrete values. Here, ξ and ζ are non-negative integers, n is a natural number, and u and v are integers, both of which have a finite range.

式(1)中のwLS M (n,u,v)は、所定の特徴を検出するための結合係数分布であり、これを適切な値に調整することによって、所定の特徴を検出することが可能になる。この結合係数分布の調整が学習であり、CNNの構築においては、さまざまなテストパターンを提示して、yLS M (ξ,ζ)が適切な出力値になるように、結合係数を繰り返し徐々に修正していくことで結合係数の調整を行う。 W LS M (n, u, v) in the equation (1) is a coupling coefficient distribution for detecting a predetermined feature, and adjusting this to an appropriate value to detect the predetermined feature. Becomes possible. A learning adjustment of the coupling coefficient distribution, in the construction of CNN, presents a variety of test patterns, y LS M (ξ, ζ ) as is appropriate output value gradually repeatedly coupling coefficient The correction is performed to adjust the coupling coefficient.

次に、式(2)中のwLC M (u,v)は、2次元のガウシアン関数を用いており、以下の式(3)のように表すことができる。 Then, w LC M in formula (2) (u, v) is using a two-dimensional Gaussian function can be expressed as the following equation (3).

Figure 2020008899
…(3)
ここでも、(u,v)は有限の範囲としているので、特徴検出ニューロンの説明と同様に、有限の範囲を受容野といい、範囲の大きさを受容野サイズと呼ぶ。この受容野サイズは、ここではL階層目S層のM番目特徴のサイズに応じて適当な値に設定すればよい。式(3)数中の、σは特徴サイズ因子であり、受容野サイズに応じて適当な定数に設定しておけばよい。具体的には、受容野の一番外側の値がほぼ0とみなせるような値になるように設定するのがよい。上述のような演算を各階層で行うことにより、最終階層のS層において、被写体検出を行うのが、本実施形態におけるCNNの構成である。
Figure 2020008899
… (3)
Here, since (u, v) is a finite range, the finite range is called a receptive field, and the size of the range is called a receptive field size, as in the description of the feature detection neuron. Here, the receptive field size may be set to an appropriate value according to the size of the M-th feature in the L-th layer and the S-layer. In the equation (3), σ is a feature size factor, and may be set to an appropriate constant according to the size of the receptive field. Specifically, it is preferable that the outermost value of the receptive field be set to a value that can be regarded as substantially zero. The configuration of the CNN according to the present embodiment is such that the above-described calculation is performed in each layer, and the subject is detected in the S layer of the last layer.

(CNNの学習方法)
具体的な結合係数wLS M (n,u,v)の調整方法について説明する。結合係数の調整、すなわち学習の方法に関して説明する。学習では、テストパターンを与えて実際にニューロンの出力値を求め、その出力値と教師信号(そのニューロンが出力すべき望ましい出力値)の関係から結合係数wLS M (n,u,v)の修正を行う。本実施形態の学習においては、最終層の特徴検出層は最小二乗法を用い、中間層の特徴検出層は誤差逆伝搬法を用いて結合係数の修正を行う。最小二乗法、誤差逆伝搬法等の結合係数の修正手法の詳細は非特許文献1に記載されているため、ここでは詳細な説明は省略する。
(CNN learning method)
Specific coupling coefficient w LS M (n, u, v) adjusting method will be described. Adjustment of the coupling coefficient, that is, a learning method will be described. In the learning, actually obtains the output value of the neuron giving test pattern, the coupling coefficient from the relationship between the output value and the teacher signal (desired output value to be output by the neuron) w LS M (n, u , v) of Make corrections. In the learning of the present embodiment, the least squares method is used for the feature detection layer of the last layer, and the coupling coefficient is corrected for the feature detection layer of the intermediate layer using the backpropagation method. Since the details of the correction method of the coupling coefficient such as the least squares method and the error back propagation method are described in Non-Patent Document 1, the detailed description is omitted here.

学習用のテストパターンとして、検出すべき特定パターンと、検出すべきでないパターンを多数用意する。各テストパターンは、画像信号および教師信号を1セットとする。検出すべき特定パターンを提示した時は、最終層の特徴検出細胞面の、特定パターンが存在する領域のニューロンに対し、出力が1となるように教師信号を与える。逆に、検出すべきでないパターンを提示した時は、そのパターンの領域のニューロンに対し、出力が−1となるように教師信号を与える。   A large number of specific patterns to be detected and many patterns not to be detected are prepared as test patterns for learning. Each test pattern includes an image signal and a teacher signal as one set. When a specific pattern to be detected is presented, a teacher signal is given to neurons in an area where the specific pattern exists on the feature detection cell surface of the last layer so that the output becomes 1. Conversely, when a pattern that should not be detected is presented, a teacher signal is given to neurons in the area of the pattern so that the output becomes -1.

以上説明したように、本実施形態によれば、被写体特性に応じた辞書データを利用することで、被写体検出の精度を向上させるとともに、特異状況において検出精度を悪化させる可能性を抑制することができる。   As described above, according to the present embodiment, by using the dictionary data corresponding to the subject characteristics, it is possible to improve the accuracy of subject detection and to suppress the possibility of deteriorating the detection accuracy in a unique situation. it can.

なお、上記の実施形態では、辞書データの切り替えによって、機械学習によって獲得される検出処理パラメータ、すなわち結合係数wLS M (n,u,v)を切り替えるように説明した。本発明は、これに限定されず、辞書データの切り替えによりCNNのネットワーク構成を含めて切り替えてもよい。CNNのネットワーク構成の変更とは、特徴検出層の数、各層の受容野サイズ、活性化関数の種類などを変更することを意味する。 In the above embodiment, by switching the dictionary, detection processing parameters are obtained by a machine learning, that has been described to switch the coupling coefficient w LS M (n, u, v). The present invention is not limited to this, and switching including the network configuration of the CNN may be performed by switching dictionary data. Changing the network configuration of the CNN means changing the number of feature detection layers, the receptive field size of each layer, the type of activation function, and the like.

(その他の実施形態)
また本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現できる。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現できる。
(Other embodiments)
In addition, the present invention supplies a program for realizing one or more functions of the above-described embodiments to a system or an apparatus via a network or a storage medium, and one or more processors in a computer of the system or the apparatus read the program. It can also be realized by executing processing. Further, it can also be realized by a circuit (for example, an ASIC) that realizes one or more functions.

101:カメラ本体、102:撮影レンズ、201:システム制御部、203:操作部、204:被写体検出部、210:記憶部 101: camera body, 102: shooting lens, 201: system control unit, 203: operation unit, 204: subject detection unit, 210: storage unit

本発明に係わる画像処理装置は、複数の辞書データのうち、いずれかの辞書データを選択し、選択した辞書データを用いて、取得した画像の解析を行う解析手段を備え、前記複数の辞書データは、少なくとも、第1の辞書データと、第2の辞書データを含み、前記解析手段は、前記第1の辞書データを用いた被写体の検出スコアが閾値よりも低い、あるいは、前記第1の辞書データを用いた前記被写体の検出ができない場合であっても、前記第1の辞書データを用いて、再び画像の解析を行い、前記第2の辞書データを用いた前記被写体の検出スコアが閾値よりも低い、あるいは、前記第2の辞書データを用いた前記被写体の検出ができない場合には、前記第2の辞書データと異なる辞書データを用いて、再び画像の解析を行うことを特徴とする。
また、本発明に係わる画像処理装置は、取得した画像から、検出しようとする目的の被写体に対応する、機械学習によって獲得された辞書データを参照することにより、前記目的とする被写体を検出する検出手段と、前記目的とする被写体に対する複数の辞書データからいずれかの辞書データを選択する選択手段と、前記選択手段により選択された辞書データを用いて前記被写体を検出した場合の検出評価値が所定値よりも低かった場合に、前記選択された辞書データと、該選択された辞書データとは異なる辞書データとを用いて前記目的とする被写体を検出するように、前記検出手段を制御する制御手段と、を備え、前記複数の辞書データは、汎用辞書データと、複数の専用辞書データを含み、前記複数の専用辞書データのそれぞれは、前記目的とする被写体が前記複数の専用辞書データのそれぞれに対応する条件下にある場合には、前記汎用辞書データよりも前記目的とする被写体を検出することができる確率が高い辞書データであり、前記汎用辞書データは、前記複数の専用辞書データのそれぞれよりも多くの条件下において前記目的とする被写体を検出することができる辞書データであることを特徴とする。
The image processing apparatus according to the present invention includes an analysis unit that selects any one of the plurality of dictionary data and analyzes the acquired image using the selected dictionary data. Includes at least a first dictionary data and a second dictionary data, wherein the analyzing means has a detection score of a subject using the first dictionary data lower than a threshold value, or the first dictionary data Even when the object cannot be detected using the data, the image is analyzed again using the first dictionary data, and the detection score of the object using the second dictionary data is smaller than a threshold. Low, or when the object cannot be detected using the second dictionary data, the image is analyzed again using dictionary data different from the second dictionary data. That.
Further, the image processing apparatus according to the present invention detects the target object by referring to dictionary data acquired by machine learning corresponding to the target object to be detected from the acquired image. Means for selecting any dictionary data from the plurality of dictionary data for the target subject; and a detection evaluation value when the subject is detected using the dictionary data selected by the selecting means is predetermined. Control means for controlling the detection means so as to detect the target subject using the selected dictionary data and dictionary data different from the selected dictionary data when the value is lower than the value. Wherein the plurality of dictionary data includes general-purpose dictionary data and a plurality of dedicated dictionary data, and each of the plurality of dedicated dictionary data is When the target subject is under the conditions corresponding to each of the plurality of dedicated dictionary data, the dictionary data has a higher probability of being able to detect the target subject than the general-purpose dictionary data, The general-purpose dictionary data is dictionary data capable of detecting the target subject under more conditions than each of the plurality of dedicated dictionary data.

Claims (12)

取得した画像から、検出しようとする目的の被写体に対応する、機械学習によって獲得された辞書データを参照することにより、前記目的とする被写体を検出する検出手段と、
前記目的とする被写体に対する複数の辞書データからいずれかの辞書データを選択する選択手段と、
前記選択手段により選択された辞書データを用いて前記被写体を検出した場合の検出評価値が所定値よりも低かった場合に、前記選択された辞書データと、該選択された辞書データとは異なる辞書データとを用いて前記目的とする被写体を検出するように、前記検出手段を制御する制御手段と、
を備え、
前記複数の辞書データは、汎用辞書データと、複数の専用辞書データを含み、
前記複数の専用辞書データのそれぞれは、前記目的とする被写体が前記複数の専用辞書データのそれぞれに対応する条件下にある場合には、前記汎用辞書データよりも前記目的とする被写体を検出することができる確率が高い辞書データであり、前記汎用辞書データは、前記複数の専用辞書データのそれぞれよりも多くの条件下において前記目的とする被写体を検出することができる辞書データであることを特徴とする画像処理装置。
From the acquired image, corresponding to the target subject to be detected, by referring to the dictionary data acquired by machine learning, detecting means for detecting the target subject,
Selecting means for selecting any dictionary data from a plurality of dictionary data for the target subject,
When the detection evaluation value when the subject is detected using the dictionary data selected by the selection unit is lower than a predetermined value, the selected dictionary data and a dictionary different from the selected dictionary data Control means for controlling the detection means, so as to detect the target object using data,
With
The plurality of dictionary data includes general-purpose dictionary data and a plurality of dedicated dictionary data,
Each of the plurality of dedicated dictionary data, when the target object is under a condition corresponding to each of the plurality of dedicated dictionary data, detecting the target object than the general-purpose dictionary data. The general-purpose dictionary data is dictionary data capable of detecting the target subject under more conditions than each of the plurality of dedicated dictionary data. Image processing device.
前記辞書データは、機械学習によって獲得される検出処理パラメータを定義するデータであることを特徴とする請求項1に記載の画像処理装置。   The image processing apparatus according to claim 1, wherein the dictionary data is data that defines a detection processing parameter obtained by machine learning. 前記選択手段は、前記複数の専用辞書データの1つを選択することを特徴とする請求項1または2に記載の画像処理装置。   The image processing apparatus according to claim 1, wherein the selection unit selects one of the plurality of dedicated dictionary data. 前記制御手段は、前記選択手段により選択された前記複数の専用辞書データの1つを用いて前記被写体を検出した場合の前記検出評価値が所定値よりも低かった場合に、選択された前記専用辞書データと、前記汎用辞書データとを用いて前記目的とする被写体を検出するように、前記検出手段を制御することを特徴とする請求項3に記載の画像処理装置。   When the detection evaluation value when the subject is detected using one of the plurality of dedicated dictionary data selected by the selection unit is lower than a predetermined value, the control unit selects the selected dedicated dictionary. The image processing apparatus according to claim 3, wherein the detection unit is controlled to detect the target subject using the dictionary data and the general-purpose dictionary data. 前記制御手段は、選択された前記専用辞書データと、前記汎用辞書データとを1フレームごとに交互に用いるように、前記検出手段を制御することを特徴とする請求項4に記載の画像処理装置。   The image processing apparatus according to claim 4, wherein the control unit controls the detection unit such that the selected dedicated dictionary data and the general-purpose dictionary data are used alternately for each frame. . 前記制御手段は、前記汎用辞書データを用いて前記被写体を検出した場合の前記検出評価値が所定値よりも低かった場合は、前記複数の専用辞書データのいずれも用いずに、前記汎用辞書データを用いて前記目的とする被写体を検出するように、前記検出手段を制御することを特徴とする請求項4または5に記載の画像処理装置。   When the detection evaluation value when the subject is detected using the general-purpose dictionary data is lower than a predetermined value, the control unit does not use any of the plurality of special-purpose dictionary data, and uses the general-purpose dictionary data. The image processing apparatus according to claim 4, wherein the detection unit is controlled so as to detect the target subject using the image processing. 前記専用辞書データは、被写体の姿勢、被写体の数、被写体の重なり、被写体に対する装飾物の有無および種別の少なくとも1つの要素で区分された辞書データであることを特徴とする請求項1乃至6のいずれか1項に記載に画像処理装置。   7. The dictionary data according to claim 1, wherein the dedicated dictionary data is dictionary data divided by at least one element of a posture of a subject, the number of subjects, an overlap of subjects, presence / absence of a decoration for the subject, and a type. The image processing device according to claim 1. 前記制御手段は、前記選択手段により選択された辞書データを用いて前記被写体を検出した場合の検出評価値が所定値以上であった場合に、前記選択された辞書データを用いて前記目的とする被写体を検出するように、前記検出手段を制御することを特徴とする請求項1乃至7のいずれか1項に記載の画像処理装置。   When the detection evaluation value when the subject is detected by using the dictionary data selected by the selection unit is equal to or more than a predetermined value, the control unit uses the selected dictionary data for the object. The image processing apparatus according to claim 1, wherein the detection unit is controlled to detect a subject. 請求項1乃至8のいずれか1項に記載の画像処理装置と、
被写体像を撮像する撮像手段と、
を備えることを特徴とする撮像装置。
An image processing apparatus according to claim 1,
Imaging means for imaging a subject image;
An imaging device comprising:
取得した画像から、検出しようとする目的の被写体に対応する、機械学習によって獲得された辞書データを参照することにより、前記目的とする被写体を検出する検出工程と、
前記目的とする被写体に対する複数の辞書データからいずれかの辞書データを選択する選択工程と、
前記選択工程により選択された辞書データを用いて前記被写体を検出した場合の検出評価値が所定値よりも低かった場合に、前記選択された辞書データと、該選択された辞書データとは異なる辞書データとを用いて前記目的とする被写体を検出するように、前記検出工程を制御する制御工程と、
を有し、
前記複数の辞書データは、汎用辞書データと、複数の専用辞書データを含み、
前記複数の専用辞書データのそれぞれは、前記目的とする被写体が前記複数の専用辞書データのそれぞれに対応する条件下にある場合には、前記汎用辞書データよりも前記目的とする被写体を検出することができる確率が高い辞書データであり、前記汎用辞書データは、前記複数の専用辞書データのそれぞれよりも多くの条件下において前記目的とする被写体を検出することができる辞書データであることを特徴とする画像処理方法。
From the acquired image, corresponding to the target subject to be detected, by referring to the dictionary data acquired by machine learning, a detection step of detecting the target subject,
A selecting step of selecting any dictionary data from a plurality of dictionary data for the target subject,
When the detection evaluation value when the subject is detected using the dictionary data selected in the selection step is lower than a predetermined value, the selected dictionary data and a different dictionary from the selected dictionary data A control step of controlling the detection step so as to detect the target object using data;
Has,
The plurality of dictionary data includes general-purpose dictionary data and a plurality of dedicated dictionary data,
Each of the plurality of dedicated dictionary data, when the target object is under a condition corresponding to each of the plurality of dedicated dictionary data, detecting the target object than the general-purpose dictionary data. The general-purpose dictionary data is dictionary data capable of detecting the target subject under more conditions than each of the plurality of dedicated dictionary data. Image processing method.
コンピュータを、請求項1乃至8のいずれか1項に記載の画像処理装置の各手段として機能させるためのプログラム。   A program for causing a computer to function as each unit of the image processing apparatus according to claim 1. コンピュータを、請求項1乃至8のいずれか1項に記載の画像処理装置の各手段として機能させるためのプログラムを記憶したコンピュータが読み取り可能な記憶媒体。   A computer-readable storage medium storing a program for causing a computer to function as each unit of the image processing apparatus according to claim 1.
JP2018126359A 2018-07-02 2018-07-02 Image processing equipment and image processing methods, programs, storage media Active JP6812387B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018126359A JP6812387B2 (en) 2018-07-02 2018-07-02 Image processing equipment and image processing methods, programs, storage media
US16/456,890 US11144797B2 (en) 2018-07-02 2019-06-28 Image processing apparatus, image processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018126359A JP6812387B2 (en) 2018-07-02 2018-07-02 Image processing equipment and image processing methods, programs, storage media

Publications (2)

Publication Number Publication Date
JP2020008899A true JP2020008899A (en) 2020-01-16
JP6812387B2 JP6812387B2 (en) 2021-01-13

Family

ID=69054686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018126359A Active JP6812387B2 (en) 2018-07-02 2018-07-02 Image processing equipment and image processing methods, programs, storage media

Country Status (2)

Country Link
US (1) US11144797B2 (en)
JP (1) JP6812387B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021192133A1 (en) * 2020-03-26 2021-09-30

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6745465B1 (en) * 2019-03-06 2020-08-26 パナソニックIpマネジメント株式会社 Vehicle and camera module
US12015865B2 (en) * 2022-06-04 2024-06-18 Jeshurun de Rox System and methods for evoking authentic emotions from live photographic and video subjects

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5901255A (en) * 1992-02-07 1999-05-04 Canon Kabushiki Kaisha Pattern recognition method and apparatus capable of selecting another one of plural pattern recognition modes in response to a number of rejects of recognition-processed pattern segments
JP4154400B2 (en) 2004-04-01 2008-09-24 キヤノン株式会社 Imaging apparatus, control method thereof, and program
JP5380789B2 (en) * 2007-06-06 2014-01-08 ソニー株式会社 Information processing apparatus, information processing method, and computer program
JP4759638B2 (en) * 2009-12-25 2011-08-31 株式会社スクウェア・エニックス Real-time camera dictionary
CN102959551B (en) * 2011-04-25 2017-02-08 松下电器(美国)知识产权公司 Image-processing device
JP2013164834A (en) * 2012-01-13 2013-08-22 Sony Corp Image processing device, method thereof, and program
JP6168876B2 (en) 2013-06-24 2017-07-26 オリンパス株式会社 Detection device, learning device, detection method, learning method, and program
JP6482195B2 (en) * 2014-07-02 2019-03-13 キヤノン株式会社 Image recognition apparatus, image recognition method, and program
US10176382B1 (en) * 2015-10-01 2019-01-08 Hrl Laboratories, Llc Method and apparatus for sparse associative recognition and recall for visual media reasoning

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021192133A1 (en) * 2020-03-26 2021-09-30
WO2021192133A1 (en) * 2020-03-26 2021-09-30 日本電気株式会社 Object recognition device, object recognition method, and recording medium
JP7298776B2 (en) 2020-03-26 2023-06-27 日本電気株式会社 OBJECT RECOGNITION DEVICE, OBJECT RECOGNITION METHOD, AND PROGRAM

Also Published As

Publication number Publication date
US11144797B2 (en) 2021-10-12
US20200005101A1 (en) 2020-01-02
JP6812387B2 (en) 2021-01-13

Similar Documents

Publication Publication Date Title
CN102457681B (en) Image processing apparatus and image processing method
JP6931369B2 (en) Image processing device and image processing method, and imaging device
JP5247076B2 (en) Image tracking device, focus adjustment device, and imaging device
JP4998308B2 (en) Focus adjustment device and imaging device
JP6742173B2 (en) Focus adjusting device and method, and imaging device
JP6812387B2 (en) Image processing equipment and image processing methods, programs, storage media
US10244160B2 (en) Focus adjustment device and focus adjustment method
JP2011097645A (en) Image synthesizing apparatus, imaging apparatus, and image synthesizing method
JP2001116985A (en) Camera with subject recognizing function and subject recognizing method
JP2017103601A (en) Focus detector and camera
JPH10186460A (en) Range-finding device for camera
US10896350B2 (en) Image processing apparatus, image processing method, and image capture apparatus
JP6463402B2 (en) Focus adjustment apparatus and method, and imaging apparatus
JP4786734B2 (en) camera
JP2020067503A (en) Imaging device, monitoring system, method for controlling imaging device, and program
JP5256847B2 (en) Imaging device
JP4985155B2 (en) Focus adjustment device and imaging device
JP5359150B2 (en) Imaging device
JP5018932B2 (en) Imaging device
US20230209188A1 (en) Image processing apparatus, image processing method, and image capture apparatus
US20240127476A1 (en) Object determining apparatus, image pickup apparatus, and object determining method
JP5447579B2 (en) Tracking device, focus adjustment device, and photographing device
JP2024003432A (en) Electronic device
JP2024004307A (en) Imaging device and control method thereof, program, and storage medium
JP2022125743A (en) Electronic device, method of controlling the same, and program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190628

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190628

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201216

R151 Written notification of patent or utility model registration

Ref document number: 6812387

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151