JP2023172115A - Object detection model training device, object detecting device, and object detection model training method - Google Patents
Object detection model training device, object detecting device, and object detection model training method Download PDFInfo
- Publication number
- JP2023172115A JP2023172115A JP2022083698A JP2022083698A JP2023172115A JP 2023172115 A JP2023172115 A JP 2023172115A JP 2022083698 A JP2022083698 A JP 2022083698A JP 2022083698 A JP2022083698 A JP 2022083698A JP 2023172115 A JP2023172115 A JP 2023172115A
- Authority
- JP
- Japan
- Prior art keywords
- inference
- unit
- teacher signal
- object detection
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 148
- 238000012549 training Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 title claims description 16
- 238000003384 imaging method Methods 0.000 claims abstract description 24
- 230000015572 biosynthetic process Effects 0.000 claims description 42
- 238000003786 synthesis reaction Methods 0.000 claims description 42
- 238000005286 illumination Methods 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 239000002131 composite material Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 8
- 239000000203 mixture Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
Abstract
Description
本発明は、物体検知モデル学習装置、物体検知装置及び物体検知モデル学習方法に関する。 The present invention relates to an object detection model learning device, an object detection device, and an object detection model learning method.
従来、画像認識による物体検出の学習に際し、学習データの生成にコンピュータグラフィックス(CG)を利用することが行われている。例えば、特許文献1には、「物体検出処理、姿勢検出処理等を実行するときに用いられる学習済みモデルを取得するために、学習処理時に必要となる学習用データを短時間に多量に取得できる学習用データ生成システムを提供する。」、「学習用データ生成システムは、3次元空間を撮像して得た背景画像を取得する。また、物体の形状およびテクスチャーの少なくとも1つを含むコンピュータグラフィックス処理用のデータであるCG物体生成用データを取得する。取得したCG物体生成用データに基づいてCG物体画像を生成する。3次元空間内での所定の位置にCG物体が配置されるように、CG物体画像を背景画像に合成することで得られるレンダリング画像を学習用画像として取得する。」という記載がある。 Conventionally, computer graphics (CG) has been used to generate learning data when learning object detection using image recognition. For example, Patent Document 1 states, ``In order to obtain a trained model used when performing object detection processing, posture detection processing, etc., a large amount of learning data required during learning processing can be obtained in a short time. Provides a learning data generation system.", "The learning data generation system acquires a background image obtained by imaging a three-dimensional space.The learning data generation system also acquires a background image obtained by imaging a three-dimensional space. Acquire CG object generation data, which is processing data. Generate a CG object image based on the acquired CG object generation data.So that the CG object is placed at a predetermined position in three-dimensional space. , a rendered image obtained by combining a CG object image with a background image is acquired as a learning image.''
従来の技術によれば、検知対象の物体を実際に撮像して得た実画像を学習用データとして用いる場合と同等の学習精度を実現できる。しかしながら、従来の技術は、実画像による学習よりも高い学習精度を実現するものではない。 According to the conventional technology, it is possible to achieve learning accuracy equivalent to the case where an actual image obtained by actually capturing an object to be detected is used as learning data. However, conventional techniques do not achieve higher learning accuracy than learning using real images.
本発明は、物体検知モデルの学習精度を向上することを目的とする。 An object of the present invention is to improve the learning accuracy of an object detection model.
上記目的を達成するために、代表的な本発明の物体検知モデル学習装置の一つは、入力画像から物体を検知する物体検知モデルの学習を行う物体検知学習部と、前記学習に用いる学習用データを生成する学習用データ生成部と、を備え、前記学習用データ生成部は、検知対象の物体の画像をコンピュータグラフィックスで合成することで前記学習用データを生成し、前記学習用データについて、前記検知対象の物体に関する第一の教師信号を生成し、前記学習用データについて、前記検知対象の物体の撮像時の状態に対応する第二の教師信号を生成し、前記物体検知モデルは、前記入力画像について、前記検知対象の物体に関する第一の推論結果を出力する第一の推論部と、前記入力画像について、前記検知対象の物体の撮像時の状態に関する第二の推論結果を出力する第二の推論部と、を備え、前記第一の推論部は、前記入力画像と前記第二の推論結果とを用いて前記第一の推論結果を求めるものであり、前記物体検知学習部は、前記学習用データを前記第二の推論部に与えて得られた第二の推論結果と前記第二の教師信号との差を第二の誤差として求める第二の誤差計算部と、前記学習用データ及び前記第二の推論結果を前記第一の推論部に与えて得られた第一の推論結果と前記第一の教師信号との差を第一の誤差として求める第一の誤差計算部と、前記第二の誤差に基づいて前記第二の推論部のパラメータを更新し、前記第一の誤差に基づいて前記第一の推論部のパラメータを更新する推論パラメータ更新部と、を備えることを特徴とする。
また、代表的な本発明の物体検知装置の一つは、入力画像について、検知対象の物体に関する第一の推論結果を出力する第一の推論部と、前記入力画像について、前記検知対象の物体の撮像時の状態に関する第二の推論結果を出力する第二の推論部と、を備え、前記第一の推論部は、前記入力画像と前記第二の推論結果とを用いて前記第一の推論結果を求めることを特徴とする。
入力画像から物体を検知する物体検知モデルの学習を行う物体検知学習方法であって、検知対象の物体の画像をコンピュータグラフィックスで合成することで前記学習用データを生成するステップと、前記学習用データについて、前記検知対象の物体に関する第一の教師信号を生成するステップと、前記学習用データについて、前記検知対象の物体の撮像時の状態に対応する第二の教師信号を生成するステップと、前記物体検知モデルが有する第二の推論部に対し、前記学習用データを与え、前記検知対象の物体の撮像時の状態に関する第二の推論結果を得るステップと、前記物体検知モデルが有する第一の推論部に対し、前記学習用データと前記第二の推論結果とを与え、前記検知対象の物体に関する第一の推論結果を得るステップと、前記第一の推論結果と前記第一の教師信号との差を第一の誤差として求めるステップと、前記第二の推論結果と前記第二の教師信号との差を第二の誤差として求めるステップと、前記第二の誤差に基づいて前記第二の推論部のパラメータを更新し、前記第一の誤差に基づいて前記第一の推論部のパラメータを更新するステップと、を含むことを特徴とする。
In order to achieve the above object, one of the typical object detection model learning devices of the present invention includes an object detection learning section that learns an object detection model that detects an object from an input image, and a learning device used for the learning. a learning data generating section that generates data, the learning data generating section generates the learning data by synthesizing an image of an object to be detected using computer graphics, and , generates a first teacher signal regarding the object to be detected, and generates a second teacher signal corresponding to the state of the object to be detected at the time of imaging with respect to the learning data, and the object detection model: A first inference unit that outputs a first inference result regarding the object to be detected with respect to the input image, and a second inference result regarding the state of the object to be detected at the time of imaging with respect to the input image. a second inference unit, the first inference unit uses the input image and the second inference result to obtain the first inference result, and the object detection learning unit , a second error calculation unit that calculates, as a second error, a difference between a second inference result obtained by applying the learning data to the second inference unit and the second teacher signal; a first error calculation unit that calculates, as a first error, a difference between a first inference result obtained by applying the first inference data and the second inference result to the first inference unit and the first teacher signal; and an inference parameter updating unit that updates the parameters of the second inference unit based on the second error and updates the parameters of the first inference unit based on the first error. It is characterized by
Further, one of the representative object detection devices of the present invention includes a first inference unit that outputs a first inference result regarding an object to be detected with respect to an input image; a second inference unit that outputs a second inference result regarding the state at the time of imaging, the first inference unit using the input image and the second inference result to determine the first inference result. It is characterized by obtaining inference results.
An object detection learning method for learning an object detection model that detects an object from an input image, the method comprising: generating the training data by synthesizing images of objects to be detected using computer graphics; for the data, generating a first teacher signal related to the object to be detected; for the learning data, generating a second teacher signal corresponding to the state of the object to be detected at the time of imaging; providing the learning data to a second inference unit included in the object detection model to obtain a second inference result regarding the state of the object to be detected at the time of imaging; providing the learning data and the second inference result to the inference unit of the invention to obtain a first inference result regarding the object to be detected; and the first inference result and the first teacher signal. a step of obtaining the difference between the second inference result and the second teacher signal as a second error; and a step of obtaining the difference between the second inference result and the second teacher signal as a second error, and The method is characterized by comprising the steps of: updating parameters of the inference section of the inference section; and updating parameters of the first inference section based on the first error.
本発明によれば、物体検知モデルの学習精度を向上できる。 According to the present invention, the learning accuracy of an object detection model can be improved.
以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。また、発明の構成に必須だが周知である構成については、図示及び説明を省略する場合がある。 Embodiments of the present invention will be described below with reference to the drawings. The embodiments described below do not limit the claimed invention, and all of the elements and combinations thereof described in the embodiments are essential to the solution of the invention. is not limited. Additionally, illustrations and explanations of well-known configurations that are essential to the configuration of the invention may be omitted.
以下の説明において、「xxxテーブル」といった表現により、入力に対して出力が得られる情報を説明することがあるが、この情報は、どのような構造のデータでもよい。従って、「xxxテーブル」を「xxx情報」と言うことができる。 In the following description, information such as an "xxx table" may be used to describe information from which an output is obtained in response to an input, but this information may be data having any structure. Therefore, the "xxx table" can be called "xxx information."
また、以下の説明において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部又は一部が1つのテーブルであってもよい。 In addition, in the following explanation, the configuration of each table is an example, and one table may be divided into two or more tables, or all or part of two or more tables may be one table. good.
また、以下の説明において、「プログラム」を主語として処理を説明する場合がある。プログラムは、プロセッサ部によって実行されることで、定められた処理を、適宜に記憶部及び/又はインターフェース部などを用いながら行うため、処理の主語が、プロセッサ部(或いは、そのプロセッサ部を有するコントローラのようなデバイス)とされてもよい。 In addition, in the following description, processing may be explained using "program" as the subject. The program is executed by the processor unit to carry out predetermined processing using the storage unit and/or interface unit as appropriate, so the subject of the processing is the processor unit (or the controller that has the processor unit). devices such as ).
プログラムは、計算機のような装置にインストールされてもよいし、例えば、プログラム配布サーバ又は計算機が読み取り可能な(例えば非一時的な)記録媒体にあってもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。 The program may be installed on a device such as a computer, or may be located on, for example, a program distribution server or a computer-readable (eg, non-transitory) recording medium. Furthermore, in the following description, two or more programs may be realized as one program, or one program may be realized as two or more programs.
また、「プロセッサ部」は、1又は複数のプロセッサである。プロセッサは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサであるが、GPU(Graphics Processing Unit)のような他種のプロセッサでもよい。また、プロセッサは、シングルコアでもよいしマルチコアでもよい。また、プロセッサは、処理の一部又は全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサでもよい。 Further, the "processor section" is one or more processors. The processor is typically a microprocessor such as a CPU (Central Processing Unit), but may be another type of processor such as a GPU (Graphics Processing Unit). Furthermore, the processor may be single-core or multi-core. Further, the processor may be a processor in a broad sense such as a hardware circuit (eg, FPGA (Field-Programmable Gate Array) or ASIC (Application Specific Integrated Circuit)) that performs part or all of the processing.
また、以下の説明において、同種の要素を区別しないで説明する場合には、参照符号(又は、参照符号のうちの共通符号)を使用し、同種の要素を区別して説明する場合は、要素の識別番号(又は参照符号)を使用することがある。また各図に示す各要素の数は一例であって、図示に限られるものではない。 In addition, in the following explanation, when the same type of elements are explained without distinguishing them, reference numerals (or common numerals among the reference numerals) are used, and when the same kind of elements are explained separately, the element An identification number (or reference number) may be used. Moreover, the number of each element shown in each figure is an example, and is not limited to the number shown in the figure.
図1は、物体検知モデル学習装置の構成図である。図1に示した物体検知モデル学習装置は、物体検知学習部150と、学習用データ生成部100と、を備える。物体検知学習部150は、入力画像から物体を検知する物体検知モデルの学習を行う。学習用データ生成部100は、物体検知学習部150が学習に用いる学習用データを生成する。
FIG. 1 is a configuration diagram of an object detection model learning device. The object detection model learning device shown in FIG. 1 includes an object
学習用データ生成部100は、検知対象の物体の画像をコンピュータグラフィックスで合成することで学習用データを生成する。また、学習用データ生成部100は、学習用データについて、検知対象の物体に関する第一の教師信号を生成し、検知対象の物体の撮像時の状態に対応する第二の教師信号を生成する。
The learning
物体検知学習部150は、物体検知部160、第一の誤差計算部170、第二の誤差計算部171及び推論パラメータ更新部180を有する。
物体検知部160は、物体検知モデルに対応する処理部であり、第一の推論部161と第二の推論部162を有する。
The object
The
第二の推論部162は、入力画像について、検知対象の物体の撮像時の状態に関する第二の推論結果を出力する。第一の推論部161は、入力画像について、検知対象の物体に関する第一の推論結果を出力する。このとき、第一の推論部161は、入力画像と第二の推論結果とを用いて第一の推論結果を求める。例えば、第二の推論部162が、カメラの位置や照明の方向などを推論結果として出力したならば、第一の推論部161は、カメラの位置や照明の方向を考慮して、検知対象の物体の有無などを推論する。
The
第一の推論部161及び第二の推論部162には、物体検知の既知の技術を利用できる。例えば、SSD(Single Shot MultiBox Detector)や、YOLO(You only look once: Unified, real-time object detection)などである。
これらの技術は、ニューラルネットワークを利用した技術であり、画像を入力すると検知対象の種類と検知対象の画像上での範囲を数値情報として出力する。出力できる数値情報はこれらの種類に限らないため、第一の推論部161のみならず第二の推論部162に利用することが可能である。
Known object detection techniques can be used for the
These technologies utilize neural networks, and when an image is input, they output the type of detection target and the range of the detection target on the image as numerical information. Since the numerical information that can be output is not limited to these types, it can be used not only in the
第二の誤差計算部171は、学習用データを入力画像として第二の推論部162に与えて得られた第二の推論結果と、第二の教師信号との差を第二の誤差として求める。
第一の誤差計算部170は、学習用データ及び第二の推論結果を第一の推論部161に与えて得られた第一の推論結果と、第一の教師信号との差を第一の誤差として求める。
The second
The first
推論パラメータ更新部180は、第二の誤差に基づいて第二の推論部162のパラメータを更新し、第一の誤差に基づいて第一の推論部161のパラメータを更新することで、物体検知部160の学習を行う。
The inference
学習用データ生成部100は、条件入力部110、CG合成パラメータ制約条件保存部120、CG合成パラメータ生成部121、学習用CG生成部122、教師信号選択条件保存部130、教師信号選択部131、第一の教師信号生成部132及び第二の教師信号生成部133を有する。
The learning
条件入力部110は、学習に関する各種条件の入力を受け付けるインターフェースである。学習に関する各種条件には、コンピュータグラフィックスのパラメータに関する制約条件であるCG合成パラメータ制約条件と、教師信号を選択する条件である教師信号選択条件とが含まれる。また、教師信号選択条件には、第一の教師信号の選択条件と、第二の教師信号の選択条件とが含まれる。
The
CG合成パラメータ制約条件保存部120は、入力されたCG合成パラメータ制約条件を保存する。教師信号選択条件保存部130は、入力された教師信号選択条件を保存する。CG合成パラメータ制約条件保存部120及び教師信号選択条件保存部130は、任意の記憶媒体によって実現すればよい。
The CG synthesis parameter
CG合成パラメータ生成部121は、CG合成パラメータ制約条件の範囲内で複数のCG合成パラメータを生成し、学習用CG生成部122に出力する。
学習用CG生成部122は、CG合成パラメータ生成部121が生成した複数のCG合成パラメータについて、それぞれ学習用データを生成する。
The CG synthesis
The learning
例えば、装置の検知を行う場合、CG合成パラメータ生成部121は、装置の種類、向き、照明方向などを指定したCG合成パラメータに基づいて、装置の外観のCGを生成し、背景画像に重畳することで学習用データを生成する。背景画像は、実画像であってもよいし、CGであってもよい。
For example, when detecting a device, the CG synthesis
教師信号選択部131、CG合成パラメータと教師信号選択条件に基づいて、教師信号に含める項目を選択する処理を行う。第一の教師信号生成部132は、教師信号選択部131が選択した教師信号の項目について、第一の教師信号を生成する。第二の教師信号生成部133は、教師信号選択部131が選択した教師信号の項目について、第二の教師信号を生成する。
The teacher signal selection unit 131 performs processing to select items to be included in the teacher signal based on the CG synthesis parameters and teacher signal selection conditions. The first teacher
例えば、CG合成パラメータが装置の種類、向き、照明方向などを指定する値を持ち、第一の教師信号として検知対象の種類が指定されていれば、装置の種類の値が第一の教師信号となる。同様に、第二の教師信号として照明方向が指定されていれば、照明方向の値が第二の教師信号となる。 For example, if the CG synthesis parameter has a value that specifies the device type, orientation, illumination direction, etc., and the type of detection target is specified as the first teacher signal, the value of the device type is the first teacher signal. becomes. Similarly, if the illumination direction is designated as the second teacher signal, the value of the illumination direction becomes the second teacher signal.
詳細については後述するが、第一の教師信号は、検知対象の物体の種別と、学習用データにおける検知対象の物体の位置とを含むことが好適である。また、第二の教師信号は、検知対象の物体とカメラとの位置関係、検知対象の物体に対する照明の状態、検知対象の物体の変形の状態のうち、すくなくともいずれかを含むことが好適である。
換言すれば、第一の教師信号は、何がどこにあるかのように、物体検知の出力として用いられる情報である。これに対し、第二の教師信号は、物体検知の精度向上に寄与する補助的な情報である。
Although details will be described later, it is preferable that the first teacher signal includes the type of the object to be detected and the position of the object to be detected in the learning data. Further, it is preferable that the second teacher signal includes at least one of the following: the positional relationship between the object to be detected and the camera, the state of illumination of the object to be detected, and the state of deformation of the object to be detected. .
In other words, the first teacher signal is information used as an output of object detection, such as what is where. On the other hand, the second teacher signal is auxiliary information that contributes to improving the accuracy of object detection.
なお、第二の教師信号は、検知対象の物体の種別と、学習用データにおける検知対象の物体の位置とをさらに含んでもよい。すなわち、第二の教師信号に第一の教師信号と同じ情報が含まれていてもよい。この場合、第二の推論部は、第一の推論部が出力すべき情報を推論結果として出力しており、第一の推論部は、第二の推論結果を踏まえて改めて推論を行うことになる。 Note that the second teacher signal may further include the type of the object to be detected and the position of the object to be detected in the learning data. That is, the second teacher signal may include the same information as the first teacher signal. In this case, the second inference unit outputs the information that the first inference unit should output as an inference result, and the first inference unit decides to perform inference again based on the second inference result. Become.
図2は、物体検知装置の構成図である。物体検知装置は、図1に示した物体検知部160に、画像入力部200と推論結果出力部210を接続した構成である。この構成では、画像入力部200は、第一の推論部161及び第二の推論部162に同一の入力画像を与える。第二の推論部162は、入力画像から撮像時の状態を推論し、第一の推論部161に出力する。
FIG. 2 is a configuration diagram of the object detection device. The object detection device has a configuration in which an
第一の推論部161は、第二の推論部162により推論された撮像時の状態を考慮しつつ、入力画像に対する画像認識を実行し、検知対象の物体の有無や位置に関する推論を行って、推論結果出力部210に出力する。
なお、図2では、第二の推論部162も推論結果出力部210への出力を行っている。第二の推論部162からの外部出力は必須ではないが、撮像時の状態を出力として求められるのであれば、出力は可能である。
The
Note that in FIG. 2, the
図3は、CG合成パラメータ制約条件についての説明図である。図3に示した例では、CG合成パラメータ制約条件300は、項目名に入力値の最小値と最大値を対応付けることで、項目が取りうる値の範囲を示している。なお、項目名によっては細目名が設定されており、この場合には細目名ごとに入力値の最小値と最大値を対応付ける。
FIG. 3 is an explanatory diagram of CG synthesis parameter constraints. In the example shown in FIG. 3, the CG synthesis
項目名は、検知対象の種類、検知対象の個数、検知対象の位置、検知対象の向き、検知対象の変形パラメータ、カメラの位置、カメラの方向、照明数、照明の位置、照明の方向、照明範囲、照度、照明の色など含む。 The item names are: type of detection target, number of detection targets, position of detection target, orientation of detection target, deformation parameter of detection target, camera position, camera direction, number of lights, light position, light direction, light Includes range, illuminance, lighting color, etc.
検知対象の種類は、例えば「装置A」等である。
検知対象の個数は、1つの学習用データに含める検知対象の数である。図3では、1~3個の範囲を指定している。
The type of detection target is, for example, "device A".
The number of detection targets is the number of detection targets included in one learning data. In FIG. 3, a range of 1 to 3 is specified.
検知対象の位置は、検知対象の物体を配置する空間座標の範囲を示す。XYZ座標系を用いて検知対象の位置を示す場合には、X、Y、Zを細目名として有する。図3では、X座標の範囲を50~200、Y座標の範囲を30~100、Z座標の範囲を0~0としている。 The position of the detection target indicates the range of spatial coordinates in which the object to be detected is placed. When indicating the position of a detection target using the XYZ coordinate system, X, Y, and Z are used as sub-item names. In FIG. 3, the X coordinate range is 50 to 200, the Y coordinate range is 30 to 100, and the Z coordinate range is 0 to 0.
検知対象の方向は、検知対象の向きの範囲を示す。例えば、水平角度φと垂直角度θの2つの細目名を用い、φの範囲を10度~30度、θの範囲を0度~0度のように指定する。
検知対象の変形パラメータは、検知対象の可動部を細目名として有する。変形パラメータは、検知対象の種類によって異なる。例えば装置Aが回動するアームを変形部として備えていれば、細目名はアーム角度、10度~50度を範囲とすればよい。変形パラメータは、伸縮部材、スライド部材などでもよい。また、複数の変形箇所があるならば、細目名の数を増やし、それぞれに範囲を設定する。
The direction of the detection target indicates the range of orientations of the detection target. For example, using two subdivisions, horizontal angle φ and vertical angle θ, the range of φ is specified as 10 degrees to 30 degrees, and the range of θ is specified as 0 degrees to 0 degrees.
The deformation parameter of the detection target has the movable part of the detection target as a sub-item name. The deformation parameters differ depending on the type of detection target. For example, if the device A is equipped with a rotating arm as a deformable part, the specific name may be the arm angle, which is in the range of 10 degrees to 50 degrees. The deformation parameter may be a telescopic member, a sliding member, or the like. If there are multiple deformed parts, increase the number of sub-items and set a range for each.
カメラの位置は、仮想的なカメラの空間座標、すなわちCG合成した物体を見る視点の範囲を示す。XYZ座標系を用いてカメラの位置を示す場合には、X、Y、Zを細目名として有する。図3では、X座標の範囲を0.0m~5.0m、Y座標の範囲を5.0m~10.0m、Z座標の範囲を3.0m~3.5mとしている。 The camera position indicates the spatial coordinates of the virtual camera, that is, the range of the viewpoint from which the CG composite object is viewed. When indicating the position of the camera using the XYZ coordinate system, X, Y, and Z are used as sub-item names. In FIG. 3, the X coordinate range is 0.0 m to 5.0 m, the Y coordinate range is 5.0 m to 10.0 m, and the Z coordinate range is 3.0 m to 3.5 m.
カメラの方向は、カメラの向きの範囲を示す。例えば、水平角度φと垂直角度θの2つの細目名を用い、φの範囲を0度~360度、θの範囲を110度~135度のように指定する。 The camera direction indicates the range of camera orientations. For example, using two subdivisions, horizontal angle φ and vertical angle θ, the range of φ is specified as 0 degrees to 360 degrees, and the range of θ is specified as 110 degrees to 135 degrees.
照明数は、CG合成における照明の数の範囲を示す。
照明の位置、照明の方向、照射範囲、照度、照明の色の項目は、照明数の分だけ指定する。照明の位置は、CG合成した物体に当てる照明の光源の位置に対応し、検知対象の位置やカメラの位置と同様に、XYZ座標で指定する。照明の方向は、検知対象の位置やカメラの向きと同様に水平角度φと垂直角度θで示す。
照明範囲は、照明が照らす範囲の角度であり、例えば30度~45度である。照度は、照明の明るさを示し、例えば1000lmである。照明の色は、例えばRGBで示せばよい。
The number of illuminations indicates the range of the number of illuminations in CG composition.
The items of lighting position, lighting direction, irradiation range, illuminance, and lighting color are specified for each number of lights. The position of the illumination corresponds to the position of the light source of the illumination applied to the CG-composed object, and is specified using XYZ coordinates, similar to the position of the detection target and the position of the camera. The direction of illumination is indicated by a horizontal angle φ and a vertical angle θ, similar to the position of the detection target and the direction of the camera.
The illumination range is the angle of the range illuminated by the illumination, and is, for example, 30 degrees to 45 degrees. Illuminance indicates the brightness of illumination, and is, for example, 1000 lm. The color of the illumination may be expressed, for example, in RGB.
図4は、第一の教師信号選択条件の具体例である。図4に示した第一の教師信号選択条件400は、第一の推論の出力として学習可能な項目について選択有無を指定する。第一の推論の出力として学習可能な項目としては、検知対象の種類、画像上の検知対象の範囲がある。これらの項目について選択有無の値が「有」であれば、当該項目の教師信号を生成する。
FIG. 4 is a specific example of the first teacher signal selection condition. The first teacher
具体的には、検知対象の種類が「有」であれば、CG合成パラメータを参照し、検知対象の種類の値をそのまま教師信号として使用すればよい。
画像上の検知対象の範囲の種類の値が「有」であれば、CG合成パラメータを参照し、検知対象の物体の空間座標、カメラの空間座標、カメラの向きに基づいて、カメラの画角の平面に検知対象の像を投影することで教師信号を生成する。
Specifically, if the type of detection target is "present", the CG synthesis parameter may be referred to and the value of the type of detection target may be used as it is as a teacher signal.
If the value of the type of detection target range on the image is "Yes", the camera's angle of view is determined based on the spatial coordinates of the object to be detected, the spatial coordinates of the camera, and the orientation of the camera by referring to the CG composition parameters. A teacher signal is generated by projecting the image of the detection target onto the plane of the image.
図5は、第二の教師信号選択条件の具体例である。図5に示した第二の教師信号選択条件500は、第二の推論の出力として学習可能な項目について選択有無を指定する。第二の推論の出力として学習可能な項目を例示する。
FIG. 5 is a specific example of the second teacher signal selection condition. The second teacher
「検知対象の種類」 第一の教師信号と同様であるので、説明を省略する。
「画像上の検知対象の範囲」 第一の教師信号と同様であるので、説明を省略する。
「検知対象の変形パラメータ」 CG合成パラメータを参照し、対応する項目の値をそのまま教師信号として使用すればよい。
「カメラに対しての検知対象の相対位置と相対方向」 CG合成パラメータを参照し、検知対象の物体の空間座標、カメラの空間座標、カメラの向きに基づいて、算出することができる。
「カメラに対しての、照明と相対位置、照射の相対方向」 CG合成パラメータを参照し、カメラの空間座標、カメラの向き、照明の空間座標、照明の向きに基づいて、算出することができる。
「検知対象に対しての、照明と相対位置、照射の相対方向」 CG合成パラメータを参照し、検知対象の物体の空間座標、照明の空間座標、照明の向きに基づいて、算出することができる。
「照射範囲」 CG合成パラメータを参照し、カメラと複数の照明に関する情報を統合して求めることができる。
「照度」 CG合成パラメータを参照し、カメラと複数の照明に関する情報を統合して求めることができる。
「照明色」 CG合成パラメータを参照し、カメラと複数の照明に関する情報を統合して求めることができる。
“Type of Detection Target” This is the same as the first teacher signal, so the explanation will be omitted.
"Range of detection target on image" This is the same as the first teacher signal, so the explanation will be omitted.
"Deformation Parameter of Detection Target" It is sufficient to refer to the CG synthesis parameter and use the value of the corresponding item as it is as the teacher signal.
"Relative position and relative direction of detection target with respect to camera" This can be calculated based on the spatial coordinates of the object to be detected, the spatial coordinates of the camera, and the orientation of the camera with reference to the CG synthesis parameters.
"Lighting, relative position, and relative direction of illumination with respect to the camera" Can be calculated based on the spatial coordinates of the camera, camera direction, spatial coordinates of illumination, and direction of illumination with reference to CG composition parameters. .
"Illumination, relative position, and relative direction of illumination to the detection target" Can be calculated based on the spatial coordinates of the object to be detected, the spatial coordinates of the illumination, and the direction of the illumination by referring to the CG synthesis parameters. .
"Irradiation range" can be determined by integrating information regarding the camera and multiple lights by referring to the CG synthesis parameters.
"Illuminance" It can be determined by referring to the CG synthesis parameters and integrating information regarding the camera and multiple lights.
"Lighting color" It can be determined by referring to the CG composition parameters and integrating information regarding the camera and multiple lights.
図6は、学習の処理手順を示すフローチャートである。まず、条件入力部110が、CG合成パラメータ制約条件の入力を受け付け、CG合成パラメータ制約条件保存部120に保存する(S600)。また、条件入力部110は、第一の教師信号選択条件の入力を受け付け、教師信号選択条件保存部130に保存する(S601)。同様に、条件入力部110は、第二の教師信号選択条件の入力を受け付け、教師信号選択条件保存部130に保存する(S602)。
FIG. 6 is a flowchart showing the learning processing procedure. First, the
CG合成パラメータ生成部121は、CG生成パラメータの制約条件に従い、ランダムにそれぞれのCG合成パラメータを生成する(S603)。
学習用CG生成部122は、生成したCG合成パラメータを用いて、学習用データである学習用CGを生成する(S604)。
The CG synthesis
The learning
第一の教師信号生成部132は、CG合成パラメータと学習用CGを用いて、第一の教師信号選択条件に従って、第一の教師信号を生成する(S605)。この教師信号は、物体検知に直接かかわる教師信号であり、検知対象の種類や、画像上の検知対象の範囲などである。
第二の教師信号生成部133は、CG合成パラメータと学習用CGを用いて、第二の教師信号選択条件に従って、第二の教師信号を生成する(S606)。この教師信号は、物体検知に直接かかわらない教師信号を含む。
例えば、検体対象に関する教師信号であれば、検知対象の変形パラメータや、カメラに対しての検知対象の相対位置や相対方向などである。また例えば照明に関する教師信号であれば、カメラに対しての各照明の相対位置や、照射の相対方向や、検知対象に対しての各照明の相対位置や、照射の相対方向などである。また、照射範囲、照度、照明色などである。
またさらに、第二の教師信号が検知対象に関わる教師信号を含むときには、第一の教師信号も含むことが望ましい。例えば、第二の教師信号に、検知対象の変形パラメータが入っているとき、検知対象の変形は検知対象の種類毎に異なるため、検知対象の種類も第二の教師信号として必要である。また、画像上いずれの場所でその変形パラメータの影響が生じるかが教師信号として必要となるので、検知対象の画像上の範囲も必要である。以降、第一の教師信号と重複する分を除いた第二の教師信号を、狭義の第二の教師信号と呼ぶ。
The first teacher
The second teacher
For example, if it is a teacher signal related to a specimen object, the information includes deformation parameters of the detection object, relative position and relative direction of the detection object with respect to the camera, and the like. For example, in the case of a teacher signal related to illumination, the information includes the relative position of each illumination with respect to the camera, the relative direction of irradiation, the relative position of each illumination with respect to the detection target, the relative direction of irradiation, etc. It also includes the irradiation range, illuminance, illumination color, etc.
Furthermore, when the second teacher signal includes a teacher signal related to the detection target, it is desirable that the second teacher signal also includes the first teacher signal. For example, when the second teacher signal contains a deformation parameter of the detection target, the type of the detection target is also required as the second teacher signal because the deformation of the detection target differs depending on the type of detection target. Furthermore, since it is necessary as a teacher signal to know where on the image the influence of the deformation parameter occurs, the range on the image of the detection target is also necessary. Hereinafter, the second teacher signal excluding the portion that overlaps with the first teacher signal will be referred to as a second teacher signal in a narrow sense.
続いて、第二の推論部162は、その時点で保持する第一の推論パラメータと学習用CGを用いて第二の推論結果を算出する(S607)。ここで、第二の推論結果は、第二の教師信号に対応した数値情報である。第二の推論結果は、入力画像と対応しているので、二次元マップとして出力することも可能である。この出力については後述する。
Subsequently, the
第一の推論部161は、第二の推論結果と、学習用CGを用いて第一の推論結果を算出する(S608)。あるいは、第二の推論結果のうち、狭義の第二の教師信号と対応する部分のみと、学習用CGを用いて第一の推論結果を出力してもよい。第一の推論結果は、第一の教師信号に対応した数値情報である。
The
続いて、第一の誤差計算部170は、第一の推論結果と、第一の教師信号を用いて第一の誤差を算出する(S609)。第二の誤差計算部171は、第二の推論結果と、第二の教師信号を用いて、第二の誤差を算出する(S610)。
Next, the first
推論パラメータ更新部180は、例えば誤差十分小さくなったか、あるいは所定の回数後述のパラメータの更新を実施したかなどの終了条件が満たされたかどうかを判断する(S611)。満たされていれば終了し、そうでなければ、第一の誤差と第二の誤差がそれぞれ小さくなるように、例えば誤差逆伝播法などの方法を用いて、第一の推論部161と第二の推論部162のパラメータを更新する(S612)。その後は、S603へともどる。
The inference
図7は、物体検知の処理手順を示すフローチャートである。まず、画像入力部200が推論対象の画像を入力画像として受け付ける(S700)。
第二の推論部162は、推論対象の画像を用いて第二の推論結果を算出する(S701)。
第一の推論部161は、第二の推論結果と、推論対象の画像を用いて第一の推論結果を算出する(S702)。
推論結果出力部210は、第一の推論結果を出力する。人が閲覧する場合であれば画面として出力すればよいし、推論結果をシステムで使う場合は、ネットワークを介してそのシステムへ出力すればよい。
このとき、第二の推論結果を出力してもよい。そうすると、検知対象に関しての詳細な情報を、上記の人やシステムに提供することができる。
FIG. 7 is a flowchart showing the processing procedure for object detection. First, the
The
The
The inference
At this time, the second inference result may be output. Then, detailed information about the detection target can be provided to the above-mentioned people and systems.
図8は、教師信号の具体例である。同図では、第一の教師信号として、検知対象の種類と画像上の検知対象の範囲が生成されている。また、第二の教師信号として、検知対象の種類、画像上の検知対象の範囲、検知対象の変形パラメータ、カメラに対しての検知対象の相対位置、カメラに対しての検知対象の相対方向、カメラに対しての照明1の相対位置、カメラに対しての照明1の相対方向、検知対象に対しての照明1の相対位置、検知対象に対しての照明1の照射の相対方向、照明1の照度、照明1の照明色などが生成されている。 FIG. 8 shows a specific example of the teacher signal. In the figure, the type of detection target and the range of the detection target on the image are generated as the first teacher signal. In addition, as a second teacher signal, the type of detection target, the range of the detection target on the image, the deformation parameter of the detection target, the relative position of the detection target with respect to the camera, the relative direction of the detection target with respect to the camera, Relative position of illumination 1 with respect to the camera, relative direction of illumination 1 with respect to the camera, relative position of illumination 1 with respect to the detection target, relative direction of irradiation of illumination 1 with respect to the detection target, illumination 1 The illuminance of , the illumination color of illumination 1, etc. are generated.
図9は、CG合成した画像の具体例である。図9に示した画像900には、CG合成画像910及びCG合成画像911が含まれている。CG合成画像910とCG合成画像911は、検知対象物についてCG合成で生成した画像である。
FIG. 9 is a specific example of a CG composite image. The
CG合成画像910とCG合成画像911は、検知対象物の種類としては同じものであるが、照明の当たり方によって見え方が異なっている。CG合成画像910は暗く、CG合成画像911は明るい。
The CG
このように見え方が大きく異なる物体を、同一種類の物体であると物体検知部160が学習するのは難易度が高い。しかし、見え方の異なる様子を入力として与えられると難易度が下がる。そこで、第二の推論部162が見え方の違いを推論し、その結果を第一の推論部161に与えることで物体検知の精度が向上する。
同じことが、カメラに対する物体の向きや物体の変形パラメータに対しても言える。
It is difficult for the
The same is true for the object's orientation with respect to the camera and the object's deformation parameters.
図10は、推論結果の説明図である。図10の二次元マップ1000において、マップ上の各位置の要素は、第二の推論結果とそれぞれと対応した複数の固定長のベクトルからなる。カメラに対しての照明の相対位置やカメラに対しての照明の相対方向など画面全体に関する推論結果は、ベクトルのある次元に格納され、それは二次元マップ全体に及ぶ。また、十分に学習が進んだ状態であれば、CG合成画像910に対応する推論結果が、ベクトルのまた別の次元に格納され、それは二次元マップの領域1010に限定される。同様に、CG合成画像911に対応する推論結果は、二次元マップの領域1011に限定される。
FIG. 10 is an explanatory diagram of the inference results. In the two-
次に、物体検知部が共有の推論部を有する変形例について説明する。
図11は、変形例にかかる物体検知モデル学習装置の構成図である。図11では、物体検知部160が共有の推論部1100をさらに備えている点が、図1と異なる。学習用CG生成部122の出力が共有の推論部1100に学習用データとして入力される。
Next, a modification example in which the object detection section has a shared inference section will be described.
FIG. 11 is a configuration diagram of an object detection model learning device according to a modified example. 11 differs from FIG. 1 in that the
共有の推論部1100は、入力された学習用データに対し、所定の推論処理を行った後、第一の推論部161及び第二の推論部162に出力する。
すなわち、この構成では、第一の推論部161と第二の推論部162に共通して有効な前処理を共有の推論部1100で実行することで、処理を効率化することができる。
その他の構成及び動作については、図1と同様であるので説明を省略する。
The shared
That is, in this configuration, the shared
The other configurations and operations are the same as those in FIG. 1, so explanations will be omitted.
図12は、変形例にかかる物体検知装置の構成図である。図12では、物体検知部160が共有の推論部1100をさらに備えている点が、図1と異なる。
共有の推論部1100は、画像入力部200から入力画像を受け付け、入力画像に対して所定の推論処理を行った後、第一の推論部161及び第二の推論部162に出力する。
すなわち、この構成では、第一の推論部161と第二の推論部162に共通して有効な前処理を共有の推論部1100で実行することで、処理を効率化することができる。
その他の構成及び動作については、図2と同様であるので説明を省略する。
FIG. 12 is a configuration diagram of an object detection device according to a modification. 12 differs from FIG. 1 in that the
The shared
That is, in this configuration, the shared
The other configurations and operations are the same as those in FIG. 2, so their explanation will be omitted.
上述してきたように、実施例に開示した物体検知モデル学習装置は、入力画像から物体を検知する物体検知モデルの学習を行う物体検知学習部150と、前記学習に用いる学習用データを生成する学習用データ生成部100と、を備える。
前記学習用データ生成部100は、検知対象の物体の画像をコンピュータグラフィックスで合成することで前記学習用データを生成し、前記学習用データについて、前記検知対象の物体に関する第一の教師信号を生成し、前記学習用データについて、前記検知対象の物体の撮像時の状態に対応する第二の教師信号を生成する。
前記物体検知モデルは、前記入力画像について、前記検知対象の物体に関する第一の推論結果を出力する第一の推論部161と、前記入力画像について、前記検知対象の物体の撮像時の状態に関する第二の推論結果を出力する第二の推論部162と、を備え、前記第一の推論部161は、前記入力画像と前記第二の推論結果とを用いて前記第一の推論結果を求める。
前記物体検知学習部150は、前記学習用データを前記第二の推論部162に与えて得られた第二の推論結果と前記第二の教師信号との差を第二の誤差として求める第二の誤差計算部171と、前記学習用データ及び前記第二の推論結果を前記第一の推論部161に与えて得られた第一の推論結果と前記第一の教師信号との差を第一の誤差として求める第一の誤差計算部170と、前記第二の誤差に基づいて前記第二の推論部のパラメータを更新し、前記第一の誤差に基づいて前記第一の推論部のパラメータを更新する推論パラメータ更新部180と、を備えることを特徴とする。
かかる構成及び動作によれば、検知対象の物体の撮像時の状態を用いるため、物体検知モデルの学習精度を向上することができ、実画像による学習よりも高い学習精度が期待できる。
As described above, the object detection model learning device disclosed in the embodiment includes an object
The learning
The object detection model includes a
The object
According to this configuration and operation, since the state of the object to be detected at the time of imaging is used, the learning accuracy of the object detection model can be improved, and higher learning accuracy can be expected than learning using real images.
また、前記学習用データ生成部100は、前記コンピュータグラフィックスのパラメータに関する制約条件と、前記第一の教師信号の選択条件と、前記第二の教師信号の選択条件とを受け付け、前記制約条件の範囲内で複数のコンピュータグラフィックス合成パラメータを生成し、前記コンピュータグラフィックス合成パラメータに基づいて前記学習用データを生成し、前記コンピュータグラフィックス合成パラメータと前記第一の教師信号の選択条件とを用いて前記第一の教師信号を生成し、前記コンピュータグラフィックス合成パラメータと前記第二の教師信号の選択条件とを用いて前記第二の教師信号を生成する。
かかる構成及び動作によれば、CG合成のパラメータを利用して、撮像時の状態に関する学習を行い、物体検知モデルの学習精度を向上することができる。
Further, the learning
According to such a configuration and operation, it is possible to perform learning regarding the state at the time of imaging using parameters of CG synthesis, and improve the learning accuracy of the object detection model.
なお、前記第一の教師信号は、前記検知対象の物体の種別と、前記学習用データにおける前記検知対象の物体の位置とを含むことが好適である。
また、前記第二の教師信号は、前記検知対象の物体とカメラとの位置関係、前記検知対象の物体に対する照明の状態、前記検知対象の物体の変形の状態のうち、すくなくともいずれかを含むことが好適である。
これらのパラメータを教師として学習を行うことで、撮像時の状態を効率的に学習し、物体検知の学習精度向上をより効果的に行うことができる。
Note that it is preferable that the first teacher signal includes the type of the object to be detected and the position of the object to be detected in the learning data.
Further, the second teacher signal may include at least one of a positional relationship between the object to be detected and the camera, a state of illumination for the object to be detected, and a state of deformation of the object to be detected. is suitable.
By performing learning using these parameters as a teacher, the state at the time of imaging can be learned efficiently, and the learning accuracy of object detection can be more effectively improved.
なお、前記第二の教師信号は、前記検知対象の物体の種別と、前記学習用データにおける前記検知対象の物体の位置とをさらに含んでもよい。
第二の推論対象となるパラメータは、検知対象の物体の種別や位置に影響を受ける場合があるためである。
Note that the second teacher signal may further include the type of the object to be detected and the position of the object to be detected in the learning data.
This is because the second parameter to be inferred may be influenced by the type and position of the object to be detected.
また、前記物体検知モデルは、共有の推論部1100をさらに備え、前記入力画像に対して前記共有の推論部による推論処理を行った後、共有の推論部の推論結果に対して前記第一の推論部161及び前記第二の推論部162による処理を行うこととしてもよい。
このように、第一の推論部161と第二の推論部162に共通して有効な前処理を共有の推論部1100で実行することで、処理を効率化することができる。
The object detection model further includes a shared
In this way, by executing preprocessing that is commonly effective for the
なお、本発明は上述の実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、かかる構成の削除に限らず、構成の置き換えや追加も可能である。 Note that the present invention is not limited to the above-described embodiments, and includes various modifications. For example, the embodiments described above are described in detail to explain the present invention in an easy-to-understand manner, and the present invention is not necessarily limited to having all the configurations described. Furthermore, it is possible not only to delete such a configuration but also to replace or add a configuration.
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記録媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記録媒体に格納されたプログラムコードを読み出す。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記録媒体は本発明を構成することになる。このようなプログラムコードを供給するための記録媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。 Further, each of the above-mentioned configurations, functions, processing units, processing means, etc. may be partially or entirely realized in hardware by designing, for example, an integrated circuit. Further, the present invention can also be realized by software program codes that realize the functions of the embodiments. In this case, a recording medium on which a program code is recorded is provided to a computer, and a processor included in the computer reads the program code stored on the recording medium. In this case, the program code itself read from the recording medium realizes the functions of the embodiments described above, and the program code itself and the recording medium storing it constitute the present invention. Examples of recording media for supplying such program codes include flexible disks, CD-ROMs, DVD-ROMs, hard disks, SSDs (Solid State Drives), optical disks, magneto-optical disks, CD-Rs, magnetic tapes, A non-volatile memory card, ROM, etc. are used.
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。 Furthermore, the program code that implements the functions described in this embodiment can be implemented using a wide range of program or script languages, such as assembler, C/C++, Perl, Shell, PHP, and Java (registered trademark).
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。 In the above-described embodiments, the control lines and information lines are those considered necessary for explanation, and not all control lines and information lines are necessarily shown in the product. All configurations may be interconnected.
100:学習用データ生成部、110:条件入力部、120:CG合成パラメータ制約条件保存部、121:CG合成パラメータ生成部、122:学習用CG生成部、130:教師信号選択条件保存部、131:教師信号選択部、132:第一の教師信号生成部、133:第二の教師信号生成部、150:物体検知学習部、160:物体検知部、161:第一の推論部、162:第二の推論部、170:第一の誤差計算部、171:第二の誤差計算部、180:推論パラメータ更新部、200:画像入力部、210:推論結果出力部、1100:共有の推論部
100: Learning data generation unit, 110: Condition input unit, 120: CG synthesis parameter constraint storage unit, 121: CG synthesis parameter generation unit, 122: Learning CG generation unit, 130: Teacher signal selection condition storage unit, 131 : Teacher signal selection unit, 132: First teacher signal generation unit, 133: Second teacher signal generation unit, 150: Object detection learning unit, 160: Object detection unit, 161: First inference unit, 162: First Second inference unit, 170: First error calculation unit, 171: Second error calculation unit, 180: Inference parameter update unit, 200: Image input unit, 210: Inference result output unit, 1100: Shared inference unit
Claims (8)
前記学習に用いる学習用データを生成する学習用データ生成部と、を備え、
前記学習用データ生成部は、
検知対象の物体の画像をコンピュータグラフィックスで合成することで前記学習用データを生成し、
前記学習用データについて、前記検知対象の物体に関する第一の教師信号を生成し、
前記学習用データについて、前記検知対象の物体の撮像時の状態に対応する第二の教師信号を生成し、
前記物体検知モデルは、
前記入力画像について、前記検知対象の物体に関する第一の推論結果を出力する第一の推論部と、
前記入力画像について、前記検知対象の物体の撮像時の状態に関する第二の推論結果を出力する第二の推論部と、を備え、
前記第一の推論部は、前記入力画像と前記第二の推論結果とを用いて前記第一の推論結果を求めるものであり、
前記物体検知学習部は、
前記学習用データを前記第二の推論部に与えて得られた第二の推論結果と前記第二の教師信号との差を第二の誤差として求める第二の誤差計算部と、
前記学習用データ及び前記第二の推論結果を前記第一の推論部に与えて得られた第一の推論結果と前記第一の教師信号との差を第一の誤差として求める第一の誤差計算部と、
前記第二の誤差に基づいて前記第二の推論部のパラメータを更新し、前記第一の誤差に基づいて前記第一の推論部のパラメータを更新する推論パラメータ更新部と、を備えることを特徴とする物体検知モデル学習装置。 an object detection learning unit that learns an object detection model that detects objects from input images;
a learning data generation unit that generates learning data used for the learning,
The learning data generation unit includes:
Generate the learning data by synthesizing images of the object to be detected using computer graphics,
generating a first teacher signal regarding the object to be detected for the learning data;
For the learning data, generate a second teacher signal corresponding to the state of the object to be detected at the time of imaging;
The object detection model is
a first inference unit that outputs a first inference result regarding the object to be detected with respect to the input image;
a second inference unit that outputs, regarding the input image, a second inference result regarding the state of the object to be detected at the time of imaging;
The first inference unit determines the first inference result using the input image and the second inference result,
The object detection learning section includes:
a second error calculation unit that calculates, as a second error, a difference between a second inference result obtained by applying the learning data to the second inference unit and the second teacher signal;
a first error that is determined as a first error between a first inference result obtained by giving the learning data and the second inference result to the first inference unit and the first teacher signal; calculation section and
An inference parameter updating unit that updates parameters of the second inference unit based on the second error and updates parameters of the first inference unit based on the first error. An object detection model learning device.
前記学習用データ生成部は、
前記コンピュータグラフィックスのパラメータに関する制約条件と、前記第一の教師信号の選択条件と、前記第二の教師信号の選択条件とを受け付け、
前記制約条件の範囲内で複数のコンピュータグラフィックス合成パラメータを生成し、前記コンピュータグラフィックス合成パラメータに基づいて前記学習用データを生成し、
前記コンピュータグラフィックス合成パラメータと前記第一の教師信号の選択条件とを用いて前記第一の教師信号を生成し、
前記コンピュータグラフィックス合成パラメータと前記第二の教師信号の選択条件とを用いて前記第二の教師信号を生成することを特徴とする物体検知モデル学習装置。 The object detection model learning device according to claim 1,
The learning data generation unit includes:
accepting constraints regarding the computer graphics parameters, selection conditions for the first teacher signal, and selection conditions for the second teacher signal;
generating a plurality of computer graphics synthesis parameters within the range of the constraint conditions, and generating the learning data based on the computer graphics synthesis parameters;
generating the first teacher signal using the computer graphics synthesis parameter and the selection condition for the first teacher signal;
An object detection model learning device characterized in that the second teacher signal is generated using the computer graphics synthesis parameter and the selection condition for the second teacher signal.
前記第一の教師信号は、前記検知対象の物体の種別と、前記学習用データにおける前記検知対象の物体の位置とを含むことを特徴とする物体検知モデル学習装置。 The object detection model learning device according to claim 1,
The object detection model learning device is characterized in that the first teacher signal includes a type of the object to be detected and a position of the object to be detected in the learning data.
前記第二の教師信号は、前記検知対象の物体とカメラとの位置関係、前記検知対象の物体に対する照明の状態、前記検知対象の物体の変形の状態のうち、すくなくともいずれかを含むことを特徴とする物体検知モデル学習装置。 The object detection model learning device according to claim 1,
The second teacher signal includes at least one of a positional relationship between the object to be detected and a camera, a state of illumination for the object to be detected, and a state of deformation of the object to be detected. An object detection model learning device.
前記第二の教師信号は、前記検知対象の物体の種別と、前記学習用データにおける前記検知対象の物体の位置とをさらに含むことを特徴とする物体検知モデル学習装置。 The object detection model learning device according to claim 4,
The object detection model learning device is characterized in that the second teacher signal further includes a type of the object to be detected and a position of the object to be detected in the learning data.
前記物体検知モデルは、共有の推論部をさらに備え、前記入力画像に対して前記共有の推論部による推論処理を行った後、共有の推論部の推論結果に対して前記第一の推論部及び前記第二の推論部による処理を行うことを特徴とする物体検知モデル学習装置。 The object detection model learning device according to claim 1,
The object detection model further includes a shared inference unit, and after the input image is subjected to inference processing by the shared inference unit, the first inference unit and the inference process are performed on the inference result of the shared inference unit. An object detection model learning device characterized in that processing is performed by the second inference section.
前記入力画像について、前記検知対象の物体の撮像時の状態に関する第二の推論結果を出力する第二の推論部と、を備え、
前記第一の推論部は、前記入力画像と前記第二の推論結果とを用いて前記第一の推論結果を求めることを特徴とする物体検知装置。 a first inference unit that outputs a first inference result regarding the object to be detected with respect to the input image;
a second inference unit that outputs, regarding the input image, a second inference result regarding the state of the object to be detected at the time of imaging;
The object detection device is characterized in that the first inference unit obtains the first inference result using the input image and the second inference result.
検知対象の物体の画像をコンピュータグラフィックスで合成することで学習用データを生成するステップと、
前記学習用データについて、前記検知対象の物体に関する第一の教師信号を生成するステップと、
前記学習用データについて、前記検知対象の物体の撮像時の状態に対応する第二の教師信号を生成するステップと、
前記物体検知モデルが有する第二の推論部に対し、前記学習用データを与え、前記検知対象の物体の撮像時の状態に関する第二の推論結果を得るステップと、
前記物体検知モデルが有する第一の推論部に対し、前記学習用データと前記第二の推論結果とを与え、前記検知対象の物体に関する第一の推論結果を得るステップと、
前記第一の推論結果と前記第一の教師信号との差を第一の誤差として求めるステップと、
前記第二の推論結果と前記第二の教師信号との差を第二の誤差として求めるステップと、
前記第二の誤差に基づいて前記第二の推論部のパラメータを更新し、前記第一の誤差に基づいて前記第一の推論部のパラメータを更新するステップと、
を含むことを特徴とする物体検知モデル学習方法。
An object detection learning method for learning an object detection model that detects an object from an input image, the method comprising:
generating training data by synthesizing images of objects to be detected using computer graphics;
generating a first teacher signal regarding the object to be detected with respect to the learning data;
generating, for the learning data, a second teacher signal corresponding to the state of the object to be detected at the time of imaging;
providing the learning data to a second inference unit included in the object detection model to obtain a second inference result regarding the state of the object to be detected at the time of imaging;
providing the learning data and the second inference result to a first inference unit included in the object detection model to obtain a first inference result regarding the object to be detected;
obtaining a difference between the first inference result and the first teacher signal as a first error;
obtaining a difference between the second inference result and the second teacher signal as a second error;
updating parameters of the second inference unit based on the second error, and updating parameters of the first inference unit based on the first error;
An object detection model learning method characterized by comprising:
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022083698A JP2023172115A (en) | 2022-05-23 | 2022-05-23 | Object detection model training device, object detecting device, and object detection model training method |
PCT/JP2023/012748 WO2023228558A1 (en) | 2022-05-23 | 2023-03-29 | Object detection model training device, object detecting device, and object detection model training method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022083698A JP2023172115A (en) | 2022-05-23 | 2022-05-23 | Object detection model training device, object detecting device, and object detection model training method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023172115A true JP2023172115A (en) | 2023-12-06 |
Family
ID=88919085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022083698A Pending JP2023172115A (en) | 2022-05-23 | 2022-05-23 | Object detection model training device, object detecting device, and object detection model training method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023172115A (en) |
WO (1) | WO2023228558A1 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012243179A (en) * | 2011-05-23 | 2012-12-10 | Sony Corp | Information processor, information processing method and program |
JP6274876B2 (en) * | 2014-01-23 | 2018-02-07 | キヤノン株式会社 | Image processing apparatus, image processing method, and program |
JP7011146B2 (en) * | 2017-03-27 | 2022-01-26 | 富士通株式会社 | Image processing device, image processing method, image processing program, and teacher data generation method |
JP7433849B2 (en) * | 2019-11-13 | 2024-02-20 | キヤノン株式会社 | Information processing device, information processing method and program |
JP2023062217A (en) * | 2020-03-26 | 2023-05-08 | ソニーセミコンダクタソリューションズ株式会社 | Data generation method, learning method, and estimation method |
-
2022
- 2022-05-23 JP JP2022083698A patent/JP2023172115A/en active Pending
-
2023
- 2023-03-29 WO PCT/JP2023/012748 patent/WO2023228558A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023228558A1 (en) | 2023-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4284664B2 (en) | Three-dimensional shape estimation system and image generation system | |
CN104937635B (en) | More hypothesis target tracking devices based on model | |
AU2014277220B2 (en) | Online modeling for real-time facial animation | |
JP6011102B2 (en) | Object posture estimation method | |
US20160342861A1 (en) | Method for Training Classifiers to Detect Objects Represented in Images of Target Environments | |
JP7178396B2 (en) | Method and computer system for generating data for estimating 3D pose of object included in input image | |
US20200272806A1 (en) | Real-Time Tracking of Facial Features in Unconstrained Video | |
JP2021503662A (en) | Neural network model training | |
JP6685827B2 (en) | Image processing apparatus, image processing method and program | |
JP6594129B2 (en) | Information processing apparatus, information processing method, and program | |
JP2006520055A (en) | Invariant viewpoint detection and identification of 3D objects from 2D images | |
JP6675691B1 (en) | Learning data generation method, program, learning data generation device, and inference processing method | |
CN109521879B (en) | Interactive projection control method and device, storage medium and electronic equipment | |
JP2022519194A (en) | Depth estimation | |
US20230394743A1 (en) | Sub-pixel data simulation system | |
EP3987443A1 (en) | Recurrent multi-task convolutional neural network architecture | |
JP7064257B2 (en) | Image depth determination method and creature recognition method, circuit, device, storage medium | |
WO2020156836A1 (en) | Dense 6-dof pose object detector | |
WO2022201803A1 (en) | Information processing device, information processing method, and program | |
US11645800B2 (en) | Advanced systems and methods for automatically generating an animatable object from various types of user input | |
WO2023228558A1 (en) | Object detection model training device, object detecting device, and object detection model training method | |
KR102538685B1 (en) | Method and apparatus for restoring 3d information using multi-view information | |
CN115205487A (en) | Monocular camera face reconstruction method and device | |
Schlette et al. | A new benchmark for pose estimation with ground truth from virtual reality | |
CN115362478A (en) | Reinforcement learning model for spatial relationships between labeled images |