JP7136849B2 - LEARNING DATA GENERATION METHOD, HUMAN DETECTION MODEL LEARNING METHOD, AND LEARNING DATA GENERATOR - Google Patents
LEARNING DATA GENERATION METHOD, HUMAN DETECTION MODEL LEARNING METHOD, AND LEARNING DATA GENERATOR Download PDFInfo
- Publication number
- JP7136849B2 JP7136849B2 JP2020119892A JP2020119892A JP7136849B2 JP 7136849 B2 JP7136849 B2 JP 7136849B2 JP 2020119892 A JP2020119892 A JP 2020119892A JP 2020119892 A JP2020119892 A JP 2020119892A JP 7136849 B2 JP7136849 B2 JP 7136849B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- learning data
- generating
- human
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本開示は、学習用データの生成方法、人検知モデルの学習方法、及び学習用データの生成装置に関する。 The present disclosure relates to a learning data generation method, a human detection model learning method, and a learning data generation device.
安全のために産業車両の周囲に位置する人を検知するための人検知技術が提案されている。例えば、特許文献1には、産業車両の周囲を撮像し、人の特徴的な部分を表す画像としてヘルメットを検知して人候補画像を抽出する周辺監視システムが開示されている。 A human detection technology has been proposed for detecting a person positioned around an industrial vehicle for safety. For example, Patent Literature 1 discloses a perimeter monitoring system that captures an image of the periphery of an industrial vehicle, detects a helmet as an image representing a characteristic part of a person, and extracts a person candidate image.
ところで、産業車両の人検知システムは、販売台数が少ないうえに、利用条件が個々の客先環境によって異なるため、低コストで品質を確保することが困難である。例えば、特許文献1では、人の特徴的な部分を表す画像としてヘルメットを人検知に利用している。このような人検知技術では、ヘルメットを着用していない人がいる作業場所、障害物が多い作業場所、人が多い場所等に適用された場合に、過検知が生じたり、検知漏れが生じたりする虞がある。すなわち、人検知システムを客先環境に最適化しなければ、十分な検知精度を確保できない場合がある。 By the way, human detection systems for industrial vehicles are difficult to ensure quality at low cost because the number of sales is small and the conditions of use differ depending on the customer's environment. For example, in Patent Document 1, a helmet is used for human detection as an image representing a characteristic part of a person. Such human detection technology may cause over-detection or omission of detection when applied to work places where people are not wearing helmets, work places where there are many obstacles, places where there are many people, etc. there is a risk of In other words, unless the human detection system is optimized for the customer's environment, it may not be possible to ensure sufficient detection accuracy.
人検知システムを客先環境に最適化する方法として、深層学習を行う人検知モデルを用いることが考えられる。しかし、深層学習を用いてロバストな人検知モデルを作成するためには、実環境で撮られた多様な人画像を学習用データとして人検知モデルを学習させる必要があり、多様な人画像を収集し、更に人画像に対して正解情報(正しい人の位置情報)を作成することは手間と時間がかかる。例えば、実環境中のいろいろな場所に実際に人を配置し、それらを正解情報としてラベリングし、検知できるか否かを検証することには多大な労力を要する。 As a method of optimizing the human detection system for the customer's environment, it is conceivable to use a human detection model that performs deep learning. However, in order to create a robust human detection model using deep learning, it is necessary to train the human detection model using various human images taken in the real environment as learning data. Furthermore, it takes time and effort to create correct information (correct person's position information) for human images. For example, it takes a lot of effort to actually place people in various places in the real environment, label them as correct information, and verify whether they can be detected.
したがって、正解情報を含む多様な学習用データを生成するための手間を削減し、生成時間を短縮化することが求められる。なお、CG(Computer Graphichs)技術のみを用いて多数の仮想的人画像を生成することで、短時間で学習用データを増やすことも考えられるが、実画像との乖離が大きいため、十分な人検知精度を確保することが困難である。 Therefore, it is required to reduce the labor for generating various learning data including correct information and to shorten the generation time. It is conceivable to increase the learning data in a short time by generating a large number of virtual human images using only CG (computer graphics) technology. It is difficult to ensure detection accuracy.
上述の事情に鑑みて、本開示は、正解情報を含む多様な学習用データを生成するための生成時間を短縮化し、人検知精度を向上可能な学習用データを生成することを目的とする。 In view of the circumstances described above, an object of the present disclosure is to shorten the generation time for generating various types of learning data including correct information, and to generate learning data capable of improving human detection accuracy.
本開示に係る学習用データの生成方法は、
機械学習を行う人検知モデルの学習用データの生成方法であって、
作業場所を走行しながら撮像した実画像に基づいて三次元点群の環境モデルを生成するステップと、
前記環境モデルが示す三次元空間内に一以上の人モデルを配置した三次元合成モデルを生成するステップと、
前記三次元合成モデルに基づいて前記学習用データを生成するステップと、
を含む。
A method for generating learning data according to the present disclosure includes:
A method for generating learning data for a human detection model that performs machine learning, comprising:
a step of generating a three-dimensional point cloud environment model based on actual images captured while traveling in a work place;
generating a three-dimensional synthetic model in which one or more human models are arranged in a three-dimensional space represented by the environment model;
generating the learning data based on the three-dimensional synthetic model;
including.
本開示に係る人検知モデルの学習方法は、
上記の学習用データの生成方法によって学習用データを生成するステップと、
生成された前記学習用データを用いて人検知モデルを学習させるステップと、
を含む。
The human detection model learning method according to the present disclosure includes:
a step of generating learning data by the method for generating learning data;
a step of learning a human detection model using the generated learning data;
including.
本開示に係る学習用データの生成装置は、
機械学習を行う人検知モデルの学習用データの生成装置であって、
作業場所を走行しながら撮像した実画像に基づいて三次元点群の環境モデルを生成する環境モデル生成部と、
前記環境モデルが示す三次元空間内に一以上の人モデルを配置した三次元合成モデルを生成するデータ合成部と、
前記三次元合成モデルに基づいて前記学習用データを生成するデータ生成部と、
を備える。
The learning data generation device according to the present disclosure includes:
A device for generating learning data for a human detection model that performs machine learning,
an environment model generation unit that generates a three-dimensional point cloud environment model based on actual images captured while traveling in a work place;
a data synthesizing unit that generates a three-dimensional synthesized model in which one or more human models are arranged in a three-dimensional space indicated by the environment model;
a data generation unit that generates the learning data based on the three-dimensional synthetic model;
Prepare.
本開示によれば、正解情報を含む多様な学習用データを生成するための生成時間を短縮化し、人検知精度を向上可能な学習用データを生成することができる。 Advantageous Effects of Invention According to the present disclosure, it is possible to shorten the generation time for generating various types of learning data including correct information, and generate learning data capable of improving human detection accuracy.
以下、添付図面を参照して幾つかの実施形態について説明する。ただし、実施形態として記載されている又は図面に示されている構成部品の寸法、材質、形状、その相対的配置等は、発明の範囲をこれに限定する趣旨ではなく、単なる説明例にすぎない。
例えば、「ある方向に」、「ある方向に沿って」、「平行」、「直交」、「中心」、「同心」或いは「同軸」等の相対的或いは絶対的な配置を表す表現は、厳密にそのような配置を表すのみならず、公差、若しくは、同じ機能が得られる程度の角度や距離をもって相対的に変位している状態も表すものとする。
例えば、「同一」、「等しい」及び「均質」等の物事が等しい状態であることを表す表現は、厳密に等しい状態を表すのみならず、公差、若しくは、同じ機能が得られる程度の差が存在している状態も表すものとする。
例えば、四角形状や円筒形状等の形状を表す表現は、幾何学的に厳密な意味での四角形状や円筒形状等の形状を表すのみならず、同じ効果が得られる範囲で、凹凸部や面取り部等を含む形状も表すものとする。
一方、一の構成要素を「備える」、「具える」、「具備する」、「含む」、又は、「有する」という表現は、他の構成要素の存在を除外する排他的な表現ではない。
Several embodiments will now be described with reference to the accompanying drawings. However, the dimensions, materials, shapes, relative arrangements, etc. of the components described as embodiments or shown in the drawings are not intended to limit the scope of the invention, but are merely illustrative examples. .
For example, expressions denoting relative or absolute arrangements such as "in a direction", "along a direction", "parallel", "perpendicular", "center", "concentric" or "coaxial" are strictly not only represents such an arrangement, but also represents a state of relative displacement with a tolerance or an angle or distance to the extent that the same function can be obtained.
For example, expressions such as "identical", "equal", and "homogeneous", which express that things are in the same state, not only express the state of being strictly equal, but also have tolerances or differences to the extent that the same function can be obtained. It shall also represent the existing state.
For example, expressions that express shapes such as squares and cylinders do not only represent shapes such as squares and cylinders in a geometrically strict sense, but also include irregularities and chamfers to the extent that the same effect can be obtained. The shape including the part etc. shall also be represented.
On the other hand, the expressions "comprising", "comprising", "having", "including", or "having" one component are not exclusive expressions excluding the presence of other components.
(人検知システムの全体構成)
以下、一実施形態に係る産業車両の人検知システム400の構成について説明する。図1は、一実施形態に係る学習用データの生成装置100と、人検知装置200と、当該人検知装置200を搭載した産業車両300とを含む人検知システム400の機能的構成を概略的に示すブロック図である。
(Overall configuration of human detection system)
The configuration of the industrial vehicle
人検知装置200は、撮像画像に含まれる人を検知するための人検知モデル210と、人の検知結果を出力するための出力部220とを備える。人検知装置200は、深層学習を行う人検知モデル210に正解情報を含む学習用データ(学習用画像)を学習させ、それを利用して実際の撮像画像に含まれる人を検知するように構成される。人検知装置200は、フォークリフトなどの産業車両300に搭載され、産業車両300の所定位置に設けられたカメラなどの撮像部310が取得する作業場所の撮像画像を、学習済みの人検知モデル210に入力することによって、産業車両300の周囲の人を検知するように構成される。出力部220は、人検知モデル210によって産業車両300の周囲の人が検知された場合に、当該検知結果を産業車両300の報知部320に出力する。報知部320は、画面表示、警告灯、警告音声などの手段によって、産業車両300と人との接触の危険性を搭乗者に報知するように構成される。学習用データの生成装置100は、人検知装置200の人検知モデル210の学習用データを生成するための装置である。
The
図2は、一実施形態に係る学習用データの生成装置100のハードウェア構成を概略的に示すブロック図である。学習用データの生成装置100は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等のプロセッサ72と、RAM(Random Access Memory)74と、ROM(ReadOnlyMemory)76と、HDD (Hard Disk Drive)78と、入力I/F80と、出力I/F82と、を含み、これらがバス84を介して互いに接続されたコンピュータを用いて構成される。人検知装置200もこれと同様の構成であってもよい。
FIG. 2 is a block diagram schematically showing the hardware configuration of the learning
学習用データの生成装置100及び人検知装置200は、プロセッサ72がROM76やRAM74等のメモリに記憶されているプログラムを実行することにより、後述する各種機能を実現する。なお、学習用データの生成装置100及び人検知装置200は、一体であってもよいし、別体であってもよい。別体である場合、学習用データの生成装置100は、産業車両300外部の学習用環境で利用される情報処理装置であってもよい。この場合、図1に示すように、学習済みの人検知装置200のみが産業車両300に搭載されることとなる。
The learning
図1に示すように、学習用データの生成装置100は、人検知装置200が搭載された産業車両300が実際に運用される作業場所を走行しながら撮像した実画像を取得するように構成された実画像取得部110と、取得した実画像および当該実画像の取得位置などの情報に基づいて三次元点群からなる環境モデルを生成する環境モデル生成部120と、生成した環境モデルが示す三次元空間内に一以上の仮想的な人モデルを配置した三次元合成モデルを生成するデータ合成部130と、所定の視点位置から当該三次元合成モデルを観測した場合の画像を学習用データ(学習用画像)として生成するデータ生成部140と、を備える。
As shown in FIG. 1, the learning
実画像取得部110は、例えば、産業車両300に設けられた撮像部310やデータ測定用の試験走行車などから、作業場所の実画像を取得するように構成される。実画像の取得は、例えば、産業車両300の導入前に試験走行車を周回させることによって取得しても良いし、産業車両300を導入後、実際の荷役作業を行いながら取得しても良い。環境モデル生成部120は、例えばV-SLAM(Visual SimultaneousLocalization and Mapping)技術やSfM(Structure from Motion)技術によって作業場所の特徴点を抽出し、実画像取得部110が取得した実画像およびその取得位置などの情報に基づき、三次元点群からなる環境モデルを生成するように構成される。環境モデルを構成する三次元点群は、例えば、抽出された特徴点の三次元座標に加えて、当該三次元座標に係る色相、彩度、輝度などの付随情報を含むものであってもよい。
The real
データ合成部130は、予め記憶されている仮想的な人モデルを環境モデル内に配置(合成)し、三次元合成モデルを生成するように構成される。人モデルは、CG技術によって生成されるものであり、環境モデルと同様に人の特徴点を三次元点群として規定したものであっても良いし、人の存在範囲を物体の面として規定したもの、具体的には、3Dモデリングソフトで作り出した三次元オブジェクトであっても良い。データ合成部130が配置する人モデルには、後述する人としての属性情報が予め付与されているものとする。人モデルとしては、産業車両300が実際に運用される作業場所を想定して、様々な服装、姿勢、身長、性別の人をパターン化して用意しておくとよい。人モデルは、配置場所に応じて、適宜拡大、縮小、回転、色調整などの処理を行ったうえで環境モデルに合成される。データ合成部130は、実画像を取得するときの産業車両300の走行履歴に基づいて、人モデルを配置する領域として、産業車両300の走行頻度が高い経路を走行頻度が低い経路よりも優先的に選択するように構成されてもよい。データ合成部130は、後述する属性付与処理において人の属性を示す点群または面が多く抽出される領域を優先的に選択して人モデルを配置するように構成されてもよい。
The
データ生成部140は、データ合成部130が生成した三次元合成モデルに基づき、所定の視点位置から当該三次元合成モデルを観測した画像を学習用データ(学習用画像)として生成する。ここで想定する画像は、データ合成部130が配置した人モデルが産業車両300の周囲に映り込んだ状態の画像であり、後述する正解情報のラベリングが付された状態で、学習用データ(学習用画像)として人検知モデル210の深層学習の用に供される。三次元合成モデルから学習用画像を生成する際には、環境モデルで表現される作業場所内の位置、産業車両300に設けられる撮像部310の設置高さ、設置角度、画角、焦点距離などの視点位置情報が考慮される。
Based on the 3D synthetic model generated by the
学習用データの生成装置100は、環境モデルを構成する三次元点群の少なくとも一部の点群に属性を付与するように構成された属性付与部150と、属性付与における物体の面又は物体の面をなす点群を物体単位で配置変更、削除、又は複製するための処理をするように構成された処理部160と、人を示す属性が付与された点群又は物体の面を、人検知モデル210を学習する際の正解情報としてラベリングするように構成された正解情報設定部170と、をさらに備える。
The learning
属性付与部150は、セマンテックセグメンテーション技術によって属性を付与するように構成されてもよい。属性付与部150は、環境モデルにおける各三次元点群の属性を求める。属性は、例えば、人、フォークリフト、トラック、棚、道路、建物等である。属性付与部150は、同じ属性の点を結んでメッシュ状の面を形成してもよい。属性付与部150は、例えば、同じ属性の付与された点群が連続的に並んでいる場合に、それらをグルーピングして物体の面として識別するように構成されてもよい。すなわち、属性付与部150は、付与した属性に基づいて物体の面を識別してもよい。属性付与部150が属性を付与する物体は、人検知装置200の検知対象である人であってもよいし、検知対象ではない物品、構造物、動物等であってもよい。
The
環境モデルを生成するための実画像を取得する際には人が映り込んでいる場合があるが、この映り込んだ人を背景として扱った環境モデルに更に人モデルを合成し三次元合成モデルとして学習用データを生成すると、背景として映り込んだ人は正解情報としてラベリングされない一方、配置した人モデルについては正解情報としてラベリングされるという状況が生じるため人検知モデル210の学習効率を下げ、また人検知の精度に影響する可能性がある。従って、実画像に映り込んだ人については属性を付与しこれを人として扱う。これにより、実画像に映り込んだ人を示す点群又は物体の面については環境モデル(三次元合成モデル)の背景として扱われないように処理される。なお、データ合成部130が配置する人モデルについては人であることが既知であるため、属性付与部150に拠らず、当該人モデルを構成する点群または物体の面に対して自動的に人としての属性が付与される。
When acquiring the actual image for generating the environment model, there are cases where people are reflected in the image. When the training data is generated, a situation arises in which a person reflected in the background is not labeled as correct information, while the arranged human model is labeled as correct information. It may affect detection accuracy. Therefore, a person who appears in the real image is assigned an attribute and treated as a person. As a result, the point cloud representing the person or the surface of the object captured in the real image is processed so as not to be treated as the background of the environment model (three-dimensional synthetic model). Since it is already known that the human model arranged by the
処理部160は、属性付与された物体の編集操作を受け付けるように構成されてもよい。これにより、環境モデル及び三次元合成モデルに含まれる物体の面又はその点群を物体単位で識別し、物体単位で配置変更、削除、又は複製などの編集をすることが可能となる。そのため、学習用データの生成において背景や正解情報の編集を行うことができる。例えば、普段物体が存在しない領域におかれた物体(人を含む)を削除したり、よく物体が存在する場所に物体(人を含む)を移動又は追加したりすることができる。例えば、処理部160は、実画像に映り込んだ人について環境モデル上で属性付与がなされていれば、これを排除することも、新規の人モデルとして環境モデル内の任意の場所に移動させることも可能となる。これにより、三次元環境モデル構築のための走行時に人を排除する必要がなくなる。
The
正解情報設定部170は、三次元合成モデルにおいて人を示す属性が付与された点群又は物体の面を正解情報としてラベリングするように構成される。このラベリング情報は、データ生成部140が三次元合成モデルに基づき生成する学習用画像においても反映される。なお、正解情報設定部170は、三次元合成モデルに基づき学習用画像を生成した後に正解情報のラベリングを行うように構成されていても良い。
The correct
(学習用データの生成方法)
以下、一実施形態に係る学習用データの生成方法について説明する。図3は、一実施形態に係る学習用データの生成方法の手順を示すフローチャートである。
(Method of generating learning data)
A method of generating learning data according to an embodiment will be described below. FIG. 3 is a flow chart showing procedures of a method for generating learning data according to an embodiment.
図3に示すように、学習用データの生成装置100(実画像取得部110)は、作業場所を走行しながら撮像した実画像を取得する(ステップS1)。密な三次元点群の環境モデルを生成するために、実画像は、作業場所で何周も走行して取得することが好ましい。例えば、複数回の走行によって取得した三次元点群を重ね合わせることにより、密な三次元点群の環境モデルを生成することが可能となる。また、密な三次元点群の環境モデルを生成するために、人検知に使用する画像よりも高解像度の撮像装置によって環境モデル生成用の実画像を取得してもよい。実画像は、作業場所で通常通りの業務が行われている状況で取得されてもよい。 As shown in FIG. 3, the learning data generation device 100 (actual image acquisition unit 110) acquires an actual image captured while traveling in a work place (step S1). In order to generate a dense 3D point cloud environment model, the real images are preferably acquired in a number of laps around the work site. For example, by superimposing three-dimensional point clouds obtained by multiple runs, it is possible to generate a dense three-dimensional point cloud environment model. Also, in order to generate an environment model of a dense three-dimensional point group, a real image for environment model generation may be acquired by an imaging device having a higher resolution than the image used for human detection. The actual image may be captured in a normal business environment at the work site.
学習用データの生成装置100(環境モデル生成部120)は、取得した実画像に基づいて三次元点群の環境モデルを生成する(ステップS2)。学習用データの生成装置100(属性付与部150)は、環境モデルの三次元点群の少なくとも一部の点群に属性を付与する(ステップS3)。学習用データの生成装置100(属性付与部150)は、この属性に基づいて物体の面を識別する。 The learning data generation device 100 (environment model generation unit 120) generates a three-dimensional point cloud environment model based on the acquired real image (step S2). The learning data generation device 100 (attribute assigning unit 150) assigns attributes to at least a part of the three-dimensional point group of the environment model (step S3). The learning data generation device 100 (attribute assigning unit 150) identifies the surface of the object based on this attribute.
ここで、学習用データの生成装置100(属性付与部150)は、人を示す属性の物体があるか否かを判別する(ステップS4)。人を示す属性の物体があると判別した場合(ステップS4;Yes)、学習用データの生成装置100(処理部160)は、その物体又はその物体の点群に対する処理内容(配置変更、削除、又は複製等)を決定する(ステップS5)。具体的には、学習用データの生成装置100(処理部160)は、人の属性を示す物体又はその物体の点群を環境モデルから排除するか、任意の場所に移動させるかなどを決定する。人を示す属性の物体がないと判別した場合(ステップS4;No)、学習用データの生成装置100は、ステップS5をスキップする。
Here, the learning data generation device 100 (attribute assigning unit 150) determines whether or not there is an object with an attribute indicating a person (step S4). When it is determined that there is an object with an attribute indicating a person (step S4; Yes), the learning data generation device 100 (processing unit 160) performs processing on the object or the point group of the object (arrangement change, deletion, or duplication) is determined (step S5). Specifically, the learning data generation device 100 (processing unit 160) determines whether an object indicating a person's attribute or a point group of the object should be excluded from the environment model or moved to an arbitrary location. . If it is determined that there is no object with the attribute indicating a person (step S4; No), the learning
学習用データの生成装置100(データ合成部130)は、環境モデルが示す三次元空間内に一以上の人モデルを配置し、三次元合成モデルを生成する(ステップS6)。ここで、配置する人モデルを構成する点群又は物体の面には予め人を示す属性が付与されている。学習用データの生成装置100(正解情報設定部170)は、人の属性を示す物体又はその物体の点群を正解情報としてラベリングする(ステップS7)。学習用データの生成装置100(データ生成部140)は、人モデルを配置した三次元合成モデルに基づき、正解情報がラベリングされた学習用データを生成する(ステップS8)。人モデルは、実画像取得時の産業車両300の走行履歴に基づいて、走行頻度が高い経路の付近(例えば、移動経路から5m以内の位置)に配置されてもよい。人モデルは、人通りが多い場所(例えば、建物や部屋の出入口)に優先的に配置されてもよい。このような人通りが多い場所は、ステップS4で人の属性を示す物体が検知された数や頻度に基づいて特定されてもよい。
The learning data generation device 100 (data synthesizing unit 130) arranges one or more human models in the three-dimensional space represented by the environment model to generate a three-dimensional synthetic model (step S6). Here, an attribute indicating a person is given in advance to the point group or the surface of the object that constitutes the human model to be arranged. The learning data generation device 100 (correct answer information setting unit 170) labels an object indicating a person's attribute or a point group of the object as correct answer information (step S7). The learning data generation device 100 (data generation unit 140) generates learning data labeled with correct information based on the three-dimensional synthetic model in which the human model is arranged (step S8). Based on the travel history of the
(環境モデルの具体例)
以下、環境モデルの具体例を説明する。
(Concrete example of environmental model)
A specific example of the environment model will be described below.
図4は、一実施形態に係る学習用データの生成装置100の環境モデル生成部120が生成した環境モデルの一例を示す概略図である。図5は、一実施形態に係る学習用データの生成装置100の属性付与部150が属性を付与した環境モデルの一例を示す概略図である。
FIG. 4 is a schematic diagram showing an example of an environment model generated by the environment
図4に示す例は、倉庫内で撮影した実画像に基づき生成された環境モデルである。この環境モデルには、人40と積荷50と壁60と床70とが含まれている。このままの状態で環境モデル中に新たに人モデルを配置すると、配置した人モデルには人としての属性が付与され正解情報としてラベリングされる一方、実画像に映り込んでしまった人40は環境モデルを構成する背景の一部として扱われる虞があるため、人40に属性を付与して環境モデルから排除する、任意の場所に移動するなどの処理を行う必要がある。なお、属性を付与した人40の配置に対して特段の操作を必要としない場合は、当該人40を構成する点群又は物体の面をそのまま正解情報としてラベリングしても構わない。
The example shown in FIG. 4 is an environment model generated based on an actual image taken in a warehouse. The environment model includes
図5は、図4に示す環境モデルに対して、属性付与部150が属性を付与した後の状態を模式的に示している。環境モデルに含まれる物体である人40と積荷50と壁60と床70とには、それぞれ異なる属性が付与されている。この図では、付与した属性をビジュアル化するために、ハッチングで区別している。しかし、このような画像処理は必須ではない。属性付与部150は、三次元点群の各領域に対して、メタ情報として属性を付与してもよいし、符号や識別子を付加してもよい。
FIG. 5 schematically shows a state after the
図5に示すように、物体の面を識別可能に、属性が付与される。属性を付与することで、処理部160が物体単位で配置変更、削除、追加などの編集をすることが可能となる。人40の領域については、その配置が産業車両300の実走行時の状態から考えて違和感のないものであれば、そのまま正解情報としてラベリングしても良いし、そのままの配置では実運用時との乖離があるようであれば、環境モデルから排除したり、拡大、縮小、回転などの処理を施したうえで別の場所に移動させたりしても良い。
As shown in FIG. 5, attributes are assigned to the surfaces of the object so that they can be identified. By assigning attributes, the
(学習用データの具体例)
以下、学習用データの具体例を説明する。
(Specific example of learning data)
A specific example of the learning data will be described below.
図6は、一実施形態に係る学習用データの生成装置100のデータ生成部140が生成する学習用データ(学習用画像)を示す概略図である。図6に示す学習用画像は、環境モデル生成部120によって生成された環境モデルにデータ合成部130が人モデルを合成して得られた三次元合成モデルに基づいて、データ生成部140が生成したものである。図6においては、三次元合成モデルから学習用画像を生成する際の視点位置として、産業車両300の上方に設置された撮像部310の位置を想定しているため、産業車両300の一部が映り込むとともに、道路に駐車中の車両10と、産業車両の周囲に存在する人20とが含まれている。この人20の画像は、データ合成部130が環境モデル内に配置した人モデルを所定の視点位置から観測した結果得られるものである。学習用データの生成装置100は、三次元合成モデルにおいて人モデルに対して属性を付与して正解情報としてラベリングしているため、生成した学習用画像においても容易に人20を含む領域を正解情報として特定し、学習用データとして人検知モデル210に入力することができる。
FIG. 6 is a schematic diagram showing learning data (learning image) generated by the
本開示は上述した実施形態に限定されることはなく、上述した実施形態に変形を加えた形態や、複数の実施形態を適宜組み合わせた形態も含む。例えば、学習用データの生成方法は、図3に示す例に限定されない。各ステップの順序が変更されてもよいし、一部のステップが省略されてもよい。なお、上述した学習用データの生成方法によって生成した学習用データは、人検知モデル210に提供され、人検知モデル210は、学習用データに基づく機械学習(深層学習)を実行する。深層学習の手段については、例えば、SSD(Single Shot Multibox Detector)などの手法を採用することができるが、これに限定されるものではなく、任意の物体検出アルゴリズムを用いて構わない。学習済みの人検知モデルは、例えば、作業場所で取得した撮像画像を入力情報とし、当該撮像画像に含まれる物体の位置(矩形により特定)、クラス(人、車両など)及びそのクラスに属する確率などを出力情報とするものであってもよい。
The present disclosure is not limited to the above-described embodiments, and includes modifications of the above-described embodiments and modes in which a plurality of embodiments are appropriately combined. For example, the method of generating learning data is not limited to the example shown in FIG. The order of each step may be changed, and some steps may be omitted. The learning data generated by the learning data generation method described above is provided to the
(まとめ)
上記各実施形態に記載の内容は、例えば以下のように把握される。
(summary)
The contents described in each of the above embodiments are understood as follows, for example.
(1)本開示に係る学習用データの生成方法は、
機械学習を行う人検知モデル(210)の学習用データの生成方法であって、
作業場所を走行しながら撮像した実画像に基づいて三次元点群の環境モデルを生成するステップと、
前記環境モデルが示す三次元空間内に一以上の人モデル(20)を配置した三次元合成モデルを生成するステップと、
前記三次元合成モデルに基づいて前記学習用データを生成するステップと、
を含む。
(1) The method of generating learning data according to the present disclosure includes:
A method for generating learning data for a human detection model (210) that performs machine learning,
a step of generating a three-dimensional point cloud environment model based on actual images captured while traveling in a work place;
generating a three-dimensional composite model in which one or more human models (20) are arranged in a three-dimensional space indicated by the environment model;
generating the learning data based on the three-dimensional synthetic model;
including.
上記方法によれば、実画像に基づく環境モデルを背景として学習用データを生成するため、作業場所すなわち客先環境における背景との乖離を小さくできる。これにより、人検知精度を向上可能な学習用データを生成できる。また、環境モデルの画像空間内に人モデル(20)を配置する際に、配置の位置や数を工夫して正解情報を含む多様な学習用データを生成することができる。そのため、人の配置パターンごとの実画像を収集して正解情報を生成する場合に比べて学習用データの生成時間を大幅に短縮でき、かつ正解情報を含む多様な学習用データによる深層学習が可能となる。 According to the above method, since the learning data is generated with the environment model based on the actual image as the background, it is possible to reduce the divergence from the background in the work place, that is, the customer's environment. As a result, it is possible to generate learning data capable of improving human detection accuracy. In addition, when arranging the human model (20) in the image space of the environment model, it is possible to generate various learning data including correct information by devising the position and number of the arrangement. As a result, the time required to generate training data can be significantly reduced compared to the case where correct information is generated by collecting actual images of each person's placement pattern, and deep learning can be performed using a variety of training data including correct information. becomes.
(2)幾つかの実施形態では、上記(1)に記載の方法において、
前記環境モデルの前記三次元点群の少なくとも一部の点群に属性を付与し、前記属性に基づいて物体の面を識別するステップを含む。
(2) In some embodiments, in the method described in (1) above,
Attributing attributes to at least a portion of the three-dimensional point cloud of the environment model and identifying surfaces of objects based on the attributes.
三次元点群は離散的な点によって構成されるため、そこに人モデル(20)を組み込んで合成画像(三次元合成モデル)を生成すると、背景の一部の欠落又は透過が生じる虞がある。このような三次元合成モデルに基づいて生成された学習用データでは、人検知機能の低下を招く恐れがある。この点、上記方法によれば、物体の面を識別するため、背景の一部が欠落又は透過する虞を低減することができる。 Since the 3D point cloud is composed of discrete points, if the human model (20) is incorporated therein to generate a composite image (3D composite model), there is a risk that part of the background will be missing or transparent. . Learning data generated based on such a three-dimensional synthetic model may lead to deterioration of the human detection function. In this respect, according to the above method, since the surface of the object is identified, the possibility that part of the background is missing or transparent can be reduced.
(3)幾つかの実施形態では、上記(2)に記載の方法において、
前記環境モデル中に人を示す前記属性が付与された前記点群又は前記物体の面(40)があるか否かを判別するステップを含む。
(3) In some embodiments, in the method of (2) above,
determining whether there is a surface (40) of said point cloud or said object with said attribute indicating a person in said environment model.
環境モデルを生成するための実画像を取得する際には人が映り込んでいる場合があるが、この映り込んだ人を背景として扱った環境モデルに更に人モデルを合成し三次元合成モデルとして学習用データを生成すると、背景として映り込んだ人は正解情報としてラベリングされない一方、配置した人モデルについては正解情報としてラベリングされるという状況が生じるため人検知モデル210の学習効率を下げ、また人検知の精度に影響する可能性がある。この点、上記方法によれば、実画像に映り込んだ人を示す点群又は物体の面については環境モデル(三次元合成モデル)の背景として扱うことがなく、人がいる環境で実画像が取得されてもよいため、通常業務を行いながら環境モデルを生成することができる。 When acquiring the actual image for generating the environment model, there are cases where people are reflected in the image. When the training data is generated, a situation arises in which a person reflected in the background is not labeled as correct information, while the arranged human model is labeled as correct information. It may affect detection accuracy. In this regard, according to the above method, the point cloud showing the person reflected in the real image or the surface of the object is not treated as the background of the environment model (three-dimensional synthetic model), and the real image is reproduced in the environment where people are present. Since it may be acquired, an environment model can be generated while performing normal work.
(4)幾つかの実施形態では、上記(3)に記載の方法において、
前記物体の面又は前記物体の面をなす前記点群を物体単位で配置変更、削除、又は複製する処理を行うステップを含む。
(4) In some embodiments, in the method described in (3) above,
It includes a step of performing a process of rearranging, deleting, or duplicating the surface of the object or the point group forming the surface of the object for each object.
上記方法によれば、環境モデルに含まれる物体の面又はその点群を物体単位で識別し、物体単位で配置変更、削除、複製などの編集をすることが可能となる。そのため、普段物体が存在しない領域におかれた物体(人を含む)を削除したり、よく物体が存在する場所に物体(人を含む)を移動又は追加したりすることができる。 According to the above method, it is possible to identify the surface of an object included in the environment model or its point group in units of objects, and edit such as changing the layout, deleting, duplicating, etc. in units of objects. Therefore, it is possible to delete an object (including a person) placed in an area where no object normally exists, or to move or add an object (including a person) to a location where an object often exists.
(5)幾つかの実施形態では、上記(3)または(4)に記載の方法において、
前記三次元合成モデルを生成するステップにおいて、人を示す前記属性が付与された前記点群又は前記物体の面が多く検出される領域を優先的に選択して前記人モデルを配置する。
(5) In some embodiments, in the method of (3) or (4) above,
In the step of generating the three-dimensional synthetic model, the human model is arranged by preferentially selecting the point group to which the attribute representing the person or the region in which many surfaces of the object are detected.
上記方法によれば、危険度の高い領域(例えば、人がよく通る道路、建物の出入口付近、人の作業場所等)に優先的に人モデルを配置することで、人検知モデルを学習させることが可能な学習用データを効率よく生成することができる。そのため、無駄な学習用データの生成を抑えることができる。 According to the above method, the human detection model is learned by preferentially arranging the human model in high-risk areas (e.g., roads where people often pass, near building entrances and exits, places where people work, etc.). can efficiently generate learning data. Therefore, generation of useless learning data can be suppressed.
(6)幾つかの実施形態では、上記(1)乃至(5)の何れか一つに記載の方法において、
前記三次元合成モデルを生成するステップにおいて、前記実画像を取得するときの走行履歴に基づいて、前記人モデル(20)を配置する領域として、走行頻度が高い経路を走行頻度が低い経路よりも優先的に選択する。
(6) In some embodiments, in the method according to any one of (1) to (5) above,
In the step of generating the three-dimensional synthetic model, based on the travel history when the actual image is acquired, the human model (20) is placed on a route with a high travel frequency rather than a route with a low travel frequency. choose preferentially.
上記方法によれば、通常業務で走行しながら実画像を取得し、その走行においてよく通る経路に人モデルが配置される。そのため、無駄な学習用データの生成を抑えることができる。 According to the above method, real images are acquired while the vehicle is traveling in normal business, and the human model is arranged on a route that the vehicle frequently travels during the traveling. Therefore, generation of useless learning data can be suppressed.
(7)本開示に係る人検知モデル(210)の学習方法は、
上記(1)乃至(6)の何れか一つに記載の学習用データの生成方法によって学習用データを生成するステップと、
生成された前記学習用データを用いて人検知モデル(210)を学習させるステップと、
を含む。
(7) A method for learning a human detection model (210) according to the present disclosure includes:
a step of generating learning data by the method of generating learning data according to any one of (1) to (6) above;
a step of learning a human detection model (210) using the generated training data;
including.
上記方法によれば、正解情報を含む多様な学習用データを生成するための生成時間を短縮化することができる。また、正解情報を含む多様な学習用データを人検知モデル(210)に学習させるため、人検知精度を向上させることができる。 According to the above method, it is possible to shorten the generation time for generating various learning data including correct answer information. In addition, since the human detection model (210) learns various learning data including correct information, the human detection accuracy can be improved.
(8)本開示に係る学習用データの生成装置(100)は、
機械学習を行う人検知モデル(210)の学習用データの生成装置(100)であって、
作業場所を走行しながら撮像した実画像に基づいて三次元点群の環境モデルを生成する環境モデル生成部(120)と、
前記環境モデルが示す三次元空間内に一以上の人モデル(20)を配置した三次元合成モデルを生成するデータ合成部(130)と、
前記三次元モデルに基づいて前記学習用データを生成するデータ生成部(140)と、
を備える。
(8) The learning data generation device (100) according to the present disclosure is
A learning data generation device (100) for a human detection model (210) that performs machine learning,
an environment model generation unit (120) that generates a three-dimensional point cloud environment model based on actual images captured while traveling in a work place;
a data synthesizing unit (130) for generating a three-dimensional synthesized model in which one or more human models (20) are arranged in a three-dimensional space indicated by the environment model;
a data generation unit (140) that generates the learning data based on the three-dimensional model;
Prepare.
上記構成によれば、実画像に基づく環境モデルを背景として学習用データを生成するため、作業場所すなわち客先環境における背景との乖離を小さくできる。これにより、人検知精度を向上可能な学習用データを生成できる。また、環境モデルの画像空間内に人モデル(20)を配置する際に、配置の位置や数を工夫して正解情報を含む多様な学習用データを生成することができる。そのため、人の配置パターンごとの実画像を収集して正解情報を生成する場合に比べて学習用データの生成時間を大幅に短縮でき、かつ正解情報を含む多様な学習用データによる深層学習が可能となる。 According to the above configuration, since the learning data is generated with the environment model based on the actual image as the background, it is possible to reduce the divergence from the background in the work place, that is, the customer's environment. As a result, it is possible to generate learning data capable of improving human detection accuracy. In addition, when arranging the human model (20) in the image space of the environment model, it is possible to generate various learning data including correct information by devising the position and number of the arrangement. As a result, the time required to generate training data can be significantly reduced compared to the case where correct information is generated by collecting actual images of each person's placement pattern, and deep learning can be performed using a variety of training data including correct information. becomes.
10 車両
20 人(人モデル)
40 人
50 積荷
60 壁
70 床
72 プロセッサ
74 RAM
76 ROM
78 HDD
80 入力I/F
82 出力I/F
84 バス
100 学習用データの生成装置
110 実画像取得部
120 環境モデル生成部
130 データ合成部
140 データ生成部
150 属性付与部
160 処理部
170 正解情報設定部
200 人検知装置
210 人検知モデル
220 出力部
300 産業車両
310 撮像部
320 報知部
400 人検知システム
10
40
76 ROMs
78 HDDs
80 Input I/F
82 Output I/F
84
Claims (8)
作業場所において産業車両を走行させながら前記産業車両に設置した撮像部により撮像した実画像に基づいて三次元点群の環境モデルを生成するステップと、
前記環境モデルが示す三次元空間内に一以上の人モデルを配置した三次元合成モデルを生成するステップと、
前記撮像部の視点位置情報を用いて、前記人モデルが配置された前記三次元合成モデルを前記産業車両における前記撮像部の設置位置を想定した視点位置から観測した場合に得られる学習用画像を前記学習用データとして生成するステップと、
を含む学習用データの生成方法。 A method for generating learning data for a human detection model that performs machine learning, comprising:
a step of generating a three-dimensional point cloud environment model based on an actual image captured by an imaging unit installed in the industrial vehicle while the industrial vehicle is running at a work site;
generating a three-dimensional synthetic model in which one or more human models are arranged in a three-dimensional space represented by the environment model;
A learning image obtained when the three-dimensional synthetic model in which the human model is arranged is observed from a viewpoint position assuming the installation position of the imaging unit in the industrial vehicle, using the viewpoint position information of the imaging unit. a step of generating as the learning data;
How to generate training data including
請求項1に記載の学習用データの生成方法。 2. The method of generating learning data according to claim 1, further comprising the step of assigning attributes to at least a portion of the three-dimensional point cloud of the environment model, and identifying surfaces of objects based on the attributes.
請求項2に記載の学習用データの生成方法。 3. The method of generating learning data according to claim 2, further comprising the step of determining whether or not there is a surface of said point group or said object to which said attribute indicating a person is assigned in said environment model.
請求項3に記載の学習用データの生成方法。 4. The method of generating learning data according to claim 3, further comprising a step of changing, deleting, or duplicating the surface of the object or the group of points forming the surface of the object for each object.
請求項3又は4に記載の学習用データの生成方法。 4. In the step of generating the three-dimensional synthetic model, the human model is arranged by preferentially selecting an area in which many faces of the point group or the object to which the attribute indicating the person is assigned are detected. Or the method of generating learning data according to 4.
請求項1乃至5の何れか一項に記載の学習用データの生成方法。 In the step of generating the three-dimensional synthetic model, a route with a high travel frequency is prioritized over a route with a low travel frequency as a region for arranging the human model based on the travel history when the actual image is acquired. 6. The method of generating learning data according to any one of claims 1 to 5.
生成された前記学習用データを用いて人検知モデルを学習させるステップと、
を含む人検知モデルの学習方法。 generating learning data by the method for generating learning data according to any one of claims 1 to 6;
a step of learning a human detection model using the generated learning data;
Training methods for human detection models, including
作業場所において産業車両を走行させながら前記産業車両に設置した撮像部により撮像した実画像に基づいて三次元点群の環境モデルを生成する環境モデル生成部と、
前記環境モデルが示す三次元空間内に一以上の人モデルを配置した三次元合成モデルを生成するデータ合成部と、
前記撮像部の視点位置情報を用いて、前記人モデルが配置された前記三次元合成モデルを前記産業車両における前記撮像部の設置位置を想定した視点位置から観測した場合に得られる学習用画像を前記学習用データとして生成するデータ生成部と、
を備える学習用データの生成装置。 A device for generating learning data for a human detection model that performs machine learning,
an environment model generation unit that generates a three-dimensional point cloud environment model based on an actual image captured by an imaging unit installed in the industrial vehicle while the industrial vehicle is running at a work site;
a data synthesizing unit that generates a three-dimensional synthesized model in which one or more human models are arranged in a three-dimensional space indicated by the environment model;
A learning image obtained when the three-dimensional synthetic model in which the human model is arranged is observed from a viewpoint position assuming the installation position of the imaging unit in the industrial vehicle, using the viewpoint position information of the imaging unit. a data generation unit that generates the learning data;
A learning data generation device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020119892A JP7136849B2 (en) | 2020-07-13 | 2020-07-13 | LEARNING DATA GENERATION METHOD, HUMAN DETECTION MODEL LEARNING METHOD, AND LEARNING DATA GENERATOR |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020119892A JP7136849B2 (en) | 2020-07-13 | 2020-07-13 | LEARNING DATA GENERATION METHOD, HUMAN DETECTION MODEL LEARNING METHOD, AND LEARNING DATA GENERATOR |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022016907A JP2022016907A (en) | 2022-01-25 |
JP7136849B2 true JP7136849B2 (en) | 2022-09-13 |
Family
ID=80185758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020119892A Active JP7136849B2 (en) | 2020-07-13 | 2020-07-13 | LEARNING DATA GENERATION METHOD, HUMAN DETECTION MODEL LEARNING METHOD, AND LEARNING DATA GENERATOR |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7136849B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018124939A (en) | 2017-02-03 | 2018-08-09 | 日本電信電話株式会社 | Image synthesizer, image synthesizing method, and image synthesizing program |
JP2019124538A (en) | 2018-01-15 | 2019-07-25 | キヤノン株式会社 | Information processing device, system, and information processing method |
JP2020087310A (en) | 2018-11-30 | 2020-06-04 | コニカミノルタ株式会社 | Learning method, learning device, program and recording medium |
-
2020
- 2020-07-13 JP JP2020119892A patent/JP7136849B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018124939A (en) | 2017-02-03 | 2018-08-09 | 日本電信電話株式会社 | Image synthesizer, image synthesizing method, and image synthesizing program |
JP2019124538A (en) | 2018-01-15 | 2019-07-25 | キヤノン株式会社 | Information processing device, system, and information processing method |
JP2020087310A (en) | 2018-11-30 | 2020-06-04 | コニカミノルタ株式会社 | Learning method, learning device, program and recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP2022016907A (en) | 2022-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10031231B2 (en) | Lidar object detection system for automated vehicles | |
CN105793730B (en) | The classification based on laser radar of object motion | |
CN108460791A (en) | Method and apparatus for handling point cloud data | |
AU2018247817B2 (en) | Method for recognising an object of a mobile unit | |
Chong et al. | Integrated real-time vision-based preceding vehicle detection in urban roads | |
JP2018048839A (en) | Three-dimensional data generator, three-dimensional data generation method, and monitoring system equipped with three-dimensional data generator | |
WO2021086703A1 (en) | Object segmentation using high-level structural meshes | |
CN116257930A (en) | Three-dimensional detecting twins for remote visual detection of vehicles | |
JP7136849B2 (en) | LEARNING DATA GENERATION METHOD, HUMAN DETECTION MODEL LEARNING METHOD, AND LEARNING DATA GENERATOR | |
US10452811B2 (en) | Control of a device with respect to its numerical model | |
JP2003141548A (en) | Three-dimensional labeling device and method | |
JP6827906B2 (en) | 3D data processing device and 3D data processing method | |
US9697646B2 (en) | Converting a 3D model into multiple matrices | |
US20220405536A1 (en) | Method and device for generating combined scenarios | |
JP6804481B2 (en) | Equipment map generator and program | |
US11733174B2 (en) | Information processing apparatus, information processing method, and storage medium | |
WO2022241574A1 (en) | Texture mapping to polygonal models for industrial inspections | |
CN111310302B (en) | Test scene generation method and device | |
JP2021140429A (en) | Three-dimentional model generation method | |
JP6599031B2 (en) | Monitoring device | |
JP2007280151A (en) | Image analyzer, image analytical method, and program | |
JP7333870B2 (en) | Equipment data processing device, equipment data processing system, equipment data processing method, and equipment data processing program | |
KR102538012B1 (en) | Method and apparatus for updating 3D model of object in virtual space | |
JP6929241B2 (en) | Selection device, selection method and selection program | |
JPH07105409A (en) | Collision detector device for three-dimensional moving object |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220901 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7136849 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |