JP7327083B2 - 領域切り出し方法および領域切り出しプログラム - Google Patents

領域切り出し方法および領域切り出しプログラム Download PDF

Info

Publication number
JP7327083B2
JP7327083B2 JP2019197743A JP2019197743A JP7327083B2 JP 7327083 B2 JP7327083 B2 JP 7327083B2 JP 2019197743 A JP2019197743 A JP 2019197743A JP 2019197743 A JP2019197743 A JP 2019197743A JP 7327083 B2 JP7327083 B2 JP 7327083B2
Authority
JP
Japan
Prior art keywords
image
information
area
region
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019197743A
Other languages
English (en)
Other versions
JP2021071885A (ja
Inventor
一平 草苅
麻子 北浦
卓志 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019197743A priority Critical patent/JP7327083B2/ja
Priority to EP20198940.7A priority patent/EP3816938A1/en
Priority to US17/064,005 priority patent/US11461944B2/en
Publication of JP2021071885A publication Critical patent/JP2021071885A/ja
Application granted granted Critical
Publication of JP7327083B2 publication Critical patent/JP7327083B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30256Lane; Road marking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Description

本発明は、画像の領域を切り出す領域切り出し方法および領域切り出しプログラムに関する。
従来、たとえば地物などの対象物の画像を、機械学習用の教師データとして作成する場合には、以下の2つの作業をおこなう。まず、大量の動画像データの中から教師データにしたい対象物が写る画像を、目視により探すという画像探索作業をおこなう。つぎに、画像探索作業において探した画像に対して、対象物が画像内に写り込む画像領域を手作業にて指定するという領域指定作業をおこなう。
関連する先行技術としては、対象地物の位置情報を含む地物情報を用いて、画像情報に対する前記対象地物の画像認識処理をおこなう技術がある。また、関連する技術としては、仮想3次元空間内に設定された注目点と同一の位置を注視点とする視点に基づいて、仮想3次元空間を2次元座標系に透視変換する技術がある。
特開2008-298698号公報 特開2009-053922号公報
しかしながら、従来技術では、対象物の画像探索および領域指定の作業は、上述のように人手によりおこなわなければならず、多くの時間と工数がかかる。そのため、対象物の画像を機械学習用の教師データとして用いるにあたり、十分な量のデータを効率よく収集することができないという問題点がある。
一つの側面では、本発明は、画像内に写る対象物の画像領域を自動で特定することを目的とする。
一つの実施態様では、画像から対象物の領域を切り出す領域切り出し方法であって、情報処理装置が、前記対象物の3次元位置情報を記憶した記憶部を参照し、前記画像の撮影位置および姿勢に関する情報を用いて、前記3次元位置情報から、前記画像における前記対象物の領域を算出する、領域切り出し方法が提供される。
本発明の一側面によれば、画像内に写る対象物の画像領域を自動で特定することができる。
図1は、領域切り出し方法および領域切り出しプログラムの概要の一例を示す説明図である。 図2は、領域切り出し方法を実現する情報処理装置の機能的構成の一例を示す説明図である。 図3は、情報処理装置のハードウェア構成の一例を示すブロック図である。 図4は、領域切り出し方法の一連の処理の手順の一例を示すフローチャートである。 図5は、各構成部および各情報の内容の一例を示す説明図である。 図6は、撮影位置・姿勢Aaのデータ構成の一例を示す説明図である。 図7は、カメラパラメータApのデータ構成の一例を示す説明図である。 図8は、対象物の3次元位置Aoのデータ構成の一例を示す説明図である。 図9は、三角測量の処理内容を示す説明図である。 図10は、画像内位置結果Arのデータ構成の一例を示す説明図である。 図11は、画像内位置算出部の一連の処理の手順の一例を示すフローチャートである。 図12は、透視変換の処理内容を示す説明図である。 図13は、位置情報Aiのデータ構成の一例を示す説明図である。 図14は、領域特定部の一連の処理の手順の一例を示すフローチャートである。 図15は、領域画像Abのデータ構成の一例を示す説明図である。 図16は、切り出された領域画像の一例を示す説明図である。 図17は、領域出力部の一連の処理の手順の一例を示すフローチャートである。
以下に図面を参照して、本発明にかかる領域切り出し方法および領域切り出しプログラムの実施の形態を詳細に説明する。
(実施の形態)
まず、図1を用いて、本実施の形態にかかる領域切り出し方法および領域切り出しプログラムの概要について説明する。図1は、領域切り出し方法および領域切り出しプログラムの概要の一例を示す説明図である。
図1において、たとえば移動体に搭載された撮像装置であるカメラ100は、画像を撮影する。撮影した画像には、対象となる地物(標識)が写っている。符号101aは、カメラ撮像面(側面)であり、符号101bは、カメラ撮像面(正面)である。カメラ撮像面(正面)101bにおいては、移動体が走行中に撮影した画像に、道路の様子が写っていることを示している。カメラ撮像面101bの道路の様子には、移動体の前を走る自動車、対向車のほか、ガードレール、信号機、道路標識、建物、電柱などの地物が含まれている。
ここで、切り出しの対象となる地物は、制限速度50km/hの道路標識であり、符号102は、この地物(標識)の3次元位置、すなわち、この地物が実際に存在する座標位置を示している。また、符号103は、対象物存在直線を示している。そして、図1に示すように、対象物存在直線103と、カメラ撮像面(側面)101aとが交わった交点の位置が、地物(対象物)の画像内位置104となる。
この画像内位置104を算出するために、画像の撮影位置・姿勢とカメラパラメータとを用いて、地物(標識)の3次元位置102を透視変換する。そうすることによって、地物(標識)の3次元位置102から、当該地物が、カメラ撮像面101内のどの位置に写っているかを推定(算出)することができる。
このように、地物(対象物)の画像内位置104を推定(算出)することができれば、推定(算出)した画像内位置に基づいて、地物の画像領域を自動切り出しすることができる。符号105は、自動切り出しをした地物画像(制限速度50km/hの道路標識)であり、この自動切り出しをした地物画像は、機械学習用の教師データとして用いることができる。
ここで、画像は、撮像装置であるカメラ100によって撮影された画像であってもよく、また、他の方法によって取得した画像であってもよい。また、撮像装置によって移動しながら撮影された画像(動画)であってもよい。地物を切り出すためには、地物の3次元位置102に関する情報と、画像の撮影位置・姿勢に関する情報があればよい。さらに、カメラパラメータに関する情報があればよい。
ところで、移動体の一例である一般車の車載機や、ドライブレコーダのデータ(映像)を収集(プローブ)し、収集した一般車映像から、道路上や道路周辺の地物や移動物体の情報を取得し、交通情報や路上障害物情報を更新提供したり、自動運転向けの高精度地図を更新したり、自動運転向けに撮影時の周辺状況を解析したりするサービスを実施している。
移動体が移動中に取得した周辺状況に関するデータを入力とし、移動体の走行経路と周辺環境地図を同時に作成するSLAM(Simultaneous Localization and Mapping)という技術がある。SLAMは、移動中に取得した周辺状況に関する車載データ、たとえばLIDAR(Laser Imaging Detection and Ranging)データなどを入力とし、自車走行経路(自車の位置と姿勢)と周辺環境地図(周辺物の3次元位置マップなど)を同時に作成する技術の総称である。
また、SLAM技術の中でも、移動体が撮影した映像を入力として、移動体の走行時のカメラ位置・姿勢を推定する技術は、Visual-SLAM(以後、「V-SLAM」という)と呼ばれる。V-SLAMは、車載カメラで撮影した映像を入力とし、撮影した映像に写る被写体の変化を用いて、自車走行経路(自車位置・姿勢)と周辺環境地図(周辺の被写体の画像特徴点群の3次元位置マップ)を推定作成することができる技術であり、一般車の映像から自車位置と姿勢を推定することができる。
V-SLAMは、移動するカメラで撮影した、時系列に連続する連続画像(動画)から、それぞれ空間上の点に対応付け可能な画像特徴を多数抽出する。そして、抽出した各画像特徴について、類似性を用いて連続画像間での対応付けをおこない、それらすべてが連続画像間で満たすべき幾何学条件について解を求める。これによって、各画像特徴の空間内での位置と、各画像の撮影位置および姿勢を求めることができる。
そこで、カメラ100によって撮影される画像の撮影位置および姿勢に関する情報は、当該画像を用いたV-SLAMによって取得するようにしてもよい。なお、これらV-SLAMなどによるカメラ位置・姿勢の推定は、後述する車載機、情報処理装置200のいずれで実施してもよい。
また、一般的には、車載機は、カメラ100とともに移動体に搭載され、衛星からのGNSS情報および車載カメラの映像を収集する。移動体は、具体的には、たとえば、一般乗用車やタクシーなどの営業車、二輪車(自動二輪や自転車)、大型車(バスやトラック)などである。また、情報を収集するコネクテッド・カーであってもよい。また、移動体には、水上を移動する船舶や上空を移動する航空機、無人航空機(ドローン)、自動走行ロボットなどであってもよい。
車載機は、カメラ100の撮影映像に関する情報を収集する。たとえば、撮影映像時の移動体およびカメラの位置情報、カメラパラメータを特定するためのカメラ100の情報のいずれかを収集する。この位置情報は、測位情報の一例であるGNSS情報などから得てよい。また、V-SLAMなどを用いて撮影位置・姿勢を算出する代わりに、車載機はさらに移動体の情報として、後述するように慣性計測装置IMU(inertial measurement unit)などの姿勢センサから収集する移動体の姿勢情報などを取得してもよい。また、車載機は、撮影時刻などに関する情報も収集するようにしてもよい。
車載機は、移動体に搭載された専用の装置であってもよく、取り外し可能な機器であってもよい。また、スマートフォンやタブレット端末装置などの通信機能を備えた携帯端末装置を移動体において利用するものであってもよい。また、車載機の各種機能の全部または一部を、移動体が備えている機能を用いて実現するようにしてもよい。
したがって、車載機の『車載』という表現は、移動体に搭載された専用装置という意味には限定されない。車載機は、移動体における情報を収集する機能を持った装置であれば、どのような形態の装置であってもよい。
車載機は、撮影映像に関する情報およびGNSS情報を含む移動体の情報(車載データ)を取得し、取得した車載データを保存する。そして、保存した車載データを、無線通信によって、ネットワーク(後述する、図3に示すネットワーク310)を介して、サーバ(後述する、図2に示す情報処理装置200)へ送信するようにしてもよい。
また、車載機は、通信手段を備えていなくてよい。すなわち、車載機は、サーバとは、ネットワーク310を介して接続されていなくてもよい。その場合は、車載機に蓄積されたデータは、オフラインで(たとえば、記録メディアを介して人手などにより)、サーバに入力することができる。
このように、車載機によって、カメラ100が撮影した画像からの地物画像の領域を切り出す処理の全部または一部をおこなうようにしてもよい。
(情報処理装置の機能的構成例)
図2は、領域切り出し方法を実現する情報処理装置の機能的構成の一例を示す説明図である。図2において、情報処理装置200は、具体的には、たとえば、1台ないし複数台のサーバなどのコンピュータによって、その機能を実現する。複数台のサーバは、ネットワーク(後述する図3におけるネットワーク310)によって接続される。また、情報処理装置200は、図示は省略するが、クラウドコンピューティングシステムによって、その機能を実現するようにしてもよい。
情報処理装置(サーバ)200は、画像入力部201、画像内位置算出部202、領域特定部203、領域出力部204を有する。これらの構成部201~204によって、情報処理装置200の制御部を構成することができる。また、情報処理装置200は、入力される、画像(画像A)211、撮影位置・姿勢(撮影位置・姿勢Aa)212、カメラパラメータ(カメラパラメータAp)213、対象物の3次元位置(対象物の3次元位置Ao)214の各情報を持つ。
また、情報処理装置200は、記憶部205を有していてもよい。記憶部205は、情報処理装置200が有する代わりに、図示を省略する他の情報処理装置が有していてもよい。そして、ネットワーク(ネットワーク310)を介して当該他の情報処理装置から取得するようにしてもよい。
画像入力部201は、画像211から対象物(地物画像105)の領域を切り出すにあたり、画像211の入力を受け付ける。画像211の入力は、すでに撮影され所定の記憶領域に記憶された画像データを入力するようにしてもよく、また、撮影装置(図1に示したカメラ100)によって撮影された映像データの中から所定の画像を抽出するようにしてもよい。
画像入力部201は、入力の対象となる画像211に対応する、当該画像211の撮影位置および姿勢に関する情報(撮影位置・姿勢212)、当該画像211を撮影した撮像装置のパラメータに関する情報(カメラパラメータ213)を取得する。撮影位置・姿勢212は、前述した車載機で収集したセンサデータ、または、車載機または情報処理装置200でV-SLAMなどの任意の既知の処理で求めたデータである。なお、カメラパラメータ213の情報は、処理対象のカメラがあらかじめ限定されている場合などに、画像211をみて取得するのではなく、あらかじめ取得しておくようにしておいてもよい。
画像内位置算出部202・領域特定部203は、対象物の3次元位置214に関する3次元位置情報を記憶した記憶部205を参照し、画像211の撮影位置および姿勢212を用いて、3次元位置214に関する3次元位置情報から、画像211における対象物の領域を算出する。また、対象物の3次元位置214に関する3次元位置情報を記憶した記憶部205を参照し、画像211の撮影位置および姿勢212だけでなく、撮像装置のカメラパラメータ213も用いて、3次元位置214に関する3次元位置情報から、画像211における対象物の領域を算出するようにしてもよい。
たとえば、画像内位置算出部202が、対象物が画像211内に存在するかを判断する。そして、領域特定部203が、画像内位置算出部202による判断の結果、対象物が画像211内に存在する場合に、当該画像211における当該対象物の領域を算出するようにしてもよい。
領域出力部204は、領域特定部203による画像211における対象物の領域の算出結果(後述する画像内位置結果Ar511)に基づいて、当該対象物の画像の切り出しをおこなう。
記憶部205には、複数種類の各種対象物(地物)の3次元位置214を格納している。したがって、対象物の種類などを指定することで、指定された対象物の3次元位置214を記憶部205から抽出することができる。
図2においては、情報処理装置(サーバ)200が、画像入力部201、画像内位置算出部202、領域特定部203、領域出力部204、記憶部205と、を有する構成とした。図示は省略するが、これらの各機能部の少なくとも一つを、情報処理装置200に加えて、あるいは、情報処理装置200に代えて、上述のように、移動体が備える車載機が有するようにしてもよい。
車載機が、各機能部201、202、203、204、205の少なくとも一つを有する場合は、情報処理装置200が実施する処理の内容と同じであってもよい。このように構成することによって、移動体に搭載された撮像装置が撮影した画像に基づいて、移動体に搭載された車載機が機械学習用の教師データを出力することができる。
(情報処理装置のハードウェア構成例)
図3は、情報処理装置のハードウェア構成の一例を示すブロック図である。情報処理装置200の一例であるサーバは、CPU(Central Processing Unit)301と、メモリ302と、ネットワークI/F(Interface)303と、記録媒体I/F304と、記録媒体305と、を有する。また、各構成部は、バス300によってそれぞれ接続される。
ここで、CPU301は、情報処理装置200の全体の制御を司る。メモリ302は、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、たとえば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることで、コーディングされている処理をCPU301に実行させる。
ネットワークI/F303は、通信回線を通じてネットワーク310に接続され、ネットワーク310を介して他の装置(たとえば、図示を省略する車載機や、他のサーバやシステム)に接続される。そして、ネットワークI/F303は、ネットワーク310と自装置内部とのインターフェースを司り、他の装置からのデータの入出力を制御する。ネットワークI/F303には、たとえば、モデムやLANアダプタなどを採用することができる。
記録媒体I/F304は、CPU301の制御にしたがって記録媒体305に対するデータのリード/ライトを制御する。記録媒体305は、記録媒体I/F304の制御で書き込まれたデータを記憶する。記録媒体305としては、たとえば、磁気ディスク、光ディスクなどが挙げられる。
なお、情報処理装置200は、上述した構成部のほかに、たとえば、SSD(Solid State Drive)、キーボード、ポインティングデバイス、ディスプレイなどを有していてもよい。
また、図示は省略するが、車載機が、撮像装置のほか、情報処理装置200と同様のハードウェア構成を備えていてもよい。
(領域切り出し方法の一連の処理手順)
図4は、領域切り出し方法の一連の処理の手順の一例を示すフローチャートである。図4のフローチャートにおいて、情報処理装置200は、任意の画像211を読み込む(ステップS401)。このステップの処理は、たとえば、図2に示した画像入力部201によっておこなわれる。
つぎに、対象物の地物特徴点群の3次元位置214を、撮影位置・姿勢212を用いて透視変換をおこない、地物特徴点の2次元位置を推定(算出)する(ステップS402)。地物特徴点の2次元位置を推定するにあたり、カメラパラメータ213もあわせて用いるようにしてもよい。
そして、推定(算出)した各地物特徴点の2次元位置が、画像211の画像領域内、すなわち、カメラ撮像面101内にあるか否かを判断し、これら2次元位置が画像領域内にあるか否かを用いて、対象物が画像211に写り込んでいる量を算出する(ステップS403)。
つぎに、算出した地物の映り込み量が、規定値、すなわち、システムなどで決定した条件に合致するかを判断する(ステップS404)。たとえば、写り込み量が0(地物全体が画像領域外)~1(地物全体が画像領域内)の値の場合、写り込み量が規定値以上であるか否かを条件とし、写り込み量が規定値以上の場合に合致したとみなす。規定値が1に近いほど、対象物全体が画像に写っている可能性の高い画像のみを画像領域切り出しに使うことになる。完全に対象物が画像に写っている画像のみを使いたい場合は、条件の規定値を1に設定しておくとよい。また、対象物の約半分以上が写っている画像のみを使いたい場合は、規定値を0.5に設定しておくとよい。
これらのステップ(ステップS402~S404)の処理は、たとえば、図2に示した画像内位置算出部202によっておこなわれる。
ステップS404において、推定(算出)した地物の写り込み量が条件に合致しない場合、たとえば写り込み量が規定値未満の場合(ステップS404:No)は、当該画像211については何もせずに、一連の処理を終了する。これにより、画像211のうち、地物(対象物)が存在しない画像を排除し、地物(対象物)が存在する画像のみを抽出することができる。したがって、画像探索処理をより効率的かつ迅速におこなうことができる。
一方、ステップS404において、推定した地物の写り込み量が条件に合致する場合、たとえば写り込み量が規定値以上の場合(ステップS404:Yes)は、画像領域内にある2次元位置の画素群を含む画像領域を算出する(ステップS405)。このステップの処理は、たとえば、図2に示した領域特定部203によっておこなわれる。
その後、画像211から、ステップS404において算出された画像領域を切り出す(ステップS406)。このステップの処理は、たとえば、図2に示した領域出力部204によっておこなわれる。そして、一連の処理を終了する。
これらの一連の処理を、画像ごとに実行する。このようにして、情報処理装置200は、任意の画像211から対象物(地物)の画像領域の切り出しを、対象物がどれだけ画像に写っているかを考慮しながら、自動でおこなうことができる。切り出された対象物(地物)の画像領域にかかる情報は、教師データとして保存することができる。以下、これらの一連の処理を実行する各構成部201~205の具体的な内容について説明する。
(各構成部201~205の具体的な内容)
図5は、各構成部および各情報の内容の一例を示す説明図である。図5においては、1つの画像(画像A211)に対し、当該画像を撮影した撮影カメラの撮影位置・姿勢情報と対象物の3次元位置に関する3次元位置情報を用いて、画像上の対象物が写る領域を推定し、領域切り出しをおこなう例を示す。
図5において、各構成部は、画像入力部201、画像内位置算出部202、領域特定部203、領域出力部204、記憶部205からなる。また、各情報は、画像A211、撮影位置・姿勢Aa212、カメラパラメータAp213、対象物の3次元位置Ao214、画像内位置結果Ar511、位置情報Ai512、領域画像Ab513からなる。
(画像入力部201の処理内容)
図5において、画像入力部201は、任意の画像A211を画像内位置算出部202に入力する。その際、画像A211の撮影位置・姿勢Aa212および画像A211を撮影したカメラのカメラパラメータAp213が、画像内位置算出部202に入力される。画像入力部201は、具体的には、たとえば、図3に示した情報処理装置200において、メモリ302に記憶されたプログラムをCPU301が実行することによって、あるいは、ネットワークI/F303、記録媒体I/F304によって、その機能を実現することができる。
(撮影位置・姿勢Aa212の内容)
撮影位置・姿勢Aa212は、画像A211に対応する情報であり、たとえば、実座標上の3軸の位置情報と3次元ベクトル方向情報を持っている。図6は、撮影位置・姿勢Aaのデータ構成の一例を示す説明図である。図6に示すように、撮影位置・姿勢Aa212は、「動画ID」、「フレーム番号」、「位置」、「姿勢」を含む各種情報を有している。
ここで、「動画ID」は、画像A211が含まれる動画を識別する一意の識別情報であり、「フレーム番号」は、当該動画の中の画像A211が存在するフレームの番号に関する情報である。この「動画ID」および「フレーム番号」によって、画像A211を特定することができる。
「位置」は、撮影位置に関する実座標(世界座標)上の画像A211の3軸の位置情報である。3軸の位置情報は、たとえば、緯度(PosX)・経度(PosY)・高さ(PosZ)によって示すことができる。「姿勢」は、撮影姿勢に関する3次元ベクトル方向に関する情報である。撮影姿勢に関する3次元ベクトル方向情報は、たとえば、回転を表す方法であるロール・ピッチ・ヨー(Roll・Pitch・Yaw)によって示すことができる。
これらの画像A211の3軸の位置情報および3次元ベクトル方向情報は、センサ(GPSなどの測位センサとIMUなどの姿勢センサなど)から取得することができる。IMUは、運動を司る3軸の角度(または角速度)と加速度を検出する。IMUは、INU(inertial navigation unit)、IGU(inertial guidance unit)、IRU(inertial reference unit)とも呼ばれる。
基本的には、3軸のジャイロと3方向の加速度計によって、3次元の角速度と加速度が求められる。信頼性向上のために圧力計、流量計、GPSなど別種類のセンサが搭載されるようにしてもよい。IMUは、通常は、搭載する移動体の重心に置くようにするとよい。
また、任意の画像処理手法、たとえば、上述したように、V-SLAMによって取得するようにしてもよい。これにより、各画像特徴の空間内での位置(画像特徴点群マップ)と、各画像の撮影位置および姿勢を求めることができる。V-SLAMとともにGPSの位置座標を用いることで、実座標系での撮影位置・姿勢を算出し、算出した結果を撮影位置・姿勢Aa212として用いるようにしてもよい。
(カメラパラメータAp213の内容)
カメラパラメータAp213は、画像A211を撮影したカメラの固有内部パラメータを表す情報である。図7は、カメラパラメータApのデータ構成の一例を示す説明図である。図7に示すように、カメラパラメータAp213は、「焦点距離」、「光学中心」、「歪み補正係数」を含む各種情報を有している。
「焦点距離」は、カメラの焦点距離に関する情報であり、fxおよびfyによって示すことができる。また、「光学中心」は、レンズ面の光軸が通る位置に関する情報であり、中心座標(cx、cy)によって示すことができる。また、「歪み補正係数」は、カメラレンズの特性によって生じる歪みを補正する係数に関する情報であり、レンズの半径方向歪み係数(k1、k2)およびレンズの円周方向歪み係数(p1~p3)によって示すことができる。
(記憶部205の内容・対象物の3次元位置Ao214の内容)
また、図5に示すように、対象物の3次元位置Ao214が、画像内位置算出部202に入力される。対象物の3次元位置Ao214は、記憶部205に記憶されていてもよい。
対象物の3次元位置Ao214は、抽出したい対象物の位置を1点以上の3次元代表位置で表す情報である。図8は、対象物の3次元位置Aoのデータ構成の一例を示す説明図である。図8に示すように、「対象物ID」は、対象物を識別する一意の識別情報であり、「対象物の種類」は、対象物の種類を示す情報である。
「対象物を表す点の数」は、対象物を表す点の数を示しており、たとえば、対象物の中心1点であってもよいし、対象物の外接する4点でもよい。また、「直角平面系番号」を有していてもよい。「実座標3次元」は、「対象物を表す点の数」が『4』なので、Pos[0]~Pos[3]の4つの座標が、それぞれx、y、zの3次元で示される。
対象物を表す点を、対象物の外接する座標4点としたが、それには限定されない。たとえば、対象物の中心1点であってもよいし、4点よりも少なくてもよいし、4点よりも多くてもよい。
対象物の3次元位置Ao214における対象物の座標点は、図示を省略する地物DBから取得するとよい。また、対象物の3次元位置Ao214における対象物の座標点は、三角測量によって取得するようにしてもよい。三角測量は、カメラの撮影位置・姿勢と、複数画像に写る同一対象物の画像内位置とから、対象物の3次元位置を推定する手法である。
図9は、三角測量の処理内容を示す説明図である。図9に示すように、対象物は、カメラ位置と対象物の画像内位置とを結ぶ直線(対象物存在直線)上にあるため、カメラ1による画像1の対象物存在直線1と、カメラ2による画像2の対象物存在直線2との交点が、対象物の3次元位置となる。これを、対象物の3次元位置Ao214とすることができる。
この三角測量において用いる撮影位置・姿勢に関する情報は、任意の既知の方法によって取得することができる。たとえば、撮影位置・姿勢Aa212と同様に、センサによって取得するようにしてもよいし、V-SLAMなどの画像処理によって取得するようにしてもよい。
(画像内位置算出部202の処理内容・画像内位置結果Ar511の内容)
つぎに、画像内位置算出部202の処理の内容について説明する。図5に示すように、画像内位置算出部202は、これらの、画像A211の撮影位置・姿勢Aa212、画像A211を撮影したカメラのカメラパラメータAp213、および、対象物の3次元位置Ao214に基づいて、対象物の各3次元座標点に対応する画像内位置(2次元位置)を算出する。続けて、画像内位置算出部202は、各2次元位置が画像A211内に含まれるかを判定し、その判定結果から対象物が画像A211内に写り込む量を算出し、画像内位置結果Ar511として出力する。
画像内位置算出部202は、具体的には、たとえば、図3に示した情報処理装置200において、メモリ302に記憶されたプログラムをCPU301が実行することによって、その機能を実現することができる。
画像内位置結果Ar511は、対象物が画像A211内に写り込む状態に関する情報であり、画像A211についての画像内位置算出部202による算出結果に関する情報を持っている。図10は、画像内位置結果Arのデータ構成の一例を示す説明図である。図10に示すように、画像内位置結果Ar511は、「動画ID」、「フレーム番号」、「対象物ID」、「対象物の種類」、「画像内位置結果」を含む各種情報を有している。また、画像内位置Ar511はさらに、「対象物を表す点の数」、「各点の画像内判定結果」、「各点の2次元位置」を有してもよい。
ここで、「動画ID」は、画像A211が含まれる動画を識別する一意の識別情報であり、「フレーム番号」は、当該動画の中の画像A211が存在するフレームの番号に関する情報である。これらは、図6に示した撮影位置・姿勢Aa212の「動画ID」および「フレーム番号」である。「対象物ID」は、対象物を識別する一意の識別情報であり、「対象物の種類」は、対象物の種類を示す情報であり、これらは、図8に示した対象物の3次元位置Ao214の「対象物ID」および「対象物の種類」である。
「画像内位置結果」は、対象物が画像A211内に写り込む量に関する情報である。たとえば、対象物の2次元位置群が画像A211内に存在する割合であり、2次元位置群すべてが画像A211内に存在する場合は、「画像内位置結果」が『1』となる。対象物の2次元位置群の一部が画像A211内に存在する場合、たとえば対象物を表す4点の2次元位置群のうち、3つが画像A211内に存在する場合は、「画像内位置結果」が『0.75』となる。一方、対象物の2次元位置群がすべて画像A211外に存在する(画像A211内に存在しない)場合は、「画像内位置結果」が『0』となる。
「対象物を表す点の数」は、図8の対象物の3次元位置Ao215の「対象物を表す点の数」と同じであり、対象物の地物特徴点数である。
「各点の画像内判定結果」は、対象物の各地物特徴点の3次元座標点、すなわち、図8の実座標3次元位置を保持する各代表点に相当する対象物の2次元位置群のそれぞれが、画像A211内に存在するか否かの情報であり、「対象物を表す点の数」だけ保持し、図8の実座標3次元位置と同じ順番で保持する。2次元位置が画像A211内に存在する場合は『1』となり、存在しない場合は『0』となる。「各点の画像内判定結果」は、「対象物を表す点の数」が『4』なので、ResultPos[0]~ResultPosPos[3]の4つの『0』または『1』の値で示される。
「各点の2次元位置」は、対象物の各地物特徴点の画像内の2次元位置座標値であり、「対象物を表す点の数」だけ保持し、「各点の画像内判定結果」や図8の実座標3次元位置と同じ順番とする。「各点の2次元位置」は、「対象物を表す点の数」が『4』なので、2DPos[0]~2DPos[3]の4つの座標が、それぞれx、yの2次元で示される。
なお、「画像内位置結果」は、対象物の2次元位置群が画像内に存在する割合ではなく、対象物が存在しない『0』、存在する『1』、の2つの選択肢のどちらかに判定した結果であってもよい。たとえば、対象物の2次元位置群の一部が画像内に存在する場合でも、対象物の2次元位置群全てが存在しない場合と同様と見なして、「画像内位置結果」を『0』としてもよい。この場合、各2次元位置群が画像内か否かの「各点の画像内判定結果」は、画像内位置結果Ar511として保持せず、省略するようにしてもよい。
また、「画像内位置結果」は、厳密な画像内に存在する2次元位置群の割合ではなく、任意の階層値であってもよい。たとえば、割合の大小に従って4段階の値(0~3、割合が0~0.25未満を0、0.25以上0.5未満を1、0.5以上0.75未満を2、0.75以上を3とする、など)のいずれかを求めて、割合の代わりに用いてもよい。なお、割合を2段階の値にする場合は、前述した、割合を算出せずに対象物が存在しない『0』、存在する『1』、の2つの選択肢を求める場合と、実質的に同じになる。
また、対象物の地物特徴点が対象物の上部に多数存在する場合など、位置に偏りがある場合には、地物特徴点群の各2次元位置の画像領域内にある割合を求める際に、任意の重みを付けて算出し、数の少ない対象物の下部の特徴点が画像領域内にあるか否かを重視する割合値にしてもよい。あるいは、割合による条件に加えて、あるいは条件の代わりに、重視する特徴点、たとえば下部にある特徴点のN個以上が画像内に存在すること、という条件としてもよい。
さらに「画像内位置結果」は、対象物の地物特徴点の各2次元位置から求めた点、たとえば重心が、画像内に含まれるかを用いて算出してもよい。地物特徴点群の各2次元位置を用いて算出した重心位置が、画像内に含まれるかを判定し、含まれない=『0』、含まれる=『1』、の値とする。このとき、地物特徴点群の全2次元位置が画像内に含まれない場合は、重心位置も画像内に含まれないので、重心位置が画像内に含まれるか否かの算出処理を省略することができる。
また、「画像内位置結果」は、対象物の地物特徴の各2次元位置から求める画像内の対象物領域の面積と、その対象物領域が画像内に含まれる面積を求めて、面積比を用いてもよい。対象物領域の面積は、対象物の地物特徴の各2次元位置を頂点とする多角形の面積として求めることができる。対象物領域が画像内に含まれる面積は、概多角形の各辺と画面の左右上下端に相当する直線との交点を求めて、求めた交点と画面内に含まれる地物特徴の各2次元位置だけを頂点に用いた多角形の面積として算出することができる。たとえば、「画面内位置結果」は、(画面内に含まれる対象物領域の面積)÷(対象物領域の面積)として求めることができる。
画像内位置算出部202は、この「画像内位置結果」に関する情報に基づいて、画像A211に対して以後の処理をおこなうか否かを判断する。すなわち、「画像内位置結果」が、画像内に含まれる2次元位置群の割合であり、0~1の値である場合には、「画像内位置結果」があらかじめ決定しておいた規定値による条件(たとえば「画像内位置結果」の値範囲の中間である0.5以上)に合致する画像のみを用いることとし、「画像内位置結果」が規定値による条件に合致しない画像については、以後の処理に用いないようにし、処理対象となる画像を絞り込む。
なお、規定値は、図2の説明で前述したように、画像領域切り出しとして用いる画像A211を、画像A211内に写りこむ対象物の量で選定するための条件に用いる閾値であり、写りこむ量が大きい画像に限定したい場合は、「画像内位置結果」の値範囲の最大値に近い値(2次元位置群の割合の場合は、より1に近い値)を設定しておく。また、前述したように、規定値による条件に加えて、さらに付随する条件、たとえば、重視する特徴点の2次元位置が画像内にあるか否か、を加えるようにしてもよい。
つぎに、画像内位置算出部202の具体的な処理手順について説明する。図11は、画像内位置算出部の一連の処理の手順の一例を示すフローチャートである。図11のフローチャートにおいて、画像内位置算出部202は、画像A211の撮影位置・姿勢Aaを入力する(ステップS1101)とともに、画像A211を撮影したカメラパラメータApを入力する(ステップS1102)。また、画像内位置算出部202は、対象物の3次元位置Aoを入力する(ステップS1103)。
つぎに、画像内位置算出部202は、対象物の各地物特徴点群が写り込む2次元位置を、対象物の3次元の各座標点に対する2次元位置群として、撮影位置・姿勢Aaによる「透視変換(処理方法)」を用いて算出する(ステップS1104)。そして、推定した各地物特徴点群の2次元位置が画像A211内に存在するか否かから、対象物が画像A211内に写り込む量を算出する(ステップS1105)。
さらに、画像内位置結果Ar511として、画像内位置結果:画像A211内に対象物が写り込む量(写り込む割合0~1の値)、対象物を表す点の数:地物特徴点数、すなわち、対象物の特徴点数(2次元位置群の総数)、各点の画像内判定結果:各地物特徴点の2次元位置がそれぞれ画像A211内にある(存在する)=「1」か、ない(存在しない)=「0」か、各点の2次元位置:各地物特徴点の2次元位置座標、を出力する(ステップS1106)。
つぎに、画像内位置算出部202は、画像内位置結果Ar511の対象物が画像内に写り込む量である画像内位置結果が、あらかじめ設定してある規定値以上か否かを判定する(ステップS1107)。ここで、規定値以上の場合(ステップS1107:Yes)は、画像A211を、以後の領域特定部以降の処理をおこなうものとして(ステップS1108)、画像内位置算出部202の一連の処理を終了する。
一方、規定値未満の場合(ステップS1107:No)は、画像A211を、以後の領域特定部以降の処理をおこなわないものとして(ステップS1109)、画像内位置算出部202の一連の処理を終了する。この場合の画像内位置結果Ar511(画像内位置結果:規定値未満の値)は、保管され、同じ対象物に対する別の探索に参照されるようにしてもよい。
ステップS1104における透視変換処理方法とは、3次元座標上の物体を2次面上に投影する変換処理に関する方法である。この透視変換処理方法により、複数カメラの撮像面の関係による、同一対象物が写る画像内位置を推定することが可能となる。透視変換処理は、具体的には、図1にも示したように、対象物の代表点の3次元位置と撮影位置を結んだ直線と撮影位置・姿勢とカメラパラメータ(焦点距離、光学中心)から推定する、カメラ撮像面との交点を求める。そして、その交点に相当する画像内の位置を2次元位置として算出するものである。
図12は、透視変換の処理内容を示す説明図である。図12において、物体Pは、実世界上の3次元座標位置を有する。具体的には、物体Pは、実座標原点0wに対して、座標軸Xw、Yw、Zwの世界座標系における3次元座標点(Pxw,Pyw,Pzw)を有する。透視変換はまず、世界座標系における3次元座標点(Pxw,Pyw,Pzw)を、カメラの撮影位置・姿勢情報を用いてカメラ座標系の3次元座標点(Pxc,Pyc,Pzc)に変換する。
ここで、カメラ座標系とは、画像を撮影した撮像装置(カメラ)の位置を原点Ocとし、画像の横方向をXc、縦方向をYc、奥行き方向をZcとする座標系である。透視投影は具体的には、カメラ撮影位置を用いて実座標原点0wをカメラ原点Ocに合わせる併進運動と、カメラ撮影姿勢を用いて世界座標系の各軸Xw,Yw,Zwをカメラ座標系の各軸Xc,Yc,Zcに変換する回転運動に相当する処理をおこなう。
つぎに、透視投影は、カメラの内部パラメータを用いて、カメラ座標系での実座標スケールでの座標値(たとえば[m]など)を、画素単位のスケールでの座標値([dot])に変換するとともに、画像内2次元位置の原点定義(画像の原点O、たとえば画像の左上)に基づく座標値へと変換する。
具体的には、物体Pのカメラ座標系の3次元座標点(Pxc,Pyc,Pzc)を、カメラ焦点距離によるスケール変換とカメラ原点が画像内に写りこんだ位置である画像中心位置による原点変更により、物体Pの位置にある画像上、すなわち画像座標系(原点O,各軸x,y,z)での物体Pの画像内位置(Px,Py,Pz)を求め、さらに画像とカメラの距離に依らない正規化画像座標系(原点O’,各軸s,t)での物体Pの画像内位置(Ps=Px/Pz,Pt=Py/Pz)を求めることで、最終的な画像上の2次元画像内位置(Ps,Pt)を算出する。
これにより、物体Pの実世界上の3次元座標位置(Pxw,Pyw,Pzw)を、画像座標点(Ps,Pt)に変換し、3次元座標上の物体Pを2次元の画面上に投影することができる。
透視投影で実世界上の3次元座標位置を画像座標点へ変換するには、下記式(1)~(3)を用いる。
Figure 0007327083000001
上記式(1)において、撮影位置・姿勢から求めた世界座標系からカメラ座標系への座標系変換行列である並進-回転の同次座標系変換行列として、r11,r12,r13,r21,r22,r23,r31,r32,r33は、回転成分を表しており、t1,t3,t3は、並進移動成分を表している。また、(Xw,Yw,Zw)は世界座標系の3次元座標を表している。
この式(1)の並進移動成分(t1~t3)によって、座標系原点を実座標原点Owからカメラの原点Ocに合わせ、回転成分(r11~r33)によって、世界座標系の座標軸定義Xw、Yw、Zwによる3次元座標値をカメラ座標系の座標軸定義Xc,Yc,Zcによる3次元座標値に変換することができる。
Figure 0007327083000002
上記式(2)は、式(1)で求めたカメラ座標系の値を、カメラの内部パラメータ行列を用いて、物体Pの位置にカメラ撮像面(画像面)のある画像座標系の値へと変換する。
内部パラメータ行列のfx,fyは、図7に示したカメラパラメータAp213の画像横方向と縦方向の焦点距離を表しており、後述するカメラ中心からの距離を1とする画像スクリーン上で、実スケールによる位置を画素位置へ変換する値である。
また、cx,cyは、カメラパラメータAp213の光学中心の横方向と縦方向の画素位置であり、画像内に写りこむカメラ原点Ocの画像内位置を表している。光学中心は、画像内位置の座標原点定義に依存する値であり、図12のように画像内位置を画像の左上を原点(画像の原点O)とする座標値で表す場合があるため、座標の原点定義を変更するために用いる。
式(2)は、内部パラメータ行列の焦点距離を用いたスケール変換(たとえば実スケール[m]から画素[dot]への変換)と、光学中心を用いた原点定義変更(たとえばカメラ原点Ocの画像座標系での投影位置に相当する画像中心から、画像左上の原点Oへの変更)により、カメラ座標系Xc,Yc,Zcの3次元座標位置(Pxc,Pyc,Pzc)を、物体Pの位置にある画像スクリーン上の画像、すなわち画像座標系の画像内位置(Px,Py,Pz)に変換する。
Figure 0007327083000003
上記式(3)は、式(2)で求めた画像座標系の位置(Px,Py,Pz)を、一般的な3次座標変換を用いて2次元の正規化画像座標系での画像内位置へと変換し、最終的な画像内位置座標(Ps,Pt)を求める。具体的には、画像座標系の位置(Px,Py,Pz)は、カメラ中心から奥行方向にPz離れた位置にある画像スクリーン上の画素位置であるため、距離Pz分だけ本来の画素位置よりも拡大した位置になっている。このため、fx、fyが想定しているカメラ中心からの距離を1とする画像スクリーン上の画素位置へと、各座標成分をPzで除算して正規化変換し、最終的な画像内位置座標(Ps=Px/Pz,Pt=Py/Pz)を得る。
なお、式(2)~(3)は一例であり、カメラ内部パラメータの焦点距離fx、fyやカメラ光学中心cx、cyの定義が異なる場合は、それらの定義に合わせて、適宜式(2)~(3)を変更してもよい。
式(2)では、省略するが、さらに、歪み補正係数を考慮するようにしてもよい。歪み補正係数は、カメラパラメータAp213に、焦点距離、光学中心とともに記憶されている。
このようにして、対象物の3次元位置Aoから、撮影位置・姿勢Aa212、カメラパラメータAp213を用いて、透視変換処理をすることにより、対象物が画像内に写り込む2次元群を算出することができる。
(領域特定部203の処理内容・位置情報Ai512の内容)
つぎに、領域特定部203の具体的な内容について説明する。図5に示すように、領域特定部203は、画像内位置算出部202によって領域特定部203以後の処理をおこなうと判定済みの画像A211に対して、出力された画像内位置結果Ar511を入力し、画像Aから切り出す画像内領域を算出する。そして、領域特定部203は、算出した結果として、位置情報Ai512を出力する。
領域特定部203は、具体的には、たとえば、図3に示した情報処理装置200において、メモリ302に記憶されたプログラムをCPU301が実行することによって、その機能を実現することができる。
領域特定部203は、たとえば、画像内位置結果Ar511を参照し、推定した画像への写り込み量から画像内にあると判断された対象物の各2次元位置群に対し、概2次元位置群の外接矩形を画像内領域として算出し、矩形を定義する位置情報Ai512を出力する。位置情報Aiは、たとえば、矩形の左上、右下の2次元の画像内位置などであってもよい。
なお、画像内領域としては、矩形でなくてもよく、任意の直線または曲線による図形、たとえば多角形や、楕円や曲線図形でよい。2次元位置群を結んだ多角形でもよいし、2次元位置群を内包する楕円でもよい。また、画像内領域は2次元位置群の厳密な外接図形ではなく、外接図形より小さな図形でもよいし、外接図形よりも大きな図形であっても構わない。
図13は、位置情報Aiのデータ構成の一例を示す説明図である。図13において、位置情報Ai512は、「動画ID」、「フレーム番号」、「対象物ID」、「対象物の種類」、「対象物を表す点の数」、「画像内位置座標」を含む各種情報を有している。「動画ID」は、画像A211が含まれる動画を識別する一意の識別情報であり、「フレーム番号」は、当該動画の中の画像A211が存在するフレームの番号に関する情報である。これらは、図6に示した撮影位置・姿勢Aa212、図10に示した画像内位置結果Ar511の「動画ID」および「フレーム番号」である。
「対象物ID」は、対象物を識別する一意の識別情報であり、「対象物の種類」は、対象物の種類を示す情報であり、これらは、図8に示した対象物の3次元位置Ao214の「対象物ID」および「対象物の種類」である。
「対象物を表す点の数」は、対象物、より具体的には、対象物が含まれる切り出す画像を表す点の数であり、図8に示した対象物の3次元位置Aoと同数であってもよく、異なる数であってもよい。また、図10に示した対象物の画像内にあると判定された2次元位置群の数と同じであってもよく、異なる数であってもよい。
一般的には、切り出された画像は、矩形により管理されるため、「対象物を表す点の数」は、4点とするのが好ましい。しかしながら、対象物の形状などによって、『4』には限定されるものではない。「画像内位置座標」は、「対象物を表す点の数」が『4』なので、Pos[0]~Pos[3]の4つの座標が、それぞれx、yの2次元で示される。
図14は、領域特定部の一連の処理の手順の一例を示すフローチャートである。図14のフローチャートにおいて、領域特定部203は、まず、画像内位置算出部202によって出力された画像内位置結果Ar(画像内位置結果:「1」)511を入力する(ステップS1401)。
そして、対象物の全代表点のうち、画像A211内にあると画像内位置算出部202で判定された代表点の2次元位置群に対し、外接矩形を画像内領域として定義し、画像内位置座標を特定する(ステップS1402)。その後、位置情報Ai(画像内位置座標)を作成し、その後、その位置情報Ai512を出力する(ステップS1403)。それにより、領域特定部203の一連の処理を終了する。
(領域出力部204の処理内容・領域画像Abの内容)
つぎに、領域出力部204の具体的な内容について説明する。図5に示すように、領域出力部204は、領域特定部203によって出力された位置情報Ai512を入力し、領域画像Ab513を出力する。領域出力部204は、具体的には、たとえば、図3に示した情報処理装置200において、メモリ302に記憶されたプログラムをCPU301が実行することによって、あるいは、ネットワークI/F303、記録媒体I/F304によって、その機能を実現することができる。
図15は、領域画像Abのデータ構成の一例を示す説明図である。図15において、領域画像Ab513は、「動画ID」、「フレーム番号」、「対象物ID」、「対象物の種類」、「保存先」、「ファイル名」を含む各種情報を有している。「動画ID」は、画像A211が含まれる動画を識別する一意の識別情報であり、「フレーム番号」は、当該動画の中の画像A211が存在するフレームの番号に関する情報である。これらは、図6に示した撮影位置・姿勢Aa212、図10に示した画像内位置結果Ar511の「動画ID」および「フレーム番号」である。
「対象物ID」は、対象物を識別する一意の識別情報であり、「対象物の種類」は、対象物の種類を示す情報であり、これらは、図8,図13に示した対象物の3次元位置Ao214、位置情報Ai512の「対象物ID」および「対象物の種類」である。「保存先」は、切り出された領域画像が保存されるフォルダに関する情報であり、「ファイル名」は、切り出された領域画像のファイル名に関する情報である。
図16は、切り出された領域画像の一例を示す説明図である。図16に示すように、切り出された領域画像1601は、地物の一例である、制限速度が50km/hであることを示す道路標識である。この領域画像1601は、たとえば、ビットマップ、Jpegなどの所定のフォーマットにより、データとして保存される。
地物は、具体的には、標識、信号機、ガードレールのほか、道路の縁石、白線、横断歩道、停止線、路面ペイント(文字に加えて矢印などの標示物)などであってもよい。また、地下鉄、交番、任意店舗・設備などに対する看板、踏切、歩道橋、料金所、道路鋲、ゼブラゾーン、ポールなどの道路付帯施設であってもよい。
また、電柱、バス停、電話・郵便ボックス、タクシー乗り場表示、自動販売機などであってもよい。また、側溝、マンホール、クッションドラムなどであってもよい。さらには、バリケード、パイロン、駐車スペース(路面標示枠)、駐車場の料金支払い機、ゴミ収集ボックス、消火栓、任意店舗のショウウィンドウ、街路樹、などであってもよい。
このように、地物は、撮影画像に写り込むことが可能で、かつ、その3次元位置が取得できる物体であれば、切り取りの対象とすることができる。
図17は、領域出力部の一連の処理の手順の一例を示すフローチャートである。図17のフローチャートにおいて、領域出力部204は、領域特定部203によって出力された位置情報Ai512を入力する(ステップS1701)。つぎに、領域出力部204は、位置情報Ai512に相当する領域画像Abを切り出す(ステップS1702)。具体的には、図13に示した位置情報Ai512の画像内位置座標に基づいて、領域画像を切り出す。そして、切り出した領域画像について、図15に示した領域画像Ab513のファイルを作成する。
その後、領域出力部204は、領域画像Ab513を出力する(ステップS1703)。具体的には、領域画像Ab513のファイルを、図3に示した記録媒体305に記録する、あるいは、ネットワーク310を介して、他の情報処理装置へ出力する。それによって、切り出した領域画像Abを、領域画像1601とともに、所定の記憶領域に蓄積することができ、機械学習(ディープラーニング)用の教師データとして活用に供することができる。
以上説明したように、本実施の形態にかかる情報処理装置200によれば、画像から対象物の領域を切り出すにあたり、対象物の3次元位置に関する3次元位置情報を記憶した記憶部を参照し、画像の撮影位置および姿勢に関する情報を用いて、3次元位置に関する3次元位置情報から、画像における対象物の領域を算出することができる。
これにより、算出して切り出した画像領域を機械学習用の教師データとすることで、人手を使わずに、自動で任意画像または映像からの対象物が写る画像領域の画像切り出しを実現することができる。このように、任意シーンを使った十分な機械学習用の教師データ収集が可能となり、収集した機械学習用の教師データを活用した学習ができるようになる。
また、本実施の形態にかかる情報処理装置200によれば、画像は、撮像装置によって撮影された画像であってもよく、撮像装置によって移動しながら撮影された画像であってもよい。これにより、容易に大量の機械学習用の教師データにかかる画像を取得することができる。
また、本実施の形態にかかる情報処理装置200によれば、画像の撮影位置および姿勢に関する情報および撮像装置のパラメータに関する情報を用いて、画像における前記対象物の領域を算出することができる。これにより、より正確な対象物の領域を算出することができる。
また、本実施の形態にかかる情報処理装置200によれば、透視変換処理により、画像における対象物の領域を算出することができる。これにより、対象物の3次元位置に関する3次元位置情報から、対象物が画像内に写り込む2次元位置を含む領域を迅速に算出することができる。
また、本実施の形態にかかる情報処理装置200によれば、対象物が画像内に写り込む量を算出して、写り込む量から対象物が画像内に存在するか否かを判断し、判断の結果、対象物が前記画像内に存在する場合に、画像における対象物の領域を算出することができる。これにより、対象物が写っていない、または、ごく一部しか写っていない画像を避けて画像を探索することができ、対象物が写っている画像のみにその後の画像切り出し処理をおこなえばよく、機械学習用の教師データを効率的に収集することができる。
また、本実施の形態にかかる情報処理装置200によれば、画像における対象物の領域の算出結果に基づいて、対象物の画像を切り出すことができる。これにより、画像の切り出し処理を自動的におこなうことができる。
また、本実施の形態にかかる情報処理装置200によれば、画像の撮影位置および姿勢に関する情報は、画像を用いたV-SLAMによって取得することができる。これにより、画像の撮影位置および姿勢に関する情報を効率よく抽出することができる。
また、本実施の形態にかかる情報処理装置200によれば、3次元位置に関する3次元位置情報は、三角測量を用いて決定することができる。これにより、より簡易に3次元位置に関する3次元位置情報を取得することができる。
また、本実施の形態にかかる情報処理装置200によれば、対象物は、画像に表示される地物であってもよい。これにより、地物を機械学習用の教師データとして活用することができる。
また、本実施の形態にかかる情報処理装置200によれば、撮像装置は、移動体に搭載されたカメラであってもよい。これにより、移動しながら撮影された画像から対象物(地物)の機械学習用の教師データを取得することができる。
なお、本実施の形態で説明した領域切り出し方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。プログラム配信プログラムは、ハードディスク、フレキシブルディスク、CD(Compact Disc)-ROM、MO(Magneto-Optical Disk)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、領域切り出しプログラムは、インターネットなどのネットワークを介して配布してもよい。
また、本実施の形態で説明した情報処理装置200は、スタンダードセルやストラクチャードASIC(Application Specific Integrated Circuit)などの特定用途向けICやFPGAなどのPLD(Programmable Logic Device)によっても実現することができる。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)画像から対象物の領域を切り出す領域切り出し方法であって、
情報処理装置が、
前記対象物の3次元位置情報を記憶した記憶部を参照し、
前記画像の撮影位置および姿勢に関する情報を用いて、前記3次元位置情報から、前記画像における前記対象物の領域を算出する、
ことを特徴とする領域切り出し方法。
(付記2)前記画像は、撮像装置によって撮影された画像であることを特徴とする付記1に記載の領域切り出し方法。
(付記3)前記画像は、前記撮像装置によって移動しながら撮影された画像であることを特徴とする付記2に記載の領域切り出し方法。
(付記4)前記画像の撮影位置および姿勢に関する情報および前記撮像装置のパラメータに関する情報を用いて、前記画像における前記対象物の領域を算出することを特徴とする付記2または3に記載の領域切り出し方法。
(付記5)透視変換処理により、前記画像における前記対象物の領域を算出することを特徴とする付記1~4のいずれか一つに記載の領域切り出し方法。
(付記6)前記対象物が前記画像内に存在するかを判断し、
前記判断の結果、前記対象物が前記画像内に存在する場合に、当該画像における当該対象物の領域を算出することを特徴とする付記1~5のいずれか一つに記載の領域切り出し方法。
(付記7)前記画像における前記対象物の領域の算出結果に基づいて、当該対象物の画像を切り出すことを特徴とする付記1~6のいずれか一つに記載の領域切り出し方法。
(付記8)前記画像の撮影位置および姿勢に関する情報は、当該画像を用いたV-SLAMによって取得することを特徴とする付記1~7のいずれか一つに記載の領域切り出し方法。
(付記9)前記3次元位置情報は、三角測量を用いて決定することを特徴とする付記1~8のいずれか一つに記載の領域切り出し方法。
(付記10)前記対象物は、前記画像に表示される地物であること特徴とする付記1~9のいずれか一つに記載の領域切り出し方法。
(付記11)前記撮像装置は、移動体に搭載されたカメラであることを特徴とする付記2~4のいずれか一つに記載の領域切り出し方法。
(付記12)画像から対象物の領域を切り出す領域切り出しプログラムであって、
情報処理装置に、
前記対象物の3次元位置情報を記憶した記憶部を参照し、
前記画像の撮影位置および姿勢に関する情報を用いて、前記3次元位置情報から、前記画像における前記対象物の領域を算出する、
処理を実行させることを特徴とする領域切り出しプログラム。
100 カメラ
101 カメラ撮像面
102 地物(標識)の3次元位置
103 対物存在直線
104 地物(対象物)の画像内位置
105 地物画像(機械学習用の教師データ)
200 情報処理装置(サーバ)
201 画像入力部
202 画像内位置算出部
203 領域特定部
204 領域出力部
205 記憶部
211 画像(画像A)
212 撮影位置・姿勢(撮影位置・姿勢Aa)
213 カメラパラメータ(カメラパラメータAp)
214 対象物の3次元位置(対象物の3次元位置Ao)
511 画像内位置結果(画像内位置結果Ar)
512 位置情報(位置情報Ai)
513、1601 領域画像(領域画像Ab)

Claims (10)

  1. 画像から対象物の領域を切り出す領域切り出し方法であって、
    情報処理装置が、
    前記対象物の3次元位置情報を記憶した記憶部を参照し、
    前記画像の撮影位置および撮影姿勢に関する情報を用いて、前記3次元位置情報から、前記画像における前記対象物の領域を算出する、
    ことを特徴とする領域切り出し方法。
  2. 前記画像は、撮像装置によって撮影された画像であることを特徴とする請求項1に記載の領域切り出し方法。
  3. 前記画像は、前記撮像装置によって移動しながら撮影された画像であることを特徴とする請求項2に記載の領域切り出し方法。
  4. 前記画像の撮影位置および撮影姿勢に関する情報および前記撮像装置のパラメータに関する情報を用いて、前記画像における前記対象物の領域を算出することを特徴とする請求項2または3に記載の領域切り出し方法。
  5. 透視変換処理により、前記画像における前記対象物の領域を算出することを特徴とする請求項1~4のいずれか一つに記載の領域切り出し方法。
  6. 前記対象物が前記画像内に存在するかを判断し、
    前記判断の結果、前記対象物が前記画像内に存在する場合に、当該画像における当該対象物の領域を算出することを特徴とする請求項1~5のいずれか一つに記載の領域切り出し方法。
  7. 前記画像における前記対象物の領域の算出結果に基づいて、当該対象物の画像を切り出すことを特徴とする請求項1~6のいずれか一つに記載の領域切り出し方法。
  8. 前記画像の撮影位置および撮影姿勢に関する情報は、当該画像を用いたV-SLAMによって取得することを特徴とする請求項1~7のいずれか一つに記載の領域切り出し方法。
  9. 前記3次元位置情報は、三角測量を用いて決定することを特徴とする請求項1~8のいずれか一つに記載の領域切り出し方法。
  10. 画像から対象物の領域を切り出す領域切り出しプログラムであって、
    情報処理装置に、
    前記対象物の3次元位置情報を記憶した記憶部を参照し、
    前記画像の撮影位置および撮影姿勢に関する情報を用いて、前記3次元位置情報から、前記画像における前記対象物の領域を算出する、
    処理を実行させることを特徴とする領域切り出しプログラム。
JP2019197743A 2019-10-30 2019-10-30 領域切り出し方法および領域切り出しプログラム Active JP7327083B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019197743A JP7327083B2 (ja) 2019-10-30 2019-10-30 領域切り出し方法および領域切り出しプログラム
EP20198940.7A EP3816938A1 (en) 2019-10-30 2020-09-29 Region clipping method and recording medium storing region clipping program
US17/064,005 US11461944B2 (en) 2019-10-30 2020-10-06 Region clipping method and recording medium storing region clipping program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019197743A JP7327083B2 (ja) 2019-10-30 2019-10-30 領域切り出し方法および領域切り出しプログラム

Publications (2)

Publication Number Publication Date
JP2021071885A JP2021071885A (ja) 2021-05-06
JP7327083B2 true JP7327083B2 (ja) 2023-08-16

Family

ID=72670557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019197743A Active JP7327083B2 (ja) 2019-10-30 2019-10-30 領域切り出し方法および領域切り出しプログラム

Country Status (3)

Country Link
US (1) US11461944B2 (ja)
EP (1) EP3816938A1 (ja)
JP (1) JP7327083B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021181448A1 (ja) * 2020-03-09 2021-09-16 オリンパス株式会社 面推定方法、面推定装置、および記録媒体
JP2024076757A (ja) * 2022-11-25 2024-06-06 富士通株式会社 位置測位プログラム、情報処理装置及び位置測位方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007080060A (ja) 2005-09-15 2007-03-29 Matsushita Electric Ind Co Ltd 対象物特定装置
JP2007212187A (ja) 2006-02-07 2007-08-23 Mitsubishi Electric Corp ステレオ写真計測装置、ステレオ写真計測方法、及びステレオ写真計測プログラム
WO2008099915A1 (ja) 2007-02-16 2008-08-21 Mitsubishi Electric Corporation 道路地物計測装置、地物識別装置、道路地物計測方法、道路地物計測プログラム、計測装置、計測方法、計測プログラム、計測位置データ、計測端末装置、計測サーバ装置、作図装置、作図方法、作図プログラムおよび作図データ
JP2008298697A (ja) 2007-06-01 2008-12-11 Aisin Aw Co Ltd 画像認識装置及び画像認識方法、並びにそれを用いた自位置認識装置及びナビゲーション装置
JP2016177388A (ja) 2015-03-18 2016-10-06 株式会社リコー 移動体位置姿勢計測装置
JP2019121136A (ja) 2017-12-29 2019-07-22 富士通株式会社 情報処理装置、情報処理システムおよび情報処理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09243389A (ja) 1996-03-08 1997-09-19 Alpine Electron Inc 車載用ナビゲーション装置
JP4541609B2 (ja) 2001-09-06 2010-09-08 富士重工業株式会社 停止線認識装置、及び、その停止線認識装置を用いた車両用運転支援装置
JP4789869B2 (ja) 2007-06-01 2011-10-12 アイシン・エィ・ダブリュ株式会社 画像認識装置及び画像認識方法、並びにそれを用いた自位置認識装置及びナビゲーション装置
JP5045308B2 (ja) 2007-08-27 2012-10-10 株式会社セガ 画像表示制御プログラム及び画像表示制御装置
EP2444939A1 (en) * 2009-10-15 2012-04-25 Hitachi Aloka Medical, Ltd. Ultrasonic volume data processing device
JPWO2011089982A1 (ja) * 2010-01-22 2013-05-23 ソニー株式会社 受信装置、送信装置、通信システム、受信装置の制御方法、及びプログラム
NZ749449A (en) * 2016-06-30 2023-06-30 Magic Leap Inc Estimating pose in 3d space
US11676296B2 (en) * 2017-08-11 2023-06-13 Sri International Augmenting reality using semantic segmentation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007080060A (ja) 2005-09-15 2007-03-29 Matsushita Electric Ind Co Ltd 対象物特定装置
JP2007212187A (ja) 2006-02-07 2007-08-23 Mitsubishi Electric Corp ステレオ写真計測装置、ステレオ写真計測方法、及びステレオ写真計測プログラム
WO2008099915A1 (ja) 2007-02-16 2008-08-21 Mitsubishi Electric Corporation 道路地物計測装置、地物識別装置、道路地物計測方法、道路地物計測プログラム、計測装置、計測方法、計測プログラム、計測位置データ、計測端末装置、計測サーバ装置、作図装置、作図方法、作図プログラムおよび作図データ
JP2008298697A (ja) 2007-06-01 2008-12-11 Aisin Aw Co Ltd 画像認識装置及び画像認識方法、並びにそれを用いた自位置認識装置及びナビゲーション装置
JP2016177388A (ja) 2015-03-18 2016-10-06 株式会社リコー 移動体位置姿勢計測装置
JP2019121136A (ja) 2017-12-29 2019-07-22 富士通株式会社 情報処理装置、情報処理システムおよび情報処理方法

Also Published As

Publication number Publication date
US20210134034A1 (en) 2021-05-06
US11461944B2 (en) 2022-10-04
JP2021071885A (ja) 2021-05-06
EP3816938A1 (en) 2021-05-05

Similar Documents

Publication Publication Date Title
CN109461211B (zh) 基于视觉点云的语义矢量地图构建方法、装置和电子设备
CN110163930B (zh) 车道线生成方法、装置、设备、系统及可读存储介质
JP6595182B2 (ja) マッピング、位置特定、及び姿勢補正のためのシステム及び方法
JP2019139762A (ja) 車両走行のための情報を提供する方法
CN108021862A (zh) 道路标志识别
CN110648389A (zh) 基于无人机和边缘车辆协同的城市街景3d重建方法和系统
CN110969064B (zh) 一种基于单目视觉的图像检测方法、装置及存储设备
JP6950832B2 (ja) 位置座標推定装置、位置座標推定方法およびプログラム
JP2021524026A (ja) 姿勢判断システムおよび方法
US12061252B2 (en) Environment model using cross-sensor feature point referencing
JP2020153956A (ja) 移動体位置推定システムおよび移動体位置推定方法
JP7327083B2 (ja) 領域切り出し方法および領域切り出しプログラム
JP2022039188A (ja) 位置姿勢算出方法および位置姿勢算出プログラム
CN115409910A (zh) 一种语义地图构建方法、视觉定位方法及相关设备
KR100809359B1 (ko) 3차원 맵 데이터를 제공하는 차량용 항법 장치 및 상기장치의 동작 방법
JP7429246B2 (ja) 対象を識別する方法とシステム
CN114419180A (zh) 重构高精地图的方法、装置和电子设备
KR101655204B1 (ko) 3차원 그래픽 모델을 이용한 영상처리 장치 및 그 방법
CN112805200B (zh) 交通场景的快照图像
US20220390252A1 (en) Use of predefined (pre-built) graphical representations of roads for autonomous driving of vehicles and display of route planning
US20230140324A1 (en) Method of creating 3d volumetric scene
EP3552388B1 (en) Feature recognition assisted super-resolution method
WO2020073268A1 (en) Snapshot image to train roadmodel
WO2020073270A1 (en) Snapshot image of traffic scenario
WO2020073271A1 (en) Snapshot image of traffic scenario

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230508

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230717

R150 Certificate of patent or registration of utility model

Ref document number: 7327083

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150