JP2021071885A

JP2021071885A - 領域切り出し方法および領域切り出しプログラム

Info

Publication number: JP2021071885A
Application number: JP2019197743A
Authority: JP
Inventors: 一平草苅; Ippei Kusakari; 麻子北浦; Asako Kitaura; 藤田　卓志; Takushi Fujita; 卓志藤田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2021-05-06
Anticipated expiration: 2039-10-30
Also published as: JP7327083B2; EP3816938A1; US20210134034A1; US11461944B2

Abstract

【課題】画像内に写る対象物の画像領域を自動で特定すること。【解決手段】カメラ１００が撮影した画像には、対象となる地物（標識）が写っている。符号１０１ａは、カメラ撮像面（側面）であり、符号１０１ｂは、カメラ撮像面（正面）である。符号１０２は、地物（標識）の３次元位置を示している。対象物存在直線１０３と、カメラ撮像面（側面）１０１ａとが交わった位置が、地物（対象物）の画像内位置１０４となる。この画像内位置１０４を算出するために、画像の撮影位置・姿勢とカメラパラメータとを用いて、地物（標識）の３次元位置１０２を透視変換し、地物（標識）の３次元位置１０２から、当該地物が、画像内のどの位置に写っているかを推定（算出）し、その画像内位置に基づいて、地物の画像領域１０５を自動で切り出し、機械学習用の教師データとして用いる。【選択図】図１

Description

本発明は、画像の領域を切り出す領域切り出し方法および領域切り出しプログラムに関する。

従来、たとえば地物などの対象物の画像を、機械学習用の教師データとして作成する場合には、以下の２つの作業をおこなう。まず、大量の動画像データの中から教師データにしたい対象物が写る画像を、目視により探すという画像探索作業をおこなう。つぎに、画像探索作業において探した画像に対して、対象物が画像内に写り込む画像領域を手作業にて指定するという領域指定作業をおこなう。

関連する先行技術としては、対象地物の位置情報を含む地物情報を用いて、画像情報に対する前記対象地物の画像認識処理をおこなう技術がある。また、関連する技術としては、仮想３次元空間内に設定された注目点と同一の位置を注視点とする視点に基づいて、仮想３次元空間を２次元座標系に透視変換する技術がある。

特開２００８−２９８６９８号公報特開２００９−０５３９２２号公報

しかしながら、従来技術では、対象物の画像探索および領域指定の作業は、上述のように人手によりおこなわなければならず、多くの時間と工数がかかる。そのため、対象物の画像を機械学習用の教師データとして用いるにあたり、十分な量のデータを効率よく収集することができないという問題点がある。

一つの側面では、本発明は、画像内に写る対象物の画像領域を自動で特定することを目的とする。

一つの実施態様では、画像から対象物の領域を切り出す領域切り出し方法であって、情報処理装置が、前記対象物の３次元位置情報を記憶した記憶部を参照し、前記画像の撮影位置および姿勢に関する情報を用いて、前記３次元位置情報から、前記画像における前記対象物の領域を算出する、領域切り出し方法が提供される。

本発明の一側面によれば、画像内に写る対象物の画像領域を自動で特定することができる。

図１は、領域切り出し方法および領域切り出しプログラムの概要の一例を示す説明図である。図２は、領域切り出し方法を実現する情報処理装置の機能的構成の一例を示す説明図である。図３は、情報処理装置のハードウェア構成の一例を示すブロック図である。図４は、領域切り出し方法の一連の処理の手順の一例を示すフローチャートである。図５は、各構成部および各情報の内容の一例を示す説明図である。図６は、撮影位置・姿勢Ａａのデータ構成の一例を示す説明図である。図７は、カメラパラメータＡｐのデータ構成の一例を示す説明図である。図８は、対象物の３次元位置Ａｏのデータ構成の一例を示す説明図である。図９は、三角測量の処理内容を示す説明図である。図１０は、画像内位置結果Ａｒのデータ構成の一例を示す説明図である。図１１は、画像内位置算出部の一連の処理の手順の一例を示すフローチャートである。図１２は、透視変換の処理内容を示す説明図である。図１３は、位置情報Ａｉのデータ構成の一例を示す説明図である。図１４は、領域特定部の一連の処理の手順の一例を示すフローチャートである。図１５は、領域画像Ａｂのデータ構成の一例を示す説明図である。図１６は、切り出された領域画像の一例を示す説明図である。図１７は、領域出力部の一連の処理の手順の一例を示すフローチャートである。

以下に図面を参照して、本発明にかかる領域切り出し方法および領域切り出しプログラムの実施の形態を詳細に説明する。

（実施の形態）
まず、図１を用いて、本実施の形態にかかる領域切り出し方法および領域切り出しプログラムの概要について説明する。図１は、領域切り出し方法および領域切り出しプログラムの概要の一例を示す説明図である。

図１において、たとえば移動体に搭載された撮像装置であるカメラ１００は、画像を撮影する。撮影した画像には、対象となる地物（標識）が写っている。符号１０１ａは、カメラ撮像面（側面）であり、符号１０１ｂは、カメラ撮像面（正面）である。カメラ撮像面（正面）１０１ｂにおいては、移動体が走行中に撮影した画像に、道路の様子が写っていることを示している。カメラ撮像面１０１ｂの道路の様子には、移動体の前を走る自動車、対向車のほか、ガードレール、信号機、道路標識、建物、電柱などの地物が含まれている。

ここで、切り出しの対象となる地物は、制限速度５０ｋｍ／ｈの道路標識であり、符号１０２は、この地物（標識）の３次元位置、すなわち、この地物が実際に存在する座標位置を示している。また、符号１０３は、対象物存在直線を示している。そして、図１に示すように、対象物存在直線１０３と、カメラ撮像面（側面）１０１ａとが交わった交点の位置が、地物（対象物）の画像内位置１０４となる。

この画像内位置１０４を算出するために、画像の撮影位置・姿勢とカメラパラメータとを用いて、地物（標識）の３次元位置１０２を透視変換する。そうすることによって、地物（標識）の３次元位置１０２から、当該地物が、カメラ撮像面１０１内のどの位置に写っているかを推定（算出）することができる。

このように、地物（対象物）の画像内位置１０４を推定（算出）することができれば、推定（算出）した画像内位置に基づいて、地物の画像領域を自動切り出しすることができる。符号１０５は、自動切り出しをした地物画像（制限速度５０ｋｍ／ｈの道路標識）であり、この自動切り出しをした地物画像は、機械学習用の教師データとして用いることができる。

ここで、画像は、撮像装置であるカメラ１００によって撮影された画像であってもよく、また、他の方法によって取得した画像であってもよい。また、撮像装置によって移動しながら撮影された画像（動画）であってもよい。地物を切り出すためには、地物の３次元位置１０２に関する情報と、画像の撮影位置・姿勢に関する情報があればよい。さらに、カメラパラメータに関する情報があればよい。

ところで、移動体の一例である一般車の車載機や、ドライブレコーダのデータ（映像）を収集（プローブ）し、収集した一般車映像から、道路上や道路周辺の地物や移動物体の情報を取得し、交通情報や路上障害物情報を更新提供したり、自動運転向けの高精度地図を更新したり、自動運転向けに撮影時の周辺状況を解析したりするサービスを実施している。

移動体が移動中に取得した周辺状況に関するデータを入力とし、移動体の走行経路と周辺環境地図を同時に作成するＳＬＡＭ（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ）という技術がある。ＳＬＡＭは、移動中に取得した周辺状況に関する車載データ、たとえばＬＩＤＡＲ（ＬａｓｅｒＩｍａｇｉｎｇＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）データなどを入力とし、自車走行経路（自車の位置と姿勢）と周辺環境地図（周辺物の３次元位置マップなど）を同時に作成する技術の総称である。

また、ＳＬＡＭ技術の中でも、移動体が撮影した映像を入力として、移動体の走行時のカメラ位置・姿勢を推定する技術は、Ｖｉｓｕａｌ−ＳＬＡＭ（以後、「Ｖ−ＳＬＡＭ」という）と呼ばれる。Ｖ−ＳＬＡＭは、車載カメラで撮影した映像を入力とし、撮影した映像に写る被写体の変化を用いて、自車走行経路（自車位置・姿勢）と周辺環境地図（周辺の被写体の画像特徴点群の３次元位置マップ）を推定作成することができる技術であり、一般車の映像から自車位置と姿勢を推定することができる。

Ｖ−ＳＬＡＭは、移動するカメラで撮影した、時系列に連続する連続画像（動画）から、それぞれ空間上の点に対応付け可能な画像特徴を多数抽出する。そして、抽出した各画像特徴について、類似性を用いて連続画像間での対応付けをおこない、それらすべてが連続画像間で満たすべき幾何学条件について解を求める。これによって、各画像特徴の空間内での位置と、各画像の撮影位置および姿勢を求めることができる。

そこで、カメラ１００によって撮影される画像の撮影位置および姿勢に関する情報は、当該画像を用いたＶ−ＳＬＡＭによって取得するようにしてもよい。なお、これらＶ−ＳＬＡＭなどによるカメラ位置・姿勢の推定は、後述する車載機、情報処理装置２００のいずれで実施してもよい。

また、一般的には、車載機は、カメラ１００とともに移動体に搭載され、衛星からのＧＮＳＳ情報および車載カメラの映像を収集する。移動体は、具体的には、たとえば、一般乗用車やタクシーなどの営業車、二輪車（自動二輪や自転車）、大型車（バスやトラック）などである。また、情報を収集するコネクテッド・カーであってもよい。また、移動体には、水上を移動する船舶や上空を移動する航空機、無人航空機（ドローン）、自動走行ロボットなどであってもよい。

車載機は、カメラ１００の撮影映像に関する情報を収集する。たとえば、撮影映像時の移動体およびカメラの位置情報、カメラパラメータを特定するためのカメラ１００の情報のいずれかを収集する。この位置情報は、測位情報の一例であるＧＮＳＳ情報などから得てよい。また、Ｖ−ＳＬＡＭなどを用いて撮影位置・姿勢を算出する代わりに、車載機はさらに移動体の情報として、後述するように慣性計測装置ＩＭＵ（ｉｎｅｒｔｉａｌｍｅａｓｕｒｅｍｅｎｔｕｎｉｔ）などの姿勢センサから収集する移動体の姿勢情報などを取得してもよい。また、車載機は、撮影時刻などに関する情報も収集するようにしてもよい。

車載機は、移動体に搭載された専用の装置であってもよく、取り外し可能な機器であってもよい。また、スマートフォンやタブレット端末装置などの通信機能を備えた携帯端末装置を移動体において利用するものであってもよい。また、車載機の各種機能の全部または一部を、移動体が備えている機能を用いて実現するようにしてもよい。

したがって、車載機の『車載』という表現は、移動体に搭載された専用装置という意味には限定されない。車載機は、移動体における情報を収集する機能を持った装置であれば、どのような形態の装置であってもよい。

車載機は、撮影映像に関する情報およびＧＮＳＳ情報を含む移動体の情報（車載データ）を取得し、取得した車載データを保存する。そして、保存した車載データを、無線通信によって、ネットワーク（後述する、図３に示すネットワーク３１０）を介して、サーバ（後述する、図２に示す情報処理装置２００）へ送信するようにしてもよい。

また、車載機は、通信手段を備えていなくてよい。すなわち、車載機は、サーバとは、ネットワーク３１０を介して接続されていなくてもよい。その場合は、車載機に蓄積されたデータは、オフラインで（たとえば、記録メディアを介して人手などにより）、サーバに入力することができる。

このように、車載機によって、カメラ１００が撮影した画像からの地物画像の領域を切り出す処理の全部または一部をおこなうようにしてもよい。

（情報処理装置の機能的構成例）
図２は、領域切り出し方法を実現する情報処理装置の機能的構成の一例を示す説明図である。図２において、情報処理装置２００は、具体的には、たとえば、１台ないし複数台のサーバなどのコンピュータによって、その機能を実現する。複数台のサーバは、ネットワーク（後述する図３におけるネットワーク３１０）によって接続される。また、情報処理装置２００は、図示は省略するが、クラウドコンピューティングシステムによって、その機能を実現するようにしてもよい。

情報処理装置（サーバ）２００は、画像入力部２０１、画像内位置算出部２０２、領域特定部２０３、領域出力部２０４を有する。これらの構成部２０１〜２０４によって、情報処理装置２００の制御部を構成することができる。また、情報処理装置２００は、入力される、画像（画像Ａ）２１１、撮影位置・姿勢（撮影位置・姿勢Ａａ）２１２、カメラパラメータ（カメラパラメータＡｐ）２１３、対象物の３次元位置（対象物の３次元位置Ａｏ）２１４の各情報を持つ。

また、情報処理装置２００は、記憶部２０５を有していてもよい。記憶部２０５は、情報処理装置２００が有する代わりに、図示を省略する他の情報処理装置が有していてもよい。そして、ネットワーク（ネットワーク３１０）を介して当該他の情報処理装置から取得するようにしてもよい。

画像入力部２０１は、画像２１１から対象物（地物画像１０５）の領域を切り出すにあたり、画像２１１の入力を受け付ける。画像２１１の入力は、すでに撮影され所定の記憶領域に記憶された画像データを入力するようにしてもよく、また、撮影装置（図１に示したカメラ１００）によって撮影された映像データの中から所定の画像を抽出するようにしてもよい。

画像入力部２０１は、入力の対象となる画像２１１に対応する、当該画像２１１の撮影位置および姿勢に関する情報（撮影位置・姿勢２１２）、当該画像２１１を撮影した撮像装置のパラメータに関する情報（カメラパラメータ２１３）を取得する。撮影位置・姿勢２１２は、前述した車載機で収集したセンサデータ、または、車載機または情報処理装置２００でＶ−ＳＬＡＭなどの任意の既知の処理で求めたデータである。なお、カメラパラメータ２１３の情報は、処理対象のカメラがあらかじめ限定されている場合などに、画像２１１をみて取得するのではなく、あらかじめ取得しておくようにしておいてもよい。

画像内位置算出部２０２・領域特定部２０３は、対象物の３次元位置２１４に関する３次元位置情報を記憶した記憶部２０５を参照し、画像２１１の撮影位置および姿勢２１２を用いて、３次元位置２１４に関する３次元位置情報から、画像２１１における対象物の領域を算出する。また、対象物の３次元位置２１４に関する３次元位置情報を記憶した記憶部２０５を参照し、画像２１１の撮影位置および姿勢２１２だけでなく、撮像装置のカメラパラメータ２１３も用いて、３次元位置２１４に関する３次元位置情報から、画像２１１における対象物の領域を算出するようにしてもよい。

たとえば、画像内位置算出部２０２が、対象物が画像２１１内に存在するかを判断する。そして、領域特定部２０３が、画像内位置算出部２０２による判断の結果、対象物が画像２１１内に存在する場合に、当該画像２１１における当該対象物の領域を算出するようにしてもよい。

領域出力部２０４は、領域特定部２０３による画像２１１における対象物の領域の算出結果（後述する画像内位置結果Ａｒ５１１）に基づいて、当該対象物の画像の切り出しをおこなう。

記憶部２０５には、複数種類の各種対象物（地物）の３次元位置２１４を格納している。したがって、対象物の種類などを指定することで、指定された対象物の３次元位置２１４を記憶部２０５から抽出することができる。

図２においては、情報処理装置（サーバ）２００が、画像入力部２０１、画像内位置算出部２０２、領域特定部２０３、領域出力部２０４、記憶部２０５と、を有する構成とした。図示は省略するが、これらの各機能部の少なくとも一つを、情報処理装置２００に加えて、あるいは、情報処理装置２００に代えて、上述のように、移動体が備える車載機が有するようにしてもよい。

車載機が、各機能部２０１、２０２、２０３、２０４、２０５の少なくとも一つを有する場合は、情報処理装置２００が実施する処理の内容と同じであってもよい。このように構成することによって、移動体に搭載された撮像装置が撮影した画像に基づいて、移動体に搭載された車載機が機械学習用の教師データを出力することができる。

（情報処理装置のハードウェア構成例）
図３は、情報処理装置のハードウェア構成の一例を示すブロック図である。情報処理装置２００の一例であるサーバは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１と、メモリ３０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）３０３と、記録媒体Ｉ／Ｆ３０４と、記録媒体３０５と、を有する。また、各構成部は、バス３００によってそれぞれ接続される。

ここで、ＣＰＵ３０１は、情報処理装置２００の全体の制御を司る。メモリ３０２は、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、たとえば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ３０１のワークエリアとして使用される。メモリ３０２に記憶されるプログラムは、ＣＰＵ３０１にロードされることで、コーディングされている処理をＣＰＵ３０１に実行させる。

ネットワークＩ／Ｆ３０３は、通信回線を通じてネットワーク３１０に接続され、ネットワーク３１０を介して他の装置（たとえば、図示を省略する車載機や、他のサーバやシステム）に接続される。そして、ネットワークＩ／Ｆ３０３は、ネットワーク３１０と自装置内部とのインターフェースを司り、他の装置からのデータの入出力を制御する。ネットワークＩ／Ｆ３０３には、たとえば、モデムやＬＡＮアダプタなどを採用することができる。

記録媒体Ｉ／Ｆ３０４は、ＣＰＵ３０１の制御にしたがって記録媒体３０５に対するデータのリード／ライトを制御する。記録媒体３０５は、記録媒体Ｉ／Ｆ３０４の制御で書き込まれたデータを記憶する。記録媒体３０５としては、たとえば、磁気ディスク、光ディスクなどが挙げられる。

なお、情報処理装置２００は、上述した構成部のほかに、たとえば、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、キーボード、ポインティングデバイス、ディスプレイなどを有していてもよい。

また、図示は省略するが、車載機が、撮像装置のほか、情報処理装置２００と同様のハードウェア構成を備えていてもよい。

（領域切り出し方法の一連の処理手順）
図４は、領域切り出し方法の一連の処理の手順の一例を示すフローチャートである。図４のフローチャートにおいて、情報処理装置２００は、任意の画像２１１を読み込む（ステップＳ４０１）。このステップの処理は、たとえば、図２に示した画像入力部２０１によっておこなわれる。

つぎに、対象物の地物特徴点群の３次元位置２１４を、撮影位置・姿勢２１２を用いて透視変換をおこない、地物特徴点の２次元位置を推定（算出）する（ステップＳ４０２）。地物特徴点の２次元位置を推定するにあたり、カメラパラメータ２１３もあわせて用いるようにしてもよい。

そして、推定（算出）した各地物特徴点の２次元位置が、画像２１１の画像領域内、すなわち、カメラ撮像面１０１内にあるか否かを判断し、これら２次元位置が画像領域内にあるか否かを用いて、対象物が画像２１１に写り込んでいる量を算出する（ステップＳ４０３）。

つぎに、算出した地物の映り込み量が、規定値、すなわち、システムなどで決定した条件に合致するかを判断する（ステップＳ４０４）。たとえば、写り込み量が０（地物全体が画像領域外）〜１（地物全体が画像領域内）の値の場合、写り込み量が規定値以上であるか否かを条件とし、写り込み量が規定値以上の場合に合致したとみなす。規定値が１に近いほど、対象物全体が画像に写っている可能性の高い画像のみを画像領域切り出しに使うことになる。完全に対象物が画像に写っている画像のみを使いたい場合は、条件の規定値を１に設定しておくとよい。また、対象物の約半分以上が写っている画像のみを使いたい場合は、規定値を０．５に設定しておくとよい。

これらのステップ（ステップＳ４０２〜Ｓ４０４）の処理は、たとえば、図２に示した画像内位置算出部２０２によっておこなわれる。

ステップＳ４０４において、推定（算出）した地物の写り込み量が条件に合致しない場合、たとえば写り込み量が規定値未満の場合（ステップＳ４０４：Ｎｏ）は、当該画像２１１については何もせずに、一連の処理を終了する。これにより、画像２１１のうち、地物（対象物）が存在しない画像を排除し、地物（対象物）が存在する画像のみを抽出することができる。したがって、画像探索処理をより効率的かつ迅速におこなうことができる。

一方、ステップＳ４０４において、推定した地物の写り込み量が条件に合致する場合、たとえば写り込み量が規定値以上の場合（ステップＳ４０４：Ｙｅｓ）は、画像領域内にある２次元位置の画素群を含む画像領域を算出する（ステップＳ４０５）。このステップの処理は、たとえば、図２に示した領域特定部２０３によっておこなわれる。

その後、画像２１１から、ステップＳ４０４において算出された画像領域を切り出す（ステップＳ４０６）。このステップの処理は、たとえば、図２に示した領域出力部２０４によっておこなわれる。そして、一連の処理を終了する。

これらの一連の処理を、画像ごとに実行する。このようにして、情報処理装置２００は、任意の画像２１１から対象物（地物）の画像領域の切り出しを、対象物がどれだけ画像に写っているかを考慮しながら、自動でおこなうことができる。切り出された対象物（地物）の画像領域にかかる情報は、教師データとして保存することができる。以下、これらの一連の処理を実行する各構成部２０１〜２０５の具体的な内容について説明する。

（各構成部２０１〜２０５の具体的な内容）
図５は、各構成部および各情報の内容の一例を示す説明図である。図５においては、１つの画像（画像Ａ２１１）に対し、当該画像を撮影した撮影カメラの撮影位置・姿勢情報と対象物の３次元位置に関する３次元位置情報を用いて、画像上の対象物が写る領域を推定し、領域切り出しをおこなう例を示す。

図５において、各構成部は、画像入力部２０１、画像内位置算出部２０２、領域特定部２０３、領域出力部２０４、記憶部２０５からなる。また、各情報は、画像Ａ２１１、撮影位置・姿勢Ａａ２１２、カメラパラメータＡｐ２１３、対象物の３次元位置Ａｏ２１４、画像内位置結果Ａｒ５１１、位置情報Ａｉ５１２、領域画像Ａｂ５１３からなる。

（画像入力部２０１の処理内容）
図５において、画像入力部２０１は、任意の画像Ａ２１１を画像内位置算出部２０２に入力する。その際、画像Ａ２１１の撮影位置・姿勢Ａａ２１２および画像Ａ２１１を撮影したカメラのカメラパラメータＡｐ２１３が、画像内位置算出部２０２に入力される。画像入力部２０１は、具体的には、たとえば、図３に示した情報処理装置２００において、メモリ３０２に記憶されたプログラムをＣＰＵ３０１が実行することによって、あるいは、ネットワークＩ／Ｆ３０３、記録媒体Ｉ／Ｆ３０４によって、その機能を実現することができる。

（撮影位置・姿勢Ａａ２１２の内容）
撮影位置・姿勢Ａａ２１２は、画像Ａ２１１に対応する情報であり、たとえば、実座標上の３軸の位置情報と３次元ベクトル方向情報を持っている。図６は、撮影位置・姿勢Ａａのデータ構成の一例を示す説明図である。図６に示すように、撮影位置・姿勢Ａａ２１２は、「動画ＩＤ」、「フレーム番号」、「位置」、「姿勢」を含む各種情報を有している。

ここで、「動画ＩＤ」は、画像Ａ２１１が含まれる動画を識別する一意の識別情報であり、「フレーム番号」は、当該動画の中の画像Ａ２１１が存在するフレームの番号に関する情報である。この「動画ＩＤ」および「フレーム番号」によって、画像Ａ２１１を特定することができる。

「位置」は、撮影位置に関する実座標（世界座標）上の画像Ａ２１１の３軸の位置情報である。３軸の位置情報は、たとえば、緯度（ＰｏｓＸ）・経度（ＰｏｓＹ）・高さ（ＰｏｓＺ）によって示すことができる。「姿勢」は、撮影姿勢に関する３次元ベクトル方向に関する情報である。撮影姿勢に関する３次元ベクトル方向情報は、たとえば、回転を表す方法であるロール・ピッチ・ヨー（Ｒｏｌｌ・Ｐｉｔｃｈ・Ｙａｗ）によって示すことができる。

これらの画像Ａ２１１の３軸の位置情報および３次元ベクトル方向情報は、センサ（ＧＰＳなどの測位センサとＩＭＵなどの姿勢センサなど）から取得することができる。ＩＭＵは、運動を司る３軸の角度（または角速度）と加速度を検出する。ＩＭＵは、ＩＮＵ（ｉｎｅｒｔｉａｌｎａｖｉｇａｔｉｏｎｕｎｉｔ）、ＩＧＵ（ｉｎｅｒｔｉａｌｇｕｉｄａｎｃｅｕｎｉｔ）、ＩＲＵ（ｉｎｅｒｔｉａｌｒｅｆｅｒｅｎｃｅｕｎｉｔ）とも呼ばれる。

基本的には、３軸のジャイロと３方向の加速度計によって、３次元の角速度と加速度が求められる。信頼性向上のために圧力計、流量計、ＧＰＳなど別種類のセンサが搭載されるようにしてもよい。ＩＭＵは、通常は、搭載する移動体の重心に置くようにするとよい。

また、任意の画像処理手法、たとえば、上述したように、Ｖ−ＳＬＡＭによって取得するようにしてもよい。これにより、各画像特徴の空間内での位置（画像特徴点群マップ）と、各画像の撮影位置および姿勢を求めることができる。Ｖ−ＳＬＡＭとともにＧＰＳの位置座標を用いることで、実座標系での撮影位置・姿勢を算出し、算出した結果を撮影位置・姿勢Ａａ２１２として用いるようにしてもよい。

（カメラパラメータＡｐ２１３の内容）
カメラパラメータＡｐ２１３は、画像Ａ２１１を撮影したカメラの固有内部パラメータを表す情報である。図７は、カメラパラメータＡｐのデータ構成の一例を示す説明図である。図７に示すように、カメラパラメータＡｐ２１３は、「焦点距離」、「光学中心」、「歪み補正係数」を含む各種情報を有している。

「焦点距離」は、カメラの焦点距離に関する情報であり、ｆｘおよびｆｙによって示すことができる。また、「光学中心」は、レンズ面の光軸が通る位置に関する情報であり、中心座標（ｃｘ、ｃｙ）によって示すことができる。また、「歪み補正係数」は、カメラレンズの特性によって生じる歪みを補正する係数に関する情報であり、レンズの半径方向歪み係数（ｋ１、ｋ２）およびレンズの円周方向歪み係数（ｐ１〜ｐ３）によって示すことができる。

（記憶部２０５の内容・対象物の３次元位置Ａｏ２１４の内容）
また、図５に示すように、対象物の３次元位置Ａｏ２１４が、画像内位置算出部２０２に入力される。対象物の３次元位置Ａｏ２１４は、記憶部２０５に記憶されていてもよい。

対象物の３次元位置Ａｏ２１４は、抽出したい対象物の位置を１点以上の３次元代表位置で表す情報である。図８は、対象物の３次元位置Ａｏのデータ構成の一例を示す説明図である。図８に示すように、「対象物ＩＤ」は、対象物を識別する一意の識別情報であり、「対象物の種類」は、対象物の種類を示す情報である。

「対象物を表す点の数」は、対象物を表す点の数を示しており、たとえば、対象物の中心１点であってもよいし、対象物の外接する４点でもよい。また、「直角平面系番号」を有していてもよい。「実座標３次元」は、「対象物を表す点の数」が『４』なので、Ｐｏｓ［０］〜Ｐｏｓ［３］の４つの座標が、それぞれｘ、ｙ、ｚの３次元で示される。

対象物を表す点を、対象物の外接する座標４点としたが、それには限定されない。たとえば、対象物の中心１点であってもよいし、４点よりも少なくてもよいし、４点よりも多くてもよい。

対象物の３次元位置Ａｏ２１４における対象物の座標点は、図示を省略する地物ＤＢから取得するとよい。また、対象物の３次元位置Ａｏ２１４における対象物の座標点は、三角測量によって取得するようにしてもよい。三角測量は、カメラの撮影位置・姿勢と、複数画像に写る同一対象物の画像内位置とから、対象物の３次元位置を推定する手法である。

図９は、三角測量の処理内容を示す説明図である。図９に示すように、対象物は、カメラ位置と対象物の画像内位置とを結ぶ直線（対象物存在直線）上にあるため、カメラ１による画像１の対象物存在直線１と、カメラ２による画像２の対象物存在直線２との交点が、対象物の３次元位置となる。これを、対象物の３次元位置Ａｏ２１４とすることができる。

この三角測量において用いる撮影位置・姿勢に関する情報は、任意の既知の方法によって取得することができる。たとえば、撮影位置・姿勢Ａａ２１２と同様に、センサによって取得するようにしてもよいし、Ｖ−ＳＬＡＭなどの画像処理によって取得するようにしてもよい。

（画像内位置算出部２０２の処理内容・画像内位置結果Ａｒ５１１の内容）
つぎに、画像内位置算出部２０２の処理の内容について説明する。図５に示すように、画像内位置算出部２０２は、これらの、画像Ａ２１１の撮影位置・姿勢Ａａ２１２、画像Ａ２１１を撮影したカメラのカメラパラメータＡｐ２１３、および、対象物の３次元位置Ａｏ２１４に基づいて、対象物の各３次元座標点に対応する画像内位置（２次元位置）を算出する。続けて、画像内位置算出部２０２は、各２次元位置が画像Ａ２１１内に含まれるかを判定し、その判定結果から対象物が画像Ａ２１１内に写り込む量を算出し、画像内位置結果Ａｒ５１１として出力する。

画像内位置算出部２０２は、具体的には、たとえば、図３に示した情報処理装置２００において、メモリ３０２に記憶されたプログラムをＣＰＵ３０１が実行することによって、その機能を実現することができる。

画像内位置結果Ａｒ５１１は、対象物が画像Ａ２１１内に写り込む状態に関する情報であり、画像Ａ２１１についての画像内位置算出部２０２による算出結果に関する情報を持っている。図１０は、画像内位置結果Ａｒのデータ構成の一例を示す説明図である。図１０に示すように、画像内位置結果Ａｒ５１１は、「動画ＩＤ」、「フレーム番号」、「対象物ＩＤ」、「対象物の種類」、「画像内位置結果」を含む各種情報を有している。また、画像内位置Ａｒ５１１はさらに、「対象物を表す点の数」、「各点の画像内判定結果」、「各点の２次元位置」を有してもよい。

ここで、「動画ＩＤ」は、画像Ａ２１１が含まれる動画を識別する一意の識別情報であり、「フレーム番号」は、当該動画の中の画像Ａ２１１が存在するフレームの番号に関する情報である。これらは、図６に示した撮影位置・姿勢Ａａ２１２の「動画ＩＤ」および「フレーム番号」である。「対象物ＩＤ」は、対象物を識別する一意の識別情報であり、「対象物の種類」は、対象物の種類を示す情報であり、これらは、図８に示した対象物の３次元位置Ａｏ２１４の「対象物ＩＤ」および「対象物の種類」である。

「画像内位置結果」は、対象物が画像Ａ２１１内に写り込む量に関する情報である。たとえば、対象物の２次元位置群が画像Ａ２１１内に存在する割合であり、２次元位置群すべてが画像Ａ２１１内に存在する場合は、「画像内位置結果」が『１』となる。対象物の２次元位置群の一部が画像Ａ２１１内に存在する場合、たとえば対象物を表す４点の２次元位置群のうち、３つが画像Ａ２１１内に存在する場合は、「画像内位置結果」が『０．７５』となる。一方、対象物の２次元位置群がすべて画像Ａ２１１外に存在する（画像Ａ２１１内に存在しない）場合は、「画像内位置結果」が『０』となる。

「対象物を表す点の数」は、図８の対象物の３次元位置Ａｏ２１５の「対象物を表す点の数」と同じであり、対象物の地物特徴点数である。

「各点の画像内判定結果」は、対象物の各地物特徴点の３次元座標点、すなわち、図８の実座標３次元位置を保持する各代表点に相当する対象物の２次元位置群のそれぞれが、画像Ａ２１１内に存在するか否かの情報であり、「対象物を表す点の数」だけ保持し、図８の実座標３次元位置と同じ順番で保持する。２次元位置が画像Ａ２１１内に存在する場合は『１』となり、存在しない場合は『０』となる。「各点の画像内判定結果」は、「対象物を表す点の数」が『４』なので、ＲｅｓｕｌｔＰｏｓ［０］〜ＲｅｓｕｌｔＰｏｓＰｏｓ［３］の４つの『０』または『１』の値で示される。

「各点の２次元位置」は、対象物の各地物特徴点の画像内の２次元位置座標値であり、「対象物を表す点の数」だけ保持し、「各点の画像内判定結果」や図８の実座標３次元位置と同じ順番とする。「各点の２次元位置」は、「対象物を表す点の数」が『４』なので、２ＤＰｏｓ［０］〜２ＤＰｏｓ［３］の４つの座標が、それぞれｘ、ｙの２次元で示される。

なお、「画像内位置結果」は、対象物の２次元位置群が画像内に存在する割合ではなく、対象物が存在しない『０』、存在する『１』、の２つの選択肢のどちらかに判定した結果であってもよい。たとえば、対象物の２次元位置群の一部が画像内に存在する場合でも、対象物の２次元位置群全てが存在しない場合と同様と見なして、「画像内位置結果」を『０』としてもよい。この場合、各２次元位置群が画像内か否かの「各点の画像内判定結果」は、画像内位置結果Ａｒ５１１として保持せず、省略するようにしてもよい。

また、「画像内位置結果」は、厳密な画像内に存在する２次元位置群の割合ではなく、任意の階層値であってもよい。たとえば、割合の大小に従って４段階の値（０〜３、割合が０〜０．２５未満を０、０．２５以上０．５未満を１、０．５以上０．７５未満を２、０．７５以上を３とする、など）のいずれかを求めて、割合の代わりに用いてもよい。なお、割合を２段階の値にする場合は、前述した、割合を算出せずに対象物が存在しない『０』、存在する『１』、の２つの選択肢を求める場合と、実質的に同じになる。

また、対象物の地物特徴点が対象物の上部に多数存在する場合など、位置に偏りがある場合には、地物特徴点群の各２次元位置の画像領域内にある割合を求める際に、任意の重みを付けて算出し、数の少ない対象物の下部の特徴点が画像領域内にあるか否かを重視する割合値にしてもよい。あるいは、割合による条件に加えて、あるいは条件の代わりに、重視する特徴点、たとえば下部にある特徴点のＮ個以上が画像内に存在すること、という条件としてもよい。

さらに「画像内位置結果」は、対象物の地物特徴点の各２次元位置から求めた点、たとえば重心が、画像内に含まれるかを用いて算出してもよい。地物特徴点群の各２次元位置を用いて算出した重心位置が、画像内に含まれるかを判定し、含まれない＝『０』、含まれる＝『１』、の値とする。このとき、地物特徴点群の全２次元位置が画像内に含まれない場合は、重心位置も画像内に含まれないので、重心位置が画像内に含まれるか否かの算出処理を省略することができる。

また、「画像内位置結果」は、対象物の地物特徴の各２次元位置から求める画像内の対象物領域の面積と、その対象物領域が画像内に含まれる面積を求めて、面積比を用いてもよい。対象物領域の面積は、対象物の地物特徴の各２次元位置を頂点とする多角形の面積として求めることができる。対象物領域が画像内に含まれる面積は、概多角形の各辺と画面の左右上下端に相当する直線との交点を求めて、求めた交点と画面内に含まれる地物特徴の各２次元位置だけを頂点に用いた多角形の面積として算出することができる。たとえば、「画面内位置結果」は、（画面内に含まれる対象物領域の面積）÷（対象物領域の面積）として求めることができる。

画像内位置算出部２０２は、この「画像内位置結果」に関する情報に基づいて、画像Ａ２１１に対して以後の処理をおこなうか否かを判断する。すなわち、「画像内位置結果」が、画像内に含まれる２次元位置群の割合であり、０〜１の値である場合には、「画像内位置結果」があらかじめ決定しておいた規定値による条件（たとえば「画像内位置結果」の値範囲の中間である０．５以上）に合致する画像のみを用いることとし、「画像内位置結果」が規定値による条件に合致しない画像については、以後の処理に用いないようにし、処理対象となる画像を絞り込む。

なお、規定値は、図２の説明で前述したように、画像領域切り出しとして用いる画像Ａ２１１を、画像Ａ２１１内に写りこむ対象物の量で選定するための条件に用いる閾値であり、写りこむ量が大きい画像に限定したい場合は、「画像内位置結果」の値範囲の最大値に近い値（２次元位置群の割合の場合は、より１に近い値）を設定しておく。また、前述したように、規定値による条件に加えて、さらに付随する条件、たとえば、重視する特徴点の２次元位置が画像内にあるか否か、を加えるようにしてもよい。

つぎに、画像内位置算出部２０２の具体的な処理手順について説明する。図１１は、画像内位置算出部の一連の処理の手順の一例を示すフローチャートである。図１１のフローチャートにおいて、画像内位置算出部２０２は、画像Ａ２１１の撮影位置・姿勢Ａａを入力する（ステップＳ１１０１）とともに、画像Ａ２１１を撮影したカメラパラメータＡｐを入力する（ステップＳ１１０２）。また、画像内位置算出部２０２は、対象物の３次元位置Ａｏを入力する（ステップＳ１１０３）。

つぎに、画像内位置算出部２０２は、対象物の各地物特徴点群が写り込む２次元位置を、対象物の３次元の各座標点に対する２次元位置群として、撮影位置・姿勢Ａａによる「透視変換（処理方法）」を用いて算出する（ステップＳ１１０４）。そして、推定した各地物特徴点群の２次元位置が画像Ａ２１１内に存在するか否かから、対象物が画像Ａ２１１内に写り込む量を算出する（ステップＳ１１０５）。

さらに、画像内位置結果Ａｒ５１１として、画像内位置結果：画像Ａ２１１内に対象物が写り込む量（写り込む割合０〜１の値）、対象物を表す点の数：地物特徴点数、すなわち、対象物の特徴点数（２次元位置群の総数）、各点の画像内判定結果：各地物特徴点の２次元位置がそれぞれ画像Ａ２１１内にある（存在する）＝「１」か、ない（存在しない）＝「０」か、各点の２次元位置：各地物特徴点の２次元位置座標、を出力する（ステップＳ１１０６）。

つぎに、画像内位置算出部２０２は、画像内位置結果Ａｒ５１１の対象物が画像内に写り込む量である画像内位置結果が、あらかじめ設定してある規定値以上か否かを判定する（ステップＳ１１０７）。ここで、規定値以上の場合（ステップＳ１１０７：Ｙｅｓ）は、画像Ａ２１１を、以後の領域特定部以降の処理をおこなうものとして（ステップＳ１１０８）、画像内位置算出部２０２の一連の処理を終了する。

一方、規定値未満の場合（ステップＳ１１０７：Ｎｏ）は、画像Ａ２１１を、以後の領域特定部以降の処理をおこなわないものとして（ステップＳ１１０９）、画像内位置算出部２０２の一連の処理を終了する。この場合の画像内位置結果Ａｒ５１１（画像内位置結果：規定値未満の値）は、保管され、同じ対象物に対する別の探索に参照されるようにしてもよい。

ステップＳ１１０４における透視変換処理方法とは、３次元座標上の物体を２次面上に投影する変換処理に関する方法である。この透視変換処理方法により、複数カメラの撮像面の関係による、同一対象物が写る画像内位置を推定することが可能となる。透視変換処理は、具体的には、図１にも示したように、対象物の代表点の３次元位置と撮影位置を結んだ直線と撮影位置・姿勢とカメラパラメータ（焦点距離、光学中心）から推定する、カメラ撮像面との交点を求める。そして、その交点に相当する画像内の位置を２次元位置として算出するものである。

図１２は、透視変換の処理内容を示す説明図である。図１２において、物体Ｐは、実世界上の３次元座標位置を有する。具体的には、物体Ｐは、実座標原点０ｗに対して、座標軸Ｘｗ、Ｙｗ、Ｚｗの世界座標系における３次元座標点（Ｐｘｗ，Ｐｙｗ，Ｐｚｗ）を有する。透視変換はまず、世界座標系における３次元座標点（Ｐｘｗ，Ｐｙｗ，Ｐｚｗ）を、カメラの撮影位置・姿勢情報を用いてカメラ座標系の３次元座標点（Ｐｘｃ，Ｐｙｃ，Ｐｚｃ）に変換する。

ここで、カメラ座標系とは、画像を撮影した撮像装置（カメラ）の位置を原点Ｏｃとし、画像の横方向をＸｃ、縦方向をＹｃ、奥行き方向をＺｃとする座標系である。透視投影は具体的には、カメラ撮影位置を用いて実座標原点０ｗをカメラ原点Ｏｃに合わせる併進運動と、カメラ撮影姿勢を用いて世界座標系の各軸Ｘｗ，Ｙｗ，Ｚｗをカメラ座標系の各軸Ｘｃ，Ｙｃ，Ｚｃに変換する回転運動に相当する処理をおこなう。

つぎに、透視投影は、カメラの内部パラメータを用いて、カメラ座標系での実座標スケールでの座標値（たとえば［ｍ］など）を、画素単位のスケールでの座標値（［ｄｏｔ］）に変換するとともに、画像内２次元位置の原点定義（画像の原点Ｏ、たとえば画像の左上）に基づく座標値へと変換する。

具体的には、物体Ｐのカメラ座標系の３次元座標点（Ｐｘｃ，Ｐｙｃ，Ｐｚｃ）を、カメラ焦点距離によるスケール変換とカメラ原点が画像内に写りこんだ位置である画像中心位置による原点変更により、物体Ｐの位置にある画像上、すなわち画像座標系（原点Ｏ，各軸ｘ，ｙ，ｚ）での物体Ｐの画像内位置（Ｐｘ，Ｐｙ，Ｐｚ）を求め、さらに画像とカメラの距離に依らない正規化画像座標系（原点Ｏ’，各軸ｓ，ｔ）での物体Ｐの画像内位置（Ｐｓ＝Ｐｘ／Ｐｚ，Ｐｔ＝Ｐｙ／Ｐｚ）を求めることで、最終的な画像上の２次元画像内位置（Ｐｓ，Ｐｔ）を算出する。

これにより、物体Ｐの実世界上の３次元座標位置（Ｐｘｗ，Ｐｙｗ，Ｐｚｗ）を、画像座標点（Ｐｓ，Ｐｔ）に変換し、３次元座標上の物体Ｐを２次元の画面上に投影することができる。

透視投影で実世界上の３次元座標位置を画像座標点へ変換するには、下記式（１）〜（３）を用いる。

上記式（１）において、撮影位置・姿勢から求めた世界座標系からカメラ座標系への座標系変換行列である並進−回転の同次座標系変換行列として、ｒ１１，ｒ１２，ｒ１３，ｒ２１，ｒ２２，ｒ２３，ｒ３１，ｒ３２，ｒ３３は、回転成分を表しており、ｔ１，ｔ３，ｔ３は、並進移動成分を表している。また、（Ｘｗ，Ｙｗ，Ｚｗ）は世界座標系の３次元座標を表している。

この式（１）の並進移動成分（ｔ１〜ｔ３）によって、座標系原点を実座標原点Ｏｗからカメラの原点Ｏｃに合わせ、回転成分（ｒ１１〜ｒ３３）によって、世界座標系の座標軸定義Ｘｗ、Ｙｗ、Ｚｗによる３次元座標値をカメラ座標系の座標軸定義Ｘｃ，Ｙｃ，Ｚｃによる３次元座標値に変換することができる。

上記式（２）は、式（１）で求めたカメラ座標系の値を、カメラの内部パラメータ行列を用いて、物体Ｐの位置にカメラ撮像面（画像面）のある画像座標系の値へと変換する。
内部パラメータ行列のｆｘ，ｆｙは、図７に示したカメラパラメータＡｐ２１３の画像横方向と縦方向の焦点距離を表しており、後述するカメラ中心からの距離を１とする画像スクリーン上で、実スケールによる位置を画素位置へ変換する値である。

また、ｃｘ，ｃｙは、カメラパラメータＡｐ２１３の光学中心の横方向と縦方向の画素位置であり、画像内に写りこむカメラ原点Ｏｃの画像内位置を表している。光学中心は、画像内位置の座標原点定義に依存する値であり、図１２のように画像内位置を画像の左上を原点（画像の原点Ｏ）とする座標値で表す場合があるため、座標の原点定義を変更するために用いる。

式（２）は、内部パラメータ行列の焦点距離を用いたスケール変換（たとえば実スケール［ｍ］から画素［ｄｏｔ］への変換）と、光学中心を用いた原点定義変更（たとえばカメラ原点Ｏｃの画像座標系での投影位置に相当する画像中心から、画像左上の原点Ｏへの変更）により、カメラ座標系Ｘｃ，Ｙｃ，Ｚｃの３次元座標位置（Ｐｘｃ，Ｐｙｃ，Ｐｚｃ）を、物体Ｐの位置にある画像スクリーン上の画像、すなわち画像座標系の画像内位置（Ｐｘ，Ｐｙ，Ｐｚ）に変換する。

上記式（３）は、式（２）で求めた画像座標系の位置（Ｐｘ，Ｐｙ，Ｐｚ）を、一般的な３次座標変換を用いて２次元の正規化画像座標系での画像内位置へと変換し、最終的な画像内位置座標（Ｐｓ，Ｐｔ）を求める。具体的には、画像座標系の位置（Ｐｘ，Ｐｙ，Ｐｚ）は、カメラ中心から奥行方向にＰｚ離れた位置にある画像スクリーン上の画素位置であるため、距離Ｐｚ分だけ本来の画素位置よりも拡大した位置になっている。このため、ｆｘ、ｆｙが想定しているカメラ中心からの距離を１とする画像スクリーン上の画素位置へと、各座標成分をＰｚで除算して正規化変換し、最終的な画像内位置座標（Ｐｓ＝Ｐｘ／Ｐｚ，Ｐｔ＝Ｐｙ／Ｐｚ）を得る。

なお、式（２）〜（３）は一例であり、カメラ内部パラメータの焦点距離ｆｘ、ｆｙやカメラ光学中心ｃｘ、ｃｙの定義が異なる場合は、それらの定義に合わせて、適宜式（２）〜（３）を変更してもよい。

式（２）では、省略するが、さらに、歪み補正係数を考慮するようにしてもよい。歪み補正係数は、カメラパラメータＡｐ２１３に、焦点距離、光学中心とともに記憶されている。

このようにして、対象物の３次元位置Ａｏから、撮影位置・姿勢Ａａ２１２、カメラパラメータＡｐ２１３を用いて、透視変換処理をすることにより、対象物が画像内に写り込む２次元群を算出することができる。

（領域特定部２０３の処理内容・位置情報Ａｉ５１２の内容）
つぎに、領域特定部２０３の具体的な内容について説明する。図５に示すように、領域特定部２０３は、画像内位置算出部２０２によって領域特定部２０３以後の処理をおこなうと判定済みの画像Ａ２１１に対して、出力された画像内位置結果Ａｒ５１１を入力し、画像Ａから切り出す画像内領域を算出する。そして、領域特定部２０３は、算出した結果として、位置情報Ａｉ５１２を出力する。

領域特定部２０３は、具体的には、たとえば、図３に示した情報処理装置２００において、メモリ３０２に記憶されたプログラムをＣＰＵ３０１が実行することによって、その機能を実現することができる。

領域特定部２０３は、たとえば、画像内位置結果Ａｒ５１１を参照し、推定した画像への写り込み量から画像内にあると判断された対象物の各２次元位置群に対し、概２次元位置群の外接矩形を画像内領域として算出し、矩形を定義する位置情報Ａｉ５１２を出力する。位置情報Ａｉは、たとえば、矩形の左上、右下の２次元の画像内位置などであってもよい。

なお、画像内領域としては、矩形でなくてもよく、任意の直線または曲線による図形、たとえば多角形や、楕円や曲線図形でよい。２次元位置群を結んだ多角形でもよいし、２次元位置群を内包する楕円でもよい。また、画像内領域は２次元位置群の厳密な外接図形ではなく、外接図形より小さな図形でもよいし、外接図形よりも大きな図形であっても構わない。

図１３は、位置情報Ａｉのデータ構成の一例を示す説明図である。図１３において、位置情報Ａｉ５１２は、「動画ＩＤ」、「フレーム番号」、「対象物ＩＤ」、「対象物の種類」、「対象物を表す点の数」、「画像内位置座標」を含む各種情報を有している。「動画ＩＤ」は、画像Ａ２１１が含まれる動画を識別する一意の識別情報であり、「フレーム番号」は、当該動画の中の画像Ａ２１１が存在するフレームの番号に関する情報である。これらは、図６に示した撮影位置・姿勢Ａａ２１２、図１０に示した画像内位置結果Ａｒ５１１の「動画ＩＤ」および「フレーム番号」である。

「対象物ＩＤ」は、対象物を識別する一意の識別情報であり、「対象物の種類」は、対象物の種類を示す情報であり、これらは、図８に示した対象物の３次元位置Ａｏ２１４の「対象物ＩＤ」および「対象物の種類」である。

「対象物を表す点の数」は、対象物、より具体的には、対象物が含まれる切り出す画像を表す点の数であり、図８に示した対象物の３次元位置Ａｏと同数であってもよく、異なる数であってもよい。また、図１０に示した対象物の画像内にあると判定された２次元位置群の数と同じであってもよく、異なる数であってもよい。

一般的には、切り出された画像は、矩形により管理されるため、「対象物を表す点の数」は、４点とするのが好ましい。しかしながら、対象物の形状などによって、『４』には限定されるものではない。「画像内位置座標」は、「対象物を表す点の数」が『４』なので、Ｐｏｓ［０］〜Ｐｏｓ［３］の４つの座標が、それぞれｘ、ｙの２次元で示される。

図１４は、領域特定部の一連の処理の手順の一例を示すフローチャートである。図１４のフローチャートにおいて、領域特定部２０３は、まず、画像内位置算出部２０２によって出力された画像内位置結果Ａｒ（画像内位置結果：「１」）５１１を入力する（ステップＳ１４０１）。

そして、対象物の全代表点のうち、画像Ａ２１１内にあると画像内位置算出部２０２で判定された代表点の２次元位置群に対し、外接矩形を画像内領域として定義し、画像内位置座標を特定する（ステップＳ１４０２）。その後、位置情報Ａｉ（画像内位置座標）を作成し、その後、その位置情報Ａｉ５１２を出力する（ステップＳ１４０３）。それにより、領域特定部２０３の一連の処理を終了する。

（領域出力部２０４の処理内容・領域画像Ａｂの内容）
つぎに、領域出力部２０４の具体的な内容について説明する。図５に示すように、領域出力部２０４は、領域特定部２０３によって出力された位置情報Ａｉ５１２を入力し、領域画像Ａｂ５１３を出力する。領域出力部２０４は、具体的には、たとえば、図３に示した情報処理装置２００において、メモリ３０２に記憶されたプログラムをＣＰＵ３０１が実行することによって、あるいは、ネットワークＩ／Ｆ３０３、記録媒体Ｉ／Ｆ３０４によって、その機能を実現することができる。

図１５は、領域画像Ａｂのデータ構成の一例を示す説明図である。図１５において、領域画像Ａｂ５１３は、「動画ＩＤ」、「フレーム番号」、「対象物ＩＤ」、「対象物の種類」、「保存先」、「ファイル名」を含む各種情報を有している。「動画ＩＤ」は、画像Ａ２１１が含まれる動画を識別する一意の識別情報であり、「フレーム番号」は、当該動画の中の画像Ａ２１１が存在するフレームの番号に関する情報である。これらは、図６に示した撮影位置・姿勢Ａａ２１２、図１０に示した画像内位置結果Ａｒ５１１の「動画ＩＤ」および「フレーム番号」である。

「対象物ＩＤ」は、対象物を識別する一意の識別情報であり、「対象物の種類」は、対象物の種類を示す情報であり、これらは、図８，図１３に示した対象物の３次元位置Ａｏ２１４、位置情報Ａｉ５１２の「対象物ＩＤ」および「対象物の種類」である。「保存先」は、切り出された領域画像が保存されるフォルダに関する情報であり、「ファイル名」は、切り出された領域画像のファイル名に関する情報である。

図１６は、切り出された領域画像の一例を示す説明図である。図１６に示すように、切り出された領域画像１６０１は、地物の一例である、制限速度が５０ｋｍ／ｈであることを示す道路標識である。この領域画像１６０１は、たとえば、ビットマップ、Ｊｐｅｇなどの所定のフォーマットにより、データとして保存される。

地物は、具体的には、標識、信号機、ガードレールのほか、道路の縁石、白線、横断歩道、停止線、路面ペイント（文字に加えて矢印などの標示物）などであってもよい。また、地下鉄、交番、任意店舗・設備などに対する看板、踏切、歩道橋、料金所、道路鋲、ゼブラゾーン、ポールなどの道路付帯施設であってもよい。

また、電柱、バス停、電話・郵便ボックス、タクシー乗り場表示、自動販売機などであってもよい。また、側溝、マンホール、クッションドラムなどであってもよい。さらには、バリケード、パイロン、駐車スペース（路面標示枠）、駐車場の料金支払い機、ゴミ収集ボックス、消火栓、任意店舗のショウウィンドウ、街路樹、などであってもよい。

このように、地物は、撮影画像に写り込むことが可能で、かつ、その３次元位置が取得できる物体であれば、切り取りの対象とすることができる。

図１７は、領域出力部の一連の処理の手順の一例を示すフローチャートである。図１７のフローチャートにおいて、領域出力部２０４は、領域特定部２０３によって出力された位置情報Ａｉ５１２を入力する（ステップＳ１７０１）。つぎに、領域出力部２０４は、位置情報Ａｉ５１２に相当する領域画像Ａｂを切り出す（ステップＳ１７０２）。具体的には、図１３に示した位置情報Ａｉ５１２の画像内位置座標に基づいて、領域画像を切り出す。そして、切り出した領域画像について、図１５に示した領域画像Ａｂ５１３のファイルを作成する。

その後、領域出力部２０４は、領域画像Ａｂ５１３を出力する（ステップＳ１７０３）。具体的には、領域画像Ａｂ５１３のファイルを、図３に示した記録媒体３０５に記録する、あるいは、ネットワーク３１０を介して、他の情報処理装置へ出力する。それによって、切り出した領域画像Ａｂを、領域画像１６０１とともに、所定の記憶領域に蓄積することができ、機械学習（ディープラーニング）用の教師データとして活用に供することができる。

以上説明したように、本実施の形態にかかる情報処理装置２００によれば、画像から対象物の領域を切り出すにあたり、対象物の３次元位置に関する３次元位置情報を記憶した記憶部を参照し、画像の撮影位置および姿勢に関する情報を用いて、３次元位置に関する３次元位置情報から、画像における対象物の領域を算出することができる。

これにより、算出して切り出した画像領域を機械学習用の教師データとすることで、人手を使わずに、自動で任意画像または映像からの対象物が写る画像領域の画像切り出しを実現することができる。このように、任意シーンを使った十分な機械学習用の教師データ収集が可能となり、収集した機械学習用の教師データを活用した学習ができるようになる。

また、本実施の形態にかかる情報処理装置２００によれば、画像は、撮像装置によって撮影された画像であってもよく、撮像装置によって移動しながら撮影された画像であってもよい。これにより、容易に大量の機械学習用の教師データにかかる画像を取得することができる。

また、本実施の形態にかかる情報処理装置２００によれば、画像の撮影位置および姿勢に関する情報および撮像装置のパラメータに関する情報を用いて、画像における前記対象物の領域を算出することができる。これにより、より正確な対象物の領域を算出することができる。

また、本実施の形態にかかる情報処理装置２００によれば、透視変換処理により、画像における対象物の領域を算出することができる。これにより、対象物の３次元位置に関する３次元位置情報から、対象物が画像内に写り込む２次元位置を含む領域を迅速に算出することができる。

また、本実施の形態にかかる情報処理装置２００によれば、対象物が画像内に写り込む量を算出して、写り込む量から対象物が画像内に存在するか否かを判断し、判断の結果、対象物が前記画像内に存在する場合に、画像における対象物の領域を算出することができる。これにより、対象物が写っていない、または、ごく一部しか写っていない画像を避けて画像を探索することができ、対象物が写っている画像のみにその後の画像切り出し処理をおこなえばよく、機械学習用の教師データを効率的に収集することができる。

また、本実施の形態にかかる情報処理装置２００によれば、画像における対象物の領域の算出結果に基づいて、対象物の画像を切り出すことができる。これにより、画像の切り出し処理を自動的におこなうことができる。

また、本実施の形態にかかる情報処理装置２００によれば、画像の撮影位置および姿勢に関する情報は、画像を用いたＶ−ＳＬＡＭによって取得することができる。これにより、画像の撮影位置および姿勢に関する情報を効率よく抽出することができる。

また、本実施の形態にかかる情報処理装置２００によれば、３次元位置に関する３次元位置情報は、三角測量を用いて決定することができる。これにより、より簡易に３次元位置に関する３次元位置情報を取得することができる。

また、本実施の形態にかかる情報処理装置２００によれば、対象物は、画像に表示される地物であってもよい。これにより、地物を機械学習用の教師データとして活用することができる。

また、本実施の形態にかかる情報処理装置２００によれば、撮像装置は、移動体に搭載されたカメラであってもよい。これにより、移動しながら撮影された画像から対象物（地物）の機械学習用の教師データを取得することができる。

なお、本実施の形態で説明した領域切り出し方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。プログラム配信プログラムは、ハードディスク、フレキシブルディスク、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）−ＲＯＭ、ＭＯ（Ｍａｇｎｅｔｏ−ＯｐｔｉｃａｌＤｉｓｋ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、領域切り出しプログラムは、インターネットなどのネットワークを介して配布してもよい。

また、本実施の形態で説明した情報処理装置２００は、スタンダードセルやストラクチャードＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などの特定用途向けＩＣやＦＰＧＡなどのＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）によっても実現することができる。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）画像から対象物の領域を切り出す領域切り出し方法であって、
情報処理装置が、
前記対象物の３次元位置情報を記憶した記憶部を参照し、
前記画像の撮影位置および姿勢に関する情報を用いて、前記３次元位置情報から、前記画像における前記対象物の領域を算出する、
ことを特徴とする領域切り出し方法。

（付記２）前記画像は、撮像装置によって撮影された画像であることを特徴とする付記１に記載の領域切り出し方法。

（付記３）前記画像は、前記撮像装置によって移動しながら撮影された画像であることを特徴とする付記２に記載の領域切り出し方法。

（付記４）前記画像の撮影位置および姿勢に関する情報および前記撮像装置のパラメータに関する情報を用いて、前記画像における前記対象物の領域を算出することを特徴とする付記２または３に記載の領域切り出し方法。

（付記５）透視変換処理により、前記画像における前記対象物の領域を算出することを特徴とする付記１〜４のいずれか一つに記載の領域切り出し方法。

（付記６）前記対象物が前記画像内に存在するかを判断し、
前記判断の結果、前記対象物が前記画像内に存在する場合に、当該画像における当該対象物の領域を算出することを特徴とする付記１〜５のいずれか一つに記載の領域切り出し方法。

（付記７）前記画像における前記対象物の領域の算出結果に基づいて、当該対象物の画像を切り出すことを特徴とする付記１〜６のいずれか一つに記載の領域切り出し方法。

（付記８）前記画像の撮影位置および姿勢に関する情報は、当該画像を用いたＶ−ＳＬＡＭによって取得することを特徴とする付記１〜７のいずれか一つに記載の領域切り出し方法。

（付記９）前記３次元位置情報は、三角測量を用いて決定することを特徴とする付記１〜８のいずれか一つに記載の領域切り出し方法。

（付記１０）前記対象物は、前記画像に表示される地物であること特徴とする付記１〜９のいずれか一つに記載の領域切り出し方法。

（付記１１）前記撮像装置は、移動体に搭載されたカメラであることを特徴とする付記２〜４のいずれか一つに記載の領域切り出し方法。

（付記１２）画像から対象物の領域を切り出す領域切り出しプログラムであって、
情報処理装置に、
前記対象物の３次元位置情報を記憶した記憶部を参照し、
前記画像の撮影位置および姿勢に関する情報を用いて、前記３次元位置情報から、前記画像における前記対象物の領域を算出する、
処理を実行させることを特徴とする領域切り出しプログラム。

１００カメラ
１０１カメラ撮像面
１０２地物（標識）の３次元位置
１０３対物存在直線
１０４地物（対象物）の画像内位置
１０５地物画像（機械学習用の教師データ）
２００情報処理装置（サーバ）
２０１画像入力部
２０２画像内位置算出部
２０３領域特定部
２０４領域出力部
２０５記憶部
２１１画像（画像Ａ）
２１２撮影位置・姿勢（撮影位置・姿勢Ａａ）
２１３カメラパラメータ（カメラパラメータＡｐ）
２１４対象物の３次元位置（対象物の３次元位置Ａｏ）
５１１画像内位置結果（画像内位置結果Ａｒ）
５１２位置情報（位置情報Ａｉ）
５１３、１６０１領域画像（領域画像Ａｂ）

Claims

画像から対象物の領域を切り出す領域切り出し方法であって、
情報処理装置が、
前記対象物の３次元位置情報を記憶した記憶部を参照し、
前記画像の撮影位置および姿勢に関する情報を用いて、前記３次元位置情報から、前記画像における前記対象物の領域を算出する、
ことを特徴とする領域切り出し方法。
前記画像は、撮像装置によって撮影された画像であることを特徴とする請求項１に記載の領域切り出し方法。
前記画像は、前記撮像装置によって移動しながら撮影された画像であることを特徴とする請求項２に記載の領域切り出し方法。
前記画像の撮影位置および姿勢に関する情報および前記撮像装置のパラメータに関する情報を用いて、前記画像における前記対象物の領域を算出することを特徴とする請求項２または３に記載の領域切り出し方法。
透視変換処理により、前記画像における前記対象物の領域を算出することを特徴とする請求項１〜４のいずれか一つに記載の領域切り出し方法。
前記対象物が前記画像内に存在するかを判断し、
前記判断の結果、前記対象物が前記画像内に存在する場合に、当該画像における当該対象物の領域を算出することを特徴とする請求項１〜５のいずれか一つに記載の領域切り出し方法。
前記画像における前記対象物の領域の算出結果に基づいて、当該対象物の画像を切り出すことを特徴とする請求項１〜６のいずれか一つに記載の領域切り出し方法。
前記画像の撮影位置および姿勢に関する情報は、当該画像を用いたＶ−ＳＬＡＭによって取得することを特徴とする請求項１〜７のいずれか一つに記載の領域切り出し方法。
前記３次元位置情報は、三角測量を用いて決定することを特徴とする請求項１〜８のいずれか一つに記載の領域切り出し方法。
画像から対象物の領域を切り出す領域切り出しプログラムであって、
情報処理装置に、
前記対象物の３次元位置情報を記憶した記憶部を参照し、
前記画像の撮影位置および姿勢に関する情報を用いて、前記３次元位置情報から、前記画像における前記対象物の領域を算出する、
処理を実行させることを特徴とする領域切り出しプログラム。