JP6688970B2

JP6688970B2 - 画像認識システム

Info

Publication number: JP6688970B2
Application number: JP2016140341A
Authority: JP
Inventors: 敦志高畑
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-07-15
Filing date: 2016-07-15
Publication date: 2020-04-28
Anticipated expiration: 2036-07-15
Also published as: US20190114799A1; JP2018010568A; WO2018012084A1; EP3428878A1; US10853964B2; EP3428878A4

Description

本発明は、画像認識システムに関する。

近年、自動運転車や工場の完全自動化などに必要不可欠であるロボット等の機械に搭載され、機械が必要とする物体（認識対象）を認識するための画像認識システムが普及しつつある。そのような画像認識システムについて、認識対象を認識するための数々の画像認識アルゴリズムが開発・研究されている（特許文献１、非特許文献１参照）。

特開２００２−２０３２４０号公報

「画像パターン認識・マシンビジョンの基礎」福岡システムLSIカレッジ

図１２Ａは、従来の画像認識システムを搭載した車両２００２の一例を示す。画像認識システムは、歩行者や他車両等の認識対象を認識するための画像認識アルゴリズムを実装する。車両２００２は、車載カメラ２００１とカメラからの入力を処理するElectronic control unit（ＥＣＵ）２００３を備える。車載カメラ２００１とＥＣＵ２００３は、相互通信路２００４を介して画像データや制御信号を送受信する。

図１２Ｂは、従来の画像認識システムの一例である画像認識システム２０００の構成図である。車載カメラ２００１とＥＣＵ２００３とは、物理的に離れた位置に配置される。車載カメラ２００１が撮影した画像を、車載カメラ２００１の筐体の中の第１の画像処理部２０１０が画像処理する。次いで、ＥＣＵ２００３は、画像処理の結果を、相互通信路２００４を介して車載カメラ２００１から入力する。次いで、ＥＣＵ２００３が備える認識対象検出部２００６が認識対象を検出し、認識対象識別部２００７が辞書２００５を参照しながら認識対象を識別することにより、認識対象が認識される。画像認識システム２０００においては、画像認識処理は、ＥＣＵ２００３により行われる。

図１２Ｃは、従来の画像認識システムの他の一例である画像認識システム２０００’の構成図である。車載カメラ２００１’とＥＣＵ２００３’とは、物理的に離れた位置に配置される。車載カメラ２００１’が撮影した画像を、車載カメラ２００１’が備える第１の画像処理部２０１０が画像処理する。次いで、車載カメラ２００１’が備える認識対象検出部２００６が認識対象を検出し、車載カメラ２００１’が備える認識対象識別部２００７が辞書２００５を参照しながら認識対象を識別することにより、認識対象が認識される。次いで、ＥＣＵ２００３’は、認識された認識対象の情報を画像データとともに、相互通信路２００４を介して車載カメラ２００１’から入力する。必要に応じて、ＥＣＵ２００３’の筐体の中が備える第２の画像処理部２０４０が、画像データを画像処理する。画像認識システム２０００’においては、画像認識処理は、車載カメラ２００１’により行われる。

図１３は、コンピュータの動作周波数と認識対象の認識率との関係を示すグラフである。図１３に示されるように、画像認識処理においては、一般にコンピュータの動作周波数を上げることによりコンピュータの処理性能が上がるので、認識対象の認識率を上げることができる。しかしながら、動作周波数の上昇に応じて、動作に伴う発熱量も増加する。コンピュータの動作周波数がある臨界点に達すると、動作に伴う発熱を十分に排出できないという問題が発生する。それに伴い、車載カメラまたはＥＣＵの筐体内に画像認識処理手段を実装する際に、筐体の熱設計が困難になり、車載カメラまたはＥＣＵの筐体への搭載が困難になる問題が発生する。

言い換えると、高い認識率を必要とする画像認識処理をカメラまたはＥＣＵに集約させると、画像認識処理に必要な動作周波数や、画像認識処理に必要なメモリ量等が増加する。それに伴い、画像認識処理手段を車載カメラもしくはＥＣＵのいずれか一方の筐体内に実装しようとする場合に、筐体の熱設計や物理的な配置が困難となる問題が発生する。

本開示の目的は、筐体の熱設計や物理的な配置を容易にする画像認識システムを提供することである。

本開示に係る画像認識システムは、画像データから認識対象を検出する第１のコンピュータと、前記第１のコンピュータが検出した認識対象の識別を行う第２のコンピュータと、を備え、前記第１のコンピュータと前記第２のコンピュータとは、物理的に分離されて配置され、前記第１のコンピュータが前記第２のコンピュータに画像データを送信する時に、前記画像データの画像認識処理に用いられ、動的に変更される認識パラメータ群のうち、前記検出に用いる検出パラメータ群を、前記第２のコンピュータが通信路を介して前記第１のコンピュータに送信する、構成を採る。

本開示によれば、筐体の熱設計や物理的な配置を容易にする画像認識システムを提供することができる。

第１の実施の形態に係る画像認識システムの構成を示す図である。全二重通信方式で実現する通信路の一例を示す。全二重通信方式で実現する通信路の他の一例を示す。半二重通信方式で実現する通信路の一例を示す。第１の実施の形態に係る画像認識システムの処理を示すフローチャートである。画像認識処理における認識対象の検出処理の一例を説明する図である。画像認識処理における認識対象の識別処理の一例を説明する図である。画像認識システムの認識対象を含む画像の一例を示す。検出パラメータ群を用いた検出領域の設定の一例を示す。検出パラメータ群の一例を示す。認識対象の特徴点の一例を示す。第１のコンピュータと第２のコンピュータの間の通信フローを示す図である。第１の実施の形態に係る画像認識システムの画像認識処理の説明図である。認識対象の認識率と搭載メモリサイズとの関係を表すグラフである。ディープラーニングに用いられるニューラルネットワークの一例を示す。第３の実施の形態に係る画像認識システムを示す。第４の実施の形態に係る画像認識システムを示す。第５の実施の形態に係る画像認識システムを示す。従来の画像認識システムを搭載した車両の一例を示す。従来の画像認識システムの一例の構成図である。従来の画像認識システムの他の一例の構成図である。コンピュータの動作周波数と認識対象の認識率との関係を示すグラフである。

（第１の実施の形態）
図１は、第１の実施の形態に係る画像認識システム１００の構成を示す図である。画像認識システム１００は、第１のコンピュータ１０１と、第２のコンピュータ１０２と、通信路１１１と、を備える。第１のコンピュータ１０１は、例えば車載カメラである。第２のコンピュータ１０２は、例えばＥＣＵである。

第１のコンピュータ１０１は、第２のコンピュータ１０２から物理的に離れた位置に存在する。第１のコンピュータ１０１および第２のコンピュータ１０２は、例えば、別体の筐体内に存在するが、同一の筐体内に存在してもよい。

通信路１１１は、第１のコンピュータ１０１および第２のコンピュータ１０２を通信可能に接続する。通信路１１１を介する通信は、例えば有線通信であるが、無線通信であってもよい。

第１のコンピュータ１０１は、認識対象検出部１０３と、第１の送信部１０５と、第１の受信部１０７と、第１の制御部１０９と、カメラ１１５と、を備える。

認識対象検出部１０３は、カメラ１１５が撮影した画像から、認識対象を検出する。一例において、認識対象検出部１０３は、後述するニューラルネットワークを用いて、認識対象を検出する。

第１の送信部１０５は、第２のコンピュータ１０２にデータを送信する。一例として、送信されるデータは、画像データおよび画像に含まれる認識対象に関する特徴点のデータを含む。第１の受信部１０７は、第２のコンピュータ１０２からデータを受信する。一例として、受信されるデータは、画像認識処理に用いられる認識パラメータ群のうち、画像からの認識対象の検出に用いられるパラメータからなる、検出パラメータ群を含む。

第１の制御部１０９は、第１の送信部１０５、第１の受信部１０７、およびカメラ１１５の動作を制御する。認識対象検出部１０３と、第１の送信部１０５と、第１の受信部１０７と、第１の制御部１０９とは、例えば、それぞれが第１のコンピュータ１０１の構成要件であるハードウェアによって実現されてもよいし、第１のコンピュータ１０１によって実行されるプログラムによって実現してもよい。

第２のコンピュータ１０２は、認識対象識別部１０４と、第２の送信部１０６と、第２の受信部１０８と、第２の制御部１１０と、記憶部１２０と、を備える。

認識対象識別部１０４は、カメラ１１５が撮影した画像から、認識対象を識別する。一例において、認識対象識別部１０４は、カメラ１１５が撮影した画像のデータであって、通信路１１１を介して受信した画像データと、認識対象検出部１０３が検出した、画像に含まれる認識対象に関する特徴点のデータである特徴点データ等の情報に基づき、画像に含まれる認識対象を識別する。一例において、認識対象識別部１０４は、後述するニューラルネットワークを用いて、認識対象を識別する。

第２の送信部１０６は、第１のコンピュータ１０１に、データを送信する。一例として、送信されるデータは、検出パラメータ群を含む。第２の受信部１０８は、第１のコンピュータ１０１からデータを受信する。一例として、受信されるデータは、認識対象に関する特徴点のデータを含む。

第２の制御部１１０は、認識対象識別部１０４、第２の送信部１０６、第２の受信部１０８、および記憶部１２０の動作を制御する。認識対象識別部１０４と、第２の送信部１０６と、第２の受信部１０８と、第２の制御部１１０とは、例えば、それぞれが第２のコンピュータ１０２の構成要件であるハードウェアによって実現されてもよいし、第２のコンピュータ１０２によって実行されるプログラムによって実現してもよい。

記憶部１２０は、認識対象の識別に必要な情報を辞書として記憶する。例えば、記憶部１２０は、図３Ｃを参照して後述する辞書１００６を記憶する。

図２Ａは、全二重通信方式で実現する通信路１１１の一例を示す。第１のコンピュータ１０１の第１の送信部１０５は、第２のコンピュータ１０２の第２の受信部１０８に接続される。第１のコンピュータ１０１の第１の受信部１０７は、第２のコンピュータ１０２の第２の送信部１０６に接続される。この場合、接続は二系統となるが、第１のコンピュータ１０１および第２のコンピュータ１０２は、それぞれ送信および受信を同時に行うことができる。

図２Ｂは、全二重通信方式で実現する通信路１１１の他の一例を示す。第１のモデム３０２３は、第１の送信部１０５と、第１の受信部１０７と、第２のモデム３０２４に接続される。第２のモデム３０２４は、第２の送信部１０６と、第２の受信部１０８と、第１のモデム３０２３に接続される。第１のモデム３０２３は、例えば第１のコンピュータ１０１の筐体の内部に設けられ、第２のモデム３０２４は、例えば第２のコンピュータ１０２の筐体の内部に設けられる。

第１のモデム３０２３および第２のモデム３０２４の間の通信は、例えば周波数分割を行うことにより、一系統のバス上で、双方向の通信信号を同時に転送することができる。したがって、第１のコンピュータ１０１は、例えば送信３０２７と、受信３０２８とを同時に行うことができる。

図２Ｃは、半二重通信方式で実現する通信路１１１の一例を示す。第１のスイッチ３００３は、第２のスイッチ３００４に接続され、第２のスイッチ３００４の接続先を第１の送信部１０５と第１の受信部１０７との間で切り替える。第２のスイッチ３００４は、第１のスイッチ３００３に接続され、第１のスイッチ３００３の接続先を第２の送信部１０６と第２の受信部１０８との間で切り替える。第１のスイッチ３００３は、例えば第１のコンピュータ１０１の筐体の内部に設けられ、第２のスイッチ３００４は、例えば第２のコンピュータ１０２の筐体の内部に設けられる。

第１のコンピュータ１０１からデータを送信する場合、第１のスイッチ３００３は接続先を第１の送信部１０５に切り替え、第２のスイッチ３００４は接続先を第２の受信部１０８に切り替える。第２のコンピュータ１０２からデータを送信する場合、第１のスイッチ３００３は接続先を第１の受信部１０７に切り替え、第２のスイッチ３００４は接続先を第２の送信部１０６に切り替える。

このように、半二重通信方式においては、一系統のバスを使って送信と受信とを切り替えて通信を行うことが可能であり、送信と受信とを同時に行うことは不可能であるが、半二重通信方式に必要な通信路１１１のリソースは、全二重方式の場合と比較して小さい。

第１のコンピュータ１０１と第２のコンピュータ１０２は、双方向の通信が可能である通信路１１１により接続されている。この通信路１１１の通信方式は、例えば全二重通信方式である。この場合、画像認識システム１００を、リアルタイム処理に対応させることがより容易となる。

図３Ａは、第１の実施の形態に係る画像認識システム１００の処理を示すフローチャートである。まず、学習データを学習する（Ｓ１１００）。学習データの学習は、一例において、第１のコンピュータ１０１および第２のコンピュータ１０２のいずれとも異なるコンピュータによって行われる。なお、これに代えて、学習データの学習は、第２のコンピュータ１０２によって行われてもよい。学習データは、例えば認識対象が含まれる画像から得られる、認識対象を特徴付ける特徴ベクトルである。

学習によって生成されるデータは、一般に辞書データと呼ばれる。辞書データは、認識対象（例えば、歩行者、他車両、障害物等）の種類数等に応じてそのデータ量が増える傾向があり、辞書データを保存する搭載メモリ量も増える傾向がある。

次いで、第２のコンピュータ１０２は、学習の結果を辞書として記憶部１２０に格納する（Ｓ１２００）。

ステップＳ１１００およびステップＳ１２００は、辞書データ作成時間１００１にて予め行われる。後続のステップＳ１３００からＳ１５００を、カメラ等で撮影された画像に対して、所定の時間である識別時間１００２内に実行（好ましくはリアルタイム実行）するためである。

次いで、識別時間１００２において、認識対象検出部１０４が、カメラによって撮影された画像から、認識対象を検出し（Ｓ１３００）、認識対象識別部１０４が辞書から識別パラメータを入力し（Ｓ１４００）、認識対象識別部１０４が認識対象を識別する（Ｓ１５００）。

図３Ｂは、画像認識処理における認識対象の検出処理の一例を説明する図である。図３Ｃは、画像認識処理における認識対象の識別処理の一例を説明する図である。図３Ｂおよび図３Ｃを参照して、簡単のために、文字認識を例にとって、画像認識処理の内容を説明するが、本開示に係る画像認識システムの認識対象が文字に限られないことは言うまでもない。

例えば、手書きの文字であれば、同じ文字であっても、書き手によって様々な形状を呈する。そこで、辞書データ作成時間１００１において、辞書データ作成部１００５は、同じ文字（例えばアルファベットの「Ａ」）を表す様々な形状を入力し、特徴ベクトルを生成し、学習することにより、その文字（例えばアルファベットの「Ａ」）が有する特徴を学習する。次いで、学習によって生成される辞書データを、辞書１００６に追加することにより辞書１００６を作成する。辞書１００６に追加された辞書データは、アルファベットの「Ａ」であるか否かを識別する際に、画像認識システム１００の認識対象識別部１０４によって参照される。

辞書データ作成時間１００１が終了した後に、画像識別時間１００２において、第１のコンピュータ１０１の認識対象検出部１０３が認識対象を検出する。カメラから入力された画像において、検出すべき領域が探索される。例えば、探索領域１０５０を移動させながら、検出対象の文字（例えばアルファベットの「Ａ」）を探索し、検出対象の文字を含む探索領域の画像データ１０６０を抽出する。

抽出された画像データ１０６０は、例えば、回転および拡大縮小されている文字を認識できるようにするため、正規化処理が行われ、正規化された画像データ１０６２が生成される。

次いで、正規化された画像データ１０６２から、画像データ１０６２に含まれる検出対象の文字（例えばアルファベットの「Ａ」）を特徴づける特徴ベクトル１００７が抽出されることにより、検出対象の文字が検出される。特徴ベクトル１００７を含む二次元画像の特徴量の抽出の際に、例えば、局所領域 (セル) の輝度の勾配方向をヒストグラム化したHistograms of Oriented Gradients（ＨＯＧ）、画像のスケール変化や不変な特徴量を抽出するScale-Invariant Feature Transform（ＳＩＦＴ）、ＳＩＦＴをさらに高速化したSpeeded-Up Robust Future（ＳＵＲＦ）等の手法を用いてもよい。

次いで、認識対象識別部１０４が、抽出された特徴ベクトル１００７に対して、辞書１００６を用いて、例えばパターンマッチングを用いて識別を行うことにより、検出対象の文字（アルファベットの「Ａ」）１０６４を識別する。

図４Ａは、画像認識システム１００の認識対象を含む画像の一例を示す。画像２６０は歩行者を、画像２６１は車両を、画像２６２は歩行者および車両を含む障害物をそれぞれ認識対象として含んでいる。画像２６３は、認識対象を含んでいない画像を示す。

図４Ｂは、検出パラメータ群を用いた検出領域の設定の一例を示す。認識対象の認識を行う場合、認識対象に応じて適切な検出領域を設定する必要がある。検出領域１７０ａは、画像１７０において、歩行者を検出するのに最適化された検出領域を示す。検出領域１７１ａは、画像１７１において、車両を検出するのに最適化された検出領域を示す。検出領域１７２ａは、画像１７２において、障害物を検出するのに最適化された検出領域を示す。また、画像１７３において認識対象の認識を行わない場合、検出領域は設定されない。

これらの検出領域の最適化は、認識対象に応じて検出パラメータ群を最適化することにより行われる。認識対象に応じて検出パラメータ群を最適な検出パラメータ群に動的に変更するシステムを用いることにより、リアルタイム処理における認識対象の認識率を向上させることが可能となる。さらに、例えば、画像１７３の場合と画像１７０〜１７２の場合とにおいて、画像認識処理を「行う」および「行わない」の間で切り替え制御を行うことにより、画像認識処理に必要な演算を少なくし、画像認識処理に必要な消費電力を抑えることが可能となる。さらに、画像認識処理に必要な検出領域を可変にすることにより、画像認識処理に不要な画像データを無視することができるため、画像認識処理の認識率を向上することが可能となる。

検出パラメータ群は、例えば、画像認識処理の検出領域を設定するためのパラメータである。さらに、検出パラメータ群は、特徴ベクトル等の特徴量を抽出するための、アルゴリズム選定手法並びに、抽出アルゴリズム設定のためのパラメータを含んでもよい。図４Ｃは、検出パラメータ群の一例を示す。図４Ｄは、認識対象の特徴点の一例を示す。

画像が含む認識対象の検出処理を行う場合、例えば、検出パラメータ群は、検出領域を示すパラメータに加えて、必要に応じて様々なパラメータを含む。例えば、パラメータ群は、歩行者を検出するために最適化された検出パラメータ群１６０や、車両を検出するために最適化された検出パラメータ群１６１、障害物を検出するために最適化された検出パラメータ群１６２、検出を行わない場合の検出パラメータ群１６３のように、様々なパラメータを含む。ここで、「−」は、対応するパラメータ値がないことを示す。全ての検出パラメータ群１６０，１６１，１６２，１６３に共通であるパラメータｐ_１もあれば、例えば、障害物を検出するための検出パラメータ群１６２のみが有するパラメータｐ_６もある。

これらの検出パラメータ群は、例えば、画像データが送られるデータ間隔で（フレーム毎に）更新される。つまり、カメラの各撮影タイミングで、検出対象に応じて、検出パラメータ群を、歩行者検出パラメータ群１６０，１６１，１６２，１６３に更新する。更新された検出パラメータ群に応じて、第１のコンピュータ１０１が検出領域に応じた画像データおよび特徴点データ２３０，２３１，２３２を生成し、第１のコンピュータ１０１から第２のコンピュータ１０２に送信する。

周りの景色の状況、時刻等を指示するパラメータを検出パラメータ群に加えてもよい。これにより、周りの景色、時刻が変化した場合であっても、第１のコンピュータ１０１は、検出パラメータ群を参照して認識対象の検出を最適化することができる。このように、認識対象の検出に最適化された検出パラメータ群を、認識対象の検出に先立って第１のコンピュータ１０１に送信することにより、認識率の向上を行う。

図５は、第１のコンピュータ１０１と第２のコンピュータ１０２の間の通信フローを示す図である。図５に示される通信フローは、全二重通信方式による通信を行う場合の通信フローである。第２の制御部１１０は、例えば検出パラメータ群を含む制御信号１４１，１４２を生成し、第２の送信部１０６に転送する。第２の送信部１０６は、転送された制御信号１４１，１４２を第１のコンピュータ１０１の第１の受信部１０７に送信する。ここで、制御信号１４１，１４２の第２のコンピュータ１０２内の転送に要する時間は、第２の送信部１０６から第１の受信部１０７への送信に要する時間に比べて無視できるほどに小さい。

第１の受信部１０７は、受信した制御信号１４１，１４２を第１の制御部１０９に転送する。ここで、第１のコンピュータ１０１内における転送に要する時間も、送信に要する時間に比べて無視できるほどに小さい。第１の制御部１０９は、制御信号１４１，１４２に基づいて、カメラ１１５を制御して画像データ１３１，１３２を生成し、認識対象検出部１０３が画像データ１３１，１３２から特徴点を抽出し特徴点データ１５１を生成する。

次いで、第１の送信部１０５は画像データ１３１，１３２および特徴点データ１５１を第２のコンピュータ１０２の第２の受信部１０８に送信する。第２の受信部１０８は、受信した画像データ１３１，１３２を認識対象識別部１０４に転送する。ここで転送に要する時間も、送信に要する時間に比べて無視できるほどに小さい。認識対象識別部１０４は、画像データ１３１，１３２および特徴点データ１５１に基づいて、認識対象の識別を行う。

第２の送信部１０６から第１の受信部１０７への送信および第１の送信部１０５から第２の受信部１０８への送信には幾分かの時間を要するが、これらの通信の方式が全二重通信方式である場合、制御信号１４１の送信と、画像データ１３０および特徴点データ１５０の送信とは並行して行われる。同様に、制御信号１４２の送信と、画像データ１３１および特徴点データ１５１の送信とも並行して行われる。

さらに、図５に示されるように、第１の受信部１０７による制御信号１４１の受信と認識対象検出部１０３の検出処理（画像データ１３１および特徴点データ１５１の生成処理）とは並列処理される。また、第２の送信部１０６による制御信号１４１の送信と認識対象識別部１０４の認識対象の識別処理とは並列処理される。これらの全二重通信方式による通信および並列処理により、第１のコンピュータ１０１および第２のコンピュータ１０２を物理的に分離して配置したにも関わらず、それらの間の通信によるレイテンシが隠蔽される結果、それらの処理能力を無駄なく使用することができる。

図６は、第１の実施の形態に係る画像認識システム１００の画像認識処理の説明図である。図６に示されるように、画像認識処理は、画像データ３０３から検出領域を探索し、検出領域から検出された認識対象の特徴点データ３０２と辞書データとのパターンマッチングを行い、パターンマッチングの結果を認識対象の認識結果３０１として出力する。この画像認識処理において、特徴点データ３０２の抽出時には、カメラの個体差、カメラの取り付け位置、背景画像や場所などとの相関等によって画像データの間にばらつきが発生し、処理が複雑となり、計算量が増加する。特徴点データ３０２から認識対象の認識結果３０１を計算する際にも、同様にカメラの個体差、カメラの取り付け位置、背景画像や場所などとの相関等による画像データの間のばらつきにより、処理が複雑となり、計算量が増加する。

すなわち、１つのカメラ、もしくは複数のカメラで画像データを取得し、ＥＣＵ等の処理装置において集約的に画像認識処理を行う場合、使用するカメラの個体差、カメラの取り付け位置等による画像データの間のばらつきによる差分を除去する処理が必要となる。そのため、認識処理に要する計算量が増加し、それに伴い発熱量も増加する。

本開示においては、図６に示されるように、第１のコンピュータ１０１内において特徴点データ３０２の抽出が行われ、第２のコンピュータ１０２内において認識結果３０１の計算が行われる。このように、第１のコンピュータ１０１および第２のコンピュータ１０２の間で画像認識処理が分散される。したがって、上述のように画像データの間のばらつきがある場合であっても、第１のコンピュータ１０１および第２のコンピュータ１０２の個々の発熱量や筐体の外寸を、一体となったコンピュータを使用する場合と比較して抑えることができる。これにより、例えば、認識対象の認識率を上げるために、動作周波数向上や認識処理に必要なメモリ量が増加した場合であっても、本開示においては、画像認識システム１００を取り付ける際の熱設計や物理的な配置をより容易にすることができる。この効果は、複数のカメラを用いる際に、特に有利である。

本開示においては、画像認識に必要な処理を、物理的に分離して配置された第１のコンピュータ１０１と第２のコンピュータ１０２とによって並列に処理する。これにより、画像認識やデータ伝送に必要な処理量の増加が増加する場合であっても、画像認識システム１００を取り付ける際の熱設計や物理的な配置をより容易にすることができる。さらに、画像認識に必要な画像を蓄えておくメモリもしくは認識すべき認識対象の種類数に応じて増加する辞書データ並びにそれを蓄積するメモリサイズが増加する場合であっても、画像認識システム１００を取り付ける際の熱設計や物理的な配置をより容易にすることができる。その結果、画像認識システム１００の認識対象の認識率をより容易に上げることができるようになる。

また、認識対象の検出または識別において、Structure from motion(SfM)と呼ばれるアルゴリズムを用いると、複数の画像データ間の差分から認識対象を抽出するため、採用する認識アルゴリズムの検出率に応じて、認識アルゴリズムを実行するのに必要な搭載メモリが増える傾向もある。このような場合であっても、画像認識システム１００を取り付ける際の熱設計や物理的な配置をより容易にすることができる。

図７は、認識対象の認識率と搭載メモリサイズとの関係を表すグラフである。一般に、画像認識処理においては、画像認識に必要な複数の画像が搭載メモリに記憶される。認識すべき認識対象の種類数あるいは認識対象の個数が多くなるほど、必要とされる搭載メモリサイズが増加する傾向がある。また、認識対象の認識率を向上しようとすると、必要とされる搭載メモリサイズが増加する傾向がある。必要とされる搭載メモリサイズが一定量以上になると、必要とされる物理的な面積および外寸が大きくなることにより、筐体に搭載不可能になる場合がある。

そのような場合であっても、本開示の画像認識システム１００においては、第１のコンピュータ１０１と第２のコンピュータ１０２の個々の物理的な面積および外寸を、一体型のコンピュータを用いる場合と比較して小さくすることができ、筐体に搭載し易くなる。

また、本開示の画像認識システム１００においては、様々なシーンに応じて認識対象を動的に変更させることができるので、認識対象の認識率をリアルタイムに高めることができる。

（第２の実施の形態）
本開示の画像認識システム１００において、画像認識アルゴリズムに関連して、ディープラーニングを用いることもできる。画像認識システムを構築する際には、認識率を高めるために、検出領域、特徴量の抽出、辞書データの作成、パターンマッチング等について、それぞれ、独自にチューニングされた認識パラメータ群がある。認識パラメータ群は、認識を行う対象画像および動作条件などを想定しながら、画像認識システムを構築する設計者がマニュアルで作成している。また、使用するカメラや状況に応じた認識パラメータ群の設定により、認識対象の認識率も異なってくる。

また、自動運転車両やロボットに用いられる画像認識システムにおいて異なる認識対象をリアルタイムに認識するためには、リアルタイムに行われる認識処理の認識率を向上させることが重要である。認識率の指標は様々なものがあるが、動物体のような動く認識対象の画像認識処理においては、リアルタイムに行われる認識処理の認識率を向上させることが特に重要である。

そこで、近年、このような画像認識システムを構築する際に、認識パラメータ群のマニュアルによる作成量を少なくする、或いは完全自動で行う手法として、ディープラーニングという手法が注目を集めている。

＜ディープラーニング＞
リアルタイムに行われる認識処理において認識率を向上させようとすると、辞書の辞書データの量も増やす必要があり、認識パラメータ群を算出するために用いられる学習データのデータ量も増える。そこで、例えば、学習データ等の大量のデータを、サーバなどにビッグデータとして蓄積することがある。画像データの認識アルゴリズムの認識パラメータ群を、大量のデータを用いてマニュアルで最適化することは困難である。そこで、画像認識システムを構築する設計者が意図的に認識パラメータ群を設定することに代えて、蓄積された大量のデータを用いて認識アルゴリズムと認識用ルールの自動生成を行う。そして、自動生成された認識アルゴリズムとルールを使って、入力した画像が何を意味するのかの推論を自動で行う。

図８は、ディープラーニングに用いられるニューラルネットワークの一例を示す。従来のニューラルネットワークが、例えば３層構造を有するのに対し、ディープラーニングでは、比較的階層構造が深い構造のニューラルネットワークが用いられる。ニューロン４４０は、隣接する階層間においてシナプス４３０で結合される。

単一ニューロンの数理モデルの一例は、次の数式（１）によって表される。

ここで、ｙは、あるニューロン４４０の出力信号値を示し、ｆ_ｋは、シグモイド関数等の関数を表し、ｎはあるニューロン４４０の下層にあるニューロンの数を表し、ｘ_ｉは、下層にあるｉ番目のニューロン４４０の出力信号値を表し、ｗ_ｉは下層にあるｉ番目のニューロン４４０からあるニューロン４４０に接続されるシナプス４３０のシナプス荷重を表し、θはある閾値を表す。

上記数式（１）から判るように、下層にあるニューロン４４０とシナプス４３０のシナプス荷重との積和計算の値がある閾値θを超えると、ニューロン４４０が発火し、その信号がニューラルネットワーク４０１，４０２を通じて伝播していく。例えば、ニューラルネットワーク４０１は、画像認識処理に用いられ、ニューラルネットワーク４０２は、行動制御に用いられる。この場合における、シナプス荷重ｗ_ｉの値が画像認識のための認識パラメータ群となる。

まず、外部サーバ等に保存された画像データを用いて、ディープラーニングによる階層型のニューラルネットワーク４０１，４０２の学習を行う。次いで、学習で形成したニューラルネットワーク構造及び、シナプス荷重を基にニューラルネットワーク構造を求める。画像認識処理のニューラルネットワーク４０１から、画像認識された認識データ４１０が出力される。

ディープラーニングにおいては、認識すべき認識対象に特化したニューラルネットワークのシナプス荷重を最適化することにより、認識対象の認識率が向上する。そのため、シナプス荷重の変更データ４２０に基づいて、認識すべき認識対象ごとに最適化した認識パラメータ群を動的に変更することにより、リアルタイムに認識対象の認識率を向上させることができる。

ディープラーニングの認識パラメータ群としては、数式（１）に示される関数ｆ_ｋを含んでもよく、閾値θを含んでもよい。

また、数式（１）によって示される一般的なニューロンモデルにおいて、シナプス荷重を「０」に設定し、ニューラルネットワークのネットワーク構造を変更することにより、ネットワーク構造を動的に変更してもよい。

（第３の実施の形態）
図９は、第３の実施の形態に係る画像認識システム５００を示す。画像認識システム５００は、第１のコンピュータ５０１と、第２のコンピュータ１０２と、カメラ５３０とを備える。第３の実施の形態に係る第２のコンピュータ１０２は、第１の実施の形態に係る第２のコンピュータ１０２と、その構成が同じであるので、説明を省略する。

第１の実施の形態に係る第１のコンピュータ１０１は、内部にカメラ１１５を備える。これに対し、第３の実施の形態に係る第１のコンピュータ５０１は、別体として備えられたカメラ５３０と接続される。この点において、第１の実施の形態における第１のコンピュータ１０１と第３の実施の形態における第１のコンピュータ５０１とは異なる。第１のコンピュータ５０１とカメラ５３０とを別体として備えることにより、第３の実施の形態に係る画像認識システム５００は、第１の実施の形態に係る画像認識システム１００と比較して、処理に伴い発生した熱の集中をさらに防ぐことができる。

（第４の実施の形態）
図１０は、第４の実施の形態に係る画像認識システム５００’を示す。画像認識システム５００’は、第１のコンピュータ１０１と、第２のコンピュータ５６１と、サーバ５９２とを備える。第４の実施の形態に係る第１のコンピュータ１０１は、第１の実施の形態に係る第１のコンピュータ１０１と、その構成が同じであるので、説明を省略する。第２のコンピュータ５６１は、認識パラメータ群を認識対象識別部１０４のメモリに格納することに代えて、認識パラメータ群の一部または全部を、第２のコンピュータ５６１に接続されたサーバ５９２から取得する。必要に応じて、第２のコンピュータ５６１は、第２のコンピュータ５６１による画像認識の結果を、サーバ５９２に送信する。

多様な認識対象（例えば、歩行者、他車両、自転車）について認識率を向上させるためには、辞書が多くの辞書データを含む必要がある。サーバ５９２が辞書を記憶し、必要に応じて第２のコンピュータ５６１がサーバ５９２に格納される辞書から辞書データを取得することにより、画像認識を行う第２のコンピュータ５６１の認識対象識別部１０４のデータメモリのサイズおよび記憶部１２０のメモリ容量の増加を抑制することもできる。これにより、データメモリから発生する熱量を抑制でき、また第２のコンピュータ５６１の外寸を小さくすることができる。さらに、認識パラメータ群が時々刻々と変化する場合、画像認識システム５００’は最新の認識パラメータ群をサーバ５９２から取得して使用することができる。

また、辞書を作成するに当たって、例えば、走行中の車両からの画像認識の場合、車両の移動先の様々な場所、時間における車両からの画像データを必要とするため、一般的には大量の画像データを必要とする。このような場合であっても、車両からの画像データをサーバ５９２に格納し、サーバ５９２において辞書を作成することができる。

（第５の実施の形態）
図１１は、第５の実施の形態に係る画像認識システム６００を示す。画像認識システム６００は、第１のコンピュータとしての第１のカメラ６０１、第２のカメラ６０３、第３のカメラ６０５、および第４のカメラ６０４と、第２のコンピュータとしてのＥＣＵ６０２と、測距センサー６１０と、を備える。第１のカメラ６０１、第２のカメラ６０３、第３のカメラ６０５、第４のカメラ６０４、および測距センサー６１０とは、それぞれＥＣＵ６０２と接続される。

例えば、車両が前進する場合、第４のカメラ６０４は前方の障害物の検出を行い、第２のカメラ６０３と、第３のカメラ６０５はオフにし、第１のカメラ６０１は後方車両の検出を行う。車両が右折する場合、第４のカメラ６０４は前方の障害物の検出を行い、第３のカメラ６０５は、巻き込みによる事故が起きないように、右方の歩行者などの検出を行い、第２のカメラ６０３で左方車両の検出を行い、第１のカメラ６０１にて後方車両の検出を行う。

一例において、測距センサー６１０がＥＣＵ６０２に接続される。第４のカメラ６０４の画像データと測距センサー６１０の測距データとを合成し、３次元画像を前方の障害物の検出に用いてもよい。測距センサー６１０は、認識対象との間の距離を測定するセンサーであり、例えばミリ波センサーまたはソナーセンサーである。このように、複数台のカメラ６０１，６０３，６０５，６０５および測距センサー６１０を利用した画像認識システムを構築することにより、さらに認識対象の認識率を上げることができる。

（その他の実施の形態）
第１の実施の形態に係る第１のコンピュータ１０１は、検出処理を行っているが、これに加えて識別処理の一部を、第２のコンピュータ１０２に代わって実行してもよい。

第１の実施の形態に係る第１のコンピュータ１０１は、カメラ１１５を備える。カメラ１１５に加えて、例えばＬＩＤＡＲ（Light Detection and Ranging、Laser Imaging Detection and Ranging）を用いて、カメラ１１５からの画像データおよびＬＩＤＡＲからの画像データを組み合わせ、３次元画像データを認識対象の検出および／または識別に用いてもよい。

本発明は、画像認識システム並びに、画像認識システムを搭載した機械に関し、例えば、自動運転車や産業用ロボット等の自律的に動作する機械に搭載される画像認識システム等に用いられる。

１０１第１のコンピュータ
１０２第２のコンピュータ
１０３認識対象検出部
１０４認識対象識別部
１０５第１の送信部
１０６第２の送信部
１０７第１の受信部
１０８第２の受信部
１０９第１の制御部
１１０第２の制御部
１１１通信路
１２０記憶部
１３０画像データ
１３１画像データ
１３２画像データ
１４１制御信号
１４２制御信号
１５１特徴点データ
１５２特徴点データ
２３０特徴点データ
２３１特徴点データ
２３２特徴点データ
２６０画像データ
２６１画像データ
２６２画像データ
２６３画像データ
３０１認識結果
３０２特徴点データ
３０３画像データ
４０１ニューラルネットワーク
４０２ニューラルネットワーク
４１０認識データ
４２０シナプス荷重の変更データ
４３０シナプス
４４０ニューロン
５０１第１のコンピュータ
５６１第２のコンピュータ
５９２サーバ
６０１第１のカメラ
６０２ＥＣＵ
６０３第２のカメラ
６０４第４のカメラ
６０５第３のカメラ
６１０測距センサー
１００５辞書データ作成部
１００６辞書
１００７特徴ベクトル
１０４０画像
１０５０探索領域
１０６０画像データ
２００１車載カメラ
２００１’車載カメラ
２００２車両
２００３ＥＣＵ
２００３’ ＥＣＵ
２００４相互通信路
２００５辞書
２００６認識対象検出部
２００７認識対象識別部
２０１０第１の画像処理部
２０４０第２の画像処理部
３００３第１のスイッチ
３００４第２のスイッチ
３０２３第１のモデム
３０２４第２のモデム

Claims

カメラにより生成された画像データから認識対象の特徴点を検出する第１のコンピュータと、
前記第１のコンピュータが検出した前記認識対象の識別を行う第２のコンピュータと、
を備え、
前記第１のコンピュータと前記第２のコンピュータとは、物理的に分離されて配置され、
前記第１のコンピュータは、前記画像データを、当該画像データから検出された前記認識対象の特徴点データと共に、前記第２のコンピュータに送信し、
前記第２のコンピュータは、前記第１のコンピュータから受信した前記画像データ及び前記認識対象の特徴点データに基づいて、前記認識対象の識別を行い、
前記第１のコンピュータが前記第２のコンピュータに前記画像データを送信する時に、前記画像データの画像認識処理に用いられ、動的に変更される認識パラメータ群のうち、前記検出に用いる検出パラメータ群を、前記第２のコンピュータが通信路を介して前記第１のコンピュータに送信する、画像認識システム。
前記通信路の通信方式が全二重通信方式であり、前記画像データの送信および前記検出パラメータ群の送信が並行して行われる、請求項１に記載の画像認識システム。
前記認識パラメータ群は、認識すべき認識対象を特徴づけるパラメータ群の少なくとも一部である請求項１または２に記載の画像認識システム。
前記認識対象の前記検出は、ニューラルネットワークを用いて行われ、
前記検出パラメータ群は、前記ニューラルネットワークを構成するニューロンのシナプス荷重、関数、および閾値の少なくとも１つである、請求項１から３のいずれかに記載の画像認識システム。
前記シナプス荷重のいくつかをゼロに設定することにより、前記ニューラルネットワークの構成が変更される、請求項４に記載の画像認識システム。
前記画像データの前記送信は、フレーム毎に行われ、
前記フレーム毎に、前記認識パラメータ群が変更される、請求項１から５のいずれかに記載の画像認識システム。
前記第１のコンピュータは、物理的に離れた位置にあり、前記画像データを取得するセンサと接続されている、請求項１から６のいずれかに記載の画像認識システム。
前記第２のコンピュータは、サーバと接続され、
前記第２のコンピュータは、前記サーバから前記認識パラメータ群の少なくとも１つのパラメータを取得し、前記サーバに前記第２のコンピュータによる認識結果の情報を送信する、請求項１から７のいずれかに記載の画像認識システム。
前記第２のコンピュータが前記認識対象との間の距離を測定するセンサに接続される、請求項１から８のいずれかに記載の画像認識システム。
前記第１のコンピュータは複数である、請求項１から９のいずれかに記載の画像認識システム。
前記通信路を介する通信が無線通信である、請求項１から１０のいずれかに記載の画像認識システム。