JP2021005138A

JP2021005138A - 摂動画像データに対応した学習モデル、学習データ、学習モデル・データ生成方法、及び画像識別装置

Info

Publication number: JP2021005138A
Application number: JP2019117196A
Authority: JP
Inventors: 和之田坂; Kazuyuki Tasaka; 菅野　勝; Masaru Sugano; 勝菅野
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2021-01-14
Anticipated expiration: 2039-06-25
Also published as: JP7211904B2

Abstract

【課題】１つの識別対象に係る画像データから、識別結果として互いに異なる情報を導出することを可能にする学習モデルを提供する。【解決手段】入力画像データのクラスを推定可能とする本学習モデルは、（ａ）画像データと、この画像データに対応するクラスとの組と、（ｂ）上記の画像データの画像単位に係る値に対し所定の摂動を与えることによって生成された、新たな分類先としてのターゲットクラスに分類される確率を高めた摂動画像データと、このターゲットクラスとの組とを含む学習データを用いて構築される。ここで、上記の摂動画像データは、上記の画像データの画像単位毎において、当該画像単位でのターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えることによって生成されることも好ましい。【選択図】図１

Description

本発明は、画像認識・識別のための学習モデルを生成する技術に関する。

現在、監視やマーケティング等の目的をもって、さらには自動運転車や自律ロボット等の「視覚系」として、カメラで撮影され生成された画像データを解析し、撮影された対象を識別する技術の開発が盛んに進められている。

ここで、この対象識別処理は多くの場合、対象検出用に学習を行った物体検出器を用いて実施される。このような物体検出器を利用した例として、非特許文献１は、畳み込みニューラルネットワーク（ＣＮＮ，Convolutional Neural Network）を用いて、画像に含まれる対象における存在位置やその種別を推定する技術を開示している。

また、特許文献１には、ＣＮＮを用い、特定物体の検出処理の高速化を図った物体検出技術が開示されている。この技術では具体的に、畳み込み計算を行うニューラルネットワークを１層以上備えており特徴マップを出力する特徴抽出部と、この特徴マップに対しスライディングウィンドウ処理を実行して複数の特徴マップウィンドウを出力するスライディングウィンドウ部と、これらの特徴マップウィンドウ内に特定の物体が含まれるか否かを判定する識別部とを備えている。

特開２０１８−００５５２０号公報

Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, "SSD: single shot multibox detector", European Conference on Computer Vision, Computer Vision-ECCV 2016, ２０１６年, ２１〜３７頁

以上に説明したような従来の画像識別技術においては、識別対象の種別（クラス）を推定しようとする場合において基本的に、１つの識別対象に対し、正解となる１つの種別（クラス）を割り当てて、その対応関係を学習した学習モデルを生成し、この学習モデルを用いて識別処理を行っている。

これに対し、本願発明者等は、１つの識別対象を撮影した画像データに関し、意図的に異なる識別結果を導出することはできないかを考えた。すなわち、１つの識別対象に係る画像データに対し、人の視覚では捉えることが困難な程度の調整を行い、調整後の画像データについては、本来の対象の種別（クラス）とは異なる識別結果を導出することができるのではないかと考えた。

これにより、画像データ中により多くの情報を意図的に仕込むことも可能となり，このような画像データを識別させることによって、結果的により多様な情報を提供することもできるのである。また例えば、このような画像データをサーバにアップロードし、このサーバで識別処理を実施する場合には結果的に、伝えるべき情報の多様性とともに伝送効率の向上も達成可能となるのである。

そこで、本発明は、１つの識別対象に係る画像データから、識別結果として互いに異なる情報を導出することを可能にする学習モデル、学習データ、学習モデル・データ生成方法、及び識別装置を提供することを目的とする。

本発明によれば、入力画像データに対応するクラスに係る情報を推定するようにコンピュータを機能させる学習モデルであって、
（ａ）画像データと、該画像データに対応するクラスに係る情報との組と、
（ｂ）上記の画像データの画像単位に係る値に対し所定の摂動を与えることによって生成された、新たな分類先としてのターゲットクラスに分類される確率を高めた摂動画像データと、当該ターゲットクラスに係る情報との組と
を含む学習データを用いて構築される学習モデルが提供される。

本発明によれば、また、入力画像データに対応するクラスに係る情報を推定するようにコンピュータを機能させる学習モデルであって、
（ａ）画像データと、該画像データに対応するクラスに係る情報との組と、
（ｂ）上記の画像データから生成した、新たな分類先としてのターゲットクラスに分類される確率を高めたアドバーサリアル・イグザンプル（Adversarial Examples）である摂動画像データと、当該ターゲットクラスに係る情報との組と
を含む学習データを用いて構築される学習モデルが提供される。

ここで、これらの本発明による学習モデルにおいて、当該摂動画像データは、前記画像データの画像単位毎において、当該画像単位での当該ターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、当該ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えることによって生成されることも好ましい。

さらに、当該摂動画像データは、ＪＳＭＡ（Jacobian-based Saliency Map Approach）法を用いて生成されたアドバーサリアル・イグザンプルであることも好ましい。

また、これらの本発明による学習モデルの一実施形態として、当該画像データは、情報表示体を含む画像に係るデータであって、当該画像データに対応するクラスに係る情報は、当該情報表示体に係る情報であり、当該ターゲットクラスに係る情報は、当該情報表示体によって表示される情報に係る情報であることも好ましい。

またこの実施形態において、当該情報表示体は、当該情報表示体によって表示される情報が表示画像としてディスプレイに表示されるディスプレイ装置であり、
当該画像データは、表示された当該表示画像を撮影することによって生成され、
当該摂動画像データは、当該表示画像を撮影することによって生成された当該画像データの画像単位毎に、当該画像単位における当該ターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、当該ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えて生成された画像データに係る表示画像であって、ディスプレイに表示された表示画像を撮影することによって生成されることも好ましい。

さらに上記の実施形態において、当該情報表示体は、当該情報表示体によって表示される情報の印刷された印刷部分を含み、
当該画像データは、当該印刷部分を撮影することによって生成され、
当該摂動画像データは、当該印刷部分を撮影することによって生成された当該画像データの画像単位毎に、当該画像単位における当該ターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、当該ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えて生成された画像データに係る画像を、所定の基体に印刷したものを撮影することによって生成されることも好ましい。

本発明によれば、さらに、入力画像データに対応するクラスに係る情報を推定するようにコンピュータを機能させる学習モデルを構築可能な学習データであって、
（ａ）画像データと、該画像データに対応するクラスに係る情報との組と、
（ｂ）上記の画像データの画像単位に係る値に対し所定の摂動を与えることによって生成された、新たな分類先としてのターゲットクラスに分類される確率を高めた摂動画像データと、当該ターゲットクラスに係る情報との組と
を含む学習データが提供される。

本発明によれば、さらにまた、入力画像データに対応するクラスに係る情報を推定可能な画像識別装置であって、
（ａ）画像データと、該画像データに対応するクラスに係る情報との組と、
（ｂ）上記の画像データの画像単位に係る値に対し所定の摂動を与えることによって生成された、新たな分類先としてのターゲットクラスに分類される確率を高めた摂動画像データと、当該ターゲットクラスに係る情報との組と
を含む学習データを用いて構築された学習モデルに対し、識別対象画像データを入力し、識別対象画像データに対応するクラス又はターゲットクラスを推定する画像識別装置が提供される。

本発明によれば、さらに、入力画像データに対応するクラスに係る情報を推定するようにコンピュータを機能させる学習モデルを構築可能な学習データを生成する方法であって、
画像データの画像単位に係る値に対し所定の摂動を与えることによって、新たな分類先としてのターゲットクラスに分類される確率を高めた摂動画像データを生成し、
前記画像データと該画像データに対応するクラスに係る情報との組、及び、前記摂動画像データと当該ターゲットクラスに係る情報との組を含むデータ群を生成し、当該データ群を学習データとする
ことを特徴とする学習データ生成方法が提供される。

本発明によれば、また、上述した学習データ生成方法によって生成された学習データを用いて学習モデルを生成する学習モデル生成方法が提供される。

本発明の学習モデル、学習データ、学習モデル・データ生成方法、及び識別装置によれば、１つの識別対象に係る画像データから、識別結果として互いに異なる情報を導出することができる。

本発明に係る学習モデル生成装置及び画像識別装置を備えたモデル生成・画像認識システムの一実施形態を説明するための模式図及び機能ブロック図である。本発明に係る学習データ生成処理及び学習モデル生成処理の一実施形態を説明するための模式図である。本発明に係る画像識別処理の一具体例を説明するための模式図である。

以下、本発明の実施形態について、図面を用いて詳細に説明する。

［モデル生成・画像認識システム］
図１は、本発明に係る学習モデル生成装置及び画像識別装置を備えたモデル生成・画像認識システムの一実施形態を説明するための模式図及び機能ブロック図である。

図１に示した本実施形態のモデル生成・画像認識システムは、
（ａ）（本実施形態において移動可能な）画像識別装置である１つ以上の端末２０と、
（ｂ）端末２０（又は画像データベース）から取得された画像データに基づいて学習モデルを生成可能な学習モデル生成装置であるクラウドサーバ１と
を有し、クラウドサーバ１において、この後説明する「摂動画像データ」を用いた「学習モデル」が生成されて、端末２０に供給され、端末２０は、この「学習モデル」を用いて画像識別処理を実施する。

ここで、上記（ａ）の端末２０は本実施形態において、通信機能を有するドライブレコーダであり、自動車２における例えば車両前方を撮影可能な位置（例えばダッシュボード上部）に設置されている。さらに、各端末２０は、例えば携帯電話通信網やインターネット等を介してクラウドサーバ１と無線通信接続が可能となっており、学習モデル生成のための画像データ（映像データ，画像フレーム群）をクラウドサーバ１へ送信することができる。

一方、上記（ｂ）のクラウドサーバ１は学習モデル生成部１１４を有し、上述したように「学習モデル」を生成するが、この「学習モデル」は、
（Ａ）画像データと、この画像データに対応するクラスに係る情報との組と、
（Ｂ）上記（Ａ）の画像データから生成された「摂動画像データ」と、新たな分類先としてのターゲットクラスに係る情報との組と
を含む学習データを用いて構築されるものとなっている。

このうち上記（Ｂ）の「摂動画像データ」は、上記（Ａ）の画像データの画像単位に係る値（例えばピクセル値）に対し所定の摂動を与えることによって生成される画像データであり、新たな分類先としてのターゲットクラスに分類される確率を高めた画像データとなっている。

より具体的に「摂動画像データ」は、例えばアドバーサリアル・イグザンプル（Adversarial Examples）とすることができる。すなわちこの場合、「摂動画像データ」は、上記（Ａ）の画像データから生成した、新たな分類先としてのターゲットクラスに分類される確率を高めたAdversarial Examplesとなる。

ここで、Adversarial Examplesは、画像認識の分野においては、元の画像に対して人の視覚では捉えることが困難な程度の微小な変更（摂動）を与えることで生成される画像のことであり、機械学習による識別器を誤動作させる有害な画像として、現在Adversarial Examples対策の研究が精力的に行われている。ちなみにAdversarial Examplesは、例えば非特許文献：Christian Szegedy et al., "Intriguing properties of neural networks", Cornell University Library，Subjects: Computer Vision and Pattern Recognition (cs.CV), Cite as: arXiv:1312.6199, ２０１３年において詳細に解説されている。

いずれにしても従来、画像認識技術にとって、Adversarial Examplesは有害な存在であり、対策を講じるべき脅威であったところ、本実施形態では、敢えて学習データにAdversarial Examplesを取り込んで「学習モデル」を生成し、推定クラスの多様性を図っているのである。

また、画像識別装置としての端末２０は、このような特徴的な「学習モデル」を利用し、例えばカメラ２０２で撮影し生成された画像データから、
（ａ）当該画像データに本来対応するクラス、及び
（ｂ）当該画像データから生成された「摂動画像データ」に対応するターゲットクラス
のうちの一方を出力（推定）し分けることを可能にするのである。

例えば、後に詳細に説明するが、撮影され生成された画像データからクラス"看板"が出力されるような「看板」に対し、この「看板」の表示画像に対して摂動を付与した摂動表示画像を表示した摂動看板「看板＊」を作製してもよい。ここで、これらの「看板」及び「看板＊」は、人の視覚では区別が困難となっている。また、ターゲットクラスは例えば"死亡事故現場の看板"に設定される。

次いで、これらの「看板」と「看板＊」とを場所によって設置し分けることによって、
（ａ）所定場所の「看板」を撮影した端末２０は、「学習モデル」による画像識別結果としてのクラス"看板"を決定してこの決定結果を利用し、一方、
（ｂ）別の所定場所の「看板＊」を撮影した端末２０は、同様に「学習モデル」による画像識別結果としてのクラス"死亡事故現場の看板"を、例えばディスプレイ２０３に表示してユーザに通知する
ことも可能となるのである。

すなわち、人に対しては同様の情報を提供する「看板」及び「看板＊」を用いて、端末２０（のユーザ）に対し提供する情報を多様化することができる。このように、以上に説明した「学習モデル」を用いることによって、１つの識別対象に係る画像データから、識別結果として互いに異なる情報を導出することが可能となるのである。

また、適用する実施形態によっては、画像データ中により多くの情報を意図的に仕込むことも可能となり、このような画像データを識別させることによって、結果的により多様な情報を提供することもできる。具体的には、２つ以上の（さらには多数の）ターゲットクラスを学習した「学習モデル」も生成可能であり、また、これらのターゲットクラスには種々様々な事項を採用することが可能となっている。例えば、複数のターゲットクラスのそれぞれを、「看板」に記載された複数種の文字情報とすれば、ターゲットクラスの出力によって文字認識を実施したような結果まで得られるのである。

さらに、図１とは別の実施形態となるが、画像データを端末からクラウドサーバにアップロードし、このクラウドサーバで画像識別処理を実施する場合には結果的に、伝えるべき情報の多様性とともに伝送効率の向上も達成可能となるのである。すなわち状況によっては、端末からの伝送映像データ量の低減を図ることも可能となる。

ちなみに、端末２０は当然に、自動車２に設置された車載装置（ドライブレコーダ）に限定されるものではなく、例えば自転車、鉄道車両や、ロボット、ドローン等の移動体に設置された（又は搭乗した）ものとすることができる。また、ＨＭＤ（Head Mounted Display）やグラス型端末等のウェアラブル端末であってもよい。さらには、移動可能ではない（非モバイルである）パーソナル・コンピュータ（ＰＣ）等の情報処理装置とすることも可能である。また、上述したようにクラウドサーバ１が画像識別機能も備えており、端末２０は、カメラ２０２で撮影された画像データをクラウドサーバ１へアップロードし、クラウドサーバ１から画像識別結果を取得するような実施形態をとることも可能である。

［学習モデル生成装置の機能構成，学習モデル生成方法］
図１に示した機能ブロック図によれば、クラウドサーバ１は、通信インタフェース１０１と、プロセッサ・メモリとを有する。ここで、このプロセッサ・メモリは、本発明に係る学習モデル生成プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この学習モデル生成プログラムを実行することによって、学習モデル生成処理を実施する。

このことから、本発明に係る学習モデル生成装置として、本クラウドサーバ１に代えて、本発明による学習モデル生成プログラムを搭載した、例えば非クラウドのサーバ装置、パーソナル・コンピュータ（ＰＣ）、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等を採用することも可能となる。

例えば、端末２０に本発明に係る学習モデル生成プログラムを搭載し、当該端末２０を本発明による学習モデル生成装置とすることもできる。また、本発明による学習モデル生成装置を、端末２０とともに自動車２に設置する実施形態も可能となるのである。

さらに、プロセッサ・メモリは、画像取得部１１１と、摂動画像生成部１１２と、学習データ生成部１１３と、学習モデル生成部１１４とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された学習モデル生成プログラムの機能と捉えることができる。また、図１におけるクラウドサーバ１の機能構成部間を矢印で接続して示した処理の流れは、本発明に係る学習モデル生成方法の一実施形態としても理解される。

同じく図１の機能ブロック図において、画像取得部１１１は、「学習モデル」を生成するための学習データに含まれる画像データを収集して保存し、当該画像データを、学習データ生成のために適宜出力する画像データ管理手段である。画像取得部１１１は例えば、各端末２０から通信インタフェース１０１を介して多数の画像データを取得することができる。また、外部の画像データベースから、クラス情報のタグが付与された多数の画像データを取得してもよい。

摂動画像生成部１１２は、「学習モデル」を生成するための学習データに含まれる「摂動画像データ」を生成する。具体的に本実施形態において、「摂動画像データ」は、画像取得部１１１から取り込んだ、元となる画像データの画像単位（例えばピクセル）毎において、
（ａ）当該画像単位（ピクセル）でのターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、さらに
（ｂ）当該画像単位（ピクセル）でのターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、
当該画像単位に係る値（ピクセル値）に対し所定の摂動を与えることによって生成される。

ここで、上記（ａ）及び（ｂ）の「確率」は、「学習モデル」を適用した識別器から出力される値であり、またこの「確率」（識別器の出力）の勾配は、画像単位の値（ピクセル値，すなわち識別器への入力）の変動に対する変化の割合である。したがってより具体的に「摂動画像データ」は、例えばＪＳＭＡ（Jacobian-based Saliency Map Approach）法を用いて生成されたAdversarial Examplesとすることができる。

このＪＳＭＡ法においては、最初に、X_iを画像単位iの値（例えばピクセルiの値，識別器への入力）とし、∂_iをX_iによる偏微分（すなわち∂／∂X_i）とし、F_t(X)をターゲットクラスtに分類される確率（識別器の出力）とし、F_j(X)をクラスjに分類される確率（識別器の出力）とし、さらにΣ_j/=tをt以外のjについての総和（summation）として、
∂_iF_t(X)＜0、又はΣ_j/=t∂_iF_j(X)＞0である場合に、
（１） S(X, t)[i]＝0となり、
∂_iF_t(X)≧0、且つΣ_j/=t∂_iF_j(X)≦0である場合に、
（２） S(X, t)[i]＝∂_iF_t(X)×|Σ_j/=t∂_iF_j(X)|となる
ようなS(X, t)[i]を、画像単位i毎（ピクセルi毎）に算出し、Adversarial Saliency Map：{S(X, t)[i]}を生成する。

次いで、S(X, t)値の大きな画像単位i（ピクセルi）に対してX_iに摂動を付与する処理を行う。これにより、t以外のjについての確率F_jを小さくしつつt（ターゲットクラス）についての確率F_tを大きくして、結果的に、識別器が入力をターゲットクラスtに（誤）分類し易くなるのである。ここで実際の処理では、ターゲットクラスtに（誤）分類されるまで、又は摂動の大きさが所定の上限に達するまで、摂動を増分させつつ付与することが繰り返される。

なお、以上に述べたＪＳＭＡ法は、例えば非特許文献：Nicolas Papernot et al., "The Limitations of Deep Learning in Adversarial Settings", Cornell University Library，Subjects: Cryptography and Security (cs.CR), Cite as: arXiv: 1511.07528, ２０１５年において詳細に解説されている。

同じく図１の機能ブロック図において、学習データ生成部１１３は、
（ａ）画像データと、この画像データに対応する正解としてのクラスとの（複数の）組と、
（ｂ）上記（ａ）の画像データから生成された摂動画像データと、この摂動画像データ生成の際に設定されたターゲットクラスとの（複数の）組と
を含む学習データを生成する。ここで、上記（ａ）のクラスについては、予めクラスのタグ付けされた画像データを利用してもよく、公知の手法でタグ付けしてもよい。

ちなみに従来、Adversarial Examplesは有害データとして取り扱われ、Adversarial Examplesを学習データに含ませるにしても、識別器のロバスト性を高め本来の正解のクラスを出力させることを目的としたものであった。これに対し、本実施形態は、それとは全く逆に、摂動画像データを積極的に学習に取り入れ、推定クラスの多様化した「学習モデル」を生成可能な学習データを構成するものとなっている。

また、上記（ａ）の画像データ及びクラスの組は、１つのクラスに係る組に限定されず、互いに異なる複数のクラスに係る組を用意してもよい。さらに、上記（ｂ）の摂動画像データ及びターゲットクラスの組も、１つのターゲットクラスに係る組に限定されず、互いに異なる複数のターゲットクラスに係る組を用意することも可能である。

学習モデル生成部１１４は、学習データ生成部１１３で生成された学習データを用いて「学習モデル」を生成する。ここで機械学習アルゴリズムとして、画像認識用に広く使用されているディープニューラルネットワーク（ＤＮＮ，Deep Neural Network）や、ＳＶＭ（Support Vector machine）、さらにはランダムフォレスト（Random Forest）等、種々のアルゴリズムが適用可能である。いずれにしても、画像データが入力されて識別結果が出力される識別器を構成するアルゴリズムならば、種々のものを採用することができる。

具体的に１つの実施態様として、学習モデル生成部１１４は、
（ａ）（摂動）画像データを入力してこれらの特徴に係る特徴情報を出力する第１ＮＮとしての畳み込み層部（Convolutional Layers）と、
（ｂ）畳み込み層部から出力された特徴情報を入力してクラスに係る情報を出力する第２ＮＮとしての全結合層部（Fully-Connected Layers）と
を含む識別器を構成し、これに対し学習データを用いて学習処理を行って「学習モデル」を生成してもよい。

ここで、上記（ａ）の畳み込み層部は、画像データに対しカーネル（重み付け行列フィルタ）をスライドさせて特徴マップを生成する畳み込み処理を実行する。この畳み込み処理によって、画像の解像度を段階的に落としながら、エッジや勾配等の基本的特徴を抽出し、局所的な相関パターンの情報を得ることができる。例えばこの畳み込み層部として、複数の畳み込み層を用いた公知のAlexNetを用いることが可能である。

このAlexNetでは、各畳み込み層はプーリング層と対になっており、畳み込み処理とプーリング処理とが繰り返される。ここでプーリング処理とは、畳み込み層から出力される特徴マップ（一定領域内の畳み込みフィルタの反応）を最大値や平均値等でまとめ、調整パラメータを減らしつつ、局所的な平行移動不変性を確保する処理である。

また他の実施態様として、学習モデル生成部１１４は、畳み込み層を含む畳み込みニューラルネットワーク（ＣＮＮ，Convolutional Neural Network）の出力側に、判別すべきクラス毎に設けられたサポートベクタマシン（ＳＶＭ）を接続した構成の識別器を構成し、これに対し学習データを用いて学習処理を行って「学習モデル」を生成することも可能である。

いずれにしても学習モデル生成部１１４は、生成した「学習モデル」を、通信インタフェース１０１を介して、例えば画像識別装置である端末２０へ送信することができる。

図２は、本発明に係る学習データ生成処理及び学習モデル生成処理の一実施形態を説明するための模式図である。

図２（Ａ）（学習フェーズ）に示したように、本実施形態において学習データ生成部１１３は、
（ａ）画像データが、看板、ポスタや、電光掲示装置といったディスプレイ装置等を含む情報表示体（図２では看板）を画像内に含む画像データであって、クラスが、この情報表示体に係る情報（図２では"看板"）であり、
（ｂ）摂動画像データが、上記（ａ）の情報表示体（看板）を含む画像データに対しＪＳＭＡ法による摂動付与処理を施したデータ（図２では＊印付きのデータ）であって、ターゲットクラスが、この情報表示体（看板）によって表示される情報（図２では「注意・死亡事故現場」との文字情報）に係る情報（"死亡事故現場の看板"）である
ような学習のためのデータを含む学習データを生成する。

なお上記（ｂ）において、ターゲットクラス（当該情報表示体によって表示される情報に係る情報）は、所定の（例えば交通死亡事故ゼロキャンペーンに係る）ウェブページのＵＲＬ（Uniform Resource Locator）としてもよい。その他、ターゲットクラスとして、情報表示体に表示された情報以外にユーザへ伝達したい情報を設定することが可能となっている。

次いで、以上述べたように生成された学習データを用いて、学習モデル生成部１１４は「学習モデル」を生成し、生成した「学習モデル」を端末２０の識別部２１２へ供給する。この後、図２（Ｂ）（実行フェーズ）に示したように、識別部２１２は、取得した「学習モデル」を用いて入力画像データのクラスを推定するのである。

ここで、情報表示体が、図２の看板のように、当該情報表示体によって表示される情報の印刷された印刷部分を含み、画像データは、この印刷部分を撮影することによって生成される場合を考える。この場合、変更態様として、上記（ｂ）の摂動画像データは、この印刷部分を撮影することによって生成された画像データの画像単位毎に、当該画像単位におけるターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えて生成された画像データに係る画像を、所定の基体に印刷したもの（「摂動印刷体」）を撮影することによって生成されたものであってもよい。

なお以上に述べたように、情報表示体が当該情報の印刷された印刷部分を含む場合、いずれにしても、識別部２１２へ摂動画像データを提供することになる情報表示体は、上記の「摂動印刷体」とすることができる。

さらに、情報表示体は、当該情報表示体によって表示される情報が表示画像としてディスプレイに表示されるディスプレイ装置であり、画像データは、表示された表示画像を撮影することによって生成される場合を考える。この場合、更なる変更態様として、上記（ｂ）の摂動画像データは、この表示画像を撮影することによって生成された画像データの画像単位毎に、当該画像単位におけるターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えて生成された画像データに係る表示画像であって、本ディスプレイ装置に表示された表示画像を撮影することによって生成されたものであってもよい。

ちなみに、上記のように情報表示体がディスプレイ装置である場合の具体例は、後に図３を用いて詳細に説明を行う。

［画像識別装置の機能構成，画像識別方法］
同じく図１に示した機能ブロック図によれば、端末２０は、通信インタフェース２０１と、カメラ２０２と、ディスプレイ（ＤＰ）２０３と、プロセッサ・メモリとを有する。ここで、このプロセッサ・メモリは、本発明に係る画像識別プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この画像識別プログラムを実行することによって、画像識別処理を実施する。

このことから、本発明に係る画像識別装置として、ドライブレコーダである本端末２０に代えて、本発明に係る画像識別プログラムを搭載した他の車載情報処理装置や、さらにはカメラを備えた又はカメラと接続されたスマートフォン、ノート型若しくはタブレット型コンピュータ、又はパーソナル・コンピュータ（ＰＣ）等を採用することも可能となる。また、ドライブレコーダとＷｉ-Ｆｉ（登録商標）やBluetooth（登録商標）等で通信接続された端末、例えばスマートフォンを本画像識別装置としてもよい。

さらに、プロセッサ・メモリは、映像生成部２１１と、識別部２１２と、提示情報生成部２１３とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された画像識別プログラムの機能と捉えることができる。また、図１における端末２０の機能構成部間を矢印で接続して示した処理の流れは、本発明に係る画像識別方法の一実施形態としても理解される。

同じく図１の機能ブロック図において、映像生成部２１１は、カメラ２０２から出力された撮影データに基づいて映像データ（画像フレーム群）を生成する。本実施形態において端末２０はドライブレコーダであり、映像生成部２１１は通常、デフォルトの設定として少なくとも自動車２の走行時は常に、車外の状況を撮影した撮影データをカメラ２０２から取得し、映像データ（画像フレーム群）を生成している。

識別部２１２は、通信インタフェース２０１を介してクラウドサーバ１から取得した「学習モデル」を用いて画像データの識別処理を実施する識別器を備えており、映像生成部２１１で生成されたクラス推定対象としての画像データ（画像フレーム）をこの識別器に入力して、推定されるクラスを出力させる。

ここで、図２（Ａ）（学習フェーズ）を用いて説明した「学習データ生成処理」及び「学習モデル生成処理」の続きとしての「画像識別処理」を、図２（Ｂ）（実行フェーズ）を用いて説明する。

図２（Ｂ）（実行フェーズ）に示したように、識別部２１２は、クラウドサーバ１の学習モデル生成部１１４で生成された「学習モデル」を用い、入力された識別対象である画像データに対し識別処理、具体的にはクラス推定処理を実施する。

例えば、識別部２１２は、入力画像データが情報表示体（図２では看板）の画像を含む場合、クラスとして、この情報表示体に係る情報（図２では"看板"）を出力する。一方、入力画像データが摂動画像データ（図２では＊印付きのデータ）である場合、クラスとして、この摂動画像データに係るターゲットクラス（図２では"死亡事故現場の看板"又は"所定ウェブページのＵＲＬ"）を出力する。これにより、１つの識別対象（図２では看板）に係る画像データから、識別結果として互いに異なる情報を導出することが可能となるのである。

また、以上に説明した図２の具体例から理解されるように、「学習モデル」を取り込んだ識別部２１２は、対象（図２では看板）の種類の識別処理を実施可能であるのみならず、ターゲットクラスの設定次第によっては結果的に、対象に係る文字（図２では看板の文字）を認識する処理に相当する処理を実施することも可能となっているのである。

図１の機能ブロック図に戻って、提示情報生成部２１３は、カメラ２０２で撮影され映像生成部２１１で生成された画像データについて、識別部２１２で推定されたクラス情報に基づき、ユーザに伝達すべき提示情報を生成してディスプレイ２０３に表示させる。例えば、ディスプレイ２０３に表示されたリアルタイムの進行方向の映像において、看板が表示映像内に出現した際、この看板映像部分の近傍に「看板有り」との吹き出し画像を表示させてもよい。

また、摂動画像データ相当の看板（例えば図２における＊印付きの看板）が表示映像内に出現した際、識別部２１２から出力される（推定されたターゲットクラスとしての）ＵＲＬに係る交通死亡事故ゼロキャンペーンのウェブページを併せて表示させ、ユーザに注意喚起を行うことも好ましい。

さらに、例えばディスプレイ２０３がタッチパネルも備えている場合、提示情報生成部２１３は、表示された道路マップにおける摂動画像データ相当の看板が識別された位置の近傍に（危険をイメージさせる）アイコンを表示させ、当該アイコンがタップされた際、当該ＵＲＬに係る交通死亡事故ゼロキャンペーンのウェブページをディスプレイ２０３に表示させてもよい。

図３は、本発明に係る画像識別処理の一具体例を説明するための模式図である。

図３に示した本具体例では、識別対象となる画像を表示可能なディスプレイ装置としての電光掲示板３が利用される。電光掲示板３は、ディスプレイ制御部３１及びディスプレイ３２を有し、ディスプレイ制御部３１は本具体例において、
（ａ）文字情報「交通死亡事故多発！」を含む画像データ
をディスプレイ３２に表示させることができ、または、
（ｂ）上記（ａ）の画像データから生成された摂動画像データ
をディスプレイ３２に表示させることも可能となっている。

ここで、端末２０の識別部２１２が取得した「学習モデル」は、上記（ａ）の画像データにクラス"電光掲示板"を対応付けて学習を行っており、また、上記（ｂ）の摂動画像データにはターゲットクラス"交通死亡事故ゼロキャンペーン・ウェブページのＵＲＬ"を対応付けて学習を行ったものとなっている。

このような状況で、電光掲示板３が上記（ａ）の画像データを表示した際、端末２０は、カメラ２０２によって電光掲示板３の表示画像を撮影して画像データを生成し、当該画像データを識別部２１２へ入力して、画像識別結果としてのクラス"電光掲示板"を出力させる。さらに、この出力されたクラスから例えば提示情報「電光掲示板」を生成し、例えばディスプレイ２０３に表示させた道路マップ上の該当位置に、「電光掲示板」を表示してもよい。

一方、電光掲示板３が上記（ｂ）の摂動画像データを表示した際、端末２０は、カメラ２０２によって同じく電光掲示板３の表示画像を撮影して画像データを生成し、当該画像データを識別部２１２へ入力して、画像識別結果としてのクラス"交通死亡事故ゼロキャンペーン・ウェブページのＵＲＬ"を出力させる。さらに、この出力されたクラスに係るＵＲＬにアクセスし、該当するウェブページを例えばディスプレイ２０３に表示させてもよい。

以上、詳細に説明したように、本発明による「学習モデル」によれば、１つの識別対象に係る画像データから、識別結果として互いに異なる情報を導出することができる。また、適用する実施形態によっては、画像データ中により多くの情報を意図的に仕込むことも可能となり、このような画像データを識別させることによって、結果的により多様な情報を提供することも可能となる。

さらに、画像データを端末からクラウドサーバにアップロードし、このクラウドサーバで画像識別処理を実施する場合には結果的に、伝えるべき情報の多様性とともに伝送効率の向上も達成可能となる。例えば応用例として、自動運転車、ドローンや、各種ロボットが撮影した画像を、５Ｇ（第５世代移動通信システム）を利用して伝送する場合において、本発明は、伝送情報の多様性や伝送効率の更なる向上にも大いに貢献するものと考えられる。

以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲内での種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例示であって、何ら制約を意図するものではない。本発明は、特許請求の範囲及びその均等物によってのみ制約される。

１クラウドサーバ（学習モデル生成装置）
１０１、２０１通信インタフェース
１１１画像取得部
１１２摂動画像生成部
１１３学習データ生成部
１１４学習モデル生成部
２自動車
２０端末（識別装置）
２０２カメラ
２０３ディスプレイ（ＤＰ）
２１１映像生成部
２１２識別部
２１３提示情報生成部
３電光掲示板（ディスプレイ装置）
３１ディスプレイ制御部
３２ディスプレイ

Claims

入力画像データに対応するクラスに係る情報を推定するようにコンピュータを機能させる学習モデルであって、
（ａ）画像データと、該画像データに対応するクラスに係る情報との組と、
（ｂ）前記画像データの画像単位に係る値に対し所定の摂動を与えることによって生成された、新たな分類先としてのターゲットクラスに分類される確率を高めた摂動画像データと、当該ターゲットクラスに係る情報との組と
を含む学習データを用いて構築されることを特徴とする学習モデル。
入力画像データに対応するクラスに係る情報を推定するようにコンピュータを機能させる学習モデルであって、
（ａ）画像データと、該画像データに対応するクラスに係る情報との組と、
（ｂ）前記画像データから生成した、新たな分類先としてのターゲットクラスに分類される確率を高めたアドバーサリアル・イグザンプル（Adversarial Examples）である摂動画像データと、当該ターゲットクラスに係る情報との組と
を含む学習データを用いて構築されることを特徴とする学習モデル。
当該摂動画像データは、前記画像データの画像単位毎において、当該画像単位での当該ターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、当該ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えることによって生成されることを特徴とする請求項１又は２に記載の学習モデル。
当該摂動画像データは、ＪＳＭＡ（Jacobian-based Saliency Map Approach）法を用いて生成されたアドバーサリアル・イグザンプルであることを特徴とする請求項１から３のいずれか１項に記載の学習モデル。
当該画像データは、情報表示体を含む画像に係るデータであって、当該画像データに対応するクラスに係る情報は、当該情報表示体に係る情報であり、当該ターゲットクラスに係る情報は、当該情報表示体によって表示される情報に係る情報であることを特徴とする請求項１から４のいずれか１項に記載の学習モデル。
当該情報表示体は、当該情報表示体によって表示される情報が表示画像としてディスプレイに表示されるディスプレイ装置であり、
当該画像データは、表示された当該表示画像を撮影することによって生成され、
当該摂動画像データは、当該表示画像を撮影することによって生成された当該画像データの画像単位毎に、当該画像単位における当該ターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、当該ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えて生成された画像データに係る表示画像であって、前記ディスプレイに表示された表示画像を撮影することによって生成される
ことを特徴とする請求項５に記載の学習モデル。
当該情報表示体は、当該情報表示体によって表示される情報の印刷された印刷部分を含み、
当該画像データは、当該印刷部分を撮影することによって生成され、
当該摂動画像データは、当該印刷部分を撮影することによって生成された当該画像データの画像単位毎に、当該画像単位における当該ターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、当該ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えて生成された画像データに係る画像を、所定の基体に印刷したものを撮影することによって生成される
ことを特徴とする請求項５に記載の学習モデル。
入力画像データに対応するクラスに係る情報を推定するようにコンピュータを機能させる学習モデルを構築可能な学習データであって、
（ａ）画像データと、該画像データに対応するクラスに係る情報との組と、
（ｂ）前記画像データの画像単位に係る値に対し所定の摂動を与えることによって生成された、新たな分類先としてのターゲットクラスに分類される確率を高めた摂動画像データと、当該ターゲットクラスに係る情報との組と
を含むことを特徴とする学習データ。
入力画像データに対応するクラスに係る情報を推定可能な画像識別装置であって、
（ａ）画像データと、該画像データに対応するクラスに係る情報との組と、
（ｂ）前記画像データの画像単位に係る値に対し所定の摂動を与えることによって生成された、新たな分類先としてのターゲットクラスに分類される確率を高めた摂動画像データと、当該ターゲットクラスに係る情報との組と
を含む学習データを用いて構築された学習モデルに対し、識別対象画像データを入力し、識別対象画像データに対応するクラス又はターゲットクラスを推定することを特徴とする画像識別装置。
入力画像データに対応するクラスに係る情報を推定するようにコンピュータを機能させる学習モデルを構築可能な学習データを生成する方法であって、
画像データの画像単位に係る値に対し所定の摂動を与えることによって、新たな分類先としてのターゲットクラスに分類される確率を高めた摂動画像データを生成し、
前記画像データと該画像データに対応するクラスに係る情報との組、及び、前記摂動画像データと当該ターゲットクラスに係る情報との組を含むデータ群を生成し、当該データ群を学習データとする
ことを特徴とする学習データ生成方法。
請求項１０に記載された学習データ生成方法によって生成された学習データを用いて学習モデルを生成することを特徴とする学習モデル生成方法。