JP7117720B1 - 画像生成装置 - Google Patents

画像生成装置 Download PDF

Info

Publication number
JP7117720B1
JP7117720B1 JP2022052099A JP2022052099A JP7117720B1 JP 7117720 B1 JP7117720 B1 JP 7117720B1 JP 2022052099 A JP2022052099 A JP 2022052099A JP 2022052099 A JP2022052099 A JP 2022052099A JP 7117720 B1 JP7117720 B1 JP 7117720B1
Authority
JP
Japan
Prior art keywords
image
unit
identification
pseudo
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022052099A
Other languages
English (en)
Other versions
JP2022159995A (ja
Inventor
雅臣 安江
靖士 藤井
新太 真木
優介 宮澤
匡人 白井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan System Devolpment Co Ltd
National University Corp Shimane University
Original Assignee
Japan System Devolpment Co Ltd
National University Corp Shimane University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan System Devolpment Co Ltd, National University Corp Shimane University filed Critical Japan System Devolpment Co Ltd
Priority to JP2022117384A priority Critical patent/JP2022160004A/ja
Application granted granted Critical
Publication of JP7117720B1 publication Critical patent/JP7117720B1/ja
Publication of JP2022159995A publication Critical patent/JP2022159995A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Character Discrimination (AREA)

Abstract

Figure 0007117720000001
【課題】学習用データを用意する労力を軽減する画像生成装置を提供する。
【解決手段】画像生成装置1は、第1画像を生成する画像生成部111と、第2画像を取得する画像取得部112と、第1画像と第2画像とを用いて、第2画像が有する文字等情報を識別する第1識別部115と、第2画像が有する文字等情報を識別できた場合に、第1識別部が行った識別結果を機械学習させる識別機械学習部113と、第2画像が有する文字等情報を識別できなかった場合に、第2画像を模した擬似第2画像を生成する生成部114と、第1画像に基づき擬似第2画像が有する文字等情報を識別する第2識別部115と、第2識別部115の識別結果を用いて、擬似第2画像の生成に用いるデータを機械学習させる生成機械学習部116と、を備える。識別機械学習部113は、第1画像及び擬似第2画像を用いて、第2識別部の識別結果を機械学習させる。
【選択図】図1

Description

本発明は、対象を撮影した画像の認識に用いる学習データを生成することのできる画像生成装置に関する。
自動車登録番号等を提供するナンバープレート及び道路に関する情報等を提供する道路標識等によって例示される、各種の情報を提供する物品(以下、単に対象とも称する。)がある。これらの対象を撮影した画像を電子的に処理し、対象が提供する情報を取得する要望がある。
対象を撮影した画像を電子的に処理することによって対象が提供する情報を取得することに関し、特許文献1によれば、ナンバープレートのナンバー等の特徴量データを学習用データとした機械学習により重みパラメータとなる検出用データを更新し、特徴量データに一致または類似する補正用データを推論することができる機能が開示されている。特許文献1によれば、機械学習により更新した補正用データをもとに対象を撮影した画像の不鮮明な領域を補正し、対象が提供する情報をより確実に取得することを見込み得る。
特開2015-191666号公報
学習用データが多ければ多いほど、機械学習の効果を高め得る。しかしながら、ナンバープレート等の対象を撮影した画像を多数集めることは、多大な労力を要し得る。特許文献1は、多くの学習用データを用意する労力を軽減する点において、さらなる改良の余地がある。
本発明は、このような事情に鑑みてなされたものであり、その目的は、学習用データを用意する労力を軽減することの可能な画像生成装置を提供することである。
本発明者らは、上記課題を解決するために鋭意検討した結果、文字等情報を用いて生成した第1画像に基づく画像生成を行い、敵対的生成ネットワーク(Generative adversarial networks、GAN)を用いてこの画像生成を機械学習することで上述の課題を解決可能であることを見出し、本発明を完成させるに至った。具体的に、本発明は以下のものを提供する。
第1の特徴に係る発明は、文字、図形、記号若しくは立体的形状若しくはこれらの結合又はこれらと色彩との結合に関する文字等情報を用いて第1画像を生成する画像生成部と、前記文字等情報を有する対象を撮影した第2画像を取得する画像取得部と、前記第1画像と前記画像取得部が取得した前記第2画像とを用いて、前記第2画像が有する前記文字等情報を識別する第1識別部と、前記第1識別部により、前記第2画像が有する前記文字等情報を識別できたか否かを判断する判断部と、前記判断部により、前記第2画像が有する前記文字等情報を識別できた場合に、前記第1識別部が行った識別結果を、識別ニューラルネットワークに機械学習させる識別機械学習部と、前記判断部により、前記第2画像が有する前記文字等情報を識別できなかった場合に、前記第1画像と生成ニューラルネットワークとを用いて、前記第2画像を模した擬似第2画像を生成する生成部と、前記識別ニューラルネットワークを用いて、前記第1画像に基づき前記擬似第2画像が有する前記文字等情報を識別する第2識別部と、前記第2識別部の識別結果を用いて、前記生成ニューラルネットワークに前記擬似第2画像の生成に用いるデータを機械学習させる生成機械学習部と、を備え、前記識別機械学習部は、前記第1画像及び前記擬似第2画像を用いて、前記識別ニューラルネットワークに、前記第2識別部の識別結果を機械学習させる、画像生成装置である。
文字等情報を有する対象を撮影した画像を学習用データとして用いる機械学習では、学習用データとして利用される画像が対象を撮影した画像と同様の特徴を備えていることが好ましい。すなわち、学習用データとして利用される画像は、対象を撮影した本物の画像のように見える画像であることが好ましい。
第1の特徴に係る発明によれば、識別機械学習部が第1画像と第2画像との対応付けの識別の教師あり学習を行える。対象を撮影した第2画像に基づく教師あり学習を行えることにより、第1画像と第2画像との対応付けをより的確に識別できる。
第1の特徴に係る発明によれば、教師あり学習を行った識別ニューラルネットワークを用いて、文字等情報を用いて生成した第1画像と文字等情報を有する対象を撮影した第2画像との対応付けを識別し得る。これにより、生成部が生成した擬似第2画像のうち、第1画像と対応し、対象を撮影した第2画像であると識別される、本物のように見える画像のみを提供し得る。したがって、文字等情報を有する対象を撮影した画像を学習用データとして用いる機械学習における学習用データとして利用可能な画像を提供し得る。
第1の特徴に係る発明によれば、第1識別部による識別結果を用いて生成ニューラルネットワークに生成を機械学習させるため、生成ニューラルネットワークは、対象を撮影した第2画像であるとよりいっそう識別される、本物のように見える第2画像を生成するよう機械学習し得る。
第1の特徴に係る発明によれば、対象を撮影した第2画像だけでなく、生成部が生成した擬似第2画像を用いて、識別ニューラルネットワークに識別結果を機械学習させるため、識別ニューラルネットワークは、対象を撮影した第2画像と生成部が生成した擬似第2画像との違いを機械学習し得る。これにより、第2識別部が第2画像であると識別する擬似第2画像は、対象を撮影した第2画像が有する特徴をより多く備え、生成部が生成した擬似第2画像が有する特徴をより少なく備える画像となり得る。すなわち、よりいっそう本物のように見える画像となり得る。
第1の特徴に係る発明によれば、生成部を生成器とし、識別部を識別器とする、敵対的生成ネットワークを用いた機械学習を実現し得る。本物のように見える画像を生成するニューラルネットワークの機械学習に関し、敵対的生成ネットワークを用いた機械学習を行うことにより、ニューラルネットワークの教師なし学習を効果的に行い得ることが知られている。
識別ニューラルネットワークの教師あり学習では、対象を撮影した第2画像が必要となる。対象を撮影した第2画像を多数用意するためには、多大な労力を必要とし得る。第1の特徴に係る発明によれば、敵対的生成ネットワークを用いた教師なし学習によって、より対象を撮影した画像のように見える擬似第2画像を生成するよう機械学習し得るため、対象を撮影した第2画像を多数用意する労力を軽減しつつ、よりいっそう本物のように見える画像を提供できる。
したがって、第1の特徴に係る発明によれば、文字等情報を有する対象を撮影した画像を学習用データとして用いる機械学習における学習用データとして利用可能な画像を提供し得る。
第2の特徴に係る発明は、第1の特徴に係る発明であって、前記第2識別部の識別結果は、前記第2画像であるか前記生成部が生成した擬似第2画像であるか否かの識別結果を含み、前記識別機械学習部は、前記識別結果を前記識別ニューラルネットワークに機械学習させることが可能である、画像生成装置を提供する。
第2の特徴に係る発明によれば、画像取得部が取得した第2画像であるか、生成部が生成した擬似第2画像であるかを識別するため、画像取得部が取得した画像であると識別部が識別する、より本物のように見える擬似第2画像のみを提供し得る。識別機械学習部が識別ニューラルネットワークにこの判別を機械学習させることにより、識別部が識別する精度を高め得る。したがって、より高い精度の識別に基づく、さらにいっそう本物のように見える画像のみを提供し得る。
したがって、第2の特徴に係る発明によれば、文字等情報を有する対象を撮影した画像を学習用データとして用いる機械学習における学習用データとして利用可能な画像を提供し得る。
第3の特徴に係る発明は、第1又は第2の特徴に係る発明であって、前記生成部は、前記画像取得部が取得した前記第2画像であると前記識別部が識別する前記擬似第2画像を生成可能であり、前記生成機械学習部は、前記画像取得部が取得した前記第2画像であると前記識別部が識別する前記擬似第2画像の生成を前記生成ニューラルネットワークに機械学習させることが可能である、画像生成装置を提供する。
第3の特徴に係る発明によれば、画像取得部が取得した第2画像であると識別部が識別する擬似第2画像を生成可能であることにより、より本物のように見える画像を提供し得る。生成機械学習部が生成ニューラルネットワークに機械学習させることにより、生成部は、さらにいっそう本物のように見える擬似第2画像を生成し得る。したがって、機械学習を行った生成ニューラルネットワークに基づく、さらにいっそう本物のように見える画像のみを提供し得る。
したがって、第3の特徴に係る発明によれば、文字等情報を有する対象を撮影した画像を学習用データとして用いる機械学習における学習用データとして利用可能な画像を提供し得る。
第4の特徴に係る発明は、第1の特徴から第3の特徴のいずれかに係る発明であって、前記対象は、立体的形状を有し、前記画像生成部は、立体的形状を表現した前記第1画像を生成可能である、画像生成装置を提供する。
ナンバープレート及び交通標識等によって例示される立体的形状を有する対象を撮影した画像では、立体的形状に由来する画像の特徴(例えば、影、ハイライト。)が、第1画像と第2画像との対応付けの識別におけるノイズとなり得る。したがって、対象が立体的形状を有する場合において識別部が行う識別は、識別の精度という点において、さらなる改良の余地がある。
第4の特徴に係る発明によれば、画像生成部が立体的形状を表現した第1画像を生成可能であることにより、立体的形状に由来する第2画像の特徴が第1画像と第2画像との対応付けの識別におけるノイズとなることを軽減し得る。これにより、対象が立体的形状を有する場合に識別部が行う識別の精度をよりいっそう高め得る。また、識別学習部が機械学習する精度を高め得る。したがって、より高い精度の識別に基づく、さらにいっそう本物のように見える画像のみを提供し得る。
したがって、第4の特徴に係る発明によれば、文字等情報を有する対象を撮影した画像を学習用データとして用いる機械学習における学習用データとして利用可能な画像を提供し得る。
本発明によれば、文字等情報を有する対象を撮影した画像を、多数用意する労力を軽減することの可能な画像生成装置を提供できる。
図1は、本実施形態の画像生成装置1について、その構成の一例を示すブロック図である。 図2は、教師用画像テーブル121の一例を示す図である。 図3は、生成画像テーブル122の一例を示す図である。 図4は、画像生成装置1が行う画像生成処理の一例を示すフローチャートである。 図5は、画像生成部111が行う第1画像を生成する処理の一例を示すフローチャートである。 (A)は、第1画像の一例を示す模式図、(B)は、第2画像及び擬似第2画像を包括して示す模式図である。
以下、本発明を実施するための好適な形態の一例について説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
<画像生成装置1>
図1は、本実施形態の画像生成装置1について、その構成の一例を示すブロック図である。以下、図1を用いて、本実施形態の画像生成装置1における好適な構成の一例を説明する。
画像生成装置1は、少なくとも、制御部11と記憶部12とを備える。画像生成装置1は、ネットワーク10を介して外部の端末20と通信することを可能にする通信部13をさらに備えることが好ましい。これにより、画像生成装置1は、ネットワーク10を介した画像の取得または提供のうちの少なくとも一方を行い得る。端末20は、カメラにより対象を撮影した画像を画像生成装置1へ送る機能を有するもの、及び画像生成装置1から学習データの提供を受けるものを含む。
〔制御部11〕
制御部11は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)、及びROM(Read Only Memory)等を備えるマイクロコンピュータである。
制御部11は、所定のプログラムを読み込み、必要に応じて記憶部12または通信部13のうちの少なくとも一方と協働することで、画像生成装置1におけるソフトウェア構成の要素である画像生成部111、画像取得部112、識別機械学習部113、生成部114、識別部115、生成機械学習部116、及び判断部17等を実現する。画像生成部111は、第1画像を生成する機能を有する。第1画像には、補助データが添付される。補助データの意味は後述する。画像取得部112は、外部の端末20から通信部13を介して第2画像を取得する機能と、端末20から取得されて記憶部12に記憶されている第2画像を取得する機能と、を有する。生成部114は、生成ニューラルネットワークにより、第1画像を用いて擬似第2画像を生成する機能を有する。画像取得部112が取得する第2画像は、対象を撮影した画像である。
生成部114が生成する擬似第2画像は、対象を撮影した第2画像を模した擬似的な画像である。擬似第2画像には、補助データが添付される。補助データの意味は後述する。識別部115は、ニューラルネットワークにより、第1画像と第2画像との対応付けを識別(認識)する機能と、第1画像と擬似第2画像との対応付けを識別(認識)する機能と、を有する。なお、「第1画像と第2画像との対応付けを識別」の意味、「第1画像と擬似第2画像との対応付けを識別」の意味は、後述する。また、「擬似第2画像」の意味は後述する。生成機械学習部116は、識別部115が行った識別結果を用いて、生成ニューラルネットワークに、生成部114が行う「擬似第2画像の生成」に用いたデータを機械学習させる機能を有する。判断部17は、「識別部115により第1画像と第2画像との対応付けの識別を行うことができたか否か」を判断する機能を有する。
〔記憶部12〕
記憶部12は、データやファイルが記憶される装置であって、ハードディスク、半導体メモリ、記録媒体、及びメモリカード等によって例示される記憶手段の1以上を用いて実現される、データのストレージ部を有する。記憶部12は、ネットワーク10を介してNAS(Network Attached Storage)、SAN(Storage Area Network)、クラウドストレージ、ファイルサーバ及び/又は分散ファイルシステム等の記憶装置又は記憶システムとの接続を可能にする仕組みを有してもよい。
記憶部12には、マイクロコンピュータで実行される制御プログラム、教師用画像テーブル121、生成画像テーブル122、識別ニューラルネットワーク、生成ニューラルネットワーク等が記憶されている。
[教師用画像テーブル121]
図2は、教師用画像テーブル121の一例を示す図である。教師用画像テーブル121は、第1画像と第2画像との対応付けを識別ニューラルネットワークに機械学習させる処理において教師データ(学習用データとも称する。)となる、文字等情報を用いて生成された第1画像と、該文字等情報を有する対象を撮影した第2画像とを、対応付けたデータを格納するテーブルである。
教師用画像テーブル121は、第1画像と第2画像とを対応付けたデータと、該データを識別可能な教師用画像IDとを、関連付けて格納することが好ましい。これにより、教師用画像IDを用いてデータ及び関連付けられた各種情報を識別し、格納及び/又は取得し得る。
必須の態様ではないが、教師用画像テーブル121は、第1画像と第2画像とを対応付けたデータと第1画像の生成に用いられた文字等情報とを関連付けて格納することが好ましい。これにより、第1画像及び/又は第2画像と関連する文字等情報を取得し、利用し得る。例えば、特定の文字等情報を含む文字等情報と関連付けられたデータのみを教師データとして用いる機械学習を行い得る。
図2の教師用画像ID「T0001」には、文字列「川崎999 お20-46」を自動車のナンバープレート(自動車登録番号標)を模して配置した第1画像と、自動車登録番号「川崎999 お20-46」を示すナンバープレートを撮影した第2画像と、文字等情報「ナンバープレート 川崎999 お20-46 白地に緑文字」と、が関連付けられて格納されている。
また、教師用画像ID「T0002」には、那須まで直進4kmであることを示す道路標識に関する第1画像、第2画像、及び文字等情報が関連付けられて格納されている。教師用画像ID「T0003」には、イチョウを象った旗に関する第1画像、第2画像、及び文字等情報が関連付けられて格納されている。
図2の教師用画像テーブル121に格納されたデータに関して説明する。文字等情報を用い、対象を模して生成された第1画像は、文字等情報とその立体的形状の表現とを有する。これに対して、対象を撮影した第2画像は、文字等情報及び立体的形状を有することに加えて、ぼやけ、ブレ、反射、汚れ、傾き、及びゆがみ等によって例示される撮影に由来するノイズをも有する。これは、対象が各種の移動体、例えば、車両、自動二輪車、原動機付自転車等に取り付けられるナンバープレートであると、屋外を走行する移動体のナンバープレートをカメラで撮影する場合に特有のノイズである。移動体の走行中または停止状態でナンバープレートをカメラで撮影すると、移動体の移動速度、天候、移動体の周囲の環境における照明の有無、太陽に対する移動体の走行向き、1日のうちの時間帯、等の条件により、第2画像におるノイズの種類、ノイズのレベルの少なくとも一方が異なる。
図6(A)には、第1画像50の詳細が示され、図6(B)には、第2画像60の詳細が示されている。第1画像50及び第2画像60の対象として、ナンバープレートが例示されている。第1画像は、文字等情報が表示される領域として、地名表示部51、分類番号表示部52、ひらがな表示部53、一連指定番号表示部54を有する。第2画像60は、文字等情報が表示される領域として、地名表示部61、分類番号表示部62、ひらがな表示部63、一連指定番号表示部64を有する。地名表示部51,61には、移動体が登録されている地域名が表示され、分類番号表示部52,62には、移動体の分類番号が表示される。ひらがな表示部53,63には、ひらがな1文字が表示され、一連指定番号表示部54,64には、2桁の算用数字に次いでハイフンが記号で表示され、さらに、2桁の算用数字が表示される。
例えば、教師用画像ID「T0001」の第2画像は、撮影時における焦点の不一致に由来する「川」の字がぼやけるノイズ、撮影時の反射に由来する「0」の一部が反射で凹むノイズ、及び撮影時のブレに由来する「9」の字がつぶれるノイズ等を含んでいる。教師用画像テーブル121には、このような第1画像と第2画像とを対応付けたデータが格納される。つまり、教師用画像テーブル121は、文字等情報を有する第1画像を提供すること、撮影に由来するノイズをも有する画像を、第1画像と対応付けられた第2画像であると識別するデータを提供すること、ができる。また、教師用画像テーブル121は、識別結果を、識別ネットワークに機械学習させる教師データとして提供することもできる。教師用画像テーブル121に格納する第2画像は、図2において例示した、対象としてのナンバープレート、道路標識、及び旗を撮影した第2画像に限定されず、例えば、電光掲示板を撮影した第2画像等、文字等情報を有する各種の対象を撮影した第2画像でよい。
[生成画像テーブル122]
図3は、生成画像テーブル122の一例を示す図である。生成画像テーブル122は、文字等情報を用いて生成された第1画像と、第1画像を用いて生成部114が生成した第2画像とを関連付けて格納するテーブルである。
生成画像テーブル122は、第2画像と該第2画像を識別可能な生成画像IDとを関連付けて格納することが好ましい。これにより、生成画像IDを用いて第2画像及び関連付けられた各種情報を識別し、格納及び/又は取得し得る。
必須の態様ではないが、生成画像テーブル122は、第1画像の生成に用いられた文字等情報と第2画像とを関連付けて格納することが好ましい。これにより、第1画像及び/又は第2画像と関連する文字等情報を取得し、利用し得る。例えば、特定の文字等情報を含む文字等情報と関連付けられた第2画像のみを、生成された第2画像として取得し、提供する処理を行い得る。
必須の態様ではないが、生成画像テーブル122は、識別部115による第2画像の識別に関する識別結果を格納可能であることが好ましい。これにより、例えば、第1画像に対応し、画像取得部112によって取得された第2画像であると識別されたことを示す識別結果等によって例示される特定の識別結果と関連付けられた第2画像を指定して取得し得る。
図3の生成画像ID「G0001」には、文字等情報「ナンバープレート 川崎999 お11-92 白地に緑文字」と、文字列「川崎999 お11-92」を自動車のナンバープレートを模して配置した第1画像と、該第1画像を用いて生成された第2画像と、該第2画像が該第1画像に「対応」し、かつ、生成部114によって「生成」された第2画像である、と識別されたことを示す識別結果「対応 生成」と、が関連付けられて格納されている。
図3の生成画像ID「G0002」には、文字等情報「ナンバープレート 那須999 お20-11 白地に緑文字」と、該文字等情報に関する第1画像及び第2画像と、該第2画像が該第1画像に「対応」し、かつ、画像取得部112によって「取得」された第2画像である、と識別されたことを示す識別結果「対応 取得」と、が関連付けられて格納されている。
これらの第2画像等が格納されていることにより、生成された第2画像を取得し、学習用データとして利用し得る。
[識別ニューラルネットワーク]
識別部115が用いるニューラルネットワークは、第1画像と第2画像との対応付けを識別可能なニューラルネットワークである。識別ニューラルネットワークは、特に限定されず、従来技術のニューラルネットワークでよい。
識別ニューラルネットワークの種類は、特に限定されず、例えば、順伝播型ニューラルネットワーク(フィードフォワードニューラルネットワーク、又はFFNNとも称される。)、畳み込みニューラルネットワーク(Convolutional neural network、CNN、又は、ConvNetとも称される。)、Deep stacking network(DSNとも称される。)、RBFネットワーク(Radial basis function networkとも称される。)、回帰型ニューラルネットワーク(リカレントニューラルネットワーク、又は、RNNとも称される。)、モジュール型ニューラルネットワーク(Modular neural network)等によって例示される従来技術のニューラルネットワークの1以上を含むニューラルネットワークでよい。
識別ニューラルネットワークは、なかでも、画像認識に優れる畳み込みニューラルネットワークを含むことが好ましい。識別ニューラルネットワークが畳み込みニューラルネットワークを含むことにより、第1画像と第2画像との対応付けをよりいっそう的確に識別し得る。
[生成ニューラルネットワーク]
生成部114が用いる生成ニューラルネットワークは、第1画像を用いて擬似第2画像を生成可能なニューラルネットワークである。生成ニューラルネットワークは、特に限定されず、従来技術のニューラルネットワークでよい。
文字等情報とニューラルネットワークとを用いて画像を生成する場合、画像と異なる種類の情報である文字等情報から画像を生成するため、所望の画像が得られない場合があり得る。生成ニューラルネットワークが第1画像を用いて擬似第2画像を生成可能なニューラルネットワークであることにより、本物の第2画像と同じ種類の情報である第1画像から擬似第2画像を生成できる。これにより、所望の擬似第2画像をよりいっそう生成し得る。
生成ニューラルネットワークの種類は、特に限定されず、例えば、順伝播型ニューラルネットワーク(フィードフォワードニューラルネットワーク、又はFFNNとも称される。)、逆畳み込みニューラルネットワーク(Deconvolutional neural network)、Deep stacking network(DSNとも称される。)、RBFネットワーク(Radial basis function networkとも称される。)、回帰型ニューラルネットワーク(リカレントニューラルネットワーク、又は、RNNとも称される。)、モジュール型ニューラルネットワーク(Modular neural network)等によって例示される従来技術のニューラルネットワークの1以上を含むニューラルネットワークでよい。
生成ニューラルネットワークは、なかでも、画像生成に優れる逆畳み込みニューラルネットワークを含むことが好ましい。生成ニューラルネットワークが逆畳み込みニューラルネットワークを含むことにより、第1画像から第2画像を生成することをよりいっそう的確に実現し得る。
〔通信部13〕
画像生成装置1は、画像生成装置1の外部の装置との通信を行う通信部13を備えてもよい。画像生成装置1が通信部13を備えることにより、生成した第2画像等を外部の装置に送信できる。画像生成装置1が通信部13を備えることにより、対象を撮影した第2画像を、外部の装置から受信できる。画像生成装置1が通信部13を備えることにより、外部の端末20から画像生成に関する指令を受信し得る。
〔表示部〕
画像生成装置1は、図1のように、生成した第2画像等を表示可能な表示部14を備えることが好ましい。表示部14は、制御部11に通信可能に接続されている。表示部14の種類は、特に限定されない。表示部14として、例えば、モニタ、タッチパネル、プロジェクタ、外部の装置に生成した第2画像を表示させるビデオカード等が挙げられる。
〔入力部〕
画像生成装置1は、画像生成装置1を利用する利用者からの入力を可能とする入力部15を備えることが好ましい。入力部15は制御部11に通信可能に接続されている。入力部15の種類は、特に限定されない。入力部15として、例えば、キーボード、マウス、タッチパネル、外部の装置から入力を受信する通信デバイス等が挙げられる。
〔画像生成装置1で実行される画像生成処理のメインフローチャート〕
図4は、画像生成装置1を用いた画像生成処理の好ましい流れの一例を示すフローチャートである。
[ステップS1:文字等情報を受信したか否かを判別]
制御部11は、記憶部12と協働して判断部17を実行し、文字等情報を受信したか否かを判断する(ステップS1)。制御部11は、ステップS1でYesと判断した、つまり、文字等情報を受信したならば、ステップS2に進む。制御部11は、ステップS1でNoと判断した、つまり、文字等情報を受信していないならば、制御部11は、ステップS1の判断を繰り返す。制御部11が、文字等情報を受信したか否かを判別することにより、文字等情報を受信した場合に、ステップS2で実行される第1画像を生成する処理を実行できる。
文字等情報を受信したか否かを判断する判断部17は、通信部13を介して外部の端末20から文字等情報を受信したか否かを判断する機能、制御部11及び/又は記憶部12を介して他のプログラムから文字等情報を受信したか否かを判断する機能、並びに入力部15を介して利用者から文字等情報を受信したか否かを判断する機能等を有する。
[ステップS2:第1画像を生成]
制御部11は、記憶部12と協働して画像生成部111を実行し、ステップS1で受信した文字等情報を用いて第1画像(モデル)を生成する(ステップS2)。第1画像の対象がナンバープレートであると、第1画像の文字等情報は、地名、分類番号、ひらがな、一連指定番号を含む。これにより、第2画像と同じ種類の情報であり、かつ、文字等情報を有する第1画像を生成できる。必須の態様ではないが、文字等情報を有する対象が立体的形状を有する場合、画像生成部111は、立体的形状を表現した第1画像を生成可能であることが好ましい。
ナンバープレート及び交通標識等によって例示される立体的形状を有する対象を撮影した画像では、立体的形状に由来する画像の特徴(例えば、影、ハイライト。)が、第1画像と第2画像との対応付けの識別におけるノイズとなり得る。したがって、対象が立体的形状を有する場合において識別部115が行う識別は、識別の精度という点において、さらなる改良の余地がある。
画像生成部111が立体的形状を表現した第1画像を生成可能であることにより、立体的形状に由来する第2画像の特徴が第1画像と第2画像との対応付けの識別におけるノイズとなることを軽減し得る。これにより、対象が立体的形状を有する場合に識別部115が行う識別の精度をよりいっそう高め得る。したがって、より高い精度の識別に基づく、さらにいっそう本物のように見える画像のみを提供し得る。また、画像生成部111は、第1画像としてナンバープレートを生成する場合、ナンバープレートが取り付けられる移動体の走行速度、天候、移動体の周囲の環境における照明の有無、太陽に対する移動体の走行向き等の補助データも、第1画像に添付することができる。ステップS2において画像生成部111が行う第1画像を生成する処理については、後に図5を用いてより詳細に説明する。制御部11は、ステップS2の処理に次いで、ステップS30の処理を行う。
[ステップS30:第1画像と第2画像との対応の識別処理]
制御部11は、ステップS30において、記憶部12及び識別部115とが協働して、画像取得部112が取得した第2画像を用い、第1画像と第2画像との対応付けの識別を行う。第2画像は、文字等情報を有する対象を撮影した画像である。ここで、「第1画像と第2画像との対応付けの識別」は、第1画像に基づいて、第2画像に含まれる文字等情報を認識すること、を含む。
また、制御部11は、ステップS30において、第2画像に付与されている補助データ、例えば、画像の撮影日時、撮影場所、移動体の走行速度、天候、移動体の周囲の環境における照明の有無等も認識できる。識別部115が、第1画像と第2画像との対応の識別を行う場合、ニューラルネットワークとして、ResNet18を用いることができる。ResNet18は、深さが18層の畳み込みニューラルネットワークである。また、識別部115が第1画像と第2画像との対応の識別を行う場合、アルゴリズムとしてYOLOを用いて対象における文字等情報の位置を推論することができる。また、認識した文字等情報の種類も推論できる。制御部11がステップS30の処理を行うことにより、第2画像に含まれる文字等情報を認識できる。
[ステップS31:第1画像と第2画像との対応の識別を行えたか否かの判断]
制御部11は、上記ステップS30において、第1画像と第2画像との対応付けの識別を行うことができる場合と、第1画像と第2画像との対応付けの識別を行うことができない場合とがある。例えば、第2画像が不鮮明であること、または、第2画像の撮影環境の照度が不足していること、第2画像の撮影時の天候が雨天であること、等の場合、第1画像と第2画像との対応付けの識別を行うことができない。そこで、制御部11の判断部17は、ステップS30に次ぐステップS31において、第1画像と第2画像との対応の識別を行えたか否かを判断する。
[ステップS4:第1画像と第2画像との対応の識別結果を教師あり機械学習]
制御部11は、ステップS31でYesと判断すると、ステップS4に進み、第1画像と第2画像との対応の識別結果を、図2に示す教師用画像テーブル121に格納する。これと併せて、第2画像に付与されている補助データも、図2に示す教師用画像テーブル121に格納できる。一方、制御部11は、ステップS31でNoと判断すると、制御部11は、ステップS5に進む。
制御部11が、ステップS31で「第1画像と第2画像との対応を識別できたか否か」を判断することにより、第2画像を取得した場合にステップS4で教師あり学習を行うこと、及び第2画像を取得していない場合にステップS5で擬似第2画像を生成すること、を両立できる。文字等情報を有する対象を撮影した第2画像を取得する手段は、特に限定されず、通信部13を介して外部の端末20から第2画像を取得する手段、制御部11及び/又は記憶部12を介して他のプログラムから第2画像を取得する手段、並びに記憶部12から第2画像を取得する手段等によって例示される、従来技術のマイクロコンピュータにおいて画像を取得することに利用可能な各種の手段でよい。
[ステップS4:対応付けの識別結果を、教師あり機械学習させる]
制御部11は、記憶部12と協働して識別機械学習部113を実行し、図2に示す教師用画像テーブル121に格納された第1画像と、本物の第2画像と対応付けたデータを用いて、第1画像と第2画像との対応付けの識別を行い、かつ、その識別結果を、識別ニューラルネットワークに教師あり機械学習させる(ステップS4)。ここで、「第1画像と第2画像との対応付けの識別」は、第1画像に基づいて、第2画像に含まれている文字等情報を認識すること、を含む。制御部11は、ステップS4の処理後、ステップS1に戻る。
これにより、識別機械学習部113は、対象を撮影した第2画像に基づいて、第1画像と第2画像との対応付けの識別結果を、教師あり機械学習できる。この教師あり機械学習においては、第2画像に付与される補助データと、第2画像におけるノイズの種類、ノイズのレベル等との関連付けが行われる。したがって、ステップS4以降にステップS1を経由し、再度、ステップS4に進んだ場合に、識別機械学習部113は、第1画像と第2画像との対応付けの識別を的確に行うことができる。
教師あり機械学習に利用するアルゴリズムは、特に限定されず、誤差逆伝播法、Widrow-Hoff法(デルタルールとも称される。)等の確率的勾配降下法、勾配降下法、オンライン学習、バッチ学習、ロジスティック関数、シグモイド関数、及び/又は最大値関数等の1以上を用いる、既知のニューラルネットワークの教師あり学習に関する機械学習アルゴリズムを利用できる。
[ステップS5:擬似第2画像を生成]
制御部11は、記憶部12と協働して生成部114を実行し、ステップS2において生成した第1画像と生成ニューラルネットワークとを用いて擬似第2画像を生成し、擬似第2画像と第1画像とを関連付けて生成画像テーブル122に格納する(ステップS5)。ステップS5で実行される処理により、第1画像に基づく擬似第2画像を生成できる。擬似第2画像は、ステップS30で識別部115が認識できなかった第2画像に近似した画像データである。図6(B)には、擬似第2画像60Aの一例が示されている。擬似第2画像60Aは、第2画像60と同様に、文字等情報が表示される領域として、地名表示部61、分類番号表示部62、ひらがな表示部63、一連指定番号表示部64を有する。
必須の態様ではないが、生成部114が生成する擬似第2画像は、ステップS30で識別部115が認識できるようなものを生成可能であることが好ましい。これにより、より本物のように見える画像を提供し得る。制御部11は、ステップS5の処理後、ステップS6に進む。
[ステップS6:第1画像と擬似第2画像との識別結果を機械学習]
制御部11は、記憶部12と協働して識別部115を実行し、識別ニューラルネットワークを用いて、ステップS2で生成された第1画像と、ステップS5で生成された擬似第2画像との対応付けを識別する(ステップS6)。
ステップS6で実行される処理により、生成部114が生成した擬似第2画像のうち、第1画像と対応し、対象を撮影した第2画像であると識別される、本物のように見える画像のみを提供し得る。したがって、文字等情報を有する対象を撮影した画像を学習用データとして用いる機械学習における学習用データとして利用可能な画像を提供し得る。
ステップS6における処理は、ステップS30で行われた識別結果と、ステップS5で生成した擬似第2画像とを関連付けて、生成画像テーブル122に格納する処理を含むことが好ましい。これにより、ステップS6で識別部115が行った識別結果に応じた学習用データを記憶部12に記憶し、かつ、その学習用データを外部へ提供し得る。
ステップS6で識別部115が行う識別は、画像取得部112が取得した本物の第2画像であるか、生成部114が生成した擬似第2画像であるかを識別することを含む。これにより、以後、識別部115が、画像取得部112により取得した第2画像であると判断する画像、つまり、より本物のように見える擬似第2画像のみを、生成部114で生成し得る。制御部11は、ステップS6の処理後、ステップS7に進む。
[ステップS7:擬似第2画像の生成を機械学習]
制御部11は、記憶部12と協働して生成機械学習部116を実行し、ステップS6で行った識別結果を用いて、生成ニューラルネットワークに擬似第2画像の生成を機械学習させる(ステップS7)。つまり、制御部11は、生成部114が生成した擬似第2画像を自己評価及び推論する。制御部11は、ステップS7の処理後、ステップS8に進む。
ステップS7における処理では、識別部115による識別を用いて生成ニューラルネットワークに擬似第2画像の生成を機械学習させるため、生成ニューラルネットワークは、以後のステップS6において、対象を撮影した第2画像であると識別される、本物のように見える擬似第2画像を生成するよう機械学習し得る。
ステップS7における処理では、第1画像と擬似第2画像との対応の識別結果を用いて、生成ニューラルネットワークに、生成部114が行う擬似第2画像の生成を機械学習させることが好ましい。これにより、以後、生成部114が、ステップS5において行う擬似第2画像の生成精度を高めることができる。
擬似第2画像を生成するため機械学習に利用するアルゴリズムは、教師なし学習に関するアルゴリズムであれば特に限定されず、クラスター分析、主成分分析、ベクトル量子化、自己組織化写像、敵対的生成ネットワーク(generative adversarial network又はGANとも称される。)、deep belief network (DBNとも称される。)、ヘッブの法則等の1以上を用いる、既知のニューラルネットワークの教師なし学習に関する機械学習アルゴリズムを利用できる。
なかでも、擬似第2画像生成の機械学習に利用するアルゴリズムは、敵対的生成ネットワークを用いる機械学習であることが好ましい。これにより、生成部114を生成器とし、識別部115を識別器とする、敵対的生成ネットワーク(GAN)を用いた機械学習を実現し得る。例えば、生成ニューラルネットワークが生成ネットワーク(generator)とし、識別ニューラルネットワークが識別ネットワーク(discriminator)とすることで、敵対的生成ネットワークを用いた機械学習を実現できる。
本物の第2画像のように見える擬似第2画像を生成するニューラルネットワークの機械学習に関し、敵対的生成ネットワークを用いた機械学習を行うことにより、ニューラルネットワークの教師なし学習を効果的に行い得ることが知られている。擬似第2画像の生成の機械学習に利用するアルゴリズムが敵対的生成ネットワークを用いる機械学習であることにより、生成ニューラルネットワークの教師なし学習を効果的に行い得る。
文字等情報を有する対象が立体的形状を有し、画像生成部111が立体的形状を表現した第1画像を生成可能である場合、擬似第2画像の生成の機械学習に利用するアルゴリズムは、敵対的生成ネットワークを用いる機械学習であることが好ましい。これにより、立体的形状を表現した第1画像から立体的形状を有する対象を撮影した本物の画像のように見える画像を生成することを、敵対的生成ネットワークを用いてよりいっそう効果的に行い得る。第1画像と、擬似第2画像とがともに立体的形状に関するため、敵対的生成ネットワークを用いた学習の効果をよりいっそう高め得る。
必須の態様ではないが、ステップS7において、生成機械学習部116は、画像取得部112が取得した第2画像である、と以後のステップS6で識別部115が判別するような擬似第2画像の生成を生成ニューラルネットワークに機械学習させることが可能であることが好ましい。
これにより、生成部114は、さらにいっそう本物のように見える画像を生成し得る。したがって、機械学習を行った生成ニューラルネットワークに基づく、さらにいっそう本物のように見える画像のみを提供し得る。制御部11は、ステップS7で擬似第2画像の生成を生成ニューラルネットワークに機械学習させる際に、ある一定条件に一致したら自動で機械学習を止め、過学習しなくてもよい。
例えば、第1画像(正解値)と、擬似第2画像とにより出力された予測値(モデル)と、のずれである損失値(損失関数)が、最小の時に機械学習を止めることができる。また、制御部11は、ステップS7で擬似第2画像を自己評価する場合に、生成ニューラルネットワークとしてResNet18を用いることができる。ResNet18は、深さが18層の畳み込みニューラルネットワークである。
[ステップS8:対応付けの識別を教師なし学習]
制御部11は、記憶部12と協働して識別機械学習部113を実行し、識別ニューラルネットワークに、ステップS6で行われた識別結果を、教師なし学習させ(ステップS8)、学習データを改善する。制御部11は、ステップS8の処理後、ステップS1に戻る。
ステップS8の処理が行われると、対象を撮影した本物の第2画像だけでなく、生成部114が生成した擬似第2画像を用いて、識別ニューラルネットワークに識別結果を機械学習させることができる。このため、識別ニューラルネットワークは、対象を撮影した第2画像と、生成部114が生成した擬似第2画像との違いを機械学習し得る。これにより、識別部115が「対象を撮影した第2画像である」と識別する第2画像は、対象を撮影した第2画像が有する特徴をより多く備え、生成部114が生成した擬似第2画像が有する特徴をより少なく備える画像となり得る。すなわち、擬似第2画像は、よりいっそう本物の第2画像のように見える画像となり得る。さらに、制御部11は、ステップS8において識別ニューラルネットワークにより、第1画像を教師なし機械学習させる。つまり、第1画像(モデル)の評価を行うことができる。
対応付けの識別の教師なし学習に利用するアルゴリズムは、教師なし学習に関するアルゴリズムであれば特に限定されず、クラスター分析、主成分分析、ベクトル量子化、自己組織化写像、敵対的生成ネットワーク(generative adversarial network又はGANとも称される。)、deep belief network(DBNとも称される。)、ヘッブの法則等の1以上を用いる、既知のニューラルネットワークの教師なし学習に関する機械学習アルゴリズムを利用できる。
なかでも、対応付けの識別結果の教師なし学習に利用するアルゴリズムは、敵対的生成ネットワークを用いる機械学習であることが好ましい。これにより、生成部114を生成器とし、識別部115を識別器とする、敵対的生成ネットワーク(GAN)を用いた機械学習を実現し得る。例えば、生成ニューラルネットワークが生成ネットワーク(generator)とし、識別ニューラルネットワークが識別ネットワーク(discriminator)とすることで、敵対的生成ネットワークを用いた機械学習を実現できる。
本物のように見える画像を生成するニューラルネットワークの機械学習に関し、敵対的生成ネットワークを用いた機械学習を行うことにより、ニューラルネットワークの教師なし学習を効果的に行い得ることが知られている。対応付けの識別の教師なし学習に利用するアルゴリズムが敵対的生成ネットワークを用いる機械学習であることにより、生成ニューラルネットワークの教師なし学習を効果的に行い得る。
ステップS8で実行される処理によれば、生成部114を生成器とし、識別部115を識別器とする、敵対的生成ネットワークを用いた機械学習を実現し得る。本物のように見える擬似第2画像を生成するニューラルネットワークの機械学習に関し、敵対的生成ネットワークを用いた機械学習を行うことにより、ニューラルネットワークの教師なし学習を効果的に行い得ることが知られている。
識別ニューラルネットワークの教師あり学習では、画像取得部112が取得した第2画像である、対象を撮影した第2画像が必要となる。対象を撮影した第2画像を多数用意するためには、多大な労力を必要とし得る。これに対して、ステップS8の処理を行うと、敵対的生成ネットワークを用いた教師なし学習によって、対象を撮影した本物の画像のように見える擬似第2画像を自動で生成する機械学習を行える。したがって、対象を撮影した本物の第2画像を多数用意する労力を軽減できる。また、本物の第2画像のように見える擬似第2画像を、外部の端末20へ提供できる。
ステップS6で識別部115が行う識別結果は、画像取得部112が取得した本物の第2画像であるか、生成部114が生成した擬似第2画像であるかを識別した結果を含む場合、ステップS8において識別機械学習部113は、この識別結果を識別ニューラルネットワークに機械学習させることが好ましい。
また、図4のステップS5乃至S8を経由してステップS1に戻り、かつ、ステップS4に進んだ場合、識別部115は、本物の第2画像であるか擬似第2画像であるかを識別し、識別機械学習部113は、その識別結果を、識別ニューラルネットワークに機械学習させることができる。このため、識別部115が行う識別の精度を高め得る。したがって、本物のように見える擬似第2画像を、外部の端末20へ提供し得る。さらに、本開示では、第2画像の教師あり機械学習に用いる学習データを自動で生成して記憶部12に記憶でき、かつ、生成した学習データを端末20へ提供することもできる。さらに、機械学習用の学習データを生成するにあたり、屋外を走行する移動体のナンバープレートをカメラで撮影する場合に特有のノイズを考慮できる。
ステップS8において、識別ニューラルネットワークは、遺伝的アルゴリズムを用いて教師なし機械学習を行うことができる。遺伝的アルゴリズムは、生物の進化過程をモデル化した計算手法を用いた、解の探索アルゴリズムである。本実施形態では、第1画像を自己評価した結果、識別部115が認識できなかった第2画像に対し、擬似第2画像を生成できるパラメータを推定する。推定したパラメータを中心とした正規分布で擬似第2画像を生成して学習データに追加することで、誤認識画像を認識できるように学習データを改善できる。
さらに、ステップS8において、識別ニューラルネットワークが教師なし機械学習を行うにあたり、コサイン類似度を用いることができる。本実施形態では、擬似第2画像のデータと、本物の第2画像のデータとをベクトル化し、それぞれのベクトルのコサイン類似度を算出する。コサイン類似度が大きい程、擬似画像が第2画像をよく再現できているものと判断する。
〔第1画像を生成する処理〕
図5は、画像生成部111が、図4のステップS2において行う第1画像を生成する処理の一例を示すフローチャートである。画像生成部111は、文字等情報を拡張して第1画像を生成する。
[ステップS21:文字等情報を有する画像を生成]
制御部11は、画像生成部111を実行し、ステップS1で取得した文字等情報を用いて文字等情報を有する画像を生成する(ステップS21)。制御部11は、ステップS21の処理後、ステップS22に進む。これにより、文字等情報を有する画像を生成できる。図5の文字等情報を有する画像I1は、図3の生成画像ID「G0002」に関連付けられた文字等情報「ナンバープレート 那須999 お20-11 白地に緑文字」を用いて生成された画像である。文字等情報を有する画像I1は、「ナンバープレート」によって示される自動車登録番号標を模した配置で文字列「那須999 お20-11」を平面的に表現している。
[ステップS22:生成した画像を収縮]
制御部11は、画像生成部111を実行し、ステップS2で生成した画像を収縮する(ステップS22)。制御部11は、ステップS22の処理後、ステップS23に進む。ステップS22の処理における収縮する画像処理は、画像を構成する処理対象画素それぞれについて、周辺に背景を表現する背景画素がある場合に処理対象画素を背景画素と同様の画素に置き換え、周辺に背景を表現する背景画素がない場合に処理対象画素を置き換えない画像処理である。これにより、文字等情報を有する画像において表現されている文字・記号等の線を細くすることができる。図5の収縮された画像I2は、文字等情報を有する画像I1において表現されている文字・記号等の線を細くした画像となっている。
[ステップS23:収縮した画像を半透明化]
制御部11は、画像生成部111を実行し、ステップS3で収縮した画像を半透明化する(ステップS23)。制御部11は、ステップS23の処理後、ステップS24に進む。半透明化することにより、ステップS24において半透明化した画像を重畳する処理を実行できる。
ステップS23において半透明化された画像の透明度は、特に限定されない。半透明化された画像の透明度の下限は、10%以上であることが好ましく、30%以上であることがより好ましく、40%以上であることがさらに好ましい。透明度の下限を上述のとおり定めることにより、半透明化された画像がよりいっそう透明となる。これにより、より多くの半透明化された画像を重畳しても、重畳された画像が半透明となる。したがって、半透明化された画像を重畳する数を用いて透明度をよりきめ細かく制御する処理を実行し得る。
半透明化された画像の透明度の上限は、90%以下であることが好ましく、70%以下であることがより好ましく、60%以下であることがさらに好ましい。透明度の上限を上述のとおり定めることにより、多数の半透明化された画像を重畳することなく、不透明な画像を表現し得る。
図5に示す半透明化された画像I3は、ステップS2で収縮された画像I2を透明度50%になるよう半透明化した画像である。これにより、重畳しない半透明化された画像I3を用いて透明度50%を表現し、画像I2の半透明化された画像I3を重畳して透明度0%、すなわち、不透明な画像を表現できる。
[ステップS24:複数の半透明化した画像を重畳]
制御部11は、画像生成部111を実行し、ステップS23で半透明化した画像と、該半透明化した画像を所定の微小距離移動させた画像の1以上とを重畳する(ステップS24)。制御部11は、ステップS24に次いで、ステップS25の処理を行う。重畳することにより、立体的形状を表現した画像を生成できる。
半透明化した画像と、該半透明化した画像を所定の微小距離移動させた画像の1以上とを重畳することにより、半透明化した画像における文字等情報を表現した部分のうち、背景を表現した部分からの距離が所定の微小距離以下である部分では、微小距離移動させた画像における文字等情報を表現した部分と重畳されず、半透明となる。
一方、半透明化した画像における文字等情報を表現した部分のうち、背景を表現した部分からの距離が所定の微小距離以上である部分では、半透明化した画像と微小距離移動させた画像とが重畳され、半透明化した画像より不透明となる。これらの部分が隣り合って生じるため、文字等情報を表現した部分に光源に由来するハイライト及び/又は影がある表現となる。すなわち、立体的形状を表現した画像となる。
図5の重畳した画像I4は、半透明化された画像I3と、半透明化された画像I3を所定の微小距離移動させた第2の画像と、第2の画像を所定の微小距離移動させた第3の画像と、を重畳し、立体的形状を表現した画像となっている。
[ステップS25:重畳した画像を背景と合成し、色彩等を付与]
制御部11は、画像生成部111を実行し、ステップS24で重畳した画像を背景と合成し、色彩等を付与する(ステップS25)。制御部11は、ステップS25の処理後、図5の処理を終了し、図4のステップS3に進む。これにより、立体的形状を表現し、色彩等を有する第1画像を生成できる。
ステップS21からステップS25までにおいて実行される処理により、立体的形状を表現し、色彩等を有する第1画像を生成できる。各ステップで実行される処理がいずれも基本的な画像処理であるため、制御部11に多大な計算負荷を与えることなく、立体的形状を表現し、色彩等を有する第1画像を生成できる。また、画像生成部111は、ステップS2において第1画像を生成するにあたり、ウェーブレット変換を行うことができる。ウェーブレット変換は、画像の近似、圧縮、ノイズ除去、特徴抽出等に用いられる。2次元画像に対してウェーブレット変換を行うと、高周波成分と低周波成分とに分解することが可能である。そして、画像の高周波成分のみで構成した第1画像を用いることで、2次元画像のエッジの抽出を行い、ブレ、ボケという特徴を数値化し、定量的な判断を実現できる。
さらに、画像の輝度の平均を設定した値に揃えることで、画像の明るさをそろえることが可能である。画像の正規化は、ディープラーニングにおいて普遍的に用いられる。具体的には、画像をグレースケール化し、カラー画像から白黒画像へ変換する。白黒画像からライブラリ関数を用いて、平均輝度と標準偏差を求める。求めた平均輝度を引いて、標準偏差で割ることで、輝度平均「零」の画像を生成する。画像に任意の標準偏差をかけて、平均輝度を足す。本実施形態では、エッジ検出及び対象検出において、第1画像生成の前処理として用いる。画像によってコントラストが異なるという問題を正規化して明るさをそろえることで、文字の輪郭を明確にし、画像のエッジ検出及び対象検出の精度向上を実現できる。
<画像生成装置1の使用例>
続いて、本実施形態における画像生成装置1の使用例を説明する。
〔教師あり機械学習を行う〕
利用者は、文字、図形、記号若しくは立体的形状若しくはこれらの結合又はこれらと色彩との結合に関する文字等情報を画像生成装置1に提供し、さらに、該文字等情報を有する対象(例えば、自動車のナンバープレート)を撮影した本物の第2画像を画像生成装置1に提供する。画像生成装置1は、文字等情報を用いて第1画像を生成する。
画像生成装置1は、生成した第1画像と、本物の第2画像とを対応付けたデータを教師データとする教師あり機械学習を行い、識別ニューラルネットワークに第1画像と、本物の第2画像との対応付けを機械学習させる。
〔擬似第2画像を生成する〕
利用者は、文字等情報を画像生成装置1に提供する。画像生成装置1は、文字等情報と生成ニューラルネットワークとを用いて提供された文字等情報を有する対象を模した擬似第2画像を生成する。
〔生成した擬似第2画像を識別する〕
画像生成装置1は、生成した擬似第2画像を識別する。利用者は、第1画像と対応し、対象を撮影した第2画像であると識別された擬似第2画像を取得する。このような擬似第2画像は、対象を撮影した本物の第2画像であるように見える画像であるため、機械学習における教師用データとして利用できる。利用者は、第1画像と対応する、対象を撮影した第2画像を取得することもできる。このような第2画像は、対象を撮影した本物の画像であるため、機械学習における教師用データとして利用できる。
利用者は、取得した第2画像を用いて他のニューラルネットワークに対象を撮影した画像から文字等情報を取得する処理等を機械学習させることができる。これにより、利用者は、対象を撮影した画像を多数取得するために多大な労力を費やすことなく、他のニューラルネットワークに対象を撮影した画像から文字等情報を取得する処理等を機械学習させることができる。
これにより、例えば、ナンバープレートを撮影した画像からナンバープレートが有する文字等情報を取得する処理をニューラルネットワークに機械学習させ、事故等が発生した場合にナンバープレートが有する文字等情報を証拠として記録する処理に利用可能なニューラルネットワークとし得る。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したものに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
また、上述した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。本実施形態で説明した画像生成装置1は、画像認識装置または学習データ生成装置として定義することもできる。図4に示されたフローチャートは、画像形成方法または学習データ生成方法として定義することもできる。さらに、図1に記載された画像生成装置1、ネットワーク10及び端末20により、画像認識システムが構成されている。図1に示す識別部115は、第1識別部及び第2識別部の一例である。
1 画像生成装置
11 制御部
14 表示部
15 入力部
17 判断部
111 画像生成部
112 画像取得部
113 識別機械学習部
114 生成部
115 識別部
116 生成機械学習部
12 記憶部
121 教師用画像テーブル
122 生成画像テーブル
13 通信部
I1 文字等情報を有する画像
I2 収縮された画像
I3 半透明化された画像
I4 重畳された画像

Claims (5)

  1. 文字、図形、記号若しくは立体的形状若しくはこれらの結合又はこれらと色彩との結合に関する文字等情報を用いて第1画像を生成する画像生成部と、
    前記文字等情報を有する対象を撮影した第2画像を取得する画像取得部と、
    前記第1画像と前記画像取得部が取得した前記第2画像とを用いて、前記第2画像が有する前記文字等情報を識別する第1識別部と、
    前記第1識別部により、前記第2画像が有する前記文字等情報を識別できたか否かを判断する判断部と、
    前記判断部により、前記第2画像が有する前記文字等情報を識別できた場合に、前記第1識別部が行った識別結果を、識別ニューラルネットワークに機械学習させる識別機械学習部と、
    前記判断部により、前記第2画像が有する前記文字等情報を識別できなかった場合に、前記第1画像と生成ニューラルネットワークとを用いて、前記第2画像を模した擬似第2画像を生成する生成部と、
    前記識別ニューラルネットワークを用いて、前記第1画像に基づき前記擬似第2画像が有する前記文字等情報を識別する第2識別部と、
    前記第2識別部の識別結果を用いて、前記生成ニューラルネットワークに前記擬似第2画像の生成に用いるデータを機械学習させる生成機械学習部と、
    を備え、
    前記識別機械学習部は、前記第1画像及び前記擬似第2画像を用いて、前記識別ニューラルネットワークに、前記第2識別部の識別結果を機械学習させる、画像生成装置。
  2. 前記第2識別部は、前記第2画像と前記擬似第2画像とを識別する機能を有し、
    前記識別機械学習部は、前記第2識別部が前記第2画像と前記擬似第2画像とを識別した結果を、前記識別ニューラルネットワークに機械学習させる、請求項1に記載の画像生成装置。
  3. 前記生成部は、前記第2識別部により前記第2画像であると識別される、前記擬似第2画像を生成可能であり、
    前記生成機械学習部は、前記第2識別部により前記第2画像であると識別される前記擬似第2画像の生成を、前記生成ニューラルネットワークに機械学習させることが可能である、請求項2に記載の画像生成装置。
  4. 前記対象は、立体的形状を有し、
    前記画像生成部は、立体的形状を表現した前記第1画像を生成可能である、請求項1乃至3の何れか1項記載の画像生成装置。
  5. 前記対象は、移動体に設けられるナンバープレートを含む、請求項1乃至3の何れか1項記載の画像生成装置。

JP2022052099A 2021-04-05 2022-03-28 画像生成装置 Active JP7117720B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022117384A JP2022160004A (ja) 2021-04-05 2022-07-22 画像生成装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021063958 2021-04-05
JP2021063958 2021-04-05

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022117384A Division JP2022160004A (ja) 2021-04-05 2022-07-22 画像生成装置

Publications (2)

Publication Number Publication Date
JP7117720B1 true JP7117720B1 (ja) 2022-08-15
JP2022159995A JP2022159995A (ja) 2022-10-18

Family

ID=82847621

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022052099A Active JP7117720B1 (ja) 2021-04-05 2022-03-28 画像生成装置
JP2022117384A Pending JP2022160004A (ja) 2021-04-05 2022-07-22 画像生成装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022117384A Pending JP2022160004A (ja) 2021-04-05 2022-07-22 画像生成装置

Country Status (1)

Country Link
JP (2) JP7117720B1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6829575B2 (ja) * 2016-10-03 2021-02-10 グローリー株式会社 画像処理装置、画像処理システム及び画像処理方法
JP6858101B2 (ja) * 2017-08-31 2021-04-14 株式会社Pfu 座標検出装置及び学習済みモデル
JP6592755B1 (ja) * 2019-04-05 2019-10-23 ニューラルポケット株式会社 情報処理システム、情報処理装置、サーバ装置、プログラム、又は方法
JP6779491B1 (ja) * 2019-06-25 2020-11-04 株式会社エクサウィザーズ 文字認識装置、撮影装置、文字認識方法、および、文字認識プログラム

Also Published As

Publication number Publication date
JP2022159995A (ja) 2022-10-18
JP2022160004A (ja) 2022-10-18

Similar Documents

Publication Publication Date Title
US10510146B2 (en) Neural network for image processing
US10019631B2 (en) Adapting to appearance variations when tracking a target object in video sequence
JP6546271B2 (ja) 画像処理装置、物体検知装置、画像処理方法
KR101834778B1 (ko) 교통 표지판 인식장치 및 방법
CN108197326B (zh) 一种车辆检索方法及装置、电子设备、存储介质
WO2019157288A1 (en) Systems and methods for physical object analysis
CN107292291A (zh) 一种车辆识别方法和系统
KR20190069457A (ko) 이미지 기반 차량 손실 평가 방법, 장치 및 시스템, 및 전자 디바이스
CN111274916A (zh) 人脸识别方法和人脸识别装置
CN112862702A (zh) 图像增强方法、装置、设备及存储介质
US11250279B2 (en) Generative adversarial network models for small roadway object detection
CN110281949B (zh) 一种自动驾驶统一分层决策方法
JP2021111273A (ja) 学習モデルの生成方法、プログラム及び情報処理装置
JP7117720B1 (ja) 画像生成装置
CN111652242B (zh) 图像处理方法、装置、电子设备及存储介质
KR102427884B1 (ko) 객체 검출 모델 학습 장치 및 방법
US10735660B2 (en) Method and device for object identification
CN115346270A (zh) 交警手势识别方法、装置、电子设备及存储介质
Wijaya et al. Multiview attention for 3D object detection in Lidar point cloud
CN114757819A (zh) 一种结构引导的风格偏差校正型风格迁移方法及系统
CN113793371A (zh) 目标分割追踪方法、装置、电子设备和存储介质
CN114072815A (zh) 用于人工神经网络的更稳健训练
KR20210007234A (ko) 이미지 보정 방법 및 이미지 보정 시스템
CN112288806B (zh) 物体空间关系的识别方法、装置和训练方法、装置
CN113743410B (zh) 图像处理方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220418

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220722

R150 Certificate of patent or registration of utility model

Ref document number: 7117720

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150