JP2020530925A - 画像の多様化及び認識のためのニューラルスタイル変換 - Google Patents

画像の多様化及び認識のためのニューラルスタイル変換 Download PDF

Info

Publication number
JP2020530925A
JP2020530925A JP2020504352A JP2020504352A JP2020530925A JP 2020530925 A JP2020530925 A JP 2020530925A JP 2020504352 A JP2020504352 A JP 2020504352A JP 2020504352 A JP2020504352 A JP 2020504352A JP 2020530925 A JP2020530925 A JP 2020530925A
Authority
JP
Japan
Prior art keywords
style
image
neural network
images
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020504352A
Other languages
English (en)
Other versions
JP2020530925A5 (ja
Inventor
ジャマル アフリディ,ムハマド
ジャマル アフリディ,ムハマド
ジェイ. コリンズ,エリサ
ジェイ. コリンズ,エリサ
ディー. ガンドラッド,ジョナサン
ディー. ガンドラッド,ジョナサン
ダブリュ. ハワード,ジェームズ
ダブリュ. ハワード,ジェームズ
サンガリ,アラシュ
ビー. スナイダー,ジェームズ
ビー. スナイダー,ジェームズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3M Innovative Properties Co
Original Assignee
3M Innovative Properties Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3M Innovative Properties Co filed Critical 3M Innovative Properties Co
Publication of JP2020530925A publication Critical patent/JP2020530925A/ja
Publication of JP2020530925A5 publication Critical patent/JP2020530925A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • G06T7/45Analysis of texture based on statistical description of texture using co-occurrence matrix computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Image Generation (AREA)

Abstract

画像認識のためのシステム及び方法が提供される。スタイル変換ニューラルネットワークが、各実画像に対して訓練されて、訓練済みスタイル変換ニューラルネットワークが得られる。実画像のテクスチャ又はスタイル特徴は、訓練済みスタイル変換ニューラルネットワークを介して、ターゲット画像に変換されて、スタイル変換された画像が生成され、これを用いて、画像認識機械学習モデル(例えば、ニューラルネットワーク)が訓練される。場合によっては、実画像はクラスタ化され、代表スタイル画像はクラスタから選択される。

Description

本開示は、画像認識システムの性能を改善するために使用できる、ニューラルスタイル変換を介した画像多様化のための方法及びシステムに関する。
深層学習は、画像認識において広く使用されてきた。例えば、分類機械学習モデル(例えば、ニューラルネットワーク)は、モデルに多数の画像を供給することによってオブジェクトを認識するように訓練され得る。典型的には、画像は、それぞれのコンテンツ(例えば、画像内で認識されるオブジェクトであり、例えばレター、ナンバー、サイン、シンボル、及び、キャラクタなど)でラベル付けされる必要がある。
多くの産業及び用途では、画像認識機械学習アルゴリズム/モデル(例えば、ニューラルネットワーク)を訓練するための画像を多様化することが望まれている。本開示は、ニューラルスタイル変換を介した画像多様化のための方法及びシステムを提供し、この方法及びシステムは、画像認識機械学習アルゴリズム/モデルを介して画像認識を改善するために使用できる。
簡潔に言うと、一態様では、本開示は、プロセッサに複数のデジタル画像を提供することを含む、コンピュータで実施される方法について記載する。各デジタル画像は、認識されるオブジェクトと、オブジェクトの画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴と、を含む。この方法は、プロセッサを介して、複数のデジタル画像を、画像のテクスチャ又はスタイル特徴に応じて、異なるグループにクラスタ化することであって、各グループは、類似のテクスチャ又はスタイル特徴を有するデジタル画像のうちの1つ以上を含む、クラスタ化することと、プロセッサを介して、画像の各グループから1つ以上の代表スタイル画像を選択することと、プロセッサを介して、スタイル変換ニューラルネットワークを、代表スタイル画像のうちの少なくとも1つに対して訓練して、訓練済みスタイル変換ニューラルネットワークを取得することと、訓練済みスタイル変換ニューラルネットワークを介して、テクスチャ又はスタイル特徴を代表画像のうちの少なくとも1つからターゲット画像に変換して、スタイル変換された画像を生成することと、スタイル変換された画像を使用して画像認識機械学習モデルを訓練することと、を更に含む。
別の態様では、本開示はプロセッサを含む、画像認識システムについて記載し、プロセッサは、複数のデジタル画像を受信して、デジタル画像の各々が、認識されるオブジェクトと、オブジェクトの画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴とを含むようにし、複数のデジタル画像を、画像のテクスチャ又はスタイル特徴に応じて異なるグループにクラスタ化して、グループの各々が類似のテクスチャ又はスタイル特徴を有するデジタル画像のうちの少なくともいくつかを含むようにし、画像の各グループから1つ以上の代表スタイル画像を選択し、スタイル変換ニューラルネットワークを、代表スタイル画像のうちの少なくとも1つに対して訓練して、1つ以上の訓練済みスタイル変換ニューラルネットワークを取得する、ように構成されている。いくつかの実施形態では、プロセッサは、訓練済みスタイル変換ニューラルネットワークを介して、テクスチャ又はスタイル特徴を、各代表画像からターゲット画像に変換して、スタイル変換された画像を生成し、スタイル変換された画像を使用して画像認識機械学習モデルを訓練するように、更に構成され得る。
本開示の例示的な実施形態では、様々な利点が得られる。本開示の例示的な実施形態のこのような利点の1つは、画像認識機械学習モデル用に、多様化された画像が生成され得ることである。多様化された画像は、認識すべきオブジェクトの画像が取得された広範囲の実世界条件を反映することができ、これにより、画像認識機械学習モデルの性能を著しく改善できる。
以上が本開示の例示的な実施形態の様々な態様及び利点の概要である。上記の「発明の概要」は、本開示の特定の例示的な実施形態の、図示される各実施形態又は全ての実現形態を説明することを意図するものではない。以下の図面及び「発明を実施するための形態」は、本明細書に開示される原理を使用する特定の好ましい実施形態を、より詳細に例示するものである。
以下の本開示の様々な実施形態の詳細な説明を添付図面と併せて検討することで、本開示をより完全に理解し得る。
一実施形態による、画像認識方法の概略図である。 一実施形態による、訓練例のセットをサブグループに分割し、サブグループを評価及び選択する方法の概略図を示す。 一実施形態による、画像認識ニュートラルネットワークを訓練する方法のフロー図である。 一実施形態による、実世界画像をクラスタ化し、そこから代表スタイル画像を選択するフロー図を示す。 一実施形態による、例示的なグラム行列を示す。 一実施形態による、例示的な実画像の5つのクラスタを示す。 一実施形態による、例示的な実画像の2Dクラスタを示す。 図6Aの対応するクラスタから選択された代表画像を示す。 一実施形態による、画像認識システムを示す。
図面において、類似の参照符号は類似の要素を表す。一定の縮尺で描かれないことがある、上記で特定された図面は、本開示の様々な実施形態を明らかにしているが、発明を実施するための形態で指摘されるように、他の実施形態も予想される。全ての場合に、本開示は、本明細書で開示される開示内容を、明示的な限定によってではなく、例示的な実施形態を示すことによって説明する。本開示の範囲及び趣旨に含まれる多くの他の修正及び実施形態が、当業者によって考案され得ることを理解されたい。
多くの産業及び用途では、画像認識機械学習モデルを訓練するための画像を多様化することが望まれている。本開示は、ニューラルスタイル変換を介した画像多様化のための方法及びシステムを提供し、この方法及びシステムは、画像認識機械学習モデルを介して画像認識を改善するために使用できる。本開示のいくつかの実施形態では、多様化された画像は、訓練済みスタイル変換ニューラルネットワークを介して、代表スタイル画像からターゲット画像にテクスチャ又はスタイル特徴を変換して、スタイル変換された画像を生成することによって得ることができる。多様化された画像は、認識すべきオブジェクトの画像が取得された広範囲の実世界条件を反映することができ、これにより、実使用での画像認識機械学習モデルの性能を著しく改善できる。
本開示では、用語「画像認識機械学習モデル」は、画像認識を適用するために訓練用画像を供給することによって訓練され得る教師あり機械学習モデルを指し得る。本明細書で利用される機械学習モデルは、例えば、確率モデル(例えば、単純ベイズモデル、ベイジアンネットワークなど)、機能モデル(例えば、ニューラルネットワーク、サポートベクトルネットワークなど)、決定木(例えば、C4.5アルゴリズム、ランダムフォレスト法など)、ルール学習者(rule learner)(例えば、cAnt miner、JRip)を含んでもよく、又は任意の他の機械学習パラダイムに属してもよい。いくつかの実施形態では、画像認識機械学習モデルは、例えば、分類深層畳み込みニューラルネットワークなどの1つ以上のニューラルネットワークを含んでもよい。
図1は、一実施形態による、画像認識のための、コンピュータで実施される方法100の概略図を示す。140における訓練用画像は、画像認識機械学習モデルを訓練するために、160において画像認識機械学習モデルに直接供給されて、170において訓練済み画像認識機械学習モデルが取得される。画像認識機械学習モデルは、例えば、分類深層畳み込みニューラルネットワークであってもよい。当該技術分野において、画像を分類するために、深層畳み込みニューラルネットワークを使用する方法が公知である。本明細書での画像認識のために、任意の好適な分類深層畳み込みニューラルネットワークが使用され得る。
140における訓練用画像は、コンピュータによって人工的に合成されてもよく、170において訓練済み画像認識機械学習モデルによって認識されるターゲットコンテンツ又はオブジェクトと類似のコンテンツ又はオブジェクトを含む。訓練用画像は、キャラクタ、フォント、ロゴなどをランダムに組み合わせることによって生成できる。生成された画像は、ノイズ、ぼかし、スキュー、染みなどを追加することによって更に修正されて、実世界条件下でキャプチャされた画像を模倣し得る。この従来の画像認識メカニズムは、各訓練用画像が、グラウンドトゥルースとしての画像のコンテンツでラベル付けされていることを必要とする。訓練用画像が画像認識機械学習モデルに供給される場合、アルゴリズムは、ネットワークのノード間の重みを調節してグラウンドトゥルースとの一致を増加させて、出力を提供することができる。このようなグラウンドトゥルースは、重みの値が、正しい画像認識に最適な値に可能な限り近くまで収束するために必要である。また、この従来の画像認識メカニズムは、信頼性の高い性能を達成するために、大量の訓練用画像(例えば、数百万)を必要とする場合がある。加えて、システムの使用中に遭遇するであろう条件の範囲を表す、訓練用画像の完全なセットを得ることは困難であり得る。従来のシステムは、訓練されていない認識事例に対しては良好に機能しない場合がある。
本開示のいくつかの実施形態では、同等の信頼性の高い性能を実現するために、著しく少ない訓練用画像が必要とされ得る。160において画像認識機械学習モデルに供給する前に、より少ない訓練用画像を最初に多様化して、様々な実世界条件をカバーすることができる。更に、多様化された画像は、それぞれの訓練用画像からグラウンドトゥルースを継承することができ、また、グラウンドトゥルースとして画像のコンテンツを追加する、追加ラベル付け工程を必要としない場合がある。
図1の方法100によると、110における実画像が、スタイル変換ニューラルネットワークを訓練するために、120においてスタイル変換ニューラルネットワークに供給されて、130において訓練済みスタイル変換ニューラルネットワークを取得できる。1つの実画像は、認識されるオブジェクトと、オブジェクトの画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴とを含み得る。実世界条件は、例えば、地理的位置、気象条件、照明条件、カメラ角度、カメラ設定、オブジェクトとカメラとの間の距離などに関連し得る。実画像のテクスチャ又はスタイル特徴は、その実画像の空間的に不変な特徴の要約統計量であってもよい。いくつかの実施形態では、テクスチャ特徴は、画像全体を覆い得るので、画像内の特定の場所に関わらずテクスチャ特徴は同じであり得る。逆に、画像の異なる領域が異なるコンテンツを含んでもよいので、画像のコンテンツは空間的に変化してもよい。認識される実画像内のオブジェクトは、例えば、レター、ナンバー、サイン、シンボル、及び、キャラクタなどのうちの1つ以上を含んでもよい。実画像は、画像を記録又はキャプチャすることが可能な、例えばデジタルカメラなどの任意の好適な光学機器によって取得され得る。いくつかの実施形態では、実画像は赤外線(IR)カメラシステムによってキャプチャされ得る。実世界条件において画像がオブジェクトに対して取得される場合、得られた画像は、実世界条件に関連付けられたテクスチャ又はスタイル特徴を含み得る。
120におけるスタイル変換ニューラルネットワークは、例えば、畳み込みニューラルネットワーク(CNN)を含んでもよい。実画像のテクスチャ又はスタイル特徴は、グラム行列によって表され得る。120において、テクスチャ又はスタイル特徴を有する実画像を、スタイル変換ニューラルネットワークに供給することにより、130において、訓練済みスタイル変換ニューラルネットワークを得ることができ、その各々が、対応するテクスチャ又はスタイル特徴に対応する。
任意選択的に、115における自然スタイル画像が、120においてスタイル変換ニューラルネットワークに供給されて、対応するスタイル変換ニューラルネットワークが訓練され得る。自然スタイル画像は、例えば、泥、雨、グレア、粉塵、錆、氷、ひっかき傷、水の痕跡、雪などの自然環境を反映する自然テクスチャを含んでもよい。対応するスタイル変換ニューラルネットワークを、各自然スタイル画像に対して訓練して、対応する訓練済みスタイル変換ニューラルネットワークを取得できる。
140における訓練用画像は、130において訓練済みスタイル変換ニューラルネットワークに供給されて、110における実画像及び/又は115における自然スタイル画像からのテクスチャ又はスタイル特徴が140における訓練用画像に変換されて、スタイル変換された画像が150において生成され得る。
いくつかの実施形態では、110における実画像、及び/又は115における自然スタイル画像は、スタイル画像として指定され、120において深層畳み込みニューラルネットワークの層を通して処理されて、画像スタイル特徴の数学的表現を生成させることができ、これが130において、訓練済みスタイル変換ニューラルネットワークとして格納され得る。
いくつかの実施形態では、140における訓練用画像は、コンテンツ画像として指定され、120において同じ深層畳み込みニューラルネットワークの層を通して処理されて、画像のコンテンツの数学的表現を生成させることができる。スタイル及びコンテンツに対する数学的表現を、特定の割合で組み合わせて、所望の出力画像、例えば、150におけるスタイル変換された画像の単一の数学的表現を生成させることができる。ソース画像のテクスチャをターゲット画像のオブジェクトに変換するためのコンピュータで実施される方法は、例えば、国際公開第2017/021322(A1)号に記載されており、参考として本明細書に組み込まれる。
図1の方法100によると、画像認識機械学習モデルを訓練するために、150においてスタイル変換された画像は、160において画像認識機械学習モデルに供給されて、170において訓練済み画像認識機械学習モデルが取得できる。いくつかの実施形態では、画像認識機械学習モデルを訓練するために、140における訓練用画像の少なくともいくつかが、150においてスタイル変換された画像と共に、160において画像認識機械学習モデルに供給されて、170において訓練済み画像認識機械学習モデルが取得され得る。
訓練済み画像認識機械学習モデルを170において取得した後、180における試験画像を使用して、訓練済み画像認識機械学習モデルの性能を190において評価できる。評価結果に基づいて、より良好な性能を有する訓練済みスタイル変換ニューラルネットワークが選択され得る。すなわち、いくつかの実施形態では、より効果的な訓練済みスタイル変換ニューラルネットワークのうちのいくつかが選択されて、160において画像認識ニューラルネットワークを訓練するために、スタイル変換された画像を150において生成することができる。
本開示では、140における訓練用画像、及び150においてスタイル変換された画像のうちの1つ以上を含む訓練例又はデータを使用して、160において画像認識機械学習モデルを訓練することができる。訓練例又はデータの所与のセットに対して、画像認識の所与のタスクにとって、いくつかの訓練例は他の訓練例よりも有益であり得る。いくつかの訓練例から学習された知識(表現)が、冗長であり、かつ関連性が最も低い場合がある。160における画像認識ニューラルネットワークの訓練を、関連性が最も高い訓練例に重点を置き、一方で、訓練セットから冗長で無関係な訓練例を排除することが役立つ場合がある。図1aは、訓練例のセットをサブグループに分割し、サブグループを評価して、より効果的な訓練例を選択する方法190’の概略図を示す。
いくつかの実施形態では、訓練例又はデータは、それらの共通の特徴に基づいてグループに分割することができる。例えば、いくつかの実施形態では、そのようなグループ分けのアプローチの1つが、画像に関連するスタイルに基づくことができ、他の実施形態では、基本的なk平均クラスタリング法を使用して、訓練例を異なるサブグループ又はサブセットに分割、グループ化、又はクラスタ化できる。図1aに示す実施形態では、訓練例192のセットは、関連するスタイルに基づいて、スタイルA、スタイルB、スタイルC、スタイルDなどを含む異なるサブグループに分割されている。
いくつかの実施形態では、訓練例192のセットがサブグループに分割された後、対応する画像認識機械学習モデル(例えば、ニューラルネットワーク)を各サブグループに対して訓練して、対応する訓練済み画像認識機械学習モデル(例えば、図1aの193で示すように、ネット−A、ネット−B、ネット−C、ネット−Dなどのニューラルネットワーク)を得ることができる。
いくつかの実施形態では、次に、検証セット194(例えば、試験画像の小セット)を利用して、訓練済みニューラルネットワークの全て(例えば、図1aの193で示すように、ネット−A、ネット−B、ネット−C、ネット−Dなど)の性能を評価することができる。検証セットが評価用にk個の画像を含むと想定すると、訓練済みニューラルネットワークの各々の出力は、kx1次元ベクトルとして表現され得る。この出力を、ラベル(グラウンドトゥルース、例えば、図1aのラベル195’)を含むkx1ベクトルに対して評価することができる。訓練例がh個のサブグループに分割されていることを考慮すると、h個のそのような出力ベクトルを生成することができる(例えば、出力ベクトルA、B、C、Dなどを含む、図1aの出力ベクトル195)。
いくつかの実施形態では、サブグループ及びラベルベクトル(グラウンドトゥルース)によって得られた出力ベクトルは、特徴サブセット選択アルゴリズム196への入力として提供され得る。特徴サブセット選択アルゴリズムは、例えば、相関ベース特徴選択(CFS)アルゴリズムであり得る。CFSアルゴリズムを使用して、2つの基準:(a)ベクトルは互いの相関性がほとんどないものとする、及び(b)ベクトルは実際のラベルと高度に相関しているものとする、に基づいて予測される出力ベクトルのサブセットを決定することができる。図1aの実施形態では、出力ベクトルA、B、及びDが選択されている。サブセット内の選択されたベクトルA、B、及びDの対応するサブグループ(例えば、図1aの192’に示すようなスタイル−A、スタイル−B、及びスタイル−D)を訓練プロセスで利用することができ、一方、サブグループCは冗長であるか又は効果が低いと考えられる。すなわち、いくつかの実施形態では、より効果的な訓練済みスタイル変換ニューラルネットワークのうちのいくつかのみを使用して、画像認識ニューラルネットワークを訓練するために、スタイル変換された画像を生成することができる。
コンピュータで実施される方法100は、最初に訓練用画像を多様化させてスタイル変換された画像を取得し、次に、スタイル変換された画像を使用して画像認識機械学習モデルを訓練することができる。訓練済みスタイル変換ニューラルネットワークを介して、実画像及び/又は自然スタイル画像から様々なテクスチャ又はスタイル特徴を変換させて、より現実的な状態を網羅できる、より多様な訓練用画像(すなわち、スタイル変換された画像)を作成することによって、いくつかの訓練用画像を多様化することができる。
図2は、一実施形態による、画像認識ニュートラルネットワークを訓練する方法200のフロー図を示す。210において、複数のデジタル画像がプロセッサに提供され得る。プロセッサは、本明細書に記載されるプロセス又は方法を実施するためのプログラム命令(例えば、ソフトウェア命令)を実行することができる。デジタル画像は、例えば、図1の110における実画像を含み得る。次いで、方法200は、220に進む。
220において、デジタル画像は、プロセッサを介して異なるグループにクラスタ化され得る。各グループは、類似のテクスチャ又はスタイル特徴を有するデジタル画像のうちの1つ以上を含んでもよい。場合によっては、類似のテクスチャ又はスタイル特徴は、画像が取得された類似の実世界条件に由来し得る。次いで、方法200は、230に進む。
230において、各グループから、1つ以上の代表スタイル画像が選択され得る。いくつかの実施形態では、代表スタイル画像は、各グループのクラスタ中心に位置し得る。画像をクラスタ化し、代表スタイル画像を選択する例示的な方法が、図3に更に示され、以下で更に記載される。次いで、方法200は、240に進む。
240において、代表スタイル画像の各々に対して、スタイル変換ニューラルネットワークを訓練して、対応する訓練済みスタイル変換ニューラルネットワークを得ることができる。スタイル変換ニューラルネットワークは、代表スタイル画像のスタイル特徴をターゲット画像に変換する方法について訓練され得る。スタイル変換ニューラルネットワークを訓練した出力は、代表スタイル画像から抽出されたスタイル又はテクスチャ特徴の各々に対するニューラルネットワークモデルであり得る。いくつかの実施形態では、出力は、例えば、図7のメモリ714内に格納され得る。代表スタイル画像を使用することによるスタイル変換ニューラルネットワークのこのような事前訓練は、オフラインで実施されてもよく、出力は格納され、例えば、機械学習モデルに基づく画像認識アプリケーションなどの任意のリアルタイムアプリケーションによって呼び出されて使用され得る。次いで、方法200は、245又は250に進む。
任意選択的に、245において、1つ以上の代表スタイル画像が、マルチプレクサを介して選択され得る。対応するスタイル若しくはテクスチャ特徴は、例えば、対応するクラスタのサイズ、及び/又はスタイル若しくはテクスチャ特徴のユーザ定義の確率分布に従って選択され得る。マルチプレクサは、(例えば、スタイル画像からターゲット画像へ)どのスタイル又はテクスチャが変換されるかを制御できる。例えば、より大きいクラスタを表す第1のスタイル又はテクスチャは、より小さいクラスタを表す第2のスタイル又はテクスチャよりも、より頻繁に使用されるように、マルチプレクサを介して選択され得る。次いで、方法200は、250に進む。
250において、スタイル又はテクスチャ特徴は、訓練済みスタイル変換ニューラルネットワークを介して、各代表スタイル画像からターゲット画像に変換されて、スタイル変換された画像が生成され得る。ターゲット画像は、図1の130において、訓練用画像のうちの1つ以上を含み得る。いくつかの実施形態では、スタイル変換された画像は、リアルタイムで生成され得る。これは、スタイル変換ニューラルネットワークを事前に訓練し、出力(例えば、訓練済みスタイル変換ニューラルネットワーク)を格納することによって実現でき、出力はリアルタイムで呼び出されて、スタイル変換された画像を生成し得る。次いで、方法200は、260に進む。
260において、スタイル変換された画像は、図1の160における画像認識機械学習モデルなどの画像認識機械学習モデルを訓練するために使用される。
実画像を使用してスタイル変換ニューラルネットワークを訓練するプロセスは、特に多くの実画像が存在するときは、時間を要する場合がある。場合によっては、いくつかの実画像は、スタイル又はテクスチャ特徴の点で互いに類似していることがある。本開示は、少数の実画像が、実画像の大きなデータセットに見られる種々のテクスチャを例示できることを見出した。
図3は、一実施形態による、実画像をクラスタ化し、そこから代表スタイル画像を選択する方法300のフロー図を示す。310において、複数のデジタル画像が、多層ニューラルネットワークに提供される。多層ニューラルネットワークは、代表スタイル画像からテクスチャ又はスタイル特徴を抽出するために使用することができる。多層ニューラルネットワークは、例えば、Visual Geometry Group(VGG)ネットワークを含んでもよい。次いで、方法300は、320に進む。
320において、各実画像の全体的なテクスチャ又はスタイル特徴は、多層ニューラルネットワークを介してグラム行列に分解することができる。いくつかの実施形態では、ニューラルネットワーク(例えば、VGGネットワーク)内の各層に対して1つのグラム行列がある。画像間の類似度は、各層におけるグラム行列内に見出すことができる。例えば、VGGネットワークの各層において、いくつかの特徴マップが存在し得る。各層のグラム行列は、特徴マップ間の相関行列である。例示的な5層VGGネットワークでは、第1層は、64のマップを有することができ、第2層は、128のマップを有することができ、第3層は、256のマップを有することができ、以下同様である。いくつかの実施形態では、ニューラルネットワークの第1層は、例えば、実画像からテクスチャ又はスタイル特徴を抽出するには十分に良好であり得る、例えば線などの基本構造を取り出すことができる。図4は、実画像の全体的なテクスチャ又はスタイル特徴を分解することによる例示的なグラム行列を示す。
いくつかの実施形態では、グラム行列は、G=FF、のように計算でき、式中、Gは、対称の半正定値行列である。各層のグラム行列は、(マップ数×マップ数)(例えば、64×64、128×128など)の次元を有することができる。グラム行列は、シフト又は画像切り抜きなどのいくつかの画像空間変換に対して不変であってもよいが、スタイル及び/又はVGGネットワーク重みに依存してもよく、グラム行列は、画像回転又はスケーリング変換に対して不変でなくてもよい。次いで、方法300は、330に進む。
330において、画像は、グラム行列に基づいてグループにクラスタ化される。実画像のスタイル特徴間の類似度又は相違度は、グラム行列に基づいて定義され得る。このような類似度又は相違度は、異なるグラム行列間の距離によって測定され得る。いくつかの実施形態では、例えば、K平均クラスタリング法又はK平均++クラスタリング法などの重心ベースのクラスタリング法を使用することができる。他の重心ベースのクラスタリング技術、例えば、k−medoidsクラスタリング、k−mediansクラスタリングなどを使用してもよい。重心ベースのクラスタリング法の代替としては、例えば、密度ベースのクラスタリング(例えば、DBSCAN法)、分布ベースのクラスタリング(例えば、混合ガウスモデル)などを挙げることができる。
いくつかの実施形態では、クラスタ化のステップ330は、異なるクラスタリング法又はそれらの組み合わせを使用することによって繰り返すことができる。いくつかの実施形態では、グラム行列間の距離は、距離尺度として余弦角度を使用して計算することができる。各画像に対して余弦角度を得ることができる。距離は、例えば、フロベニウス距離尺度などの他の好適な方法を使用して計算できることを理解されたい。画像は、深層ニューラルネットワークの複数の層で抽出された特徴のグラム行列によって符号化されたような、画像のテクスチャ又はスタイル特徴間の類似度又は相違度に基づいてクラスタ化され得る。
図5は、k=5、及び余弦角度距離尺度(例えば、VGGネットワークからの第1層グラム行列のみを使用して)を用いたK平均クラスタリング法を使用して、5つの異なるグループa)〜e)にクラスタ化された例示的な実画像を示す。図5の実画像のセットは、顕著に凝集性のグループa)〜e)にクラスタ化されている。グループb)及びd)における画像は、概して陰影が明るくコントラストが高いが、一方、グループa)、c)及びe)における画像は、概して陰影が暗くコントラストが低い。次いで、方法300は、340又は350に進む。
任意選択的に、340において、グループの次元は、多様体学習法を介して2Dクラスタへと削減され得る。グループ内の実画像の変動及び分布は、次元削減技術、例えば多様体学習法によって視覚化することができる。多様体学習法を使用することにより、画像のグループを2Dクラスタで示すことができる。このようにして、単に画像のクラスタを見ることによって、各クラスタの性質及び凝集性を感知することができる。好適な多様体学習法としては、例えば、ISO−Map多様体学習法、t−SNE多様体学習法、MDS多様体学習法、スペクトル埋め込み多様体学習法、局所線形埋め込み多様体学習法などを挙げることができる。図6Aは、多様体学習法によって視覚化された、例示的な画像の2Dクラスタを示す。図6Aに示すように、多くの実画像が、t−SNE多様体学習法によって2D平面上に投影され、15個の2Dクラスタにグループ化されている。15個のクラスタは、異なるクラスタを分離する余白によって明示されるように、視覚的に別個かつ凝集性である。次いで、方法300は、350に進む。
350において、各グループから、代表スタイル画像が選択され得る。いくつかの実施形態では、代表スタイル画像は、それぞれのクラスタの計算された中心に最も近くに位置し得る。図6Bは、図6Aの対応する14個のクラスタから選択された14個の代表スタイル画像を示す。それぞれのクラスタ中心に最も近くに位置する画像は、代表スタイル画像として選択される。
図7は、いくつかの実施形態による、例えば、方法100、200、及び300のうちの1つ以上など、本明細書に記載されたコンピュータで実施される方法のうちのいずれか1つを実施することによる、画像認識用の画像認識システム700を示す。システム700は、測定構成要素724、計算構成要素726、及び1つ以上の入力/出力デバイス716を含む。
測定構成要素724は、認識すべきオブジェクトの1つ以上の実画像をキャプチャするように構成されている。測定構成要素724は、画像をキャプチャするための様々なカメラであり得る。いくつかの実施形態では、測定構成要素724は、例えば、携帯電話のデジタルカメラ、IRカメラなどを含むことができる。
図7の実施形態では、計算構成要素726は、プロセッサ712及びメモリ714を含む。計算構成要素726は、測定構成要素924(例えば、デジタルカメラ)に機能的に接続され、キャプチャされた画像に関連する信号を測定構成要素724から受信する。プロセッサ712は次に、いくつかの実施形態に従って、方法100、200、及び300のうちの1つ以上を実施して、訓練済みスタイル変換ニューラルネットワークを得ることにより、任意の好適なプログラミング言語(例えば、Python)でコンピュータプログラムを実行することを介して、デジタル画像を処理できる。
訓練済みスタイル変換ニューラルネットワークは、メモリ714内に格納され得る。いくつかの実施形態では、メモリ714は、訓練スタイル変換ニューラルネットワークの出力を格納するためのデータファイルと、例えば、キャプチャされた実画像の全て及び画像のメタデータを含む、画像関連データとを有してもよい。
訓練済みスタイル変換ニューラルネットワークを用いて、プロセッサ712は、訓練スタイル変換ニューラルネットワークを介して、スタイル特徴を各代表スタイル画像からターゲット画像に更に変換して、スタイル変換された画像を生成することができる。スタイル変換された画像は、画像認識機械学習モデルを訓練するために使用されて、訓練済み画像認識機械学習モデルが取得できる。
いくつかの実施形態では、オブジェクト(レター、ナンバー、サイン、シンボル、及び、キャラクタ、又はこれらの組み合わせ)が認識される場合、オブジェクトの1つ以上の画像が、測定構成要素724(例えば、デジタルカメラ)によって測定され得る。計算構成要素726は、オブジェクトの画像に関する信号を測定構成要素724から受信し、信号を処理することができる。プロセッサ712は、画像認識のために、訓練済み画像認識機械学習モデルに画像を提供できる。
いくつかの実施形態では、測定構成要素724は、現場で機能し得るモバイルデバイス(例えば、携帯電話)のデジタルカメラであってもよい。測定構成要素724は、信号を送受信することにより、例えば計算構成要素726などの遠隔コンピューティングデバイスと無線通信できる。計算構成要素726は、例えば、コンピュータ、サーバ、携帯電話などと一体化されてもよい。計算構成要素726は、訓練済み画像認識機械学習モデルを呼び出して、測定構成要素724からのデータに対して実行し、その認識情報を入力/出力デバイス716に送信して、そこに表示できる。
メモリ714は情報を格納する。いくつかの実施形態では、メモリ714は、本明細書に記載される方法又はプロセスを実行するための命令を格納できる。いくつかの実施形態では、コンピュータビジョン特徴データ、訓練されていない画像認識機械学習モデルデータ、及び訓練済み画像認識機械学習モデルデータを、メモリ714に事前に格納できる。
メモリ714は、任意の揮発性又は不揮発性記憶要素を含んでもよい。例としては、シンクロナスダイナミックランダムアクセスメモリ(SDRAM)、読み出し専用メモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)及びフラッシュメモリなどのランダムアクセスメモリ(RAM)を含んでもよい。例としては、また、ハードディスク、磁気テープ、磁気又は光データ記憶媒体、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、Blu−rayディスク、及びホログラフィックデータ記憶媒体を含んでもよい。
プロセッサ712は、例えば、1つ以上の、汎用マイクロプロセッサ、特別設計のプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ディスクリート論理回路のコレクション、及び/又は本明細書中に記載される技術を実行できる任意の種類の処理デバイスを含んでもよい。いくつかの実施形態では、プロセッサ712(又は本明細書に記載される任意の他のプロセッサ)は、コンピューティングデバイスとして記載されてもよい。いくつかの実施形態では、メモリ714は、プロセッサ712によって実行されて、本明細書に記載されるプロセス又は方法を実行するプログラム命令(例えば、ソフトウェア命令)を格納するように構成されてもよい。他の実施形態では、本明細書に記載されるプロセス又は方法は、プロセッサ712の特別にプログラムされた回路によって実行されてもよい。したがって、いくつかの実施形態では、プロセッサ712は、本明細書に記載される画像多様化及び画像認識のための技術を実行するように構成されてもよい。プロセッサ712(又は本明細書に記載される任意の他のプロセッサ)は、1つ以上のプロセッサを含んでもよい。
入力/出力デバイス716は、ユーザ若しくは他のデバイスから、又はユーザ若しくは他のデバイスに、情報を入力又は出力するように構成された1つ以上のデバイスを含んでもよい。一部の実施形態では、入力/出力デバイス716は、グラフィカルユーザインタフェース(GUI)718を提示することができ、ユーザは、画像多様化及び画像認識のためのプロセスを制御してもよい。例えば、GUI718は、視覚情報をユーザに提示するための表示画面を含んでもよい。いくつかの実施形態では、表示画面は接触感知ディスプレイを含む。いくつかの実施形態では、GUI718は、ユーザに情報を提示するための1つ以上の異なる種類のデバイスを含んでもよい。GUI718は、例えば、任意の数の、視覚(例えば、表示デバイス、ライトなど)、聴覚(例えば、1つ以上のスピーカ)、及び/又は触覚(例えば、キーボード、タッチスクリーン、若しくはマウス)のフィードバックデバイスを含んでもよい。いくつかの実施形態では、入力/出力デバイス716は、表示画面(例えば、液晶ディスプレイ若しくは発光ダイオードディスプレイ)、及び/又はプリンタ(例えば、印刷デバイス、又は印刷デバイスに命令を出力するための構成要素)のうちの1つ以上を表してもよい。いくつかの実施形態では、入力/出力デバイス716は、プロセッサ712によって実行されて、本明細書に記載される実施形態を実行するプログラム命令(例えば、ソフトウェア命令)を受け取る又は受信するように構成されてもよい。
システム700はまた、他の構成要素を含んでもよく、プロセッサ712、メモリ714、及び入力/出力デバイス716を含む任意の図示された構成要素の機能は、複数の構成要素、及び、例えばコンピュータなどの別個のデバイスにわたって分散されてもよい。システム700は、ワークステーション、デスクトップコンピューティングデバイス、ノートブックコンピュータ、タブレットコンピュータ、モバイルコンピューティングデバイス、又は任意の他の好適なコンピューティングデバイス若しくはコンピューティングデバイスの集合として構成されてもよい。システム700は、ローカルネットワーク上で動作するか、又はローカルネットワークに集約されるか、又はクラウドコンピューティング環境800内でホスティングされてもよい。図7の図示された構成要素は、単に本開示の様々な態様を説明するために示されており、構成要素の追加又は除去は、当業者には明らかであろう。
例示的実施形態の列挙
例示的実施形態を以下に列挙する。実施形態1〜27及び28〜35はいずれも組み合わせることができることを理解されたい。
実施形態1は、コンピュータにより実施される方法であって、方法は、
プロセッサに、複数のデジタル画像を提供することであって、デジタル画像の各々は、認識されるオブジェクトと、オブジェクトの画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴とを含む、提供することと、
前記プロセッサを介して、複数のデジタル画像を、画像のテクスチャ又はスタイル特徴に応じて異なるグループにクラスタ化することであって、グループの各々は、類似のテクスチャ又はスタイル特徴を有するデジタル画像のうちの1つ以上を含む、クラスタ化することと、
プロセッサを介して、画像のグループの各々から1つ以上の代表スタイル画像を選択することと、
プロセッサを介して、スタイル変換ニューラルネットワークを、代表スタイル画像のうちの少なくとも1つに対して訓練して、1つ以上の訓練済みスタイル変換ニューラルネットワークを取得することと、
訓練済みスタイル変換ニューラルネットワークを介して、テクスチャ又はスタイル特徴を代表画像の各々からターゲット画像に変換して、スタイル変換された画像を生成することと、
スタイル変換された画像を使用して画像認識機械学習モデルを訓練することと、を含む。
実施形態2は、スタイル変換ニューラルネットワークは、事前に訓練され、訓練済みスタイル変換ニューラルネットワークは、格納され、呼び出されて使用される、実施形態1に記載の方法である。
実施形態3は、格納されたスタイル変換ニューラルネットワークのうちの少なくとも1つが、リアルタイムアプリケーションによって呼び出されて使用される、実施形態2に記載の方法である。
実施形態4は、訓練済みスタイル変換ニューラルネットワークは、各々が、代表的なテクスチャ又はスタイル特徴に対応する、実施形態1〜3のいずれか1つに記載の方法である。
実施形態5は、デジタル画像の対応するグループの統計値に基づいて、1つの訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、実施形態1〜4のいずれか1つに記載の方法である。
実施形態6は、グループのサイズに応じて、マルチプレクサを介して、訓練済みスタイル変換ニューラルネットワークから1つの訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、実施形態5に記載の方法である。
実施形態7は、画像の所定の確率分布に応じて、マルチプレクサを介して、訓練済みスタイル変換ニューラルネットワークから1つの訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、実施形態5又は6に記載の方法である。
実施形態8は、複数のデジタル画像をクラスタ化することは、デジタル画像を多層ニューラルネットワークに入力することを含む、実施形態1〜7のいずれか1つに記載の方法である。
実施形態9は、多層ニューラルネットワークを介して、画像の各々のテクスチャ又はスタイル特徴をグラム行列に分解することを更に含む、実施形態8に記載の方法である。
実施形態10は、多層ニューラルネットワークが、Visual Geometry Group(VGG)ネットワークを含む、実施形態8又は9に記載の方法である。
実施形態11は、グラム行列の各々が、多層ニューラルネットワークの1つの層に対応し、層内の各々の、画像の各々の特徴マップ間の相関行列を表す、実施形態9又は10に記載の方法である。
実施形態12は、K平均クラスタリング法を介して、グラム行列内で見出された類似度に基づいて、画像がグループにクラスタ化される、実施形態9〜11のいずれか1つに記載の方法である。
実施形態13は、グラム行列間の距離を計算することを更に含む、実施形態1〜12のいずれか1つによる方法である。
実施形態14は、距離が、余弦角度を距離尺度として用いて計算される、実施形態13に記載の方法である。
実施形態15は、代表スタイル画像を選択することが、グループの各々のクラスタ中心において画像を選択することを含む、実施形態1〜14のいずれか1つに記載の方法である。
実施形態16は、多様体学習法を介して、グループの次元を2Dクラスタに削減することを更に含む、実施形態1〜15のいずれか1つに記載の方法である。
実施形態17は、画像の2Dクラスタを視覚化することを更に含む、実施形態16に記載の方法である。
実施形態18は、自然環境を反映する自然テクスチャを含む、1つ以上の自然スタイル画像を提供することと、自然スタイル画像の各々に対してスタイル変換ニューラルネットワークを訓練して、対応する訓練済みスタイル変換ニューラルネットワークを取得することと、を更に含む、実施形態1〜17のいずれか1つに記載の方法である。
実施形態19は、画像認識機械学習モデルの性能を評価することを更に含む、実施形態1〜18のいずれか1つに記載の方法である。
実施形態20は、評価に基づいて、訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、実施形態19に記載の方法である。
実施形態21は、自然環境が、泥、雨、グレア、塵埃、錆、氷、ひっかき傷、水の痕跡、又は雪を含む、実施形態18〜20のいずれか1つに記載の方法である。
実施形態22は、認識されるオブジェクトが、レター、ナンバー、サイン、シンボル、及び、キャラクタのうちの1つ以上を含む、実施形態1〜21のいずれか1つに記載の方法である。
実施形態23は、画像認識機械学習モデルの訓練を評価することを更に含む、実施形態1〜22のいずれか1つに記載の方法である。
実施形態24は、スタイル変換された画像をサブグループに分割することを更に含む、実施形態23に記載の方法である。
実施形態25は、検証セットを使用することによって、サブグループの各々に対して、画像認識機械学習モデルを訓練することを更に含む、実施形態24に記載の方法である。
実施形態26は、特徴選択アルゴリズムに基づいて、サブグループから1つ以上の代表サブグループを選択することを更に含む、実施形態25に記載の方法である。
実施形態27は、画像認識機械学習モデルが、1つ以上の画像認識ニューラルネットワークを含む、実施形態1〜25のいずれか1つに記載の方法である。
実施形態28は、画像認識システムであって、画像認識システムは、
プロセッサを備え、プロセッサは、
複数のデジタル画像を受信して、デジタル画像の各々が、認識されるオブジェクトと、オブジェクトの画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴とを含み、
複数のデジタル画像を、画像のテクスチャ又はスタイル特徴に応じて異なるグループにクラスタ化して、グループの各々が類似のテクスチャ又はスタイル特徴を有するデジタル画像のうちの1つ以上を含み、
画像の各グループから1つ以上の代表スタイル画像を選択し、
スタイル変換ニューラルネットワークを、代表スタイル画像のうちの少なくとも1つに対して訓練して、1つ以上の訓練済みスタイル変換ニューラルネットワークを取得する、ように構成されている、画像認識システムである。
実施形態29は、訓練済みスタイル変換ニューラルネットワークを格納するメモリを更に備える、実施形態28に記載のシステムである。
実施形態30は、訓練済みスタイル変換ニューラルネットワークがクラウドコンピューティング環境内に格納される、実施形態28又は29に記載のシステムである。
実施形態31は、格納されたスタイル変換ニューラルネットワークのうちの少なくとも1つが、リアルタイムアプリケーションによって呼び出されて使用される、実施形態28〜30のいずれか1つに記載のシステムである。
実施形態32は、スタイル変換ニューラルネットワークがプロセッサによって事前に訓練され、訓練済みスタイル変換ニューラルネットワークはメモリ内に格納され、呼び出されて使用される、実施形態28〜31のいずれか1つに記載のシステムである。
実施形態33は、プロセッサが、訓練済みスタイル変換ニューラルネットワークを介して、テクスチャ又はスタイル特徴を、代表画像の各々からターゲット画像に変換して、スタイル変換された画像を生成するように更に構成されている、実施形態28〜32のいずれか1つに記載のシステムである。
実施形態34は、プロセッサが、スタイル変換された画像を使用して画像認識機械学習モデルを訓練するように更に構成されている、実施形態28〜33のいずれか1つにシステムである。
実施形態35は、画像認識機械学習モデルが、1つ以上の画像認識ニューラルネットワークを含む、実施形態34に記載のシステムである。
本開示の例示的な実施形態には、本開示の趣旨及び範囲から逸脱することなく、様々な修正及び変更を加えてもよい。したがって、本開示の実施形態は、記載された例示的な実施形態に限定されるべきではないが、特許請求の範囲に記載されている限定及びそれらの任意の均等物によって支配されるべきであることを理解すべきである。
本明細書全体を通して、「一実施形態」、「特定の実施形態」、「1つ以上の実施形態」、又は「実施形態」に対する言及は、「実施形態」という用語の前に、「例示的な」という用語が含まれているか否かに関わらず、その実施形態に関連して説明される具体的な特徴、構造、材料、又は特性が、本開示の特定の例示的な実施形態のうちの少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体を通して、様々な箇所における「1つ以上の実施形態において」、「特定の実施形態において」、「一実施形態において」、又は「ある実施形態において」などの表現の出現は、必ずしも本開示の特定の例示的な実施形態のうちの同一の実施形態に言及するものとは限らない。更に、特定の特徴、構造、材料、又は特性は、1つ以上の実施形態では任意の好適な方法で組み合わされてもよい。
本明細書ではいくつかの例示的な実施形態について詳細に説明してきたが、当業者には上述の説明を理解した上で、これらの実施形態の修正形態、変形形態、及び均等物を容易に想起できることが、諒解されるであろう。したがって、本開示は、ここまで説明してきた例示的実施形態に、過度に限定されるものではないことを理解されたい。特に、本明細書で使用する場合、端点による数値範囲の列挙は、その範囲内に包含されるすべての数を含む(例えば、1〜5は、1、1.5、2、2.75、3、3.80、4、及び5を含む)ことが意図される。加えて、本明細書で使用されるすべての数は、用語「約」によって修飾されるものと想定される。更に、種々の例示的な実施形態が説明されてきた。これらの実施形態及び他の実施形態は、以下の特許請求の範囲に含まれる。

Claims (30)

  1. コンピュータにより実施される方法であって、前記方法は、
    プロセッサに、複数のデジタル画像を提供することであって、前記デジタル画像の各々は、認識されるオブジェクトと、前記オブジェクトの前記画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴とを含む、提供することと、
    前記プロセッサを介して、前記複数のデジタル画像を、前記画像の前記テクスチャ又はスタイル特徴に応じて異なるグループにクラスタ化することであって、前記グループの各々は、類似のテクスチャ又はスタイル特徴を有する前記デジタル画像のうちの1つ以上を含む、クラスタ化することと、
    前記プロセッサを介して、画像の前記グループの各々から1つ以上の代表スタイル画像を選択することと、
    前記プロセッサを介して、スタイル変換ニューラルネットワークを、前記代表スタイル画像のうちの少なくとも1つに対して訓練して、1つ以上の訓練済みスタイル変換ニューラルネットワークを取得することと、
    前記訓練済みスタイル変換ニューラルネットワークを介して、前記テクスチャ又はスタイル特徴を前記代表画像の各々からターゲット画像に変換して、スタイル変換された画像を生成することと、
    前記スタイル変換された画像を使用して画像認識機械学習モデルを訓練することと、
    を含む、方法。
  2. 前記スタイル変換ニューラルネットワークは、事前に訓練され、前記訓練済みスタイル変換ニューラルネットワークは、格納され、呼び出されて使用される、請求項1に記載の方法。
  3. 格納された前記スタイル変換ニューラルネットワークのうちの少なくとも1つが、リアルタイムアプリケーションによって呼び出されて使用される、請求項2に記載の方法。
  4. 前記訓練済みスタイル変換ニューラルネットワークは、各々が、代表的なテクスチャ又はスタイル特徴に対応する、請求項1に記載の方法。
  5. デジタル画像の対応する前記グループの統計値に基づいて、1つの訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、請求項1に記載の方法。
  6. 前記グループのサイズに応じて、マルチプレクサを介して、前記訓練済みスタイル変換ニューラルネットワークから1つの訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、請求項5に記載の方法。
  7. 前記画像の所定の確率分布に応じて、マルチプレクサを介して、前記訓練済みスタイル変換ニューラルネットワークから1つの訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、請求項5に記載の方法。
  8. 前記複数のデジタル画像をクラスタ化することは、前記デジタル画像を多層ニューラルネットワークに入力することを含む、請求項1に記載の方法。
  9. 前記多層ニューラルネットワークを介して、前記画像の各々の前記テクスチャ又はスタイル特徴をグラム行列に分解することを更に含む、請求項8に記載の方法。
  10. 前記多層ニューラルネットワークが、Visual Geometry Group(VGG)ネットワークを含む、請求項8に記載の方法。
  11. 前記グラム行列の各々が、前記多層ニューラルネットワークの1つの層に対応し、前記層の各々内の、前記画像の各々の特徴マップ間の相関行列を表す、請求項9に記載の方法。
  12. K平均クラスタリング法を介して、前記グラム行列内で見出された類似度に基づいて、前記画像が、前記グループにクラスタ化される、請求項9に記載の方法。
  13. 前記グラム行列間の距離を計算することを更に含む、請求項9に記載の方法。
  14. 前記距離が、余弦角度を距離尺度として用いて計算される、請求項13に記載の方法。
  15. 前記代表スタイル画像を選択することが、前記グループの各々のクラスタ中心において、前記画像を選択することを含む、請求項1に記載の方法。
  16. 多様体学習法を介して、前記グループの次元を2Dクラスタに削減することを更に含む、請求項1に記載の方法。
  17. 画像の前記2Dクラスタを視覚化することを更に含む、請求項16に記載の方法。
  18. 自然環境を反映する自然テクスチャを含む、1つ以上の自然スタイル画像を提供することと、前記自然スタイル画像の各々に対して前記スタイル変換ニューラルネットワークを訓練して、対応する前記訓練済みスタイル変換ニューラルネットワークを取得することと、を更に含む、請求項1に記載の方法。
  19. 前記画像認識機械学習モデルの性能を評価することを更に含む、請求項1に記載の方法。
  20. 前記評価に基づいて、前記訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、請求項19に記載の方法。
  21. 前記認識されるオブジェクトは、レター、ナンバー、サイン、シンボル、及び、キャラクタのうちの1つ以上を含む、請求項1に記載の方法。
  22. 前記画像認識機械学習モデルの前記訓練を評価することを更に含む、請求項1に記載の方法。
  23. 前記スタイル変換された画像をサブグループに分割することを更に含む、請求項22に記載の方法。
  24. 検証セットを使用することによって、前記サブグループの各々に対して、前記画像認識機械学習モデルを訓練することを更に含む、請求項23に記載の方法。
  25. 特徴選択アルゴリズムを用いて、前記訓練からの結果に基づいて、前記サブグループから1つ以上の代表サブグループを選択することを更に含む、請求項24に記載の方法。
  26. 画像認識システムであって、前記システムは、プロセッサを備え、
    前記プロセッサは、
    複数のデジタル画像を受信して、前記デジタル画像の各々が、認識されるオブジェクトと、前記オブジェクトの前記画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴とを含み、
    前記複数のデジタル画像を、前記画像の前記テクスチャ又はスタイル特徴に応じて異なるグループにクラスタ化して、前記グループの各々が類似のテクスチャ又はスタイル特徴を有する前記デジタル画像のうちの少なくともいくつかを含み、
    画像の前記グループの各々から1つ以上の代表スタイル画像を選択し、
    スタイル変換ニューラルネットワークを、前記代表スタイル画像のうちの少なくとも1つに対して訓練して、1つ以上の訓練済みスタイル変換ニューラルネットワークを取得する、
    ように構成されている、画像認識システム。
  27. 前記訓練済みスタイル変換ニューラルネットワークを格納するメモリを更に備える、請求項26に記載のシステム。
  28. 前記スタイル変換ニューラルネットワークは、前記プロセッサによって事前に訓練され、前記訓練済みスタイル変換ニューラルネットワークは、メモリ内に格納され、呼び出されて使用される、請求項26に記載のシステム。
  29. 前記プロセッサは、前記訓練済みスタイル変換ニューラルネットワークを介して、前記テクスチャ又はスタイル特徴を、前記代表画像の各々からターゲット画像に変換して、スタイル変換された画像を生成するように更に構成されている、請求項26に記載のシステム。
  30. 前記プロセッサは、前記スタイル変換された画像を使用して画像認識機械学習モデルを訓練するように更に構成されている、請求項26に記載のシステム。
JP2020504352A 2017-08-01 2018-07-25 画像の多様化及び認識のためのニューラルスタイル変換 Pending JP2020530925A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762539772P 2017-08-01 2017-08-01
US62/539,772 2017-08-01
PCT/IB2018/055570 WO2019025909A1 (en) 2017-08-01 2018-07-25 NEURONAL STYLE TRANSFER FOR VARIETY AND IMAGE RECOGNITION

Publications (2)

Publication Number Publication Date
JP2020530925A true JP2020530925A (ja) 2020-10-29
JP2020530925A5 JP2020530925A5 (ja) 2021-09-09

Family

ID=65232502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020504352A Pending JP2020530925A (ja) 2017-08-01 2018-07-25 画像の多様化及び認識のためのニューラルスタイル変換

Country Status (5)

Country Link
US (1) US11631186B2 (ja)
EP (1) EP3662412A4 (ja)
JP (1) JP2020530925A (ja)
CN (1) CN110914834B (ja)
WO (1) WO2019025909A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024090802A1 (ko) * 2022-10-25 2024-05-02 삼성전자주식회사 렌더링 스타일이 변경된 이미지를 획득하기 위한 전자 장치 및 방법

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537262B1 (en) 2015-07-21 2022-12-27 Monotype Imaging Inc. Using attributes for font recommendations
CN109426858B (zh) * 2017-08-29 2021-04-06 京东方科技集团股份有限公司 神经网络、训练方法、图像处理方法及图像处理装置
US11334750B2 (en) * 2017-09-07 2022-05-17 Monotype Imaging Inc. Using attributes for predicting imagery performance
US11657602B2 (en) 2017-10-30 2023-05-23 Monotype Imaging Inc. Font identification from imagery
WO2020073758A1 (en) * 2018-10-10 2020-04-16 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for training machine learning modle, apparatus for video style transfer
US10878298B2 (en) 2019-03-06 2020-12-29 Adobe Inc. Tag-based font recognition by utilizing an implicit font classification attention neural network
CN110033054B (zh) * 2019-03-14 2021-05-25 上海交通大学 基于协同笔画优化的个性化手写体迁移方法和系统
US11468582B2 (en) * 2019-03-16 2022-10-11 Nvidia Corporation Leveraging multidimensional sensor data for computationally efficient object detection for autonomous machine applications
US11068785B2 (en) 2019-03-26 2021-07-20 Aivitae LLC Methods and systems for operating applications through user interfaces
CN110033034B (zh) * 2019-04-01 2023-09-12 深圳大学 一种非均匀纹理的图片处理方法、装置和计算机设备
US11501161B2 (en) * 2019-04-04 2022-11-15 Adobe Inc. Method to explain factors influencing AI predictions with deep neural networks
CN110084741A (zh) * 2019-04-26 2019-08-02 衡阳师范学院 基于显著性检测和深度卷积神经网络的图像风络迁移方法
KR102034827B1 (ko) * 2019-05-14 2019-11-18 주식회사 뷰노 훈련된 심층 신경망 모델의 재현 성능을 개선하는 방법 및 이를 이용한 장치
CN110135349A (zh) * 2019-05-16 2019-08-16 北京小米智能科技有限公司 识别方法、装置、设备及存储介质
WO2020235862A1 (en) * 2019-05-17 2020-11-26 Samsung Electronics Co., Ltd. Image manipulation
CN112464924A (zh) * 2019-09-06 2021-03-09 华为技术有限公司 一种构建训练集的方法及装置
US11030793B2 (en) * 2019-09-29 2021-06-08 Snap Inc. Stylized image painting
JP7335545B2 (ja) * 2019-09-30 2023-08-30 ブラザー工業株式会社 学習画像データの生成方法、予測モデル
CN110910303A (zh) * 2019-10-26 2020-03-24 湖北讯獒信息工程有限公司 一种图像风格迁移方法
CN110913263B (zh) * 2019-11-29 2021-05-18 联想(北京)有限公司 视频处理方法、装置及电子设备
DE102020206433A1 (de) * 2020-05-25 2021-11-25 Hitachi Astemo, Ltd. Computerprogrammprodukt und Trainingssteuervorrichtung für künstliche Intelligenz
CN111798371B (zh) * 2020-07-07 2023-11-10 泰康保险集团股份有限公司 一种视频风格迁移的方法及设备
CN112102269B (zh) * 2020-09-01 2024-01-05 浙江大学 计算风格迁移质量相似度的方法、装置、计算机设备和存储介质
CN112307714B (zh) * 2020-11-03 2024-03-08 武汉理工大学 一种基于双阶段深度网络的文字风格迁移方法
US11423206B2 (en) 2020-11-05 2022-08-23 Adobe Inc. Text style and emphasis suggestions
CN112419435A (zh) * 2020-11-10 2021-02-26 贵州大学 一种用于挑花和蜡染组合图案设计的方法
DE112020007845T5 (de) * 2020-12-15 2023-10-05 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Einrichtung zur Bildverarbeitung
CN112686135B (zh) * 2020-12-29 2022-10-14 中南大学 基于分布拟合的可泛化的行人重识别方法
CN113095999B (zh) * 2021-03-29 2023-08-25 北京雷石天地电子技术有限公司 一种视频风格转置方法和系统
AU2021204608A1 (en) * 2021-06-21 2023-01-19 Sensetime International Pte. Ltd. Image data generation method and apparatus, electronic device, and storage medium
CN113436125B (zh) * 2021-07-09 2022-11-04 河南大学 基于风格迁移的侧扫声呐仿真图像生成方法、装置及设备
EP4123580A1 (en) 2021-07-21 2023-01-25 F. Hoffmann-La Roche AG Processing of images containing overlapping particles
US11989916B2 (en) * 2021-10-11 2024-05-21 Kyocera Document Solutions Inc. Retro-to-modern grayscale image translation for preprocessing and data preparation of colorization
GB2612775A (en) * 2021-11-10 2023-05-17 Sony Interactive Entertainment Inc System and method for generating assets
US20230177662A1 (en) * 2021-12-02 2023-06-08 Robert Bosch Gmbh System and Method for Augmenting Vision Transformers
CN114332086B (zh) * 2022-03-14 2022-05-13 启东市固德防水布有限公司 基于风格迁移和人工智能的纺织品缺陷检测方法及系统
CN114398313B (zh) * 2022-03-22 2022-06-14 北京数腾软件科技有限公司 一种文件级数据的智能迁移操作方法及系统
CN114663428B (zh) * 2022-05-16 2022-09-02 网思科技股份有限公司 基于人工智能的物体表面异常检测方法、装置及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05266226A (ja) * 1992-03-19 1993-10-15 Fujitsu Ltd ニューラルネットによる図形変換方式
JP2005215988A (ja) * 2004-01-29 2005-08-11 Canon Inc パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI467498B (zh) * 2011-12-19 2015-01-01 Ind Tech Res Inst 影像識別方法及系統
CN104239855B (zh) * 2014-09-03 2017-05-10 南京大学 一种基于笔画合成的图像风格迁移合成方法
DE102015009981A1 (de) 2015-07-31 2017-02-02 Eberhard Karls Universität Tübingen Verfahren und Vorrichtung zur Bildsynthese
CN106548127B (zh) * 2015-09-18 2022-11-04 松下电器(美国)知识产权公司 图像识别方法
US10789525B2 (en) * 2015-10-02 2020-09-29 Adobe Inc. Modifying at least one attribute of an image with at least one attribute extracted from another image
CN106778928B (zh) * 2016-12-21 2020-08-04 广州华多网络科技有限公司 图像处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05266226A (ja) * 1992-03-19 1993-10-15 Fujitsu Ltd ニューラルネットによる図形変換方式
JP2005215988A (ja) * 2004-01-29 2005-08-11 Canon Inc パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AMIN MOHAMMADIAN ET AL.: "Video-based facial expression recognition by removing the style variations", IET IMAGE PROCESSING, vol. 9, no. 7, JPN6022028176, 2015, pages 596 - 603, XP006052751, ISSN: 0004823827, DOI: 10.1049/iet-ipr.2013.0697 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024090802A1 (ko) * 2022-10-25 2024-05-02 삼성전자주식회사 렌더링 스타일이 변경된 이미지를 획득하기 위한 전자 장치 및 방법

Also Published As

Publication number Publication date
WO2019025909A1 (en) 2019-02-07
EP3662412A4 (en) 2021-04-21
US20200219274A1 (en) 2020-07-09
CN110914834A (zh) 2020-03-24
EP3662412A1 (en) 2020-06-10
US11631186B2 (en) 2023-04-18
CN110914834B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
JP2020530925A (ja) 画像の多様化及び認識のためのニューラルスタイル変換
US10650042B2 (en) Image retrieval with deep local feature descriptors and attention-based keypoint descriptors
EP3853764A1 (en) Training neural networks for vehicle re-identification
US20210216874A1 (en) Radioactive data generation
Tommasi et al. Beyond dataset bias: Multi-task unaligned shared knowledge transfer
EP3841529A1 (en) Scalable and compressive neural network data storage system
Patel et al. An improved dense cnn architecture for deepfake image detection
KR102479671B1 (ko) 차량 부품 정보를 제공하기 위한 방법
Nayan et al. Real time multi-class object detection and recognition using vision augmentation algorithm
WO2020099902A1 (en) Methods and apparatus to perform image analyses in a computing environment
WO2022248676A1 (en) Continual learning neural network system training for classification type tasks
JP7270839B2 (ja) 顔認識のための汎用特徴表現学習
Sendera et al. The general framework for few-shot learning by kernel HyperNetworks
Mei et al. Unsupervised Object Pose Classification from Short Video Sequences.
CN111680722B (zh) 内容识别方法、装置、设备及可读存储介质
Cheng Machine Learning in the Open World
US20210383226A1 (en) Cross-transformer neural network system for few-shot similarity determination and classification
Kang et al. Variational Multi-Prototype Encoder for Object Recognition Using Multiple Prototype Images
KR102479672B1 (ko) 차량의 파손 영역을 검출하기 위한 방법
Baumhauer et al. Bounded logit attention: Learning to explain image classifiers
Paul et al. An improved deepfake detection using deep learning
Minh Dang et al. Tampered and Computer-Generated Face Images Identification Based on Deep Learning.
Tang et al. Advancing Pre-trained Teacher: Towards Robust Feature Discrepancy for Anomaly Detection
Mitsuhashi Classification of handwritten drawing shape in 3D Direct Drawing System using Machine Learning
Berrabah et al. Improve Image Classification Using Data Optimization

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220909

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230315

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230315

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230328

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230404

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230421

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20230425