JP2020530925A

JP2020530925A - 画像の多様化及び認識のためのニューラルスタイル変換

Info

Publication number: JP2020530925A
Application number: JP2020504352A
Authority: JP
Inventors: ジャマルアフリディ，ムハマド; ジェイ．コリンズ，エリサ; ディー．ガンドラッド，ジョナサン; ダブリュ．ハワード，ジェームズ; サンガリ，アラシュ; ビー．スナイダー，ジェームズ
Original assignee: 3M Innovative Properties Co
Current assignee: 3M Innovative Properties Co
Priority date: 2017-08-01
Filing date: 2018-07-25
Publication date: 2020-10-29
Also published as: CN110914834A; CN110914834B; EP3662412A4; WO2019025909A1; US20200219274A1; US11631186B2; EP3662412A1

Abstract

画像認識のためのシステム及び方法が提供される。スタイル変換ニューラルネットワークが、各実画像に対して訓練されて、訓練済みスタイル変換ニューラルネットワークが得られる。実画像のテクスチャ又はスタイル特徴は、訓練済みスタイル変換ニューラルネットワークを介して、ターゲット画像に変換されて、スタイル変換された画像が生成され、これを用いて、画像認識機械学習モデル（例えば、ニューラルネットワーク）が訓練される。場合によっては、実画像はクラスタ化され、代表スタイル画像はクラスタから選択される。

Description

本開示は、画像認識システムの性能を改善するために使用できる、ニューラルスタイル変換を介した画像多様化のための方法及びシステムに関する。

深層学習は、画像認識において広く使用されてきた。例えば、分類機械学習モデル（例えば、ニューラルネットワーク）は、モデルに多数の画像を供給することによってオブジェクトを認識するように訓練され得る。典型的には、画像は、それぞれのコンテンツ（例えば、画像内で認識されるオブジェクトであり、例えばレター、ナンバー、サイン、シンボル、及び、キャラクタなど）でラベル付けされる必要がある。

多くの産業及び用途では、画像認識機械学習アルゴリズム／モデル（例えば、ニューラルネットワーク）を訓練するための画像を多様化することが望まれている。本開示は、ニューラルスタイル変換を介した画像多様化のための方法及びシステムを提供し、この方法及びシステムは、画像認識機械学習アルゴリズム／モデルを介して画像認識を改善するために使用できる。

簡潔に言うと、一態様では、本開示は、プロセッサに複数のデジタル画像を提供することを含む、コンピュータで実施される方法について記載する。各デジタル画像は、認識されるオブジェクトと、オブジェクトの画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴と、を含む。この方法は、プロセッサを介して、複数のデジタル画像を、画像のテクスチャ又はスタイル特徴に応じて、異なるグループにクラスタ化することであって、各グループは、類似のテクスチャ又はスタイル特徴を有するデジタル画像のうちの１つ以上を含む、クラスタ化することと、プロセッサを介して、画像の各グループから１つ以上の代表スタイル画像を選択することと、プロセッサを介して、スタイル変換ニューラルネットワークを、代表スタイル画像のうちの少なくとも１つに対して訓練して、訓練済みスタイル変換ニューラルネットワークを取得することと、訓練済みスタイル変換ニューラルネットワークを介して、テクスチャ又はスタイル特徴を代表画像のうちの少なくとも１つからターゲット画像に変換して、スタイル変換された画像を生成することと、スタイル変換された画像を使用して画像認識機械学習モデルを訓練することと、を更に含む。

別の態様では、本開示はプロセッサを含む、画像認識システムについて記載し、プロセッサは、複数のデジタル画像を受信して、デジタル画像の各々が、認識されるオブジェクトと、オブジェクトの画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴とを含むようにし、複数のデジタル画像を、画像のテクスチャ又はスタイル特徴に応じて異なるグループにクラスタ化して、グループの各々が類似のテクスチャ又はスタイル特徴を有するデジタル画像のうちの少なくともいくつかを含むようにし、画像の各グループから１つ以上の代表スタイル画像を選択し、スタイル変換ニューラルネットワークを、代表スタイル画像のうちの少なくとも１つに対して訓練して、１つ以上の訓練済みスタイル変換ニューラルネットワークを取得する、ように構成されている。いくつかの実施形態では、プロセッサは、訓練済みスタイル変換ニューラルネットワークを介して、テクスチャ又はスタイル特徴を、各代表画像からターゲット画像に変換して、スタイル変換された画像を生成し、スタイル変換された画像を使用して画像認識機械学習モデルを訓練するように、更に構成され得る。

本開示の例示的な実施形態では、様々な利点が得られる。本開示の例示的な実施形態のこのような利点の１つは、画像認識機械学習モデル用に、多様化された画像が生成され得ることである。多様化された画像は、認識すべきオブジェクトの画像が取得された広範囲の実世界条件を反映することができ、これにより、画像認識機械学習モデルの性能を著しく改善できる。

以上が本開示の例示的な実施形態の様々な態様及び利点の概要である。上記の「発明の概要」は、本開示の特定の例示的な実施形態の、図示される各実施形態又は全ての実現形態を説明することを意図するものではない。以下の図面及び「発明を実施するための形態」は、本明細書に開示される原理を使用する特定の好ましい実施形態を、より詳細に例示するものである。

以下の本開示の様々な実施形態の詳細な説明を添付図面と併せて検討することで、本開示をより完全に理解し得る。
一実施形態による、画像認識方法の概略図である。一実施形態による、訓練例のセットをサブグループに分割し、サブグループを評価及び選択する方法の概略図を示す。一実施形態による、画像認識ニュートラルネットワークを訓練する方法のフロー図である。一実施形態による、実世界画像をクラスタ化し、そこから代表スタイル画像を選択するフロー図を示す。一実施形態による、例示的なグラム行列を示す。一実施形態による、例示的な実画像の５つのクラスタを示す。一実施形態による、例示的な実画像の２Ｄクラスタを示す。図６Ａの対応するクラスタから選択された代表画像を示す。一実施形態による、画像認識システムを示す。

図面において、類似の参照符号は類似の要素を表す。一定の縮尺で描かれないことがある、上記で特定された図面は、本開示の様々な実施形態を明らかにしているが、発明を実施するための形態で指摘されるように、他の実施形態も予想される。全ての場合に、本開示は、本明細書で開示される開示内容を、明示的な限定によってではなく、例示的な実施形態を示すことによって説明する。本開示の範囲及び趣旨に含まれる多くの他の修正及び実施形態が、当業者によって考案され得ることを理解されたい。

多くの産業及び用途では、画像認識機械学習モデルを訓練するための画像を多様化することが望まれている。本開示は、ニューラルスタイル変換を介した画像多様化のための方法及びシステムを提供し、この方法及びシステムは、画像認識機械学習モデルを介して画像認識を改善するために使用できる。本開示のいくつかの実施形態では、多様化された画像は、訓練済みスタイル変換ニューラルネットワークを介して、代表スタイル画像からターゲット画像にテクスチャ又はスタイル特徴を変換して、スタイル変換された画像を生成することによって得ることができる。多様化された画像は、認識すべきオブジェクトの画像が取得された広範囲の実世界条件を反映することができ、これにより、実使用での画像認識機械学習モデルの性能を著しく改善できる。

本開示では、用語「画像認識機械学習モデル」は、画像認識を適用するために訓練用画像を供給することによって訓練され得る教師あり機械学習モデルを指し得る。本明細書で利用される機械学習モデルは、例えば、確率モデル（例えば、単純ベイズモデル、ベイジアンネットワークなど）、機能モデル（例えば、ニューラルネットワーク、サポートベクトルネットワークなど）、決定木（例えば、Ｃ４．５アルゴリズム、ランダムフォレスト法など）、ルール学習者（rule learner）（例えば、ｃＡｎｔｍｉｎｅｒ、ＪＲｉｐ）を含んでもよく、又は任意の他の機械学習パラダイムに属してもよい。いくつかの実施形態では、画像認識機械学習モデルは、例えば、分類深層畳み込みニューラルネットワークなどの１つ以上のニューラルネットワークを含んでもよい。

図１は、一実施形態による、画像認識のための、コンピュータで実施される方法１００の概略図を示す。１４０における訓練用画像は、画像認識機械学習モデルを訓練するために、１６０において画像認識機械学習モデルに直接供給されて、１７０において訓練済み画像認識機械学習モデルが取得される。画像認識機械学習モデルは、例えば、分類深層畳み込みニューラルネットワークであってもよい。当該技術分野において、画像を分類するために、深層畳み込みニューラルネットワークを使用する方法が公知である。本明細書での画像認識のために、任意の好適な分類深層畳み込みニューラルネットワークが使用され得る。

１４０における訓練用画像は、コンピュータによって人工的に合成されてもよく、１７０において訓練済み画像認識機械学習モデルによって認識されるターゲットコンテンツ又はオブジェクトと類似のコンテンツ又はオブジェクトを含む。訓練用画像は、キャラクタ、フォント、ロゴなどをランダムに組み合わせることによって生成できる。生成された画像は、ノイズ、ぼかし、スキュー、染みなどを追加することによって更に修正されて、実世界条件下でキャプチャされた画像を模倣し得る。この従来の画像認識メカニズムは、各訓練用画像が、グラウンドトゥルースとしての画像のコンテンツでラベル付けされていることを必要とする。訓練用画像が画像認識機械学習モデルに供給される場合、アルゴリズムは、ネットワークのノード間の重みを調節してグラウンドトゥルースとの一致を増加させて、出力を提供することができる。このようなグラウンドトゥルースは、重みの値が、正しい画像認識に最適な値に可能な限り近くまで収束するために必要である。また、この従来の画像認識メカニズムは、信頼性の高い性能を達成するために、大量の訓練用画像（例えば、数百万）を必要とする場合がある。加えて、システムの使用中に遭遇するであろう条件の範囲を表す、訓練用画像の完全なセットを得ることは困難であり得る。従来のシステムは、訓練されていない認識事例に対しては良好に機能しない場合がある。

本開示のいくつかの実施形態では、同等の信頼性の高い性能を実現するために、著しく少ない訓練用画像が必要とされ得る。１６０において画像認識機械学習モデルに供給する前に、より少ない訓練用画像を最初に多様化して、様々な実世界条件をカバーすることができる。更に、多様化された画像は、それぞれの訓練用画像からグラウンドトゥルースを継承することができ、また、グラウンドトゥルースとして画像のコンテンツを追加する、追加ラベル付け工程を必要としない場合がある。

図１の方法１００によると、１１０における実画像が、スタイル変換ニューラルネットワークを訓練するために、１２０においてスタイル変換ニューラルネットワークに供給されて、１３０において訓練済みスタイル変換ニューラルネットワークを取得できる。１つの実画像は、認識されるオブジェクトと、オブジェクトの画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴とを含み得る。実世界条件は、例えば、地理的位置、気象条件、照明条件、カメラ角度、カメラ設定、オブジェクトとカメラとの間の距離などに関連し得る。実画像のテクスチャ又はスタイル特徴は、その実画像の空間的に不変な特徴の要約統計量であってもよい。いくつかの実施形態では、テクスチャ特徴は、画像全体を覆い得るので、画像内の特定の場所に関わらずテクスチャ特徴は同じであり得る。逆に、画像の異なる領域が異なるコンテンツを含んでもよいので、画像のコンテンツは空間的に変化してもよい。認識される実画像内のオブジェクトは、例えば、レター、ナンバー、サイン、シンボル、及び、キャラクタなどのうちの１つ以上を含んでもよい。実画像は、画像を記録又はキャプチャすることが可能な、例えばデジタルカメラなどの任意の好適な光学機器によって取得され得る。いくつかの実施形態では、実画像は赤外線（ＩＲ）カメラシステムによってキャプチャされ得る。実世界条件において画像がオブジェクトに対して取得される場合、得られた画像は、実世界条件に関連付けられたテクスチャ又はスタイル特徴を含み得る。

１２０におけるスタイル変換ニューラルネットワークは、例えば、畳み込みニューラルネットワーク（ＣＮＮ）を含んでもよい。実画像のテクスチャ又はスタイル特徴は、グラム行列によって表され得る。１２０において、テクスチャ又はスタイル特徴を有する実画像を、スタイル変換ニューラルネットワークに供給することにより、１３０において、訓練済みスタイル変換ニューラルネットワークを得ることができ、その各々が、対応するテクスチャ又はスタイル特徴に対応する。

任意選択的に、１１５における自然スタイル画像が、１２０においてスタイル変換ニューラルネットワークに供給されて、対応するスタイル変換ニューラルネットワークが訓練され得る。自然スタイル画像は、例えば、泥、雨、グレア、粉塵、錆、氷、ひっかき傷、水の痕跡、雪などの自然環境を反映する自然テクスチャを含んでもよい。対応するスタイル変換ニューラルネットワークを、各自然スタイル画像に対して訓練して、対応する訓練済みスタイル変換ニューラルネットワークを取得できる。

１４０における訓練用画像は、１３０において訓練済みスタイル変換ニューラルネットワークに供給されて、１１０における実画像及び／又は１１５における自然スタイル画像からのテクスチャ又はスタイル特徴が１４０における訓練用画像に変換されて、スタイル変換された画像が１５０において生成され得る。

いくつかの実施形態では、１１０における実画像、及び／又は１１５における自然スタイル画像は、スタイル画像として指定され、１２０において深層畳み込みニューラルネットワークの層を通して処理されて、画像スタイル特徴の数学的表現を生成させることができ、これが１３０において、訓練済みスタイル変換ニューラルネットワークとして格納され得る。

いくつかの実施形態では、１４０における訓練用画像は、コンテンツ画像として指定され、１２０において同じ深層畳み込みニューラルネットワークの層を通して処理されて、画像のコンテンツの数学的表現を生成させることができる。スタイル及びコンテンツに対する数学的表現を、特定の割合で組み合わせて、所望の出力画像、例えば、１５０におけるスタイル変換された画像の単一の数学的表現を生成させることができる。ソース画像のテクスチャをターゲット画像のオブジェクトに変換するためのコンピュータで実施される方法は、例えば、国際公開第２０１７／０２１３２２（Ａ１）号に記載されており、参考として本明細書に組み込まれる。

図１の方法１００によると、画像認識機械学習モデルを訓練するために、１５０においてスタイル変換された画像は、１６０において画像認識機械学習モデルに供給されて、１７０において訓練済み画像認識機械学習モデルが取得できる。いくつかの実施形態では、画像認識機械学習モデルを訓練するために、１４０における訓練用画像の少なくともいくつかが、１５０においてスタイル変換された画像と共に、１６０において画像認識機械学習モデルに供給されて、１７０において訓練済み画像認識機械学習モデルが取得され得る。

訓練済み画像認識機械学習モデルを１７０において取得した後、１８０における試験画像を使用して、訓練済み画像認識機械学習モデルの性能を１９０において評価できる。評価結果に基づいて、より良好な性能を有する訓練済みスタイル変換ニューラルネットワークが選択され得る。すなわち、いくつかの実施形態では、より効果的な訓練済みスタイル変換ニューラルネットワークのうちのいくつかが選択されて、１６０において画像認識ニューラルネットワークを訓練するために、スタイル変換された画像を１５０において生成することができる。

本開示では、１４０における訓練用画像、及び１５０においてスタイル変換された画像のうちの１つ以上を含む訓練例又はデータを使用して、１６０において画像認識機械学習モデルを訓練することができる。訓練例又はデータの所与のセットに対して、画像認識の所与のタスクにとって、いくつかの訓練例は他の訓練例よりも有益であり得る。いくつかの訓練例から学習された知識（表現）が、冗長であり、かつ関連性が最も低い場合がある。１６０における画像認識ニューラルネットワークの訓練を、関連性が最も高い訓練例に重点を置き、一方で、訓練セットから冗長で無関係な訓練例を排除することが役立つ場合がある。図１ａは、訓練例のセットをサブグループに分割し、サブグループを評価して、より効果的な訓練例を選択する方法１９０’の概略図を示す。

いくつかの実施形態では、訓練例又はデータは、それらの共通の特徴に基づいてグループに分割することができる。例えば、いくつかの実施形態では、そのようなグループ分けのアプローチの１つが、画像に関連するスタイルに基づくことができ、他の実施形態では、基本的なｋ平均クラスタリング法を使用して、訓練例を異なるサブグループ又はサブセットに分割、グループ化、又はクラスタ化できる。図１ａに示す実施形態では、訓練例１９２のセットは、関連するスタイルに基づいて、スタイルＡ、スタイルＢ、スタイルＣ、スタイルＤなどを含む異なるサブグループに分割されている。

いくつかの実施形態では、訓練例１９２のセットがサブグループに分割された後、対応する画像認識機械学習モデル（例えば、ニューラルネットワーク）を各サブグループに対して訓練して、対応する訓練済み画像認識機械学習モデル（例えば、図１ａの１９３で示すように、ネット−Ａ、ネット−Ｂ、ネット−Ｃ、ネット−Ｄなどのニューラルネットワーク）を得ることができる。

いくつかの実施形態では、次に、検証セット１９４（例えば、試験画像の小セット）を利用して、訓練済みニューラルネットワークの全て（例えば、図１ａの１９３で示すように、ネット−Ａ、ネット−Ｂ、ネット−Ｃ、ネット−Ｄなど）の性能を評価することができる。検証セットが評価用にｋ個の画像を含むと想定すると、訓練済みニューラルネットワークの各々の出力は、ｋｘ１次元ベクトルとして表現され得る。この出力を、ラベル（グラウンドトゥルース、例えば、図１ａのラベル１９５’）を含むｋｘ１ベクトルに対して評価することができる。訓練例がｈ個のサブグループに分割されていることを考慮すると、ｈ個のそのような出力ベクトルを生成することができる（例えば、出力ベクトルＡ、Ｂ、Ｃ、Ｄなどを含む、図１ａの出力ベクトル１９５）。

いくつかの実施形態では、サブグループ及びラベルベクトル（グラウンドトゥルース）によって得られた出力ベクトルは、特徴サブセット選択アルゴリズム１９６への入力として提供され得る。特徴サブセット選択アルゴリズムは、例えば、相関ベース特徴選択（ＣＦＳ）アルゴリズムであり得る。ＣＦＳアルゴリズムを使用して、２つの基準：（ａ）ベクトルは互いの相関性がほとんどないものとする、及び（ｂ）ベクトルは実際のラベルと高度に相関しているものとする、に基づいて予測される出力ベクトルのサブセットを決定することができる。図１ａの実施形態では、出力ベクトルＡ、Ｂ、及びＤが選択されている。サブセット内の選択されたベクトルＡ、Ｂ、及びＤの対応するサブグループ（例えば、図１ａの１９２’に示すようなスタイル−Ａ、スタイル−Ｂ、及びスタイル−Ｄ）を訓練プロセスで利用することができ、一方、サブグループＣは冗長であるか又は効果が低いと考えられる。すなわち、いくつかの実施形態では、より効果的な訓練済みスタイル変換ニューラルネットワークのうちのいくつかのみを使用して、画像認識ニューラルネットワークを訓練するために、スタイル変換された画像を生成することができる。

コンピュータで実施される方法１００は、最初に訓練用画像を多様化させてスタイル変換された画像を取得し、次に、スタイル変換された画像を使用して画像認識機械学習モデルを訓練することができる。訓練済みスタイル変換ニューラルネットワークを介して、実画像及び／又は自然スタイル画像から様々なテクスチャ又はスタイル特徴を変換させて、より現実的な状態を網羅できる、より多様な訓練用画像（すなわち、スタイル変換された画像）を作成することによって、いくつかの訓練用画像を多様化することができる。

図２は、一実施形態による、画像認識ニュートラルネットワークを訓練する方法２００のフロー図を示す。２１０において、複数のデジタル画像がプロセッサに提供され得る。プロセッサは、本明細書に記載されるプロセス又は方法を実施するためのプログラム命令（例えば、ソフトウェア命令）を実行することができる。デジタル画像は、例えば、図１の１１０における実画像を含み得る。次いで、方法２００は、２２０に進む。

２２０において、デジタル画像は、プロセッサを介して異なるグループにクラスタ化され得る。各グループは、類似のテクスチャ又はスタイル特徴を有するデジタル画像のうちの１つ以上を含んでもよい。場合によっては、類似のテクスチャ又はスタイル特徴は、画像が取得された類似の実世界条件に由来し得る。次いで、方法２００は、２３０に進む。

２３０において、各グループから、１つ以上の代表スタイル画像が選択され得る。いくつかの実施形態では、代表スタイル画像は、各グループのクラスタ中心に位置し得る。画像をクラスタ化し、代表スタイル画像を選択する例示的な方法が、図３に更に示され、以下で更に記載される。次いで、方法２００は、２４０に進む。

２４０において、代表スタイル画像の各々に対して、スタイル変換ニューラルネットワークを訓練して、対応する訓練済みスタイル変換ニューラルネットワークを得ることができる。スタイル変換ニューラルネットワークは、代表スタイル画像のスタイル特徴をターゲット画像に変換する方法について訓練され得る。スタイル変換ニューラルネットワークを訓練した出力は、代表スタイル画像から抽出されたスタイル又はテクスチャ特徴の各々に対するニューラルネットワークモデルであり得る。いくつかの実施形態では、出力は、例えば、図７のメモリ７１４内に格納され得る。代表スタイル画像を使用することによるスタイル変換ニューラルネットワークのこのような事前訓練は、オフラインで実施されてもよく、出力は格納され、例えば、機械学習モデルに基づく画像認識アプリケーションなどの任意のリアルタイムアプリケーションによって呼び出されて使用され得る。次いで、方法２００は、２４５又は２５０に進む。

任意選択的に、２４５において、１つ以上の代表スタイル画像が、マルチプレクサを介して選択され得る。対応するスタイル若しくはテクスチャ特徴は、例えば、対応するクラスタのサイズ、及び／又はスタイル若しくはテクスチャ特徴のユーザ定義の確率分布に従って選択され得る。マルチプレクサは、（例えば、スタイル画像からターゲット画像へ）どのスタイル又はテクスチャが変換されるかを制御できる。例えば、より大きいクラスタを表す第１のスタイル又はテクスチャは、より小さいクラスタを表す第２のスタイル又はテクスチャよりも、より頻繁に使用されるように、マルチプレクサを介して選択され得る。次いで、方法２００は、２５０に進む。

２５０において、スタイル又はテクスチャ特徴は、訓練済みスタイル変換ニューラルネットワークを介して、各代表スタイル画像からターゲット画像に変換されて、スタイル変換された画像が生成され得る。ターゲット画像は、図１の１３０において、訓練用画像のうちの１つ以上を含み得る。いくつかの実施形態では、スタイル変換された画像は、リアルタイムで生成され得る。これは、スタイル変換ニューラルネットワークを事前に訓練し、出力（例えば、訓練済みスタイル変換ニューラルネットワーク）を格納することによって実現でき、出力はリアルタイムで呼び出されて、スタイル変換された画像を生成し得る。次いで、方法２００は、２６０に進む。

２６０において、スタイル変換された画像は、図１の１６０における画像認識機械学習モデルなどの画像認識機械学習モデルを訓練するために使用される。

実画像を使用してスタイル変換ニューラルネットワークを訓練するプロセスは、特に多くの実画像が存在するときは、時間を要する場合がある。場合によっては、いくつかの実画像は、スタイル又はテクスチャ特徴の点で互いに類似していることがある。本開示は、少数の実画像が、実画像の大きなデータセットに見られる種々のテクスチャを例示できることを見出した。

図３は、一実施形態による、実画像をクラスタ化し、そこから代表スタイル画像を選択する方法３００のフロー図を示す。３１０において、複数のデジタル画像が、多層ニューラルネットワークに提供される。多層ニューラルネットワークは、代表スタイル画像からテクスチャ又はスタイル特徴を抽出するために使用することができる。多層ニューラルネットワークは、例えば、ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ（ＶＧＧ）ネットワークを含んでもよい。次いで、方法３００は、３２０に進む。

３２０において、各実画像の全体的なテクスチャ又はスタイル特徴は、多層ニューラルネットワークを介してグラム行列に分解することができる。いくつかの実施形態では、ニューラルネットワーク（例えば、ＶＧＧネットワーク）内の各層に対して１つのグラム行列がある。画像間の類似度は、各層におけるグラム行列内に見出すことができる。例えば、ＶＧＧネットワークの各層において、いくつかの特徴マップが存在し得る。各層のグラム行列は、特徴マップ間の相関行列である。例示的な５層ＶＧＧネットワークでは、第１層は、６４のマップを有することができ、第２層は、１２８のマップを有することができ、第３層は、２５６のマップを有することができ、以下同様である。いくつかの実施形態では、ニューラルネットワークの第１層は、例えば、実画像からテクスチャ又はスタイル特徴を抽出するには十分に良好であり得る、例えば線などの基本構造を取り出すことができる。図４は、実画像の全体的なテクスチャ又はスタイル特徴を分解することによる例示的なグラム行列を示す。

いくつかの実施形態では、グラム行列は、Ｇ＝Ｆ^ＴＦ、のように計算でき、式中、Ｇは、対称の半正定値行列である。各層のグラム行列は、（マップ数×マップ数）（例えば、６４×６４、１２８×１２８など）の次元を有することができる。グラム行列は、シフト又は画像切り抜きなどのいくつかの画像空間変換に対して不変であってもよいが、スタイル及び／又はＶＧＧネットワーク重みに依存してもよく、グラム行列は、画像回転又はスケーリング変換に対して不変でなくてもよい。次いで、方法３００は、３３０に進む。

３３０において、画像は、グラム行列に基づいてグループにクラスタ化される。実画像のスタイル特徴間の類似度又は相違度は、グラム行列に基づいて定義され得る。このような類似度又は相違度は、異なるグラム行列間の距離によって測定され得る。いくつかの実施形態では、例えば、Ｋ平均クラスタリング法又はＫ平均＋＋クラスタリング法などの重心ベースのクラスタリング法を使用することができる。他の重心ベースのクラスタリング技術、例えば、ｋ−ｍｅｄｏｉｄｓクラスタリング、ｋ−ｍｅｄｉａｎｓクラスタリングなどを使用してもよい。重心ベースのクラスタリング法の代替としては、例えば、密度ベースのクラスタリング（例えば、ＤＢＳＣＡＮ法）、分布ベースのクラスタリング（例えば、混合ガウスモデル）などを挙げることができる。

いくつかの実施形態では、クラスタ化のステップ３３０は、異なるクラスタリング法又はそれらの組み合わせを使用することによって繰り返すことができる。いくつかの実施形態では、グラム行列間の距離は、距離尺度として余弦角度を使用して計算することができる。各画像に対して余弦角度を得ることができる。距離は、例えば、フロベニウス距離尺度などの他の好適な方法を使用して計算できることを理解されたい。画像は、深層ニューラルネットワークの複数の層で抽出された特徴のグラム行列によって符号化されたような、画像のテクスチャ又はスタイル特徴間の類似度又は相違度に基づいてクラスタ化され得る。

図５は、ｋ＝５、及び余弦角度距離尺度（例えば、ＶＧＧネットワークからの第１層グラム行列のみを使用して）を用いたＫ平均クラスタリング法を使用して、５つの異なるグループａ）〜ｅ）にクラスタ化された例示的な実画像を示す。図５の実画像のセットは、顕著に凝集性のグループａ）〜ｅ）にクラスタ化されている。グループｂ）及びｄ）における画像は、概して陰影が明るくコントラストが高いが、一方、グループａ）、ｃ）及びｅ）における画像は、概して陰影が暗くコントラストが低い。次いで、方法３００は、３４０又は３５０に進む。

任意選択的に、３４０において、グループの次元は、多様体学習法を介して２Ｄクラスタへと削減され得る。グループ内の実画像の変動及び分布は、次元削減技術、例えば多様体学習法によって視覚化することができる。多様体学習法を使用することにより、画像のグループを２Ｄクラスタで示すことができる。このようにして、単に画像のクラスタを見ることによって、各クラスタの性質及び凝集性を感知することができる。好適な多様体学習法としては、例えば、ＩＳＯ−Ｍａｐ多様体学習法、ｔ−ＳＮＥ多様体学習法、ＭＤＳ多様体学習法、スペクトル埋め込み多様体学習法、局所線形埋め込み多様体学習法などを挙げることができる。図６Ａは、多様体学習法によって視覚化された、例示的な画像の２Ｄクラスタを示す。図６Ａに示すように、多くの実画像が、ｔ−ＳＮＥ多様体学習法によって２Ｄ平面上に投影され、１５個の２Ｄクラスタにグループ化されている。１５個のクラスタは、異なるクラスタを分離する余白によって明示されるように、視覚的に別個かつ凝集性である。次いで、方法３００は、３５０に進む。

３５０において、各グループから、代表スタイル画像が選択され得る。いくつかの実施形態では、代表スタイル画像は、それぞれのクラスタの計算された中心に最も近くに位置し得る。図６Ｂは、図６Ａの対応する１４個のクラスタから選択された１４個の代表スタイル画像を示す。それぞれのクラスタ中心に最も近くに位置する画像は、代表スタイル画像として選択される。

図７は、いくつかの実施形態による、例えば、方法１００、２００、及び３００のうちの１つ以上など、本明細書に記載されたコンピュータで実施される方法のうちのいずれか１つを実施することによる、画像認識用の画像認識システム７００を示す。システム７００は、測定構成要素７２４、計算構成要素７２６、及び１つ以上の入力／出力デバイス７１６を含む。

測定構成要素７２４は、認識すべきオブジェクトの１つ以上の実画像をキャプチャするように構成されている。測定構成要素７２４は、画像をキャプチャするための様々なカメラであり得る。いくつかの実施形態では、測定構成要素７２４は、例えば、携帯電話のデジタルカメラ、ＩＲカメラなどを含むことができる。

図７の実施形態では、計算構成要素７２６は、プロセッサ７１２及びメモリ７１４を含む。計算構成要素７２６は、測定構成要素９２４（例えば、デジタルカメラ）に機能的に接続され、キャプチャされた画像に関連する信号を測定構成要素７２４から受信する。プロセッサ７１２は次に、いくつかの実施形態に従って、方法１００、２００、及び３００のうちの１つ以上を実施して、訓練済みスタイル変換ニューラルネットワークを得ることにより、任意の好適なプログラミング言語（例えば、Ｐｙｔｈｏｎ）でコンピュータプログラムを実行することを介して、デジタル画像を処理できる。

訓練済みスタイル変換ニューラルネットワークは、メモリ７１４内に格納され得る。いくつかの実施形態では、メモリ７１４は、訓練スタイル変換ニューラルネットワークの出力を格納するためのデータファイルと、例えば、キャプチャされた実画像の全て及び画像のメタデータを含む、画像関連データとを有してもよい。

訓練済みスタイル変換ニューラルネットワークを用いて、プロセッサ７１２は、訓練スタイル変換ニューラルネットワークを介して、スタイル特徴を各代表スタイル画像からターゲット画像に更に変換して、スタイル変換された画像を生成することができる。スタイル変換された画像は、画像認識機械学習モデルを訓練するために使用されて、訓練済み画像認識機械学習モデルが取得できる。

いくつかの実施形態では、オブジェクト（レター、ナンバー、サイン、シンボル、及び、キャラクタ、又はこれらの組み合わせ）が認識される場合、オブジェクトの１つ以上の画像が、測定構成要素７２４（例えば、デジタルカメラ）によって測定され得る。計算構成要素７２６は、オブジェクトの画像に関する信号を測定構成要素７２４から受信し、信号を処理することができる。プロセッサ７１２は、画像認識のために、訓練済み画像認識機械学習モデルに画像を提供できる。

いくつかの実施形態では、測定構成要素７２４は、現場で機能し得るモバイルデバイス（例えば、携帯電話）のデジタルカメラであってもよい。測定構成要素７２４は、信号を送受信することにより、例えば計算構成要素７２６などの遠隔コンピューティングデバイスと無線通信できる。計算構成要素７２６は、例えば、コンピュータ、サーバ、携帯電話などと一体化されてもよい。計算構成要素７２６は、訓練済み画像認識機械学習モデルを呼び出して、測定構成要素７２４からのデータに対して実行し、その認識情報を入力／出力デバイス７１６に送信して、そこに表示できる。

メモリ７１４は情報を格納する。いくつかの実施形態では、メモリ７１４は、本明細書に記載される方法又はプロセスを実行するための命令を格納できる。いくつかの実施形態では、コンピュータビジョン特徴データ、訓練されていない画像認識機械学習モデルデータ、及び訓練済み画像認識機械学習モデルデータを、メモリ７１４に事前に格納できる。

メモリ７１４は、任意の揮発性又は不揮発性記憶要素を含んでもよい。例としては、シンクロナスダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、電気的消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）及びフラッシュメモリなどのランダムアクセスメモリ（ＲＡＭ）を含んでもよい。例としては、また、ハードディスク、磁気テープ、磁気又は光データ記憶媒体、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、Ｂｌｕ−ｒａｙディスク、及びホログラフィックデータ記憶媒体を含んでもよい。

プロセッサ７１２は、例えば、１つ以上の、汎用マイクロプロセッサ、特別設計のプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理回路のコレクション、及び／又は本明細書中に記載される技術を実行できる任意の種類の処理デバイスを含んでもよい。いくつかの実施形態では、プロセッサ７１２（又は本明細書に記載される任意の他のプロセッサ）は、コンピューティングデバイスとして記載されてもよい。いくつかの実施形態では、メモリ７１４は、プロセッサ７１２によって実行されて、本明細書に記載されるプロセス又は方法を実行するプログラム命令（例えば、ソフトウェア命令）を格納するように構成されてもよい。他の実施形態では、本明細書に記載されるプロセス又は方法は、プロセッサ７１２の特別にプログラムされた回路によって実行されてもよい。したがって、いくつかの実施形態では、プロセッサ７１２は、本明細書に記載される画像多様化及び画像認識のための技術を実行するように構成されてもよい。プロセッサ７１２（又は本明細書に記載される任意の他のプロセッサ）は、１つ以上のプロセッサを含んでもよい。

入力／出力デバイス７１６は、ユーザ若しくは他のデバイスから、又はユーザ若しくは他のデバイスに、情報を入力又は出力するように構成された１つ以上のデバイスを含んでもよい。一部の実施形態では、入力／出力デバイス７１６は、グラフィカルユーザインタフェース（ＧＵＩ）７１８を提示することができ、ユーザは、画像多様化及び画像認識のためのプロセスを制御してもよい。例えば、ＧＵＩ７１８は、視覚情報をユーザに提示するための表示画面を含んでもよい。いくつかの実施形態では、表示画面は接触感知ディスプレイを含む。いくつかの実施形態では、ＧＵＩ７１８は、ユーザに情報を提示するための１つ以上の異なる種類のデバイスを含んでもよい。ＧＵＩ７１８は、例えば、任意の数の、視覚（例えば、表示デバイス、ライトなど）、聴覚（例えば、１つ以上のスピーカ）、及び／又は触覚（例えば、キーボード、タッチスクリーン、若しくはマウス）のフィードバックデバイスを含んでもよい。いくつかの実施形態では、入力／出力デバイス７１６は、表示画面（例えば、液晶ディスプレイ若しくは発光ダイオードディスプレイ）、及び／又はプリンタ（例えば、印刷デバイス、又は印刷デバイスに命令を出力するための構成要素）のうちの１つ以上を表してもよい。いくつかの実施形態では、入力／出力デバイス７１６は、プロセッサ７１２によって実行されて、本明細書に記載される実施形態を実行するプログラム命令（例えば、ソフトウェア命令）を受け取る又は受信するように構成されてもよい。

システム７００はまた、他の構成要素を含んでもよく、プロセッサ７１２、メモリ７１４、及び入力／出力デバイス７１６を含む任意の図示された構成要素の機能は、複数の構成要素、及び、例えばコンピュータなどの別個のデバイスにわたって分散されてもよい。システム７００は、ワークステーション、デスクトップコンピューティングデバイス、ノートブックコンピュータ、タブレットコンピュータ、モバイルコンピューティングデバイス、又は任意の他の好適なコンピューティングデバイス若しくはコンピューティングデバイスの集合として構成されてもよい。システム７００は、ローカルネットワーク上で動作するか、又はローカルネットワークに集約されるか、又はクラウドコンピューティング環境８００内でホスティングされてもよい。図７の図示された構成要素は、単に本開示の様々な態様を説明するために示されており、構成要素の追加又は除去は、当業者には明らかであろう。

例示的実施形態の列挙
例示的実施形態を以下に列挙する。実施形態１〜２７及び２８〜３５はいずれも組み合わせることができることを理解されたい。

実施形態１は、コンピュータにより実施される方法であって、方法は、
プロセッサに、複数のデジタル画像を提供することであって、デジタル画像の各々は、認識されるオブジェクトと、オブジェクトの画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴とを含む、提供することと、
前記プロセッサを介して、複数のデジタル画像を、画像のテクスチャ又はスタイル特徴に応じて異なるグループにクラスタ化することであって、グループの各々は、類似のテクスチャ又はスタイル特徴を有するデジタル画像のうちの１つ以上を含む、クラスタ化することと、
プロセッサを介して、画像のグループの各々から１つ以上の代表スタイル画像を選択することと、
プロセッサを介して、スタイル変換ニューラルネットワークを、代表スタイル画像のうちの少なくとも１つに対して訓練して、１つ以上の訓練済みスタイル変換ニューラルネットワークを取得することと、
訓練済みスタイル変換ニューラルネットワークを介して、テクスチャ又はスタイル特徴を代表画像の各々からターゲット画像に変換して、スタイル変換された画像を生成することと、
スタイル変換された画像を使用して画像認識機械学習モデルを訓練することと、を含む。

実施形態２は、スタイル変換ニューラルネットワークは、事前に訓練され、訓練済みスタイル変換ニューラルネットワークは、格納され、呼び出されて使用される、実施形態１に記載の方法である。

実施形態３は、格納されたスタイル変換ニューラルネットワークのうちの少なくとも１つが、リアルタイムアプリケーションによって呼び出されて使用される、実施形態２に記載の方法である。

実施形態４は、訓練済みスタイル変換ニューラルネットワークは、各々が、代表的なテクスチャ又はスタイル特徴に対応する、実施形態１〜３のいずれか１つに記載の方法である。

実施形態５は、デジタル画像の対応するグループの統計値に基づいて、１つの訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、実施形態１〜４のいずれか１つに記載の方法である。

実施形態６は、グループのサイズに応じて、マルチプレクサを介して、訓練済みスタイル変換ニューラルネットワークから１つの訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、実施形態５に記載の方法である。

実施形態７は、画像の所定の確率分布に応じて、マルチプレクサを介して、訓練済みスタイル変換ニューラルネットワークから１つの訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、実施形態５又は６に記載の方法である。

実施形態８は、複数のデジタル画像をクラスタ化することは、デジタル画像を多層ニューラルネットワークに入力することを含む、実施形態１〜７のいずれか１つに記載の方法である。

実施形態９は、多層ニューラルネットワークを介して、画像の各々のテクスチャ又はスタイル特徴をグラム行列に分解することを更に含む、実施形態８に記載の方法である。

実施形態１０は、多層ニューラルネットワークが、ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ（ＶＧＧ）ネットワークを含む、実施形態８又は９に記載の方法である。

実施形態１１は、グラム行列の各々が、多層ニューラルネットワークの１つの層に対応し、層内の各々の、画像の各々の特徴マップ間の相関行列を表す、実施形態９又は１０に記載の方法である。

実施形態１２は、Ｋ平均クラスタリング法を介して、グラム行列内で見出された類似度に基づいて、画像がグループにクラスタ化される、実施形態９〜１１のいずれか１つに記載の方法である。

実施形態１３は、グラム行列間の距離を計算することを更に含む、実施形態１〜１２のいずれか１つによる方法である。

実施形態１４は、距離が、余弦角度を距離尺度として用いて計算される、実施形態１３に記載の方法である。

実施形態１５は、代表スタイル画像を選択することが、グループの各々のクラスタ中心において画像を選択することを含む、実施形態１〜１４のいずれか１つに記載の方法である。

実施形態１６は、多様体学習法を介して、グループの次元を２Ｄクラスタに削減することを更に含む、実施形態１〜１５のいずれか１つに記載の方法である。

実施形態１７は、画像の２Ｄクラスタを視覚化することを更に含む、実施形態１６に記載の方法である。

実施形態１８は、自然環境を反映する自然テクスチャを含む、１つ以上の自然スタイル画像を提供することと、自然スタイル画像の各々に対してスタイル変換ニューラルネットワークを訓練して、対応する訓練済みスタイル変換ニューラルネットワークを取得することと、を更に含む、実施形態１〜１７のいずれか１つに記載の方法である。

実施形態１９は、画像認識機械学習モデルの性能を評価することを更に含む、実施形態１〜１８のいずれか１つに記載の方法である。

実施形態２０は、評価に基づいて、訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、実施形態１９に記載の方法である。

実施形態２１は、自然環境が、泥、雨、グレア、塵埃、錆、氷、ひっかき傷、水の痕跡、又は雪を含む、実施形態１８〜２０のいずれか１つに記載の方法である。

実施形態２２は、認識されるオブジェクトが、レター、ナンバー、サイン、シンボル、及び、キャラクタのうちの１つ以上を含む、実施形態１〜２１のいずれか１つに記載の方法である。

実施形態２３は、画像認識機械学習モデルの訓練を評価することを更に含む、実施形態１〜２２のいずれか１つに記載の方法である。

実施形態２４は、スタイル変換された画像をサブグループに分割することを更に含む、実施形態２３に記載の方法である。

実施形態２５は、検証セットを使用することによって、サブグループの各々に対して、画像認識機械学習モデルを訓練することを更に含む、実施形態２４に記載の方法である。

実施形態２６は、特徴選択アルゴリズムに基づいて、サブグループから１つ以上の代表サブグループを選択することを更に含む、実施形態２５に記載の方法である。

実施形態２７は、画像認識機械学習モデルが、１つ以上の画像認識ニューラルネットワークを含む、実施形態１〜２５のいずれか１つに記載の方法である。

実施形態２８は、画像認識システムであって、画像認識システムは、
プロセッサを備え、プロセッサは、
複数のデジタル画像を受信して、デジタル画像の各々が、認識されるオブジェクトと、オブジェクトの画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴とを含み、
複数のデジタル画像を、画像のテクスチャ又はスタイル特徴に応じて異なるグループにクラスタ化して、グループの各々が類似のテクスチャ又はスタイル特徴を有するデジタル画像のうちの１つ以上を含み、
画像の各グループから１つ以上の代表スタイル画像を選択し、
スタイル変換ニューラルネットワークを、代表スタイル画像のうちの少なくとも１つに対して訓練して、１つ以上の訓練済みスタイル変換ニューラルネットワークを取得する、ように構成されている、画像認識システムである。

実施形態２９は、訓練済みスタイル変換ニューラルネットワークを格納するメモリを更に備える、実施形態２８に記載のシステムである。

実施形態３０は、訓練済みスタイル変換ニューラルネットワークがクラウドコンピューティング環境内に格納される、実施形態２８又は２９に記載のシステムである。

実施形態３１は、格納されたスタイル変換ニューラルネットワークのうちの少なくとも１つが、リアルタイムアプリケーションによって呼び出されて使用される、実施形態２８〜３０のいずれか１つに記載のシステムである。

実施形態３２は、スタイル変換ニューラルネットワークがプロセッサによって事前に訓練され、訓練済みスタイル変換ニューラルネットワークはメモリ内に格納され、呼び出されて使用される、実施形態２８〜３１のいずれか１つに記載のシステムである。

実施形態３３は、プロセッサが、訓練済みスタイル変換ニューラルネットワークを介して、テクスチャ又はスタイル特徴を、代表画像の各々からターゲット画像に変換して、スタイル変換された画像を生成するように更に構成されている、実施形態２８〜３２のいずれか１つに記載のシステムである。

実施形態３４は、プロセッサが、スタイル変換された画像を使用して画像認識機械学習モデルを訓練するように更に構成されている、実施形態２８〜３３のいずれか１つにシステムである。

実施形態３５は、画像認識機械学習モデルが、１つ以上の画像認識ニューラルネットワークを含む、実施形態３４に記載のシステムである。

本開示の例示的な実施形態には、本開示の趣旨及び範囲から逸脱することなく、様々な修正及び変更を加えてもよい。したがって、本開示の実施形態は、記載された例示的な実施形態に限定されるべきではないが、特許請求の範囲に記載されている限定及びそれらの任意の均等物によって支配されるべきであることを理解すべきである。

本明細書全体を通して、「一実施形態」、「特定の実施形態」、「１つ以上の実施形態」、又は「実施形態」に対する言及は、「実施形態」という用語の前に、「例示的な」という用語が含まれているか否かに関わらず、その実施形態に関連して説明される具体的な特徴、構造、材料、又は特性が、本開示の特定の例示的な実施形態のうちの少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書全体を通して、様々な箇所における「１つ以上の実施形態において」、「特定の実施形態において」、「一実施形態において」、又は「ある実施形態において」などの表現の出現は、必ずしも本開示の特定の例示的な実施形態のうちの同一の実施形態に言及するものとは限らない。更に、特定の特徴、構造、材料、又は特性は、１つ以上の実施形態では任意の好適な方法で組み合わされてもよい。

本明細書ではいくつかの例示的な実施形態について詳細に説明してきたが、当業者には上述の説明を理解した上で、これらの実施形態の修正形態、変形形態、及び均等物を容易に想起できることが、諒解されるであろう。したがって、本開示は、ここまで説明してきた例示的実施形態に、過度に限定されるものではないことを理解されたい。特に、本明細書で使用する場合、端点による数値範囲の列挙は、その範囲内に包含されるすべての数を含む（例えば、１〜５は、１、１．５、２、２．７５、３、３．８０、４、及び５を含む）ことが意図される。加えて、本明細書で使用されるすべての数は、用語「約」によって修飾されるものと想定される。更に、種々の例示的な実施形態が説明されてきた。これらの実施形態及び他の実施形態は、以下の特許請求の範囲に含まれる。

Claims

コンピュータにより実施される方法であって、前記方法は、
プロセッサに、複数のデジタル画像を提供することであって、前記デジタル画像の各々は、認識されるオブジェクトと、前記オブジェクトの前記画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴とを含む、提供することと、
前記プロセッサを介して、前記複数のデジタル画像を、前記画像の前記テクスチャ又はスタイル特徴に応じて異なるグループにクラスタ化することであって、前記グループの各々は、類似のテクスチャ又はスタイル特徴を有する前記デジタル画像のうちの１つ以上を含む、クラスタ化することと、
前記プロセッサを介して、画像の前記グループの各々から１つ以上の代表スタイル画像を選択することと、
前記プロセッサを介して、スタイル変換ニューラルネットワークを、前記代表スタイル画像のうちの少なくとも１つに対して訓練して、１つ以上の訓練済みスタイル変換ニューラルネットワークを取得することと、
前記訓練済みスタイル変換ニューラルネットワークを介して、前記テクスチャ又はスタイル特徴を前記代表画像の各々からターゲット画像に変換して、スタイル変換された画像を生成することと、
前記スタイル変換された画像を使用して画像認識機械学習モデルを訓練することと、
を含む、方法。
前記スタイル変換ニューラルネットワークは、事前に訓練され、前記訓練済みスタイル変換ニューラルネットワークは、格納され、呼び出されて使用される、請求項１に記載の方法。
格納された前記スタイル変換ニューラルネットワークのうちの少なくとも１つが、リアルタイムアプリケーションによって呼び出されて使用される、請求項２に記載の方法。
前記訓練済みスタイル変換ニューラルネットワークは、各々が、代表的なテクスチャ又はスタイル特徴に対応する、請求項１に記載の方法。
デジタル画像の対応する前記グループの統計値に基づいて、１つの訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、請求項１に記載の方法。
前記グループのサイズに応じて、マルチプレクサを介して、前記訓練済みスタイル変換ニューラルネットワークから１つの訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、請求項５に記載の方法。
前記画像の所定の確率分布に応じて、マルチプレクサを介して、前記訓練済みスタイル変換ニューラルネットワークから１つの訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、請求項５に記載の方法。
前記複数のデジタル画像をクラスタ化することは、前記デジタル画像を多層ニューラルネットワークに入力することを含む、請求項１に記載の方法。
前記多層ニューラルネットワークを介して、前記画像の各々の前記テクスチャ又はスタイル特徴をグラム行列に分解することを更に含む、請求項８に記載の方法。
前記多層ニューラルネットワークが、ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ（ＶＧＧ）ネットワークを含む、請求項８に記載の方法。
前記グラム行列の各々が、前記多層ニューラルネットワークの１つの層に対応し、前記層の各々内の、前記画像の各々の特徴マップ間の相関行列を表す、請求項９に記載の方法。
Ｋ平均クラスタリング法を介して、前記グラム行列内で見出された類似度に基づいて、前記画像が、前記グループにクラスタ化される、請求項９に記載の方法。
前記グラム行列間の距離を計算することを更に含む、請求項９に記載の方法。
前記距離が、余弦角度を距離尺度として用いて計算される、請求項１３に記載の方法。
前記代表スタイル画像を選択することが、前記グループの各々のクラスタ中心において、前記画像を選択することを含む、請求項１に記載の方法。
多様体学習法を介して、前記グループの次元を２Ｄクラスタに削減することを更に含む、請求項１に記載の方法。
画像の前記２Ｄクラスタを視覚化することを更に含む、請求項１６に記載の方法。
自然環境を反映する自然テクスチャを含む、１つ以上の自然スタイル画像を提供することと、前記自然スタイル画像の各々に対して前記スタイル変換ニューラルネットワークを訓練して、対応する前記訓練済みスタイル変換ニューラルネットワークを取得することと、を更に含む、請求項１に記載の方法。
前記画像認識機械学習モデルの性能を評価することを更に含む、請求項１に記載の方法。
前記評価に基づいて、前記訓練済みスタイル変換ニューラルネットワークを選択することを更に含む、請求項１９に記載の方法。
前記認識されるオブジェクトは、レター、ナンバー、サイン、シンボル、及び、キャラクタのうちの１つ以上を含む、請求項１に記載の方法。
前記画像認識機械学習モデルの前記訓練を評価することを更に含む、請求項１に記載の方法。
前記スタイル変換された画像をサブグループに分割することを更に含む、請求項２２に記載の方法。
検証セットを使用することによって、前記サブグループの各々に対して、前記画像認識機械学習モデルを訓練することを更に含む、請求項２３に記載の方法。
特徴選択アルゴリズムを用いて、前記訓練からの結果に基づいて、前記サブグループから１つ以上の代表サブグループを選択することを更に含む、請求項２４に記載の方法。
画像認識システムであって、前記システムは、プロセッサを備え、
前記プロセッサは、
複数のデジタル画像を受信して、前記デジタル画像の各々が、認識されるオブジェクトと、前記オブジェクトの前記画像が取得された実世界条件を反映するテクスチャ又はスタイル特徴とを含み、
前記複数のデジタル画像を、前記画像の前記テクスチャ又はスタイル特徴に応じて異なるグループにクラスタ化して、前記グループの各々が類似のテクスチャ又はスタイル特徴を有する前記デジタル画像のうちの少なくともいくつかを含み、
画像の前記グループの各々から１つ以上の代表スタイル画像を選択し、
スタイル変換ニューラルネットワークを、前記代表スタイル画像のうちの少なくとも１つに対して訓練して、１つ以上の訓練済みスタイル変換ニューラルネットワークを取得する、
ように構成されている、画像認識システム。
前記訓練済みスタイル変換ニューラルネットワークを格納するメモリを更に備える、請求項２６に記載のシステム。
前記スタイル変換ニューラルネットワークは、前記プロセッサによって事前に訓練され、前記訓練済みスタイル変換ニューラルネットワークは、メモリ内に格納され、呼び出されて使用される、請求項２６に記載のシステム。
前記プロセッサは、前記訓練済みスタイル変換ニューラルネットワークを介して、前記テクスチャ又はスタイル特徴を、前記代表画像の各々からターゲット画像に変換して、スタイル変換された画像を生成するように更に構成されている、請求項２６に記載のシステム。
前記プロセッサは、前記スタイル変換された画像を使用して画像認識機械学習モデルを訓練するように更に構成されている、請求項２６に記載のシステム。