JP6908628B2

JP6908628B2 - 画像分類及びラベリング

Info

Publication number: JP6908628B2
Application number: JP2018558501A
Authority: JP
Inventors: モーサンドラ; シバパランサベサン
Original assignee: シー−アウトプロプライアタリーリミティド
Priority date: 2016-02-01
Filing date: 2017-02-01
Publication date: 2021-07-28
Anticipated expiration: 2037-02-01
Also published as: EP3411828A1; SG11201806541RA; US20200401851A1; AU2017214619A1; US11074478B2; EP3411828A4; US11687781B2; AU2021203831A1; JP7232288B2; CN109196514A; CN109196514B; WO2017134519A1; US20230316079A1; JP2019505063A; JP2021168162A; AU2023263508A1; WO2017134519A4; US20210279521A1; AU2021203831B2

Description

関連出願への相互参照
本出願は、米国特許法第１１９（ｅ）の定めにより、２０１６年２月１日に出願された米国仮特許出願番号６２／２８９，９０２の出願日の利益を受けることを請求し、「ＭｅｔｈｏｄｆｏｒＴｒａｉｎｉｎｇａｎＡｌｇｏｒｉｔｈｍｔｏＣｌａｓｓｉｆｙＥｌｅｍｅｎｔｓａｎｄＯｂｊｅｃｔｓｉｎＩｍａｇｅｓ」と題するこの全内容は、参照により本明細書に組み込まれる。

本開示は、画像分類に関し、特に、複数のクラスに関連する訓練画像に基づいて画像分類モデルを訓練し、訓練された画像分類モデルを使用して画像を複数のクラスに分類することに関する。

商標、ロゴ、その他のグラフィカルにデザインされた画像、及びその他のブランド関連の知的財産権（ＩＰ）は、重要なビジネス資産である。多くの国では、商標登録及び意匠特許登録を介して、グラフィカルにデザインされた画像を含む商標、意匠など、それらのＩＰを保護する、人々や企業のために正式なメカニズムを提供する。例えば、商標登録システムは、商標データベースに会社がその名前やロゴを登録することを可能にし、又は類似する他の名前やロゴに対して異議を申し立て又は権利行使することを可能にする。同様に、米国での意匠特許及び他の国や地域（例えば、ヨーロッパ）での産業デザインの登録は、２次元斜視図とともに線画、３次元ＣＡＤモデルなどの多種多様のグラフィック表現を持つデザインについて正式な保護を提供する。

世界中の多くの商標庁は、例えば、グラフィカル画像内の要素又はオブジェクトを意味論的に記述するキーワードやコード（例えば、米国ではデザインコード、ヨーロッパではウィーンコード、及びオーストラリアでは画像構成）のリストを用いて商標をラベルする。説明のためには、米国デザインコードとウィーンコードは、画像内の画像及び／又はオブジェクトが意味論的に記述されるクラスラベルである。これらのクラスラベルは、階層構造を持っており、画像の図形要素を分類するために使用されている。一般的に、いくつかのＩＰ登録システムで使用されるラベルの階層構造は、一般的からより具体的に進み、例えば、商標の図形要素を階層レベルにおいてカテゴリから開始し、ディビジョンの後にセクションの順で考慮する。一部のＩＰ登録システムでは、単一レベル（非階層型）システムを使用する場合があるが、他のＩＰ登録システムでは、３レベル未満又は３レベル以上の階層を使用する場合がある。

多くのＩＰオフィスは、意匠特許及び工業デザインにロカルノ分類と呼ばれる分類システムと、製品及びその外観の両方を記述する製品表示とを採用している。米国は、米国デザインクラスと呼ばれる独自のデザイン分類のセットを持っている。ロカルノクラスと米国デザインクラスはどちらも本質的には階層的であり、通常は製品の機能を最上位に記述し、特定の機能的な特徴、独特の装飾的な外観又は形状をサブクラスに記述する。非政府組織はまた、そのようなロゴやデザインのグラフィカル資産を分類し、及び／又は注釈を付けるための同種のラベルを使用することができる。

ＩＰの所有者は、潜在的な侵害と類似の商標やデザインを登録するための試みを監視し、対処することを通じてＩＰの権利を行使しなければならない。しかし、例えば、電子商取引サイト上で、画像使用の侵害を発見し、又はソーシャルネットワークやインターネットでブランドの誤用を見つけることが困難な場合がある。さらに、企業は、名称、ロゴ、又はデザインを使用し、及び／又は登録するかどうかを決定するのに登録商標又は意匠の検索が困難な場合がある。

米国とヨーロッパを含む多くのＩＰ登録システムでは、画像又は画像（例えば、商標又は意匠）内の要素／オブジェクトと複数のラベルを関連付けることができる。ラベルは、階層的なラベルであってもよい。画像又は画像オブジェクト／要素に関連付けることができる複数のラベルは、本明細書においてマルチラベルと呼ぶことができる。

したがって、システム及び方法は、複数のクラスに画像及び／又は画像内のオブジェクト／要素を分類可能であることが望ましい。

本開示は、一般的には、画像分類に関し、より詳細には、複数のクラス（クラスラベル付き）に関連する訓練画像に基づいて、画像分類モデルを訓練し、訓練された画像分類モデルを使用して、画像を複数のクラス（クラスラベル付き）に分類することに関する。そして、１つの例示的な実施形態において、画像分類モデルを訓練する方法は、ラベルに関連する画像を取得し訓練することを含む。ここで、複数のラベルのうちの２以上のラベルは、訓練画像の各々に関連付けられ、２以上のラベルの各ラベルは、ある画像分類クラスに対応する。この方法は、深層畳込みニューラルネットワークを用いて、訓練画像を１以上のクラスに分類し、訓練画像に関連するラベルに対して訓練画像の分類を比較することをさらに含む。この方法はまた、訓練画像に関連するラベルに対して訓練画像の分類との比較に基づいて、深層畳込みニューラルネットワークのパラメータを更新することを含む。

別の例示的な実施形態では、１以上の画像分類モデルを使用して画像を分類する方法は、画像処理装置によって、ラベルに関連する訓練画像を取得することを含み、複数のラベルのうちの２以上のラベルが訓練画像の各々と関連付けられており、２以上のラベルの各ラベルは、ある画像分類クラスに対応する。この方法はさらに、画像処理装置によって、訓練画像と訓練画像に関連するラベルを使用して、深層畳込みニューラルネットワークを訓練することを含む。この方法はまた、画像処理装置によって、訓練された深層畳込みニューラルネットワークに基づいて２以上のクラスに入力画像を分類することを含む。

さらに別の例示的な実施形態では、１以上の画像分類モデルを使用する画像を分類するシステムは、前記ラベルに関連する訓練画像を含む訓練画像源を含み、複数のラベルのうちの２以上のラベルは、訓練画像の各々に関連付けられる。システムはさらに、前記訓練画像源に通信可能に結合された画像処理装置を含み、画像処理装置は、前記訓練画像源から前記訓練画像を取得して、前記訓練画像と前記訓練画像に関連するラベルを使用して深層畳込みニューラルネットワークを訓練するように構成される。システムはまた、クラスに分類される入力画像を含む入力画像源を含んでもよく、複数のクラスに入力画像を分類することは、前記複数のクラスに対応する前記入力画像を複数のクラスに関連付けることである。

これら及び他の態様、目的、特徴及び実施形態は、以下の説明及び添付の特許請求の範囲から明らかであろう。

参照は、必ずしも縮尺通りではない添付の図面についてなされる。

例示的な実施形態による画像分類モデルを訓練し、及び画像を分類するシステムを示す。例示的な実施形態による画像分類モデルを訓練し、及び画像を分類する方法を示す。例示的な実施形態による画像分類モデル（すなわち、畳込みニューラルネットワーク）を訓練する方法を示す。例示的な実施形態による訓練された分類モデルを使用して画像を分類する方法を示す。図１のシステムを使用して、及び図２、３及び４の方法に基づく画像の分類／ラベリングを示す。例示的な実施形態によるマルチラベルの各階層レベルについて訓練された分類モデルに基づく入力画像の分類を示す。例示的な実施形態によるマルチラベルの各階層レベルについて訓練された分類モデルに基づく入力画像の分類を示す。例示的な実施形態によるマルチラベルの各階層レベルについて訓練された分類モデルに基づく入力画像の分類を示す。

図面は、例示的な実施形態を示すにすぎないので、範囲を限定すると考えるべきではない。図面に示される要素及び特徴は、必ずしも縮尺通りではなく、明らかに例示的な実施形態の原理を説明することに重点が置かれる。特定の寸法や配置は、図面においてこのような原理を視覚的に伝えることを補助するために拡大されてもよいが、参照番号は、必ずしも同一の要素ではなく、同様又は対応する要素を指定するものであってもよい。

以下の段落では、図面を参照してさらに例示的な実施形態を詳細に説明する。説明では、既知のコンポーネント、方法、及び／又は処理技術を省略し、又は簡単に説明している。さらに、実施形態の様々な特徴への言及は、すべての実施形態が参照した特徴（複数可）を含まなければならないことを示唆するものではない。

いくつかの例示的な実施形態において、畳込みニューラルネットワークに基づいているシステム及び方法は、各画像が複数のラベルのそれぞれに関連付けられるように、複数のクラスに画像を分類するために使用されてもよい。説明するために、１以上の畳込みニューラルネットワーク（分類モデルとも呼ばれる）は最初に訓練され、次に訓練された畳込みニューラルネットワークは、画像を分類するために使用される。単一の画像又は画像内の要素オブジェクトに関連付けることができるラベルは、ラベル、複数のラベル、又はマルチラベルと呼ぶことができる。

いくつかの例示的な実施形態において、訓練操作中、畳込みニューラルネットワーク（例えば、深層畳込みニューラルネットワーク）は、パラメータが画像の視覚意味論的な意味を記載するマルチラベルに（例えば、手動で）タグ付けされた訓練画像を用いて学習されるように訓練できる。分類操作中に、訓練された畳込みニューラルネットワークは、マルチラベルが画像に関連付けられるように他の画像を分類するために使用される。例えば、訓練されたネットワークによって分類された画像をタグ付けしてもよいし、そうでなければ画像の視覚意味論的意味をマルチラベルに関連付けられる。以下でより詳細に説明するように、訓練された畳込みニューラルネットワーク（すなわち、訓練された分類モデル）は、画像が適切なマルチラベルと関連付けるように画像を確実に分類するために、畳込み、プーリング、アクティベーション（活性化）、ゲーティング、密結合及びドロップアウトを含むいくつかの層を含んでもよい。

いくつかの例示的な実施形態において、訓練画像に関連付けられ、画像を分類するために使用されるマルチラベルは、階層的なラベルであってもよい。説明するために、マルチラベルが階層的なラベルである場合、訓練された分類モデル（各々の畳込みニューラルネットワーク）は、階層的なラベルの各レベルについて訓練できる。例えば、訓練画像が３つの階層を持つマルチラベルにタグ付けされている場合、あるいは関連付けられている場合、３つの畳込みニューラルネットワークを訓練できる。分類操作中に、複数の訓練された分類モデルは、画像が各階層レベルの階層的なマルチラベルにタグ付けされ、又はそうでなければ関連付けられるように画像を分類するために使用されてもよい。

説明するために、商標データベースで使用される画像や、例えば、米国デザインコード、ウィーンコード、及びキーワード画像構成に関連する意味論的記述ラベルを使用して、非常に膨大な深層畳込みニューラルネットワークを訓練し、意味論的情報を特徴量マップにエンコードできる。訓練された畳込みニューラルネットワーク（すなわち、訓練操作に起因する分類モデル）は、画像が商標データベースで使用される意味論的記述ラベルのそれぞれに関連付けられるように他の画像を分類するために使用されてもよい。

例えば、表１は、米国では商標として登録できる画像の意味論的記述に基づく例示のラベルを示す。特定の画像は、表１に示されないラベルにタグ付けされ、あるいは関連付けられていることに留意されたい。

表１に示すように、マルチラベルは、画像１と画像２に関する意味論的記述情報を提供することを意図している。表１のラベルは、階層が「カテゴリ」、「ディビジョン」、「セクション」という階層構造を有している。例えば、最上位の階層「カテゴリ」は、下位の階層に比べて画像のより一般的な意味論的記述を提供する。次に上位の階層「ディビジョン」は、下位の階層に比べて画像のより一般的な意味論的記述を提供し、「ディビジョン」は最上位の階層「カテゴリ」よりもより具体的な意味論的記述を提供する。いくつかの代替的な実施形態においては、本開示の範囲から逸脱することなしに、階層的なマルチラベルが表１に示されるものとは異なる階層関係を有していてもよい。いくつかの画像データベース／データセットと対比して、表１の各画像は、各階層で複数のラベルと関連付けられている。

図１は、例示的な実施形態による画像分類モデルを訓練し、及び画像を分類するためのシステム１００を示す。システム１００は、画像処理装置１０２、訓練画像源１０４、及び入力画像源１０６を含むことができる。画像処理装置１０２は、ネットワーク１０８上の訓練画像源１０４、入力画像源１０６と通信できる。例えば、ネットワーク１０８は、インターネット、ローカルエリアネットワーク、広域ネットワーク、又はそれらの組み合わせであってもよい。例えば、ネットワーク１０８の代わりに又はそれに加えて、例えば、ユニバーサルシリアルバス（ＵＳＢ）ケーブル接続などの有線接続を含んでもよい。

いくつかの例示的な実施形態において、訓練画像源１０４は、マルチラベルにタグ付けされ、又はそうでなければ関連する画像の１以上のデータベースを含むことができる。訓練画像源１０４からの画像は、画像処理装置１０２によって使用され、入力画像源１０６から画像として他の画像を分類するために使用できる畳込みニューラルネットワーク（すなわち、分類モデル）を訓練してもよい。訓練画像は、グラフィカルにデザインされた画像（例えば、ライン図面、３次元ＣＡＤモデルの２次元斜視図、２次元図面等）、写真、その他の種類の画像、又は前記１以上の組み合わせであってもよい。訓練画像は、商標、ロゴであってもよく、また意匠、特許、及び工業デザインの登録に使用される画像等を含む製品設計であってもよい。訓練画像源１０４は、特定の用途に応じて数百万又は少数の画像を含む画像データベースを含むことができる。訓練画像源１０４は、１以上の独立型データ記憶装置、コンピュータ又はコンピュータネットワークのデータ記憶装置、又は関連するマルチラベルと共に画像を提供するために使用できる別のデバイス又はシステムであってもよい。例えば、訓練画像源１０４は、記憶装置（例えば、スタティックＲＡＭ又は別の種類のコンピュータ可読媒体）を含むことができる。訓練画像源１０４によって画像処理装置１０２に提供される個々の訓練画像に関連するマルチラベルは、個々の訓練画像のメタデータの形で、又はそうでなければ各々のマルチラベルを有する個々の訓練画像を関連付ける別のフォーマットであってもよい。いくつかの例示的な実施形態において、視覚意味論的（すなわち、意味論的記述的）な可能性の数百又は数千ラベルは、潜在的に訓練画像をラベルするために使用できる。訓練画像源１０４は、画像処理装置１０２に通信可能に結合された記憶装置（例えば、スタティックＲＡＭ等）であってもよい。

いくつかの例示的な実施形態において、訓練画像源１０４からの画像に関連するマルチラベルは、上述したように階層構造を有していてもよい。あるいは、マルチラベルは非階層的であってもよい。非限定的な例として、訓練画像源１０４は、米国特許商標庁などの１以上のＩＰ登録機関のデータベースを含むことができ、マルチラベルは、米国デザインコード又は他の意味論的記述コードのような意味論的記述ラベルであってもよい。

いくつかの例示的な実施形態において、入力画像源１０６は、訓練された畳込みニューラルネットワーク（すなわち、分類モデル）を使用して、画像処理装置１０２によって分類できる１以上の画像のデータベースを含むことができる。畳込みニューラルネットワークは、訓練画像源１０４によって提供され、マルチラベルにタグ付け又はそうでなければ関連付けられる訓練画像を使用して訓練される。入力画像源１０６に含まれる画像は、グラフィカルにデザインできる画像（例えば、線画、３次元ＣＡＤモデルの２次元斜視図、２次元図面、等）、写真、画像の他の種類、又はそれらの１以上の組み合わせ）であってもよい。入力画像源１０６によって提供される画像は、商標、ロゴ、意匠特許及び意匠登録等に使用されている画像を含む製品設計とすることができる。入力画像源１０６は、特定の用途に応じて数百の画像又は少数の画像を含む画像データベースを含んでいてもよく、数百又は数千のクラスに分類できる（すなわち、画像が数百又は数千の可能なラベルによってラベル付けされてもよい）。入力画像源１０６は、１以上の独立型データ記憶装置、コンピュータ又はコンピュータネットワークのデータ記憶装置、又は別のデバイス又は例えば、画像処理装置１０２によって分類する画像を提供するために使用され得るシステムとすることができる。例えば、入力画像源１０６は、記憶装置（例えば、スタティックＲＡＭ又は他の種類のコンピュータ可読媒体）を含むことができる。いくつかの例示的な実施形態において、入力画像源１０６は、ユーザが画像処理装置１０２によって分類したい１以上の画像を提出するユーザ装置を含むことができる。その代わりに又はそれに加えて、入力画像源１０６は、メタデータを有する画像を含むウェブページを含むことができる。

いくつかの例示的な実施形態において、画像処理装置１０２は、中央処理ユニットとして処理ユニット１１０、メモリ装置１１２、記憶装置１１４、ネットワークインタフェース１１６、及び分類モデルを訓練し、画像を分類する画像処理装置１０２の機能を補助する他のコンポーネントを備える。ネットワークインタフェース１１６は、訓練画像源１０４と入力画像源１０６を含む他の装置と通信するために画像処理装置１０２によって使用されてもよい。例えば、訓練画像源１０４と入力画像源１０６の一方又は両方は、ネットワークインタフェース１１６を介して、ケーブル（例えば、ＵＳＢケーブル、又はＣＡＴ５ケーブル）により、それぞれが画像処理装置１０２と通信可能に結合されるローカル記憶装置であってもよい。いくつかの例示的な実施形態において、訓練画像源１０４と入力画像源１０６は、関連するマルチラベル付き訓練画像及び分類される必要がある画像を含む単一の装置であってもよい。

いくつかの例示的な実施形態において、処理ユニット１１０は、特殊な（例えば、グラフィックス）処理ユニットを含む複数の処理ユニットを含むことができる。例えば、コンピュータ実行可能コードは、記憶媒体１１２に格納されてもよく、訓練画像に基づいて分類モデルを訓練し、及び訓練された分類モデルに基づく画像の分類を実装するために、処理ユニット１１０によって実行されてもよい。例えば、メモリ装置１１２は、１以上のスタティックＲＡＭデバイス又は別の種類の非一時的なコンピュータ可読媒体を含むことができる。

いくつかの例示的な実施形態において、記憶装置１１４は、実行可能コード及び／又はデータを格納するために使用されてもよく、データは、画像データ、ラベル、及び／又は分類モデルの訓練及び画像の分類に関する他の情報を含む。例えば、いくつかの実施形態において、記憶装置１１４は、予め訓練画像源１０４から、又は関連するラベルを有する別の訓練画像源から受信された訓練画像を格納するために使用されてもよい。その代わりに又はそれに加えて、記憶装置１１４は、画像処理装置１０２によって分類する画像を格納するために使用されてもよい。記憶装置１１４は、１以上のスタティックＲＡＭデバイス又は別の種類の非一時的なコンピュータ可読媒体を含むことができる。

いくつかの例示的な実施形態において、メモリ装置１１２及び／又は記憶装置１１４は、訓練画像の特定のデータベースに適用可能なマルチラベルのリストを格納するために使用できる。例えば、商標又は意匠画像（例えば、グラフィカルにデザインされた画像）を分類するために組織によって使用される意味論的記述ラベルの完全又は特定の部分は、分類モデルの訓練中及び／又は画像の分類中に画像処理装置１０２による使用のために記憶装置１１４に格納されてもよい。

訓練画像と訓練画像の個々の画像に関連する複数のラベルとで訓練された畳込みニューラルネットワーク（複数可）を使用することにより、システム１００は、信頼性の高い複数のクラスへの画像の分類を行うことができる。各画像（又は画像の画素のセット）が単一のラベルに関連付けられ、それに応じて分類され、相互排他的なラベルに限定されるシステムやニューラルネットワークに比べて、本明細書に記載の画像を分類するための畳込みニューラルネットワークの使用により、複数のクラスへの画像の分類（すなわち、画像を複数のラベルに関連付ける）を可能にすることによって、画像処理装置１０２の画像分類能力を向上させることができる。例えば、相互排他的なラベルに限定されるシステムとニューラルネットワークでは、画像は「車」又は「人」のラベルを含むが、両方のラベルは含まないと考えることができる。一方で、システム１００で使用されるラベルは、ラベルが複数の画像又は画像内のオブジェクトに関連付けることができる非相互排他的なラベルであってもよい。さらに、システム１００は、画像の複数のクラスに関連付けられるラベルを可能にする。例えば、画像のクラスが犬であり、画像の別のクラスが猫である場合、システム１００は、両方のクラスからの両方の画像と関連付けられるように意味論的記述ラベル（例えば、毛の生えた動物）を可能にする。

いくつかの例示的な実施形態において、画像処理装置１０２は、ハードウェア（例えば、ＦＰＧＡ又はマイクロプロセッサ）、ソフトウェア、又はハードウェアとソフトウェアの組み合わせを使用して実装できる。さらに、画像処理装置１０２のコンポーネントのいくつかは、本開示の範囲から逸脱することなく、省略し、又は単一のコンポーネントに統合できる。画像処理装置１０２は、単一の装置として示されているが、いくつかの例示的な実施形態において、画像処理装置１０２は、複数のコンポーネント／デバイスのシステムであってもよい。システム１００の特定のコンポーネントは、図１に示されているが、システム１００は、図示よりも少ない又は多くのコンポーネントを含むことができる。画像（複数可）に関して本明細書で提供される説明は、画像（複数）内のオブジェクト／要素に適用してもよい。

図２は、例示的な実施形態による訓練画像分類モデルと分類画像の方法２００を示す。図１及び２を参照すると、いくつかの例示的な実施形態において、方法２００は、ステップ２０２で、関連するラベル付き訓練画像を得ることを含む。例えば、画像処理装置１０２は、訓練画像源１０４からマルチラベルにタグ付けされ、又はそうでなければ関連する訓練画像を得ることができる。あるいは、画像処理装置１０２は、記憶装置１１４などの他のデバイスから訓練画像及び関連するラベルを取得してもよい。

方法２００は、ステップ２０４で１以上の分類モデル（すなわち、畳込みニューラルネットワーク）の訓練を含む。例えば、図１のシステム１００は、１以上の畳込みニューラルネットワークを訓練するために使用されてもよい。畳込み層の基本概念は、重み共有や複数の特徴量マップのエンコーディングである。重み共有は、空間的位置にかかわらず視覚的情報を抽出でき（並進不変性）、複数の平行特徴量マップは、同時に異なる種類／レベルの画像の細部を抽出できる。畳込みニューラルネットワークの説明は、Ｙ．ＬｅＣｕｎ，Ｌ．Ｂｏｔｔｏｕ，Ｙ．Ｂｅｎｇｉｏ，及びＰ．Ｈａｆｆｎｅｒ，「Ｇｒａｄｉｅｎｔ−ｂａｓｅｄｌｅａｒｎｉｎｇａｐｐｌｉｅｄｔｏｄｏｃｕｍｅｎｔｒｅｃｏｇｎｉｔｉｏｎ」ＰＲＯＣ.，ＩＥＥＥ，第８６巻，第１１号，２２７８−２３２３頁，１９９８年、に見出すことができ、その内容は、参照により本明細書に組み込まれる。

図３に関してより詳細に説明されるように、ステップ２００で取得した訓練画像に基づいて訓練された畳込みニューラルネットワークは、いくつかの層を含む深層畳込みニューラルネットワークであってもよい。畳込みニューラルネットワークの訓練は、反復によるネットワークカーネルの重みとバイアスのチューニング／更新が含まれ、ラベル付きデータ（例えば、ヒトのラベル付きデータ）の勾配の最適化を行う。分類層にソフトマックスアクティベーション又はシグモイドアクティベーションを使用する畳込みニューラルネットワークとは対照的に、システム１００によって及び方法２００において使用される畳込みニューラルネットワークは、以下に詳述するように、複数のクラス（すなわち、複数の画像を１つの画像に関連付ける）への信頼性の高い画像分類のためにソフトシグモイドアクティベーションを使用する。例えば、分類層にソフトマックスアクティベーションを使用する畳込みニューラルネットワークは、相互排他的なクラス／ラベルを必要とする。分類層にシグモイドアクティベーション、又は最後の層のシグモイドアクティベーション、又は訓練中の目的関数にシグモイドクロスエントロピーを使用する畳込みニューラルネットワークは、負の飽和状態になり、極小をさまよう場合がある。分類層にソフトシグモイドアクティベーション、又は訓練中の目的関数にソフトシグモイドクロスエントロピーを有する畳込みニューラルネットワークを使用することによって、システム１００及び画像処理装置１０２は、複数のラベル（すなわち、マルチラベル）にタグ付けされ、又はそうでない場合は関連する画像を使用して、１以上の畳込みニューラルネットワークを訓練し、訓練された１以上の畳込みニューラルネットワークを使用して、確実かつ効率的に複数のクラス（すなわち、画像を複数のラベルに関連付ける）に画像を分類できる。いくつかの代替的な実施形態において、システム１００及び方法２００は、本開示の範囲から逸脱することなく、負の飽和を防止し、又は回復するために異なる手段を使用できる。

いくつかの例示的な実施形態において、個々の畳込みニューラルネットワークは、画像又は画像内のオブジェクト／要素に関連する階層的なマルチラベル（例えば、米国デザインコード、ウィーンコード）の各階層レベルに基づいて訓練できる。一般的には、システム１００によって及び方法２００において使用される畳込みニューラルネットワーク（複数可）の訓練に使用される訓練画像及び関連するマルチラベルは、非階層的又は階層的であってもよい。

いくつかの例示的な実施形態において、訓練画像は、例えば、よりよいデータ強化のために、必要に応じて前処理されてもよい。例えば、訓練画像は、一定の高さと幅にサイズ変更してもよい。画像のアスペクト比は、例えば、黒、白、エッジの色でより小さいサイズの余白によって保持できる。ＲＧＢ画像のグレースケールとバイナリバージョンは、データ強化として使用できる。前処理の他の例として、訓練画像を事前に白色化してもよく、ランダムコントラスト、ランダムな明るさ、ランダムフリップ及び回転もまた繰り返して適用されてもよい。

いくつかの実施形態の例において、方法２００は、ステップ２０６で訓練された畳込みニューラルネットワーク（複数可）（すなわち、訓練された分類モデル）をテストすることを含むことができる。例えば、訓練画像のサンプルと関連するマルチラベルが訓練画像源１０４又は別の供給源から画像処理装置１０２に提供され、訓練された畳込みニューラルネットワーク（複数可）のベンチマークをテストしてもよい。畳込みニューラルネットワークの追加の改良が実行され、例えば、システム１００又は方法２００の性能が閾値を下回る場合、いくつかの代替実施形態では、本開示の範囲から逸脱することなく、訓練された分類モデルのテストを省略してもよい。

いくつかの例示的な実施形態において、方法２００は、ステップ２０８で１以上の訓練された分類モデル（すなわち、訓練された畳込みニューラルネットワーク（複数可））を用いて入力画像を分類することを含む。例えば、入力画像源１０６から又は記憶装置１１４などの別の供給源から処理装置１０２によって入力された画像を受け取ることができる。画像処理装置１０２は、１以上の訓練された分類モデルにより入力画像を分類できる。例えば、非階層的なラベルに基づいて分類される画像の特定のデータセットのために、システム１００は、単一の分類モデルを訓練して、対応する入力画像を分類するために使用できる。階層的なラベルに基づいて分類される画像の他のデータセットについて、システム１００は、単一の分類モデルを訓練できる。複数のクラスに入力画像を分類することにより、画像処理装置１０２は、効果的にマルチラベルで分類された入力画像にラベル付けし、タグ付けし又は関連付ける。いくつかの実施例において、画像又は画像内のオブジェクト／要素が単一のクラスのみの分類に入る場合、１以上の入力画像は、単一のクラスに分類できる。

図３は、例示的な実施形態による訓練画像分類モデル（すなわち、畳込みニューラルネットワーク）の方法／システム３００を示す。図１−３を参照すると、深層畳込みニューラルネットワークは、図３に示すように畳込み層とプーリング層３０６、全結合層３１０、及びロジット層３１２を含むことができる。畳込み層において、重み共有カーネルが入力特徴量マップ（画像又は前の層の出力）上で走査され、非線形アクティベーション関数、例えば、ＲｅＬＵ、ＥＬＵ、シグモイドが使用されて次の層のセットを生成する。重み共有カーネルの使用は並進不変性を可能にし、複数の並列カーネルは異なる視覚情報を抽出可能にする。

プーリング層は、畳込み層間に使用されて入力特徴量マップの次元を減少させる。プーリングにおいて、重み共有カーネルは、１値画素ストライド長以上（一般的に２値画素スライド長が使用される）で走査され、カーネル領域内の最大値を取得する。最大値の代わりに、任意の統計的集約関数が使用できる（最大：Ｍａｘ−プーリング、最小：ｍｉｎ−プーリングなど）。プーリング層は、次元を削減し、ノイズを無視するのに役立つ。

畳込み層とプーリング層３０６のこれらの畳込み層とプーリング層は、何度も繰り返されて視覚情報が複数のレベルで（大域詳細からより細かい詳細に）抽出されていることを確認する。複数の畳込み層とプーリング層を有するネットワークが深い場合、ネットワークの先頭からの画像情報は、ゲーティング３０８を使用してネットワークの奥側に転送される。

ネットワークのハイパーパラメータ（層数、カーネルサイズ、ゲーティング数及びカーネル数）は、アプリケーションで使用される画像データの複雑さとラベルの数とに基づいて設定される。また、アプリケーションがより複雑であり、より多くの特徴量マップを異なる分類ラベルについて学習する必要がある場合、ネットワークの一部を並行に繰り返して一体に連結できる。その結果、比較的広いネットワークとなる。

一般に、畳込み層とプーリング層３０６は、主に次の操作を行う。１）重み共有カーネルを前処理された入力画像に畳み込む。２）画像不変性（例えば、並進）に適合させるために、生成された特徴量マップ上に関連のプーリング（最大、平均、最小）を適用する。そして３）適切なアクティベーション関数（ＲｅＬＵ、シグモイド、ＥＬＵ、など）を使用して、非線形出力にプールされた特徴をマッピングする。これらの主な操作は、異なるカーネルサイズ（３×３、５×５、１１×１１）、アクティベーション関数、及びゲーティング（ハイウェイ、スキップ）の組み合わせを用いて繰り返されることにより、視覚的特徴の異なるレベルを捕捉する。畳込みネットワークが深くなるにつれて、多数の特徴量マップでより小さなカーネルサイズが使用されて、細かい詳細により小さな受容野を適合させる。

畳込み層とプーリング層３０６の最後の畳込み層の出力は、一体に連結され、全結合層にマッピングされる。ドロップアウトの異なるスケールを使用して、ネットワークが過学習しないことを確認する。全結合層３１０は、分類ラベルをマッピングするために畳込み層から抽出された視覚情報を縮小することを確認する。

ロジット層（すなわち、ソフトシグモイド層）３１２は、最後の全結合層（Ｈ）の出力をマッピングするために使用されて、各分類ラベルの信頼度スコアを得る。ソフトシグモイド層は、次のように定義される。

この場合、Ｆｓがシグモイド関数である。Ｆｇは、

任意の非線形関数（入力の全範囲に対して非ゼロの勾配値を有する関数）である。コンテキストで動作する関数の例は、ソフトマックスである。他のアクティベーション関数、例えば、ＲｅＬＵ、ＥＬＵもまた、この要件を満たす。γはＦｇとＦｓに重みを設定する。畳込みニューラルネットワークの訓練中、γは、累積クロスエントロピー損失（モデルがより高い損失である場合のＦｇのブースティング）と相関する関数に設定される。このプロセスは、シグモイドの負の飽和領域でハングアップしている、偽陽性と偽陰性の信頼度スコアを取り戻すのに役立つ。訓練された畳込みニューラルネットワークを用いて入力画像の分類中、γは各ラベルに独立した信頼度スコアを生成するために０に設定される。

マルチラベル３０４付き画像３０２を用いる畳込みニューラルネットワークの訓練は、ソフトシグモイドアクティベーションロジットとグランドトゥルースラベル間のクロスエントロピーを最小化するようにネットワークを誤差逆伝播することによって行われる。重みとバイアスなどのパラメータを更新すること、及び他の最適化は、最適化及び更新モジュール３１６によって、ソフトシグモイドクロスエントロピーモジュール３１４の出力に基づいて実行される。ランダムにシャッフルされた入力画像のデータキューからサイズ（６４、１２８、２５６）のミニバッチが入力として使用することができ、異なるクラスに属する訓練画像間の損失関数を汎化する。

上述のように、ラベル３０４が階層構造を有する場合、個々のモデルは、ラベルの階層の各レベルについて訓練される。畳込み層、カーネルサイズ、アクティベーション、プール及びゲートの種類の数、全結合層の数、全結合層上のニューロンの数は、ラベルの数、使用される訓練画像の数、使用されるラベルの種類及び訓練画像の種類等によって変化する。例えば、ネットワークが多数のラベル（数千以上）を分類する必要がある場合、視覚的特徴の複雑な構造を捕捉するには、多数のレイヤ（ｖｇｇ１６、Ｒｅｓｎｅｔ１０１と同様）を用いる畳込みニューラルネットワークがより適切である。

図４は、例示的な実施形態による訓練された分類モデルを使用して画像を分類する方法／システム４００を示す。図１−４を参照して、上記分類モデルの訓練に起因した訓練された分類モデル（すなわち、訓練された畳込みニューラルネットワーク）は、図４に示すように畳込み層とプーリング層４０６、全結合層４１０、及びロジット層４１２を含む。図４の訓練された畳込みニューラルネットワークは、効果的に訓練プロセスの終了時の図３の畳込みニューラルネットワークである。説明では、パラメータ設定の違いを除いて、畳込み層とプーリング層４０６が畳込みニューラルネットワーク３０６に対応し、全結合層４１０が全結合層３１０に対応し、ロジット層４１２がロジット層３１２に対応する。分類する必要がある入力画像４０２は、入力画像源１０６又は他のソースなどの画像源から提供されてもよい。いくつかの例示的な実施形態において、入力画像は、訓練画像に関して説明したように同様の方法で前処理されてもよい。

所与の入力画像について、方法２００のステップ２０４から及び方法３００から訓練された分類モデルは、各ラベルについて信頼度スコアを出力する。ソフトシグモイドアクティベーションロジット層４１２の出力は、ソフトマックスアクティベーションを使用する畳込みニューラルネットワークとは対照的に、各ラベルについて独立したシグモイド信頼度スコアを生成する。その結果、すべてのラベル間で分配される信頼度スコアは、スコアの合計が１に等しい。信頼度スコアは、画像内のオブジェクト又は画像が特定のクラス（すなわち、特定のラベル）に正しく分類されている信頼度のレベルを示す。例えば、１のスコアが最も高い信頼性レベルを示すこと、及び０のスコアが最低の信頼度を示すことができる。ソフトシグモイドアクティベーションを使用することによって、方法２００、３００及び４００は、分類／ラベル出力４１４によって示されるように、１つの画像及び１つの画像内のオブジェクト／要素の複数のクラスへの分類を可能にする。つまり、複数のラベル（すなわち、マルチラベル）は、１つの画像と関連付けられることができる。例えば、１つの画像は、複数のラベルでタグ付けされてもよく、単一のクラスに限定されるものではない。

図５は、システム１００を使用して、及び方法２００、３００及び４００に基づいて画像（例えば、グラフィカルにデザインされた画像）の分類／ラベリングを示す。図５に示すように、画像５０２は、パーセンテージで与えられる信頼度スコア５０６と共にクラス／ラベル５０４によって示されるように、３つのクラス（すなわち、３つのマルチラベルに関連付けられる）に分類される。

図６−８は、実施例によるマルチラベルの各階層レベルについて訓練された分類モデルに基づいて入力画像の分類を示す。いくつかの例示的な実施形態において、別個の分類モデルは、上述したように階層的なラベルの階層の各レベルについて訓練できる。説明するために、米国デザインコードとウィーンコードのような商標ラベルは、表１に図示されているように、「カテゴリ」→「ディビジョン」→「セクション」による階層構造に基づいて構築される。各階層レベルについて訓練された分類モデル（例えば、「カテゴリ」に対してＨ（Ｃ）、「ディビジョン」に対してＨ（Ｄ）、「セクション」に対してＨ（Ｓ））は、画像又は画像内のオブジェクトの最終的な分類を決定するために使用できる。階層情報は、カテゴリ、ディビジョン及びセクションのラベルをそれぞれ分類するために使用されてもよい。前統計からの分類モデルの各々に関する情報を一体として有する階層情報が使用することができ、カテゴリ、ディビジョン及びセクションのラベルにそれぞれ堅固に分類できる。図６−８は、階層レベルのそれぞれについてラベルを同定する方法を示し、最終スコアを精緻するために使用される。

説明のために、各クラス／ラベルの確率スコアは、上位から下位への階層について計算される。各モデルから、より高いレベルのラベルの信頼度スコアを計算し、図６に示すように平均化される。各下位レベルについて、現在のレベルのラベルの確率スコアは、図７と８に示すように、対応するより高いレベルのラベルの確率スコアで乗算される。

大量の訓練画像を用いて、入力画像と関連するクラス／ラベルを正しく示すことに向けて、各分類モデルの信頼度の事前統計は、スコアを計算に組み込むことができる。説明するために、所与のクラスについて「カテゴリ」の各階層レベルの精度（例えば、「カテゴリ」に対してＨ（Ｃ）、「ディビジョン」に対してＨ（Ｄ）、「セクション」に対してＨ（Ｓ））を測定する事前確率が、例えば、数百万の訓練データから抽出された統計に基づいて予め計算できる。例えば、Ｐ（Ｃ｜ｃ１）は、カテゴリモデルをｃ１クラスに良好に予測する程度である。ラベルの信頼度スコアは、その子のモデル（Ｄ又はＳ）から（例えば、Ｃ１）を、所与のラベルの分類モデルの信頼度の事前統計との関連モデルから、その子の最大の信頼（Ｄ（ｃ（ｄｉ）＝＝ｃ１）又はＳ（ｃ（ｓｉ）＝＝ｃ１）に乗じて計算する。ラベルの最終的な信頼性スコアは、その子モデルのそれぞれからの信頼度の平均値に親の確率を乗じて定義できる。親確率（信頼度）は、子ラベルが属している上位階層のラベルの確率で定義されている。

上述したシステム及び方法は、階層構造を有することができる意味論的記述（意味論的視覚）に基づいて画像を分類する深層畳込みニューラルネットワーク（複数可）を訓練するために使用できる。商標画像を記述する米国デザインコードに使用される３レベルの階層的なラベルの一例の説明は、上記表１に示される。意匠特許／工業デザイン空間におけるマルチラベルの例には、ロカルノ分類及び商品表示を含む。

上述したように、画像分類システムを訓練する方法の例示的な実施形態では、大規模なロゴデータセットは、畳込みニューラルネットワーク（すなわち、分類モデル）を訓練するのに使用できる。商標画像（通常はグラフィカルにデザインされた画像）と商標画像コードは、深層学習システム（すなわち、深層畳込みに基づくシステムニューラルネットワーク（複数可））に入力されるラベルとして使用される。訓練画像セットとしての商標の使用は、画像、ロゴ等の分類に深層畳込みニューラルネットワークを訓練するために使用される大規模な画像源を提供してもよい。上述のように、本明細書で説明されるシステム及び方法は、工業デザインや商標及び意匠の組み合わせの分類を含む用途に使用できる。

システムベンチマークは、ロゴデータセット（商標）と大規模な写真データセット（ＩｍａｇｅＮｅｔ）の両方、ならびに電子商取引サイトの画像（通常の製品の写真は、デジタル変更される複数の商品、あるいは単なるロゴ、のいずれかの写真）のようなアプリケーションの特定のデータセットに対して実行されてもよい。上述したように、訓練画像と入力画像の両方に分類される画像は、ホワイトバランスを正規化し、ノイズを除去し、画像をスケール等する前処理を受けることができる。

また、ラベル及び他の関連情報を含むメタデータを前処理できる。全ての商標メタデータは、一般的に有用であり、いくつかの記述子が他のものより意味がある（例えば、セグメントを含むように画像を記述することは、チェックマークを形成する２つの接続セグメントとして画像を記述するよりも有用ではない）。これらのラベルのための関連統計は、深いネットワークの教師訓練プロセスに入力するために事前に収集できる。

また、上述したように、異なるレベルのメタデータ（すなわち、階層的なラベル）が最も特定的なものから最も特定的でないものに分化させることができる。例えば、画像のための非常に特定のメタデータラベルは、商標出願番号１１１１１（識別された商標ラベル）、より高いレベルのラベルはブランド名「Ｔｗｉｔｔｅｒ」（ブランド／所有者）、さらに再びより高いレベルは「雀」、「鳥」、「動物」（例えば、ＶＣカテゴリ、ディビジョン、セクションの階層、例えば、“０２．０１．０１”、“０２．０１”、“０２”）であるかもしれない。これらの異なるレベルの説明とラベルは、訓練に使用される。

上記フォーマットされた情報は、畳込みニューラルネットワーク（すなわち、分類モデル）を訓練するために使用できる。上述したように、畳込み層と最大プーリング層とが交互し、典型的には分類器として最終層を有する、マルチレベルアーキテクチャを含む。例示的な実施形態では、上記ラベルが最終層を訓練するために使用できる。畳込みニューラルネットワークに基づくシステム及び方法において、畳込み及び最大プーリングは、畳込みから生じる特徴を効果的にクラスタリングして次元数を減少させる。畳込みの各層は、異なる表現でより高いレベルの機能のセットを提供する。意味論的ラベルのレベルに合ったアーキテクチャを理解することは訓練に役立つ。

本明細書で説明されるシステム及び方法は、商標、ロゴ、及び製品のデザインを含む工業デザインの画像としてグラフィカルにデザインされた画像における視覚的要素又はオブジェクトの正確な分類を可能にする。階層毎の分類モデル（ｐｅｒ−ｈｉｅｒａｒｃｈｙｍｏｄｅｌｓ）を訓練することによって、マルチラベルの階層レベルの利点を取ることは、より信頼性の高い分類になりうる。写真内のオブジェクト及び要素は、本明細書に記載するシステム及び方法を使用して分類できる。アプリケーションは、様々なドメインの幅広いアプリケーション、例えば、メディアの監視、セキュリティ、及び民生用アプリケーションだけでなく、クリアランス検索と画像ベースの商標（及びコモンロー上のロゴ）、侵害に対する保護のための工業デザインの監視の向上を含む。

本明細書で説明されるシステム及び方法は、多くのアプリケーションにおいて使用できる。例えば、ラベルをイメージするための既に確立されたコード規格を使用して、このシステム及び方法は、画像が業界標準（ウィーンコード、デザインコード及びキーワード等）に従って審査官によってラベル付けされる、グラフィカルにデザインされた画像の知的財産を保護するために使用できる。前述したように、ラベルを使用して階層的にラベルされたクラスに分類モデルを訓練することができ、かつ訓練された分類モデルを使用して新規登録の際に審査官へのコードの提案を生成し、本明細書に記載の分類システムに登録されることが望ましい画像や画像内のオブジェクトを提供することにより、類似の意匠／商標画像を検索するのを助ける。また、このようなコード生成機能は、類似のグラフィック画像の意匠による侵害を見つけるために使用できる。

いくつかの例示的な実施形態において、画像検索は、クラスラベルに基づいて行われてもよい。説明するために、オブジェクトのラベルの組み合わせは、一意性（ｕｎｉｑｕｅｎｅｓｓｏｆａｎ）を説明する。訓練された分類モデルは、ラベルに使用できる、あるいはその他の画像内のラベルの画像やオブジェクトに関連付けられる。自動的にオブジェクトラベルのすべての組み合わせを生成する訓練された分類モデルを使用することにより、類似性について大規模データベースに対して画像を検索できる。

いくつかの例示的な実施形態において、ウェブ画像検索は、メタデータに基づいて行うことができる。上述したように同様のアプローチは、ウェブ上で類似画像を検索するために使用できる。また、メタデータについて訓練された分類モデルを使用して、アップロードされた画像をデータベースに自動的にインデックスできる。本明細書に記載のシステム及び方法はまた、商標及び意匠クリアランス検索を実行し、監視サービスを提供するために使用できる。

いくつかの例示的な実施形態において、逆画像検索は、訓練されたネットワーク（視覚的に符号化された特徴量マップ−中間ネットワーク層及び／又は自動生成されたセマンティックラベル）の出力からの付加的な特徴と本明細書で説明されるシステム及び方法を用いて行うことができる。さらに、異なる階層レベルのラベルに対して別々のモデルを有することにより、画像検索は、類似において細部の異なるレベルを調べるために行うことができる。例えば、Ｔｗｉｔｔｅｒのロゴのマッチングを用いて、ｉ）Ｔｗｉｔｔｅｒのロゴの正確な形状／色／テクスチャ、ｉｉ）飛行中又は羽を広げた鳥、キツツキ、他の鳥；ハト、ワタリガラス、ロビンス、カーディナル、ドーブ、の組み合わせを有するロゴ、ｉｉｉ）動物の種類、又はｉｖ）任意の動物のロゴの結果を期待して行うことができる。

一般に、本明細書に記載のシステム及び方法は、独立して階層的なマルチラベル情報を有するロゴ訓練画像データの世界最大規模のコーパス上で非常に大きな（ワイド／深い）深層学習モデルを訓練するために使用される。このようなシステム及び方法は、訓練プロセスの間に５００万以上の商標画像と数千のクラスラベルを容易に処理できる。

方法の実施形態を詳細に記載してきたが、そのようなシステムは、必ずしも説明した特定の特徴又はアルゴリズムに限定されないことを理解すべきである。むしろ、特定の特徴及びアルゴリズムは、そのようなシステムを実装する形態の例として開示される。

いくつかの実施形態が詳細に記載してきたが、これらの記載は一例である。本明細書に記載の実施形態は、代表的なものであり、代替の実施形態において、特定の特徴、要素、及び／又はステップを追加し、又は省略してもよい。さらに、本明細書に記載の実施形態の態様に対する修正は、以下の特許請求の範囲の精神及び範囲から逸脱することなく、当業者によってなされ得る。その請求の範囲は、修正及び同等の構造を包含するように最も広い解釈が与えられるべきである。

Claims

１以上の画像分類モデルを使用して画像を分類するコンピュータ実装方法であって、前記方法は、
複数の訓練画像のうちの１以上の訓練画像が２以上のラベルと関連付けられており、各ラベルが１つの画像分類クラスに対応し、前記ラベルが階層構造を有する、前記ラベルに関連する訓練画像を取得し、
前記訓練画像と前記訓練画像に関連する階層構造ラベルを使用して少なくとも２つの畳込みニューラルネットワークを訓練し、個々の畳込みニューラルネットワークは、前記階層構造の各レベルについて訓練され、
及び、
訓練された前記少なくとも２つの畳込みニューラルネットワークに基づいて１以上のクラスに入力画像を分類することであって、前記分類することは、
各ラベルの確率スコアを、上位レベルから下位レベルへの前記階層構造について計算し、前記階層構造の各下位レベルについてのラベルの確率スコアは、前記階層構造の対応する上位レベルのラベルの確率スコアで乗算されること、
を含むこと、
を含む、方法。
前記少なくとも２つの畳込みニューラルネットワークの分類層は、ソフトシグモイドアクティベーションに基づき、前記ソフトシグモイドアクティベーションは、ソフトマックス関数とシグモイド関数との組合せである、請求項１に記載の方法。
前記訓練画像と前記入力画像は、グラフィカルデザインされた画像を含む、請求項１に記載の方法。
前記ラベルが非相互排他的なラベルである、請求項１に記載の方法。
前記ラベルは、商標登録機関によって使用されるコードである、請求項１に記載の方法。
前記ラベルは、意匠特許画像または工業デザイン画像を分類するために使用されるコードである、請求項１の方法。
前記ラベルは、前記ラベルに関連する前記訓練画像のメタデータとして利用可能である、請求項１に記載の方法。
前記分類することは、前記２以上のクラスに対応する２以上のラベルで前記入力画像をタギング又はラベリングすることを更に含む、請求項１に記載の方法。
前記訓練画像を前処理することをさらに含む、請求項１に記載の方法であって、
前記少なくとも２つの畳込みニューラルネットワークを訓練することは、前処理された前記訓練画像及び前記訓練画像に関連するラベルに基づく、方法。
画像分類モデルを訓練するコンピュータ実装方法であって、前記方法は、
複数の訓練画像のうちの１以上の訓練画像が２以上のラベルと関連付けられており、各ラベルが１つの画像分類クラスに対応し、前記ラベルが階層構造を有する、前記ラベルに関連する訓練画像を取得し、
前記階層構造の各レベルについて、少なくとも１つの畳込みニューラルネットワークを使用して１以上のクラスに訓練画像を分類することであって、前記分類することは、
各ラベルの確率スコアを、上位レベルから下位レベルへの前記階層構造について計算し、前記階層構造の各下位レベルについてのラベルの確率スコアは、前記階層構造の対応する上位レベルのラベルの確率スコアで乗算されること、
を含み、
前記訓練画像に関連するラベルに対して前記訓練画像の分類を比較し、
前記訓練画像に関連するラベルに対して前記訓練画像の分類の比較に基づいて各畳込みニューラルネットワークのパラメータを更新する、方法。
前記訓練画像は、グラフィカルデザインされた画像を含む、請求項１０に記載の方法。
前記ラベルは、商標登録機関によって使用されるコードである、請求項１０に記載の方法。
前記分類する前に、前記訓練画像の前処理をさらに含む、請求項１０に記載の方法。
各畳込みニューラルネットワークの分類層は、ソフトシグモイドアクティベーションに基づき、前記ソフトシグモイドアクティベーションは、ソフトマックス関数とシグモイド関数との組合せである、請求項１０に記載の方法。
１以上の画像分類モデルを使用する画像分類システムであって、前記システムは、
ラベルに関連する訓練画像を含み、複数の訓練画像のうちの１以上の訓練画像が複数のラベルのうちの２以上のラベルと関連付けられており、前記複数のラベルのうちの２以上のラベルが階層構造を有する、訓練画像データベースと、
前記訓練画像データベースに通信可能に結合された処理回路であって、
前記訓練画像データベースから前記訓練画像を取得し、
前記訓練画像と前記訓練画像に関連する階層構造ラベルを使用して少なくとも２つの畳込みニューラルネットワークを訓練し、個々の畳込みニューラルネットワークは、前記階層構造の各レベルについて訓練される、
ように構成された処理回路と、を含み、
前記少なくとも２つの畳込みニューラルネットワークは、
各ラベルの確率スコアを、上位レベルから下位レベルへの前記階層構造について計算し、前記階層構造の各下位レベルについてのラベルの確率スコアは、前記階層構造の対応する上位レベルのラベルの確率スコアで乗算されることによって、
入力画像データベースからの入力画像を２以上のクラスに分類するように構成された、システム。
前記少なくとも２つの畳込みニューラルネットワークの各々の分類層は、ソフトシグモイドアクティベーションに基づき、前記ソフトシグモイドアクティベーションは、ソフトマックス関数とシグモイド関数との組合せである、請求項１５に記載のシステム。
前記ラベルは、米国特許商標庁によって使用される１以上の米国デザインコード、ウィーンコード、キーワード画像構成、又はロカルノ分類で使用されるコードを含む、請求項１５に記載のシステム。