JP7763005B2

JP7763005B2 - 多重ラベルセットを用いた学習モデルの生成方法及びこのための装置

Info

Publication number: JP7763005B2
Application number: JP2024538769A
Authority: JP
Inventors: ソクイ、ホン; ジュンユン、ソン
Original assignee: Neurocle Inc
Current assignee: Neurocle Inc
Priority date: 2021-12-31
Filing date: 2022-12-29
Publication date: 2025-10-31
Anticipated expiration: 2042-12-29
Also published as: WO2023128677A1; JP2025500542A

Description

この開示（ｄｉｓｃｌｏｓｕｒｅ）の技術的思想は、多重ラベルセットを用いた学習モデルの生成方法及びこのための装置に関する。

機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ；マシンラーニング）は、人工知能（ＡＩ）の一つの分野であって、データに基づいてコンピューターが学習できるようにするアルゴリズムと技術を開発する分野であり、イメージ処理、映像認識、音声認識、インターネット検索などの多岐にわたる分野の中核技術であると言われており、予測（ｐｒｅｄｉｃｔｉｏｎ）、オブジェクト検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）、オブジェクト分類（ｏｂｊｅｃｔｃｌａｓｓｉｆｉｃａｔｉｏｎ）、オブジェクト分割（ｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎ）、異常検知（ａｎｏｍａｌｙｄｅｔｅｃｔｉｏｎ）などに優れた成果を示す。

機械学習を行うために先決的に学習データの生成が必要であり、このような学習データを生成するために学習データに対して検出しようとする正解（ｌａｂｅｌ）に目印をつけるラベリングを行わなければならない。例えば、イメージから特定のオブジェクトを検出しようとする場合、学習データであるイメージに当該オブジェクトの種類、位置、境界などの情報を含むラベルを学習データに対応付けて生成し、このようなラベルに基づいて機械学習アルゴリズムが学習データを学習することにより、当該オブジェクトを検出する学習モデルを生成することができる。

しかしながら、従来のラベリング方式は、学習データごとに単一の種類のラベルのみを含むようにすることにより、同一の学習データから多種多様なラベルに基づく結果を導き出し、これらを互いにアンサンブル（ｅｎｓｅｍｂｌｅ）をして活用するのに限界が存在し、これに加えて、個別のラベルごとに学習データを別途に生成する方式によって、学習データの生成、記憶、管理などの側面からみて余計にリソースが費やされてしまうという不都合がある。

一方、学習データを構成するに際して、一部の種類のラベリングが行われたデータを収集することは容易な作業であり得るが、他の種類の場合にはラベリングを行うそれ自体が相対的に決して容易ではない可能性がある。すなわち、例えば、クラス分類が行われたデータを収集することは容易であるものの、クラスのそれぞれに対応するオブジェクトに対するセグメンテーションが行われたデータを収集することは決して容易ではない可能性がある。このように、難易度の高いラベリングが行われた学習データを確保するためにかかる時間及びコストが膨大であるという不都合がある。

この開示の技術的思想は、上記の問題を解決するための多重ラベルセットを用いた学習モデルの生成方法及びその装置を提供することをその目的とする。

この開示の技術的思想による多重ラベルセットを用いた学習モデルの生成方法及びこのための装置が解決しようとする技術的課題は、上述した技術的課題に何ら制限されるものではなく、言及されていない他の技術的課題は、次の記載から当業者にとって明らかに理解できる。

この開示の技術的思想による一態様によれば、多重ラベルセットを用いた学習モデルの生成方法は、複数枚のイメージを含むイメージセットを取得するステップと、前記イメージセットに対して異なる種類の複数のラベルセットを生成するステップと、を含んでいてもよい。

例示的な実施形態によれば、前記イメージセットをネットワーク関数に入力して、前記複数のラベルセットのうちの少なくとも２つ以上に対応する複数の学習モデルを生成するステップをさらに含んでいてもよい。

前記多重ラベルセットを用いた学習モデルの生成方法は、前記イメージセットをネットワーク関数に入力して、前記複数のラベルセットのうちの少なくとも２つ以上に対応する複数の学習モデルを生成するステップをさらに含んでいてもよい。

この例示的な実施形態によれば、前記複数のラベルセットを生成するステップは、複数のユーザーから前記イメージセットに属する複数枚のイメージのうちの少なくとも１枚に関するラベル情報をそれぞれ受信するステップと、前記ラベル情報に基づいて、前記イメージセットに含まれている複数枚のイメージに対してラベリングを行うことにより、前記ラベル情報のそれぞれに対応する前記複数のラベルセットを生成するステップと、を含んでいてもよい。

例示的な実施形態によれば、前記多重ラベルセットを用いた学習モデルの生成方法は、前記複数の学習モデルのうちの少なくとも２つ以上に対して性能を比較するステップをさらに含み、前記性能は、再現率（ｒｅｃａｌｌ）、適合率（ｐｒｅｃｉｓｉｏｎ）、正解率（ａｃｃｕｒａｃｙ）及びこれらの組み合わせのうちの少なくとも１つに基づいて算出されてもよい。

例示的な実施形態によれば、前記複数の学習モデルは、それぞれオブジェクト検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）、オブジェクト分類（ｏｂｊｅｃｔｃｌａｓｓｉｆｉｃａｔｉｏｎ）、オブジェクト分割（ｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎ）、文字認識（ｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）、予測（ｐｒｅｄｉｃｔｉｏｎ）及び異常検知（ａｎｏｍａｌｙｄｅｔｅｃｔｉｏｎ）のうちのいずれか１つを行ってもよい。

例示的な実施形態によれば、前記多重ラベルセットを用いた学習モデルの生成方法は、前記学習モデルのうちの少なくとも２つ以上を結合して、アンサンブルモデル（ｅｎｓｅｍｂｌｅｍｏｄｅｌ）を構築するステップをさらに含んでいてもよい。

例示的な実施形態によれば、前記複数のラベルセットは、ラベリングの難易度が互いに異なる種類の第１のラベルセットと第２のラベルセットを備え、前記複数のラベルセットを生成するステップは、ラベリングの難易度が低い前記第１のラベルセットを基づいて、前記第２のラベルセットを生成するステップを含んでいてもよい。

例示的な実施形態によれば、前記複数のラベルセットを生成するステップは、少なくとも一人のユーザーから前記イメージセットに属する複数枚のイメージのうちの少なくとも１枚に関する第１のラベル情報を受信するステップと、前記第１のラベル情報に基づいて、前記イメージセットに含まれている複数枚のイメージに対してラベリング（ｌａｂｅｌｉｎｇ）を行うことにより、前記複数枚のイメージのそれぞれについての第１のラベルを含む第１のラベルセットを生成するステップと、前記イメージセット及び前記第１のラベルセットを第１のネットワーク関数に入力して学習を行い、出力結果に基づいて、前記複数枚のイメージのそれぞれについての第２のラベルを含む第２のラベルセットを生成するステップと、を含んでいてもよい。

例示的な実施形態によれば、前記第１のネットワーク関数の出力結果は、前記第１のネットワーク関数が、前記複数枚のイメージのそれぞれについて、少なくともいずれか１つの部分に基づいて前記第１のラベルに対応する結果を出力したか否かに関する情報を含んでいてもよい。

例示的な実施形態によれば、前記第１のネットワーク関数の出力結果は、前記複数枚のイメージのそれぞれについて、少なくともいずれか１つの部分に基づいて前記第１のラベルに対応する結果を出力したか否かに関する情報をヒートマップ（ｈｅａｔｍａｐ）の形態で含んでいてもよい。

例示的な実施形態によれば、前記第１のネットワーク関数の出力結果は、前記第１のラベルに対応する結果についての前記複数枚のイメージのそれぞれのクラス活性化マップ（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ；ＣＡＭ）を含んでいてもよい。

例示的な実施形態によれば、前記第２のラベルセットを生成するステップにおいて、
前記第２のラベルは、前記複数枚のイメージのそれぞれに対応する前記クラス活性化マップのそれぞれに対して、しきい（ｔｈｒｅｓｈｏｌｄ）値を所定の値又は範囲に設定して弱いラベリング（ｗｅａｋｌａｂｅｌｉｎｇ）領域を抽出することにより生成されてもよい。

例示的な実施形態によれば、前記多重ラベルセットを用いた学習モデルの生成方法は、前記イメージセット及び前記第２のラベルセットを第２のネットワーク関数に入力して学習を行うことにより、学習モデルを生成するステップをさらに含んでいてもよい。

例示的な実施形態によれば、前記第１のラベルは、オブジェクト分類ラベルであり、前記第２のラベルは、オブジェクト認識ラベル及びオブジェクト分類ラベルのうちの少なくともどちらか一方であってもよい。

例示的な実施形態によれば、前記第１のラベルは、オブジェクト認識ラベルであり、前記第２のラベルは、オブジェクト分割ラベルであってもよい。

この開示の技術的思想による一態様によれば、多重ラベルセットを用いた学習モデルの生成装置は、少なくとも１つのプロセッサーと、前記プロセッサーにより起動可能なプログラムを記憶するメモリと、を備え、前記プロセッサーは、前記プログラムを起動することにより、複数枚のイメージを含むイメージセットを取得し、前記イメージセットに対して異なる種類の複数のラベルセットを生成してもよい。

この開示の技術的思想による実施形態によれば、単一のイメージセットに対して異なる種類のラベルセットを生成し、これを基づいてそれぞれのラベルセットに対応する複数の学習モデルを生成して、性能比較を行うことで、遂行作業に最適化したラベルセット及び／又は学習モデルを選定することができる。

この開示の技術的思想による実施形態によれば、異なるラベルセットに基づいて生成された複数の学習モデルを結合して遂行作業に適したアンサンブルモデルを構築することにより、より一層正確な最終結果を取得することができる。

この開示の技術的思想による実施形態によれば、ラベリングの難易度が低い種類のラベルを基づいてモデルを学習した後、難易度が相対的に低いラベルを自動的に生成して学習モデルを生成することができる。

この開示の技術的思想による方法及びこのための装置が得られる効果は上述した効果に何ら制限されるものではなく、言及されていない他の効果は、次の記載からこの開示が属する技術分野において通常の知識を有する者にとって明確に理解できる。

この開示において引用される図面をより一層十分に理解するために各図面の簡単な説明が提供される。

この開示の実施形態による多重ラベルセットを用いた学習モデルの生成方法を説明するためのフローチャートである。図１のステップＳ１２０に関する第１の実施形態を説明するためのフローチャートである。この開示の実施形態による多重ラベルセットを用いた学習モデルの生成方法を説明するためのフローチャートである。この開示の実施形態による多重ラベルセットを用いた学習モデルの生成方法を説明するためのフローチャートである。この開示の実施形態による学習データの構造及びネットワーク関数を概念的に図式化した図である。図１のステップＳ１２０に関する第２の実施形態を説明するためのフローチャートである。図６のステップＳ１２３に関する実施形態を説明するためのフローチャートである。この開示の実施形態による学習データの構造及びネットワーク関数を概念的に図式化した図である。この開示の実施形態による多重ラベルセットを用いた学習モデルの生成方法において、第１のラベルから第２のラベルを生成する過程を例示的に説明するための図である。この開示の実施形態による多重ラベルセットを用いた学習モデルの生成方法において、第１のラベルから第２のラベルを生成する過程を例示的に説明するための図である。この開示の実施形態による多重ラベルセットを用いた学習モデルの生成方法において、第１のラベルから第２のラベルを生成する過程を例示的に説明するための図である。この開示の実施形態による多重ラベルセットを用いた学習モデルの生成方法において、第１のラベルから第２のラベルを生成する過程を例示的に説明するための図である。この開示の実施形態による多重ラベルセットを用いた学習モデルの生成装置の構成を簡略に示すブロック図である。

この開示の技術的思想は、様々な変更を加えることができ、種々の実施形態を有することができるので、特定の実施形態を図面に例示し、これについて詳しく説明する。しかしながら、これは、この開示の技術的思想を特定の実施形態に対して限定しようとするものではなく、この開示の技術的思想の範囲に含まれるあらゆる変更、均等物ないし代替物を含むものと理解される。

この開示の技術的思想を説明するに当たって、本発明と関連する公知の技術についての具体的な説明がこの開示の要旨をかえって曖昧にする恐れがあると認められる場合にはその詳細な説明を省略する。なお、この開示の説明過程において用いられる数字（例えば、「第１の」、「第２の」など）は、ある構成要素を他の構成要素から区別するための識別符号に過ぎない。

また、この開示において、ある構成要素が他の構成要素と「連結」されているとか、「接続」されているとか、と言及された場合には、前記ある構成要素が前記他の構成要素と直接的に連結されたり接続されたりすることもあるが、本明細書中で特に指摘したり、明らかに文脈と矛盾したりしない限り、これらの間に他の構成要素が存在して該他の構成要素を介して連結されたり接続されたりする可能性もある。

さらに、この開示に記載の「～部」、「～器」、「～子」、「～モジュール」などの言い回しは、少なくとも１つの機能や動作を処理する単位を意味し、これは、プロセッサー（Ｐｒｏｃｅｓｓｅｒ）、マイクロプロセッサー（ＭｉｃｒｏＰｒｏｃｅｓｓｅｒ）、マイクロコントローラー（ＭｉｃｒｏＣｏｎｔｒｏｌｌｅｒ）、中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、グラフィックス処理装置（ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、アクセラレーテッド処理装置（ＡＰＵ：ＡｃｃｅｌｅｒａｔｅｄＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、デジタルシグナルプロセッサ（ＤＳＰ：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒｓ）、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔｓ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ）などといったハードウェアやソフトウェア又はハードウェア及びソフトウェアの組み合わせにより実現されてもよい。

そして、この開示における構成部に対する区別は、各構成部が担当する主機能ごとに区別したものに過ぎないことを明らかにしておきたい。すなわち、以下において説明する２つ以上の構成部が１つの構成部にまとめられるか、あるいは、１つの構成部がさらに細分化した機能ごとに２つ以上に分化されて備えられてもよい。そして、以下において説明する構成部のそれぞれは、自分が担当する主機能の他にも、他の構成部が担当する機能の一部又は全部の機能をさらに行ってもよいし、あるいは、構成部のそれぞれが担当する主機能の一部の機能が他の構成部によって専担されて行われてもよいことはいうまでもない。

この開示の実施形態による方法は、演算能を備えた個人向けコンピューター（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ワークステーション（ｗｏｒｋｓｔａｔｉｏｎ）、サーバー用のコンピューター装置などにおいて行われてもよいし、あるいは、このための別途の装置において行われてもよい。

また、方法は、１台以上の演算装置において行われてもよい。例えば、この開示の実施形態による方法の少なくとも１つ以上のステップはクライアントデバイスにおいて、他のステップはサーバーデバイスにおいて行われてもよい。このような場合、クライアントデバイスとサーバーデバイスは、ネットワークにより結ばれて演算結果を送受信してもよい。あるいは、方法は、分散コンピューティング技術により行われてもよい。

また、この明細書の全般にわたって、ネットワーク関数、演算モデル、神経網、ニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）は、同じ意味として用いられてもよい。ニューラルネットワークは、一般に、ノードと称され得る相互間に接続された計算単位の集合から構成されてもよい。このようなノードは、ニューロンと称されることもある。ニューラルネットワークは、少なくとも１つ以上のノードを備えて構成される。ニューラルネットワークを構成するノード（又は、ニューロン）は、１つ以上のリンクによって互いに接続されてもよい。

神経網内において、リンクを介して接続された１つ以上のノードは、相対的に入力ノード及び出力ノードの関係を形成してもよい。入力ノード及び出力ノードの概念は相対的なものであって、１つのノードに対して出力ノードの関係にある任意のノードは、他のノードとの関係において入力ノードの関係にある可能性があり、その逆も成り立つ。上述した通り、入力ノードに対する出力ノードの関係は、リンクを中心として生成されてもよい。１つの入力ノードに１つ以上の出力ノードがリンクを介して接続されてもよく、その逆も成り立つ。

１つのリンクを介して接続された入力ノード及び出力ノードの関係において、出力ノードのデータは、入力ノードに入力されたデータに基づいてその値が決定されてもよい。ここで、入力ノードと出力ノードとを互いに接続するリンクは、重み付け値（ｗｅｉｇｈｔ）を有していてもよい。重み付け値は可変的なものであってもよく、神経網が所望の機能を行うために、ユーザー又はアルゴリズムによって可変となってもよい。例えば、１つの出力ノードに１つ以上の入力ノードがそれぞれのリンクによって互いに接続された場合、出力ノードは、前記出力ノードと接続された入力ノードに入力された値及びそれぞれの入力ノードに対応するリンクに設定された重み付け値に基づいて出力ノード値を決定してもよい。

神経網を構成するノードの部分集合は、レイヤー（ｌａｙｅｒ）を構成してもよい。神経網を構成するノードの一部は、最初の入力ノードからの距離に基づいて、１つのレイヤー（ｌａｙｅｒ）を構成してもよい。例えば、最初の入力ノードから距離がｎであるノードの集合は、ｎレイヤーを構成してもよい。最初の入力ノードからの距離は、最初の入力ノードから当該ノードまで達するために経なければならないリンクの最小の数により定義されてもよい。しかしながら、このようなレイヤーの定義は、説明のための任意的なものに過ぎず、神経網内においてレイヤーの次数は、上述した方法とは異なる方法により定義されてもよい。例えば、ノードのレイヤーは、最終的な出力ノードからの距離によって定義されてもよい。

ニューラルネットワークは、入力レイヤーと出力レイヤーの他に、複数の隠しレイヤーを含むディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ；ＤＮＮ）を備えていてもよい。ディープニューラルネットワークを用いると、データの潜在的な構造（ｌａｔｅｎｔｓｔｒｕｃｔｕｒｅｓ）を把握することができる。ディープニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、レカレントニューラルネットワーク（ＲＮＮ：ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）、オートエンコーダー（ａｕｔｏｅｎｃｏｄｅｒ）、敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）、制限ボルツマンマシン（ＲＢＭ：ｒｅｓｔｒｉｃｔｅｄｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅ）、深層信頼ネットワーク（ＤＢＮ：ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋ）、Ｑネットワーク、Ｕネットワーク、シャムネットワーク（ＳｉａｍｅｓｅＮｅｔｗｏｒｋ）、敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）などを備えていてもよい。前述のディープニューラルネットワークの記載は、単なる例示に過ぎず、この開示は、これらに何ら制限されるものではない。

ニューラルネットワークは、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、半教師あり学習（ｓｅｍｉｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、又は強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）のうちの少なくとも１つの方式により学習されてもよい。ニューラルネットワークの学習は、ニューラルネットワークが特定の動作を行うための知識をニューラルネットワークに適用する過程であってもよい。

以下、この開示の実施形態について順番に詳しく説明する。

図１は、この開示の実施形態による多重ラベルセットを用いた学習モデルの生成方法を説明するためのフローチャートであり、図２は、図１のステップＳ１２０に関する一実施形態を説明するためのフローチャートである。

ステップＳ１１０において、装置は、複数枚のイメージを含むイメージセットを取得してもよい。ここで、イメージセットを構成する複数枚のイメージは、少なくとも１つのサーバー及び／又は端末から受信されてもよいし、あるいは、有無線通信を介して接続された少なくとも１台の撮影装置によって取得されてもよい。例えば、複数枚のイメージは、製品の生産、製造、加工などの工程ラインにおいて取得された工程イメージであってもよし、あるいは、患者の身体部位を医療用の撮影装備により撮影した医療イメージ又は映像であってもよいが、これに何ら限定されるものではない。

ステップＳ１２０において、装置は、イメージセットに対して複数のラベルセットを生成してもよい。

実施形態において、複数のラベルセットのそれぞれは、互いに異なる種類のラベル（ｌａｂｅｌ）を含んでいてもよい。このとき、ラベル又はこれを含むラベルセットの種類は、ネットワーク関数を介して複数枚のイメージから取得しようとする結果に応じて区別されてもよい。

例えば、イメージセットが複数枚の工程イメージから構成されると仮定すれば、１枚のイメージには、製品の良否を確認可能なオブジェクト分類（ｏｂｊｅｃｔｃｌａｓｓｉｆｉｃａｔｉｏｎ）、不良の位置を正確に確認可能なオブジェクト分割（ｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎ）、製品を構成する各部品の位置を確認可能なオブジェクト検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）、通し番号（ｓｅｒｉａｌｎｕｍｂｅｒ）を確認可能な文字認識（ｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）などをそれぞれ行うのに適したラベルがいずれも含まれていてもよく、このような方式を用いて、１つのイメージセットに対応してそれぞれ異なる種類（又は、目的）の複数のラベルセットが生成されてもよい。

但し、これは単なる例示的なものに過ぎず、これに何ら限定されるものではなく、ラベルセットは、それぞれオブジェクト分類、オブジェクト分割、オブジェクト検出、文字認識に加えて、予測（ｐｒｅｄｉｃｔｉｏｎ）、異常検知（ａｎｏｍａｌｙｄｅｔｅｃｔｉｏｎ）などのように、ネットワーク関数によって行える多種多様な機能に適するように生成されてもよい。

また、実施形態に応じて、装置は、イメージセットに同じ種類の複数のラベルセットを含むように構成されてもよい。例えば、複数のラベルセットは、同じオブジェクトを検出するために異なるユーザーにより行われたラベル情報に基づいてそれぞれ生成されてもよい。この場合、各ラベルセットに基づいて生成された学習モデルに対する性能評価を行うことで、最適なラベルセット及び／又は学習モデルを選択してもよい。

実施形態において、ステップＳ１２０は、複数のユーザーから受信されたラベル情報に基づいて行われてもよい。例えば、ステップＳ１２０は、図２に示されているように、ステップＳ１２１及びステップＳ１２２を含んでいてもよい。

ステップＳ１２１において、装置は、複数のユーザー（すなわち、ユーザー端末）からイメージセットに属する複数枚のイメージのうちの少なくとも１枚に関するラベル情報をそれぞれ受信してもよい。すなわち、装置は、ユーザー端末にイメージセットを提供し、これに応答して、ユーザー端末から複数枚のイメージのうちの少なくとも１枚に関するラベル情報を受信してもよい。このとき、ラベル情報は、オブジェクト分類、オブジェクト分割、オブジェクト検出、文字認識、予測、異常感知などを行うためのものであってもよい。

ステップＳ１２２において、装置は、ユーザーから受信したラベル情報に基づいて、イメージセットを構成する複数枚のイメージのそれぞれにラベリングを行うことにより、ラベル情報のそれぞれに対応する複数のラベルセットを生成してもよい。上述したように、生成された複数のラベルセットは、互いに異なる種類のものであって、それぞれ異なる出力を取得するためのものであってもよい。

実施形態において、複数のラベルセットの少なくとも一部は、他のラベルセットを基づくネットワーク関数の学習結果に基づいて生成されてもよい。

ラベルセットは、第１のラベルセットと第２のラベルセットを含み、第２のラベルセットは、第１のラベルセットを所定のネットワーク関数に入力して生成された学習結果に基づいて生成されてもよい。例えば、第１のラベルセットがオブジェクト分類のためのラベルから構成される場合、ネットワーク関数の学習結果において生じるクラス活性化マップ（ＣＡＭ；ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ）に基づいてオブジェクト分割のための第２のラベルセットを生成してもよい。

また、実施形態において、複数のラベルセットの少なくとも一部は、他のラベルセットを変形して生成されてもよい。例えば、オブジェクト分割のための第１のラベルセットからここに含まれているラベルの幅／高さを変形してオブジェクト検出のための第２のラベルセットを生成してもよい。

ステップＳ１３０において、装置は、イメージセットをネットワーク関数に入力して少なくとも１つの学習モデルを生成してもよい。例えば、複数のラベルセットの少なくとも２つ以上に対応する複数の学習モデルが生成されてもよく、好ましくは、ラベルセットごとにそれぞれこれに対応する学習モデルが生成されてもよい。

このとき、学習モデルは、それぞれオブジェクト検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）、オブジェクト分類（ｏｂｊｅｃｔｃｌａｓｓｉｆｉｃａｔｉｏｎ）、オブジェクト分割（ｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎ）、文字認識（ｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）、予測（ｐｒｅｄｉｃｔｉｏｎ）及び異常検知（ａｎｏｍａｌｙｄｅｔｅｃｔｉｏｎ）のうちの１つを行ってもよいが、これに何ら限定されるものではない。

以下、図３及び図４を参照して上述した通り、ユーザーは、複数の学習モデルのうちから作業に最も適したモデルを選択したり、２以上の学習モデルを組み合わせてより正確な結果を導き出すためのアンサンブルモデルを構築したりしてもよい。

図３は、この開示の実施形態による多重ラベルセットを用いた学習モデルの生成方法を説明するためのフローチャートである。

ここで、方法３００のステップＳ３１０～ステップＳ３３０は、図１を参照して上述したステップＳ１１０～ステップＳ１３０と同様であるため、重複する説明は省略する。

ステップＳ３４０において、装置は、複数のラベルセットに基づいて生成された複数の学習モデルのうちの少なくとも２つ以上について性能を比較してもよい。

実施形態において、装置は、再現率（ｒｅｃａｌｌ）、適合率（ｐｒｅｃｉｓｉｏｎ）、正解率（ａｃｃｕｒａｃｙ）及びこれらの組み合わせのうちの少なくとも１つに基づいて学習モデルの性能を算出してもよい。学習モデルの性能を算出するために、交差検証など多種多様な方式が利用可能である。

このような性能比較を行うことで、行おうとする作業にいかなる種類のラベルセット及び学習モデルが最も有用であるかが確認可能である。すなわち、例えば、オブジェクト分割とオブジェクト検出により同一の不良個所を確認する、複数のラベルセットを作成する場合、不良の種類に応じて各モデルがさらに上手く分析できるものを比較することが可能になる。

図４は、この開示の実施形態による多重ラベルセットを用いた学習モデルの生成方法を説明するためのフローチャートである。

ここで、方法４００のステップＳ４１０～ステップＳ４３０は、図１を参照して上述したステップＳ１１０～ステップＳ１３０と同様であるため、重複する説明は省略する。

ステップＳ４４０において、装置は、生成された複数の学習モデルのうちの少なくとも２つ以上を結合して、アンサンブルモデル（ｅｎｓｅｍｂｌｅｍｏｄｅｌ）を構築してもよい。

すなわち、行おうとする作業の特性などに応じて、学習モデルの２つ以上を所定の方式により結合して各学習モデルによる出力値を組み合わせるようにすることで、より正確な最終結果を導き出してもよい。

例えば、オブジェクト分割を用いてプリント回路基板（ＰＣＢ）の領域を分類する学習モデルと、オブジェクト分割又はオブジェクト検出を用いて途切れた線（すなわち、断線）を見出せる学習モデルがあると仮定すれば、同様に途切れた線を見出すとしても、分類されたＰＣＢ領域に応じて良否を異なるように判断する可能性があるため、両モデルを結合してアンサンブルモデルを構築し、これらの出力値を組み合わせて最終結果を導き出すように実現されてもよい。

また、例えば、オブジェクト分割と関連して、Ａクラスは暗いときに上手く検出され、Ｂクラスは明るいときに上手く検出される場合であれば、Ａ、Ｂクラスを確認するためのオブジェクト分割モデルと暗いイメージと明るいイメージを仕分けるオブジェクト分類モデルとを結合してアンサンブルモデルを構築し、両学習モデルの出力値を組み合わせてより正確な最終結果を導き出すように実現されてもよい。

実施形態において、アンサンブルモデル（ｅｎｓｅｍｂｌｅｍｏｄｅｌ）は、ボーティング（ｖｏｔｉｎｇ）、バギング（ｂａｇｇｉｎｇ）、ブースティング（ｂｏｏｔｉｎｇ）方式などに基づいて生成されてもよいが、これに何ら限定されるものではない。

図５は、この開示の実施形態による学習データの構造及びネットワーク関数を概念的に図式化した図である。

同図に示されているように、１つのイメージセット１３１０は、複数枚の個別のイメージを含み、各個別のイメージに異なる種類のラベルがそれぞれ含まれることにより、イメージセット１３１０に対応する複数のラベルセットが生成される。

次いで、イメージセット１３１０は、ネットワーク関数１３２０に入力されて、ネットワーク関数１３２０に関する学習を行うことになり、これにより、複数のラベルセットの少なくとも一部に対応する複数の学習モデル１３３０が生成されることが可能になる。

このとき、ネットワーク関数１３２０は、ラベルセットの種類に応じてそれぞれ同一又は異なるネットワーク関数が適用されてもよい。

図６は、図１のステップＳ１２０に関する第２の実施形態を説明するためのフローチャートである。

ステップＳ１２０は、図６に示されているように、ステップＳ１２１～ステップＳ１２３を含んでいてもよい。

ステップＳ１２１において、装置は、ユーザー（すなわち、ユーザー端末）からイメージセットに属する複数枚のイメージのうちの少なくとも１枚に関する第１のラベル情報をそれぞれ受信してもよい。すなわち、装置は、ユーザー端末にイメージセットを提供し、これに応答して、ユーザー端末から複数枚のイメージのうちの少なくとも１枚に関する第１のラベル情報を受信してもよい。このとき、第１のラベル情報は、オブジェクト分類、オブジェクト分割、オブジェクト検出、文字認識、予測、異常感知のうちのいずれか１つに対応する第１のラベルを生成するためのものであってもよい。

ステップＳ１２２において、装置は、ユーザーから受信した第１のラベル情報に基づいて、イメージセットを構成する複数枚のイメージのそれぞれにラベリングを行うことにより、複数枚のイメージのそれぞれについての第１のラベルを含む第１のラベルセットを生成してもよい。

ステップＳ１２３において、装置は、イメージセット及び第１のラベルセットを第１のネットワーク関数に入力して学習を行い、出力結果に基づいて複数枚のイメージのそれぞれについての異なる種類の第２のラベルを含む第２のラベルセットを生成してもよい。

実施形態において、第１のラベルと第２のラベルは、ラベリングの難易度が異なる種類のラベルであってもよい。すなわち、例えば、ステップＳ１２３において、装置は、相対的に低い難易度を有する第１のラベルセットを基づいて、高いラベリングの難易度を有する第２のラベルセットを生成してもよい。

実施形態において、第１のラベルは、オブジェクト分類（ｏｂｊｅｃｔｃｌａｓｓｉｆｉｃａｔｉｏｎ）ラベルであり、前記第２のラベルは、オブジェクト認識（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）ラベル及びオブジェクト分割（ｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎ）ラベルのうちの少なくともいずれか１つであってもよい。また、実施形態において、第１のラベルは、オブジェクト認識（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）ラベルであり、第２のラベルは、オブジェクト分割（ｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎ）ラベルであってもよい。

しかしながら、これは単なる例示的なものに過ぎず、本発明はこれに何ら限定されるものではなく、実施形態に応じて、オブジェクト認識ラベル又はオブジェクト分割ラベルに基づいて文字認識（ｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）ラベルを自動的に生成するなど、多種多様な形態で異なる種類のラベルを基づいてイメージセットについてのさらなるラベルを生成するように構成されてもよい。

このとき、第１のネットワーク関数の出力結果は、第１のネットワーク関数が複数枚のイメージのそれぞれに対して少なくともいずれか一部分に基づいて第１のラベルに対応する結果を出力したか否かに関する情報を備えていてもよい。

例えば、前記出力結果は、第１のラベルに対応する結果を出力するのに影響を与えたイメージの少なくとも一部分に関する表示であってもよい。前記出力結果は、イメージの位置ごとの結果と関わる確率情報を含んでいてもよい。前記出力結果は、第１のラベルに対応する結果を出力するのに影響を与えた度合いに応じて異なる表現を含んでいてもよい。例えば、前記出力結果は、第１のラベルに対応する結果を出力するのに影響を与えた度合いに応じて、彩度、明度、色相、テクスチャーなどを異なるように表わしたものであってもよい。例えば、多くの影響を与えた部分は彩度を高く表示し、少ない影響を与えた部分は相対的に彩度を低めに表示してもよい。あるいは、出力結果は、第１のラベルに対応する結果を出力するのに影響を与えた度合いを表示したヒートマップ（ｈｅａｔｍａｐ）を含んでいてもよい。例えば、装置は、勾配加重クラス活性化マッピング（Ｇｒａｄ－ＣＡＭ：Ｇｒａｄｉｅｎｔ－ｗｅｉｇｈｔｅｄＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐｐｉｎｇ）、ディープシーデッド領域拡張法（ＤＳＲＧ：ＤｅｅｐＳｅｅｄｅｄＲｅｇｉｏｎＧｒｏｗｉｎｇ）などを用いて前記出力結果を取得してもよい。

実施形態において、装置は、第１のネットワーク関数の最終的な出力レイヤーではなく、少なくとも１つ以上のレイヤー又はフィルターにおける演算結果に基づいて前記出力結果を生成してもよい。

実施形態において、第１のラベルがオブジェクト分類ラベルである場合、第１のネットワーク関数は、オブジェクトに対する分類を行うための１つ以上のネットワーク関数を含んでいてもよい。例えば、第１のネットワーク関数は、イメージセットを構成する複数枚のイメージに含まれているオブジェクトを分類するために、イメージに含まれているオブジェクトに関する分類結果を第１のラベルとして含む学習データを用いて学習されてもよい。このとき、第１のネットワーク関数の出力結果は、分類結果を出力するのに影響を与えたイメージの領域及び／又は位置を所定の表現方式により表わしたものであってもよい。

実施形態において、第１のネットワークの出力結果は、結果を出力するのに影響を与えたイメージの少なくとも一部に関する情報を含むクラス活性化マップ（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ）であってもよい。クラス活性化マップに関しては、論文Ｇｒａｄ－ＣＡＭ：ＶｉｓｕａｌＥｘｐｌａｎａｔｉｏｎｓｆｒｏｍＤｅｅｐＮｅｔｗｏｒｋｓｖｉａＧｒａｄｉｅｎｔ－ｂａｓｅｄＬｏｃａｌｉｚａｔｉｏｎ（公開日：２０１７年１０月７日、作成者：ＲａｍｐｒａｓａａｔｈＲ．Ｓｅｌｖａｒａｊｕ，ＭｉｃｈａｅｌＣｏｇｓｗｅｌｌ，ＡｂｈｉｓｈｅｋＤａｓ，ＲａｍａｋｒｉｓｈｎａＶｅｄａｎｔａｍ，ＤｅｖｉＰａｒｉｋｈ，ＤｈｒｕｖＢａｔｒａ）において具体的に議論されている。

この場合、ステップＳ１２３は、図７に示されているように、ステップＳ１２３－１及びステップＳ１２３－２を含んでいてもよい。

ステップＳ１２３－１において、装置は、イメージセット及び第１のラベルセットを第１のネットワーク関数に入力して学習を行い、複数枚のイメージのそれぞれについてのクラス活性化マップを出力してもよい。

例えば、第１のラベルセットは、イメージセットを構成する複数枚のイメージについてのオブジェクト分類ラベルから構成されてもよい。

次いで、ステップＳ１２３－２において、装置は、クラス活性化マップのそれぞれに対してしきい値を所定の値又は範囲に設定して弱いラベル（ｗｅａｋｌａｂｅｌ）領域を抽出することにより、第２のラベルを自動的に生成してもよい。ここで、弱いラベルは、ユーザーがマニュアルにて生成したラベルほど正確ではないものの、自動的に生成されて特定のしきい値以上の正確性を有するラベルを意味することがある。

例えば、クラス活性化マップに対して、確率、色調、彩度、明度などを一定の範囲に設定してこれに対応する所定の領域を抽出することにより、第２のラベルを自動的に生成してもよい。

このとき、第２のラベルは、オブジェクト認識ラベル及びオブジェクト分割ラベルのうちの少なくともどちらか一方であってもよい。

一方、図示はしないが、装置は、図１のステップＳ１３０において、イメージセット及び生成された第２のラベルセットを第２のネットワーク関数に入力して学習を行うことにより、学習モデルを生成してもよい。例えば、第２のラベルは、オブジェクト分割ラベルであってもよく、第２のネットワーク関数は、オブジェクトに対する分割を行うための１つ以上のネットワーク関数を含んでいてもよい。第２のネットワーク関数は、入力イメージに含まれているオブジェクトに対する分割を行うためにイメージの次元を縮小するネットワーク関数（エンコーダー（ｅｎｃｏｄｅｒ））及びイメージの次元を拡張するネットワーク関数（デコーダー（ｄｅｃｏｄｅｒ））を含んでいてもよい。

図８は、この開示の実施形態による学習データの構造及びネットワーク関数を概念的に図式化した図である。

同図に示されているように、１つのイメージセット８１０は、複数枚の個別のイメージを含み、各個別のイメージに第１のラベルがそれぞれ含まれることにより、イメージセット１３１０に対応する第１のラベルセットが提供されてもよい。例えば、第１のラベルは、オブジェクト分類ラベルであってもよい。

次いで、イメージセット８１０は、第１のラベルセットとともに第１のネットワーク関数８２０に入力されて学習が行われることにより、第１の学習モデルが生成されてもよい。例えば、第１の学習モデルは、オブジェクト分類モデルであってもよい。

このとき、第１のネットワーク関数８２０の出力として、結果を出力するのに影響を与えたイメージの少なくとも一部に関する情報を含むクラス活性化マップ（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ）などが取得されてもよい。

このような第１のネットワーク関数の出力結果に基づいて、各個別のイメージについての弱いラベルである第２のラベルが生成され、これにより、イメージセット８１０には、第１のラベルセットとは異なる種類の第２のラベルセットが含まれることが可能になる。例えば、第２のラベルは、オブジェクト分割ラベルであってもよい。

次いで、イメージセット８１０は、第２のラベルセットとともに第２のネットワーク関数８４０に入力されて学習が行われることにより、第２の学習モデルが生成されてもよい。例えば、第２の学習モデルは、オブジェクト分割モデルであってもよい。

図９から図１１は、この開示の実施形態による多重ラベルセットを用いた学習モデルの生成方法において、第１のラベルから第２のラベルを生成する過程を例示的に説明するための図である。

まず、図９及び図１０を参照すると、ラベリングの難易度が低いオブジェクト分類ラベルセットに基づいて、相対的にラベリングの難易度が高いオブジェクト認識ラベル又はオブジェクト分割ラベルセットを生成してもよい。

まず、図９に示されているように、病変の有無についてのオブジェクト分類ラベルが含まれているイメージ（図９の（ａ））をネットワーク関数に入力して出力結果として、病変であると分類するのに影響を与えたイメージの少なくとも一つの領域又は位置に関する確率を所定の方式（ヒートマップなど）により表わしたクラス活性化マップなどの結果（図９の（ｂ））を取得してもよい。

次いで、図１０に示されているように、しきい値を所定の値又は範囲に設定して弱いラベル（ｗｅａｋｌａｂｅｌ）領域を抽出してもよく、これを基づいて、オブジェクト認識ラベル又はオブジェクト分割ラベルを生成してもよい。このとき、オブジェクト認識ラベル又はオブジェクト分割ラベルは、弱いラベルであってもよい。

次いで、図１１を参照すると、生成されたオブジェクト認識ラベル又はオブジェクト分割ラベルをイメージとともに、それぞれ適したネットワーク関数に入力し、学習を行ってオブジェクト認識（図１１の（ａ））又はオブジェクト分割結果（図１１の（ｂ））を出力してもよい。

図１２は、この開示の実施形態による多重ラベルセットを用いた学習モデルの生成方法において、第１のラベルから第２のラベルを生成する過程を例示的に説明するための図である。

図１２を参照すると、ラベリングの難易度が低いオブジェクト認識ラベルセットに基づいて、相対的にラベリングの難易度が高いオブジェクト分割ラベルセットを生成してもよい。

例えば、製品の瑕疵又は異常を感知するためのオブジェクト認識ラベルが含まれているイメージ（図１２の（ａ））を用いてネットワーク関数の学習を行い、この結果として、オブジェクト認識結果が含まれている結果イメージ（図１２の（ｂ））を取得してもよい。

次いで、結果イメージから明度、彩度、色相などの範囲を設定して、弱いラベル（ｗｅａｋｌａｂｅｌ）領域を抽出してもよく、これを基づいて、オブジェクト分割ラベルを生成してもよい

図１３は、この開示の実施形態による多重ラベルセットを用いた学習モデルの生成装置の構成を簡略に示すブロック図である。

通信部１３１０は、外部からデータ（イメージセット、ラベル情報など）を受信してもよい。通信部１３１０は、有無線通信部を備えていてもよい。通信部１３１０が有線通信部を備える場合、通信部１３１０は、近距離通信網（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ；ＬＡＮ）、広域通信網（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ；ＷＡＮ）、付加価値通信網（ＶａｌｕｅＡｄｄｅｄＮｅｔｗｏｒｋ；ＶＡＮ）、移動通信網（ｍｏｂｉｌｅｒａｄｉｏｃｏｍｍｕｎｉｃａｔｉｏｎｎｅｔｗｏｒｋ）、衛星通信網及びこれらの相互間の組み合わせを介して通信を行わせる１つ以上の構成要素を備えていてもよい。また、通信部１３１０が無線通信部を備える場合、通信部１３１０は、セルラー通信、無線ＬＡＮ（例えば、Ｗｉ－Ｆｉ）などを用いて無線にてデータ又は信号を送受信してもよい。実施形態において、通信部は、プロセッサー５４０の制御により外部装置又は外部サーバーとデータ又は信号を送受信してもよい。

入力部１３２０は、外部の操作を通じて多種多様なユーザーコマンドを受信してもよい。このために、入力部１３２０は、１台以上の入力装置を備えたりそこに接続したりしてもよい。例えば、入力部１３２０は、キーパッド、マウスなど多種多様な入力のためのインターフェースと接続されてユーザーコマンドを受信してもよい。このために、入力部１３２０は、ＵＳＢポートのみならず、サンダーボルトなどのインターフェースを備えていてもよい。また、入力部１３２０は、タッチスクリーン、ボタンなどの多種多様な入力装置を備えたり、これらと結合して外部のユーザーコマンドを受信したりしてもよい。

メモリ１３３０は、プロセッサー１３４０の動作のためのプログラム及び／又はプログラムコマンドを記憶してもよく、入／出力されるデータを一時的に又は永久的に記憶してもよい。メモリ１３３０は、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）タイプ、ハードディスク（ｈａｒｄｄｉｓｋ）タイプ、マルチメディアカードマイクロ（ｍｕｌｔｉｍｅｄｉａｃａｒｄｍｉｃｒｏ）タイプ、カードタイプのメモリ（例えば、ＳＤ又はＸＤメモリなど）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、スタティックランダムアクセスメモリ（ＳＲＡＭ：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、読み出し専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ：ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ：ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、磁気メモリ、磁気ディスク、光ディスクのうちの少なくともいずれか１種のタイプの記憶媒体を備えていてもよい。

また、メモリ１３３０は、様々なネットワーク関数及びアルゴリズムを記憶してもよく、装置７００を駆動し、かつ制御するための多種多様なデータ、プログラム（１つ以上のインストラクション）、アプリケーション、ソフトウェア、指令、コードなどを記憶してもよい。

プロセッサー１３４０は、装置１３００の全般的な動作を制御してもよい。プロセッサー５４０は、メモリ１３３０に記憶される１つ以上のプログラムを起動してもよい。プロセッサー１３４０は、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；ＣＰＵ）、グラフィックス処理装置（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；ＧＰＵ）、テンサー処理装置（ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；ＴＰＵ）又はこの開示の技術的思想による方法が行われる専用のプロセッサーを意味することがある。

この開示の実施形態に従って、プロセッサー１３４０は、神経網の学習のための演算を行ってもよい。プロセッサー１３４０は、ディープラーニング（ＤＮ：ｄｅｅｐｌｅａｒｎｉｎｇ）において学習のための入力データの処理、入力データにおけるフィーチャーの抽出、誤差の計算、逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を用いた神経網の重み付け値のアップデートなどの神経網の学習のための計算を行ってもよい。プロセッサー１３４０のＣＰＵ、ＧＰＵ、ＴＰＵ、専用プロセッサーのうちの少なくとも１つがネットワーク関数の学習を処理してもよい。

実施形態において、プロセッサー１３４０は、複数枚のイメージを含むイメージセットを取得し、前記イメージセットに対して異なる種類の複数のラベルセットを生成し、前記イメージセットをネットワーク関数に入力して、前記複数のラベルセットのうちの少なくとも２つ以上に対応する少なくとも１つの学習モデルを生成してもよい。

この実施形態において、プロセッサー１３４０は、複数のユーザーから前記イメージセットに属する複数枚のイメージのうちの少なくとも１枚に関するラベル情報をそれぞれ受信し、前記ラベル情報に基づいて前記イメージセットに含まれている複数枚のイメージに対してラベリングを行うことにより、前記ラベル情報のそれぞれに対応する前記複数のラベルセットを生成してもよい。

実施形態において、前記複数のラベルセットは、第１のラベルセットと第２のラベルセットを含み、プロセッサー１３４０は、前記第１のラベルセットを前記ネットワーク関数に入力して生成された出力結果に基づいて前記第２のラベルセットを生成してもよい。

実施形態において、プロセッサー１３４０は、再現率（ｒｅｃａｌｌ）、適合率（ｐｒｅｃｉｓｉｏｎ）、正解率（ａｃｃｕｒａｃｙ）及びこれらの組み合わせのうちの少なくとも１つに基づいて、前記複数の学習モデルのうちの少なくとも２つ以上について性能を比較してもよい。

実施形態において、プロセッサー１３４０は、前記学習モデルのうちの少なくとも２つ以上を結合して、アンサンブルモデル（ｅｎｓｅｍｂｌｅｍｏｄｅｌ）を構築してもよい。

実施形態において、プロセッサー１３４０は、複数枚のイメージを含むイメージセットを取得し、前記イメージセットに対して異なる種類の複数のラベルセットを生成してもよい。このとき、複数のラベルセットは、ラベリングの難易度が異なる種類の第１のラベルセットと第２のラベルセットを備え、プロセッサー１３４０は、ラベリングの難易度が低い前記第１のラベルセットを基づいて前記第２のラベルセットを生成してもよい。

実施形態において、プロセッサー１３４０は、少なくとも一人のユーザーから前記イメージセットに属する複数枚のイメージのうちの少なくとも１枚に関する第１のラベル情報を受信し、前記第１のラベル情報に基づいて、前記イメージセットに含まれている複数枚のイメージに対してラベリング（ｌａｂｅｌｉｎｇ）を行うことにより、前記複数枚のイメージのそれぞれについての第１のラベルを含む第１のラベルセットを生成し、前記イメージセット及び前記第１のラベルセットを第１のネットワーク関数に入力して学習を行い、出力結果に基づいて、前記複数枚のイメージのそれぞれについての第２のラベルを含む第２のラベルセットを生成してもよい。

実施形態において、プロセッサー１３４０は、前記複数枚のイメージのそれぞれに対応するクラス活性化マップのそれぞれに対してしきい（ｔｈｒｅｓｈｏｌｄ）値を所定の値又は範囲に設定して弱いラベリング（ｗｅａｋｌａｂｅｌｉｎｇ）領域を抽出することにより、前記第２のラベルを生成してもよい。

実施形態において、プロセッサー１３４０は、前記イメージセット及び前記第２のラベルセットを第２のネットワーク関数に入力して学習を行うことにより、学習モデルを生成してもよい。

この開示の実施形態による方法は、多種多様なコンピューター手段を介して行われ得るプログラムコマンドのタイプに実現されてコンピューターにて読み取り可能な媒体に記録されてもよい。前記コンピューターにて読み取り可能な媒体は、プログラムコマンド、データファイル、データ構造などを単独にて又は組み合わせて含んでいてもよい。前記媒体に記録されるプログラムコマンドは、この開示のために特別に設計され、かつ構成されたものであってもよいし、あるいは、コンピューターソフトウェアの当業者にとって公知となって使用可能なものであってもよい。コンピューターにて読み取り可能な記録媒体の例としては、ハードディスク、フロッピーディスク及び磁気テープなどの磁気媒体（ｍａｇｎｅｔｉｃｍｅｄｉａ）、コンパクトディスク（ＣＤ）による読み出し専用メモリ（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、デジタル多用途ディスク（ＤＶＤ：ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）などの光記録媒体（ｏｐｔｉｃａｌｍｅｄｉａ）、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）などの磁気－光媒体（ｍａｇｎｅｔｏ－ｏｐｔｉｃａｌｍｅｄｉａ）、及び読み出し専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリなどのプログラムコマンドを記憶し、かつ、実行するように特別に構成されたハードウェア装置が含まれる。プログラムコマンドの例には、コンパイラーにより作成されるような機械語コードのみならず、インタープリーターなどを用いてコンピューターにより起動可能な高級言語コードが含まれる。

また、開示された実施形態による方法は、コンピュータープログラム製品（ｃｏｍｐｕｔｅｒｐｒｏｇｒａｍｐｒｏｄｕｃｔ）に含まれて提供されてもよい。コンピュータープログラム製品は、商品として販売者及び購買者の間において取引されてもよい。

コンピュータープログラム製品は、Ｓ／Ｗプログラム、Ｓ／Ｗプログラムが記憶されたコンピューターにて読み取り可能な記憶媒体を備えていてもよい。例えば、コンピュータープログラム製品は、電子装置の製造社又は電子マーケット（例えば、グッグルプレイストア、アプリケーションストア）を介して電子的に配信されるＳ／Ｗプログラム形態の商品（例えば、ダウンローダブルアプリケーション）を備えていてもよい。電子的な配信のために、Ｓ／Ｗプログラムの少なくとも一部は、記憶媒体に記憶されてもよいし、あるいは、一時的に生成されてもよい。この場合、記憶媒体は、製造社のサーバー、電子マーケットのサーバー、又はＳＷプログラムを一時的に記憶する中継サーバーの記憶媒体となり得る。

コンピュータープログラム製品は、サーバー及びクライアント装置から構成されるシステムにおいて、サーバーの記憶媒体又はクライアント装置の記憶媒体を備えていてもよい。あるいは、サーバー又はクライアント装置と通信により接続される第３の装置（例えば、スマートフォン）が存在する場合、コンピュータープログラム製品は、第３の装置の記憶媒体を備えていてもよい。あるいは、コンピュータープログラム製品は、サーバーからクライアント装置又は第３の装置に伝送されたり、第３の装置からクライアント装置に伝送されたりするＳ／Ｗプログラムそれ自体を含んでいてもよい。

この場合、サーバー、クライアント装置及び第３の装置のうちの１つがコンピュータープログラム製品を起動して開示された実施形態による方法を行ってもよい。あるいは、サーバー、クライアント装置及び第３の装置のうちの２以上がコンピュータープログラム製品を起動して開示された実施形態による方法を分散させて実施してもよい。

例えば、サーバー（例えば、クラウドサーバー又は人工知能サーバーなど）がサーバーに記憶されたコンピュータープログラム製品を起動して、サーバーと通信により接続されたクライアント装置が開示された実施形態による方法を行うように制御してもよい。

以上、実施形態について詳しく説明したが、この開示の権利範囲はこれに何ら限定されるものではなく、添付の特許請求の範囲において定義しているこの開示の基本概念を用いた当業者の色々な変形及び改良形態もまたこの開示の権利範囲に属する。

Claims

多重ラベルセットを用いた学習モデルの生成方法において、
複数枚のイメージを含むイメージセットを取得するステップと、
前記イメージセットに対して異なる種類の複数のラベルセットを生成するステップと、
前記複数のラベルセットのうちの少なくとも２つ以上のラベルセットに関するラベル情報を含む前記イメージセットをネットワーク関数に入力して、前記ネットワーク関数を学習させることにより、前記複数のラベルセットのうちの少なくとも２つ以上のラベルセットに対応する複数の学習モデルを生成するステップとを含み、
前記複数のラベルセットは、異なる種類の第１のラベルセットと第２のラベルセットを備え、
前記複数のラベルセットを生成するステップは、
前記第１のラベルセットに基づいて、前記第２のラベルセットを生成するステップを含み、
前記第１のラベルセットは、オブジェクト分類ラベルセットであり、前記第２のラベルセットは、オブジェクト認識ラベルセット及びオブジェクト分割ラベルセットのうちの少なくともどちらか一方である
ことを特徴とする方法。
前記複数のラベルセットを生成するステップは、
複数のユーザーから前記イメージセットに属する複数枚のイメージのうちの少なくとも１枚に関する前記ラベル情報をそれぞれ受信するステップと、
前記ラベル情報に基づいて、前記イメージセットに含まれている複数枚のイメージに対してラベリングを行うことにより、前記ラベル情報のそれぞれに対応する前記複数のラベルセットを生成するステップと、を含む
請求項１に記載の方法。
前記複数の学習モデルのうちの少なくとも２つ以上に対して性能を比較するステップをさらに含み、
前記性能は、再現率（ｒｅｃａｌｌ）、適合率（ｐｒｅｃｉｓｉｏｎ）、正解率（ａｃｃｕｒａｃｙ）及びこれらの組み合わせのうちの少なくとも１つに基づいて算出される
請求項１に記載の方法。
前記複数の学習モデルは、それぞれオブジェクト検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）、オブジェクト分類（ｏｂｊｅｃｔｃｌａｓｓｉｆｉｃａｔｉｏｎ）、オブジェクト分割（ｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎ）、文字認識（ｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）、予測（ｐｒｅｄｉｃｔｉｏｎ）及び異常検知（ａｎｏｍａｌｙｄｅｔｅｃｔｉｏｎ）のうちのいずれか１つを行う
請求項１に記載の方法。
前記学習モデルのうちの少なくとも２つ以上を結合して、アンサンブルモデル（ｅｎｓｅｍｂｌｅｍｏｄｅｌ）を構築するステップをさらに含む
請求項１に記載の方法。
前記複数のラベルセットを生成するステップは、
少なくとも一人のユーザーから前記イメージセットに属する複数枚のイメージのうちの少なくとも１枚に関する第１のラベル情報を受信するステップと、
前記第１のラベル情報に基づいて、前記イメージセットに含まれている複数枚のイメージに対してラベリング（ｌａｂｅｌｉｎｇ）を行うことにより、前記複数枚のイメージのそれぞれについての第１のラベルを含む第１のラベルセットを生成するステップと、
前記イメージセット及び前記第１のラベルセットを第１のネットワーク関数に入力して学習を行い、出力結果に基づいて、前記複数枚のイメージのそれぞれについての第２のラベルを含む第２のラベルセットを生成するステップと、を含む
請求項１に記載の方法。
前記第１のネットワーク関数の出力結果は、
前記第１のネットワーク関数が、前記複数枚のイメージのそれぞれについて、少なくともいずれか１つの部分に基づいて前記第１のラベルに対応する結果を出力したか否かに関する情報を含む
請求項６に記載の方法。
前記第１のネットワーク関数の出力結果は、
前記複数枚のイメージのそれぞれについて、少なくともいずれか１つの部分に基づいて前記第１のラベルに対応する結果を出力したか否かに関する情報をヒートマップ（ｈｅａｔｍａｐ）の形態で含む
請求項７に記載の方法。
前記第１のネットワーク関数の出力結果は、
前記第１のラベルに対応する結果についての前記複数枚のイメージのそれぞれのクラス活性化マップ（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ；ＣＡＭ）を含む
請求項８に記載の方法。
前記第２のラベルセットを生成するステップにおいて、
前記第２のラベルは、前記複数枚のイメージのそれぞれに対応する前記クラス活性化マップのそれぞれに対して、しきい（ｔｈｒｅｓｈｏｌｄ）値を所定の値又は範囲に設定して弱いラベリング（ｗｅａｋｌａｂｅｌｉｎｇ）領域を抽出することにより生成される
請求項９に記載の方法。
前記イメージセット及び前記第２のラベルセットを第２のネットワーク関数に入力して学習を行うことにより、学習モデルを生成するステップをさらに含む
請求項７に記載の方法。
多重ラベルセットを用いた学習モデルの生成装置において、
少なくとも１つのプロセッサーと、
前記プロセッサーにより起動可能なプログラムを記憶するメモリと、
を備え、
前記プロセッサーは、前記プログラムを起動することにより、複数枚のイメージを含むイメージセットを取得し、前記イメージセットに対して異なる種類の複数のラベルセットを生成し、
前記複数のラベルセットのうちの少なくとも２つ以上のラベルセットに関するラベル情報を含む前記イメージセットをネットワーク関数に入力して、前記ネットワーク関数を学習させることにより、前記複数のラベルセットのうちの少なくとも２つ以上のラベルセットに対応する複数の学習モデルを生成し、
前記複数のラベルセットは、異なる種類の第１のラベルセットと第２のラベルセットを備え、
前記プロセッサーは、
前記第１のラベルセットに基づいて、前記第２のラベルセットを生成し、
前記第１のラベルセットは、オブジェクト分類ラベルセットであり、前記第２のラベルセットは、オブジェクト認識ラベルセット及びオブジェクト分割ラベルセットのうちの少なくともどちらか一方である
ことを特徴とする装置。