JP2024521197A

JP2024521197A - モデル訓練装置、モデル訓練方法及びプログラム

Info

Publication number: JP2024521197A
Application number: JP2023573471A
Authority: JP
Inventors: ダーシットバギャニー
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2024-05-28
Also published as: WO2022254597A1

Abstract

本開示の目的は、ＡｒｔｉｆｉｃｉａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＡＣＮＮ）モデルのための最適な特徴ピラミッドネットワーク（ＦＰＮ）カウントパラメータ値を決定するための時間効率の良い方法を提供することができるモデル訓練装置、モデル訓練方法及び非一時的なコンピュータ可読媒体を提供することである。一側面において、モデル訓練装置（１００）は、訓練データセットを用いてＡＣＮＮモデルに含まれるＦＰＮブロックの数値を推定するように構成される推定部（１０１）と、推定値を用いてＡＣＮＮモデルを訓練するように構成されるＡＣＮＮモデル訓練部（１０２）を備える。
【選択図】図４

Description

本開示は、モデル訓練装置、モデル訓練方法及び非一時的なコンピュータ可読媒体に関する。

過去１０年間に、ＡｒｔｉｆｉｃｉａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＡＣＮＮ）の方法が普及し、分類、オブジェクト検出、セマンティックセグメンテーションなどのいくつかの視覚処理アプリケーションのための最先端の解決策となっている。

関連技術の一例として、特許文献１（ＰＴＬ１）には、特徴アップサンプリングネットワーク（ＦｅａｔｕｒｅＵｐ－ｓａｍｐｌｉｎｇＮｅｔｗｏｒｋ）を用いて畳み込みニューラルネットワーク（ＣＮＮ）の性能を向上させる学習方法が開示されている。

欧州特許出願公開第３４６７７２０号明細書

ＡＣＮＮの分野で、特徴ピラミッドネットワーク（ＦＰＮ）技術が最近開発された。高い精度を達成するために、ＡＣＮＮモデルにおけるより多くのＦＰＮブロックが必要である。しかしながら、ＡＣＮＮモデルに含まれるＦＰＮブロックが多いほど、実行時間が長くなる。このため、精度と実行時間の間にトレードオフの関係の問題がある。

本開示の目的は、ＡＣＮＮモデルのための最適なＦＰＮカウントパラメータ値を決定するための時間効率の良い方法を提供することができるモデル訓練装置、モデル訓練方法及び非一時的なコンピュータ可読媒体を提供することである。

本開示の第１の側面によれば、訓練データセットを用いてＡｒｔｉｆｉｃｉａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＡＣＮＮ）モデルに含まれる特徴ピラミッドネットワーク（ＦＰＮ）ブロックの数値を推定する推定手段と、推定値を用いて前記ＡＣＮＮモデルを訓練するＡＣＮＮモデル訓練手段を備えるモデル訓練装置がある。

本開示の第２の側面によれば、訓練データセットを用いてＡＣＮＮモデルに含まれるＦＰＮブロックの数値を推定し、推定値を用いて前記ＡＣＮＮモデルを訓練するモデル訓練方法がある。

本開示の第３の側面によれば、訓練データセットを用いてＡＣＮＮモデルに含まれるＦＰＮブロックの数値を推定し、推定値を用いて前記ＡＣＮＮモデルを訓練することをコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体がある。

本開示によれば、ＡＣＮＮモデルのための最適なＦＰＮカウントパラメータ値を決定するための時間効率の良い方法を提供することができるモデル訓練装置、モデル訓練方法及び非一時的なコンピュータ可読媒体を提供することができる。

図１は、関連技術にかかるＡＣＮＮモデルのブロック図の一例である。図２は、関連技術にかかるＭＬＦＰＮブロックの一例である。図３は、関連技術にかかるＦＰＮブロックの一例である。図４は、実施の形態１に係るモデル訓練装置のブロック図の一例である。図５は、実施の形態１に係るモデル訓練装置の方法の一例を示すフローチャートである。図６は、実施の形態２に係るＡＣＮＮモデル訓練システムのブロック図の一例である。図７は、実施の形態２に係るカウント推定部のブロック図の一例である。図８は、訓練データセットＴＤに基づく推定結果を示す表の一例である。図９は、訓練データセットＴＤに基づく推定結果を示す表の他の例である。図１０は、実施の形態２に係るＡＣＮＮモデル訓練システムの全処理の一例を示すフローチャートである。図１１は、実施の形態２に係るカウント推定部の処理の一例を示すフローチャートである。図１２は、実施の形態２に係る特徴点抽出部の処理の一例を示すフローチャートである。図１３は、画像の特徴点の一例である。図１４は、特定画像におけるスケール不変特徴変換（ＳＩＦＴ）特徴点抽出の一例である。図１５は、実施形態に係るコンピュータ装置のブロック図の一例である。

（関連技術の概要）
本開示にかかる実施形態を説明する前に、関連技術の概要を説明する。以下の関連技術は、“Feature Pyramid Networks for Object Detection”, Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 2117-2125に開示されており、本文書の一部を構成するものとして参照によりここに組み込まれる。

図１に、ＡＣＮＮモデル１０（以下、ＡＣＮＮ１０という）を示す。ＡＣＮＮ１０は、図１に示すように、いくつかの重要なブロック、具体的には、バックボーンブロック１１、フュージョンブロック１２、マルチレベル特徴ピラミッドネットワーク（ＭＬＦＰＮ）ブロック１３、およびヘッドブロック１４を備える。ＡＣＮＮ１０は、画像ＩＭを入力として受け取り、それを処理し、画像ＩＭに基づいて予測（Ｐｒｅｄｉｃｔｉｏｎ）ＰＲを出力する。ＡＣＮＮ１０の各ブロックのアーキテクチャは、与えられたデータセットに対して高い精度を達成することを目的として設計されている。また、リアルタイムアプリケーションのために、ＡＣＮＮ１０のアーキテクチャは、所望の実行速度を達成することを追加的な目的として設計されている。

バックボーンブロック１１は、バックボーン畳み込みアーキテクチャとして機能し、フュージョンブロック１２は、バックボーンブロック１１からのデータ入力を統合する。ヘッドブロック１４は、ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ（ＲｅｓＮｅｔ）の畳み込みレイヤである。

ＭＬＦＰＮブロック１３は、ＡＣＮＮ１０の主要構成要素の１つである。図２に示すように、ＭＬＦＰＮブロック１３は、複数レベルの特徴ピラミッドネットワーク（ＦＰＮ）ブロック１５を積み重ねることで形成されており、「マルチレベル特徴ピラミッドネットワークブロック」として知られる。

ＦＰＮブロック１５は、入力画像中の様々なスケールのオブジェクトを検出するために設計された特徴抽出ブロックである。ＦＰＮブロック１５のサンプル例を図３に示す。図３は、レイヤＬ１、Ｌ２、Ｌ３、．．．、Ｌ４、Ｌ５、．．．、Ｌ６及びＬ７を含むＦＰＮブロック１５のアーキテクチャを示す。ボトムアップステップのレイヤＬ１～Ｌ４の各々は、異なるスケールの特徴マップを生成し、トップダウンステップのレイヤＬ５～Ｌ７の各々は、ボトムアップステップの対応するレイヤから特徴マップに基づく予測を出力する。例えば、レイヤＬ５はレイヤＬ４からの特徴マップを使用して予測Ｐ１を出力し、レイヤＬ６はレイヤＬ３からの特徴マップを使用して予測Ｐ２を出力し、レイヤＬ７はレイヤＬ２からの特徴マップを使用して予測Ｐ３を出力する。慣例では、１つのＦＰＮブロック１５のアーキテクチャは専門家によって最適化され、次いで、そのような最適化されたＦＰＮブロック１５Ａ、１５Ｂ、．．．１５Ｃが積み重ねられてＭＬＦＰＮブロック１３を形成する。

ＭＬＦＰＮブロック１３内に複数レベルのＦＰＮブロック１５を有することは、ＡＣＮＮ１０によって高精度を達成するために必要である。しかしながら、ＭＬＦＰＮブロック１３内のＦＰＮブロック１５のレベルを増加させることは、ＡＣＮＮ１０の大きな計算の複雑さをもたらし、それによってＡＣＮＮ１０の実行時間を増加させる。長い実行時間は、リアルタイムアプリケーションでは許容できない。また、より少ない計算の複雑さとより少ない実行時間を享受するために、ＭＬＦＰＮブロック１３内のＦＰＮブロック１５のレベルを１つまたは少数とすることは、低精度をもたらす可能性がある。したがって、ＭＬＦＰＮブロック１３内のＦＰＮブロック１５の数は、ＡＣＮＮ１０の重要なパラメータであり、本文書ではＦＰＮカウント値と呼ばれる。与えられたリアルタイムアプリケーションおよびデータセットの精度と計算の複雑さまたは実行時間との間のトレードオフを考慮して、ＦＰＮカウント値の最適値を決定することは、最適化問題である。

最適化問題の単純な解決策は、ＦＰＮカウントのすべての候補値を網羅的に列挙することである。しかしながら、すべての候補値を列挙するために必要な合計時間は、候補値の数と、与えられたデータセットの各ＡＣＮＮモデルを訓練するための時間の積である。したがって、ＦＰＮカウントパラメータは候補オプションとして複数の正の整数を有し得るため、網羅的に列挙するために必要な合計時間は非常に大きくなる可能性がある。

この問題に対する他の解決策は、強化学習（Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）、遺伝的アルゴリズム（Ｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ）などの機械学習アルゴリズムを使用して最適化問題を解決することである。これらの機械学習アルゴリズムは、基本的に少数の候補値を探索し、最適なＦＰＮカウント値を予測する。しかしながら、少数の候補値を探索するために必要な時間ですら長くなる。

この関連技術に鑑みて、本開示の目的の１つは、ＡＣＮＮにおけるＭＬＦＰＮブロックの最適なＦＰＮカウントパラメータ値を決定するための時間効率の良い方法を提供することである。

（実施の形態１）
まず、図４を参照して、本開示の実施の形態１に係るモデル訓練装置１００について説明する。

図４を参照すると、モデル訓練装置１００は、推定部１０１と、ＡＣＮＮモデル訓練部１０２とを備える。モデル訓練装置１００は、例えば、１又は複数のコンピュータ又は機械を含む。一例として、モデル訓練装置１００の少なくとも１つの構成要素は、１又は複数のメモリ及び１又は複数のプロセッサの組み合わせとしてコンピュータに搭載することができる。

推定部１０１は、訓練データセット（図４に不図示）を用いて、ＡＣＮＮモデルに含まれるＦＰＮブロックの数値を推定する。ＡＣＮＮモデル訓練部１０２は、推定部１０１が出力した値を用いて、ＡＣＮＮモデルを訓練する。ＦＰＮブロックは、ＭＬＦＰＮ構造、シングルショットマルチボックス検出器（ＳＳＤ）形式の特徴ピラミッド構造、またはＦＰＮ形式の特徴ピラミッド構造（ただし、これらに限定されない）内に積み重ねられることができる。例えば、ＭＬＦＰＮブロックを構成するＡＣＮＮモデルの構造は図１及び２に示され、この構造は「関連技術の概要」で説明されている。したがって、ここではその詳細の説明は省略する。

次に、図５のフローチャートを参照して、本実施形態の動作例について説明する。

まず、推定部１０１は、訓練データセットを用いて、ＡＣＮＮモデルに含まれるＦＰＮブロックの数値を推定する（図５のステップＳ１１）。次に、ＡＣＮＮモデル訓練部１０２は、推定値を用いて、ＡＣＮＮモデルを訓練する（図５のステップＳ１２）。

推定部１０１は、ＡＣＮＮモデルに必要なＦＰＮブロック数を示す値を推定するので、ＡＣＮＮモデル訓練部１０２は、ＦＰＮブロック数が必要最小限となるようにＡＣＮＮモデルを訓練する。したがって、ＡＣＮＮモデルの最適なＦＰＮカウントパラメータ値を決定するための時間効率の良い方法を提供することができる。

（実施の形態２）
次に、本開示の実施の形態２について、添付図面を参照して説明する。この実施の形態２は、実施の形態１の具体例の1つを示すが、実施の形態１の具体例はこれに限定されない。

図６は、実施の形態２に係るＡＣＮＮモデル訓練システム（以下、モデル訓練システムという）を示す。図６に示すように、モデル訓練システム２００は、カウント推定部２０１と、ＡＣＮＮモデル訓練部（以下、モデル訓練部という）２０２とを備える。モデル訓練システム２００は、訓練データセットＴＤを入力として取り込み、訓練されたＡＣＮＮモデルを出力する。

モデル訓練システム２００は、情報処理装置に搭載されたシステムとして実現できる。モデル訓練システム２００は、計算のための他のユニットを備えてもよい。本実施形態では、モデル訓練システム２００を画像認識に適用することができるが、適用はこれに限定されない。

訓練データセットＴＤは、各画像のラベルおよびグラウンドトゥルースバウンディングボックス（ｇｒｏｕｎｄｔｒｕｔｈｂｏｕｎｄｉｎｇｂｏｘ）情報とともに画像を含む。ラベルは、モデル訓練システム２００がＡＣＮＮの出力として入手しようとする予測である。グラウンドトゥルースバウンディングボックス情報は、特徴点抽出部２１１によるトリミングに使用される。

カウント推定部２０１は、訓練データセットＴＤを入力として取り込み、訓練データセットＴＤの複雑さの分析を行い、ＦＰＮカウントパラメータの値を推定して出力する。

図７は、カウント推定部２０１の詳細を示す。図７に示すように、カウント推定部２０１は、特徴点抽出部２１１と推定部２１２を有する。特徴点抽出部２１１は、訓練データセットＴＤを入力として取り込み、すべての訓練データセット画像に対してフィルタ処理された特徴点を出力として生成する。

推定部２１２は、フィルタ処理された特徴点を入力として取り込み、特徴点分析を実行して、ＦＰＮカウントパラメータの値を出力として提供する。特徴点分析において、推定部２１２は、訓練データセットＴＤの各対象クラスのオブジェクト数の加算と、各クラスの全オブジェクトの特徴点の数の加算を行う。

図８は、訓練データセットＴＤに基づく推定結果を示す表の例を示す。図８の表において、列Ｃ０は各対象クラスのクラスＩＤを示し、列Ｃ１は各対象クラスのオブジェクト数のサンプル例を示し、列Ｃ２は各対象クラスの特徴点の総数のサンプル例を示す。

推定部２１２は、各対象クラスのオブジェクト数と各対象クラスの特徴点の総数の情報（列Ｃ１とＣ２の情報）を用いて、図８の表の列Ｃ３に示すように平均特徴点（ＡｖｅｒａｇｅＦｅａｔｕｒｅＰｏｉｎｔ：ＡＦＰ）値を算出する。ＡＦＰ値は、特徴点の総数をオブジェクト数で割ることで算出することができる。そして、推定部２１２は、ＡＦＰ値の情報を用いて、図８の表の列Ｃ４に示されるように、各対象クラスの複雑さを推定する。ＡＦＰ値が高いほど、複雑さは高くなる。その後、推定部２１２は、図８の表の列Ｃ５に示されるように、複雑さに基づいて、各対象クラスにおけるカウントの情報を算出する。複雑さが高いほど、カウント値は高くなる。

図９は、訓練データセットＴＤに基づく推定結果を示すテーブルの他の例を示す。図９のテーブルでは、列Ｃ１０～Ｃ１５がそれぞれ列Ｃ０～Ｃ５に対応する。

図８および９は、ＡＦＰ値が小さい対象クラスを複雑度が低いとみなし、小さいカウント値に割り当てることができることを示す。一方、ＡＦＰ値が大きい対象クラスは複雑度が高いとみなし、大きなカウント値に割り当てることができる。

複雑度が低いデータセットでは、複雑度が低い深層ＣＮＮモデルが必要である。換言すれば、ＭＬＦＰＮ部内で少数のＦＰＮブロックがあれば、複雑度が低いデータセットで良好な精度を達成するのに十分である。一方、複雑度が高いデータセットでは、複雑度が高い深層ＣＮＮモデルが必要である。換言すれば、ＭＬＦＰＮ部内で多数のＦＰＮブロックが、複雑度が高いデータセットで良好な精度を達成するために必要である。したがって、複雑さの分析メトリックとしてＡＦＰ値の数を使用することにより、各対象クラスのＦＰＮカウント値を推定できる。

推定部２１２は、列Ｃ５またはＣ１５の最大値をＦＰＮカウントパラメータ値として出力する。ＦＰＮカウントパラメータ値は、カウント推定部２０１の出力でもある。図８の場合、列Ｃ５の最大値は値「４」であるので、推定部２１２は値「４」を出力する。図９の場合、列Ｃ１５の最大値は値「８」であるので、推定部２１２は値「８」を出力する。

図６を再度参照すると、モデル訓練部２０２は、ＦＰＮカウントパラメータ値と訓練データセットＴＤを入力として用い、ＡＣＮＮモデルを訓練し、図６に示すように訓練されたＡＣＮＮモデルＴＭを出力する。モデル訓練部２０２によって訓練されたＡＣＮＮモデルは、モデル訓練システム２００に格納され、その構造は図１および２に示される。この構造の説明は「関連技術の概要」で既に述べられたため、ここでは省略する。

次に、図１０のフローチャートを参照して、モデル訓練システム２００の全処理の一例を説明する。

まず、カウント推定部２０１は、訓練データセットＴＤからＦＰＮカウントパラメータ値を推定して出力する（図１０のステップＳ２１）。次に、モデル訓練部２０２は、ＦＰＮカウントパラメータ値と訓練データセットＴＤを入力として用い、ＡＣＮＮモデルを訓練し、訓練されたＡＣＮＮモデルＴＭを出力する（図１０のステップＳ２２）。

さらに、図１１のフローチャートを参照して、カウント推定部２０１の処理例について説明する。すなわち、ステップＳ２１の処理の詳細を以下に示す。

まず、特徴点抽出部２１１は、訓練データセットＴＤを入力として取り込み、すべての訓練データセット画像に対してフィルタ処理された特徴点を出力として生成する（図１１のステップＳ３１）。次に、推定部２１２は、特徴点を分析し、ＦＰＮカウントパラメータ値を推定する（図１１のステップＳ３２）。

さらに、図１２のフローチャートを参照して、特徴点抽出部２１１の処理の一例について説明する。すなわち、ステップＳ３１の処理の詳細を以下に示す。

最初に、特徴点抽出部２１１は、訓練データセットＴＤのグラウンドトゥルースバウンディングボックス情報を用いて、全てのオブジェクトを個別画像としてトリミングする（図１２のステップＳ４１）。このトリミングは、将来のバックグラウンドの分析を回避するとともに、訓練データセットＴＤ内の全てのオブジェクト（全ての画像）を分離するために行われる。将来の分析は、ステップＳ４３～Ｓ４５及びＳ３２における処理を意味する。対象となるオブジェクトのないバックグラウンド領域は、タイムコストの観点から、この将来の分析の対象とならなくてもよい。ただし、訓練データセットＴＤが画像ごとに１つのオブジェクトを含み、バックグラウンドが最小限である場合には、ステップＳ４１はオプションであるため、スキップすることができる。このトリミングプロセスの出力は、訓練データセットＴＤ内のすべての対象オブジェクトの個々の画像となる。図８の場合、特徴点抽出部２１１は、ステップＳ４５で列Ｃ１の情報を生成する。図９の場合、特徴点抽出部２１１は、ステップＳ４５で列Ｃ１１の情報を生成する。

第２に、特徴点抽出部２１１は、全ての入力画像を前処理し、前処理画像を出力する（図１２のステップＳ４２）。前処理には、解像度の異なる画像の大きさを変更する処理が含まれるが、これに限らない。この画像前処理は、異なるスケールおよびクラスのすべてのオブジェクトを正規化するために行われる。ただし、訓練データセットＴＤにおいて、すべてのオブジェクトがすべてのクラスで同じスケールである場合、ステップＳ４２はオプションであり、したがってスキップすることができる。

第３に、特徴点抽出部２１１は、処理されたすべての画像に対して特徴点抽出を行う（図１２のステップＳ４３）。特徴点は、画像内の空間的な位置または点であり、画像内の対象となる又は目立つものを定義する。特徴点のもう1つの名前は、画像内のキーポイントまたは注目点とも言い得る。画像内にそのような特徴点が複数存在してもよいため、抽出によって抽出された特徴点が1以上存在することになる。

図１３は、画像内の特徴点（キーポイント）のサンプル例を示す。図１３に示されるように、画像にはオブジェクト（長方形）が含まれており、オブジェクトにはいくつかのエッジがあり、これらのエッジは長方形の形状を定めている。図１３の特徴点１と２は、これらのエッジの例である。また、長方形のエッジを特徴点として抽出することもできる。

スケール不変特徴変換（ＳＩＦＴ）、Ｓｐｅｅｄｅｄｕｐｒｏｂｕｓｔｆｅａｔｕｒｅｓ（ＳＵＲＦ）、ＢｉｎａｒｙＲｏｂｕｓｔＩｎｖａｒｉａｎｔＳｃａｌａｂｌｅＦｅａｔｕｒｅＰｏｉｎｔｓ（ＢＲＩＳＦ）など、いくつかの周知な特徴点抽出手法が存在する。図１４は、特定の画像に適用したＳＩＦＴ特徴点抽出のサンプル例を示す。画像には人物の肖像が含まれている。特徴点は、図１４の特定の画像の注目点で小さな円で表されている。図１４の注目点は、特徴（特に人物）を検出するために使用できる。抽出された特徴点の数は、特徴点抽出技術が適用される画像によって異なる。一般的に、抽出された特徴点の数が特定の画像で少ない場合、特定の画像は単純な画像と呼ばれる。一方、抽出された特徴点の数が特定の画像で多い場合、特定の画像は複雑な画像と呼ばれる。

図１２を再度参照すると、ステップＳ４３の後、特徴点抽出部２１１は、各画像の抽出された特徴点を適宜フィルタリングする（図１２のステップＳ４４）。このフィルタリングはオプションのステップであるが、抽出された特徴点の一部がバックグラウンドに属する場合に必要となることがある。フィルタリングが必要となり得るもう1つのケースは、特定のカテゴリに属するある特徴点を除去する場合である。例えば、ある特徴点が小さすぎたり大きすぎたりすると、それらは除去される。

最後に、特徴点抽出部２１１は、すべての画像に対してフィルタリングされた特徴点を出力する（図１２のステップＳ４５）。図８の場合、ステップＳ４５において、特徴点抽出部２１１は、列Ｃ２の情報を出力する。図９の場合、ステップＳ４５において、特徴点抽出部２１１は、列Ｃ１２の情報を出力する。その後、推定部２１２は、フィルタリングされた特徴点を用いてＦＰＮカウントパラメータ値を推定する。図８の場合、推定部２１２は、列Ｃ３～Ｃ５のパラメータを計算する。図９の場合、推定部２１２は、列Ｃ１３～Ｃ１５のパラメータを計算する。この計算の詳細については上述の通りである。

この特徴点抽出手法を訓練データセットＴＤに適用する必要があるのは1回だけであることに留意されたい。さらに、カウント推定部２０１の特徴点抽出部２１１での計算はそれほど複雑ではなく、ＡＣＮＮモデルの訓練処理を繰り返す必要はない。その結果、提案した方法は他の既存の方法よりも高速である。

上記で説明したように、関連技術の問題の1つは、ＡＣＮＮのＭＬＦＰＮブロック内のＦＰＮカウントアーキテクチャパラメータのためのいくつかの候補値を探索することが困難であることにある。この問題の理由は、ＦＰＮカウントアーキテクチャパラメータのために探索されるいくつかの候補値が存在することである。また、計算の複雑さと精度の間にはトレードオフが存在する。

カウント推定部２０１は、ＡＣＮＮモデルに必要なＦＰＮブロック数を示す値を推定するため、ＡＣＮＮモデルにおける最適なＦＰＮカウントパラメータ値を決定するための時間効率の良い方法を提供することができる。また、本実施形態では、ＡＣＮＮモデルは、ＦＰＮブロックを有するＭＬＦＰＮブロックを含み、カウント推定部２０１は、ＭＬＦＰＮブロック内に積み重ねられるＦＰＮブロックの数値を推定する。したがって、ＡＣＮＮモデル訓練システム２００は、ＭＬＦＰＮブロックを含むＡＣＮＮモデルを訓練することができる。

さらに、推定部２１２は、訓練データセットＴＤ内の各対象クラスのオブジェクト及び特徴点の数に基づいて、ＦＰＮブロックの数値を推定する。これにより、ＡＣＮＮモデル訓練部２０２は、画像の内容に対応するＦＰＮブロックのレベルを設定することができる。

また、推定部２１２は、各対象クラスのＦＰＮブロックの各数値を算出し、各対象クラスのＦＰＮブロック数の最大値を推定値として出力する。したがって、ＡＣＮＮモデル訓練部２０２は、ＦＰＮブロックのレベルを最小値として設定することができ、ＦＰＮブロックのパラメータは、ＡＣＮＮモデルによる計算結果が正しいことを保証する。

また、特徴点抽出部２１１は、訓練データセットＴＤ内の画像の特徴点を抽出し、その特徴点を用いてＦＰＮブロックの数値を推定する。これにより、ＡＣＮＮモデル訓練部２０２は、ＡＣＮＮモデルをオブジェクトの識別に適したものとするために、ＦＰＮブロックのレベルを設定することができる。

さらに、特徴点抽出部２１１は抽出された特徴点をフィルタリングし、推定部２１２はフィルタリングされた特徴点を使用してＦＰＮブロックの数値を推定する。カウント推定部２０１は、可能な限り最小の値を設定することができるため、ＦＰＮブロックのレベルを小さくすることができる。

次に、上記の複数の実施形態で説明された情報処理装置の構成例について、図１５を参照して以下で説明する。

図１５は、情報処理装置の構成例を示すブロック図である。情報処理装置９０は、図１５に示すように、ネットワークインタフェース９１、プロセッサ９２及びメモリ９３を備える。

ネットワークインタフェース９１は、通信システムを構成する他のネットワークノード装置との通信に使用される。たとえば、ネットワークインタフェース９１は、訓練データセットＴＤを受信してもよい。

プロセッサ９２は、メモリ９３からソフトウェア（コンピュータプログラム）をロードし、ロードされたソフトウェアを実行することによって、上記の実施形態の図面で参照して説明された処理を行う。プロセッサ９２は、例えば、マイクロプロセッサ、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、又はＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であってもよい。プロセッサ９２は、複数のプロセッサを含んでもよい。この場合、各プロセッサは、命令群を含む１または複数のプログラムを実行して、図面を参照して上記で説明したアルゴリズムをコンピュータに実行させる。

メモリ９３は揮発性メモリで構成されてもよいし、不揮発性メモリで構成されてもよいが、メモリ９３は揮発性メモリと不揮発性メモリの組み合わせで構成されてもよい。メモリ９３は、プロセッサ９２から離間して配置されたストレージを含んでもよい。この場合、プロセッサ９２はＩ／Ｏインタフェース（不図示）を介してメモリ９３にアクセスしてもよい。

図１５に示された例では、ソフトウェアモジュール群を格納するためにメモリ９３が使用されている。プロセッサ９２は、メモリ９３からソフトウェアモジュール群を読み込み、読み込んだソフトウェアモジュールを実行することで、上記の実施形態で説明された処理を行うことができる。

上述のように、上記の実施形態での各構成は、ハードウェアとソフトウェア（コンピュータプログラム）の組み合わせで構成されてもよい。ただし、各構成は、単独のハードウェアまたはソフトウェアで構成されてもよいし、複数のハードウェアまたはソフトウェアで構成されてもよい。

コンピュータプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。コンピュータプログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、非一時的なコンピュータ可読媒体又は実体のある記憶媒体は、ｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ（ＲＡＭ）、ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ（ＲＯＭ）、フラッシュメモリ、ｓｏｌｉｄ－ｓｔａｔｅｄｒｉｖｅ（ＳＳＤ）又はその他のメモリ技術、ＣＤ－ＲＯＭ、ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ（ＤＶＤ）、Ｂｌｕ－ｒａｙディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含んでもよい。コンピュータプログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含んでもよい。

なお、本開示は、上記の実施形態に限定されるものではなく、本開示の趣旨及び範囲を逸脱しない状態で、適宜修正することができる。

１００モデル訓練装置
１０１推定部
１０２ＡｒｔｉｆｉｃｉａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＡＣＮＮ）モデル訓練部
２００ＡＣＮＮモデル訓練システム
２０１カウント推定部
２０２ＡＣＮＮモデル訓練部
２１１特徴点抽出部
２１２推定部

コンピュータプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。コンピュータプログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、非一時的なコンピュータ可読媒体又は実体のある記憶媒体は、ｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ（ＲＡＭ）、ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ（ＲＯＭ）、フラッシュメモリ、ｓｏｌｉｄ－ｓｔａｔｅｄｒｉｖｅ（ＳＳＤ）又はその他のメモリ技術、ＣＤ－ＲＯＭ、ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ（ＤＶＤ）、Ｂｌｕ－ｒａｙ（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含んでもよい。コンピュータプログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含んでもよい。

Claims

訓練データセットを用いてＡｒｔｉｆｉｃｉａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＡＣＮＮ）モデルに含まれる特徴ピラミッドネットワーク（ＦＰＮ）ブロックの数値を推定する推定手段と、
推定値を用いて前記ＡＣＮＮモデルを訓練するＡＣＮＮモデル訓練手段と、
を備えるモデル訓練装置。
前記ＡＣＮＮモデルは、ＦＰＮブロックを含むマルチレベル特徴ピラミッドネットワーク（ＭＬＦＰＮ）ブロックを含み、
前記推定手段は、前記ＭＬＦＰＮブロック内に積み重ねられたＦＰＮブロックの数値を推定する、
請求項１に記載のモデル訓練装置。
前記推定手段は、前記訓練データセット内の各対象クラスのオブジェクトおよび特徴点の数に基づいて、前記ＦＰＮブロックの数値を推定する、
請求項２に記載のモデル訓練装置。
前記推定手段は、各対象クラスの前記ＦＰＮブロックの各数値を算出し、各対象クラスのＦＰＮブロック数の最大値を推定値として出力する、
請求項３に記載のモデル訓練装置。
前記推定手段は、前記訓練データセット内の画像の特徴点を抽出し、前記特徴点を用いて前記ＦＰＮブロックの数値を推定する、
請求項３又は４に記載のモデル訓練装置。
前記推定手段は、抽出された特徴点をフィルタリングし、フィルタリングされた特徴点を用いて前記ＦＰＮブロックの数値を推定する、
請求項５に記載のモデル訓練装置。
訓練データセットを用いてＡｒｔｉｆｉｃｉａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＡＣＮＮ）モデルに含まれる特徴ピラミッドネットワーク（ＦＰＮ）ブロックの数値を推定し、
推定値を用いて前記ＡＣＮＮモデルを訓練する、
モデル訓練方法。
訓練データセットを用いてＡｒｔｉｆｉｃｉａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＡＣＮＮ）モデルに含まれる特徴ピラミッドネットワーク（ＦＰＮ）ブロックの数値を推定し、
推定値を用いて前記ＡＣＮＮモデルを訓練する、
ことをコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。