JP2024521197A - モデル訓練装置、モデル訓練方法及びプログラム - Google Patents

モデル訓練装置、モデル訓練方法及びプログラム Download PDF

Info

Publication number
JP2024521197A
JP2024521197A JP2023573471A JP2023573471A JP2024521197A JP 2024521197 A JP2024521197 A JP 2024521197A JP 2023573471 A JP2023573471 A JP 2023573471A JP 2023573471 A JP2023573471 A JP 2023573471A JP 2024521197 A JP2024521197 A JP 2024521197A
Authority
JP
Japan
Prior art keywords
model
fpn
acnn
training
model training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023573471A
Other languages
English (en)
Inventor
ダーシット バギャニー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2024521197A publication Critical patent/JP2024521197A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2024521197000001
本開示の目的は、Artificial Convolutional Neural Network(ACNN)モデルのための最適な特徴ピラミッドネットワーク(FPN)カウントパラメータ値を決定するための時間効率の良い方法を提供することができるモデル訓練装置、モデル訓練方法及び非一時的なコンピュータ可読媒体を提供することである。一側面において、モデル訓練装置(100)は、訓練データセットを用いてACNNモデルに含まれるFPNブロックの数値を推定するように構成される推定部(101)と、推定値を用いてACNNモデルを訓練するように構成されるACNNモデル訓練部(102)を備える。
【選択図】図4

Description

本開示は、モデル訓練装置、モデル訓練方法及び非一時的なコンピュータ可読媒体に関する。
過去10年間に、Artificial Convolutional Neural Network(ACNN)の方法が普及し、分類、オブジェクト検出、セマンティックセグメンテーションなどのいくつかの視覚処理アプリケーションのための最先端の解決策となっている。
関連技術の一例として、特許文献1(PTL1)には、特徴アップサンプリングネットワーク(Feature Up-sampling Network)を用いて畳み込みニューラルネットワーク(CNN)の性能を向上させる学習方法が開示されている。
欧州特許出願公開第3467720号明細書
ACNNの分野で、特徴ピラミッドネットワーク(FPN)技術が最近開発された。高い精度を達成するために、 ACNNモデルにおけるより多くのFPNブロックが必要である。しかしながら、ACNNモデルに含まれるFPNブロックが多いほど、実行時間が長くなる。このため、精度と実行時間の間にトレードオフの関係の問題がある。
本開示の目的は、ACNNモデルのための最適なFPNカウントパラメータ値を決定するための時間効率の良い方法を提供することができるモデル訓練装置、モデル訓練方法及び非一時的なコンピュータ可読媒体を提供することである。
本開示の第1の側面によれば、訓練データセットを用いてArtificial Convolutional Neural Network(ACNN)モデルに含まれる特徴ピラミッドネットワーク(FPN)ブロックの数値を推定する推定手段と、推定値を用いて前記ACNNモデルを訓練するACNNモデル訓練手段を備えるモデル訓練装置がある。
本開示の第2の側面によれば、訓練データセットを用いてACNNモデルに含まれるFPNブロックの数値を推定し、推定値を用いて前記ACNNモデルを訓練するモデル訓練方法がある。
本開示の第3の側面によれば、訓練データセットを用いてACNNモデルに含まれるFPNブロックの数値を推定し、推定値を用いて前記ACNNモデルを訓練することをコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体がある。
本開示によれば、ACNNモデルのための最適なFPNカウントパラメータ値を決定するための時間効率の良い方法を提供することができるモデル訓練装置、モデル訓練方法及び非一時的なコンピュータ可読媒体を提供することができる。
図1は、関連技術にかかるACNNモデルのブロック図の一例である。 図2は、関連技術にかかるMLFPNブロックの一例である。 図3は、関連技術にかかるFPNブロックの一例である。 図4は、実施の形態1に係るモデル訓練装置のブロック図の一例である。 図5は、実施の形態1に係るモデル訓練装置の方法の一例を示すフローチャートである。 図6は、実施の形態2に係るACNNモデル訓練システムのブロック図の一例である。 図7は、実施の形態2に係るカウント推定部のブロック図の一例である。 図8は、訓練データセットTDに基づく推定結果を示す表の一例である。 図9は、訓練データセットTDに基づく推定結果を示す表の他の例である。 図10は、実施の形態2に係るACNNモデル訓練システムの全処理の一例を示すフローチャートである。 図11は、実施の形態2に係るカウント推定部の処理の一例を示すフローチャートである。 図12は、実施の形態2に係る特徴点抽出部の処理の一例を示すフローチャートである。 図13は、画像の特徴点の一例である。 図14は、特定画像におけるスケール不変特徴変換(SIFT)特徴点抽出の一例である。 図15は、実施形態に係るコンピュータ装置のブロック図の一例である。
(関連技術の概要)
本開示にかかる実施形態を説明する前に、関連技術の概要を説明する。以下の関連技術は、“Feature Pyramid Networks for Object Detection”, Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 2117-2125に開示されており、本文書の一部を構成するものとして参照によりここに組み込まれる。
図1に、ACNNモデル10(以下、ACNN10という)を示す。ACNN10は、図1に示すように、いくつかの重要なブロック、具体的には、バックボーンブロック11、フュージョンブロック12、マルチレベル特徴ピラミッドネットワーク(MLFPN)ブロック13、およびヘッドブロック14を備える。ACNN10は、画像IMを入力として受け取り、それを処理し、画像IMに基づいて予測(Prediction)PRを出力する。ACNN10の各ブロックのアーキテクチャは、与えられたデータセットに対して高い精度を達成することを目的として設計されている。また、リアルタイムアプリケーションのために、ACNN10のアーキテクチャは、所望の実行速度を達成することを追加的な目的として設計されている。
バックボーンブロック11は、バックボーン畳み込みアーキテクチャとして機能し、フュージョンブロック12は、バックボーンブロック11からのデータ入力を統合する。ヘッドブロック14は、Residual Network(ResNet)の畳み込みレイヤである。
MLFPNブロック13は、ACNN10の主要構成要素の1つである。図2に示すように、MLFPNブロック13は、複数レベルの特徴ピラミッドネットワーク(FPN)ブロック15を積み重ねることで形成されており、「マルチレベル特徴ピラミッドネットワークブロック」として知られる。
FPNブロック15は、入力画像中の様々なスケールのオブジェクトを検出するために設計された特徴抽出ブロックである。FPNブロック15のサンプル例を図3に示す。図3は、レイヤL1、L2、L3、...、L4、L5、...、L6及びL7を含むFPNブロック15のアーキテクチャを示す。ボトムアップステップのレイヤL1~L4の各々は、異なるスケールの特徴マップを生成し、トップダウンステップのレイヤL5~L7の各々は、ボトムアップステップの対応するレイヤから特徴マップに基づく予測を出力する。例えば、レイヤL5はレイヤL4からの特徴マップを使用して予測P1を出力し、レイヤL6はレイヤL3からの特徴マップを使用して予測P2を出力し、レイヤL7はレイヤL2からの特徴マップを使用して予測P3を出力する。慣例では、1つのFPNブロック15のアーキテクチャは専門家によって最適化され、次いで、そのような最適化されたFPNブロック15A、15B、...15Cが積み重ねられてMLFPNブロック13を形成する。
MLFPNブロック13内に複数レベルのFPNブロック15を有することは、ACNN10によって高精度を達成するために必要である。しかしながら、MLFPNブロック13内のFPNブロック15のレベルを増加させることは、ACNN10の大きな計算の複雑さをもたらし、それによってACNN10の実行時間を増加させる。長い実行時間は、リアルタイムアプリケーションでは許容できない。また、より少ない計算の複雑さとより少ない実行時間を享受するために、MLFPNブロック13内のFPNブロック15のレベルを1つまたは少数とすることは、低精度をもたらす可能性がある。したがって、MLFPNブロック13内のFPNブロック15の数は、ACNN10の重要なパラメータであり、本文書ではFPNカウント値と呼ばれる。与えられたリアルタイムアプリケーションおよびデータセットの精度と計算の複雑さまたは実行時間との間のトレードオフを考慮して、FPNカウント値の最適値を決定することは、最適化問題である。
最適化問題の単純な解決策は、FPNカウントのすべての候補値を網羅的に列挙することである。しかしながら、すべての候補値を列挙するために必要な合計時間は、候補値の数と、与えられたデータセットの各ACNNモデルを訓練するための時間の積である。したがって、FPNカウントパラメータは候補オプションとして複数の正の整数を有し得るため、網羅的に列挙するために必要な合計時間は非常に大きくなる可能性がある。
この問題に対する他の解決策は、強化学習(Reinforcement learning)、遺伝的アルゴリズム(Genetic algorithm)などの機械学習アルゴリズムを使用して最適化問題を解決することである。これらの機械学習アルゴリズムは、基本的に少数の候補値を探索し、最適なFPNカウント値を予測する。しかしながら、少数の候補値を探索するために必要な時間ですら長くなる。
この関連技術に鑑みて、本開示の目的の1つは、ACNNにおけるMLFPNブロックの最適なFPNカウントパラメータ値を決定するための時間効率の良い方法を提供することである。
(実施の形態1)
まず、図4を参照して、本開示の実施の形態1に係るモデル訓練装置100について説明する。
図4を参照すると、モデル訓練装置100は、推定部101と、ACNNモデル訓練部102とを備える。モデル訓練装置100は、例えば、1又は複数のコンピュータ又は機械を含む。一例として、モデル訓練装置100の少なくとも1つの構成要素は、1又は複数のメモリ及び1又は複数のプロセッサの組み合わせとしてコンピュータに搭載することができる。
推定部101は、訓練データセット(図4に不図示)を用いて、ACNNモデルに含まれるFPNブロックの数値を推定する。ACNNモデル訓練部102は、推定部101が出力した値を用いて、ACNNモデルを訓練する。FPNブロックは、MLFPN構造、シングルショットマルチボックス検出器(SSD)形式の特徴ピラミッド構造、またはFPN形式の特徴ピラミッド構造(ただし、これらに限定されない)内に積み重ねられることができる。例えば、MLFPNブロックを構成するACNNモデルの構造は図1及び2に示され、この構造は「関連技術の概要」で説明されている。したがって、ここではその詳細の説明は省略する。
次に、図5のフローチャートを参照して、本実施形態の動作例について説明する。
まず、推定部101は、訓練データセットを用いて、ACNNモデルに含まれるFPNブロックの数値を推定する(図5のステップS11)。次に、ACNNモデル訓練部102は、推定値を用いて、ACNNモデルを訓練する(図5のステップS12)。
推定部101は、ACNNモデルに必要なFPNブロック数を示す値を推定するので、ACNNモデル訓練部102は、FPNブロック数が必要最小限となるようにACNNモデルを訓練する。したがって、ACNNモデルの最適なFPNカウントパラメータ値を決定するための時間効率の良い方法を提供することができる。
(実施の形態2)
次に、本開示の実施の形態2について、添付図面を参照して説明する。この実施の形態2は、実施の形態1の具体例の1つを示すが、実施の形態1の具体例はこれに限定されない。
図6は、実施の形態2に係るACNNモデル訓練システム(以下、モデル訓練システムという)を示す。図6に示すように、モデル訓練システム200は、カウント推定部201と、ACNNモデル訓練部(以下、モデル訓練部という)202とを備える。モデル訓練システム200は、訓練データセットTDを入力として取り込み、訓練されたACNNモデルを出力する。
モデル訓練システム200は、情報処理装置に搭載されたシステムとして実現できる。モデル訓練システム200は、計算のための他のユニットを備えてもよい。本実施形態では、モデル訓練システム200を画像認識に適用することができるが、適用はこれに限定されない。
訓練データセットTDは、各画像のラベルおよびグラウンドトゥルースバウンディングボックス(ground truth bounding box)情報とともに画像を含む。ラベルは、モデル訓練システム200がACNNの出力として入手しようとする予測である。グラウンドトゥルースバウンディングボックス情報は、特徴点抽出部211によるトリミングに使用される。
カウント推定部201は、訓練データセットTDを入力として取り込み、訓練データセットTDの複雑さの分析を行い、FPNカウントパラメータの値を推定して出力する。
図7は、カウント推定部201の詳細を示す。図7に示すように、カウント推定部201は、特徴点抽出部211と推定部212を有する。特徴点抽出部211は、訓練データセットTDを入力として取り込み、すべての訓練データセット画像に対してフィルタ処理された特徴点を出力として生成する。
推定部212は、フィルタ処理された特徴点を入力として取り込み、特徴点分析を実行して、FPNカウントパラメータの値を出力として提供する。特徴点分析において、推定部212は、訓練データセットTDの各対象クラスのオブジェクト数の加算と、各クラスの全オブジェクトの特徴点の数の加算を行う。
図8は、訓練データセットTDに基づく推定結果を示す表の例を示す。図8の表において、列C0は各対象クラスのクラスIDを示し、列C1は各対象クラスのオブジェクト数のサンプル例を示し、列C2は各対象クラスの特徴点の総数のサンプル例を示す。
推定部212は、各対象クラスのオブジェクト数と各対象クラスの特徴点の総数の情報(列C1とC2の情報)を用いて、図8の表の列C3に示すように平均特徴点(Average Feature Point:AFP)値を算出する。AFP値は、特徴点の総数をオブジェクト数で割ることで算出することができる。そして、推定部212は、AFP値の情報を用いて、図8の表の列C4に示されるように、各対象クラスの複雑さを推定する。AFP値が高いほど、複雑さは高くなる。その後、推定部212は、図8の表の列C5に示されるように、複雑さに基づいて、各対象クラスにおけるカウントの情報を算出する。複雑さが高いほど、カウント値は高くなる。
図9は、訓練データセットTDに基づく推定結果を示すテーブルの他の例を示す。図9のテーブルでは、列C10~C15がそれぞれ列C0~C5に対応する。
図8および9は、AFP値が小さい対象クラスを複雑度が低いとみなし、小さいカウント値に割り当てることができることを示す。一方、AFP値が大きい対象クラスは複雑度が高いとみなし、大きなカウント値に割り当てることができる。
複雑度が低いデータセットでは、複雑度が低い深層CNNモデルが必要である。換言すれば、MLFPN部内で少数のFPNブロックがあれば、複雑度が低いデータセットで良好な精度を達成するのに十分である。一方、複雑度が高いデータセットでは、複雑度が高い深層CNNモデルが必要である。換言すれば、 MLFPN部内で多数のFPNブロックが、複雑度が高いデータセットで良好な精度を達成するために必要である。したがって、複雑さの分析メトリックとしてAFP値の数を使用することにより、各対象クラスのFPNカウント値を推定できる。
推定部212は、列C5またはC15の最大値をFPNカウントパラメータ値として出力する。FPNカウントパラメータ値は、カウント推定部201の出力でもある。図8の場合、列C5の最大値は値「4」であるので、推定部212は値「4」を出力する。図9の場合、列C15の最大値は値「8」であるので、推定部212は値「8」を出力する。
図6を再度参照すると、モデル訓練部202は、 FPNカウントパラメータ値と訓練データセットTDを入力として用い、ACNNモデルを訓練し、図6に示すように訓練されたACNNモデルTMを出力する。モデル訓練部202によって訓練されたACNNモデルは、モデル訓練システム200に格納され、その構造は図1および2に示される。この構造の説明は「関連技術の概要」で既に述べられたため、ここでは省略する。
次に、図10のフローチャートを参照して、モデル訓練システム200の全処理の一例を説明する。
まず、カウント推定部201は、訓練データセットTDからFPNカウントパラメータ値を推定して出力する(図10のステップS21)。次に、モデル訓練部202は、FPNカウントパラメータ値と訓練データセットTDを入力として用い、ACNNモデルを訓練し、訓練されたACNNモデルTMを出力する(図10のステップS22)。
さらに、図11のフローチャートを参照して、カウント推定部201の処理例について説明する。すなわち、ステップS21の処理の詳細を以下に示す。
まず、特徴点抽出部211は、訓練データセットTDを入力として取り込み、すべての訓練データセット画像に対してフィルタ処理された特徴点を出力として生成する(図11のステップS31)。次に、推定部212は、特徴点を分析し、FPNカウントパラメータ値を推定する(図11のステップS32)。
さらに、図12のフローチャートを参照して、特徴点抽出部211の処理の一例について説明する。すなわち、ステップS31の処理の詳細を以下に示す。
最初に、特徴点抽出部211は、訓練データセットTDのグラウンドトゥルースバウンディングボックス情報を用いて、全てのオブジェクトを個別画像としてトリミングする(図12のステップS41)。このトリミングは、将来のバックグラウンドの分析を回避するとともに、訓練データセットTD内の全てのオブジェクト(全ての画像)を分離するために行われる。将来の分析は、ステップS43~S45及びS32における処理を意味する。対象となるオブジェクトのないバックグラウンド領域は、タイムコストの観点から、この将来の分析の対象とならなくてもよい。ただし、訓練データセットTDが画像ごとに1つのオブジェクトを含み、バックグラウンドが最小限である場合には、ステップS41はオプションであるため、スキップすることができる。このトリミングプロセスの出力は、訓練データセットTD内のすべての対象オブジェクトの個々の画像となる。図8の場合、特徴点抽出部211は、ステップS45で列C1の情報を生成する。図9の場合、特徴点抽出部211は、ステップS45で列C11の情報を生成する。
第2に、特徴点抽出部211は、全ての入力画像を前処理し、前処理画像を出力する(図12のステップS42)。前処理には、解像度の異なる画像の大きさを変更する処理が含まれるが、これに限らない。この画像前処理は、異なるスケールおよびクラスのすべてのオブジェクトを正規化するために行われる。ただし、訓練データセットTDにおいて、すべてのオブジェクトがすべてのクラスで同じスケールである場合、ステップS42はオプションであり、したがってスキップすることができる。
第3に、特徴点抽出部211は、処理されたすべての画像に対して特徴点抽出を行う(図12のステップS43)。特徴点は、画像内の空間的な位置または点であり、画像内の対象となる又は目立つものを定義する。特徴点のもう1つの名前は、画像内のキーポイントまたは注目点とも言い得る。画像内にそのような特徴点が複数存在してもよいため、抽出によって抽出された特徴点が1以上存在することになる。
図13は、画像内の特徴点(キーポイント)のサンプル例を示す。図13に示されるように、画像にはオブジェクト(長方形)が含まれており、オブジェクトにはいくつかのエッジがあり、これらのエッジは長方形の形状を定めている。図13の特徴点1と2は、これらのエッジの例である。また、長方形のエッジを特徴点として抽出することもできる。
スケール不変特徴変換(SIFT)、Speeded up robust features(SURF)、Binary Robust Invariant Scalable Feature Points(BRISF)など、いくつかの周知な特徴点抽出手法が存在する。図14は、特定の画像に適用したSIFT特徴点抽出のサンプル例を示す。画像には人物の肖像が含まれている。特徴点は、図14の特定の画像の注目点で小さな円で表されている。図14の注目点は、特徴(特に人物)を検出するために使用できる。抽出された特徴点の数は、特徴点抽出技術が適用される画像によって異なる。一般的に、抽出された特徴点の数が特定の画像で少ない場合、特定の画像は単純な画像と呼ばれる。一方、抽出された特徴点の数が特定の画像で多い場合、特定の画像は複雑な画像と呼ばれる。
図12を再度参照すると、ステップS43の後、特徴点抽出部211は、各画像の抽出された特徴点を適宜フィルタリングする(図12のステップS44)。このフィルタリングはオプションのステップであるが、抽出された特徴点の一部がバックグラウンドに属する場合に必要となることがある。フィルタリングが必要となり得るもう1つのケースは、特定のカテゴリに属するある特徴点を除去する場合である。例えば、ある特徴点が小さすぎたり大きすぎたりすると、それらは除去される。
最後に、特徴点抽出部211は、すべての画像に対してフィルタリングされた特徴点を出力する(図12のステップS45)。図8の場合、ステップS45において、特徴点抽出部211は、列C2の情報を出力する。図9の場合、ステップS45において、特徴点抽出部211は、列C12の情報を出力する。その後、推定部212は、フィルタリングされた特徴点を用いてFPNカウントパラメータ値を推定する。図8の場合、推定部212は、列C3~C5のパラメータを計算する。図9の場合、推定部212は、列C13~C15のパラメータを計算する。この計算の詳細については上述の通りである。
この特徴点抽出手法を訓練データセットTDに適用する必要があるのは1回だけであることに留意されたい。さらに、カウント推定部201の特徴点抽出部211での計算はそれほど複雑ではなく、ACNNモデルの訓練処理を繰り返す必要はない。その結果、提案した方法は他の既存の方法よりも高速である。
上記で説明したように、関連技術の問題の1つは、ACNNのMLFPNブロック内のFPNカウントアーキテクチャパラメータのためのいくつかの候補値を探索することが困難であることにある。この問題の理由は、FPNカウントアーキテクチャパラメータのために探索されるいくつかの候補値が存在することである。また、計算の複雑さと精度の間にはトレードオフが存在する。
カウント推定部201は、ACNNモデルに必要なFPNブロック数を示す値を推定するため、ACNNモデルにおける最適なFPNカウントパラメータ値を決定するための時間効率の良い方法を提供することができる。また、本実施形態では、ACNNモデルは、FPNブロックを有するMLFPNブロックを含み、カウント推定部201は、MLFPNブロック内に積み重ねられるFPNブロックの数値を推定する。したがって、ACNNモデル訓練システム200は、MLFPNブロックを含むACNNモデルを訓練することができる。
さらに、推定部212は、訓練データセットTD内の各対象クラスのオブジェクト及び特徴点の数に基づいて、FPNブロックの数値を推定する。これにより、ACNNモデル訓練部202は、画像の内容に対応するFPNブロックのレベルを設定することができる。
また、推定部212は、各対象クラスのFPNブロックの各数値を算出し、各対象クラスのFPNブロック数の最大値を推定値として出力する。したがって、ACNNモデル訓練部202は、FPNブロックのレベルを最小値として設定することができ、FPNブロックのパラメータは、ACNNモデルによる計算結果が正しいことを保証する。
また、特徴点抽出部211は、訓練データセットTD内の画像の特徴点を抽出し、その特徴点を用いてFPNブロックの数値を推定する。これにより、ACNNモデル訓練部202は、ACNNモデルをオブジェクトの識別に適したものとするために、FPNブロックのレベルを設定することができる。
さらに、特徴点抽出部211は抽出された特徴点をフィルタリングし、推定部212はフィルタリングされた特徴点を使用してFPNブロックの数値を推定する。カウント推定部201は、可能な限り最小の値を設定することができるため、FPNブロックのレベルを小さくすることができる。
次に、上記の複数の実施形態で説明された情報処理装置の構成例について、図15を参照して以下で説明する。
図15は、情報処理装置の構成例を示すブロック図である。情報処理装置90は、図15に示すように、ネットワークインタフェース91、プロセッサ92及びメモリ93を備える。
ネットワークインタフェース91は、通信システムを構成する他のネットワークノード装置との通信に使用される。たとえば、ネットワークインタフェース91は、訓練データセットTDを受信してもよい。
プロセッサ92は、メモリ93からソフトウェア(コンピュータプログラム)をロードし、ロードされたソフトウェアを実行することによって、上記の実施形態の図面で参照して説明された処理を行う。プロセッサ92は、例えば、マイクロプロセッサ、MPU(Micro Processing Unit)、又はCPU(Central Processing Unit)であってもよい。プロセッサ92は、複数のプロセッサを含んでもよい。この場合、各プロセッサは、命令群を含む1または複数のプログラムを実行して、図面を参照して上記で説明したアルゴリズムをコンピュータに実行させる。
メモリ93は揮発性メモリで構成されてもよいし、不揮発性メモリで構成されてもよいが、メモリ93は揮発性メモリと不揮発性メモリの組み合わせで構成されてもよい。メモリ93は、プロセッサ92から離間して配置されたストレージを含んでもよい。この場合、プロセッサ92はI/Oインタフェース(不図示)を介してメモリ93にアクセスしてもよい。
図15に示された例では、ソフトウェアモジュール群を格納するためにメモリ93が使用されている。プロセッサ92は、メモリ93からソフトウェアモジュール群を読み込み、読み込んだソフトウェアモジュールを実行することで、上記の実施形態で説明された処理を行うことができる。
上述のように、上記の実施形態での各構成は、ハードウェアとソフトウェア(コンピュータプログラム)の組み合わせで構成されてもよい。ただし、各構成は、単独のハードウェアまたはソフトウェアで構成されてもよいし、複数のハードウェアまたはソフトウェアで構成されてもよい。
コンピュータプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。コンピュータプログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、非一時的なコンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disk(DVD)、Blu-rayディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含んでもよい。コンピュータプログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含んでもよい。
なお、本開示は、上記の実施形態に限定されるものではなく、本開示の趣旨及び範囲を逸脱しない状態で、適宜修正することができる。
100 モデル訓練装置
101 推定部
102 Artificial Convolutional Neural Network(ACNN)モデル訓練部
200 ACNNモデル訓練システム
201 カウント推定部
202 ACNNモデル訓練部
211 特徴点抽出部
212 推定部
コンピュータプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。コンピュータプログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、非一時的なコンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disk(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含んでもよい。コンピュータプログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含んでもよい。

Claims (8)

  1. 訓練データセットを用いてArtificial Convolutional Neural Network(ACNN)モデルに含まれる特徴ピラミッドネットワーク(FPN)ブロックの数値を推定する推定手段と、
    推定値を用いて前記ACNNモデルを訓練するACNNモデル訓練手段と、
    を備えるモデル訓練装置。
  2. 前記ACNNモデルは、FPNブロックを含むマルチレベル特徴ピラミッドネットワーク(MLFPN)ブロックを含み、
    前記推定手段は、前記MLFPNブロック内に積み重ねられたFPNブロックの数値を推定する、
    請求項1に記載のモデル訓練装置。
  3. 前記推定手段は、前記訓練データセット内の各対象クラスのオブジェクトおよび特徴点の数に基づいて、前記FPNブロックの数値を推定する、
    請求項2に記載のモデル訓練装置。
  4. 前記推定手段は、各対象クラスの前記FPNブロックの各数値を算出し、各対象クラスのFPNブロック数の最大値を推定値として出力する、
    請求項3に記載のモデル訓練装置。
  5. 前記推定手段は、前記訓練データセット内の画像の特徴点を抽出し、前記特徴点を用いて前記FPNブロックの数値を推定する、
    請求項3又は4に記載のモデル訓練装置。
  6. 前記推定手段は、抽出された特徴点をフィルタリングし、フィルタリングされた特徴点を用いて前記FPNブロックの数値を推定する、
    請求項5に記載のモデル訓練装置。
  7. 訓練データセットを用いてArtificial Convolutional Neural Network(ACNN)モデルに含まれる特徴ピラミッドネットワーク(FPN)ブロックの数値を推定し、
    推定値を用いて前記ACNNモデルを訓練する、
    モデル訓練方法。
  8. 訓練データセットを用いてArtificial Convolutional Neural Network(ACNN)モデルに含まれる特徴ピラミッドネットワーク(FPN)ブロックの数値を推定し、
    推定値を用いて前記ACNNモデルを訓練する、
    ことをコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
JP2023573471A 2021-06-02 2021-06-02 モデル訓練装置、モデル訓練方法及びプログラム Pending JP2024521197A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/020948 WO2022254597A1 (en) 2021-06-02 2021-06-02 Model training apparatus, model training method, and computer readable medium

Publications (1)

Publication Number Publication Date
JP2024521197A true JP2024521197A (ja) 2024-05-28

Family

ID=84322873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023573471A Pending JP2024521197A (ja) 2021-06-02 2021-06-02 モデル訓練装置、モデル訓練方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2024521197A (ja)
WO (1) WO2022254597A1 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017182710A (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法および情報提供方法

Also Published As

Publication number Publication date
WO2022254597A1 (en) 2022-12-08

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
EP3333768A1 (en) Method and apparatus for detecting target
CN110046550B (zh) 基于多层特征学习的行人属性识别系统及方法
EP3204888A1 (en) Spatial pyramid pooling networks for image processing
CN110069989B (zh) 人脸图像处理方法及装置、计算机可读存储介质
US20220351502A1 (en) Multiple object detection method and apparatus
CN115631112B (zh) 一种基于深度学习的建筑轮廓矫正方法及装置
KR20220056707A (ko) 얼굴의 정렬 형태에 강인한 얼굴 인식 방법 및 그 장치
CN114266894A (zh) 一种图像分割方法、装置、电子设备及存储介质
CN114783021A (zh) 一种口罩佩戴智能检测方法、装置、设备及介质
CN113361567B (zh) 图像处理方法、装置、电子设备和存储介质
CN111444807A (zh) 目标检测方法、装置、电子设备和计算机可读介质
CN114639101A (zh) 一种乳状液液滴识别系统、方法、计算机设备及存储介质
CN111340139B (zh) 一种图像内容复杂度的判别方法及装置
CN113763331A (zh) 冠状动脉优势型判定方法、装置、存储介质及电子设备
CN112257689A (zh) 人脸识别模型的训练和识别方法、存储介质及相关设备
CN115984671A (zh) 模型在线更新方法、装置、电子设备及可读存储介质
JP2024521197A (ja) モデル訓練装置、モデル訓練方法及びプログラム
CN114863570A (zh) 视频动作识别模型的训练、识别方法、装置以及介质
CN112446292B (zh) 一种2d图像显著目标检测方法及系统
CN114581467A (zh) 一种基于残差膨胀空间金字塔网络算法的图像分割方法
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
WO2021245945A1 (ja) 敵対的サンプル検知装置、敵対的サンプル検知方法、およびプログラム
CN114399432A (zh) 目标识别方法、装置、设备、介质及产品
KR20100009451A (ko) 영상의 그라운드 라인 결정 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231128

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231128