JP7335430B2 - 目標検出モデルの自動モデリング方法及び装置 - Google Patents

目標検出モデルの自動モデリング方法及び装置 Download PDF

Info

Publication number
JP7335430B2
JP7335430B2 JP2022517307A JP2022517307A JP7335430B2 JP 7335430 B2 JP7335430 B2 JP 7335430B2 JP 2022517307 A JP2022517307 A JP 2022517307A JP 2022517307 A JP2022517307 A JP 2022517307A JP 7335430 B2 JP7335430 B2 JP 7335430B2
Authority
JP
Japan
Prior art keywords
target detection
detection model
model
nas
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022517307A
Other languages
English (en)
Other versions
JP2022548293A (ja
Inventor
紅麗 劉
峰 李
▲シン▼ 劉
Original Assignee
▲蘇▼州浪潮智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ▲蘇▼州浪潮智能科技有限公司 filed Critical ▲蘇▼州浪潮智能科技有限公司
Publication of JP2022548293A publication Critical patent/JP2022548293A/ja
Application granted granted Critical
Publication of JP7335430B2 publication Critical patent/JP7335430B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Description

本出願は、2019年9月25日に出願された中国特許出願第201910912868.1号(発明の名称:目標検出モデルの自動モデリング方法及び装置)に基づく優先権を主張し、引用によりその全ての記載内容が本明細書に組み込まれる。
本発明は、目標検出の分野に関し、特に目標検出の分野における自動モデリング方法及び装置に関する。
目標検出は、画像処理やコンピュータビジョン分野における古典的な課題として、交通監視、画像探索、人間とコンピュータの相互作用などに幅広く用いられている。これは、静止画像(又は動画)において、人が興味を持っている目標となる対象物を検出することを目的とする。現在、主流となっているアルゴリズムはYolo、SSD、R-CNN系アルゴリズムなどである。しかしながら、従来の目標検出アルゴリズムは、固定ネットワーク構造を用いて画像特徴を抽出し、異なるタスク及びデータ特性に応じて異なるネットワーク構造を用いて最適な画像特徴を抽出することができず、人工的に設計された目標検出モデルは、特定のタスクに対してのみ高い精度を実現することができ、柔軟性に欠ける。
本発明の課題は、異なるタスクに応じて異なるモデルを探索でき、目標検出効果を向上させることができる目標検出モデルの自動モデリング方法を提供することである。
上記課題を解決するために、本発明の実施形態において、
予め定められた第1ニューラルネットワークに基づいて、ニューラルネットワーク構造探索であるNASのネットワークモデルを探索するステップS1と、
訓練セットを用いて第1目標検出モデルを訓練し、訓練回数が第1所定回数に達した後、検証セットを用いて現在の第1目標検出モデルを評価し、評価結果を出力し、ここで、前記第1目標検出モデルは、前記NASのネットワークモデルと第2目標検出モデルの検出部分とを融合し得たモデルである、ステップS2と、
前記現在の第1目標検出モデルに対応する目標検出タスク報奨であるrewardを計算するステップS3と、
前記目標検出タスク報奨であるrewardに基づいて前記NASのネットワークモデルを探索するためのパラメータを調整するステップS4と、
ステップS1~S4を第2所定回数で繰り返し、評価結果に基づいて最適な第1目標検出モデルを決定するステップと、を含む目標検出モデルの自動モデリング方法が提供される。
好ましくは、第1ニューラルネットワークは、循環ニューラルネットワークであるRNNであり、
ステップS1は、
予め構成されたハイパーパラメータに基づいて、循環ニューラルネットワークであるRNNのコントローラによって標本抽出し、サブネットワーク構造コードを取得し、ここで、前記ハイパーパラメータは、サブネットワークのハイパーパラメータ、コントローラのハイパーパラメータを含み、サブネットワークのハイパーパラメータは、サブネットワークの層数、セル分岐数、サブネットワーク学習率に関するパラメータ、出力チャネル数を含み、コントローラのハイパーパラメータは、コントローラ学習率に関するパラメータ、オプティマイザの構成パラメータを含むステップS11と、
前記サブネットワーク構造コードをデコーダでデコードし、NASのネットワークモデルを出力するステップS12と、を含む。
好ましくは、前記NASのネットワークモデルは、完全な接続層を有しないNASネットワークであり、
前記NASネットワークと第1目標検出モデルの検出部分との融合は、
前記NASのネットワークモデルの複数の異なるスケールの出力端末が、それぞれ1つの1*1畳み込み層に接続され、前記1*1畳み込み層の出力を、前記第2目標検出モデルの検出部分の入力とする。
好ましくは、前記評価結果に基づいて最適な第1目標検出モデルを決定した後、
訓練セットを用いて評価結果が最適な第1目標検出モデルを訓練し、前記訓練された後の評価結果が最適な第1目標検出モデルをテストセットでテストするステップを含む。
好ましくは、前記第2目標検出モデルは、Yoloを含む。
検証セットを用いて現在の第1目標検出モデルを評価するステップは、
検証セットを用いて、現在の第1目標検出モデルに対して平均精度MAP評価を行うことを含み、
前記評価結果に基づいて最適な第1目標検出モデルを決定するステップは、
第2所定回数内で最大のMAPに対応する第1目標検出モデルを最適な第1目標検出モデルとして決定することを含む。
好ましくは、前記現在の第1目標検出モデルに対応する目標検出タスク報奨であるrewardを計算するステップは、
好ましくは、前記rewardに基づいて前記NASのネットワークモデルを探索するためのパラメータを調整するステップは、
前記rewardを前記RNNのコントローラにフィードバックし、
上記課題を解決するために、本発明の実施形態において、目標検出モデルの自動モデリング装置がさらに提供され、目標検出モデルの自動モデリング装置であって、メモリとプロセッサを含み、
前記メモリは、目標検出モデルの自動モデリングためのプログラムを保存するために用いられ、
前記プロセッサは、前記目標検出モデルの自動モデリングためのプログラムを読み取り実行することをために用いられ、以下の動作を実行し、
予め定められた第1ニューラルネットワークに基づいて、ニューラルネットワーク構造探索であるNASのネットワークモデルを探索するステップS1と、
訓練セットを用いて第1目標検出モデルを訓練し、訓練回数が第1所定回数に達した後、検証セットを用いて現在の第1目標検出モデルを評価し、評価結果を出力し、ここで、前記第1目標検出モデルは、前記NASのネットワークモデルと第2目標検出モデルの検出部分とを融合し得たモデルである、ステップS2と、
前記現在の第1目標検出モデルに対応する目標検出タスク報奨であるrewardを計算するステップS3と、
前記目標検出タスク報奨であるrewardに基づいて前記NASのネットワークモデルを探索するためのパラメータを調整するステップS4と、
ステップS1~S4を第2所定回数で繰り返し、評価結果に基づいて最適な第1目標検出モデルを決定するステップと、を含む。
好ましくは、前記第1ニューラルネットワークは、循環ニューラルネットワークであるRNNであり、
ステップS1は、
予め構成されたハイパーパラメータに基づいて、循環ニューラルネットワークであるRNNのコントローラによって標本抽出し、サブネットワーク構造コードを取得し、ここで、前記ハイパーパラメータは、サブネットワークのハイパーパラメータ、コントローラのハイパーパラメータを含み、サブネットワークのハイパーパラメータは、サブネットワークの層数、セル分岐数、サブネットワーク学習率に関するパラメータ、出力チャネル数を含み、コントローラのハイパーパラメータは、コントローラ学習率に関するパラメータ、オプティマイザの構成パラメータを含むステップS11と、
前記サブネットワーク構造コードをデコーダでデコードし、NASのネットワークモデルを出力するステップS12と、を含む。
好ましくは、前記NASのネットワークモデルは、完全な接続層を有しないNASネットワークであり、
前記NASネットワークと第1目標検出モデルの検出部分との融合は、
前記NASのネットワークモデルの複数の異なるスケールの出力端末が、それぞれ1つの1*1畳み込み層に接続され、前記1*1畳み込み層の出力を、前記第2目標検出モデルの検出部分の入力とする。
好ましくは、前記プロセッサは、前記目標検出モデルの自動モデリングためのプログラムを読み取り実行することをために用いられ、以下の動作を実行し、
前記評価結果に基づいて最適な第1目標検出モデルを決定した後、訓練セットを用いて評価結果が最適な第1目標検出モデルを訓練し、前記訓練された後の評価結果が最適な第1目標検出モデルをテストセットでテストする。
好ましくは、前記第2目標検出モデルは、Yoloを含む。
好ましくは、検証セットを用いて現在の第1目標検出モデルを評価するステップは、
検証セットを用いて、現在の第1目標検出モデルに対して平均精度MAP評価を行うことを含み、
前記評価結果に基づいて最適な第1目標検出モデルを決定するステップは、
第2所定回数内で最大のMAPに対応する第1目標検出モデルを最適な第1目標検出モデルとして決定することを含む。
好ましくは、前記現在の第1目標検出モデルに対応する目標検出タスク報奨であるrewardを計算するステップは、
好ましくは、前記rewardに基づいて前記NASのネットワークモデルを探索するためのパラメータを調整するステップは、
前記rewardを前記RNNのコントローラにフィードバックし、
本発明の実施形態は、目標検出モデルの自動モデリング方法および装置を提供し、異なるタスクに応じて探索された特徴抽出モデルを、従来技術の目標検出モデルと融合して新たな目標検出モデルを形成することにより、目標検出効果を向上させる。
本発明の実施形態に係る目標検出モデルの自動モデリング方法を示す図である。 本発明の実施形態に係る目標検出モデルの自動モデリングのフローチャートである。 本発明の実施形態に係るYolo3の原理図である。 本発明の実施形態に係るYolo3-NASモデルの自動モデリングを示す図である。 本発明の実施形態に係る目標検出モデルの自動モデリング装置を示す図である。
本発明の目的、技術的解決策および利点をより明確にするために、以下、添付の図面を参照して本発明の実施形態を詳細に説明する。なお、本出願の実施形態および実施形態の特徴は、矛盾がない限り、任意に互いに組み合わせることができる。
実施形態1
図1は、本発明の実施形態に係る目標検出モデルの自動モデリング方法を示す図であり、図1に示すように、本実施形態の自動モデリング方法は、以下のステップを含む。
ステップS1:予め定められた第1ニューラルネットワークに基づいてNASのネットワークモデルを探索する。
一例示的な実施形態では、第1ニューラルネットワークは、循環ニューラルネットワークであるRNNであってもよく、NASのネットワークモデルは、ニューラルネットワーク構造探索( Neural Architecture Search )ネットワークモデルを意味する。
ステップS1は、
予め構成されたハイパーパラメータに基づいて、循環ニューラルネットワークであるRNNのコントローラによって標本抽出し、サブネットワーク構造コードを取得し、ここで、前記ハイパーパラメータは、サブネットワークのハイパーパラメータ、コントローラのハイパーパラメータを含み、サブネットワークのハイパーパラメータは、サブネットワークの層数、セル分岐数、サブネットワーク学習率に関するパラメータ、出力チャネル数を含み、コントローラのハイパーパラメータは、コントローラ学習率に関するパラメータ、オプティマイザの構成パラメータを含むステップS11と、
前記サブネットワーク構造コードをデコーダでデコードし、NASのネットワークモデルを出力するステップS12と、を含んでもよい。
ステップS2:訓練セットを用いて第1目標検出モデルを訓練し、訓練回数が第1所定回数に達した後、検証セットを用いて現在の第1目標検出モデルを評価し、評価結果を出力し、ここで、前記第1目標検出モデルは、前記NASのネットワークモデルと第2目標検出モデルの検出部分とを融合し得たモデルである。
一例示的な実施形態において、NASのネットワークモデルは、完全な接続層を有しないNASネットワークである。
一例示的な実施形態において、前記NASネットワークと第1目標検出モデルの検出部分との融合は、
前記NASのネットワークモデルの複数の異なるスケールの出力端末が、それぞれ1つの1*1畳み込み層に接続され、前記1*1畳み込み層の出力を、前記第2目標検出モデルの検出部分の入力とする。
一例示的な実施形態において、検証セットを用いて現在の第1目標検出モデルを評価するステップは、
検証セットを用いて、現在の第1目標検出モデルに対して平均精度MAP評価を行うことを含んでもよい。
ここで、前記第2目標検出モデルはYoloを含んでもよい。Yolo (You Only Live Once )は、ディープニューラルネットワークに基づく対象認識及び位置特定のためのアルゴリズムである。それは、ワンステージ(one-stage)のアルゴリズムに属し、すなわち、入力画像に対して直接にアルゴリズムを適用し、カテゴリおよび対応する位置を出力することである。
一例示的な実施形態において、前記評価結果に基づいて最適な第1目標検出モデルを決定するステップは、
第2所定回数内で最大のMAPに対応する第1目標検出モデルを最適な第1目標検出モデルとして決定することを含んでもよい。
ステップS3:前記現在の第1目標検出モデルに対応する目標検出タスク報奨であるrewardを計算する。
一例示的な実施形態において、前記現在の第1目標検出モデルに対応する目標検出タスク報奨であるrewardを計算するステップは、
ステップS4:前記目標検出タスク報奨であるrewardに基づいて前記NASのネットワークモデルを探索するためのパラメータを調整する。
一例示的な実施形態において、前記rewardに基づいて前記NASのネットワークモデルを探索するためのパラメータを調整するステップは、
前記rewardを前記RNNのコントローラにフィードバックし、
ここで、NASのネットワークモデルに用いられるパラメータは、RNNのコントローラの訓練可能なパラメータを含んでもよい。
ステップS5:ステップS1~S4を第2所定回数で繰り返し、評価結果に基づいて最適な第1目標検出モデルを決定する。
一例示的な実施形態において、前記評価結果に基づいて最適な第1目標検出モデルを決定するステップは、
第2所定回数内で最大のMAPに対応する第1目標検出モデルを最適な第1目標検出モデルとして決定することを含んでもよい。
一例示的な実施形態において、前記評価結果に基づいて最適な第1目標検出モデルを決定した後、
訓練セットを用いて評価結果が最適な第1目標検出モデルを訓練し、前記訓練された後の評価結果が最適な第1目標検出モデルをテストセットでテストするステップを含んでもよい。
実施形態2
図2は、本発明の実施形態に係る目標検出モデルの自動モデリングを示す図である。図2に示すように、以下のステップを含む。
ステップ201:入力を初期化する。
入力を初期化するステップは、ハイパーパラメータを構成することと、データセットをデータベースに読み込むことと、を含む。ここで、ハイパーパラメータは、サブネットワークのハイパーパラメータとコントローラのハイパーパラメータとを含んでもよい。このうち、サブネットワークのハイパーパラメータは、主に、サブネットワークの層数、セル分岐数、モデル学習率に関連するパラメータ、出力チャネル数などを含む。サブネットワークの層数とはセルの個数であり、サブネットワーク学習率に関するパラメータとは、例えば、指数関数的減衰における減衰率、減衰ステップなどである。上記データセットは、訓練セット、検証セット及びテストセットを含んでよい。
ステップ202:RNNネットワークをコントローラとして使用し、サブネットワークの構造コードを標本抽出し出力する。
ステップ203:デコーダによりNASのネットワークモデルを出力し、Yolo3の出力部分を融合し、Yolo3-NASモデルを形成させる。
図3に示すように、現在のYolo3はDarknet-53であるネットワーク構造を採用して画像特徴を抽出し、検出部分では、FPN ( feature pyramid networks )の考え方を参考にした。
図4に示すように、本発明はYolo3における特徴抽出ネットワークであるDarknet-53を自動探索で生成するNASネットワーク( normal cellとreduce cellとの重ね)に置き替え、NASのネットワークモデルの完全な接続層を除去し、NASのネットワークモデルの複数の出力端末に1*1畳み込みを加えることにより、Yoloの検出出力部分と融合してYolo3-NASモデルを形成させる。なお、本実施形態では、Yolo3を基礎として説明するが、実際の応用では、Yolo3に限定されるものではなく、他の目標検出モデルもこのように変形することができる。
ステップ204:訓練セットでYolo3-NASモデルを訓練し、予め設定された訓練回数に達した後、検証セットを通じてYolo3-NASモデルを検証し、評価結果を出力する。
ここで、評価結果は、平均精度MAPを用いて評価することができる。MAP評価は従来技術であり、ここでは詳しい説明を省略する。
ステップ205:Yolo3-NASモデルに対応する目標検出タスク報奨であるrewardを計算する。
ここで、報奨(reward)の計算式は、
ステップ206:rewardをコントローラにフィードバックし、当該コントローラの訓練可能パラメータを更新する。
ステップ207:上記ステップ202~206を所定回数繰り返し、該所定回数において、評価結果が最大のものを、探索された最適なサブネットワークモデルとして、即ち、前記NASのネットワークモデルと第2目標検出モデルの検出部分とを融合し得たモデルとして、再訓練し、テストセットでその最終的な効果をテストする。
本発明は、目標検出を最適なモデルを自動的に探索する方式に変更することにより、異なるタスクに応じて異なるモデルを探索することができ、これにより、対象を絞った方法で検出効果を向上させることができる。
図5は、本発明の実施形態に係る目標検出モデルの自動モデリング装置を示す図である。図5に示すように、本実施形態に係る自動モデリング装置は、メモリとプロセッサを含み、
前記メモリは、目標検出モデルの自動モデリングためのプログラムを保存するために用いられ、
前記プロセッサは、前記目標検出モデルの自動モデリングためのプログラムを読み取り実行することをために用いられ、以下の動作を実行し、
予め定められた第1ニューラルネットワークに基づいて、ニューラルネットワーク構造探索であるNASのネットワークモデルを探索するステップS1と、
訓練セットを用いて第1目標検出モデルを訓練し、訓練回数が第1所定回数に達した後、検証セットを用いて現在の第1目標検出モデルを評価し、評価結果を出力し、ここで、前記第1目標検出モデルは、前記NASのネットワークモデルと第2目標検出モデルの検出部分とを融合し得たモデルである、ステップS2と、
前記現在の第1目標検出モデルに対応する目標検出タスク報奨であるrewardを計算するステップS3と、
前記目標検出タスク報奨であるrewardに基づいて前記NASのネットワークモデルを探索するためのパラメータを調整するステップS4と、
ステップS1~S4を第2所定回数で繰り返し、評価結果に基づいて最適な第1目標検出モデルを決定するステップと、を含む。
好ましくは、前記第1ニューラルネットワークは、循環ニューラルネットワークであるRNNである。
好ましくは、ステップS1は、
予め構成されたハイパーパラメータに基づいて、循環ニューラルネットワークであるRNNのコントローラによって標本抽出し、サブネットワーク構造コードを取得し、ここで、前記ハイパーパラメータは、サブネットワークのハイパーパラメータ、コントローラのハイパーパラメータを含み、サブネットワークのハイパーパラメータは、サブネットワークの層数、セル分岐数、サブネットワーク学習率に関するパラメータ、出力チャネル数を含み、コントローラのハイパーパラメータは、コントローラ学習率に関するパラメータ、オプティマイザの構成パラメータを含む、ステップS11と、
前記サブネットワーク構造コードをデコーダでデコードし、NASのネットワークモデルを出力するステップS12と、を含む。
好ましくは、前記NASのネットワークモデルは、完全な接続層を有しないNASネットワークである。
好ましくは、前記NASネットワークと第1目標検出モデルの検出部分との融合は、
前記NASのネットワークモデルの複数の異なるスケールの出力端末が、それぞれ1つの1*1畳み込み層に接続され、前記1*1畳み込み層の出力を、前記第2目標検出モデルの検出部分の入力とする。
好ましくは、前記プロセッサは、前記目標検出モデルの自動モデリングためのプログラムを読み取り実行することをために用いられ、以下の動作を実行し、
前記評価結果に基づいて最適な第1目標検出モデルを決定した後、訓練セットを用いて評価結果が最適な第1目標検出モデルを訓練し、前記訓練された後の評価結果が最適な第1目標検出モデルをテストセットでテストする。
好ましくは、前記第2目標検出モデルは、Yoloを含む。
好ましくは、検証セットを用いて現在の第1目標検出モデルを評価するステップは、
検証セットを用いて、現在の第1目標検出モデルに対して平均精度MAP評価を行うことを含む。
好ましくは、 前記評価結果に基づいて最適な第1目標検出モデルを決定するステップは、
第2所定回数内で最大のMAPに対応する第1目標検出モデルを最適な第1目標検出モデルとして決定することを含む。
好ましくは、前記現在の第1目標検出モデルに対応する目標検出タスク報奨であるrewardを計算するステップは、
好ましくは、前記rewardに基づいて前記NASのネットワークモデルを探索するためのパラメータを調整するステップは、
前記rewardを前記RNNのコントローラにフィードバックし、
当業者は、上述の方法のステップの全部または一部は、読み取り専用メモリ、磁気ディスク、または光ディスクなどのコンピュータ可読記憶媒体に記憶されてもよいプログラムによって、関連するハードウェアに実行するように命令されてもよいことを理解するであろう。オプションとして、上述の実施形態のステップの全部または一部は、1つまたは複数の集積回路を使用して実施されてもよい。従って、上述の実施形態における各モジュール/ユニットは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能モジュールの形態で実現されてもよい。本発明は、ハードウェアおよびソフトウェアのいずれの特定の形態の組み合わせにも限定されない。
以上、本発明の好ましい実施形態のみである。もちろん、本発明は、他にも様々な実施形態を有していてもよく、当業者であれば、本発明の精神及びその本質を逸脱することなく、本発明に応じて様々な変更及び変形を行うことができるが、これらの変更及び変形はすべて本発明に添付された請求項の保護範囲に含まれるべきである。

Claims (14)

  1. 目標検出モデルの自動モデリング方法であって、
    予め定められた第1ニューラルネットワークに基づいて、ニューラルネットワーク構造探索であるNASのネットワークモデルを探索するステップS1と、
    訓練セットを用いて第1目標検出モデルを訓練し、訓練回数が第1所定回数に達した後、検証セットを用いて現在の第1目標検出モデルを評価し、評価結果を出力し、ここで、前記第1目標検出モデルは、前記NASのネットワークモデルと第2目標検出モデルの検出部分とを融合し得たモデルである、ステップS2と、
    前記現在の第1目標検出モデルに対応する目標検出タスク報奨であるrewardを計算するステップS3と、
    前記目標検出タスク報奨であるrewardに基づいて前記NASのネットワークモデルを探索するためのパラメータを調整するステップS4と、
    ステップS1~S4を第2所定回数で繰り返し、評価結果に基づいて最適な第1目標検出モデルを決定するステップと、を含み
    前記第1ニューラルネットワークは、循環ニューラルネットワークであるRNNであり、
    ステップS1は、
    予め構成されたハイパーパラメータに基づいて、循環ニューラルネットワークであるRNNのコントローラによって標本抽出し、サブネットワーク構造コードを取得し、ここで、前記ハイパーパラメータは、サブネットワークのハイパーパラメータ、コントローラのハイパーパラメータを含み、サブネットワークのハイパーパラメータは、サブネットワークの層数、セル分岐数、サブネットワーク学習率に関するパラメータ、出力チャネル数を含み、コントローラのハイパーパラメータは、コントローラ学習率に関するパラメータ、オプティマイザの構成パラメータを含むステップS11と、
    前記サブネットワーク構造コードをデコーダでデコードし、NASのネットワークモデルを出力するステップS12と、を含むことを特徴とする、方法。
  2. 前記NASのネットワークモデルは、完全な接続層を有しないNASネットワークであり、
    前記NASネットワークと第目標検出モデルの検出部分との融合は、
    前記NASのネットワークモデルの複数の異なるスケールの出力端末が、それぞれ1つの1*1畳み込み層に接続され、前記1*1畳み込み層の出力を、前記第2目標検出モデルの検出部分の入力とすることを特徴とする請求項に記載の方法。
  3. 前記評価結果に基づいて最適な第1目標検出モデルを決定した後、
    訓練セットを用いて評価結果が最適な第1目標検出モデルを訓練し、前記訓練された後の評価結果が最適な第1目標検出モデルをテストセットでテストするステップを含むことを特徴とする請求項1に記載の方法。
  4. 前記第2目標検出モデルは、Yoloを含むことを特徴とする請求項1に記載の方法。
  5. 検証セットを用いて現在の第1目標検出モデルを評価するステップは、
    検証セットを用いて、現在の第1目標検出モデルに対して平均精度MAP評価を行うことを含み、
    前記評価結果に基づいて最適な第1目標検出モデルを決定するステップは、
    第2所定回数内で最大のMAPに対応する第1目標検出モデルを最適な第1目標検出モデルとして決定することを含むことを特徴とする請求項1に記載の方法。
  6. 前記現在の第1目標検出モデルに対応する目標検出タスク報奨であるrewardを計算するステップは、

    ここで、Lclaは分類lossであり、Lregは回帰lossであり、前記baselineは予め設定された数値または公式であることを特徴とする請求項1に記載の方法。
  7. 前記rewardに基づいて前記NASのネットワークモデルを探索するためのパラメータを調整するステップは、
    前記rewardを前記RNNのコントローラにフィードバックし、
    θ←θ+γ∇θlogπθ(st,at)・Rtにより前記RNNのコントローラの訓練可能パラメータを更新することを含み、ここで、θは前記RNNのコントローラの訓練可能パラメータを表し、γ∇θは前記訓練可能パラメータの逆伝搬勾配を表し、γは予め設定されたパラメータを表し、logπθ(st,at)はステップS1をt回目に実行する時に、探索されたNASのネットワークモデルに対応する交差エントロピーlossであり、RtはステップS1をt回目に実行する時に、探索されたNASのネットワークモデルに対応するreward値を表すことを特徴とする請求項に記載の方法。
  8. 目標検出モデルの自動モデリング装置であって、メモリとプロセッサを含み、
    前記メモリは、目標検出モデルの自動モデリングためのプログラムを保存するために用いられ、
    前記プロセッサは、前記目標検出モデルの自動モデリングためのプログラムを読み取り実行するために用いられ、以下の動作を実行し、
    予め定められた第1ニューラルネットワークに基づいてニューラルネットワーク構造を探索することよりNASのネットワークモデルを探索するステップS1と、
    訓練セットを用いて第1目標検出モデルを訓練し、訓練回数が第1所定回数に達した後、検証セットを用いて現在の第1目標検出モデルを評価し、評価結果を出力し、ここで、前記第1目標検出モデルは、前記NASのネットワークモデルと第2目標検出モデルの検出部分とを融合し得たモデルである、ステップS2と、
    前記現在の第1目標検出モデルに対応する目標検出タスク報奨であるrewardを計算するステップS3と、
    前記目標検出タスク報奨であるrewardに基づいて前記NASのネットワークモデルを探索するためのパラメータを調整するステップS4と、
    ステップS1~S4を第2所定回数で繰り返し、評価結果に基づいて最適な第1目標検出モデルを決定するステップと、を含み
    前記第1ニューラルネットワークは、循環ニューラルネットワークであるRNNであり、
    ステップS1は、
    予め構成されたハイパーパラメータに基づいて、循環ニューラルネットワークであるRNNのコントローラによって標本抽出し、サブネットワーク構造コードを取得し、ここで、前記ハイパーパラメータは、サブネットワークのハイパーパラメータ、コントローラのハイパーパラメータを含み、サブネットワークのハイパーパラメータは、サブネットワークの層数、セル分岐数、サブネットワーク学習率に関するパラメータ、出力チャネル数を含み、コントローラのハイパーパラメータは、コントローラ学習率に関するパラメータ、オプティマイザの構成パラメータを含むステップS11と、
    前記サブネットワーク構造コードをデコーダでデコードし、NASのネットワークモデルを出力するステップS12と、を含むことを特徴とする装置。
  9. 前記NASのネットワークモデルは、完全な接続層を有しないNASネットワークであり、
    前記NASネットワークと第目標検出モデルの検出部分との融合は、
    前記NASのネットワークモデルの複数の異なるスケールの出力端末が、それぞれ1つの1*1畳み込み層に接続され、前記1*1畳み込み層の出力を、前記第2目標検出モデルの検出部分の入力とすることを特徴とする請求項に記載の装置。
  10. 前記プロセッサは、前記目標検出モデルの自動モデリングためのプログラムを読み取り実行するために用いられ、以下の動作を実行し、
    前記評価結果に基づいて最適な第1目標検出モデルを決定した後、訓練セットを用いて評価結果が最適な第1目標検出モデルを訓練し、前記訓練された後の評価結果が最適な第1目標検出モデルをテストセットでテストすることを特徴とする請求項8に記載の装置。
  11. 前記第2目標検出モデルは、Yoloを含むことを特徴とする請求項に記載の装置。
  12. 検証セットを用いて現在の第1目標検出モデルを評価するステップは、
    検証セットを用いて、現在の第1目標検出モデルに対して平均精度MAP評価を行うことを含み、
    前記評価結果に基づいて最適な第1目標検出モデルを決定するステップは、
    第2所定回数内で最大のMAPに対応する第1目標検出モデルを最適な第1目標検出モデルとして決定することを含むことを特徴とする請求項に記載の装置。
  13. 前記現在の第1目標検出モデルに対応する目標検出タスク報奨であるrewardを計算するステップは、

    ここで、Lclaは分類lossであり、Lregは回帰lossであり、前記baselineは予め設定された数値または公式であることを特徴とする請求項に記載の装置。
  14. 前記rewardに基づいて前記NASのネットワークモデルを探索するためのパラメータを調整するステップは、
    前記rewardを前記RNNのコントローラにフィードバックし、
    θ←θ+γ∇θlogπθ(st,at)・Rtにより前記RNNのコントローラの訓練可能パラメータを更新することを含み、ここで、θは前記RNNのコントローラの訓練可能パラメータを表し、γ∇θは前記訓練可能パラメータの逆伝搬勾配を表し、γは予め設定されたパラメータを表し、logπθ(st,at)はステップS1をt回目に実行する時に、探索されたNASのネットワークモデルに対応する交差エントロピーlossであり、RtはステップS1をt回目に実行する時に、探索されたNASのネットワークモデルに対応するreward値を表すことを特徴とする請求項8に記載の装置。
JP2022517307A 2019-09-25 2019-12-30 目標検出モデルの自動モデリング方法及び装置 Active JP7335430B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910912868.1A CN110705573A (zh) 2019-09-25 2019-09-25 一种目标检测模型的自动建模方法及装置
CN201910912868.1 2019-09-25
PCT/CN2019/130024 WO2021056914A1 (zh) 2019-09-25 2019-12-30 一种目标检测模型的自动建模方法及装置

Publications (2)

Publication Number Publication Date
JP2022548293A JP2022548293A (ja) 2022-11-17
JP7335430B2 true JP7335430B2 (ja) 2023-08-29

Family

ID=69196577

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022517307A Active JP7335430B2 (ja) 2019-09-25 2019-12-30 目標検出モデルの自動モデリング方法及び装置

Country Status (6)

Country Link
US (1) US20220383627A1 (ja)
EP (1) EP4036796A4 (ja)
JP (1) JP7335430B2 (ja)
KR (1) KR20220051383A (ja)
CN (1) CN110705573A (ja)
WO (1) WO2021056914A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738098B (zh) * 2020-05-29 2022-06-17 浪潮(北京)电子信息产业有限公司 一种车辆识别方法、装置、设备及存储介质
CN113869521A (zh) * 2020-06-30 2021-12-31 华为技术有限公司 构建预测模型的方法、装置、计算设备和存储介质
CN111930795B (zh) * 2020-07-02 2022-11-29 苏州浪潮智能科技有限公司 一种分布式模型搜索方法及系统
CN112149551A (zh) * 2020-09-21 2020-12-29 上海孚聪信息科技有限公司 一种基于嵌入式设备和深度学习的安全帽识别方法
CN116821513B (zh) * 2023-08-25 2023-11-10 腾讯科技(深圳)有限公司 一种推荐场景下的参数搜索方法、装置、设备和介质
CN117036869B (zh) * 2023-10-08 2024-01-09 之江实验室 一种基于多样性和随机策略的模型训练方法及装置
CN117291845B (zh) * 2023-11-27 2024-03-19 成都理工大学 一种点云地面滤波方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886117A (zh) 2017-10-30 2018-04-06 国家新闻出版广电总局广播科学研究院 基于多特征提取和多任务融合的目标检测算法
JP2018190332A (ja) 2017-05-11 2018-11-29 キヤノン株式会社 画像認識装置および学習装置
US20190026639A1 (en) 2017-07-21 2019-01-24 Google Llc Neural architecture search for convolutional neural networks
WO2019084560A1 (en) 2017-10-27 2019-05-02 Google Llc SEARCH FOR NEURONAL ARCHITECTURES

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120051208A (ko) * 2010-11-12 2012-05-22 엘지전자 주식회사 멀티미디어 장치의 사물을 이용한 제스쳐 인식 방법 및 장치
CN109063759A (zh) * 2018-07-20 2018-12-21 浙江大学 一种应用于图片多属性预测的神经网络结构搜索方法
CN109325454B (zh) * 2018-09-28 2020-05-22 合肥工业大学 一种基于YOLOv3的静态手势实时识别方法
CN109788222A (zh) * 2019-02-02 2019-05-21 视联动力信息技术股份有限公司 一种视联网视频的处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018190332A (ja) 2017-05-11 2018-11-29 キヤノン株式会社 画像認識装置および学習装置
US20190026639A1 (en) 2017-07-21 2019-01-24 Google Llc Neural architecture search for convolutional neural networks
WO2019084560A1 (en) 2017-10-27 2019-05-02 Google Llc SEARCH FOR NEURONAL ARCHITECTURES
CN107886117A (zh) 2017-10-30 2018-04-06 国家新闻出版广电总局广播科学研究院 基于多特征提取和多任务融合的目标检测算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Mingxing TAN et al.,MnasNet: Platform-Aware Neural Architecture Search for Mobile,2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),IEEE,2019年06月,pp.2815-2823

Also Published As

Publication number Publication date
KR20220051383A (ko) 2022-04-26
EP4036796A1 (en) 2022-08-03
JP2022548293A (ja) 2022-11-17
WO2021056914A1 (zh) 2021-04-01
US20220383627A1 (en) 2022-12-01
CN110705573A (zh) 2020-01-17
EP4036796A4 (en) 2023-10-18

Similar Documents

Publication Publication Date Title
JP7335430B2 (ja) 目標検出モデルの自動モデリング方法及び装置
US10521729B2 (en) Neural architecture search for convolutional neural networks
JP6755849B2 (ja) 人工ニューラルネットワークのクラスに基づく枝刈り
Manotumruksa et al. A deep recurrent collaborative filtering framework for venue recommendation
US10984319B2 (en) Neural architecture search
CN107358157A (zh) 一种人脸活体检测方法、装置以及电子设备
CN110046706B (zh) 模型生成方法、装置及服务器
CN111047563B (zh) 一种应用于医学超声图像的神经网络构建方法
US11341034B2 (en) Analysis of verification parameters for training reduction
KR102134472B1 (ko) 유전 알고리즘을 활용한 콘볼루션 뉴럴 네트워크의 최적 구조 탐색 방법
KR20190066076A (ko) 시간차 모델을 위한 비지도 학습 기법
CN112036249B (zh) 端对端行人检测及属性识别的方法、系统、介质及终端
US11514315B2 (en) Deep neural network training method and apparatus, and computer device
CN114925238A (zh) 一种基于联邦学习的视频片段检索方法及系统
CN112101438A (zh) 一种左右眼分类方法、装置、服务器和存储介质
CN116361643A (zh) 实现对象推荐的模型训练方法及对象推荐方法及相关装置
CN115905518A (zh) 基于知识图谱的情感分类方法、装置、设备以及存储介质
KR20190143527A (ko) 머신 러닝을 통한 영상 인식을 위한 장치 및 방법
CN111026661B (zh) 一种软件易用性全面测试方法及系统
CN109345274B (zh) 基于bp神经网络评分预测误差的近邻用户选择方法
CN112861689A (zh) 一种基于nas技术的坐标识别模型的搜索方法及装置
CN110705695A (zh) 搜索模型结构的方法、装置、设备和存储介质
CN113806589B (zh) 视频片段定位方法、装置以及计算机可读存储介质
CN116527411B (zh) 数据安全智能防护模型构建方法、装置及协作平台
CN108763660B (zh) 组合电路瞬态脉冲重汇聚现象可满足性分析方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230817

R150 Certificate of patent or registration of utility model

Ref document number: 7335430

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150